Regression

為排名數據(Spearman 相關性)繪製回歸線是否“可以”?

  • January 9, 2015

我有數據,我計算了 Spearman 相關性並希望將其可視化以用於出版物。因變量是排名的,自變量不是。我想要可視化的是總體趨勢而不是實際斜率,因此我對獨立進行了排名並應用了 Spearman 相關/回歸。但就在我繪製數據並將其插入手稿時,我偶然發現了這個聲明(在這個網站上):

當您進行 Spearman 等級相關時,您幾乎永遠不會使用回歸線進行描述或預測,因此不要計算回歸線的等價物

然後

您可以按照與線性回歸或相關性相同的方式繪製 Spearman 等級相關性數據。但是,不要在圖表上放置回歸線;當您使用等級相關性分析圖表時,將線性回歸線放在圖表上會產生誤導。

問題是,回歸線與我不對獨立項進行排名併計算 Pearson 相關性時沒有什麼不同。趨勢是一樣的,但是由於期刊中彩色圖形的高昂費用,我使用單色表示,實際數據點重疊太多以至於無法識別。

當然,我可以通過製作兩個不同的圖來解決這個問題:一個用於數據點(排名),一個用於回歸線(未排名),但如果事實證明我引用的來源是錯誤的或問題在我的情況下沒有那麼大的問題,它會讓我的生活更輕鬆。(我也看到了這個問題,但對我沒有幫助。)

編輯以獲取更多信息:

x 軸上的自變量表示特徵的數量,y 軸上的因變量表示分類算法在比較其性能時的排名。現在我有一些平均而言可比的算法,但我想用我的情節說的是:“雖然分類器 A 變得更好,但存在的特徵越多,分類器 B 越好,當存在的特徵越少時”

編輯 2 以包括我的情節:

繪製的算法等級與特徵數量 在此處輸入圖像描述

繪製的算法排名與排名的特徵數量 在此處輸入圖像描述

因此,重複標題中的問題:

可以為 Spearman 相關/回歸的排名數據繪製回歸線嗎?

正如您所注意到的,秩相關可用於獲取變量之間的單調關聯;因此,您通常不會為此繪製一條線。

在某些情況下,無論是 Kendall 還是 Spearman(或其他人),使用秩相關來實際擬合 numeric-y 與 numeric-x 的線是非常有意義的。請參閱此處的討論(尤其是最後一個情節)。

不過,這不是你的情況。在您的情況下,我傾向於只呈現原始數據的散點圖,可能具有平滑的關係(例如通過 LOESS)。

你期望這種關係是單調的;您可能會嘗試估計和繪製單調關係。[這裡討論了一個可以擬合等滲回歸的 R 函數——雖然該示例是單峰非等滲的,但該函數可以進行等滲擬合。]

這是我的意思的一個例子:

在此處輸入圖像描述

該圖顯示了 x 和 y 之間的單調關係;紅色曲線是黃土平滑曲線(在這種情況下由 R 生成scatter.smooth),它也恰好是單調的(有一些方法可以獲得保證單調的平滑擬合,但在這種情況下,默認的黃土平滑是單調的,所以我覺得沒必要擔心。

在此處輸入圖像描述

rank(y) 與 rank(x) 的圖,表示單調關係。綠線顯示了黃土曲線擬合值對 rank(x) 的等級。

x 和 y 等級之間的相關性(即 Spearman 相關性)為 0.892 - 高單調關聯。類似地,(單調)擬合的黃土平滑曲線() 並且 y 值也是 0.892。[不過,這並不奇怪,因為任何作為 x 的單調遞增函數的曲線都是如此,所有這些曲線也都對應於綠線。綠線不是 rank(x) 和 rank(y) 之間的回歸線,但它是對應於原始圖中單調擬合的線。排名數據的“回歸線”的斜率為 0.892,而不是 1,所以它有點“平坦”。]

如果您只顯示 rank(Y) vs X 之外的任何內容,我想我會避免在繪圖上使用線條;據我所見,它們在相關係數之上並沒有傳達太多價值。並且已經說過你只對趨勢感興趣。

[我不知道在排名-y 與排名-x 的圖上繪製回歸線是錯誤的,困難在於它的解釋。]

引用自:https://stats.stackexchange.com/questions/132830

comments powered by Disqus