Correlation

有沒有區別𝑟2r2r^2和𝑅2R2R^2?

  • January 20, 2015

相關係數通常用大寫字母書寫但有時不是。我想知道兩者之間是否真的有區別和? 能是指相關係數以外的其他東西嗎?

關於這個問題的符號似乎略有不同。

R 在多重相關的上下文中使用,稱為“多重相關係數”。它是觀察到的反應之間的相關性 YˆY 由模型擬合。這 ˆY 通常由幾個預測變量預測 Xi ,例如 ˆY=ˆβ0+ˆβ1X1+ˆβ2X2 其中截距和斜率係數 ˆβi 已經從數據中估算出來了。注意 0R1 .

符號 r 是雙變量情況下使用的“樣本相關係數”——即有兩個變量, XY - 它通常意味著之間的相關性 XY 在您的樣本中。您可以將其視為相關性的估計 ρ 在更廣泛的人群中的兩個變量之間。為了關聯兩個變量,不必確定哪個是預測變量,哪個是響應變量。確實,如果您發現兩者之間的相關性 YX 這將與之間的相關性相同 XY ,因為相關性是對稱的。注意 1r1 當符號 r 以這種方式使用,與 r<0 (負相關)如果兩個變量呈線性遞減關係(一個上升,另一個趨於下降)。

符號變得不一致的地方是當有兩個變量時, XY , 並進行簡單的線性回歸。這意味著確定一個變量, Y ,作為響應變量,另一個, X ,作為預測變量,並擬合模型 ˆY=ˆβ0+ˆβ1X . 有些人也使用這個符號 r 表示之間的相關性 YˆY 而其他人(為了與多元回歸保持一致)寫 R . 請注意,如果模型包含截距項,則觀察到的響應和擬合響應之間的相關性必然大於或等於零。*這是我不喜歡使用該符號的原因之一 r 在這種情況下:之間的相關性 XY 可能是負的,而兩者之間的相關性 YˆY 是正數(實際上它只是兩者之間相關性的模數 XY ) 但兩者都可以用符號書寫 r . 我看過一些教科書和維基百科的文章,在這兩種含義之間幾乎可以互換 r 並發現它不必要地令人困惑。我更喜歡使用符號 R 對於之間的相關性 YˆY 在單回歸和多元回歸中。

在簡單回歸和多元回歸中,只要模型中擬合了截距項,則 R 之間 YˆY 只是決定係數的平方根 R2 (通常稱為“解釋的方差比例”或類似名稱)。特別是在簡單線性回歸的情況下,那麼 R2=r2 我在哪裡寫作 r 對於之間的相關性 XY , 和 R2 可以表示回歸的確定係數或之間相關性的平方 YˆY . 自從 1r10R1 , 這意味著 R=|r| . 因此,例如,如果你得到之間的相關性 XYr=0.7 那麼之間的相關性 Y 和裝的 ˆY 從簡單的線性回歸 Y=ˆβ0+ˆβ1X 將是 R=0.7 決定係數為 R2=0.49 即您的模型將解釋響應中幾乎一半的變化。

如果模型中沒有包含截距項,則符號 R2 是模棱兩可的。它通常用作決定係數,但這通常會以與通常不同的方式計算,因此在讀取統計軟件的輸出時要小心。那麼就不再和多重相關的平方一樣了 R , 在雙變量情況下也不等於 r2 !實際上,當排除截距項時,決定係數甚至可能變為負數,在這種情況下,“R-squared”顯然是用詞不當。


() 之間的相關性是可能的 yˆy 如果不包括截距項,則變為負數,例如 (0,2),(1,0),(2,1) 具有最適合的 OLS ˆy=0.4x 沒有攔截,並且 Corr(y,ˆy)=Corr(x,y)=0.5 .

引用自:https://stats.stackexchange.com/questions/134167