R
關於線性關係,r、r 平方和殘差標準差告訴我們什麼?
一點背景
我正在研究回歸分析的解釋,但我對 r、r 平方和殘差標準差的含義感到非常困惑。我知道定義:
表徵
r 測量散點圖上兩個變量之間線性關係的強度和方向
R平方是數據與擬合回歸線的接近程度的統計量度。
殘差標準差是一個統計術語,用於描述圍繞線性函數形成的點的標準差,是對被測因變量準確度的估計。(不知道單位是什麼,這裡有關於單位的任何信息都會有幫助)
(來源:這裡)
問題
雖然我“理解”了這些特徵,但我確實理解這些術語如何共同得出關於數據集的結論。我將在此處插入一個小示例,也許這可以作為回答我的問題的指南(請隨意使用您自己的示例!)
示例
這不是一個很好的問題,但是我在我的書中搜索了一個簡單的示例(我正在分析的當前數據集過於復雜和龐大,無法在此處顯示)
在一大片玉米地中隨機選擇了 20 個地塊,每個 10 x 4 米。對於每個小區,觀察植物密度(小區中的植物數量)和平均玉米芯重量(每玉米芯的克數)。結果如下表所示:(
來源:生命科學統計)╔═══════════════╦════════════╦══╗ ║ Platn density ║ Cob weight ║ ║ ╠═══════════════╬════════════╬══╣ ║ 137 ║ 212 ║ ║ ║ 107 ║ 241 ║ ║ ║ 132 ║ 215 ║ ║ ║ 135 ║ 225 ║ ║ ║ 115 ║ 250 ║ ║ ║ 103 ║ 241 ║ ║ ║ 102 ║ 237 ║ ║ ║ 65 ║ 282 ║ ║ ║ 149 ║ 206 ║ ║ ║ 85 ║ 246 ║ ║ ║ 173 ║ 194 ║ ║ ║ 124 ║ 241 ║ ║ ║ 157 ║ 196 ║ ║ ║ 184 ║ 193 ║ ║ ║ 112 ║ 224 ║ ║ ║ 80 ║ 257 ║ ║ ║ 165 ║ 200 ║ ║ ║ 160 ║ 190 ║ ║ ║ 157 ║ 208 ║ ║ ║ 119 ║ 224 ║ ║ ╚═══════════════╩════════════╩══╝
首先,我將製作一個散點圖來可視化數據: 因此我可以計算 r、R 2和殘差標準差。 首先是相關性檢驗:
Pearson's product-moment correlation data: X and Y t = -11.885, df = 18, p-value = 5.889e-10 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: -0.9770972 -0.8560421 sample estimates: cor -0.9417954
其次是回歸線的總結:
Residuals: Min 1Q Median 3Q Max -11.666 -6.346 -1.439 5.049 16.496 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 316.37619 7.99950 39.55 < 2e-16 *** X -0.72063 0.06063 -11.88 5.89e-10 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 8.619 on 18 degrees of freedom Multiple R-squared: 0.887, Adjusted R-squared: 0.8807 F-statistic: 141.3 on 1 and 18 DF, p-value: 5.889e-10
所以基於這個測試:r =
-0.9417954
, R-squared:0.887
和殘差標準誤差:8.619
這些值告訴我們關於數據集的什麼?(見問題)
這些統計數據可以告訴您關係是否存在線性分量,但不能告訴您關係是否嚴格線性。具有較小二次分量的關係可以具有 0.99 的 r^2。作為預測函數的殘差圖可以揭示。在伽利略的實驗中https://ww2.amstat.org/publications/jse/v3n1/datasets.dickey.html相關性非常高,但關係顯然是非線性的。