線性回歸 F 統計量、R 平方和殘差標準誤差告訴我們什麼?
對於以下術語的線性回歸上下文的含義差異,我真的很困惑:
- F 統計量
- R平方
- 殘差標準誤
我發現這個網站讓我對線性回歸中涉及的不同術語有了深刻的了解,但是上面提到的術語看起來很多(據我所知)。我將引用我讀到的和讓我感到困惑的內容:
殘差標準誤差是線性回歸擬合質量的度量……殘差標準誤差是響應(dist)偏離真實回歸線的平均量。
**1.**這實際上是觀測值與 lm 線的平均距離?
R 平方統計量提供了模型與實際數據擬合程度的度量。
**2.**現在我很困惑,因為如果 RSE 告訴我們觀察到的點偏離回歸線有多遠,那麼低 RSE 實際上是在告訴我們“您的模型根據觀察到的數據點擬合得很好”-> 因此我們的模型有多好模型擬合,那麼 R 平方和 RSE 有什麼區別?
F 統計量很好地指示了我們的預測變量和響應變量之間是否存在關係。
**3.**我們是否可以有一個 F 值來指示非線性的強關係,從而使我們的 RSE 高而我們的 R 平方低
理解這些術語的最佳方法是手動進行回歸計算。我寫了兩個密切相關的答案(此處和此處),但是它們可能無法完全幫助您理解您的特定情況。但仍然通讀它們。也許它們還會幫助您更好地概念化這些術語。
在回歸(或 ANOVA)中,我們基於樣本數據集構建模型,使我們能夠預測感興趣人群的結果。為此,在一個簡單的線性回歸中計算以下三個分量,從中可以計算其他分量,例如均方、F 值、 $ R^2 $ (也經過調整 $ R^2 $ ) 和殘差標準誤差 ( $ RSE $ ):
- 總平方和 ( $ SS_{total} $ )
- 殘差平方和 ( $ SS_{residual} $ )
- 模型平方和 ( $ SS_{model} $ )
他們每個人都在評估模型描述數據的程度,並且是從數據點到擬合模型的平方距離之和(在下圖中顯示為紅線)。
這 $ SS_{total} $ 評估平均值與數據的擬合程度。為什麼意思?因為均值是我們可以擬合的最簡單的模型,因此可以用作與最小二乘回歸線進行比較的模型。該圖使用
cars
數據集說明:這 $ SS_{residual} $ 評估回歸線與數據的擬合程度。
這 $ SS_{model} $ 比較回歸線與平均值相比好多少(即 $ SS_{total} $ 和 $ SS_{residual} $ )。
為了回答您的問題,讓我們首先計算您想了解的那些術語,以模型和輸出作為參考:
# The model and output as reference m1 <- lm(dist ~ speed, data = cars) summary(m1) summary.aov(m1) # To get the sums of squares and mean squares
平方和是各個數據點到模型的平方距離:
# Calculate sums of squares (total, residual and model) y <- cars$dist ybar <- mean(y) ss.total <- sum((y-ybar)^2) ss.total ss.residual <- sum((y-m1$fitted)^2) ss.residual ss.model <- ss.total-ss.residual ss.model
均方是自由度平均的平方和:
# Calculate degrees of freedom (total, residual and model) n <- length(cars$speed) k <- length(m1$coef) # k = model parameter: b0, b1 df.total <- n-1 df.residual <- n-k df.model <- k-1 # Calculate mean squares (note that these are just variances) ms.residual <- ss.residual/df.residual ms.residual ms.model<- ss.model/df.model ms.model
我對你的問題的回答:
Q1:
- 因此,這實際上是觀測值與 lm 線的平均距離?
殘差標準誤差( $ RSE $ ) 是殘差均方( $ MS_{residual} $ ):
# Calculate residual standard error res.se <- sqrt(ms.residual) res.se
如果你還記得 $ SS_{residual} $ 是觀察到的數據點和模型的平方距離(上面第二個圖中的回歸線),以及 $ MS_{residual} $ 只是平均值 $ SS_{residual} $ ,你的第一個問題的答案是,是的: $ RSE $ 表示觀測數據與模型的平均距離。直觀地說,這也很有意義,因為如果距離更小,你的模型擬合也更好。
Q2:
- 現在我很困惑,因為如果 RSE 告訴我們觀察到的點偏離回歸線有多遠,那麼低 RSE 實際上是在告訴我們“您的模型根據觀察到的數據點擬合得很好”-> 因此我們的模型擬合得有多好,那麼 R 平方和 RSE 有什麼區別?
現在 $ R^2 $ 是的比率 $ SS_{model} $ 和 $ SS_{total} $ :
# R squared r.sq <- ss.model/ss.total r.sq
這 $ R^2 $ 表示模型(回歸線)可以解釋數據中總變化的多少。請記住,當我們將最簡單的模型擬合到數據(即均值)時,總變異是數據的變異。比較 $ SS_{total} $ 情節與 $ SS_{model} $ 陰謀。
所以要回答你的第二個問題, $ RSE $ 和 $ R^2 $ 那是 $ RSE $ 在給定觀察數據的情況下,告訴您有關模型(在本例中為回歸線)的不准確性。
這 $ R^2 $ 另一方面,告訴您模型(即回歸線)相對於僅由平均值解釋的變化(即最簡單的模型)解釋了多少變化。
問題 3:
- 我們是否可以有一個 F 值來指示非線性的強關係,從而我們的 RSE 很高而我們的 R 平方很低
所以 $ F $ - 另一邊的值被計算為模型均方 $ MS_{model} $ (或信號)除以 $ MS_{residual} $ (噪音):
# Calculate F-value F <- ms.model/ms.residual F # Calculate P-value p.F <- 1-pf(F, df.model, df.residual) p.F
或者換句話說 $ F $ - 值表示在模型不准確的情況下模型改進了多少(與平均值相比)。
您的第三個問題有點難以理解,但我同意您提供的報價。