線性回歸 F 統計量、R 平方和殘差標準誤差告訴我們什麼？

January 17, 2017

對於以下術語的線性回歸上下文的含義差異，我真的很困惑：

F 統計量

R平方

殘差標準誤

我發現這個網站讓我對線性回歸中涉及的不同術語有了深刻的了解，但是上面提到的術語看起來很多（據我所知）。我將引用我讀到的和讓我感到困惑的內容：

殘差標準誤差是線性回歸擬合質量的度量……殘差標準誤差是響應（dist）偏離真實回歸線的平均量。

**1.**這實際上是觀測值與 lm 線的平均距離？

R 平方統計量提供了模型與實際數據擬合程度的度量。

**2.**現在我很困惑，因為如果 RSE 告訴我們觀察到的點偏離回歸線有多遠，那麼低 RSE 實際上是在告訴我們“您的模型根據觀察到的數據點擬合得很好”-> 因此我們的模型有多好模型擬合，那麼 R 平方和 RSE 有什麼區別？

F 統計量很好地指示了我們的預測變量和響應變量之間是否存在關係。

**3.**我們是否可以有一個 F 值來指示非線性的強關係，從而使我們的 RSE 高而我們的 R 平方低

理解這些術語的最佳方法是手動進行回歸計算。我寫了兩個密切相關的答案（此處和此處），但是它們可能無法完全幫助您理解您的特定情況。但仍然通讀它們。也許它們還會幫助您更好地概念化這些術語。

在回歸（或 ANOVA）中，我們基於樣本數據集構建模型，使我們能夠預測感興趣人群的結果。為此，在一個簡單的線性回歸中計算以下三個分量，從中可以計算其他分量，例如均方、F 值、（也經過調整 ) 和殘差標準誤差 ( ):

總平方和 ( )

殘差平方和 ( )

模型平方和 ( )

他們每個人都在評估模型描述數據的程度，並且是從數據點到擬合模型的平方距離之和（在下圖中顯示為紅線）。

這評估平均值與數據的擬合程度。為什麼意思？因為均值是我們可以擬合的最簡單的模型，因此可以用作與最小二乘回歸線進行比較的模型。該圖使用cars數據集說明：

這評估回歸線與數據的擬合程度。

這比較回歸線與平均值相比好多少（即和）。

為了回答您的問題，讓我們首先計算您想了解的那些術語，以模型和輸出作為參考：
# The model and output as reference
m1 <- lm(dist ~ speed, data = cars)
summary(m1)
summary.aov(m1) # To get the sums of squares and mean squares
平方和是各個數據點到模型的平方距離：
# Calculate sums of squares (total, residual and model)
y <- cars$dist
ybar <- mean(y)
ss.total <- sum((y-ybar)^2)
ss.total
ss.residual <- sum((y-m1$fitted)^2)
ss.residual
ss.model <- ss.total-ss.residual
ss.model
均方是自由度平均的平方和：
# Calculate degrees of freedom (total, residual and model)
n <- length(cars$speed)
k <- length(m1$coef) # k = model parameter: b0, b1
df.total <- n-1
df.residual <- n-k
df.model <- k-1

# Calculate mean squares (note that these are just variances)
ms.residual <- ss.residual/df.residual
ms.residual
ms.model<- ss.model/df.model
ms.model
我對你的問題的回答：

Q1：

因此，這實際上是觀測值與 lm 線的平均距離？

殘差標準誤差( ) 是殘差均方( ):
# Calculate residual standard error
res.se <- sqrt(ms.residual)
res.se  
如果你還記得是觀察到的數據點和模型的平方距離（上面第二個圖中的回歸線），以及只是平均值 ，你的第一個問題的答案是，是的：表示觀測數據與模型的平均距離。直觀地說，這也很有意義，因為如果距離更小，你的模型擬合也更好。

Q2：

現在我很困惑，因為如果 RSE 告訴我們觀察到的點偏離回歸線有多遠，那麼低 RSE 實際上是在告訴我們“您的模型根據觀察到的數據點擬合得很好”-> 因此我們的模型擬合得有多好，那麼 R 平方和 RSE 有什麼區別？

現在是的比率和：
# R squared
r.sq <- ss.model/ss.total
r.sq
這表示模型（回歸線）可以解釋數據中總變化的多少。請記住，當我們將最簡單的模型擬合到數據（即均值）時，總變異是數據的變異。比較情節與陰謀。

所以要回答你的第二個問題，和那是在給定觀察數據的情況下，告訴您有關模型（在本例中為回歸線）的不准確性。

這另一方面，告訴您模型（即回歸線）相對於僅由平均值解釋的變化（即最簡單的模型）解釋了多少變化。

問題 3：

我們是否可以有一個 F 值來指示非線性的強關係，從而我們的 RSE 很高而我們的 R 平方很低

所以 - 另一邊的值被計算為模型均方（或信號）除以（噪音）：
# Calculate F-value
F <- ms.model/ms.residual
F
# Calculate P-value
p.F <- 1-pf(F, df.model, df.residual)
p.F 
或者換句話說 - 值表示在模型不准確的情況下模型改進了多少（與平均值相比）。

您的第三個問題有點難以理解，但我同意您提供的報價。

引用自：https://stats.stackexchange.com/questions/256726

線性回歸 F 統計量、R 平方和殘差標準誤差告訴我們什麼？

相關問答

說一個“估計”或“測量”r平方是否正確？

使用 GAM 回歸分析非線性數據，但審稿人建議改為擬合指數或對數曲線。使用哪個？

線性回歸和最小二乘回歸一定是一回事嗎？

為什麼是 F 統計量≈≈approx1 當原假設為真時？

確定兩個變量是線性還是非線性甚至不相關的最佳編程方法是什麼

OLS 作為非線性函數的近似值