Linear-Model

線性回歸 F 統計量、R 平方和殘差標準誤差告訴我們什麼?

  • January 17, 2017

對於以下術語的線性回歸上下文的含義差異,我真的很困惑:

  • F 統計量
  • R平方
  • 殘差標準誤

我發現這個網站讓我對線性回歸中涉及的不同術語有了深刻的了解,但是上面提到的術語看起來很多(據我所知)。我將引用我讀到的和​​讓我感到困惑的內容:

殘差標準誤差是線性回歸擬合質量的度量……殘差標準誤差是響應(dist)偏離真實回歸線的平均量。

**1.**這實際上是觀測值與 lm 線的平均距離?

R 平方統計量提供了模型與實際數據擬合程度的度量。

**2.**現在我很困惑,因為如果 RSE 告訴我們觀察到的點偏離回歸線有多遠,那麼低 RSE 實際上是在告訴我們“您的模型根據觀察到的數據點擬合得很好”-> 因此我們的模型有多好模型擬合,那麼 R 平方和 RSE 有什麼區別?

F 統計量很好地指示了我們的預測變量和響應變量之間是否存在關係。

**3.**我們是否可以有一個 F 值來指示非線性的強關係,從而使我們的 RSE 高而我們的 R 平方低

理解這些術語的最佳方法是手動進行回歸計算。我寫了兩個密切相關的答案(此處此處),但是它們可能無法完全幫助您理解您的特定情況。但仍然通讀它們。也許它們還會幫助您更好地概念化這些術語。

在回歸(或 ANOVA)中,我們基於樣本數據集構建模型,使我們能夠預測感興趣人群的結果。為此,在一個簡單的線性回歸中計算以下三個分量,從中可以計算其他分量,例如均方、F 值、 $ R^2 $ (也經過調整 $ R^2 $ ) 和殘差標準誤差 ( $ RSE $ ):

  1. 總平方和 ( $ SS_{total} $ )
  2. 殘差平方和 ( $ SS_{residual} $ )
  3. 模型平方和 ( $ SS_{model} $ )

他們每個人都在評估模型描述數據的程度,並且是從數據點到擬合模型的平方距離之和(在下圖中顯示為紅線)。

這 $ SS_{total} $ 評估平均值與數據的擬合程度。為什麼意思?因為均值是我們可以擬合的最簡單的模型,因此可以用作與最小二乘回歸線進行比較的模型。該圖使用cars數據集說明:

在此處輸入圖像描述

這 $ SS_{residual} $ 評估回歸線與數據的擬合程度。

在此處輸入圖像描述

這 $ SS_{model} $ 比較回歸線與平均值相比好多少(即 $ SS_{total} $ 和 $ SS_{residual} $ )。

在此處輸入圖像描述

為了回答您的問題,讓我們首先計算您想了解的那些術語,以模型和輸出作為參考:

# The model and output as reference
m1 <- lm(dist ~ speed, data = cars)
summary(m1)
summary.aov(m1) # To get the sums of squares and mean squares

平方和是各個數據點到模型的平方距離:

# Calculate sums of squares (total, residual and model)
y <- cars$dist
ybar <- mean(y)
ss.total <- sum((y-ybar)^2)
ss.total
ss.residual <- sum((y-m1$fitted)^2)
ss.residual
ss.model <- ss.total-ss.residual
ss.model

均方是自由度平均的平方和:

# Calculate degrees of freedom (total, residual and model)
n <- length(cars$speed)
k <- length(m1$coef) # k = model parameter: b0, b1
df.total <- n-1
df.residual <- n-k
df.model <- k-1

# Calculate mean squares (note that these are just variances)
ms.residual <- ss.residual/df.residual
ms.residual
ms.model<- ss.model/df.model
ms.model

我對你的問題的回答:

Q1:

  1. 因此,這實際上是觀測值與 lm 線的平均距離?

殘差標準誤差( $ RSE $ ) 是殘差均方( $ MS_{residual} $ ):

# Calculate residual standard error
res.se <- sqrt(ms.residual)
res.se  

如果你還記得 $ SS_{residual} $ 是觀察到的數據點和模型的平方距離(上面第二個圖中的回歸線),以及 $ MS_{residual} $ 只是平均值 $ SS_{residual} $ ,你的第一個問題的答案是,是的: $ RSE $ 表示觀測數據與模型的平均距離。直觀地說,這也很有意義,因為如果距離更小,你的模型擬合也更好。

Q2:

  1. 現在我很困惑,因為如果 RSE 告訴我們觀察到的點偏離回歸線有多遠,那麼低 RSE 實際上是在告訴我們“您的模型根據觀察到的數據點擬合得很好”-> 因此我們的模型擬合得有多好,那麼 R 平方和 RSE 有什麼區別?

現在 $ R^2 $ 是的比率 $ SS_{model} $ 和 $ SS_{total} $ :

# R squared
r.sq <- ss.model/ss.total
r.sq

這 $ R^2 $ 表示模型(回歸線)可以解釋數據中總變化的多少。請記住,當我們將最簡單的模型擬合到數據(即均值)時,總變異是數據的變異。比較 $ SS_{total} $ 情節與 $ SS_{model} $ 陰謀。

所以要回答你的第二個問題, $ RSE $ 和 $ R^2 $ 那是 $ RSE $ 在給定觀察數據的情況下,告訴您有關模型(在本例中為回歸線)的不准確性。

這 $ R^2 $ 另一方面,告訴您模型(即回歸線)相對於僅由平均值解釋的變化(即最簡單的模型)解釋了多少變化。

問題 3:

  1. 我們是否可以有一個 F 值來指示非線性的強關係,從而我們的 RSE 很高而我們的 R 平方很低

所以 $ F $ - 另一邊的值被計算為模型均方 $ MS_{model} $ (或信號)除以 $ MS_{residual} $ (噪音):

# Calculate F-value
F <- ms.model/ms.residual
F
# Calculate P-value
p.F <- 1-pf(F, df.model, df.residual)
p.F 

或者換句話說 $ F $ - 值表示在模型不准確的情況下模型改進了多少(與平均值相比)。

您的第三個問題有點難以理解,但我同意您提供的報價。

引用自:https://stats.stackexchange.com/questions/256726

comments powered by Disqus