Regression

為什麼是 F 統計量≈≈approx1 當原假設為真時?

  • March 2, 2021

我目前正在閱讀ISLR中關於線性回歸的部分,作者使用 F 統計量來確定我們是否應該拒絕零假設(他們使用 F 統計量的 p 值)。

我知道,當原假設為假時,總平方和(響應只是一個常數值的平方和)將遠大於 $ RSS $ ,因為我們的模型將解釋大量的變化。因此,我們應該看到一個很大的 F-Statistic 值。但是,我不太明白為什麼,當原假設為真時,我們應該期望看到 aa F-Statistic $ \approx 1 $ . 據我了解,分子應該很小,因為我們的模型解釋的變化不多。但是,為什麼要分母,也就是 $ RSS/(n-p-1) $ 和分子一樣嗎?分母實際上代表什麼?

考慮一個線性模型 $ y_i=\beta_0+x_i'\beta+u_i $ , 和 $ u_i\sim (0,\sigma^2) $ .

F 統計量是(參見例如證明 F 統計量遵循 F 分佈) $$ F = \frac{(\text{TSS}-\text{RSS})/p}{\text{RSS}/(n-p-1)}, $$ 和 $ TSS=\sum_i(y_i-\bar{y})^2 $ 和 $ RSS=\sum_i(y_i-\hat{y}_i)^2 $ 和 $ p $ 斜率參數的數量。

在經典假設下, $ \text{RSS}/(n-p-1) $ 是一個無偏估計量 $ \sigma^2 $ , IE, $$ E[\text{RSS}/(n-p-1)]=\sigma^2. $$

同樣,眾所周知的結果是,在 null $ y_i=\beta_0+u_i $ , 樣本方差 $ \sum_i(y_i-\bar{y})^2/(n-1) $ 是一個無偏估計量 $ \sigma^2 $ , IE, $$ E[\text{TSS}/(n-1)]=\sigma^2. $$ (它始終是方差的無偏估計 $ \sigma^2_y $ , 的方差 $ y $ ,然而,這與替代方案下的誤差方差不再一致,這就是賦予測試權力的原因。)

把分子中的東西放在一起, $$ E[(\text{TSS}-\text{RSS})/p]=E[(n-1)\sigma^2-(n-p-1)\sigma^2]/p=\sigma^2 $$ 所以如果你近似 $ E(F) $ (當然,一個比率的期望值一般不是期望值的比率),你得到 $$ E(F)\approx\frac{E[(\text{TSS}-\text{RSS})/p]}{E[\text{RSS}/(n-p-1)]}=\frac{\sigma^2}{\sigma^2}=1 $$ 實際上,假設 F 統計量服從 F 分佈 $ p $ 和 $ d:=n-p-1 $ 自由度,我們可以將已知結果用於 F 分佈隨機變量的精確期望,即 $$ E(F)=\frac{d}{d-2} $$ 什麼時候 $ d>2 $ . 所以 $$ E(F)=\frac{n-p-1}{n-p-1-2}=\frac{n-p-1}{n-p-3}, $$ 對於樣本大小的情況,這當然會接近 1 $ n $ 相對於回歸變量的數量很大。因此,上述近似在這種情況下非常有效。

當然,如果 null 為真,我們這裡得到的是 F 統計量的*期望值的結果。*這並不意味著(就像任何期望一樣)統計數據 $ F\approx1 $ ,但是當我們要在 null 為真的情況下重複計算 F 統計量時,它會“懸停在”1 附近。例如,請參閱https://stats.stackexchange.com/a/258476/67799提供的模擬以獲取說明。

引用自:https://stats.stackexchange.com/questions/511991

comments powered by Disqus