Regression

為什麼是 F 統計量≈≈approx1 當原假設為真時?

  • March 2, 2021

我目前正在閱讀ISLR中關於線性回歸的部分,作者使用 F 統計量來確定我們是否應該拒絕零假設(他們使用 F 統計量的 p 值)。

我知道,當原假設為假時,總平方和(響應只是一個常數值的平方和)將遠大於 RSS ,因為我們的模型將解釋大量的變化。因此,我們應該看到一個很大的 F-Statistic 值。但是,我不太明白為什麼,當原假設為真時,我們應該期望看到 aa F-Statistic 1 . 據我了解,分子應該很小,因為我們的模型解釋的變化不多。但是,為什麼要分母,也就是 RSS/(np1) 和分子一樣嗎?分母實際上代表什麼?

考慮一個線性模型 yi=β0+xiβ+ui , 和 ui(0,σ2) .

F 統計量是(參見例如證明 F 統計量遵循 F 分佈F=(TSSRSS)/pRSS/(np1),

TSS=i(yiˉy)2RSS=i(yiˆyi)2p 斜率參數的數量。

在經典假設下, RSS/(np1) 是一個無偏估計σ2 , IE, E[RSS/(np1)]=σ2.

同樣,眾所周知的結果是,在 null yi=β0+ui , 樣本方差 i(yiˉy)2/(n1) 是一個無偏估計量 σ2 , IE, E[TSS/(n1)]=σ2.

(它始終是方差的無偏估計 σ2y , 的方差 y ,然而,這與替代方案下的誤差方差不再一致,這就是賦予測試權力的原因。)

把分子中的東西放在一起, E[(TSSRSS)/p]=E[(n1)σ2(np1)σ2]/p=σ2

所以如果你近似 E(F) (當然,一個比率的期望值一般不是期望值的比率),你得到 E(F)E[(TSSRSS)/p]E[RSS/(np1)]=σ2σ2=1
實際上,假設 F 統計量服從 F 分佈 pd:=np1 自由度,我們可以將已知結果用於 F 分佈隨機變量的精確期望,即 E(F)=dd2
什麼時候 d>2 . 所以 E(F)=np1np12=np1np3,
對於樣本大小的情況,這當然會接近 1 n 相對於回歸變量的數量很大。因此,上述近似在這種情況下非常有效。

當然,如果 null 為真,我們這裡得到的是 F 統計量的*期望值的結果。*這並不意味著(就像任何期望一樣)統計數據 F1 ,但是當我們要在 null 為真的情況下重複計算 F 統計量時,它會“懸停在”1 附近。例如,請參閱https://stats.stackexchange.com/a/258476/67799提供的模擬以獲取說明。

引用自:https://stats.stackexchange.com/questions/511991