Regression
為什麼是 F 統計量≈≈approx1 當原假設為真時?
我目前正在閱讀ISLR中關於線性回歸的部分,作者使用 F 統計量來確定我們是否應該拒絕零假設(他們使用 F 統計量的 p 值)。
我知道,當原假設為假時,總平方和(響應只是一個常數值的平方和)將遠大於 RSS ,因為我們的模型將解釋大量的變化。因此,我們應該看到一個很大的 F-Statistic 值。但是,我不太明白為什麼,當原假設為真時,我們應該期望看到 aa F-Statistic ≈1 . 據我了解,分子應該很小,因為我們的模型解釋的變化不多。但是,為什麼要分母,也就是 RSS/(n−p−1) 和分子一樣嗎?分母實際上代表什麼?
考慮一個線性模型 yi=β0+x′iβ+ui , 和 ui∼(0,σ2) .
F 統計量是(參見例如證明 F 統計量遵循 F 分佈) F=(TSS−RSS)/pRSS/(n−p−1),
和 TSS=∑i(yi−ˉy)2 和 RSS=∑i(yi−ˆyi)2 和 p 斜率參數的數量。在經典假設下, RSS/(n−p−1) 是一個無偏估計量 σ2 , IE, E[RSS/(n−p−1)]=σ2.
同樣,眾所周知的結果是,在 null yi=β0+ui , 樣本方差 ∑i(yi−ˉy)2/(n−1) 是一個無偏估計量 σ2 , IE, E[TSS/(n−1)]=σ2.
(它始終是方差的無偏估計 σ2y , 的方差 y ,然而,這與替代方案下的誤差方差不再一致,這就是賦予測試權力的原因。)把分子中的東西放在一起, E[(TSS−RSS)/p]=E[(n−1)σ2−(n−p−1)σ2]/p=σ2
所以如果你近似 E(F) (當然,一個比率的期望值一般不是期望值的比率),你得到 E(F)≈E[(TSS−RSS)/p]E[RSS/(n−p−1)]=σ2σ2=1實際上,假設 F 統計量服從 F 分佈 p 和 d:=n−p−1 自由度,我們可以將已知結果用於 F 分佈隨機變量的精確期望,即 E(F)=dd−2什麼時候 d>2 . 所以 E(F)=n−p−1n−p−1−2=n−p−1n−p−3,對於樣本大小的情況,這當然會接近 1 n 相對於回歸變量的數量很大。因此,上述近似在這種情況下非常有效。當然,如果 null 為真,我們這裡得到的是 F 統計量的*期望值的結果。*這並不意味著(就像任何期望一樣)統計數據 F≈1 ,但是當我們要在 null 為真的情況下重複計算 F 統計量時,它會“懸停在”1 附近。例如,請參閱https://stats.stackexchange.com/a/258476/67799提供的模擬以獲取說明。