Regression

F 統計量服從 F 分佈的證明

  • January 27, 2017

鑑於這個問題:證明OLS模型中的係數遵循具有(nk)自由度的t分佈

我很想知道為什麼

在哪裡是模型參數的數量和觀察次數和總方差,殘差方差,遵循分配。

我必須承認我什至沒有試圖證明這一點,因為我不知道從哪裡開始。

讓我們展示一般情況下的結果,您的檢驗統計量公式是一種特殊情況。一般來說,我們需要驗證統計量是否可以,根據 F 分佈,寫成獨立的比例 χ2 rvs 除以其自由度。

H0:Rβ=rRr 已知的、非隨機的和 R:k×q 具有完整的列秩 q . 這代表 q 線性限制(與 OPs 表示法不同) k 回歸量包括常數項。所以,在@user1627466 的例子中, p1 對應於 q=k1 將所有斜率係數設置為零的限制。

以…的觀點 $ Var\bigl(\hat{\beta}{\text{ols}}\bigr)=\sigma^2(X’X)^{-1} $ \begin{eqnarray*} R^\prime(\hat{\beta}{\text{ols}}-\beta)\sim N\left(0,\sigma^{2}R^\prime(X^\prime X)^{-1} R\right), \end{eqnarray*} $B1/2=R(XX)1R1/2$$B1=R(XX)1R1$Cholesky

\begin{eqnarray*} n:=\frac{B^{-1/2}}{\sigma}R^\prime(\hat{\beta}{\text{ols}}-\beta)\sim N(0,I{q}), \end{eqnarray*}
Var(n)=B1/2σRVar(ˆβols)RB1/2σ =B1/2σσ2BB1/2σ=I
$$ 其中第二行使用 OLSE 的方差。

如您鏈接到的答案所示(另請參見此處),這與$$ d:=(n-k)\frac{\hat{\sigma}^{2}}{\sigma^{2}}\sim\chi^{2}{n-k}, $$ 在哪裡 ˆσ2=yMXy/(nk) 是通常的無偏誤差方差估計,其中 $ M{X}=I-X(X’X)^{-1}X' X $ .

這樣 nn 是法線的二次形式, $$ \begin{eqnarray*} \frac{\overbrace{n^\prime n}^{\sim\chi^{2}{q}}/q}{d/(n-k)}=\frac{(\hat{\beta}{\text{ols}}-\beta)^\prime R\left{R^\prime(X^\prime X)^{-1}R\right}^{-1}R^\prime(\hat{\beta}{\text{ols}}-\beta)/q}{\hat{\sigma}^{2}}\sim F{q,n-k}. \end{eqnarray*} $H0:Rβ=r$

\begin{eqnarray} F=\frac{(R^\prime\hat{\beta}{\text{ols}}-r)^\prime\left{R^\prime(X^\prime X)^{-1}R\right}^{-1}(R^\prime\hat{\beta}{\text{ols}}-r)/q}{\hat{\sigma}^{2}}\sim F_{q,n-k}. \end{eqnarray} $$

為了說明,考慮特殊情況 R=I , r=0 , q=2 , ˆσ2=1XX=I . 然後, $$ \begin{eqnarray} F=\hat{\beta}{\text{ols}}^\prime\hat{\beta}{\text{ols}}/2=\frac{\hat{\beta}{\text{ols},1}^2+\hat{\beta}{\text{ols},2}^2}{2}, \end{eqnarray} $$ OLS 估計與原點的平方歐幾里得距離由元素數量標準化 - 強調這一點,因為 ˆβ2ols,2 是平方標準法線,因此 χ21 , 這 F 分佈可以看作是“平均 χ2 分配。

如果您更喜歡一點模擬(這當然不是證明!),其中 null 被測試為沒有 k 回歸量很重要——它們確實不重要,因此我們模擬了零分佈。

在此處輸入圖像描述

我們看到理論密度和蒙特卡洛檢驗統計的直方圖非常吻合。

library(lmtest)
n <- 100
reps <- 20000
sloperegs <- 5 # number of slope regressors, q or k-1 (minus the constant) in the above notation
critical.value <- qf(p = .95, df1 = sloperegs, df2 = n-sloperegs-1) 
# for the null that none of the slope regrssors matter

Fstat <- rep(NA,reps)
for (i in 1:reps){
 y <- rnorm(n)
 X <- matrix(rnorm(n*sloperegs), ncol=sloperegs)
 reg <- lm(y~X)
 Fstat[i] <- waldtest(reg, test="F")$F[2] 
}

mean(Fstat>critical.value) # very close to 0.05

hist(Fstat, breaks = 60, col="lightblue", freq = F, xlim=c(0,4))
x <- seq(0,6,by=.1)
lines(x, df(x, df1 = sloperegs, df2 = n-sloperegs-1), lwd=2, col="purple")

要查看問題和答案中的測試統計的版本確實是等價的,請注意 null 對應於限制 R=[0;;I]r=0 .

X=[X1;;X2] 根據哪些係數在空值下被限制為零(在您的情況下,除了常數之外的所有係數,但要遵循的推導是一般的)。另外,讓 $ \hat{\beta}{\text{ols}}=(\hat{\beta}{\text{ols},1}^\prime,\hat{\beta}_{\text{ols},2}')' $ 是適當劃分的 OLS 估計。

然後, $$ R'\hat{\beta}{\text{ols}}=\hat{\beta}{\text{ols},2}

R^\prime(X^\prime X)^{-1}R\equiv\tilde D,
(XTX)1=(X1X1X1X2 X2X1X2X2)1&(˜A˜B ˜C˜D)
$$ 現在,使用分區逆的結果來獲得 ˜D=(X2X2X2X1(X1X1)1X1X2)1=(X2MX1X2)1
在哪裡 MX1=IX1(X1X1)1X1 .

因此,分子 F 統計變為(不除以 q ) $$ F_{num}=\hat{\beta}{\text{ols},2}'(X_2’M{X_1}X_2)\hat{\beta}{\text{ols},2} $$ 接下來,回想一下Frisch-Waugh-Lovell 定理,我們可以寫成 $$ \hat{\beta}{\text{ols},2}=(X_2’M_{X_1}X_2)^{-1}X_2’M_{X_1}y 便

Fnum=yMX1X2(X2MX1X2)1(X2MX1X2)(X2MX1X2)1X2MX1y =yMX1X2(X2MX1X2)1X2MX1y
$$

仍有待證明該分子與 RSSRUSSR ,受限制和不受限制的殘差平方和之差。

這裡, RSSR=yMX1y

是回歸的殘差平方和 yX1 ,即,與 H0 強加的。在您的特殊情況下,這只是 TSS=i(yiˉy)2 , 一個常數回歸的殘差。

再次使用 FWL(這也表明兩種方法的殘差是相同的),我們可以寫 USSR (您的符號中的 SSR)作為回歸的 SSR MX1yonMX1X2

那是, USSR=yMX1MMX1X2MX1y =yMX1(IPMX1X2)MX1y =yMX1yyMX1MX1X2((MX1X2)MX1X2)1(MX1X2)MX1y =yMX1yyMX1X2(X2MX1X2)1X2MX1y

因此,

RSSRUSSR=yMX1y(yMX1yyMX1X2(X2MX1X2)1X2MX1y) =yMX1X2(X2MX1X2)1X2MX1y

引用自:https://stats.stackexchange.com/questions/258461