Regression

當因變量不是正態分佈時,OLS 估計量遵循什麼分佈?

  • April 24, 2021

我明白當 $ Y $ 是正態分佈的,則 OLS 產生與最大似然相同的估計量,這意味著估計量是足夠的,並且在大樣本中將近似正態分佈。

然而,當 OLS 估計器遵循什麼分佈時 $ Y $ 不正常嗎?

就我而言,我在 Python 和 R 中看到的所有回歸結果表都返回 $ t $ 每個估計係數的統計量。這是否意味著估計者總是遵循 $ t $ 分配?如果是這樣,有多少自由度 $ t $ 分佈有?

我將假設您指的是條件分佈 $ Y $ 在回歸中(即,給定解釋變量),它直接來自潛在的誤差分佈。所以你真的在問當潛在的錯誤項不是正態分佈時會發生什麼。

OLS 估計量的分佈對於模型中誤差項的非正態性非常穩健,只要您擁有合理數量的數據,並且您的解釋變量中存在非病態行為。要看到這一點,請注意 OLS 估計量可以根據模型中的誤差項寫成:

$$ \begin{align} \hat{\boldsymbol{\beta}} &= (\mathbf{x}^\text{T} \mathbf{x})^{-1} \mathbf{x}^\text{T} \mathbf{Y} \[6pt] &= (\mathbf{x}^\text{T} \mathbf{x})^{-1} \mathbf{x}^\text{T} (\mathbf{x} \boldsymbol{\beta} + \boldsymbol{\varepsilon}) \[6pt] &= \boldsymbol{\beta} + (\mathbf{x}^\text{T} \mathbf{x})^{-1} \mathbf{x}^\text{T} \boldsymbol{\varepsilon} \[6pt] &= \boldsymbol{\beta} + \sum_{i=1}^n \varepsilon_i \mathbf{w}_i, \[6pt] \end{align} $$

向量在哪裡 $ \mathbf{w}i = [(\mathbf{x}^\text{T} \mathbf{x})^{-1} \mathbf{x}^\text{T}]{\cdot, i} $ 是完全由下式確定的權重向量 $ \mathbf{x} $ . 觀察到 OLS 估計量與真實係數向量的偏差是誤差項的線性函數。現在,假設誤差項獨立於某個具有零均值和有限方差的分佈 $ \sigma^2 < \infty $ ,但這不是正態分佈。在廣泛的條件下,我們可以訴諸李雅波諾夫中心極限定理(CLT) 的多元版本來確定當 $ n $ 很大,我們有:

$$ \sum_{i=1}^n \mathbf{w}_i \varepsilon_i \overset{\text{Approx}}{\sim} \text{N} \Bigg( 0, \sigma^2 (\mathbf{x}^\text{T} \mathbf{x})^{-1} \Bigg). $$

因此,對於大 $ n $ 你有:

$$ \hat{\boldsymbol{\beta}} \overset{\text{Approx}}{\sim} \text{N} \Bigg( \boldsymbol{\beta}, \sigma^2 (\mathbf{x}^\text{T} \mathbf{x})^{-1} \Bigg). $$

現在,在這裡申請 CLT 所需的具體條件有點複雜。粗略地說,您需要證明滿足加權和的 Lyapunov 條件,這需要解釋變量的限制條件(例如,參見此處討論的 Grenander 條件)。然而,在解釋變量的非病理行為下,並假設誤差項是具有有限方差的獨立同分佈,這通常足以允許應用 CLT,這意味著 OLS 估計量在以下情況下近似正態分佈 $ n $ 很大。請注意,即使基礎誤差分佈不正常,此結果也適用。

順便說一句,這是回歸分析中的大多數標準測試對失去正態性假設具有魯棒性的重要原因之一。所有係數檢驗和擬合優度檢驗都可以在不需要誤差項呈正態分佈的廣泛條件下使用 CLT 近似推導出來。誤差項的正態性假設對於預測目的很重要,如果您在沒有適當審查的情況下應用此假設,您可能會對新的響應變量做出非常糟糕的預測。但是,只要您有合理數量的數據來擬合您的模型,正態性假設對於內部 T 檢驗和 F 檢驗以及係數估計量和擬合優度統計的相關分佈結果通常並不重要.

引用自:https://stats.stackexchange.com/questions/521215

comments powered by Disqus