Regression

為什麼我們使用殘差來檢驗回歸誤差的假設?

  • March 31, 2018

假設我們有一個模型.

回歸有許多假設,例如錯誤應該是正態分佈的,均值為 0,方差為常數。我被教導使用正態 QQ 圖來檢查這些假設,以測試殘差的正態性以及殘差與擬合圖,以檢查殘差是否在零附近變化且方差恆定。

然而,這些測試都是基於殘差,而不是錯誤。

據我了解,誤差被定義為每個觀察值與其“真實”平均值的偏差。所以,我們可以寫. 我們無法觀察到這些錯誤。*

我的問題是:殘差在模仿錯誤方面做得如何?

如果假設似乎滿足殘差,這是否意味著它們也滿足誤差?是否有其他(更好的)方法來測試假設,例如將模型擬合到測試數據集並從那裡獲取殘差?


** 此外,這是否不需要正確*指定模型?也就是說,響應確實與預測變量有關係等以模型指定的方式。

如果我們遺漏了一些預測變量(例如,),那麼期望甚至都不是真正的均值,對不正確模型的進一步分析似乎毫無意義。

我們如何檢查模型是否正確?

殘差是我們對誤差項的估計

這個問題的簡短回答相對簡單:回歸模型中的假設是關於誤差項行為的假設,殘差是我們對誤差項的估計。 事實上,對觀察到的殘差行為的檢查告訴我們關於誤差項的假設是否合理。

為了更詳細地理解這一一般推理路線,有助於詳細檢查標準回歸模型中殘差的行為。在具有獨立同方差正態誤差項的標準多元線性回歸下,殘差向量的分佈是已知的,這使您可以測試回歸模型中的基本分佈假設。基本思想是在回歸假設下找出殘差向量的分佈,然後檢查殘差值是否合理地匹配這個理論分佈。與理論殘差分佈的偏差表明,誤差項的基本假設分佈在某些方面是錯誤的,

如果您使用基礎錯誤分佈 $ \epsilon_i \sim \text{IID N}(0, \sigma^2) $ 對於標準回歸模型,並且您對係數使用 OLS 估計,則殘差的分佈可以顯示為多元正態分佈:

$$ \boldsymbol{r} = (\boldsymbol{I} - \boldsymbol{h}) \boldsymbol{\epsilon} \sim \text{N}(\boldsymbol{0}, \sigma^2 (\boldsymbol{I} - \boldsymbol{h})), $$

在哪裡 $ \boldsymbol{h} = \boldsymbol{x} (\boldsymbol{x}^{\text{T}} \boldsymbol{x})^{-1} \boldsymbol{x}^{\text{T}} $ 是回歸的帽子矩陣。殘差向量模仿誤差向​​量,但方差矩陣有額外的乘法項 $ \boldsymbol{I} - \boldsymbol{h} $ . 為了測試回歸假設,我們使用具有邊際 T 分佈的學生化殘差:

$$ s_i \equiv \frac{r_i}{\hat{\sigma}{\text{Ext}} \cdot (1-l_i)} \sim \text{T}(\text{df}{\text{Res}}-1). $$

(此公式適用於外部學生化殘差,其中方差估計量不包括所考慮的變量。值 $ l_i = h_{i,i} $ 是槓桿值,它們是帽子矩陣中的對角線值。學生化殘差不是獨立的,但如果 $ n $ 很大,他們接近獨立。這意味著邊際分佈是一個簡單的已知分佈,但聯合分佈是複雜的。)現在,如果極限 $ \lim_{n \rightarrow \infty} (\boldsymbol{x}^{\text{T}} \boldsymbol{x}) / n = \Delta $ 存在,則可以證明係數估計量是真實回歸係數的一致估計量,殘差是真實誤差項的一致估計量。

本質上,這意味著您通過將學生化殘差與 T 分佈進行比較來測試誤差項的潛在分佈假設。誤差分佈的每個基本特性(線性、同方差、不相關誤差、正態性)都可以通過使用學生化殘差分佈的類似特性來測試。如果模型指定正確,那麼對於大 $ n $ 殘差應該接近真實的誤差項,並且它們具有相似的分佈形式。

從回歸模型中遺漏解釋變量會導致係數估計量中的變量偏差,這會影響殘差分佈。殘差向量的均值和方差都受到遺漏變量的影響。如果回歸中省略的項是 $ \boldsymbol{Z} \boldsymbol{\delta} $ 那麼殘差向量變為 $ \boldsymbol{r} = (\boldsymbol{I} - \boldsymbol{h}) (\boldsymbol{Z \delta} + \boldsymbol{\epsilon}) $ . 如果省略矩陣中的數據向量 $ \boldsymbol{Z} $ 是獨立同分佈法向量並且獨立於誤差項然後 $ \boldsymbol{Z \delta} + \boldsymbol{\epsilon} \sim \text{N} (\mu \boldsymbol{1}, \sigma_*^2 \boldsymbol{I}) $ 使得殘差分佈變為:

$$ \boldsymbol{r} = (\boldsymbol{I} - \boldsymbol{h}) (\boldsymbol{Z \delta} + \boldsymbol{\epsilon}) \sim \text{N} \Big( \mu (\boldsymbol{I} - \boldsymbol{h}) \boldsymbol{1}, \sigma_*^2 (\boldsymbol{I} - \boldsymbol{h}) \Big). $$

如果模型中已經存在截距項(即,如果單位向量 $ \boldsymbol{1} $ 在設計矩陣中)然後 $ (\boldsymbol{I} - \boldsymbol{h}) \boldsymbol{1} = \boldsymbol{0} $ ,這意味著保留了殘差的標準分佈形式。如果模型中沒有截距項,則省略的變量可能會給出殘差的非零均值。或者,如果遺漏變量不是 IID 正態分佈,則它可能導致與標準殘差分佈的其他偏差。在後一種情況下,殘差檢驗不太可能檢測到因存在遺漏變量而導致的任何結果;通常不可能確定與理論殘差分佈的偏差是由於遺漏變量,還是僅僅因為與包含變量的不適定關係(並且可以說這些在任何情況下都是同一件事)。

引用自:https://stats.stackexchange.com/questions/337879

comments powered by Disqus