回歸誤差項如何與解釋變量相關聯?
該wiki頁面的第一句話聲稱“在計量經濟學中,當解釋變量與誤差項相關時,就會出現內生性問題。1 ”
我的問題是,這怎麼可能發生?是不是選擇了回歸 beta 使得誤差項與設計矩陣的列空間正交?
您將兩種類型的“錯誤”術語混為一談。Wikipedia 實際上有一篇文章專門討論錯誤和殘差之間的這種區別。
在 OLS 回歸中,殘差(您對誤差或乾擾項的估計)確實保證與預測變量不相關,假設回歸包含截距項。
但是“真正的”錯誤很可能與它們相關,這就是內生性。
為簡單起見,請考慮回歸模型(您可能會將其描述為基礎的“數據生成過程”或“DGP”,我們假設該理論模型會生成):
原則上沒有理由為什麼不能與在我們的模型中,無論我們多麼希望它不以這種方式違反標準 OLS 假設。例如,它可能是取決於我們模型中省略的另一個變量,這已被納入乾擾項(是我們把所有東西都混在一起的地方影響)。如果這個省略的變量也與, 然後反過來將與我們有內生性(特別是遺漏變量偏差)。
當您根據可用數據估計回歸模型時,我們得到
由於 OLS 的工作方式*,殘差將不相關. 但這並不意味著我們避免了內生性——它只是意味著我們無法通過分析兩者之間的相關性來檢測它和,這將是(直到數值錯誤)零。而且由於 OLS 假設已被打破,我們不再保證良好的屬性,例如無偏性,我們非常喜歡 OLS。我們的估計會有偏見。
事實是與緊隨我們用來選擇係數的最佳估計的“正規方程”。
如果您不習慣矩陣設置,並且我堅持上面示例中使用的二元模型,則殘差平方和為並找到最優的和最小化這個我們找到正規方程,首先是估計截距的一階條件:
這表明殘差的總和(因此均值)為零,因此之間的協方差公式和任何變量然後減少到. 通過考慮估計斜率的一階條件,我們看到這是零,即
如果您習慣於使用矩陣,我們可以通過定義將其推廣到多元回歸; 最小化的一階條件處於最佳狀態是:
這意味著每一行,因此每列, 正交於. 那麼如果設計矩陣有一列(如果您的模型有截距項,就會發生這種情況),我們必須有所以殘差的和為零,均值為零。之間的協方差和任何變量又是對於任何變量包含在我們的模型中,我們知道這個總和為零,因為與設計矩陣的每一列正交。因此,兩者之間存在零協方差和零相關性和任何預測變量.
如果您喜歡更幾何的事物視圖,我們希望盡可能靠近 以一種畢達哥拉斯的方式,事實上受限於設計矩陣的列空間, 規定應該是觀察到的正交投影到那個列空間。因此殘差向量正交於每一列,包括一個的向量如果模型中包含截距項。如前所述,這意味著殘差之和為零,因此殘差向量與其他列的正交性確保它與每個預測變量不相關。
但是我們在這裡所做的一切都沒有說明真正的錯誤. 假設我們的模型中有一個截距項,殘差只與作為我們選擇估計回歸係數的方式的數學結果. 我們選擇我們的方式影響我們的預測值因此我們的殘差. 如果我們選擇通過 OLS,我們必須求解正規方程,這些方程強制我們估計的殘差不相關. 我們的選擇影響但不是因此不對真正的錯誤施加任何條件. 認為這是錯誤的不知何故“繼承”了它的不相關性從 OLS 假設應該不相關. 不相關性來自正規方程。