回歸誤差項如何與解釋變量相關聯？

February 22, 2017

該wiki頁面的第一句話聲稱“在計量經濟學中，當解釋變量與誤差項相關時，就會出現內生性問題。1 ”

我的問題是，這怎麼可能發生？是不是選擇了回歸 beta 使得誤差項與設計矩陣的列空間正交？

您將兩種類型的“錯誤”術語混為一談。Wikipedia 實際上有一篇文章專門討論錯誤和殘差之間的這種區別。

在 OLS 回歸中，殘差（您對誤差或乾擾項的估計）確實保證與預測變量不相關，假設回歸包含截距項。

但是“真正的”錯誤很可能與它們相關，這就是內生性。

為簡單起見，請考慮回歸模型（您可能會將其描述為基礎的“數據生成過程”或“DGP”，我們假設該理論模型會生成):

原則上沒有理由為什麼不能與在我們的模型中，無論我們多麼希望它不以這種方式違反標準 OLS 假設。例如，它可能是取決於我們模型中省略的另一個變量，這已被納入乾擾項（是我們把所有東西都混在一起的地方影響）。如果這個省略的變量也與，然後反過來將與我們有內生性（特別是遺漏變量偏差）。

當您根據可用數據估計回歸模型時，我們得到

由於 OLS 的工作方式*，殘差將不相關. 但這並不意味著我們避免了內生性——它只是意味著我們無法通過分析兩者之間的相關性來檢測它和，這將是（直到數值錯誤）零。而且由於 OLS 假設已被打破，我們不再保證良好的屬性，例如無偏性，我們非常喜歡 OLS。我們的估計會有偏見。

事實是與緊隨我們用來選擇係數的最佳估計的“正規方程”。

如果您不習慣矩陣設置，並且我堅持上面示例中使用的二元模型，則殘差平方和為並找到最優的和最小化這個我們找到正規方程，首先是估計截距的一階條件：

這表明殘差的總和（因此均值）為零，因此之間的協方差公式和任何變量然後減少到. 通過考慮估計斜率的一階條件，我們看到這是零，即

如果您習慣於使用矩陣，我們可以通過定義將其推廣到多元回歸; 最小化的一階條件處於最佳狀態是：

這意味著每一行，因此每列, 正交於. 那麼如果設計矩陣有一列（如果您的模型有截距項，就會發生這種情況），我們必須有所以殘差的和為零，均值為零。之間的協方差和任何變量又是對於任何變量包含在我們的模型中，我們知道這個總和為零，因為與設計矩陣的每一列正交。因此，兩者之間存在零協方差和零相關性和任何預測變量.

如果您喜歡更幾何的事物視圖，我們希望盡可能靠近以一種畢達哥拉斯的方式，事實上受限於設計矩陣的列空間, 規定應該是觀察到的正交投影到那個列空間。因此殘差向量正交於每一列，包括一個的向量如果模型中包含截距項。如前所述，這意味著殘差之和為零，因此殘差向量與其他列的正交性確保它與每個預測變量不相關。

但是我們在這裡所做的一切都沒有說明真正的錯誤. 假設我們的模型中有一個截距項，殘差只與作為我們選擇估計回歸係數的方式的數學結果. 我們選擇我們的方式影響我們的預測值因此我們的殘差. 如果我們選擇通過 OLS，我們必須求解正規方程，這些方程強制我們估計的殘差不相關. 我們的選擇影響但不是因此不對真正的錯誤施加任何條件. 認為這是錯誤的不知何故“繼承”了它的不相關性從 OLS 假設應該不相關. 不相關性來自正規方程。

引用自：https://stats.stackexchange.com/questions/263324

comments powered by Disqus

回歸誤差項如何與解釋變量相關聯？

相關問答