Regression

為什麼我們不必如此關心線性回歸中的正態分佈誤差項(和同方差性)?

  • December 30, 2014

我想每次聽到有人說殘差的非正態性和/或異方差違反 OLS 假設時,我都會感到沮喪。要估計OLS 模型中的參數,這些假設都不是高斯-馬爾可夫定理所必需的。我在 OLS 模型的假設檢驗中看到了這一點的重要性,因為假設這些東西為我們提供了 t 檢驗、F 檢驗和更一般的 Wald 統計數據的簡潔公式。

但是沒有它們進行假設檢驗並不難。如果我們只放棄同方差性,我們可以輕鬆計算穩健的標準誤和聚集的標準誤。如果我們完全放棄正態性,我們可以使用自舉,並且給定誤差項、似然比和拉格朗日乘數檢驗的另一個參數規範。

我們以這種方式教授它只是一種恥辱,因為我看到很多人都在為他們一開始就不必滿足的假設而苦苦掙扎。

當我們有能力輕鬆應用更強大的技術時,為什麼還要如此強調這些假設?我錯過了什麼重要的東西嗎?

在計量經濟學中,我們會說非正態性違反了經典正態線性回歸模型的條件,而異方差違反了 CNLR 和經典線性回歸模型的假設。

但是那些說“……違反 OLS”的人也是有道理的:普通最小二乘這個名字直接來自高斯,本質上是指正常錯誤。換句話說,“OLS”不是最小二乘估計(這是一種更通用的原則和方法)的首字母縮寫詞,而是 CNLR 的首字母縮寫詞。

好的,這是歷史、術語和語義。我理解 OP 問題的核心如下:“如果我們已經找到了不存在的情況的解決方案,我們為什麼要強調理想?” (因為 CNLR 假設理想的,從某種意義上說,它們提供了“現成的”出色的最小二乘估計屬性,並且無需求助於漸近結果。還請記住,當錯誤正常時,OLS 是最大似然)。

作為一個理想,這是一個開始教學的好地方。這就是我們在教授任何類型的學科時總是這樣做的:“簡單”的情況是“理想的”情況,沒有人們在現實生活和實際研究中實際遇到的複雜性,也沒有明確的解決方案

這就是我發現 OP 的帖子有問題的地方:他寫了關於穩健標準錯誤和引導程序的文章,就好像它們是“優越的替代品”,或者是針對缺乏正在討論的上述假設的萬無一失的解決方案,此外 OP 寫道

“..人們不必滿足的假設”

為什麼?因為有一些處理情況的方法,方法當然有一定的有效性,但還遠非理想?自舉和異方差穩健標準誤差不是解決方案——如果它們確實是,它們將成為主導範式,將 CLR 和 CNLR 送入歷史書。但他們不是。

因此,我們從保證那些我們認為重要的估計器屬性的假設開始(這是另一個討論指定為可取的屬性是否確實應該是的),以便我們保持可見,任何違反它們的行為都有無法通過我們為處理這些假設的缺失而找到的方法完全抵消的後果。從科學的角度來說,傳達“我們可以引導自己找到事情真相”的感覺真的很危險——因為,簡單地說,我們做不到。

因此,它們仍然是問題的不完美解決方案,而不是替代和/或絕對優越的做事方式。因此,我們要先教無問題的情況,然後指出可能的問題,然後討論可能的解決方案。否則,我們會將這些解決方案提升到它們實際上並不具備的狀態。

引用自:https://stats.stackexchange.com/questions/130775

comments powered by Disqus