Regression

當假設不滿足時,回歸模型有多不正確?

  • December 29, 2015

在擬合回歸模型時,如果不滿足輸出的假設會發生什麼,具體而言:

  1. 如果殘差不是同方差的會發生什麼?如果殘差在殘差與擬合圖中顯示出增加或減少的模式。
  2. 如果殘差不是正態分佈且未通過 Shapiro-Wilk 檢驗,會發生什麼情況?正態性的 Shapiro-Wilk 檢驗是一項非常嚴格的檢驗,有時即使 Normal-QQ 圖看起來有些合理,數據也未能通過檢驗。
  3. 如果一個或多個預測變量不是正態分佈、在 Normal-QQ 圖上看起來不正確或數據未通過 Shapiro-Wilk 檢驗,會發生什麼情況?

我知道沒有硬性的黑白劃分,0.94是對的,0.95是錯的,在問題中,我想知道:

  1. 對於根據 R-Squared 值擬合良好的模型而言,不符合正態性意味著什麼。它會變得不那麼可靠,還是完全沒用?
  2. 偏差在多大程度上是可以接受的,或者完全可以接受?
  3. 當對數據應用轉換以滿足正態性標準時,如果數據更正態(Shapiro-Wilk 檢驗的 P 值更高,在正態 QQ 圖上更好看),模型是否會變得更好,或者它是無用的(同樣好或與原始數據相比差)直到數據通過正態性檢驗?

如果殘差不是同方差的會發生什麼?如果殘差在殘差與擬合圖中顯示出增加或減少的模式。

如果誤差項不是同方差的(我們使用殘差作為不可觀察誤差項的代理),OLS 估計量仍然是一致且無偏的,但不再是線性估計量中最有效的。現在享受這個屬性的是 GLS 估計器。

如果殘差不是正態分佈且未通過 Shapiro-Wilk 檢驗,會發生什麼情況?正態性的 Shapiro-Wilk 檢驗是一項非常嚴格的檢驗,有時即使 Normal-QQ 圖看起來有些合理,數據也未能通過檢驗。

Gauss-Markov 定理不需要正態性。OLS 估計量仍然是藍色的,但如果沒有正態性,您將難以進行推理,即假設檢驗和置信區間,至少對於有限的樣本量。但是,仍然有引導程序。

漸近地,這不是一個問題,因為 OLS 估計量在溫和的正則條件下具有限制正態分佈。

如果一個或多個預測變量不是正態分佈、在 Normal-QQ 圖上看起來不正確或數據未通過 Shapiro-Wilk 檢驗,會發生什麼情況?

據我所知,預測變量要么被認為是固定的,要么回歸以它們為條件。這限制了非正態性的影響。

對於根據 R-Squared 值擬合良好的模型而言,不符合正態性意味著什麼。它會變得不那麼可靠,還是完全沒用?

R平方是模型解釋的方差的比例。它不需要正態性假設,無論如何它都是擬合優度的度量。但是,如果您想將其用於部分 F 測試,那就另當別論了。

偏差在多大程度上是可以接受的,或者完全可以接受?

你的意思是偏離常態,對吧?這實際上取決於您的目的,因為正如我所說,在沒有常態的情況下推理變得困難,但並非不可能(引導程序!)。

當對數據應用轉換以滿足正態性標準時,如果數據更正態(Shapiro-Wilk 檢驗的 P 值更高,在正態 QQ 圖上更好看),模型是否會變得更好,或者它是無用的(同樣好或與原始數據相比差)直到數據通過正態性檢驗?

簡而言之,如果您擁有所有高斯-馬爾可夫假設加上正態性,則 OLS 估計量是最佳無偏 (BUE),即**所有類型的估計量中最有效的 - 達到 Cramer-Rao 下限。這當然是可取的,但如果它沒有發生,這不是世界末日。上述說明適用。

關於轉換,請記住,雖然響應的分佈可能更接近正態分佈,但之後的解釋可能並不簡單。

這些只是對您的問題的一些簡短回答。您似乎特別關注非正態性的影響。總的來說,我想說這並不像人們(已經被製造成?)相信的那樣災難性,並且有解決方法。我包含的兩篇參考文獻是進一步閱讀的一個很好的起點,第一篇是理論性質的。

參考資料

林,文雄。:“計量經濟學”,普林斯頓大學出版社,2000 年

庫特納、邁克爾 H. 等人。“應用線性統計模型。”,McGraw-Hill Irwin,2005 年。

引用自:https://stats.stackexchange.com/questions/188664

comments powered by Disqus