當假設不滿足時，回歸模型有多不正確？

December 29, 2015

在擬合回歸模型時，如果不滿足輸出的假設會發生什麼，具體而言：

如果殘差不是同方差的會發生什麼？如果殘差在殘差與擬合圖中顯示出增加或減少的模式。

如果殘差不是正態分佈且未通過 Shapiro-Wilk 檢驗，會發生什麼情況？正態性的 Shapiro-Wilk 檢驗是一項非常嚴格的檢驗，有時即使 Normal-QQ 圖看起來有些合理，數據也未能通過檢驗。

如果一個或多個預測變量不是正態分佈、在 Normal-QQ 圖上看起來不正確或數據未通過 Shapiro-Wilk 檢驗，會發生什麼情況？

我知道沒有硬性的黑白劃分，0.94是對的，0.95是錯的，在問題中，我想知道：

對於根據 R-Squared 值擬合良好的模型而言，不符合正態性意味著什麼。它會變得不那麼可靠，還是完全沒用？

偏差在多大程度上是可以接受的，或者完全可以接受？

當對數據應用轉換以滿足正態性標準時，如果數據更正態（Shapiro-Wilk 檢驗的 P 值更高，在正態 QQ 圖上更好看），模型是否會變得更好，或者它是無用的（同樣好或與原始數據相比差）直到數據通過正態性檢驗？

如果殘差不是同方差的會發生什麼？如果殘差在殘差與擬合圖中顯示出增加或減少的模式。

如果誤差項不是同方差的（我們使用殘差作為不可觀察誤差項的代理），OLS 估計量仍然是一致且無偏的，但不再是線性估計量中最有效的。現在享受這個屬性的是 GLS 估計器。

如果殘差不是正態分佈且未通過 Shapiro-Wilk 檢驗，會發生什麼情況？正態性的 Shapiro-Wilk 檢驗是一項非常嚴格的檢驗，有時即使 Normal-QQ 圖看起來有些合理，數據也未能通過檢驗。

Gauss-Markov 定理不需要正態性。OLS 估計量仍然是藍色的，但如果沒有正態性，您將難以進行推理，即假設檢驗和置信區間，至少對於有限的樣本量。但是，仍然有引導程序。

漸近地，這不是一個問題，因為 OLS 估計量在溫和的正則條件下具有限制正態分佈。

如果一個或多個預測變量不是正態分佈、在 Normal-QQ 圖上看起來不正確或數據未通過 Shapiro-Wilk 檢驗，會發生什麼情況？

據我所知，預測變量要么被認為是固定的，要么回歸以它們為條件。這限制了非正態性的影響。

對於根據 R-Squared 值擬合良好的模型而言，不符合正態性意味著什麼。它會變得不那麼可靠，還是完全沒用？

R平方是模型解釋的方差的比例。它不需要正態性假設，無論如何它都是擬合優度的度量。但是，如果您想將其用於部分 F 測試，那就另當別論了。

偏差在多大程度上是可以接受的，或者完全可以接受？

你的意思是偏離常態，對吧？這實際上取決於您的目的，因為正如我所說，在沒有常態的情況下推理變得困難，但並非不可能（引導程序！）。

當對數據應用轉換以滿足正態性標準時，如果數據更正態（Shapiro-Wilk 檢驗的 P 值更高，在正態 QQ 圖上更好看），模型是否會變得更好，或者它是無用的（同樣好或與原始數據相比差）直到數據通過正態性檢驗？

簡而言之，如果您擁有所有高斯-馬爾可夫假設加上正態性，則 OLS 估計量是最佳無偏 (BUE)，即**所有類型的估計量中最有效的 - 達到 Cramer-Rao 下限。這當然是可取的，但如果它沒有發生，這不是世界末日。上述說明適用。

關於轉換，請記住，雖然響應的分佈可能更接近正態分佈，但之後的解釋可能並不簡單。

這些只是對您的問題的一些簡短回答。您似乎特別關注非正態性的影響。總的來說，我想說這並不像人們（已經被製造成？）相信的那樣災難性，並且有解決方法。我包含的兩篇參考文獻是進一步閱讀的一個很好的起點，第一篇是理論性質的。

參考資料：

林，文雄。：“計量經濟學”，普林斯頓大學出版社，2000 年

庫特納、邁克爾 H. 等人。“應用線性統計模型。”，McGraw-Hill Irwin，2005 年。

引用自：https://stats.stackexchange.com/questions/188664

comments powered by Disqus

當假設不滿足時，回歸模型有多不正確？

相關問答

我已經在回歸中使用了我的整個數據集，我不應該將其用作預測模型嗎？

為什麼我們要匹配因果推理與回歸混雜因素？

統計學習要素中的圖 3.6 是否正確？

證明嶺回歸是嚴格凸的

使用跨越負標度的標準偏差構建誤差線，而變量本身不應該是負數，這是不是很糟糕？

實際上，獨立同分佈假設是否適用於絕大多數監督學習任務？