當假設不滿足時,回歸模型有多不正確?
在擬合回歸模型時,如果不滿足輸出的假設會發生什麼,具體而言:
- 如果殘差不是同方差的會發生什麼?如果殘差在殘差與擬合圖中顯示出增加或減少的模式。
- 如果殘差不是正態分佈且未通過 Shapiro-Wilk 檢驗,會發生什麼情況?正態性的 Shapiro-Wilk 檢驗是一項非常嚴格的檢驗,有時即使 Normal-QQ 圖看起來有些合理,數據也未能通過檢驗。
- 如果一個或多個預測變量不是正態分佈、在 Normal-QQ 圖上看起來不正確或數據未通過 Shapiro-Wilk 檢驗,會發生什麼情況?
我知道沒有硬性的黑白劃分,0.94是對的,0.95是錯的,在問題中,我想知道:
- 對於根據 R-Squared 值擬合良好的模型而言,不符合正態性意味著什麼。它會變得不那麼可靠,還是完全沒用?
- 偏差在多大程度上是可以接受的,或者完全可以接受?
- 當對數據應用轉換以滿足正態性標準時,如果數據更正態(Shapiro-Wilk 檢驗的 P 值更高,在正態 QQ 圖上更好看),模型是否會變得更好,或者它是無用的(同樣好或與原始數據相比差)直到數據通過正態性檢驗?
如果殘差不是同方差的會發生什麼?如果殘差在殘差與擬合圖中顯示出增加或減少的模式。
如果誤差項不是同方差的(我們使用殘差作為不可觀察誤差項的代理),OLS 估計量仍然是一致且無偏的,但不再是線性估計量中最有效的。現在享受這個屬性的是 GLS 估計器。
如果殘差不是正態分佈且未通過 Shapiro-Wilk 檢驗,會發生什麼情況?正態性的 Shapiro-Wilk 檢驗是一項非常嚴格的檢驗,有時即使 Normal-QQ 圖看起來有些合理,數據也未能通過檢驗。
Gauss-Markov 定理不需要正態性。OLS 估計量仍然是藍色的,但如果沒有正態性,您將難以進行推理,即假設檢驗和置信區間,至少對於有限的樣本量。但是,仍然有引導程序。
漸近地,這不是一個問題,因為 OLS 估計量在溫和的正則條件下具有限制正態分佈。
如果一個或多個預測變量不是正態分佈、在 Normal-QQ 圖上看起來不正確或數據未通過 Shapiro-Wilk 檢驗,會發生什麼情況?
據我所知,預測變量要么被認為是固定的,要么回歸以它們為條件。這限制了非正態性的影響。
對於根據 R-Squared 值擬合良好的模型而言,不符合正態性意味著什麼。它會變得不那麼可靠,還是完全沒用?
R平方是模型解釋的方差的比例。它不需要正態性假設,無論如何它都是擬合優度的度量。但是,如果您想將其用於部分 F 測試,那就另當別論了。
偏差在多大程度上是可以接受的,或者完全可以接受?
你的意思是偏離常態,對吧?這實際上取決於您的目的,因為正如我所說,在沒有常態的情況下推理變得困難,但並非不可能(引導程序!)。
當對數據應用轉換以滿足正態性標準時,如果數據更正態(Shapiro-Wilk 檢驗的 P 值更高,在正態 QQ 圖上更好看),模型是否會變得更好,或者它是無用的(同樣好或與原始數據相比差)直到數據通過正態性檢驗?
簡而言之,如果您擁有所有高斯-馬爾可夫假設加上正態性,則 OLS 估計量是最佳無偏 (BUE),即**所有類型的估計量中最有效的 - 達到 Cramer-Rao 下限。這當然是可取的,但如果它沒有發生,這不是世界末日。上述說明適用。
關於轉換,請記住,雖然響應的分佈可能更接近正態分佈,但之後的解釋可能並不簡單。
這些只是對您的問題的一些簡短回答。您似乎特別關注非正態性的影響。總的來說,我想說這並不像人們(已經被製造成?)相信的那樣災難性,並且有解決方法。我包含的兩篇參考文獻是進一步閱讀的一個很好的起點,第一篇是理論性質的。
參考資料:
林,文雄。:“計量經濟學”,普林斯頓大學出版社,2000 年
庫特納、邁克爾 H. 等人。“應用線性統計模型。”,McGraw-Hill Irwin,2005 年。