Anova

方差分析假設正態性/殘差正態分佈

  • January 18, 2011

ANOVA 上的維基百科頁面列出了三個假設,即:

  • 案例的獨立性——這是簡化統計分析的模型假設。
  • 正態性——殘差的分佈是正態的。
  • 方差的相等性(或“同質性”),稱為同方差性……

這裡的興趣點是第二個假設。幾個來源以不同的方式列出了這個假設。有人說原始數據的正態性,有人說殘差。

彈出幾個問題:

  • 殘差的正態分佈和正態分佈是同一個人嗎(基於維基百科條目,我認為正態性是一種屬性,與殘差不直接相關(但可以是殘差的屬性(括號內的深度嵌套文本,怪異)))?
  • 如果不是,應該成立哪個假設?一?兩個都?
  • 如果正態分佈殘差的假設是正確的,那麼我們是否通過僅檢查原始值的直方圖的正態性而犯了嚴重錯誤?

假設這是一個固定效應模型。(對於隨機效應模型,建議並沒有真正改變,只是變得更複雜了。)

首先讓我們區分“殘差”和“錯誤”:前者是響應與其預測值之間的差異,而後者是模型中的隨機變量。有了足夠多的數據和良好的擬合程序,殘差的分佈將近似地看起來像是從誤差分佈中隨機抽取的殘差(因此將為您提供有關該分佈屬性的良好信息)。

因此,假設是關於*誤差,*而不是殘差。

  1. 不,(響應的)正態性和錯誤的正態分佈不一樣。假設您測量了施肥和不施肥的作物產量。在沒有施肥的地塊中,產量從 70 到 130 不等。在兩個施肥的地塊中,產量在 470 到 530 之間。結果的分佈非常不正態:它聚集在兩個與施肥有關的位置。進一步假設平均收益率分別為 100 和 500。然後所有殘差的範圍從 -30 到 +30,因此預計誤差將具有可比較的分佈。錯誤可能(或可能不)是正態分佈的,但顯然這是一個完全不同的分佈。
  2. 殘差的分佈很重要,因為它們反映了誤差,這是模型的隨機部分。另請注意,p 值是根據 F(或 t)統計量計算的,並且這些值取決於殘差,而不是原始值。
  3. 如果數據中存在顯著且重要的影響(如本例所示),那麼可能犯了“嚴重”錯誤。幸運的是,您可以做出正確的決定:也就是說,通過查看原始數據,您會看到混合分佈,這看起來可能正常(或不正常)。關鍵是你在看什麼是不相關的。

為了擬合模型,ANOVA 殘差不必接近正常值。但是,除非您擁有大量數據,否則殘差的接近正態性對於從 F 分佈計算的 p 值有意義是必不可少的。

引用自:https://stats.stackexchange.com/questions/6350

comments powered by Disqus