偏離方差分析中的正態假設:峰度或偏度更重要?
Kutner 等人應用的線性統計模型。聲明以下關於偏離 ANOVA 模型的正態性假設的內容:就推斷的影響而言,誤差分佈的峰度(或多或少比正態分佈達到峰值)比分佈的偏度更重要。
我對這個說法感到有些困惑,無論是在書上還是在網上都沒有找到任何相關信息。我很困惑,因為我還了解到帶有重尾的 QQ 圖表明正態性假設對於線性回歸模型“足夠好”,而傾斜的 QQ 圖更值得關注(即轉換可能是合適的) .
我對 ANOVA 的推理是否正確,並且他們對單詞的選擇(在對推理的影響方面更重要)只是選擇不當?即,偏態分佈具有更嚴重的後果,應該避免,而少量的峰態是可以接受的。
編輯:正如 rolando2 所說,很難說一個在所有情況下都比另一個更重要,但我只是在尋找一些一般性的見解。我的主要問題是,我被告知在簡單的線性回歸中,尾部較重(=峰度?)的 QQ 圖是可以的,因為 F 檢驗對此非常穩健。另一方面,傾斜的 QQ 圖(拋物線形)通常是一個更大的問題。這似乎直接違背了我的教科書為 ANOVA 提供的指導方針,即使 ANOVA 模型可以轉換為回歸模型並且應該具有相同的假設。
我確信我忽略了某些東西,或者我有一個錯誤的假設,但我無法弄清楚它可能是什麼。
困難在於偏度和峰度是相關的;它們的影響不能完全分開。
問題是,如果要檢查高度偏斜分佈的影響,還必須有一個具有高峰度的分佈。
特別是峰度*偏度.
*(普通縮放的四階矩峰度,而不是過度峰度)
Khan 和 Rayner(在前面的答案中提到)與一個允許對偏度和峰度的影響進行一些探索的家庭合作,但他們無法避免這個問題,因此他們試圖將它們分開嚴重限制了影響的程度可以探索偏度。
如果一個持有峰度() 常數,不能使偏度大於. 如果希望考慮單峰分佈,則偏度會受到更多限制。
例如,如果您想查看高偏度的效果 - 比如說偏度 > 5,您無法獲得峰度小於 26 的分佈!
因此,如果要調查高偏度的影響,就無法避免調查高峰度的影響。因此,如果您確實嘗試將它們分開,您實際上無法評估將偏度增加到高水平的效果。
也就是說,至少對於他們考慮的分佈族,並且在它們之間的關係構成的範圍內,Khan 和 Rayner 的調查似乎確實表明峰度是主要問題。
然而,即使結論是完全一般的,如果你碰巧有一個(比如說)偏度為 5 的分佈,那麼說“但問題不在於偏度!”可能會讓人感到不舒服。– 一旦你的偏度是,您無法將峰度設為正常峰度,除此之外,最小可能峰度會隨著偏度的增加而迅速增長。