Hypothesis-Testing

為什麼方差分析假設(方差相等、殘差正態性)很重要?

  • January 13, 2017

在運行 ANOVA 時,我們被告知必須存在某些測試假設才能適用於數據。我從來不明白為什麼需要以下假設才能使測試發揮作用:

  1. 在設計的每個單元格中,因變量(殘差)的方差應該相等
  2. 對於設計的每個單元格,您的因變量(殘差)應近似正態分佈

我知道是否需要滿足這些假設存在一些灰色地帶,但為了論證,如果在給定的數據集中完全不滿足這些假設,那麼使用 ANOVA 會有什麼問題?

這些假設很重要,因為它們影響您可能使用的假設檢驗(和區間)的屬性,其在零下的分佈屬性是根據這些假設計算的。

特別是,對於假設檢驗,我們可能關心的事情是真實顯著性水平可能與我們想要的水平相差多遠,以及反對感興趣的替代方案的能力是否良好。

關於您提出的假設:

1.方差相等

在設計的每個單元格中,因變量(殘差)的方差應該相等

這肯定會影響顯著性水平,至少在樣本量不相等時是這樣。

(編輯:)方差分析 F 統計量是兩個方差估計值的比率(方差的劃分和比較就是為什麼它被稱為方差分析)。分母是對所謂的所有單元共同誤差方差(根據殘差計算)的估計,而分子基於組均值的變化,將有兩個分量,一個來自總體均值的變化,一個來自總體均值的變化由於誤差方差。如果 null 為真,則估計的兩個方差將相同(公共誤差方差的兩個估計);這個常見但未知的值抵消了(因為我們採用了一個比率),留下了一個僅取決於誤差分佈的 F 統計量(在我們可以展示的假設下,它具有 F 分佈。(類似的評論適用於 t-我用來說明的測試。)

[在我的回答中有一些關於這些信息的更多細節]

然而,這裡的兩個總體方差在兩個不同大小的樣本中是不同的。考慮分母(ANOVA 中的 F 統計量和 t 檢驗中的 t 統計量) - 它由兩個不同的方差估計組成,而不是一個,因此它不會具有“正確”分佈(縮放的 chi -F 的平方及其在 at 情況下的平方根 - 形狀和比例都是問題)。

因此,F 統計量或 t 統計量將不再具有 F 或 t 分佈,但它受到影響的方式會有所不同,具體取決於是從具有較大的方差。這反過來會影響 p 值的分佈。

在 null 下(即當總體均值相等時),p 值的分佈應該是均勻分佈的。但是,如果方差和样本量不相等但均值相等(因此我們不想拒絕空值),則 p 值不是均勻分佈的。我做了一個小模擬來告訴你會發生什麼。在這種情況下,我只使用了 2 個組,因此 ANOVA 等效於具有等方差假設的雙樣本 t 檢驗。所以我模擬了兩個正態分佈的樣本,其中一個的標準差是另一個的十倍,但均值相等。

對於左側圖,較大的(總體)標準差適用於 n=5,較小的標準差適用於 n=30。對於右側圖,n=30 時標準差較大,n=5 時標準差較小。我模擬了每一個 10000 次,每次都找到 p 值。在每種情況下,您都希望直方圖完全平坦(矩形),因為這意味著所有測試都在某個顯著性水平上進行 $ \alpha $ 實際上得到了第一類錯誤率。特別是直方圖的最左邊部分靠近灰線是最重要的:

模擬樣本的 p 值直方圖

正如我們所看到的,左側圖(較小樣本中的較大方差)p 值往往非常小——我們會經常拒絕原假設(在本例中幾乎是一半時間),即使原假設為真. 也就是說,我們的顯著性水平比我們要求的要大得多。在右側圖中,我們看到 p 值大部分都很大(因此我們的顯著性水平比我們要求的要小得多)——事實上,我們在 5% 的水平(最小的這裡的 p 值為 0.055)。[這聽起來可能不是一件壞事,直到我們記得我們也將有非常低的功率來配合我們非常低的顯著性水平。]

這是相當的後果。這就是為什麼當我們沒有充分的理由假設方差將接近相等時使用 Welch-Satterthwaite 類型 t 檢驗或 ANOVA 是一個好主意——相比之下,在這些情況下它幾乎沒有受到影響(我也模擬了這種情況;模擬 p 值的兩個分佈——我沒有在這裡展示——結果非常接近平坦)。

2.響應的條件分佈(DV)

對於設計的每個單元格,您的因變量(殘差)應近似正態分佈

這不是那麼直接關鍵 - 對於與正態性的適度偏差,顯著性水平在較大樣本中的影響不大(儘管功率可能會!)。

這是一個示例,其中值呈指數分佈(具有相同的分佈和样本大小),我們可以看到這個顯著性水平問題在很小的時候就很重要 $ n $ 但大幅減少 $ n $ .

當 H0 為真但每組中的分佈為指數時的 p 值直方圖

我們看到,在 n=5 時,小 p 值非常少(5% 檢驗的顯著性水平約為應有水平的一半),但在 n=50 時,問題減少了——對於 5%在這種情況下測試真實顯著性水平約為 4.5%。

所以我們可能會想說“好吧,那很好,如果 n 大到足以使顯著性水平非常接近”,但我們也可能會付出很大的努力。特別是,眾所周知,t 檢驗相對於廣泛使用的替代方案的漸近相對效率可以達到 0。這意味著更好的檢驗選擇可以在獲得它所需的樣本量的極小部分獲得相同的功效。 t 檢驗。您不需要任何不尋常的東西來繼續需要超過兩倍的數據來獲得與 t 相同的功率,因為您需要使用替代測試 - 比人口分佈中的正常尾部稍重中等大的樣本就足夠了。

(其他分佈選擇可能會使顯著性水平高於應有的水平,或大大低於我們在此處看到的水平。)

引用自:https://stats.stackexchange.com/questions/255973

comments powered by Disqus