當沒有成對 t 檢驗時,ANOVA 是否顯著?
是否可以單向(與組,或“水平”)方差分析報告顯著差異,當沒有成對t檢驗呢?
在這個答案中@whuber 寫道:
眾所周知,全局 ANOVA F 檢驗可以檢測到均值的差異,即使在任何一對均值的單個 [未調整的成對] t 檢驗都不會產生顯著結果的情況下。
所以顯然這是可能的,但我不明白如何。它什麼時候發生,這種情況背後的直覺是什麼?也許有人可以提供這種情況的簡單玩具示例?
一些進一步的說明:
- 相反的情況顯然是可能的:整體 ANOVA 可能不顯著,而一些成對 t 檢驗錯誤地報告顯著差異(即那些將是假陽性)。
- 我的問題是關於標準的,未針對多重比較 t 檢驗進行調整的。如果使用調整後的測試(例如 Tukey 的 HSD 程序),那麼即使整體 ANOVA 是顯著的,它們也可能沒有顯著性。這在幾個問題中有所涉及,例如,如何獲得顯著的整體方差分析,但與 Tukey 的程序沒有顯著的成對差異?和顯著的方差分析交互作用,但非顯著的成對比較。
- **更新。**我的問題最初是指通常的兩樣本成對 t 檢驗。然而,正如@whuber 在評論中指出的那樣,在 ANOVA 上下文中,t 檢驗通常被理解為使用組內方差的 ANOVA 估計的事後對比,匯集在所有組中(這不是在兩個組中發生的情況) -樣本 t 檢驗)。所以我的問題實際上有兩個不同的版本,而且對它們的答案都是肯定的。見下文。
注意:我原來的例子有問題。我愚蠢地被 R 的無聲參數回收抓住了。我的新示例與我的舊示例非常相似。希望現在一切正常。
這是我製作的一個示例,其方差分析在 5% 的水平上顯著,但 6 個成對比較中沒有一個是顯著的,即使在 5% 的水平上也是如此。
這是數據:
g1: 10.71871 10.42931 9.46897 9.87644 g2: 10.64672 9.71863 10.04724 10.32505 10.22259 10.18082 10.76919 10.65447 g3: 10.90556 10.94722 10.78947 10.96914 10.37724 10.81035 10.79333 9.94447 g4: 10.81105 10.58746 10.96241 10.59571
這是方差分析:
Df Sum Sq Mean Sq F value Pr(>F) as.factor(g) 3 1.341 0.4469 3.191 0.0458 * Residuals 20 2.800 0.1400
這是兩個樣本 t 檢驗 p 值(等方差假設):
g2 g3 g4 g1 0.4680 0.0543 0.0809 g2 0.0550 0.0543 g3 0.8108
通過對組均值或單個點進行更多的擺弄,可以使顯著性差異更加顯著(因為我可以使第一個 p 值更小,並使 t 檢驗的六個 p 值中的最低值更高)。
–
編輯:這是一個額外的例子,它最初是用關於趨勢的噪音產生的,它顯示瞭如果你稍微移動點可以做得更好:
g1: 7.27374 10.31746 10.54047 9.76779 g2: 10.33672 11.33857 10.53057 11.13335 10.42108 9.97780 10.45676 10.16201 g3: 10.13160 10.79660 9.64026 10.74844 10.51241 11.08612 10.58339 10.86740 g4: 10.88055 13.47504 11.87896 10.11403
F 的 p 值低於 3%,並且沒有一個 t 的 p 值低於 8%。(對於 3 組示例 - 但 F 上的 p 值稍大 - 省略第二組)
這是一個非常簡單的例子,如果更人為的話,有 3 個組:
g1: 1.0 2.1 g2: 2.15 2.3 3.0 3.7 3.85 g3: 3.9 5.0
(在這種情況下,最大的方差在中間組 - 但由於那裡的樣本量較大,組均值的標準誤差仍然較小)
多重比較 t 檢驗
whuber 建議我考慮多重比較的情況。事實證明這很有趣。
多重比較的情況(全部在原始顯著性水平上進行 - 即不調整多重比較的 alpha)有點難以實現,因為在不同組中使用越來越小的方差或越來越少的 df 無濟於事與普通的兩樣本 t 檢驗一樣。
但是,我們仍然有操縱組數和顯著性水平的工具;如果我們選擇更多的組和更小的顯著性水平,那麼識別案例就變得相對簡單了。這是一個:
帶八組. 定義前四組的值為(2,2.5),後四組的值為(3.5,4),取 (說)。然後我們有一個顯著的 F:
> summary(aov(values~ind,gs2)) Df Sum Sq Mean Sq F value Pr(>F) ind 7 9 1.286 10.29 0.00191 Residuals 8 1 0.125
然而,成對比較中的最小 p 值在該水平上並不顯著:
> with(gs2,pairwise.t.test(values,ind,p.adjust.method="none")) Pairwise comparisons using t tests with pooled SD data: values and ind g1 g2 g3 g4 g5 g6 g7 g2 1.0000 - - - - - - g3 1.0000 1.0000 - - - - - g4 1.0000 1.0000 1.0000 - - - - g5 0.0028 0.0028 0.0028 0.0028 - - - g6 0.0028 0.0028 0.0028 0.0028 1.0000 - - g7 0.0028 0.0028 0.0028 0.0028 1.0000 1.0000 - g8 0.0028 0.0028 0.0028 0.0028 1.0000 1.0000 1.0000 P value adjustment method: none