Anova
如果我對交互不感興趣,是否有任何理由運行雙向 ANOVA 而不是兩個單向 ANOVA?
我的意思是除了能夠在單個過程中完成分析的便利性之外的任何原因。
是的,有幾個原因!
1)辛普森悖論。除非設計是平衡的,否則如果其中一個變量影響結果,如果不調整第一個變量,您甚至無法正確評估另一個變量的影響方向(請參見鏈接中的第一個圖表,特別是 - 轉載如下**)。這說明了問題 - 組內效應正在增加(兩條彩色線),但如果您忽略紅藍分組,您會得到減少效應(虛線,灰色線) - 完全錯誤的標誌!
雖然這顯示了一個連續變量和一個分組變量的情況,但當不平衡的雙向主效應方差分析被視為兩個單向模型時,可能會發生類似的事情。
2)讓我們假設有一個完全平衡的設計。然後你仍然想這樣做,因為如果你在查看第一個變量時忽略第二個變量(假設兩者都有一些影響),那麼第二個變量的影響會進入噪聲項,誇大它……所以你的所有標準都有偏差錯誤向上。在這種情況下,顯著且重要的影響可能看起來像噪音。
考慮以下數據、連續響應和兩個名義分類因子:
y x1 x2 1 2.33 A 1 2 1.90 B 1 3 4.77 C 1 4 3.48 A 2 5 1.34 B 2 6 4.16 C 2 7 5.88 A 3 8 2.56 B 3 9 5.97 C 3 10 5.10 A 4 11 2.62 B 4 12 6.21 C 4 13 6.54 A 5 14 6.01 B 5 15 9.62 C 5
兩種方式的主效應 anova 非常重要(因為它是平衡的,所以順序無關緊要):
Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) x1 2 26.644 13.3220 24.284 0.0004000 x2 4 38.889 9.7222 17.722 0.0004859 Residuals 8 4.389 0.5486
但單個單向方差在 5% 的水平上並不顯著:
(1) Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) x1 2 26.687 13.3436 3.6967 0.05613 Residuals 12 43.315 3.6096 (2) Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) x2 4 38.889 9.7222 3.1329 0.06511 Residuals 10 31.033 3.1033
請注意,在每種情況下,因子的均方均未改變……但殘差均方顯著增加(每種情況下均從 0.55 增加到超過 3)。這就是省略一個重要變量的效果。
** (上圖是維基百科用戶舒茨製作的,但放在公共領域;雖然公共領域的項目不需要署名,但我覺得值得認可)