如何證明階乘方差分析中的誤差項?
關於多因素方差分析的一個可能非常基本的問題。假設我們測試主效應 A、B 和交互作用 A:B 的雙向設計。當用 I 型 SS 測試 A 的主效應時,效應 SS 計算為差值, 在哪裡是僅具有截距的模型的殘差平方和,並且添加了因子 A 的模型的 RSS。我的問題涉及錯誤術語的選擇:
您如何證明此檢驗的誤差項通常是根據包含主效應和交互作用的完整模型 A + B + A:B 的 RSS 計算得出的?
…而不是從實際比較中獲取無限制模型中的誤差項(RSS 僅來自上述情況下的主效應 A):
這會有所不同,因為在比較中,來自完整模型的誤差項可能經常(並非總是)小於來自不受限制模型的誤差項。似乎誤差項的選擇有些武斷,僅通過添加/刪除並不真正感興趣的因素來為所需的 p 值變化創造空間,但無論如何都要更改誤差項。
在以下示例中,A 的 F 值會根據完整模型的選擇而發生顯著變化,即使效果 SS 的實際比較保持不變。
> DV <- c(41,43,50, 51,43,53,54,46, 45,55,56,60,58,62,62, + 56,47,45,46,49, 58,54,49,61,52,62, 59,55,68,63, + 43,56,48,46,47, 59,46,58,54, 55,69,63,56,62,67) > IV1 <- factor(rep(1:3, c(3+5+7, 5+6+4, 5+4+6))) > IV2 <- factor(rep(rep(1:3, 3), c(3,5,7, 5,6,4, 5,4,6))) > anova(lm(DV ~ IV1)) # full model = unrestricted model (just A) Df Sum Sq Mean Sq F value Pr(>F) IV1 2 101.11 50.556 0.9342 0.4009 Residuals 42 2272.80 54.114 > anova(lm(DV ~ IV1 + IV2)) # full model = A+B Df Sum Sq Mean Sq F value Pr(>F) IV1 2 101.11 50.56 1.9833 0.1509 IV2 2 1253.19 626.59 24.5817 1.09e-07 *** Residuals 40 1019.61 25.49 > anova(lm(DV ~ IV1 + IV2 + IV1:IV2)) # full model = A+B+A:B Df Sum Sq Mean Sq F value Pr(>F) IV1 2 101.11 50.56 1.8102 0.1782 IV2 2 1253.19 626.59 22.4357 4.711e-07 *** IV1:IV2 4 14.19 3.55 0.1270 0.9717 Residuals 36 1005.42 27.93
相同的問題適用於 II 型 SS,通常適用於一般線性假設,即完整模型中受限模型和非受限模型之間的模型比較。(對於 III 型 SS,無限制模型始終是完整模型,因此問題不存在)
這是一個非常古老的問題,我相信@gung 的回答非常好(+1)。但由於它對@caracal 來說並不完全令人信服,而且我也沒有完全理解它的所有復雜性,所以我想提供一個簡單的數字來說明我是如何理解這個問題的。
考慮一個雙向方差分析(因子 A 具有三個水平,因子 B 具有兩個水平),這兩個因素顯然都非常顯著:
因素 A 的 SS 是巨大的。因子 B 的 SS 要小得多,但從上圖中可以清楚地看出,因子 B 仍然非常重要。
包含這兩個因素的模型的誤差 SS 由六個高斯之一表示,當將因素 B 的 SS 與此誤差 SS 進行比較時,測試將得出結論,因素 B 是顯著的。
然而,僅包含因子 B 的模型的誤差 SS 是巨大的!將因子 B 的 SS 與這個巨大的誤差 SS 進行比較肯定會導致 B 顯得不重要。顯然不是這樣。
這就是為什麼使用完整模型中的錯誤 SS 是有意義的。