Anova

不同細胞中樣本數量對ANOVA結果的影響

  • May 24, 2011

我用 C++ 編寫了一個 3-way ANOVA。我有 3 個因素,比如說 A、B 和 C,我的目標是檢查所有可能的相互作用和主要影響的強度。當我使用類型 I 平方和時,我的代碼的結果與 MATLAB 中的結果相同。

但是,當我更改數據以使某些單元格中的重複/樣本數較高而其他單元格中的重複/樣本數較低(不平衡設計)時,我得到的結果與 MATLAB 中的結果不同。(準確地說,只有 SSt、SSe 和 SSa 與 MATLAB 中的相同)。

我的問題是,是否有可能因為我的重複次數差異很大,我應該使用 III 型平方和?或者Matlab在這種情況下是否有一種特殊的方式處理數據,所以它的結果與我的不同?

我沒有 Matlab,但從我在N 路方差分析的在線幫助中讀到的內容,我不清楚 Matlab 是否會type根據您的設計自動調整 (1–3)。我最好的猜測是,是的,您得到了不同的結果,因為測試的設計方式不同。

通常,對於不平衡設計,建議使用類型 III 平方和 (SS),其中每個項都在所有其他項之後進行測試(與類型 II 平方和的差異僅在存在交互項時才明顯),而使用一個不完整的設計,比較 III 型和 IV 型 SS 可能會很有趣。請注意,在不平衡數據的情況下使用 III 型與 II 型有待於文獻中的討論。

(以下內容基於我在原網站上找不到的法語教程。這是個人副本,這是另一篇論文,討論了在階乘方差分析中計算 SS 的不同方法:哪些平方和在不平衡中最好方差分析?

I/II 型和 III 型(也稱為 Yates 加權均方)的區別在於計算 SS 時作為參考模型的模型,以及因素是否按照它們進入模型的順序進行處理。假設我們有兩個因素,A 和 B,它們的交互作用是 A*B,以及一個像 y ~ A + B + A:B(威爾金森符號)這樣的模型。

對於 I 型 SS,我們首先計算與 A 相關聯的 SS,然後是 B,最後是 A*B。這些 SS 被計算為最大模型(忽略感興趣的術語)和最小模型(包括它)之間的剩餘 SS (RSS) 差異。

對於類型 II 和 III,SS 以連續方式計算,從與 AB 關聯的那些開始,然後是 B,最後是 A。對於 AB,它只是完整模型中的 RSS 與 RSS 之間的差異在沒有交互的模型中。與 B 關聯的 SS 計算為省略 B 的模型和包含 B 的模型(參考模型)的 RSS 之間的差異;對於 III 型 SS,參考模型是完整模型 (A+B+AB),而對於 I 型和 II 型 SS,它是加法模型 (A+B)。這解釋了為什麼當完整模型中不存在交互時,類型 II 和 III 將相同。然而,為了獲得第一個 SS,我們需要使用虛擬變量來編碼因子的水平,或者更準確地說,這些虛擬編碼水平之間的差異(這也意味著為給定因子考慮的參考水平很重要;例如,SAS 考慮最後一級,而 R 考慮第一個,按字典順序)。為了計算 A 項的 SS,我們遵循相同的想法:我們考慮模型 A+B+AB 和簡化模型 B+A*B(A 省略)的 RSS 之間的差異,如果III型不銹鋼;對於 II 型 SS,我們考慮 A+B 與 B。

請注意,在完全平衡的設計中,所有 SS 都將相等。此外,對於 I 型 SS,無論模型中項的順序如何,所有 SS 的總和將等於整個模型的總和。(這不適用於 II 型和 III 型 SS。)

Howell 的講義中提供了對不同方法的詳細而具體的概述:直接使用一般線性模型計算 I 型、II 型和 III 型平方和。這可能會幫助您檢查您的代碼。您還可以將 R 與car包一起使用,John Fox 在他的教科書、應用回歸分析、線性模型和相關方法(Sage Publications,1997,第 8.2.4–8.2 節)中討論了增量平方和的使用。 6)。可以在Daniel Wollschläger網站上找到使用示例。

最後,以下論文對 III 型 SS(第 5.1 節)的使用進行了很好的討論:

維納布爾斯,WN(2000 年)。線性模型的註釋。1998 年 10 月 8 日至 9 日在華盛頓特區的 S-PLUS 用戶大會上提交的論文。

(另請參閱此R 幫助線程、其中的參考資料以及以下文章Anova – I/II/III 型 SS 解釋。)

引用自:https://stats.stackexchange.com/questions/11209

comments powered by Disqus