ANOVA 回答了什麼問題?
我想學習方差分析。在我開始學習算法是如何工作的(必須進行哪些計算)以及它為什麼工作之前,我首先想知道我們用 ANOVA 實際解決了什麼問題,或者我們試圖回答什麼答案。換句話說:算法的輸入和輸出是什麼?
我確實了解我們用作輸入的內容。我們有一組數字。每個數字都帶有一個或多個分類變量(也稱為“因子”)的值。例如:
+------------+------------+-------+ | factor 1 | factor 2 | value | +------------+------------+-------+ | "A" | "a" | 1.0 | | "A" | "a" | 2.4 | | "A" | "b" | 0.3 | | "A" | "b" | 7.4 | | "B" | "a" | 1.2 | | "B" | "a" | 8.4 | | "B" | "b" | 0.4 | | "B" | "b" | 7.2 | +------------+------------+-------+
是否可以說 ANOVA 計算零假設的 p 值,表明這些因素對值的平均值沒有影響?換句話說,我們將上述給定數據提供給算法,結果我們得到原假設的 p 值?
如果是這種情況,我們實際使用什麼度量來計算 p 值。例如,我們可以說,在 1% 的情況下,假設零假設 M 可能與觀察到的假設一樣高(甚至更高)。什麼是M?
我們不是也單獨研究方差分析中的因素嗎?ANOVA 可以說 factor_1 有影響但 factor_2 沒有?ANOVA 可以說,對於對應於值“A”、“B”和“C”的給定因子值在統計上無法區分(例如,具有相同的均值)但值“D”有影響嗎?
ANOVA 代表“方差分析”。毫不奇怪,它分析了方差。
讓我們更明確一點。您的觀察結果會出現一些差異。如果您按因子 1 對觀察結果進行分組,則因子 1 定義的組內的方差將小於總體方差。因素 1“解釋方差”。
但是,這還不足以斷定因素 1 實際上確實與您的觀察結果有關係……因為按任何東西分組都會“解釋”方差。好消息是我們知道在您的因子確實與您的觀察無關的零假設下將解釋多少方差。在 null 下解釋的這種方差量由分配。
因此,ANOVA 中的策略是估計總體方差和組內方差(使用平方和)並取這些估計方差的比率。這個比例是統計。然後我們比較這個統計臨界值在單邊測試中分佈,產生你的價值。因子水平的數量成為參數的一個參數分佈(更多的因子水平將解釋零假設下的更多方差),並且觀察數和水平數進入另一個。這個較早的問題可能會有所幫助。
(為什麼要進行單邊測試?因為如上所述,任何分組都會解釋一些方差,因此只有檢查您的因素是否解釋了顯著大量的方差才有意義。)
Wikipedia 條目的“激勵示例”部分提供了一些非常好的說明因素,這些因素解釋了很少、一些和很多整體差異。
雙向 ANOVA 和交互,如您的示例,以及 ANCOVA,只是對這個主題的概括。在每種情況下,我們都會調查添加一些解釋變量是否可以解釋大量的方差。
一旦我們有一個顯著的整體檢驗,我們可以檢查某些因素水平的觀察是否與事後檢驗中的其他因素顯著不同。例如,D 可能與 A、B 和 C 不同,但它們之間可能沒有顯著差異。您通常會使用對此進行測試。這個早先的問題和這個問題一樣可能有用。