在進行 t 檢驗時,為什麼更願意假設(或測試)方差相等,而不是總是使用 df 的 Welch 近似值?
似乎當滿足方差同質性假設時,韋爾奇調整 t 檢驗和標準 t 檢驗的結果大致相同。為什麼不總是使用 Welch 調整後的 t?
我想根據Kubinger、Rasch 和 Moder (2009)的論文(德語)反對其他兩個答案。
他們認為,基於來自滿足或不滿足 t 檢驗所施加的假設(方差的正態性和同質性)分佈的“廣泛”模擬,當滿足假設時(即基本相同),韋爾奇檢驗的表現同樣好犯 alpha 和 beta 錯誤的概率),但如果不滿足假設,則優於 t 檢驗,尤其是在功效方面。因此,如果樣本量超過 30,他們建議始終使用 welch-test。
作為元評論:對於對統計感興趣的人(像我和可能在這裡的大多數其他人),基於數據的論點(就像我的)至少應該等同於僅基於理論基礎的論點(就像這裡的其他人一樣)。
更新:
再次思考這個話題後,我發現了兩個進一步的建議,其中較新的一個有助於我的觀點。查看導致這些建議的論據的原始論文(至少對我而言,這兩篇論文都是免費提供的)。
第一個建議來自 Graeme D. Ruxton 在 2006 年:“如果要根據不相關數據的樣本比較 2 個總體的集中趨勢,則應始終優先使用不等方差 t 檢驗而不是學生 t 檢驗或 Mann-Whitney U 檢驗。 ”載
於:
Ruxton, GD, 2006。不等方差 t 檢驗是學生 t 檢驗和 Mann-Whitney U 檢驗的一種未充分利用的替代方法。 行為。生態。17, 688–690。
第二個(較早的)建議來自 Coombs 等人。(1996 年,第 148 頁):“**總之,在控制 I 類錯誤率方面,獨立樣本 t 檢驗通常是可以接受的,前提是存在足夠大的等大小樣本,即使違反了等總體方差假設。**對於不等大小的樣本,然而,一個不假設相等總體方差的替代方案是可取的。當分佈是短尾對稱或正態分佈時,使用 James 二階檢驗。有希望的替代方案包括 Wilcox H 和 Yuen 修剪均值檢驗,它們提供對 I 類錯誤率的控制比 Welch 檢驗或 James 檢驗更廣泛,並且在數據為長尾時具有更大的功效。” (重點補充)
在:
Coombs WT, Algina J, Oltman D. 1996。當總體方差不一定相等時,選擇單變量和多變量綜合假設檢驗來控制 I 類錯誤率。Rev Educ Res 66:137-79。