在進行 t 檢驗時，為什麼更願意假設（或測試）方差相等，而不是總是使用 df 的 Welch 近似值？

July 20, 2010

似乎當滿足方差同質性假設時，韋爾奇調整 t 檢驗和標準 t 檢驗的結果大致相同。為什麼不總是使用 Welch 調整後的 t？

我想根據Kubinger、Rasch 和 Moder (2009)的論文（德語）反對其他兩個答案。

他們認為，基於來自滿足或不滿足 t 檢驗所施加的假設（方差的正態性和同質性）分佈的“廣泛”模擬，當滿足假設時（即基本相同），韋爾奇檢驗的表現同樣好犯 alpha 和 beta 錯誤的概率），但如果不滿足假設，則優於 t 檢驗，尤其是在功效方面。因此，如果樣本量超過 30，他們建議始終使用 welch-test。

作為元評論：對於對統計感興趣的人（像我和可能在這裡的大多數其他人），基於數據的論點（就像我的）至少應該等同於僅基於理論基礎的論點（就像這裡的其他人一樣）。

更新：

再次思考這個話題後，我發現了兩個進一步的建議，其中較新的一個有助於我的觀點。查看導致這些建議的論據的原始論文（至少對我而言，這兩篇論文都是免費提供的）。

第一個建議來自 Graeme D. Ruxton 在 2006 年：“如果要根據不相關數據的樣本比較 2 個總體的集中趨勢，則應始終優先使用不等方差 t 檢驗而不是學生 t 檢驗或 Mann-Whitney U 檢驗。 ”載

於：

Ruxton, GD, 2006。不等方差 t 檢驗是學生 t 檢驗和 Mann-Whitney U 檢驗的一種未充分利用的替代方法。 行為。生態。17, 688–690。

第二個（較早的）建議來自 Coombs 等人。（1996 年，第 148 頁）：“**總之，在控制 I 類錯誤率方面，獨立樣本 t 檢驗通常是可以接受的，前提是存在足夠大的等大小樣本，即使違反了等總體方差假設。**對於不等大小的樣本，然而，一個不假設相等總體方差的替代方案是可取的。當分佈是短尾對稱或正態分佈時，使用 James 二階檢驗。有希望的替代方案包括 Wilcox H 和 Yuen 修剪均值檢驗，它們提供對 I 類錯誤率的控制比 Welch 檢驗或 James 檢驗更廣泛，並且在數據為長尾時具有更大的功效。” （重點補充）

在：

Coombs WT, Algina J, Oltman D. 1996。當總體方差不一定相等時，選擇單變量和多變量綜合假設檢驗來控制 I 類錯誤率。Rev Educ Res 66：137-79。

引用自：https://stats.stackexchange.com/questions/305

comments powered by Disqus

在進行 t 檢驗時，為什麼更願意假設（或測試）方差相等，而不是總是使用 df 的 Welch 近似值？

相關問答

這是p-hacking嗎？

t.test 和 prop.test 的 p 值差異很大

為什麼當平均值看起來真的不同時，t.test() 的 p 值在統計上不顯著

具有二分變量的兩組的顯著性檢驗

韋爾奇檢驗似乎比等方差 t 檢驗差得多

有沒有使用的測試|μ一種−μ乙|≤δ|μ一種−μ乙|≤d|{mu_A}-{mu_B}|le delta作為零假設？