Welch 的 t 檢驗為更極端的差異提供更差的 p 值
以下是四組不同的數字:
A = {95.47, 87.90, 99.00}
B = {79.2, 75.3, 66.3}
C = {38.4, 40.4, 32.8}
D = {1.8, 1.2, 1.1}
在不假設方差相等的情況下使用雙樣本 t 檢驗,我將 B、C 和 D 與 A 進行比較,得到以下 p 值:
0.015827(A 與 B)
0.000283(A 與 C)
0.001190(A 與 D)
我覺得奇怪的是 AD 測試的 p 值比 AC 測試差:均值之間的差異顯然要大得多,並且 D 的方差遠低於 C 的方差。直覺上(至少在我的直覺上) ),這兩個事實都應該降低 p 值。
有人可以解釋這是否是 t 檢驗的期望或預期行為,或者它是否必須對我的特定數據集做更多的事情(可能是極低的樣本量?)。t 檢驗是否不適用於這組特定的數據?
從純粹的計算角度來看,p 值較差的原因似乎是自由度,在 AD 比較中為 2.018,而在 AC 比較中為 3.566。但可以肯定的是,如果您剛剛看到這些數字,您是否認為與 AC 相比,在 AD 案例中拒絕零假設的證據更有力?
有些人可能會認為這不是問題,因為無論如何所有 p 值都非常低。我的問題是這 3 個測試是我正在執行的一組測試的一部分。在對多次測試進行校正後,AD 比較沒有通過,而 AC 比較可以。想像一下繪製這些數字(比如生物學家經常做的帶有誤差線的條形圖)並試圖證明為什麼 C 與 A 顯著不同但 D 不是……好吧,我不能。
更新:為什麼這真的很重要
讓我澄清一下為什麼這一觀察結果會對解釋過去的研究產生重大影響。在生物信息學中,我已經看到 t 檢驗大規模應用於小樣本量(想想數百或數千個基因的差異基因表達,或許多不同藥物對細胞系的影響,僅使用 3-5 次重複) )。通常的程序是進行多次 t 檢驗(每個基因或藥物一個),然後進行多次檢驗校正,通常是 FDR。鑑於上述對 Welch t 檢驗行為的觀察,這意味著一些最好的情況正在被系統地過濾掉。儘管大多數人會查看列表頂部比較的實際數據(具有最佳 p 值的比較),但我不知道有誰會查看所有比較列表,其中原假設不存在t 拒絕。
是的,這是自由度。當我們將 B、C、D 組與 A 組進行比較時,t 統計量本身會增加;分子變大,分母變小。
為什麼你的方法“不起作用”?好吧,自由度的 Satterthwaite 近似值和參考分佈(顧名思義!)只是一個近似值。如果每組有更多的樣本,而不是大量的重尾數據,它會很好用;對於大多數目的而言,每組 3 個觀察值確實非常小。(此外,雖然 p 值對於進行測試很有用,但它們不會測量證據,也不會根據數據直接解釋來估計參數。)
如果您真的想計算出檢驗統計量的精確分佈 - 以及更好的校準 p 值 -可以使用此處引用的方法。但是,它們依賴於假設正常性,這是您沒有明顯能力檢查的假設,在這裡。