T-Test
何時使用 Wilcoxon 秩和檢驗而不是非配對 t 檢驗?
這是 Frank Harrell 在這裡寫的後續問題:
根據我的經驗,t 分佈準確所需的樣本量通常大於手頭的樣本量。正如你所說,Wilcoxon 符號秩檢驗非常有效,而且它很健壯,所以我幾乎總是更喜歡它而不是 t 檢驗
如果我理解正確 - 在比較兩個不匹配樣本的位置時,如果我們的樣本量很小,我們更願意使用 Wilcoxon 秩和檢驗而不是非配對 t 檢驗。
是否存在我們更喜歡 Wilcoxon 秩和檢驗而不是非配對 t 檢驗的理論情況,即使我們兩組的樣本量相對較大?
我對這個問題的動機源於觀察到,對於單個樣本 t 檢驗,將其用於偏態分佈的不太小的樣本會產生錯誤的 I 類錯誤:
n1 <- 100 mean1 <- 50 R <- 100000 P_y1 <- numeric(R) for(i in seq_len(R)) { y1 <- rexp(n1, 1/mean1) P_y1[i] <- t.test(y1 , mu = mean1)$p.value } sum(P_y1<.05) / R # for n1=n2=100 -> 0.0572 # "wrong" type I error
就在這裡。例如,來自具有無限方差的分佈的任何抽樣都會破壞 t 檢驗,但不會破壞 Wilcoxon。參考非參數統計方法(Hollander 和 Wolfe),我看到 Wilcoxon 相對於 t 檢驗的漸近相對效率(ARE)對於均勻分佈是 1.0,對於 Logistic 是 1.097(即 Wilcoxon 更好),對於 Logistic 是 1.5雙指數(拉普拉斯)和指數 3.0。
Hodges 和 Lehmann 表明 Wilcoxon 相對於任何其他測試的最小 ARE 為 0.864,因此相對於其他任何測試,使用它的效率永遠不會損失超過 14%。(當然,這是一個漸近的結果。)因此,Frank Harrell 使用 Wilcoxon 作為默認值可能應該被包括我自己在內的幾乎所有人採用。
編輯:回應評論中的後續問題,對於那些更喜歡置信區間的人來說,Hodges-Lehmann 估計量是與 Wilcoxon 檢驗“對應”的估計量,並且可以圍繞它構建置信區間。