非配對 t 檢驗需要哪些正態性假設？他們什麼時候見面？

December 11, 2011

如果我們希望進行配對 t 檢驗，則要求是（如果我理解正確的話）匹配的測量單位之間的平均差異將呈正態分佈。

在配對 t 檢驗中，這是明確的（AFAIK），要求匹配的測量單位之間的差異將呈正態分佈（即使兩個比較組中的每一個的分佈都不正態）。

但是，在非配對 t 檢驗中，我們不能談論匹配單元之間的差異，因此我們要求兩組的觀察值是正態的，這樣它們的均值差就會是正態的。這引出了我的問題：

兩個非正態分佈是否有可能使得它們的平均值的差異是正態分佈的？（因此，據我所知，再次滿足我們對它們執行非配對 t 檢驗的要求）。

**更新：（**謝謝大家的回答）我看到我們正在尋找的一般規則確實是平均值的差異是正常的，由於 CLT，這似乎是一個很好的假設（在足夠大的 n 下）。這對我來說很神奇（並不奇怪，只是很神奇），至於它如何適用於非配對 t 檢驗，但不適用於單樣本 t 檢驗。這裡有一些 R 代碼來說明：
n1 <- 10
n2 <- 10
mean1 <- 50
mean2 <- 50
R <- 10000

# diffs <- replicate(R, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2)))
# hist(diffs)

P <- numeric(R)
MEAN <- numeric(R)
for(i in seq_len(R))
{
   y1 <- rexp(n1, 1/mean1)
   y2 <- runif(n2, 0, 2*mean2)
   MEAN[i] <- mean(y1) - mean(y2)
   P[i] <- t.test(y1,y2)$p.value
}
# diffs <- replicate(R, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2)))
par(mfrow = c(1,2))
hist(P)
qqplot(P, runif(R)); abline(0,1)
sum(P<.05) / R # for n1=n2=10 -> 0.0715 # wrong type I error, but only for small n1 and n2 (for larger ones, this effect disappears)



n1 <- 100
mean1 <- 50
R <- 10000
P_y1 <- numeric(R)

for(i in seq_len(R))
{
   y1 <- rexp(n1, 1/mean1)
   P_y1[i] <- t.test(y1 , mu = mean1)$p.value
}

par(mfrow = c(1,2))
hist(P_y1)
qqplot(P_y1, runif(R)); abline(0,1)
sum(P_y1<.05) / R # for n1=n2=10 -> 0.057  # "wrong" type I error
謝謝。

在實踐中，中心極限定理向我們保證，在廣泛的假設下，當樣本量變大時，被測試的兩個樣本均值的分佈本身將接近正態分佈，無論（這是假設的來源）基礎數據的分佈。結果，隨著樣本量變大，均值的差異變為正態分佈，並且滿足非配對 t 檢驗的 t 統計量具有標稱 t 分佈的必要條件。因此，一個更實際適用的問題可能是，在我可以安全地忽略統計量的實際分佈和 t 分佈之間的差異之前，樣本量必須有多大？

在許多情況下，答案是“不是很大”，尤其是當底層分佈非常接近對稱時。例如，我模擬了 100,000 次測試，比較了兩個 Uniform(0,1) 分佈的均值，每個分佈的樣本大小為 10，並且在 95% 的置信水平下進行測試時，實際上拒絕了 5.19% 的空值 - 幾乎沒有什麼不同與我們希望的標稱 5% 拒絕率相比（儘管它比 5% 高出大約 2.7 個標準差。）

這就是為什麼人們在基本假設未得到滿足的各種情況下使用 t 檢驗的原因，但當然，您的里程可能會有所不同，具體取決於您的問題的具體情況。但是，還有其他不需要正態性的檢驗，例如 Wilcoxon 檢驗，即使數據是正態分佈的，它也漸近地是 t 檢驗的 95% 左右（即，需要樣本大小N/0.95 與樣本大小為 N 的 t 檢驗具有相同的功效，因為 N 趨於無窮大）。當數據不是正態分佈時，它可能（不一定會）比 t 檢驗好很多。

引用自：https://stats.stackexchange.com/questions/19675

非配對 t 檢驗需要哪些正態性假設？他們什麼時候見面？

相關問答

實際上，獨立同分佈假設是否適用於絕大多數監督學習任務？

線性回歸的線性假設

什麼是夏皮羅-威爾克的 CDFWWW統計？

線性回歸中的假設需要什麼？

多重共線性和預測性能

線性回歸中的線性假設僅僅是εεepsilon?