Hypothesis-Testing
t.test 和 prop.test 的 p 值差異很大
測試兩個獨立組之間的命中差異(1 與 0) $ X $ 和 $ Y $ 根據以下考慮,應該可以使用 t 檢驗:
- $ x_i\in{0,1} $ 是測量 $ i $ -第一項即時通訊組 $ X $ , 和 $ y_i\in{0,1} $ 組相同 $ Y $
- 每組中的比例是測量值的平均值,即 $ \mu_X=\sum_i x_i/n $ 和 $ \mu_Y=\sum_i y_i/n $
- 平均值之差 $ \mu_X $ 和 $ \mu_Y $ 可以用 t 檢驗對兩組進行檢驗
在這種特殊情況下,比例測試(
prop.test
R 中的函數)是另一種測試選項。有趣的是,結果完全不同:> x <- c(rep(1, 10), rep(0, 90)) > y <- c(rep(1, 20), rep(0, 80)) > t.test(x,y,paired=FALSE) t = -1.99, df = 183.61, p-value = 0.04808 > prop.test(c(10,20), c(100,100)) X-squared = 3.1765, df = 1, p-value = 0.07471
請注意 prop.test 的更高 p 值。這是否意味著t檢驗具有更高的功效,即可以區分 $ H_0 $ 它的替代品已經適用於較小的 $ n $ ? 在這種情況下是否有理由不使用 t 檢驗?
加法(編輯:在下面 Thomas Lumley 的回答下的評論中解決): t 檢驗的結果更加令人驚訝,因為觀察到即使是漸近(“Wald”)95% 置信區間的兩個測量值重疊(0.1587989 > 0.1216014):
> library(binom) > binom.confint(10, 100, method="asymptotic") method x n mean lower upper 1 asymptotic 10 100 0.1 0.04120108 0.1587989 > binom.confint(20, 100, method="asymptotic") method x n mean lower upper 1 asymptotic 20 100 0.2 0.1216014 0.2783986
由於基於 t 分佈的置信區間應該比基於正態分佈的置信區間更寬(即 $ z_{1-\alpha/2} $ ),我不明白為什麼 t 檢驗報告在 5% 的水平上有顯著差異。
你是對的,測試應該更相似。它們是對手段的測試,並且是針對輕尾分佈的,因此您應該期望他們同意。更重要的是,估計的方差 $ \hat p(1-\hat p)/n $ 對於二項分佈非常接近 $ s^2/n $
> var(x)/100 [1] 0.0009090909 > .1*(.9)/100 [1] 9e-04 > .2*(.8)/100 [1] 0.0016 > var(y)/100 [1] 0.001616162
你看到的是連續性校正。如果您嘗試不使用,則 $ p $ -值幾乎相同
> t.test(x,y) Welch Two Sample t-test data: x and y t = -1.99, df = 183.61, p-value = 0.04808 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -0.1991454034 -0.0008545966 sample estimates: mean of x mean of y 0.1 0.2 > prop.test(c(10,20),c(100, 100),correct=FALSE) 2-sample test for equality of proportions without continuity correction data: c(10, 20) out of c(100, 100) X-squared = 3.9216, df = 1, p-value = 0.04767 alternative hypothesis: two.sided 95 percent confidence interval: -0.197998199 -0.002001801 sample estimates: prop 1 prop 2 0.1 0.2
卡方檢驗的連續性校正有點爭議。它確實大大減少了測試是反保守的情況的數量,但代價是使測試明顯保守。不使用“校正”會給出在原假設下更接近均勻分佈的 p 值。而且,正如您在此處看到的,不使用校正會使您更接近 t 檢驗。