在第一次實驗的 95% 置信區間內,有多少重複實驗會產生影響?
讓我們堅持隨機抽樣、高斯總體、等方差、沒有 P-hacking 等的理想情況。
第 1 步。您運行一個實驗,例如比較兩個樣本均值,併計算兩個總體均值之間差異的 95% 置信區間。
第 2 步。您運行更多實驗(數千次)。由於隨機抽樣,平均值之間的差異會因實驗而異。
問題:步驟 2 中實驗集合的平均值之間的差異有多少部分位於步驟 1 的置信區間內?
這是無法回答的。這完全取決於步驟 1 中發生的情況。如果步驟 1 的實驗非常不典型,那麼問題的答案可能非常低。
所以想像這兩個步驟都重複了很多次(第 2 步重複了很多次)。現在應該有可能,我認為,對於重複實驗的平均比例,在第一次實驗的 95% 置信區間內具有影響大小的期望值是可能的。
似乎需要理解這些問題的答案來評估研究的可重複性,這是一個現在非常熱門的領域。
分析
因為這是一個概念性問題,為簡單起見,讓我們考慮以下情況:置信區間
為均值而構建使用隨機樣本大小的和第二個隨機樣本大小合適, 都來自同一個法線分配。(如果你喜歡你可以更換s 來自 Student 的值的分佈自由程度; 以下分析不會改變。) 第二個樣本的平均值位於第一個樣本確定的 CI 內的機會是
因為第一個樣本均值與第一個樣本標準差無關(這需要正態性)並且第二個樣本獨立於第一個樣本,樣本均值的差異獨立於. 此外,對於這個對稱區間. 因此,寫對於隨機變量並將兩個不等式平方,所討論的概率與
期望定律意味著有一個意思和方差
自從是正態變量的線性組合,它也具有正態分佈。所以是次多變的。我們已經知道是次多變的。最後,是乘以一個變量分配。 所需的概率由 F 分佈給出
討論
一個有趣的情況是,當第二個樣本與第一個樣本大小相同時,因此並且只有和確定概率。這裡是值密謀反對為了.
圖表上升到一個極限值在每個作為增加。傳統測試尺寸由一條垂直的灰線標記。對於較大的值, 的限制機會在附近.
通過了解這個限制,我們將超越小樣本量的細節,更好地了解問題的癥結所在。作為變大,分佈接近分配。就標準正態分佈而言, 概率然後近似
例如,與,和. 因此,曲線達到的極限值在作為增加將是. 你可以看到它幾乎達到了(機會在哪裡.)
對於小, 之間的關係互補概率——CI 不包括第二個均值的風險——幾乎是完美的冪律。 另一種表達方式是對數互補概率幾乎是. 極限關係約為
換句話說,對於大和任何接近傳統價值的地方,將接近
(這讓我想起了我在https://stats.stackexchange.com/a/18259/919上發布的對重疊置信區間的分析。確實,那裡的魔力,,非常接近這裡的魔力的倒數,. 此時,您應該能夠根據實驗的可重複性重新解釋該分析。)
實驗結果
這些結果通過簡單的模擬得到證實。以下
R
代碼返回覆蓋頻率,計算的機會和 Z 分數來評估它們的差異程度。Z 分數通常小於在大小上,無論(甚至是否一個或者計算CI),說明公式的正確性.n <- 3 # First sample size m <- 2 # Second sample size sigma <- 2 mu <- -4 alpha <- 0.05 n.sim <- 1e4 # # Compute the multiplier. # Z <- qnorm(alpha/2) #Z <- qt(alpha/2, df=n-1) # Use this for a Student t C.I. instead. # # Draw the first sample and compute the CI as [l.1, u.1]. # x.1 <- matrix(rnorm(n*n.sim, mu, sigma), nrow=n) x.1.bar <- colMeans(x.1) s.1 <- apply(x.1, 2, sd) l.1 <- x.1.bar + Z * s.1 / sqrt(n) u.1 <- x.1.bar - Z * s.1 / sqrt(n) # # Draw the second sample and compute the mean as x.2. # x.2 <- colMeans(matrix(rnorm(m*n.sim, mu, sigma), nrow=m)) # # Compare the second sample means to the CIs. # covers <- l.1 <= x.2 & x.2 <= u.1 # # Compute the theoretical chance and compare it to the simulated frequency. # f <- pf(Z^2 / ((n * (1/n + 1/m))), 1, n-1) m.covers <- mean(covers) (c(Simulated=m.covers, Theoretical=f, Z=(m.covers - f)/sd(covers) * sqrt(length(covers))))