Confidence-Interval

在第一次實驗的 95% 置信區間內,有多少重複實驗會產生影響?

  • June 13, 2016

讓我們堅持隨機抽樣、高斯總體、等方差、沒有 P-hacking 等的理想情況。

第 1 步。您運行一個實驗,例如比較兩個樣本均值,併計算兩個總體均值之間差異的 95% 置信區間。

第 2 步。您運行更多實驗(數千次)。由於隨機抽樣,平均值之間的差異會因實驗而異。

問題:步驟 2 中實驗集合的平均值之間的差異有多少部分位於步驟 1 的置信區間內?

這是無法回答的。這完全取決於步驟 1 中發生的情況。如果步驟 1 的實驗非常不典型,那麼問題的答案可能非常低。

所以想像這兩個步驟都重複了很多次(第 2 步重複了很多次)。現在應該有可能,我認為,對於重複實驗的平均比例,在第一次實驗的 95% 置信區間內具有影響大小的期望值是可能的。

似乎需要理解這些問題的答案來評估研究的可重複性,這是一個現在非常熱門的領域。

分析

因為這是一個概念性問題,為簡單起見,讓我們考慮以下情況:置信區間

為均值而構建使用隨機樣本大小的和第二個隨機樣本大小合適, 都來自同一個法線分配。(如果你喜歡你可以更換s 來自 Student 的值的分佈自由程度; 以下分析不會改變。) 第二個樣本的平均值位於第一個樣本確定的 CI 內的機會是

因為第一個樣本均值與第一個樣本標準差無關(這需要正態性)並且第二個樣本獨立於第一個樣本,樣本均值的差異獨立於. 此外,對於這個對稱區間. 因此,寫對於隨機變量並將兩個不等式平方,所討論的概率與

期望定律意味著有一個意思和方差

自從是正態變量的線性組合,它也具有正態分佈。所以是次多變的。我們已經知道是次多變的。最後,是乘以一個變量分配。 所需的概率由 F 分佈給出


討論

一個有趣的情況是,當第二個樣本與第一個樣本大小相同時,因此並且只有和確定概率。這裡是值密謀反對為了.

數字

圖表上升到一個極限值在每個作為增加。傳統測試尺寸由一條垂直的灰線標記。對於較大的值, 的限制機會在附近.

通過了解這個限制,我們將超越小樣本量的細節,更好地了解問題的癥結所在。作為變大,分佈接近分配。就標準正態分佈而言, 概率然後近似

例如,與,和. 因此,曲線達到的極限值在作為增加將是. 你可以看到它幾乎達到了(機會在哪裡.)

對於小, 之間的關係互補概率——CI 不包括第二個均值的風險——幾乎是完美的冪律。 另一種表達方式是對數互補概率幾乎是. 極限關係約為

換句話說,對於大和任何接近傳統價值的地方,將接近

(這讓我想起了我在https://stats.stackexchange.com/a/18259/919上發布的對重疊置信區間的分析。確實,那裡的魔力,,非常接近這裡的魔力的倒數,. 此時,您應該能夠根據實驗的可重複性重新解釋該分析。)


實驗結果

這些結果通過簡單的模擬得到證實。以下R代碼返回覆蓋頻率,計算的機會和 Z 分數來評估它們的差異程度。Z 分數通常小於在大小上,無論(甚至是否一個或者計算CI),說明公式的正確性.

n <- 3      # First sample size
m <- 2      # Second sample size
sigma <- 2 
mu <- -4
alpha <- 0.05
n.sim <- 1e4
#
# Compute the multiplier.
#
Z <- qnorm(alpha/2)
#Z <- qt(alpha/2, df=n-1) # Use this for a Student t C.I. instead.
#
# Draw the first sample and compute the CI as [l.1, u.1].
#
x.1 <- matrix(rnorm(n*n.sim, mu, sigma), nrow=n)
x.1.bar <- colMeans(x.1)
s.1 <- apply(x.1, 2, sd)
l.1 <- x.1.bar + Z * s.1 / sqrt(n)
u.1 <- x.1.bar - Z * s.1 / sqrt(n)
#
# Draw the second sample and compute the mean as x.2.
#
x.2 <- colMeans(matrix(rnorm(m*n.sim, mu, sigma), nrow=m))
#
# Compare the second sample means to the CIs.
#
covers <- l.1 <= x.2 & x.2 <= u.1
#
# Compute the theoretical chance and compare it to the simulated frequency.
#
f <- pf(Z^2 / ((n * (1/n + 1/m))), 1, n-1)
m.covers <- mean(covers)
(c(Simulated=m.covers, Theoretical=f, Z=(m.covers - f)/sd(covers) * sqrt(length(covers))))

引用自:https://stats.stackexchange.com/questions/218602