Probability
來自均勻分佈的隨機樣本的均值遵循什麼分佈?
例如,讓 X1,⋯,Xn 是一個隨機樣本 f(x|θ)=1,θ−1/2<x<θ+1/2 . 清楚地, Xi∼U(θ−1/2,θ+1/2) . 一些直覺會表明 ˉX∼f(x|θ)=1,θ−1/2<x<θ+1/2 . 但是,我認為這實際上並不正確。什麼樣的分佈 ˉX 跟隨?
首先,您可能想查看有關 Irwin-Hall 分佈的 Wikipedia。
除非 n 非常小 A=ˉX=1n∑ni=1Xi, 在哪裡 Xi 是獨立的 Unif(θ−.5,θ+.5) 擁有 Aaprx∼Norm(μ=θ,σ=1/√12n).
[近似值非常適合 n≥10. 事實上,在計算的早期,除了疼痛算術之外,進行運算的成本很高,模擬標準正態隨機變量的常用方法是評估 Z=∑121=1Xi−6, 在哪裡 Xi 生成為獨立的標準制服。]
R中的以下模擬使用一百萬個大小的樣本 n=12 和 θ=5.
set.seed(2020) # for reproducibility m = 10^6; n = 12; th = 5 a = replicate(m, mean(runif(n, th-.5,th+.5))) mean(a); sd(a); 1/sqrt(12*n) [1] 5.000153 # aprx 5 [1] 0.08339642 # aprx 1/12 [1] 0.08333333 # 1/12
因此均值和標準差與中心極限定理的結果一致。在 R 中,Shapiro-Wilk 正態性檢驗僅限於 5000 個觀測值。我們展示了前 5000 個模擬樣本均值的結果。這些觀察結果符合正態分佈。
shapiro.test(a[1:5000]) Shapiro-Wilk normality test data: a[1:5000] W = 0.99979, p-value = 0.9257
下面的直方圖比較了模擬分佈 ˉX 與PDF Norm(μ=5,σ=1/12).
hdr = "Simulated Dist'n of Means of Uniform Samples: n = 12" hist(a, br=30, prob=T, col="skyblue2", main=hdr) curve(dnorm(x, 5, 1/sqrt(12*n)), add=T, lwd=2) abline(v=5+c(-1,1)*1.96/sqrt(12*n), col="red")
這表明P(−1.96<ˉX−θ1/√12n<1.96)=0.95,
所以一個非常好的近似 95% 的置信區間 θ 是形式 (ˉX±1.96/√12n).