來自均勻分佈的隨機樣本的均值遵循什麼分佈?
例如,讓 $ X_1,\cdots,X_n $ 是一個隨機樣本 $ f(x|\theta)=1,\theta-1/2 < x < \theta +1/2 $ . 清楚地, $ X_i \sim U(\theta-1/2 , \theta +1/2) $ . 一些直覺會表明 $ \bar{X}\sim f(x|\theta)=1,\theta-1/2 < x < \theta +1/2 $ . 但是,我認為這實際上並不正確。什麼樣的分佈 $ \bar{X} $ 跟隨?
首先,您可能想查看有關 Irwin-Hall 分佈的 Wikipedia。
除非 $ n $ 非常小 $ A = \bar X = \frac{1}{n}\sum_{i=1}^{n} X_i, $ 在哪裡 $ X_i $ 是獨立的 $ \mathsf{Unif}(\theta-.5,\theta+.5) $ 擁有 $ A \stackrel{aprx}{\sim}\mathsf{Norm}(\mu = \theta, \sigma = 1/\sqrt{12n}). $
[近似值非常適合 $ n \ge 10. $ 事實上,在計算的早期,除了疼痛算術之外,進行運算的成本很高,模擬標準正態隨機變量的常用方法是評估 $ Z = \sum_{1=1}^{12} X_i - 6, $ 在哪裡 $ X_i $ 生成為獨立的標準制服。]
R中的以下模擬使用一百萬個大小的樣本 $ n = 12 $ 和 $ \theta = 5. $
set.seed(2020) # for reproducibility m = 10^6; n = 12; th = 5 a = replicate(m, mean(runif(n, th-.5,th+.5))) mean(a); sd(a); 1/sqrt(12*n) [1] 5.000153 # aprx 5 [1] 0.08339642 # aprx 1/12 [1] 0.08333333 # 1/12
因此均值和標準差與中心極限定理的結果一致。在 R 中,Shapiro-Wilk 正態性檢驗僅限於 5000 個觀測值。我們展示了前 5000 個模擬樣本均值的結果。這些觀察結果符合正態分佈。
shapiro.test(a[1:5000]) Shapiro-Wilk normality test data: a[1:5000] W = 0.99979, p-value = 0.9257
下面的直方圖比較了模擬分佈 $ \bar X $ 與PDF $ \mathsf{Norm}(\mu=5, \sigma=1/12). $
hdr = "Simulated Dist'n of Means of Uniform Samples: n = 12" hist(a, br=30, prob=T, col="skyblue2", main=hdr) curve(dnorm(x, 5, 1/sqrt(12*n)), add=T, lwd=2) abline(v=5+c(-1,1)*1.96/sqrt(12*n), col="red")
這表明$$ P\left(-1.96 < \frac{\bar X - \theta}{1/\sqrt{12n}} < 1.96\right) = 0.95, $$所以一個非常好的近似 95% 的置信區間 $ \theta $ 是形式 $ (\bar X \pm 1.96/\sqrt{12n}). $