Probability

來自均勻分佈的隨機樣本的均值遵循什麼分佈?

  • April 3, 2020

例如,讓 $ X_1,\cdots,X_n $ 是一個隨機樣本 $ f(x|\theta)=1,\theta-1/2 < x < \theta +1/2 $ . 清楚地, $ X_i \sim U(\theta-1/2 , \theta +1/2) $ . 一些直覺會表明 $ \bar{X}\sim f(x|\theta)=1,\theta-1/2 < x < \theta +1/2 $ . 但是,我認為這實際上並不正確。什麼樣的分佈 $ \bar{X} $ 跟隨?

首先,您可能想查看有關 Irwin-Hall 分佈的 Wikipedia

除非 $ n $ 非常小 $ A = \bar X = \frac{1}{n}\sum_{i=1}^{n} X_i, $ 在哪裡 $ X_i $ 是獨立的 $ \mathsf{Unif}(\theta-.5,\theta+.5) $ 擁有 $ A \stackrel{aprx}{\sim}\mathsf{Norm}(\mu = \theta, \sigma = 1/\sqrt{12n}). $

[近似值非常適合 $ n \ge 10. $ 事實上,在計算的早期,除了疼痛算術之外,進行運算的成本很高,模擬標準正態隨機變量的常用方法是評估 $ Z = \sum_{1=1}^{12} X_i - 6, $ 在哪裡 $ X_i $ 生成為獨立的標準制服。]

R中的以下模擬使用一百萬個大小的樣本 $ n = 12 $ 和 $ \theta = 5. $

set.seed(2020)  # for reproducibility
m = 10^6;  n = 12;  th = 5
a = replicate(m, mean(runif(n, th-.5,th+.5)))
mean(a);  sd(a); 1/sqrt(12*n)
[1] 5.000153      # aprx 5
[1] 0.08339642    # aprx 1/12
[1] 0.08333333    # 1/12

因此均值和標準差與中心極限定理的結果一致。在 R 中,Shapiro-Wilk 正態性檢驗僅限於 5000 個觀測值。我們展示了前 5000 個模擬樣本均值的結果。這些觀察結果符合正態分佈。

shapiro.test(a[1:5000])

   Shapiro-Wilk normality test

data:  a[1:5000]
W = 0.99979, p-value = 0.9257

下面的直方圖比較了模擬分佈 $ \bar X $ 與PDF $ \mathsf{Norm}(\mu=5, \sigma=1/12). $

hdr = "Simulated Dist'n of Means of Uniform Samples: n = 12"
hist(a, br=30, prob=T, col="skyblue2", main=hdr)
curve(dnorm(x, 5, 1/sqrt(12*n)), add=T, lwd=2)
abline(v=5+c(-1,1)*1.96/sqrt(12*n), col="red")

在此處輸入圖像描述

這表明$$ P\left(-1.96 < \frac{\bar X - \theta}{1/\sqrt{12n}} < 1.96\right) = 0.95, $$所以一個非常好的近似 95% 的置信區間 $ \theta $ 是形式 $ (\bar X \pm 1.96/\sqrt{12n}). $

引用自:https://stats.stackexchange.com/questions/458341

comments powered by Disqus