為什麼我們不使用 t 分佈來構建比例的置信區間？

June 5, 2019

為了計算具有未知總體標準差 (sd) 的均值的置信區間 (CI)，我們通過使用 t 分佈來估計總體標準差。尤其， $ CI=\bar{X} \pm Z_{95% }\sigma_{\bar X} $ 在哪裡 $ \sigma_{\bar X} = \frac{\sigma}{\sqrt n} $ . 但是因為我們沒有總體標準差的點估計，所以我們通過近似估計 $ CI=\bar{X} \pm t_{95% }(se) $ 在哪裡 $ se = \frac{s}{\sqrt n} $

相反，對於人口比例，為了計算 CI，我們近似為 $ CI = \hat{p} \pm Z_{95% }(se) $ 在哪裡 $ se = \sqrt\frac{\hat{p}(1-\hat{p})}{n} $ 假如 $ n \hat{p} \ge 15 $ 和 $ n(1-\hat{p}) \ge 15 $

我的問題是，為什麼我們對人口比例的標準分佈感到自滿？

標準正態分佈和學生 t 分佈對

$$ Z = \frac{\hat p - p}{\sqrt{\hat p(1-\hat p)/n}} $$

對於小 $ n, $ 太差了，以至於誤差使這兩個分佈之間的差異相形見絀。

這是所有三種分佈的比較（省略了 $ \hat p $ 或者 $ 1-\hat p $ 為零，其中比率未定義）對於 $ n=10, p=1/2: $

“經驗”分佈是 $ Z, $ 這必須是離散的，因為估計 $ \hat p $ 限於有限集 $ {0, 1/n, 2/n, \ldots, n/n}. $

這 $ t $ 分佈似乎在近似方面做得更好。

為了 $ n=30 $ 和 $ p=1/2, $ 您可以看到標準正態分佈和學生 t 分佈之間的差異完全可以忽略不計：

因為學生 t 分佈比標準正態分佈更複雜（它實際上是由“自由度”索引的整個分佈家族，以前需要整章的表格而不是單頁），標準正態分佈幾乎用於所有近似值。

引用自：https://stats.stackexchange.com/questions/411699

comments powered by Disqus

為什麼我們不使用 t 分佈來構建比例的置信區間？

相關問答

當您擁有全部人口時，是否適合在數據上放置“誤差線”？

關於文章“拋棄 p 值。改用 Bootstrap 置信區間”的三個問題

估計參數函數周圍的置信區間

計算兩個獨立比例之差的標準誤

如何從二元邏輯回歸模型中獲得兩個概率之間差異的置信區間？

Z值可以被認為是標準偏差的數量嗎？