Normal-Distribution

為什麼我們不使用 t 分佈來構建比例的置信區間?

  • June 5, 2019

為了計算具有未知總體標準差 (sd) 的均值的置信區間 (CI),我們通過使用 t 分佈來估計總體標準差。尤其, $ CI=\bar{X} \pm Z_{95% }\sigma_{\bar X} $ 在哪裡 $ \sigma_{\bar X} = \frac{\sigma}{\sqrt n} $ . 但是因為我們沒有總體標準差的點估計,所以我們通過近似估計 $ CI=\bar{X} \pm t_{95% }(se) $ 在哪裡 $ se = \frac{s}{\sqrt n} $

相反,對於人口比例,為了計算 CI,我們近似為 $ CI = \hat{p} \pm Z_{95% }(se) $ 在哪裡 $ se = \sqrt\frac{\hat{p}(1-\hat{p})}{n} $ 假如 $ n \hat{p} \ge 15 $ 和 $ n(1-\hat{p}) \ge 15 $

我的問題是,為什麼我們對人口比例的標準分佈感到自滿?

標準正態分佈和學生 t 分佈對

$$ Z = \frac{\hat p - p}{\sqrt{\hat p(1-\hat p)/n}} $$

對於小 $ n, $ 太差了,以至於誤差使這兩個分佈之間的差異相形見絀。

這是所有三種分佈的比較(省略了 $ \hat p $ 或者 $ 1-\hat p $ 為零,其中比率未定義)對於 $ n=10, p=1/2: $

圖1

“經驗”分佈是 $ Z, $ 這必須是離散的,因為估計 $ \hat p $ 限於有限集 $ {0, 1/n, 2/n, \ldots, n/n}. $

這 $ t $ 分佈似乎在近似方面做得更好。

為了 $ n=30 $ 和 $ p=1/2, $ 您可以看到標準正態分佈和學生 t 分佈之間的差異完全可以忽略不計:

圖 2

因為學生 t 分佈比標準正態分佈更複雜(它實際上是由“自由度”索引的整個分佈家族,以前需要整章的表格而不是單頁),標準正態分佈幾乎用於所有近似值。

引用自:https://stats.stackexchange.com/questions/411699

comments powered by Disqus