Normal-Distribution
為什麼我們不使用 t 分佈來構建比例的置信區間?
為了計算具有未知總體標準差 (sd) 的均值的置信區間 (CI),我們通過使用 t 分佈來估計總體標準差。尤其, CI=\bar{X} \pm Z_{95% }\sigma_{\bar X}CI=\bar{X} \pm Z_{95% }\sigma_{\bar X} 在哪裡 σˉX=σ√n . 但是因為我們沒有總體標準差的點估計,所以我們通過近似估計 CI=\bar{X} \pm t_{95% }(se) 在哪裡 se=s√n
相反,對於人口比例,為了計算 CI,我們近似為 CI = \hat{p} \pm Z_{95% }(se) 在哪裡 se=√ˆp(1−ˆp)n 假如 nˆp≥15 和 n(1−ˆp)≥15
我的問題是,為什麼我們對人口比例的標準分佈感到自滿?
標準正態分佈和學生 t 分佈對
Z=ˆp−p√ˆp(1−ˆp)/n
對於小 n, 太差了,以至於誤差使這兩個分佈之間的差異相形見絀。
這是所有三種分佈的比較(省略了 ˆp 或者 1−ˆp 為零,其中比率未定義)對於 n=10,p=1/2:
“經驗”分佈是 Z, 這必須是離散的,因為估計 ˆp 限於有限集 0,1/n,2/n,…,n/n.
這 t 分佈似乎在近似方面做得更好。
為了 n=30 和 p=1/2, 您可以看到標準正態分佈和學生 t 分佈之間的差異完全可以忽略不計:
因為學生 t 分佈比標準正態分佈更複雜(它實際上是由“自由度”索引的整個分佈家族,以前需要整章的表格而不是單頁),標準正態分佈幾乎用於所有近似值。