Normal-Distribution

當樣本很大時,為什麼不使用 T 分佈來估計均值?

  • August 17, 2014

基礎統計學課程通常建議在樣本量n很大(通常超過 30 或 50)時使用正態分佈來估計總體參數的平均值。學生 T 分佈用於較小的樣本量,以說明樣本標準差的不確定性。當樣本量很大時,樣本標準差可以提供有關總體標準差的良好信息,從而可以進行正態分佈估計。我明白了。

但是,當您可以準確地獲得置信區間時,為什麼還要使用估計值呢?不管樣本量如何,如果它只是對您可以通過 T 分佈準確得到的東西的估計,那麼使用正態分佈有什麼意義呢?

只是為了澄清與標題的關係,我們沒有使用 t 分佈來估計平均值(至少在點估計的意義上),而是為其構造一個區間。

但是,當您可以準確地獲得置信區間時,為什麼還要使用估計值呢?

這是一個很好的問題(只要我們不要太堅持“精確”,因為它是精確t 分佈的假設實際上並不成立)。

“當總體標準差 (σ) 未知且樣本量較小 (n<30) 時,您必須在處理問題時使用 t 分佈表”

當總體標準差未知時(即使 n>30),為什麼人們不一直使用 T 分佈?

我認為這些建議充其量是具有誤導性的。在某些情況下,當自由度遠大於該值時,仍應使用 t 分佈。

法線是合理的近似值取決於多種因素(因此取決於情況)。但是,由於(使用計算機)使用 $ t $ ,即使 df 非常大,您也不得不想知道為什麼需要擔心在 n=30 時做一些不同的事情。

如果樣本量真的很大,它不會對置信區間產生明顯的影響,但我認為 n=30 並不總是足夠接近“真的很大”。


在一種情況下,使用正常而不是 $ t $ - 那是您的數據顯然不滿足獲得 t 分佈的條件,但您仍然可以爭論均值的近似正態性(如果 $ n $ 很大)。然而,在這些情況下,t 通常在實踐中是一個很好的近似值,並且可能在某種程度上“更安全”。[在這種情況下,我可能傾向於通過模擬進行調查。]

引用自:https://stats.stackexchange.com/questions/112162

comments powered by Disqus