Normal-Distribution

均值置信區間的近似誤差𝑛≥30n≥30n geq 30

  • March 15, 2017

讓是一個 iid 隨機變量族,取值, 有一個平均值和方差. 平均值的簡單置信區間,使用每當它已知時,由

另外,因為是作為標準正態隨機變量漸近分佈的,正態分佈有時用於“構建”一個近似置信區間。


在多項選擇答案統計考試中,我不得不使用這個近似值而不是每當. 我一直對此感到非常不舒服(超出你的想像),因為近似誤差沒有被量化。


  • 為什麼使用正態近似而不是?
  • 我不想再一次盲目地應用規則. 是否有好的參考可以支持我拒絕這樣做並提供適當的替代方案?(是我認為合適的替代方案的一個例子。)

在這裡,雖然和是未知的,它們很容易有界。

請注意,我的問題是一個參考請求,特別是關於置信區間的問題,因此與此處此處建議為部分重複的問題不同。那裡沒有回答。

為什麼要使用正態近似?

就像說使用更多信息總比使用更少信息一樣簡單。等式 (1) 使用切比雪夫定理。請注意,它如何不使用有關您的分佈形狀的任何信息,即它適用於具有給定方差的任何分佈。因此,如果您使用有關分佈形狀的一些信息,您必須獲得更好的近似值。如果您知道您的分佈是高斯分佈,那麼通過使用這些知識,您可以獲得更好的估計。

既然您已經在應用中心極限定理,為什麼不使用邊界的高斯近似呢?實際上,它們會變得更好,更緊密(或更清晰),因為這些估計是基於對形狀的了解,這是一條額外的信息。

經驗法則 30 是一個神話,它受益於確認偏差。它只是不斷地從一本書複製到另一本書。有一次,我在 1950 年代的一篇論文中找到了建議這條規則的參考資料。我記得,這不是任何可靠的證據。這是某種實證研究。基本上,使用它的唯一原因是因為它有點工作。你不會經常看到它被嚴重違反。

更新查看 Zachary R. Smith 和 Craig S. Wells 的論文“中心極限定理和样本大小”。他們對不同類型分佈的 CLT 收斂性進行了實證研究。當然,幻數 30 在很多情況下都不起作用。

引用自:https://stats.stackexchange.com/questions/267539

comments powered by Disqus