Normal-Distribution
均值置信區間的近似誤差𝑛≥30n≥30n geq 30
讓是一個 iid 隨機變量族,取值, 有一個平均值和方差. 平均值的簡單置信區間,使用每當它已知時,由
另外,因為是作為標準正態隨機變量漸近分佈的,正態分佈有時用於“構建”一個近似置信區間。
在多項選擇答案統計考試中,我不得不使用這個近似值而不是每當. 我一直對此感到非常不舒服(超出你的想像),因為近似誤差沒有被量化。
- 為什麼使用正態近似而不是?
- 我不想再一次盲目地應用規則. 是否有好的參考可以支持我拒絕這樣做並提供適當的替代方案?(是我認為合適的替代方案的一個例子。)
在這裡,雖然和是未知的,它們很容易有界。
為什麼要使用正態近似?
就像說使用更多信息總比使用更少信息一樣簡單。等式 (1) 使用切比雪夫定理。請注意,它如何不使用有關您的分佈形狀的任何信息,即它適用於具有給定方差的任何分佈。因此,如果您使用有關分佈形狀的一些信息,您必須獲得更好的近似值。如果您知道您的分佈是高斯分佈,那麼通過使用這些知識,您可以獲得更好的估計。
既然您已經在應用中心極限定理,為什麼不使用邊界的高斯近似呢?實際上,它們會變得更好,更緊密(或更清晰),因為這些估計是基於對形狀的了解,這是一條額外的信息。
經驗法則 30 是一個神話,它受益於確認偏差。它只是不斷地從一本書複製到另一本書。有一次,我在 1950 年代的一篇論文中找到了建議這條規則的參考資料。我記得,這不是任何可靠的證據。這是某種實證研究。基本上,使用它的唯一原因是因為它有點工作。你不會經常看到它被嚴重違反。
更新查看 Zachary R. Smith 和 Craig S. Wells 的論文“中心極限定理和样本大小”。他們對不同類型分佈的 CLT 收斂性進行了實證研究。當然,幻數 30 在很多情況下都不起作用。