Mean

中心極限定理需要大樣本量的分佈示例

  • June 15, 2013

一些書籍指出,中心極限定理需要 30 或更大的樣本量才能給出良好的近似值.

我知道這對於所有發行版來說是不夠的。

我希望看到一些分佈示例,即使樣本量很大(可能是 100、1000 或更高),樣本均值的分佈仍然相當偏斜。

我知道我以前見過這樣的例子,但我不記得在哪裡也找不到它們。

一些書籍指出,中心極限定理需要 30 或更大的樣本量才能給出良好的近似值.

這個常見的經驗法則幾乎完全沒有用。有非正態分佈,n=2 可以,非正態分佈更大是不夠的 - 因此,如果沒有對情況的明確限制,該規則具有誤導性。無論如何,即使它是真的,所需的會因你在做什麼而有所不同。通常你會在分佈中心附近得到很好的近似值, 但需要更大在尾部得到一個不錯的近似值。

編輯:有關問題的眾多但顯然一致的意見,以及一些良好的鏈接,請參閱此問題的答案。不過我不會強調這一點,因為你已經清楚地理解了。

我希望看到一些分佈示例,即使樣本量很大(可能是 100 或 1000 或更高),樣本均值的分佈仍然相當偏斜。

示例相對容易構建;一種簡單的方法是找到一個非正態的無限可分分佈並將其分割。如果您有一個在平均或總結時會接近正常值,請從“接近正常值”的邊界開始,並儘可能多地劃分它。例如:

考慮具有形狀參數的 Gamma 分佈. 將比例設為 1(比例無關緊要)。假設你認為就像“足夠正常”一樣。然後,您需要獲得 1000 個觀測值才能足夠正常的分佈具有分配。

所以如果你覺得一個 Gamma 與只是“足​​夠正常”-

伽瑪 (20) pdf

然後分乘以 1000,得到:

伽瑪 (0.02) pdf

其中 1000 個的平均值將具有第一個 pdf 的形狀(但不是它的比例)。

如果您改為選擇不接近正態的無限可分分佈,例如 Cauchy,則可能沒有樣本量的樣本均值具有近似正態分佈(或者,在某些情況下,它們可能仍接近正態,但你沒有對標準誤差的影響)。

@whuber 關於受污染分佈的觀點非常好;嘗試對這種情況進行一些模擬並查看在許多此類樣本中的行為方式可能是值得的。

引用自:https://stats.stackexchange.com/questions/61798

comments powered by Disqus