為什麼中心極限定理在我的模擬中失效?
假設我有以下數字:
4,3,5,6,5,3,4,2,5,4,3,6,5
我對其中的一些進行採樣,比如說,其中 5 個,然後計算 5 個樣本的總和。然後我一遍又一遍地重複以獲得許多總和,並在直方圖中繪製總和的值,由於中心極限定理,這將是高斯的。
但是當他們關注數字時,我只是用一些大數字替換了 4:
4,3,5,6,5,3,10000000,2,5,4,3,6,5
從這些樣本中抽取 5 個樣本的總和永遠不會在直方圖中變成高斯分佈,而更像是一個拆分,變成兩個高斯分佈。這是為什麼?
讓我們準確地回憶一下中心極限定理所說的內容。
如果 $ X_1, X_2, \cdots, X_k $ 是具有(共享)均值的獨立且同分佈的隨機變量 $ \mu $ 和標準差 $ \sigma $ , 然後 $ \frac{X_1 + X_2 + \cdots + X_k}{k\frac{\sigma}{\sqrt{k}}} $ 在分佈中收斂到標準正態分佈 $ N(0, 1) $ (*)。
這通常以“非正式”形式使用:
如果 $ X_1, X_2, \cdots, X_k $ 是具有(共享)均值的獨立且同分佈的隨機變量 $ \mu $ 和標準差 $ \sigma $ , 然後 $ X_1 + X_2 + \cdots + X_k $ 收斂於“分佈”到標準正態分佈 $ N(k \mu, \sqrt{k} \sigma) $ .
由於“極限”分佈發生變化,因此沒有好的方法可以使 CLT 的這種形式在數學上精確,但它在實踐中很有用。
當我們有一個靜態的數字列表時
4,3,5,6,5,3,10000000,2,5,4,3,6,5
我們通過從這個列表中隨機抽取一個數字進行抽樣,為了應用中心極限定理,我們需要確保我們的抽樣方案滿足這兩個獨立且同分佈的條件。
- 相同分佈是沒有問題的:列表中的每個數字都同樣可能被選中。
- 獨立更微妙,取決於我們的抽樣方案。如果我們在沒有放回的情況下進行抽樣,那麼我們就違反了獨立性。只有當我們進行放回抽樣時,中心極限定理才適用。
因此,如果我們在您的方案中使用替換抽樣,那麼我們應該能夠應用中心極限定理。同時,您是對的,如果我們的樣本大小為 5,那麼我們將看到非常不同的行為,具體取決於在我們的樣本中是否選擇了非常大的數字。
那麼問題是什麼?嗯,收斂到正態分佈的速度很大程度上取決於我們從中抽樣的人口的形狀,特別是,如果我們的人口非常偏斜,我們預計需要很長時間才能收斂到正態分佈。在我們的示例中就是這種情況,因此我們不應期望大小為 5 的樣本足以顯示正常結構。
上面我對大小為 5、100 和 1000 的樣本重複了您的實驗(使用替換抽樣)。您可以看到,對於非常大的樣本,正常結構是出現的。
(*) 請注意,這裡需要一些技術條件,例如有限均值和方差。在我們從列表示例中進行的抽樣中,它們很容易被驗證為真實。