Sampling

為什麼中心極限定理適用於單個樣本?

  • May 8, 2016

我一直被告知,當您重複採樣時,CLT 會起作用,並且每個樣本都足夠大。例如,假設我有一個擁有 1,000,000 名公民的國家。我對 CLT 的理解是,即使他們的身高分佈不正常,如果我抽取 50 個人的 1000 個樣本(即每人對 50 個公民進行 1000 次調查),然後計算每個樣本的平均身高,這些樣本的分佈手段是正常的。

但是,我從未見過研究人員重複採樣的真實案例。相反,他們抽取一個大樣本(即調查 50,000 名公民的身高)並以此為基礎工作。

為什麼統計書籍教授重複抽樣,而在現實世界中,研究人員只進行一次抽樣?

編輯:我正在考慮的真實案例是對 50,000 個 Twitter 用戶的數據集進行統計。該數據集顯然不是重複樣本,它只是 50,000 個大樣本。

CLT(至少以它的一些不同形式)告訴我們,在極限中 $ n\to\infty $ 單個標準化樣本均值的分佈 ( $ \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} $ ) 收斂到正態分佈(在某些條件下)。

CLT 沒有告訴我們在 $ n=50 $ 或者 $ n=50,000 $ .

但是在試圖激勵 CLT 時,特別是在沒有提供 CLT 證據的情況下,有些人依賴於 $ \bar{X} $ 對於有限樣本,並表明隨著樣本的增加,樣本分佈越來越接近正態分佈。

嚴格來說,這並沒有證明 CLT,它更接近於證明 Berry-Esseen 定理,因為它證明了接近正態性的速度——但這反過來又會引導我們走向 CLT,所以它作為動機足夠好(事實上,像 Berry-Esseen 這樣的東西通常更接近人們在有限樣本中實際想要使用的東西,因此在某種意義上,動機在實踐中可能比中心極限定理本身更有用) .

這些樣本均值的分佈將是正常的。

好吧,不,它們是不正常的,但實際上它們會非常接近正常(高度有些偏斜但不是偏斜)。

[再次注意,CLT 並沒有告訴我們樣本均值的行為。 $ n=50 $ ; 這就是我之前對 Berry-Esseen 的討論所得到的,它確實處理了有限樣本的標準化均值的分佈函數與正常 cdf 的距離有多遠]

我正在考慮的真實案例是對 50,000 個 Twitter 用戶的數據集進行統計。該數據集顯然不是重複樣本,它只是 50,000 個大樣本。

對於許多分佈,50,000 個項目的樣本平均值將非常接近正態分佈 - 但不能保證,即使在 n=50,000 時,您將非常接近正態分佈(如果單個項目的分佈足夠例如,樣本均值的分佈可能仍然偏斜到足以使正態近似值站不住腳)。

Berry-Esseen 定理將引導我們預測這個問題可能會發生——而且很明顯,確實發生了。很容易給出適用於 CLT 的示例,但對於其中 n=50,000 的樣本還不夠大標準化樣本均值接近正常值。)

引用自:https://stats.stackexchange.com/questions/211499

comments powered by Disqus