揭穿錯誤的 CLT 聲明
中心極限定理(CLT)給出了一些關於收斂到正態分佈的很好的性質。在正式學習統計學之前,我有一種極其錯誤的印象,即 CLT 說數據接近正常。
我現在發現自己正在與合作者爭論這個問題。我說 $ 68% $ 當我們有非正態分佈時,數據的數量不必在平均值的一個標準差內。他們同意但隨後說,根據 CLT,由於我們有很多觀察結果(可能是 50,000),我們的數據非常接近正常值,所以我們可以使用經驗規則並說 $ 68% $ 的數據在平均值的一個標準差內。這當然是錯誤的。人口並不關心從中得出了多少觀察結果;人口就是人口,無論我們是否從中抽樣!
什麼是解釋為什麼中心極限定理不是關於經驗分佈收斂的好方法?
這是對中心極限定理的普遍誤解,我在統計教學中也遇到過。多年來,我經常遇到這個問題,因此我開發了一種蘇格拉底式的方法來處理它。我確定了一個接受了這個想法的學生,然後讓學生梳理出這在邏輯上意味著什麼。得出該定理的錯誤版本的歸約荒謬相當簡單,即每個 IID 隨機變量序列都具有正態分佈。典型的對話會是這樣的。
**師:**我注意到在這個作業題中你這麼說是因為 $ n $ 很大,數據近似正態分佈。你能告訴我你的推理嗎?
**學生:**有錯嗎?
**老師:**我不知道。讓我們來看看。
**學生:**嗯,我用了你在課堂上講的那個定理;你多次提到的那個主要的。我忘記了名字。
**師:**中心極限定理?
**學生:**是的,中心極限定理。
**師:**很好,這個定理什麼時候適用?
**學生:**我想如果變量是獨立同分佈的。
**師:**並且有有限的方差。
**學生:**是的,還有有限方差。
**師:**好的,所以隨機變量有一些固定分佈,方差有限,對嗎?
**學生:**是的。
**師:**分佈沒有變化還是什麼?
**學生:**不,他們是具有固定分佈的獨立同分佈。
**師:**好的,那我看看能不能把定理說出來。中心極限定理說,如果你有一個具有有限方差的隨機變量的獨立同分佈序列,並且你取一個樣本 $ n $ 其中,然後作為樣本量 $ n $ 變大,隨機變量的分佈收斂到正態分佈。是對的嗎?
**學生:**是的,我想是的。
**老師:**好的,那我們想一想這意味著什麼。假設我有一個這樣的序列。如果我說,一千個樣本值,這些隨機變量的分佈是什麼?
**學生:**這大約是一個正態分佈。
**師:**多近?
**學生:**我認為很接近。
**老師:**好的,如果我取十億個樣本值怎麼辦。現在有多近?
**學生:**我會說真的很接近。
**師:**如果我們有這些東西的序列,那麼理論上我們可以採取 $ n $ 我們想要的那麼高,不是嗎?因此,我們可以使分佈盡可能接近正態分佈。
**學生:**是的。
**老師:**那麼假設我們採取 $ n $ 足夠大,我們很高興地說隨機變量基本上具有正態分佈。這是一個固定的分佈,對吧?
**學生:**是的。
**老師:**他們是 IID 對吧?這些隨機變量是 IID 嗎?
**學生:**是的,他們是 IID。
**師:**好的,所以它們都有相同的分佈。
**學生:**是的。
**師:**好的,也就是說序列中的第一個值,它也是正態分佈的。是對的嗎?
**學生:**是的。我的意思是,這是一個近似值,但是,是的,如果 $ n $ 真的很大,那麼它實際上具有正態分佈。
**老師:**好的,很好。序列中的第二個值也是如此,依此類推,對嗎?
**學生:**是的。
**老師:**好的,真的,當我們開始採樣時,我們已經得到了基本上是正態分佈的值。我們真的不需要等到 $ n $ 在這開始發生之前變得很大。
**學生:**嗯。我不確定。這聽起來不對。定理說你需要一個大的 $ n $ ,所以我想我認為如果您只對少量值進行採樣,您將無法應用它。
**老師:**好的,假設我們正在採樣十億個值。然後我們有大 $ n $ . 我們已經確定這意味著序列中的前幾個隨機變量是正態分佈的,非常接近。如果這是真的,我們不能早點停止採樣嗎?假設我們要採樣十億個值,但是我們在第一個值之後停止採樣。那個隨機變量仍然是正態分佈的嗎?
**學生:**我想也許不是。
**師:**好的,那麼它的分佈在某個時候會發生變化嗎?
**學生:**我不確定。我現在對此有點困惑。
**師:**嗯,看來我們這裡發生了一些奇怪的事情。你為什麼不再讀一遍關於中心極限定理的材料,看看你是否能弄清楚如何解決這個矛盾。那讓我們多談談吧。
這是一種可能的方法,它試圖將錯誤定理減少到減少,即每個 IID 序列(具有有限方差)必須由正常隨機變量組成。要么學生會得出這個結論,並意識到有問題,要么他們會通過說分佈變化為 $ n $ 變大。無論哪種方式,這通常會引發一些進一步的思考,從而導致他們重新閱讀該定理。這是另一種方法:
師:我們換個角度看。假設我們有一個來自其他分佈的隨機變量的 IID 序列;一個不是正態分佈的。那可能嗎?例如,我們可以從伯努利分佈中獲得一系列代表硬幣翻轉結果的隨機變量嗎?
**學生:**是的,我們可以擁有它。
**老師:**好的,很好。這些都是 IID 值,所以同樣,它們都具有相同的分佈。所以該序列中的每個隨機變量都會有一個非正態分佈的分佈,對吧?
**學生:**是的。
**師:**其實在這種情況下,序列中的每一個值都是拋硬幣的結果,我們設置為零或一。是對的嗎?
**學生:**是的,只要我們這樣標記它們。
**老師:**好的,很好。因此,如果序列中的所有值都是 0 或 1,那麼無論我們採樣了多少,我們總是會得到一個顯示 0 和 1 值的直方圖,對嗎?
**學生:**是的。
**老師:**好的。你認為如果我們採樣越來越多的值,我們會越來越接近真實分佈嗎?就像,如果它是一枚公平的硬幣,直方圖最終會收斂到相對頻率條具有相同高度的位置嗎?
**學生:**我想是的。我認為確實如此。
**師:**我覺得你是對的。事實上,我們稱這個結果為“大數定律”。無論如何,我們這裡似乎有點問題,不是嗎。如果我們對大量值進行採樣,那麼中心極限定理說我們收斂到正態分佈,但聽起來“大數定律”說我們實際上收斂到真實分佈,這不是正態分佈。事實上,它只是零值和一值的概率分佈,看起來與正態分佈完全不同。那麼它是哪一個?
**學生:**我想什麼時候 $ n $ 很大,看起來像一個正態分佈。
**師:**那給我描述一下。假設我們已經將硬幣翻轉了十億次。描述結果的分佈並解釋為什麼它看起來像一個正態分佈。
**學生:**我不太確定該怎麼做。
**老師:**好的。好吧,你同意如果我們有十億次硬幣翻轉,所有這些結果都是零和一嗎?
**學生:**是的。
**師:**好,那麼描述一下它的直方圖是什麼樣子的。
**學生:**這些值只有兩條。
**師:**好,那不是“鐘形曲線”形的嗎?
**學生:**是的,我想不是。
**師:**嗯,也許中心極限定理沒有說出我們的想法。你為什麼不再讀一遍關於中心極限定理的材料,看看你能不能弄清楚它說了什麼。那讓我們多談談吧。