中心極限定理如何適用於對隨機變量有限制的分佈?
我一直對中心極限定理(樣本均值分佈接近正態性的經典版本)如何可能適用於泊鬆或伽馬分佈提出質疑,但從未得到過好的答案,其中. 或者,就此而言,任何其他分配, 也許.
例如,給定 Gamma 分佈,作為樣本數,,, 對於一些. 但如果,. 永遠不會,永遠不會有. 這向我表明,不能,也不能接近正常,因為必須是,, 不滿足正態分佈的要求.
如果有人能幫助我理解我的邏輯在哪裡誤入歧途,我會對生活和任何基於 CLT 的事情感覺好得多。
這是一個很好的問題,因為它表明你正在考慮你正在學習的定理的直觀方面。這使您領先於大多數學習 CLT 的學生。在這裡,我將嘗試向您解釋 CLT 如何在支持受限的情況下保留隨機變量。
經典中心極限定理適用於任何序列 $ X_1, X_2, X_3, … \sim \text{IID Dist}(\mu, \sigma^2) $ 由具有任意均值的獨立同分佈隨機變量組成 $ \mu $ 和有限的非零方差 $ 0 < \sigma^2 < \infty $ . 現在,假設您有這樣一個序列,並且它們的邊界為 $ x_{\text{min}} \leqslant X_i \leqslant x_{\text{max}} $ ,因此他們的支持並沒有涵蓋整個實線。
中心極限定理與樣本均值的分佈有關 $ \bar{X}n \equiv \tfrac{1}{n} \sum{i=1}^n X_i $ ,並且從對序列中基礎隨機變量的有限支持來看,這個統計量也必須服從邊界 $ x_{\text{min}} \leqslant \bar{X}n \leqslant x{\text{max}} $ . 所以,情節變厚了——作為定理主題的樣本均值也是有界的!如果是這種情況,CLT 怎麼能成立?
**中心極限定理 (CLT):**讓 $ \Phi $ 為標準正態分佈函數,我們有:
$$ \lim_{n \rightarrow \infty} \mathbb{P} \Big( \frac{\bar{X}_n - \mu}{\sigma / \sqrt{n}} \leqslant z \Big) = \Phi (z). $$
**由 CLT 產生的近似值:**對於大型 $ n $ 我們有近似分佈:
$$ \bar{X}_n \sim \text{N} \Big( \mu, \frac{\sigma^2}{n} \Big). $$
您的問題源於這樣一個事實,即由該定理產生的分佈近似近似於一個具有無限支持的分佈,因此它不可能是正確的。你是對的——大的分佈近似 $ n $ 只是一個近似值,它確實錯誤地指定了樣本均值超出其界限的概率(通過給出這個正概率)。
然而,CLT 並不是關於有限分佈近似的陳述 $ n $ . 它是關於標準化樣本均值的極限分佈。這個數量的界限是:
$$ z_{\text{min}} = \frac{x_{\text{min}} - \mu}{\sigma / \sqrt{n}} \leqslant \frac{\bar{X}n - \mu}{\sigma / \sqrt{n}} \leqslant \frac{x{\text{max}} - \mu}{\sigma / \sqrt{n}} = z_{\text{max}}. $$
對於任何有限的樣本大小,正態近似為支持之外的值提供非零概率(當然,其真實概率為零):
$$ \begin{align} P_n^\text{(erroneous)} &\equiv \mathbb{P}(\bar{X}n \notin [x\min, x_\max] | \text{Normal Approx}) \[6pt] &= 1 - \Phi(z_\max) + \Phi(z_\min). \[6pt] \end{align} $$
現在,作為 $ n \rightarrow \infty $ 我們有限制 $ z_{\text{min}} \rightarrow - \infty $ 和 $ z_{\text{max}} \rightarrow \infty $ 這意味著標準化樣本均值的邊界越來越寬,並在極限處收斂到整條實線。(或者更正式地說,對於實線中的任何點,邊界將包含該點足夠大 $ n $ .) 這樣做的結果是,由正態分佈歸因於邊界之外的部分的概率收斂為零,因為 $ n \rightarrow \infty $ . 也就是說,我們有 $ \lim_{n \rightarrow \infty} P_n^\text{(erroneous)} = 0 $ .
在這裡,我們了解您對 CLT 的疑慮的核心問題。確實,對於任何有限 $ n $ , 樣本均值分佈的正態近似值將為超出真實支持範圍的值的子集提供正概率。但是,當我們採取限制 $ n \rightarrow \infty $ 這個錯誤的正概率收斂到零。標準化樣本均值的分佈近似收斂於該量在極限內的真實分佈,即使該近似不完全適用於有限 $ n $ .
**使用一些統計功夫來改進近似值:**您對來自 CLT 的正態近似值對真實分佈範圍之外的值給出錯誤的非零概率這一事實存在疑慮是對的。有什麼可以做的嗎?
好吧,事實證明確實存在。你看,正態分佈並不是由 CLT 產生的唯一近似分佈。事實上,任何收斂到正態的分佈序列也可以用於近似。這在您有一個已知有界支持的數量並且您還想用 CLT 近似其分佈的情況下非常有用。
例如,假設您對縮放樣本方差感興趣 $ S_n^2/\sigma^2 $ 對於大 $ n $ (請參閱此處和此處的相關問題)。該數量始終為非負數,但它遵循 CLT 結果,即其分佈收斂於正態分佈(只要基礎總體的峰度是有限的)。所以,對於大 $ n $ 您可以使用 CLT 獲得(不是特別好)近似分佈:
$$ \frac{S_N^2}{\sigma^2} \overset{\text{Approx}}{\sim} \text{N} \Bigg( 1, \frac{1}{n} \bigg( \kappa - \frac{n-3}{n-1} \bigg) \Bigg), $$
這給負值一個錯誤的非零概率。但是,按照O’Neill (2014)(結果 14,第 285 頁)中使用的替代方法,您可以使用漸近等效(現在很棒)近似分佈:
$$ \frac{S_N^2}{\sigma^2} \overset{\text{Approx}}{\sim} \frac{\text{ChiSq} (DF_n)}{DF_n} \quad \quad \quad \quad \quad DF_n \equiv \frac{2n}{\kappa - (n-3)/(n-1)}, $$
這減少了潛在正態總體的精確分佈,並且不給(不可能的)負值提供正概率。其他漸近等價的近似分佈也是可能的,所以這裡的重點是 CLT 總是為您提供一系列可用的漸近分佈,我們可以選擇具有其他良好屬性的一個(例如,不給不可能的值提供正概率)。