Chi-Squared-Test

Pearson 的卡方統計如何近似卡方分佈

  • August 20, 2014

因此,如果給定 Pearson 的卡方統計量表,則其形式為:

那麼這近似, 卡方分佈自由度,作為樣本大小變大。

我不明白這種漸近近似是如何工作的。我覺得像分母中的 ’s 應替換為. 因為那會給你, 為了. 但這當然有自由度,不是,很明顯還有其他事情正在發生。

我將直觀地激發這一點,並說明對於兩組的特殊情況它是如何產生的,假設你很樂意接受二項式的正態近似。

希望這足以讓您很好地了解它為什麼會這樣工作。

你說的是卡方擬合優度檢驗。假設有 $ k $ 組(你有它作為 $ n $ ,但我傾向於稱它為有原因是有原因的 $ k $ )。

在適用於這種情況的模型中,計數 $ O_i $ , $ i=1,2,…,k $ 是多項式的。

讓 $ N=\sum_{i=1}^k O_i $ . 計數取決於總和 $ N $ (除了一些相當罕見的情況);每個類別都有一些預先指定的概率, $ p_i, i=1, 2, \ldots,k $ ,總和為 $ 1 $ .

就像二項式一樣,多項式有一個漸近正態逼近——事實上,如果你只考慮給定單元格中的計數(“在這個類別中”與否),那麼它就是二項式的。就像二項式一樣,計數的方差(以及它們在多項式中的協方差)是 $ N $ 和 $ p $ 的; 您不會單獨估計方差。

也就是說,如果預期計數足夠大,則計數向量近似正態且均值 $ E_i=Np_i $ . 但是,因為計數的條件是 $ N $ ,分佈是退化的(它存在於維度的超平面中 $ k-1 $ , 因為指定 $ k-1 $ 計數修復剩餘的計數)。方差-協方差矩陣具有對角線項 $ Np_i(1-p_i) $ 和對角線元素 $ -Np_ip_j $ ,並且它是等級的 $ k-1 $ 因為退化。

因此,對於單個細胞 $ \text{Var}(O_i)=Np_i(1-p_i) $ ,你可以寫 $ z_i = \frac{O_i-E_i}{\sqrt{E_i(1-p_i)}} $ . 但是,這些術語是相關的(負相關),所以如果你將這些的平方相加 $ z_i $ 它不會有 a $ \chi^2_k $ 分佈(就像它們是獨立的標準化變量一樣)。相反,我們可以潛在地構建一組 $ k-1 $ 來自原始變量的自變量 $ k $ 它們是獨立的並且仍然近似正常(漸近正常)。如果我們將它們的(標準化)平方相加,我們會得到 $ \chi^2_{k-1} $ . 有一些方法可以構建這樣的一組 $ k-1 $ 明確地變量,但幸運的是,有一個非常簡潔的捷徑可以避免大量的工作,並產生相同的結果(相同的統計值),就好像我們遇到了麻煩一樣。

為簡單起見,考慮兩個類別的擬合優度(現在是二項式)。在第一個單元格中的概率是 $ p_1=p $ ,並且在第二個單元格中是 $ p_2=1-p $ . 有 $ X = O_1 $ 在第一個單元格中的觀察結果,以及 $ N-X=O_2 $ 在第二個單元格中。

觀察到的第一個細胞計數, $ X $ 是漸近的 $ \text{N}(Np,Np(1-p)) $ . 我們可以將其標準化為 $ z=\frac{X-Np}{\sqrt{Np(1-p)}} $ . 然後 $ z^2 = \frac{(X-Np)^2}{Np(1-p)} $ 大約是 $ \sim \chi^2_1 $ (漸近地 $ \sim \chi^2_1 $ )。

請注意

$ \sum_{i=1}^2 \frac{(O_i-E_i)^2}{E_i} = \frac{[X-Np]^2}{Np}+ \frac{[(N-X)-(N-Np)]^2}{N(1-p)}= \frac{[X-Np]^2}{Np}+ \frac{[X-Np]^2}{N(1-p)}=(X-Np)^2[\frac{1}{Np}+ \frac{1}{N(1-p)}] $ .

$ \frac{1}{Np}+ \frac{1}{N(1-p)} =\frac{Np+N(1-p)}{Np.N(1-p)} = \frac{1}{Np(1-p)} $ .

所以 $ \sum_{i=1}^2 \frac{(O_i-E_i)^2}{E_i} =\frac{(X-Np)^2}{Np(1-p)} $ 哪一個是 $ z^2 $ 我們從-漸近地開始 $ \chi^2_1 $ 隨機變量。兩個細胞之間的依賴性是這樣的,通過潛水 $ E_i $ 代替 $ E_i(1-p_i) $ 我們精確地補償了兩者之間的依賴關係,並得到原始的近似正態隨機變量平方。

當有兩個以上的類別時,相同的和依賴關係由相同的方法處理——通過對 $ \frac{(O_i-E_i)^2}{E_i} $ 代替 $ \frac{(O_i-E_i)^2}{E_i(1-p_i)} $ 全面的 $ k $ 條款,你準確地補償了依賴的影響,並獲得了一個等於總和的總和 $ k-1 $ 獨立法線。

有多種方法可以顯示統計量具有漸近分佈 $ \chi^2_{k-1} $ 對於更大的 $ k $ (它在一些本科統計學課程中有所介紹,並且可以在許多本科水平的文本中找到),但我不想讓你超出你的問題所暗示的水平。事實上,在互聯網上的註釋中很容易找到推導,例如,這里大約兩頁的空間中有兩個不同的推導

引用自:https://stats.stackexchange.com/questions/112545

comments powered by Disqus