Chi-Squared-Test

Pearson 的卡方統計如何近似卡方分佈

  • August 20, 2014

因此,如果給定 Pearson 的卡方統計量表,則其形式為:

那麼這近似, 卡方分佈自由度,作為樣本大小變大。

我不明白這種漸近近似是如何工作的。我覺得像分母中的 ’s 應替換為. 因為那會給你, 為了. 但這當然有自由度,不是,很明顯還有其他事情正在發生。

我將直觀地激發這一點,並說明對於兩組的特殊情況它是如何產生的,假設你很樂意接受二項式的正態近似。

希望這足以讓您很好地了解它為什麼會這樣工作。

你說的是卡方擬合優度檢驗。假設有 k 組(你有它作為 n ,但我傾向於稱它為有原因是有原因的 k )。

在適用於這種情況的模型中,計數 Oi , i=1,2,,k多項式的。

N=ki=1Oi . 計數取決於總和 N (除了一些相當罕見的情況);每個類別都有一些預先指定的概率, pi,i=1,2,,k ,總和為 1 .

就像二項式一樣,多項式有一個漸近正態逼近——事實上,如果你只考慮給定單元格中的計數(“在這個類別中”與否),那麼它就是二項式的。就像二項式一樣,計數的方差(以及它們在多項式中的協方差)是 Np 的; 您不會單獨估計方差。

也就是說,如果預期計數足夠大,則計數向量近似正態且均值 Ei=Npi . 但是,因為計數的條件是 N ,分佈是退化的(它存在於維度的超平面中 k1 , 因為指定 k1 計數修復剩餘的計數)。方差-協方差矩陣具有對角線項 Npi(1pi) 和對角線元素 Npipj ,並且它是等級的 k1 因為退化。

因此,對於單個細胞 Var(Oi)=Npi(1pi) ,你可以寫 zi=OiEiEi(1pi) . 但是,這些術語是相關的(負相關),所以如果你將這些的平方相加 zi 它不會有 a χ2k 分佈(就像它們是獨立的標準化變量一樣)。相反,我們可以潛在地構建一組 k1 來自原始變量的自變量 k 它們是獨立的並且仍然近似正常(漸近正常)。如果我們將它們的(標準化)平方相加,我們會得到 χ2k1 . 有一些方法可以構建這樣的一組 k1 明確地變量,但幸運的是,有一個非常簡潔的捷徑可以避免大量的工作,並產生相同的結果(相同的統計值),就好像我們遇到了麻煩一樣。

為簡單起見,考慮兩個類別的擬合優度(現在是二項式)。在第一個單元格中的概率是 p1=p ,並且在第二個單元格中是 p2=1p . 有 X=O1 在第一個單元格中的觀察結果,以及 NX=O2 在第二個單元格中。

觀察到的第一個細胞計數, X 是漸近的 N(Np,Np(1p)) . 我們可以將其標準化為 z=XNpNp(1p) . 然後 z2=(XNp)2Np(1p) 大約是 χ21 (漸近地 χ21 )。

請注意

2i=1(OiEi)2Ei=[XNp]2Np+[(NX)(NNp)]2N(1p)=[XNp]2Np+[XNp]2N(1p)=(XNp)2[1Np+1N(1p)] .

1Np+1N(1p)=Np+N(1p)Np.N(1p)=1Np(1p) .

所以 2i=1(OiEi)2Ei=(XNp)2Np(1p) 哪一個是 z2 我們從-漸近地開始 χ21 隨機變量。兩個細胞之間的依賴性是這樣的,通過潛水 Ei 代替 Ei(1pi) 我們精確地補償了兩者之間的依賴關係,並得到原始的近似正態隨機變量平方。

當有兩個以上的類別時,相同的和依賴關係由相同的方法處理——通過對 (OiEi)2Ei 代替 (OiEi)2Ei(1pi) 全面的 k 條款,你準確地補償了依賴的影響,並獲得了一個等於總和的總和 k1 獨立法線。

有多種方法可以顯示統計量具有漸近分佈 χ2k1 對於更大的 k (它在一些本科統計學課程中有所介紹,並且可以在許多本科水平的文本中找到),但我不想讓你超出你的問題所暗示的水平。事實上,在互聯網上的註釋中很容易找到推導,例如,這里大約兩頁的空間中有兩個不同的推導

引用自:https://stats.stackexchange.com/questions/112545