為什麼獨立性檢驗使用卡方分佈?
這擬合優度檢驗使用以下統計量:
在測試中,在滿足條件的情況下,使用-分佈來計算給定的 p 值確實有人會在相同大小的代表性樣本中觀察到這樣的值。 但是,為了統計跟隨-分佈(與自由度),它必須是真的:
對於獨立的標準正常(維基百科)。測試條件如下(再次來自維基百科):
- 代表人口的樣本
- 大樣本量
- 預期的細胞計數足夠大
- 每個類別之間的獨立性
從條件 (1,2) 可以清楚地看出,我們滿足從樣本到總體推斷的條件。(3) 似乎是一個假設,因為離散計數,它在分母中,不會導致每個的近乎連續的分佈如果它不夠大,則可以通過Yates 的校正來糾正錯誤- 這似乎是因為離散分佈基本上是“下限”連續分佈,因此偏移每個人都糾正了這一點。
(4)的必要性似乎稍後會派上用場,但我不知道如何。
一開始我以為是統計量與分佈相匹配的必要條件。這使我得出一個有問題的假設,即,這確實是錯誤的。事實上,從等式兩側的降維可以清楚地看出到事實並非如此。
由於 wuber 的解釋,很明顯,不必相等術語,因為(注意標準正態隨機變量的總和變量數量的減少)它們在功能上是獨立的。
那麼,我的問題是如何跟著分配?各有哪些組合術語導致平方標準法線? 這顯然需要使用 CLT(這是有道理的),但是如何使用呢?換句話說,每個是什麼等於(或大約等於)?
這是關於泊松分佈的。如果是泊鬆的均值,那麼方差是還。這意味著
是一個像實體。通過 CLT,隨著均值變大,泊松趨於正態,這就是卡方的用武之地。是的,這是一個漸近檢驗。 自由度來自 Cochran 定理。基本上,Cochran 解釋了卡方是如何在線性變換下變換(或保持不變)的。分數。
以矩陣表示法。如果不是計算通常的平方和,而是計算
對於一些矩陣 Q,那麼你仍然會得到一個具有卡方分佈的量,但自由度現在是. 矩陣 Q 有更多條件,但這就是它的要點。 如果你玩弄一些矩陣符號,你可以表達
作為二次形式。Cochran 假設原始正態變量是獨立的,這就是為什麼計數表的列也必須是獨立的。