為什麼獨立性檢驗使用卡方分佈？

January 14, 2014

這擬合優度檢驗使用以下統計量：

在測試中，在滿足條件的情況下，使用-分佈來計算給定的 p 值確實有人會在相同大小的代表性樣本中觀察到這樣的值。但是，為了統計跟隨-分佈（與自由度），它必須是真的：

對於獨立的標準正常（維基百科）。測試條件如下（再次來自維基百科）：

代表人口的樣本

大樣本量

預期的細胞計數足夠大

每個類別之間的獨立性

從條件 (1,2) 可以清楚地看出，我們滿足從樣本到總體推斷的條件。(3) 似乎是一個假設，因為離散計數，它在分母中，不會導致每個的近乎連續的分佈如果它不夠大，則可以通過Yates 的校正來糾正錯誤- 這似乎是因為離散分佈基本上是“下限”連續分佈，因此偏移每個人都糾正了這一點。

（4）的必要性似乎稍後會派上用場，但我不知道如何。

一開始我以為是統計量與分佈相匹配的必要條件。這使我得出一個有問題的假設，即，這確實是錯誤的。事實上，從等式兩側的降維可以清楚地看出到事實並非如此。

由於 wuber 的解釋，很明顯，不必相等術語，因為（注意標準正態隨機變量的總和變量數量的減少）它們在功能上是獨立的。

那麼，我的問題是如何跟著分配？各有哪些組合術語導致平方標準法線? 這顯然需要使用 CLT（這是有道理的），但是如何使用呢？換句話說，每個是什麼等於（或大約等於）？

這是關於泊松分佈的。如果是泊鬆的均值，那麼方差是還。這意味著

是一個像實體。通過 CLT，隨著均值變大，泊松趨於正態，這就是卡方的用武之地。是的，這是一個漸近檢驗。自由度來自 Cochran 定理。基本上，Cochran 解釋了卡方是如何在線性變換下變換（或保持不變）的。分數。

以矩陣表示法。如果不是計算通常的平方和，而是計算

對於一些矩陣 Q，那麼你仍然會得到一個具有卡方分佈的量，但自由度現在是. 矩陣 Q 有更多條件，但這就是它的要點。如果你玩弄一些矩陣符號，你可以表達

作為二次形式。Cochran 假設原始正態變量是獨立的，這就是為什麼計數表的列也必須是獨立的。

引用自：https://stats.stackexchange.com/questions/82260

comments powered by Disqus

為什麼獨立性檢驗使用卡方分佈？

相關問答

這是p-hacking嗎？

為什麼對於小樣本量，精確檢驗優於卡方檢驗？

配對樣本中合併方差的分佈

是否有標準的擬合度量來驗證探索性因素分析？

為什麼卡方分佈的極限是正態分佈？

炸彈在哪裡：如何估計概率，給定行和列總數？