Karl Pearson 是如何得出卡方統計量的？

May 14, 2014

皮爾遜是如何在 1900 年得出以下皮爾遜卡方統計數據的？

那

他是否考慮過卡方並設計了度量標準（自下而上的方法），還是他設計了統計數據，後來證明它遵循卡方分佈（自上而下）？

我想知道他為什麼選擇那個特定的形式而不是其他的，比如或者，以及為什麼他用分母劃分平方。

皮爾遜 1900 年的論文已無版權，因此我們可以在線閱讀。

您應該首先註意本文是關於擬合優度測試，而不是獨立性或同質性測試。

他繼續使用多元正態，卡方作為標準化正態變量的平方和而出現。

您可以從 p160-161 的討論中看到，他清楚地討論了將測試應用於多項分佈式數據（我認為他在任何地方都沒有使用該術語）。他顯然了解多項式的近似多元正態性（當然他知道邊距近似正態 - 這是一個非常古老的結果 - 並且知道均值、方差和協方差，因為它們在論文中有所說明）；我的猜測是，到 1900 年，這些東西中的大部分已經過時了。（請注意，卡方分佈本身可以追溯到 Helmert 在 1870 年代中期的工作。）

然後在 p163 的底部，他得出了一個卡方統計量作為“擬合優度的度量”（統計量本身出現在多元正態近似的指數中）。

然後他繼續討論如何評估 p 值*，然後他正確地給出了超過 43.87 為 0.000016。[但是你應該記住，他在那個階段沒有正確理解如何調整參數估計的自由度，所以他論文中的一些例子使用了太高的 df]

*（請注意，Fisherian 和 Neyman-Pearson 測試範式都不存在，但我們清楚地看到他已經應用了 p 值的概念。）

你會注意到他沒有明確地寫出像. 相反，他寫道,等用於預期計數和他使用的觀察量等等。然後他定義（下半部分 p160）併計算對於每個單元格（見 eq. (xv) p163 和 p167 底部表格的最後一列）……等量，但符號不同。

目前理解卡方檢驗的大部分方法還沒有到位，但另一方面，已經有相當多的方法了（至少如果你知道要尋找什麼的話）。1920 年代（及以後）發生了很多事情，改變了我們看待這些事情的方式。

至於為什麼我們劃分為在多項式情況下，即使多項式中各個分量的方差小於，當我們考慮協方差時，它相當於只除以, 進行了很好的簡化。

在編輯中添加：

Plackett 1983 年的論文提供了大量的歷史背景，並為該論文提供了一些指導。我強烈建議看看它。看起來它是通過 JStor 在線免費提供的（如果您登錄），因此您甚至不需要通過機構訪問來閱讀它。

Plackett, RL (1983)，

“Karl Pearson 和卡方檢驗”，

國際統計評論，

卷。51，第 1 期（4 月），第 59-72 頁

引用自：https://stats.stackexchange.com/questions/97604

comments powered by Disqus

Karl Pearson 是如何得出卡方統計量的？

相關問答

泊松分佈的原始推導是什麼？

參考：誰引入波浪號“~”表示“有概率分佈……”？

支持向量機是作為一種有效訓練神經網絡的方法而開發的嗎？

為什麼我們說貝葉斯統計適合一次性事件的概率？

當我們計算均值和方差時，我們是否假設數據是正態分佈的？

術語“逆概率”究竟是什麼意思？