Karl Pearson 是如何得出卡方統計量的?
皮爾遜是如何在 1900 年得出以下皮爾遜卡方統計數據的?
那
他是否考慮過卡方並設計了度量標準(自下而上的方法),還是他設計了統計數據,後來證明它遵循卡方分佈(自上而下)?
我想知道他為什麼選擇那個特定的形式而不是其他的,比如或者,以及為什麼他用分母劃分平方。
皮爾遜 1900 年的論文已無版權,因此我們可以在線閱讀。
您應該首先註意本文是關於擬合優度測試,而不是獨立性或同質性測試。
他繼續使用多元正態,卡方作為標準化正態變量的平方和而出現。
您可以從 p160-161 的討論中看到,他清楚地討論了將測試應用於多項分佈式數據(我認為他在任何地方都沒有使用該術語)。他顯然了解多項式的近似多元正態性(當然他知道邊距近似正態 - 這是一個非常古老的結果 - 並且知道均值、方差和協方差,因為它們在論文中有所說明);我的猜測是,到 1900 年,這些東西中的大部分已經過時了。(請注意,卡方分佈本身可以追溯到 Helmert 在 1870 年代中期的工作。)
然後在 p163 的底部,他得出了一個卡方統計量作為“擬合優度的度量”(統計量本身出現在多元正態近似的指數中)。
然後他繼續討論如何評估 p 值*,然後他正確地給出了超過 43.87 為 0.000016。[但是你應該記住,他在那個階段沒有正確理解如何調整參數估計的自由度,所以他論文中的一些例子使用了太高的 df]
*(請注意,Fisherian 和 Neyman-Pearson 測試範式都不存在,但我們清楚地看到他已經應用了 p 值的概念。)
你會注意到他沒有明確地寫出像. 相反,他寫道,等用於預期計數和他使用的觀察量等等。然後他定義(下半部分 p160)併計算對於每個單元格(見 eq. (xv) p163 和 p167 底部表格的最後一列)……等量,但符號不同。
目前理解卡方檢驗的大部分方法還沒有到位,但另一方面,已經有相當多的方法了(至少如果你知道要尋找什麼的話)。1920 年代(及以後)發生了很多事情,改變了我們看待這些事情的方式。
至於為什麼我們劃分為在多項式情況下,即使多項式中各個分量的方差小於,當我們考慮協方差時,它相當於只除以, 進行了很好的簡化。
在編輯中添加:
Plackett 1983 年的論文提供了大量的歷史背景,並為該論文提供了一些指導。我強烈建議看看它。看起來它是通過 JStor 在線免費提供的(如果您登錄),因此您甚至不需要通過機構訪問來閱讀它。
Plackett, RL (1983),
“Karl Pearson 和卡方檢驗”,
國際統計評論,
卷。51,第 1 期(4 月),第 59-72 頁