Chi-Squared-Test
卡方檢驗和等比例檢驗之間有什麼關係?
假設我有三個具有四個互斥特徵的總體。我從每個群體中隨機抽取樣本,並為我正在測量的特徵構建一個交叉表或頻率表。我這樣說是否正確:
- 如果我想測試總體和特徵之間是否存在任何關係(例如,一個總體是否具有更高的某一特徵頻率),我應該進行卡方檢驗,看看結果是否顯著。
- 如果卡方檢驗顯著,它只表明總體和特徵之間存在某種關係,而不是它們之間的關係。
- 此外,並非所有特徵都需要與人口相關。例如,如果不同群體的特徵 A 和 B 的分佈顯著不同,但 C 和 D 的分佈沒有顯著差異,那麼卡方檢驗可能仍然具有顯著性。
- 如果我想測量一個特定的特徵是否受到總體的影響,那麼我可以對那個特徵進行等比例的檢驗(我已經看到這稱為 z 檢驗,或者
prop.test()
在 中R
)。換句話說,
prop.test()
當卡方檢驗表明存在顯著關係時,使用 來更準確地確定兩組類別之間關係的性質是否合適?
非常簡短的回答:
卡方檢驗(
chisq.test()
在 R 中)將列聯表的每個類別中觀察到的頻率與預期頻率(計算為邊際頻率的乘積)進行比較。它用於確定觀察到的計數和預期計數之間的偏差是否太大而不能歸因於偶然性。通過檢查殘差可以很容易地檢查是否偏離了獨立性(嘗試?mosaicplot
或?assocplot
,但還要查看vcd
包)。用於fisher.test()
精確測試(依賴於超幾何分佈)。R 中的
prop.test()
函數允許測試組之間的比例是否具有可比性或與理論概率沒有差異。它被稱為一個-test 因為測試統計數據看起來像這樣:在哪裡, 和指數請參閱表格的第一行和第二行。在雙向列聯表中,這應該會產生與普通的可比較的結果測試:
> tab <- matrix(c(100, 80, 20, 10), ncol = 2) > chisq.test(tab) Pearson's Chi-squared test with Yates' continuity correction data: tab X-squared = 0.8823, df = 1, p-value = 0.3476 > prop.test(tab) 2-sample test for equality of proportions with continuity correction data: tab X-squared = 0.8823, df = 1, p-value = 0.3476 alternative hypothesis: two.sided 95 percent confidence interval: -0.15834617 0.04723506 sample estimates: prop 1 prop 2 0.8333333 0.8888889
對於使用 R 分析離散數據,我強烈推薦Laura Thompson的 R (and S-PLUS) Manual to Accompany Agresti’s Categorical Data Analysis (2002)。