Chi-Squared-Test
皮爾遜殘差
關於擬合優度卡方檢驗背景下皮爾遜殘差的初學者問題:
除了檢驗統計量之外,R
chisq.test
函數還報告 Pearson 殘差:(obs - exp) / sqrt(exp)
我理解為什麼查看觀察值和預期值之間的原始差異並不能提供太多信息,因為較小的樣本會導致較小的差異。但是,我想更多地了解分母的影響:為什麼要除以期望值的根?這是“標準化”殘差嗎?
列聯表分析的標準統計模型是假設(不以總計數為條件)細胞計數是獨立的泊松隨機變量。所以如果你有一個 $ n \times m $ 列聯表,作為分析基礎的統計模型將每個單元格計數無條件分佈:
$$ X_{i,j} \text{ ~ Pois}(\mu_{i,j}) $$
一旦您為列聯表或行或列計數施加總單元格計數,則單元格計數的結果條件分佈將變為多項式。無論如何,對於泊松分佈,我們有 $ \mathbb{E}(X_{i,j}) = \mathbb{V}(X_{i,j}) = \mu_{i,j} $ ,因此標準化細胞計數為:
$$ \text{STD}(X_{i,j}) \equiv \frac{X_{i,j} - \mathbb{E}(X_{i,j})}{\sqrt{\mathbb{V}(X_{i,j})}} = \frac{X_{i,j} - \mu_{i,j}}{\sqrt{\mu_{i,j}}} $$
因此,您在查詢的公式中看到的是標準化細胞計數,假設細胞計數具有(無條件)泊松分佈。
從這裡開始測試數據中行和列變量的獨立性是很常見的,在這種情況下,您可以使用檢驗統計量來查看上述值的平方和(相當於平方範數的標準化值向量)。卡方檢驗基於對檢驗統計量的零分佈的大樣本逼近為此類檢驗提供 p 值。它通常應用於銷售數量都不是太少的情況。