皮爾遜殘差

December 9, 2012

關於擬合優度卡方檢驗背景下皮爾遜殘差的初學者問題：

除了檢驗統計量之外，Rchisq.test函數還報告 Pearson 殘差：
(obs - exp) / sqrt(exp)
我理解為什麼查看觀察值和預期值之間的原始差異並不能提供太多信息，因為較小的樣本會導致較小的差異。但是，我想更多地了解分母的影響：為什麼要除以期望值的根？這是“標準化”殘差嗎？

列聯表分析的標準統計模型是假設（不以總計數為條件）細胞計數是獨立的泊松隨機變量。所以如果你有一個 $ n \times m $ 列聯表，作為分析基礎的統計模型將每個單元格計數無條件分佈：

$$ X_{i,j} \text{ ~ Pois}(\mu_{i,j}) $$

一旦您為列聯表或行或列計數施加總單元格計數，則單元格計數的結果條件分佈將變為多項式。無論如何，對於泊松分佈，我們有 $ \mathbb{E}(X_{i,j}) = \mathbb{V}(X_{i,j}) = \mu_{i,j} $ ，因此標準化細胞計數為：

$$ \text{STD}(X_{i,j}) \equiv \frac{X_{i,j} - \mathbb{E}(X_{i,j})}{\sqrt{\mathbb{V}(X_{i,j})}} = \frac{X_{i,j} - \mu_{i,j}}{\sqrt{\mu_{i,j}}} $$

因此，您在查詢的公式中看到的是標準化細胞計數，假設細胞計數具有（無條件）泊松分佈。

從這裡開始測試數據中行和列變量的獨立性是很常見的，在這種情況下，您可以使用檢驗統計量來查看上述值的平方和（相當於平方範數的標準化值向量）。卡方檢驗基於對檢驗統計量的零分佈的大樣本逼近為此類檢驗提供 p 值。它通常應用於銷售數量都不是太少的情況。

引用自：https://stats.stackexchange.com/questions/45479

comments powered by Disqus

皮爾遜殘差

相關問答

非正態的混合是正態的嗎？

在構建 ML 模型時不檢查殘差的原因是什麼？

基於診斷指標（𝑅2R2R^2/ AUC/ 準確度/ RMSE 等）值？

在其他回歸器上回歸 Logistic 回歸殘差

殘差是“預測減去實際”還是“實際減去預測”

為什麼我們使用殘差來檢驗回歸誤差的假設？