偏差與皮爾遜擬合優度

November 24, 2013

我試圖通過使用負二項式回歸（負二項式 GLM）來建立一個模型。我有一個相對較小的樣本量（大於 300），並且數據沒有縮放。我注意到有兩種方法可以衡量擬合優度——一種是偏差，另一種是 Pearson 統計量。如何確定使用哪種擬合優度度量？在選擇擬合優度度量時，我可以考慮一些標準嗎？

基於偏差的擬合優度檢驗是擬合模型與飽和模型之間的似然比檢驗（其中每個觀測值都有自己的參數）。Pearson 的測試是分數測試；如果擬合模型正確，則分數的期望值（對數似然函數的一階導數）為零，並且您將與零的更大差異作為缺乏擬合的有力證據。該理論在Smyth (2003)，“作為分數測試統計的 Pearson 擬合優度統計”，Statistics and science: a Festschrift for Terry Speed中進行了討論。

在實踐中，人們通常依賴於兩者對卡方分佈的漸近近似——對於負二項式模型，這意味著預期計數不應太小。Smyth 指出，Pearson 檢驗對模型錯誤規範更加穩健，因為您只需將擬合模型視為空值，而不必為飽和模型假設特定形式。我從來沒有註意到它們之間有太大的區別。

您可能想反映，兩者的顯著不匹配告訴您您可能已經知道的事情：您的模型不是現實的完美代表。您的樣本量越大，您就越有可能被告知這一點。也許一個更密切的問題是您是否可以改進您的模型，以及哪些診斷方法可以幫助您。

引用自：https://stats.stackexchange.com/questions/77522

comments powered by Disqus

偏差與皮爾遜擬合優度

相關問答

這是p-hacking嗎？

為什麼對於小樣本量，精確檢驗優於卡方檢驗？

為什麼我們在線性回歸中建模噪聲而不是邏輯回歸？

與統計學習導論類似的書籍

為什麼 R 在廣義線性模型的上下文中將分佈族稱為“誤差分佈”？

用二項式數據解釋廣義線性混合模型