Regression
偏差與皮爾遜擬合優度
我試圖通過使用負二項式回歸(負二項式 GLM)來建立一個模型。我有一個相對較小的樣本量(大於 300),並且數據沒有縮放。我注意到有兩種方法可以衡量擬合優度——一種是偏差,另一種是 Pearson 統計量。如何確定使用哪種擬合優度度量?在選擇擬合優度度量時,我可以考慮一些標準嗎?
基於偏差的擬合優度檢驗是擬合模型與飽和模型之間的似然比檢驗(其中每個觀測值都有自己的參數)。Pearson 的測試是分數測試;如果擬合模型正確,則分數的期望值(對數似然函數的一階導數)為零,並且您將與零的更大差異作為缺乏擬合的有力證據。該理論在Smyth (2003),“作為分數測試統計的 Pearson 擬合優度統計”,Statistics and science: a Festschrift for Terry Speed中進行了討論。
在實踐中,人們通常依賴於兩者對卡方分佈的漸近近似——對於負二項式模型,這意味著預期計數不應太小。Smyth 指出,Pearson 檢驗對模型錯誤規範更加穩健,因為您只需將擬合模型視為空值,而不必為飽和模型假設特定形式。我從來沒有註意到它們之間有太大的區別。
您可能想反映,兩者的顯著不匹配告訴您您可能已經知道的事情:您的模型不是現實的完美代表。您的樣本量越大,您就越有可能被告知這一點。也許一個更密切的問題是您是否可以改進您的模型,以及哪些診斷方法可以幫助您。