GLM 中的過度分散測試真的“有用”嗎?
每當我們使用限制響應變量方差的模型時,就會出現 GLM 中的“過度分散”現象,並且數據表現出比模型限制允許的更大的方差。這通常在使用 Poisson GLM 對計數數據進行建模時發生,並且可以通過眾所周知的測試來診斷。如果測試表明存在統計上顯著的過度分散證據,那麼我們通常通過使用更廣泛的分佈族來推廣模型,從而將方差參數從原始模型下發生的限制中解放出來。在泊松 GLM 的情況下,通常將其推廣到負二項式或準泊松 GLM。
這種情況是懷有明顯的反對意見的。為什麼要從泊松 GLM 開始呢?可以直接從具有(相對)自由方差參數的更廣泛分佈形式開始,並允許方差參數適合數據,完全忽略過度分散測試。在其他情況下,當我們進行數據分析時,我們幾乎總是使用允許至少前兩個時刻自由的分佈形式,那麼為什麼要在這裡例外呢?
**我的問題:**是否有充分的理由從固定方差的分佈(例如,泊松分佈)開始,然後執行過度分散測試?這個過程與完全跳過這個練習並直接進入更一般的模型(例如,負二項式、準泊松等)相比如何?換句話說,為什麼不總是使用具有自由方差參數的分佈呢?
原則上,我實際上同意 99% 的情況下,最好只使用更靈活的模型。話雖如此,這裡有兩個半的論據來解釋為什麼你可能不這樣做。
(1) 不太靈活意味著更有效的估計。鑑於方差參數往往不如均值參數穩定,您對固定均值-方差關係的假設可能會更加穩定標準誤差。
(2) 模型檢查。我曾與物理學家合作過,他們相信由於理論物理學,泊松分佈可以描述各種測量值。如果我們拒絕均值 = 方差的假設,我們就有反對泊松分佈假設的證據。正如@GordonSmyth 在評論中指出的那樣,如果您有理由相信給定的測量值應該遵循泊松分佈,如果您有過度分散的證據,那麼您就有證據表明您遺漏了重要因素。
(2.5) 合理分配。雖然負二項式回歸來自有效的統計分佈,但我的理解是準泊松不是。這意味著如果您相信,您將無法真正模擬計數數據 $ Var[y] = \alpha E[y] $ 為了 $ \alpha \neq 1 $ . 對於某些用例來說,這可能很煩人。同樣,您不能使用概率來測試異常值等。