GLM 中的過度分散測試真的“有用”嗎？

February 15, 2019

每當我們使用限制響應變量方差的模型時，就會出現 GLM 中的“過度分散”現象，並且數據表現出比模型限制允許的更大的方差。這通常在使用 Poisson GLM 對計數數據進行建模時發生，並且可以通過眾所周知的測試來診斷。如果測試表明存在統計上顯著的過度分散證據，那麼我們通常通過使用更廣泛的分佈族來推廣模型，從而將方差參數從原始模型下發生的限制中解放出來。在泊松 GLM 的情況下，通常將其推廣到負二項式或準泊松 GLM。

這種情況是懷有明顯的反對意見的。為什麼要從泊松 GLM 開始呢？可以直接從具有（相對）自由方差參數的更廣泛分佈形式開始，並允許方差參數適合數據，完全忽略過度分散測試。在其他情況下，當我們進行數據分析時，我們幾乎總是使用允許至少前兩個時刻自由的分佈形式，那麼為什麼要在這裡例外呢？

**我的問題：**是否有充分的理由從固定方差的分佈（例如，泊松分佈）開始，然後執行過度分散測試？這個過程與完全跳過這個練習並直接進入更一般的模型（例如，負二項式、準泊松等）相比如何？換句話說，為什麼不總是使用具有自由方差參數的分佈呢？

原則上，我實際上同意 99% 的情況下，最好只使用更靈活的模型。話雖如此，這裡有兩個半的論據來解釋為什麼你可能不這樣做。

(1) 不太靈活意味著更有效的估計。鑑於方差參數往往不如均值參數穩定，您對固定均值-方差關係的假設可能會更加穩定標準誤差。

(2) 模型檢查。我曾與物理學家合作過，他們相信由於理論物理學，泊松分佈可以描述各種測量值。如果我們拒絕均值 = 方差的假設，我們就有反對泊松分佈假設的證據。正如@GordonSmyth 在評論中指出的那樣，如果您有理由相信給定的測量值應該遵循泊松分佈，如果您有過度分散的證據，那麼您就有證據表明您遺漏了重要因素。

(2.5) 合理分配。雖然負二項式回歸來自有效的統計分佈，但我的理解是準泊松不是。這意味著如果您相信，您將無法真正模擬計數數據 $ Var[y] = \alpha E[y] $ 為了 $ \alpha \neq 1 $ . 對於某些用例來說，這可能很煩人。同樣，您不能使用概率來測試異常值等。

引用自：https://stats.stackexchange.com/questions/392591

comments powered by Disqus

GLM 中的過度分散測試真的“有用”嗎？

相關問答

泊松回歸合適嗎？

計數樣本似乎不是泊松分佈，需要進行完整性檢查

泊松回歸中的對數似然函數

權重和偏移量能否在泊松回歸中產生類似的結果？

具有強殘差模式的泊松回歸

Beta回歸和具有方差的準glm有什麼區別=μ(1-μ)μ(1-μ)mu(1-mu)?