R

在 Poisson 與 Quasi-Poisson 模型中估計的相同係數

  • October 14, 2015

在對保險環境中的索賠計數數據建模時,我從泊鬆開始,但後來發現過度分散。Quasi-Poisson 比基本 Poisson 更好地模擬了更大的均值方差關係,但我注意到 Poisson 和 Quasi-Poisson 模型中的係數是相同的。

如果這不是錯誤,為什麼會發生這種情況?使用 Quasi-Poisson 優於 Poisson 有什麼好處?

注意事項:

  • 潛在的損失是超額的,這(我相信)阻止了 Tweedie 的工作——但這是我嘗試的第一個分佈。我還檢查了 NB、ZIP、ZINB 和 Hurdle 模型,但仍然發現 Quasi-Poisson 提供了最佳擬合。
  • 我通過 AER 包中的分散測試測試了過度分散。我的色散參數約為 8.4,p 值為 10^-16 大小。
  • 我正在使用 glm() 與 family = poisson 或 quasipoisson 以及代碼的日誌鏈接。
  • 運行泊松代碼時,我會出現“In dpois(y, mu, log = TRUE) : non-integer x = …”的警告。

根據 Ben 的指導,有用的 SE 線程:

  1. 泊松回歸中偏移的基本數學
  2. 偏移對係數的影響
  3. 使用曝光作為協變量與偏移之間的區別

這幾乎是重複的;鏈接的問題解釋說,您不應該期望係數估計、殘餘偏差或自由度會改變。從泊松到準泊鬆的唯一變化是,之前固定為 1 的尺度參數是根據殘差變異性/擬合不良的估計值計算得出的(通常通過皮爾遜殘差的平方和來估計) () 除以殘差 df,儘管漸近地使用殘差得出相同的結果)。結果是標準誤差由這個比例參數的平方根縮放,同時置信區間和-價值觀。

準似然的好處是它修正了假設數據是泊松(=同質、獨立計數)的基本謬誤;但是,以這種方式解決問題可能會掩蓋數據的其他問題。(見下文。)準似然是處理過度離散的一種方法;如果您不以某種方式解決過度分散問題,您的係數將是合理的,但您的推論(CIs,-values 等)將是垃圾。

  • 正如您在上面評論的那樣,有許多不同的過度分散方法(Tweedie、不同的負二項式參數化、準似然、零通貨膨脹/改變)。
  • 由於過度分散因子 >5 (8.4),我會擔心它是否是由某種模型不合適(異常值、零通貨膨脹 [我看到你已經嘗試過]、非線性)驅動的,而不是而不是代表全面的異質性。我對此的一般方法是對原始數據和回歸診斷進行圖形探索……

引用自:https://stats.stackexchange.com/questions/176918

comments powered by Disqus