Zero-Inflation

零膨脹模型和跨欄模型有什麼區別?

  • January 7, 2014

我想知道所謂的零膨脹分佈(模型)和所謂的零障礙分佈(模型)之間是否存在明顯的區別?這些術語在文獻中經常出現,我懷疑它們並不相同,但是請您用簡單的術語解釋一下它們的區別嗎?

謝謝你的有趣問題!

**差異:**標準計數模型的一個限制是假設零和非零(正數)來自相同的數據生成過程。 使用障礙模型,這兩個過程不限於相同。基本思想是伯努利概率控制計數變量是零實現還是正實現的二元結果。如果實現是肯定的,則越過障礙,並且肯定的條件分佈由截斷為零的計數數據模型控制。使用零膨脹模型,響應變量被建模為伯努利分佈(或稱為零點質量)和泊松分佈(或非負整數支持的任何其他計數分佈)的混合。有關更多詳細信息和公式,請參見例如 Gurmu 和 Trivedi (2011) 以及 Dalrymple、Hudson 和 Ford (2003)。

**示例:**跨欄模型可以通過個人面臨的順序決策過程來激發。您首先決定是否需要購買某些東西,然後再決定該東西的數量(必須是正數)。在您決定購買某物之後,當您被允許(或可能)什麼都不買時,這是適合零膨脹模型的情況的一個例子。零可能來自兩個來源: a) 沒有決定購買;b) 想購買但最終什麼都沒買(例如缺貨)。

**Beta:**跨欄模型是 Frees (2011) 第 16 章中描述的兩部分模型的特例。在那裡,我們將看到,對於兩部分模型,使用的醫療保健數量可能是連續變量,也可能是計數變量。因此,在文獻中被稱為“零膨脹貝塔分佈”的東西實際上屬於兩部分分佈和模型(在精算科學中很常見),這與上述障礙模型的定義是一致的. 這本出色的書在第 12.4.1 節討論了零膨脹模型,在第 12.4.2 節討論了障礙模型,並提供了來自精算應用的公式和示例。

**歷史:**沒有協變量的零膨脹泊松 (ZIP) 模型有很長的歷史(參見 Johnson 和 Kotz,1969 年)。包含協變量的 ZIP 回歸模型的一般形式歸功於 Lambert (1992)。跨欄模型首先由加拿大統計學家 Cragg (1971) 提出,後來由 Mullahy (1986) 進一步發展。您還可以考慮 Croston (1972),其中將正幾何計數與伯努利過程一起使用來描述以零為主的整數值過程。

**R:**最後,如果您使用 R,還有由 Simon Jackman為“政治科學計算實驗室開發的 R 的類和方法”包 pscl,其中包含 Achim Zeileis 的 hurdle() 和 zeroinfl() 函數。

為產生上述內容,參考了以下參考資料:

  • Gurmu, S. & Trivedi, PK Excess Zeros in Count Models for Recreational Trips Journal of Business & Economic Statistics, 1996, 14, 469-477
  • Johnson, N.、Kotz, S.,統計分佈:離散分佈。1969 年,霍頓米津,波士頓
  • Lambert, D.,零膨脹泊松回歸與製造缺陷的應用。技術計量學, 1992, 34 (1), 1-14。
  • Cragg, JG Some Statistical Models for Limited Dependent Variables with Application to the Demand for Durable Goods Econometrica, 1971, 39, 829-844
  • Mullahy, J. 一些修改後的計數數據模型的規範和測試 Journal of Econometrics, 1986, 33, 341-365
  • Frees,EW 回歸建模與精算和金融應用劍橋大學出版社,2011
  • 達爾林普爾,ML;Hudson, IL & Ford, RPK Finite Mixture, Zero-inflated Poisson and Hurdle 模型與應用於 SIDS 計算統計和數據分析, 2003, 41, 491-504
  • Croston,JD 預測和庫存控制間歇性需求運籌學季刊,1972,23,289-303

引用自:https://stats.stackexchange.com/questions/81457

comments powered by Disqus

相關問答