Gamma-Distribution

他們為什麼要在這裡選擇伽馬分佈?

  • September 29, 2019

在我課程的一個練習中,我們使用了Kaggle 醫學數據集

練習說:

我們想要對單個電荷的分佈進行建模,並且我們也真的希望能夠捕捉到我們對該分佈的不確定性,以便我們能夠更好地捕捉我們可能看到的值的範圍。加載數據並執行初始視圖:

陰謀

我們可能從上面懷疑這裡有某種指數分佈。…保險索賠費用可能是多式聯運的。伽馬分佈可能適用,我們可以首先測試不是保險索賠的費用分佈。

查找了“伽瑪分佈”,發現“一個連續的、僅正的、單峰分佈,它編碼了在泊松過程中發生«alpha»事件所需的時間,平均到達時間為«beta»”

這裡不涉及時間,只是不相關的費用,無論是否有保險。

為什麼他們會選擇伽馬分佈?

當您考慮數據條件分佈的簡單參數模型(即每個組的分佈,或每個預測變量組合的預期分佈),並且您正在處理正連續分佈時,兩個常見的選擇是Gamma對數正常。除了滿足分佈域的規範(大於零的實數)之外,這些分佈在計算上很方便並且通常具有機械意義。

  • 數正態分佈很容易通過對正態分佈求冪得出(相反,對數轉換對數正態偏差給出正態偏差)。從機制的角度來看,當每個觀測值反映大量獨立同分佈隨機變量的*乘積時,對數正態通過中心極限定理產生。*一旦您對數據進行了對數轉換,您就可以使用大量的計算和分析工具(例如,任何假設正態性或使用最小二乘法的工具)。
  • 正如您的問題所指出的那樣,出現Gamma分佈的一種方式是等待時間的分佈,直到 $ n $ 具有恆定等待時間的獨立事件 $ \lambda $ 發生。我無法輕易找到保險索賠 Gamma 分佈的機械模型的參考,但從現象學(即數據描述/計算方便)的角度來看,使用 Gamma 分佈也是有意義的。Gamma 分佈是指數族(包括正態但包括對數正態)的一部分,這意味著廣義線性模型的所有機制都可用;它還具有一種特別方便的分析形式。

人們可能會選擇其中一個還有其他原因 - 例如,分佈尾部的“沉重”,這對於預測極端事件的頻率可能很重要。還有很多其他積極的、連續的分佈(例如,請參閱此列表),但它們往往用於更專業的應用程序。

這些分佈中很少有人能捕捉到您在上面的邊緣分佈中看到的多模態,但多模態可以通過將數據分組到觀察到的分類預測變量所描述的類別來解釋。如果沒有可觀察到的預測因子來解釋多模態,人們可能會選擇基於(小、離散)數量的正連續分佈的混合來擬合有限混合模型。

引用自:https://stats.stackexchange.com/questions/429271

comments powered by Disqus

相關問答