XGboost 和深度學習模型中 Tweedie 或泊松損失/目標函數的用途是什麼
我正在查看 kaggle 中的一些比賽,其中人們使用 tweedie 損失或泊松損失作為預測銷售或預測保險索賠的目標函數。
- 有人可以解釋使用 tweedie 或 poisson 而不是常規的均方損失作為目標的用途/需要。
- 是因為響應變量的分佈嗎?
- 如果響應變量為正且右偏,我們是否應該始終使用 tweedie 或 poisson 而不是均方損失?
我曾經為一家主要的意外傷害保險公司專業地開發這些模型,並且可能參與了為您所引用的 Kaggle 比賽之一開發數據。所以我對這個問題的定位相對較好。
有人可以解釋使用 Tweedie 或 poisson 而不是常規均方損失作為目標的用途/需要。
這些模型的目標是為保險合同定價。即,我們想知道,對於購買了保險合同的客戶,我們公司將為客戶支付的總索賠成本是多少。所以讓我們 X 表示我們對已投保的單個客戶的所有測量值。
在合同有效期內發生的事情有兩種可能性:
- 被保險人不提出索賠。在這種情況下,公司不支付任何費用。讓我們打電話 F 計算被保險人在合同期內提出的索賠數量的隨機變量。這通常被認為是泊松分佈的,作為一個不錯的近似值。用行業術語來說,這個隨機變量稱為頻率。
- 被保險人至少提出一項索賠。然後,對於每項索賠,我們公司都會支付隨機金額。讓我們表示支付的金額 i ‘th 索賠 Si . 這是一個右尾重的連續隨機變量。通常假設這些是伽馬分佈的,因為形狀在直覺上是合理的。在行業術語中,這些被稱為嚴重性。
綜上所述,保險合同支付的金額是一個隨機變量:
Y∣X=∑i∼FSi
這是一個有趣的小方程,但基本上有一個隨機數的和數,根據頻率 F , 和每個求和 Si 是隨機索賠金額(針對單個索賠)。
如果 P 是泊松,並且每個 Si 是伽馬分佈,這是 Tweedie 分佈。合理的假設導致參數假設 Y∣X 是 Tweedie 分發的。
是因為響應變量的分佈嗎?
如上所述,有點。它實際上是響應變量的條件分佈(所以 Y∣X ,而不是邊緣 Y ),我們從未真正觀察到。條件分佈的某些特徵體現在邊緣,例如零處的大點質量。
如果響應變量為正且右偏,我們是否應該始終使用 Tweedie 或 poisson 而不是均方損失?
不。這是條件分佈 Y∣X 這指導了損失函數的選擇,這通常來自像上面這樣的思考和想像。的(邊際)分佈 Y 即使條件分佈也可能偏斜 Y∣X 是對稱的。例如:
X∼Poisson(λ=1.0)
Y∣X∼Normal(μ=X,σ=1.0)將導致右偏邊際分佈 Y ,但使用最小二乘損失是完全正確的。
銷售預測是否與索賠示例相同 - 每個銷售是泊鬆的,銷售金額是伽馬分佈的?
我沒有在這方面做過任何項目,但這聽起來是一種合理的方法。
您能否解釋一下,索賠金額如何/為什麼遵循伽馬分佈。
這裡沒有魔法,沒有關於索賠分佈的原則性理論。粗略地說,它具有正確的形狀:它得到了積極的支持(即 P(G≤0)=0 ),它是單峰的,並且具有正偏斜;它導致數學上易於處理的模型。僅此而已,這只是一個合理的選擇,並且已經運行了很長時間。