Machine-Learning

XGboost 和深度學習模型中 Tweedie 或泊松損失/目標函數的用途是什麼

  • October 19, 2020

我正在查看 kaggle 中的一些比賽,其中人們使用 tweedie 損失或泊松損失作為預測銷售或預測保險索賠的目標函數。

  1. 有人可以解釋使用 tweedie 或 poisson 而不是常規的均方損失作為目標的用途/需要。
  2. 是因為響應變量的分佈嗎?
  3. 如果響應變量為正且右偏,我們是否應該始終使用 tweedie 或 poisson 而不是均方損失?

我曾經為一家主要的意外傷害保險公司專業地開發這些模型,並且可能參與了為您所引用的 Kaggle 比賽之一開發數據。所以我對這個問題的定位相對較好。

有人可以解釋使用 Tweedie 或 poisson 而不是常規均方損失作為目標的用途/需要。

這些模型的目標是為保險合同定價。即,我們想知道,對於購買了保險合同的客戶,我們公司將為客戶支付的總索賠成本是多少。所以讓我們 $ X $ 表示我們對已投保的單個客戶的所有測量值。

在合同有效期內發生的事情有兩種可能性:

  1. 被保險人不提出索賠。在這種情況下,公司不支付任何費用。讓我們打電話 $ F $ 計算被保險人在合同期內提出的索賠數量的隨機變量。這通常被認為是泊松分佈的,作為一個不錯的近似值。用行業術語來說,這個隨機變量稱為頻率
  2. 被保險人至少提出一項索賠。然後,對於每項索賠,我們公司都會支付隨機金額。讓我們表示支付的金額 $ i $ ‘th 索賠 $ S_i $ . 這是一個右尾重的連續隨機變量。通常假設這些是伽馬分佈的,因為形狀在直覺上是合理的。在行業術語中,這些被稱為嚴重性

綜上所述,保險合同支付的金額是一個隨機變量:

$$ Y \mid X = \sum_{i \sim F} S_i $$

這是一個有趣的小方程,但基本上有一個隨機數的和數,根據頻率 $ F $ , 和每個求和 $ S_i $ 是隨機索賠金額(針對單個索賠)。

如果 $ P $ 是泊松,並且每個 $ S_i $ 是伽馬分佈,這是 Tweedie 分佈。合理的假設導致參數假設 $ Y \mid X $ 是 Tweedie 分發的。

是因為響應變量的分佈嗎?

如上所述,有點。它實際上是響應變量的條件分佈(所以 $ Y \mid X $ ,而不是邊緣 $ Y $ ),我們從未真正觀察到。條件分佈的某些特徵體現在邊緣,例如零處的大點質量。

如果響應變量為正且右偏,我們是否應該始終使用 Tweedie 或 poisson 而不是均方損失?

不。這是條件分佈 $ Y \mid X $ 這指導了損失函數的選擇,這通常來自像上面這樣的思考和想像。的(邊際)分佈 $ Y $ 即使條件分佈也可能偏斜 $ Y \mid X $ 是對稱的。例如:

$$ X \sim \text{Poisson}(\lambda = 1.0) $$ $$ Y \mid X \sim \text{Normal}(\mu = X, \sigma = 1.0) $$

將導致右偏邊際分佈 $ Y $ ,但使用最小二乘損失是完全正確的。

銷售預測是否與索賠示例相同 - 每個銷售是泊鬆的,銷售金額是伽馬分佈的?

我沒有在這方面做過任何項目,但這聽起來是一種合理的方法。

您能否解釋一下,索賠金額如何/為什麼遵循伽馬分佈。

這裡沒有魔法,沒有關於索賠分佈的原則性理論。粗略地說,它具有正確的形狀:它得到了積極的支持(即 $ P(G \leq 0) = 0 $ ),它是單峰的,並且具有正偏斜;它導致數學上易於處理的模型。僅此而已,這只是一個合理的選擇,並且已經運行了很長時間。

引用自:https://stats.stackexchange.com/questions/492726

comments powered by Disqus