XGboost 和深度學習模型中 Tweedie 或泊松損失/目標函數的用途是什麼

October 19, 2020

我正在查看 kaggle 中的一些比賽，其中人們使用 tweedie 損失或泊松損失作為預測銷售或預測保險索賠的目標函數。

有人可以解釋使用 tweedie 或 poisson 而不是常規的均方損失作為目標的用途/需要。

是因為響應變量的分佈嗎？

如果響應變量為正且右偏，我們是否應該始終使用 tweedie 或 poisson 而不是均方損失？

我曾經為一家主要的意外傷害保險公司專業地開發這些模型，並且可能參與了為您所引用的 Kaggle 比賽之一開發數據。所以我對這個問題的定位相對較好。

有人可以解釋使用 Tweedie 或 poisson 而不是常規均方損失作為目標的用途/需要。

這些模型的目標是為保險合同定價。即，我們想知道，對於購買了保險合同的客戶，我們公司將為客戶支付的總索賠成本是多少。所以讓我們 $ X $ 表示我們對已投保的單個客戶的所有測量值。

在合同有效期內發生的事情有兩種可能性：

被保險人不提出索賠。在這種情況下，公司不支付任何費用。讓我們打電話 $ F $ 計算被保險人在合同期內提出的索賠數量的隨機變量。這通常被認為是泊松分佈的，作為一個不錯的近似值。用行業術語來說，這個隨機變量稱為頻率。

被保險人至少提出一項索賠。然後，對於每項索賠，我們公司都會支付隨機金額。讓我們表示支付的金額 $ i $ ‘th 索賠 $ S_i $ . 這是一個右尾重的連續隨機變量。通常假設這些是伽馬分佈的，因為形狀在直覺上是合理的。在行業術語中，這些被稱為嚴重性。

綜上所述，保險合同支付的金額是一個隨機變量：

$$ Y \mid X = \sum_{i \sim F} S_i $$

這是一個有趣的小方程，但基本上有一個隨機數的和數，根據頻率 $ F $ , 和每個求和 $ S_i $ 是隨機索賠金額（針對單個索賠）。

如果 $ P $ 是泊松，並且每個 $ S_i $ 是伽馬分佈，這是 Tweedie 分佈。合理的假設導致參數假設 $ Y \mid X $ 是 Tweedie 分發的。

是因為響應變量的分佈嗎？

如上所述，有點。它實際上是響應變量的條件分佈（所以 $ Y \mid X $ ，而不是邊緣 $ Y $ )，我們從未真正觀察到。條件分佈的某些特徵體現在邊緣，例如零處的大點質量。

如果響應變量為正且右偏，我們是否應該始終使用 Tweedie 或 poisson 而不是均方損失？

不。這是條件分佈 $ Y \mid X $ 這指導了損失函數的選擇，這通常來自像上面這樣的思考和想像。的（邊際）分佈 $ Y $ 即使條件分佈也可能偏斜 $ Y \mid X $ 是對稱的。例如：

$$ X \sim \text{Poisson}(\lambda = 1.0) $$ $$ Y \mid X \sim \text{Normal}(\mu = X, \sigma = 1.0) $$

將導致右偏邊際分佈 $ Y $ ，但使用最小二乘損失是完全正確的。

銷售預測是否與索賠示例相同 - 每個銷售是泊鬆的，銷售金額是伽馬分佈的？

我沒有在這方面做過任何項目，但這聽起來是一種合理的方法。

您能否解釋一下，索賠金額如何/為什麼遵循伽馬分佈。

這裡沒有魔法，沒有關於索賠分佈的原則性理論。粗略地說，它具有正確的形狀：它得到了積極的支持（即 $ P(G \leq 0) = 0 $ )，它是單峰的，並且具有正偏斜；它導致數學上易於處理的模型。僅此而已，這只是一個合理的選擇，並且已經運行了很長時間。

引用自：https://stats.stackexchange.com/questions/492726

comments powered by Disqus

XGboost 和深度學習模型中 Tweedie 或泊松損失/目標函數的用途是什麼

相關問答

泊松分佈的原始推導是什麼？

Covid-19 的預測效果如何？

總和nnn帶參數的泊松隨機變量1n1nfrac 1 n

為什麼我們更關心機器學習中的測試錯誤而不是預期的測試錯誤？

將“標準泊松”轉換為任意泊松

為什麼要執行時間序列分解