Classification

什麼時候適合使用不正確的評分規則?

  • April 21, 2016

Merkle & Steyvers (2013) 寫道:

為了正式定義一個適當的評分規則,讓是伯努利試驗的概率預測具有真正的成功概率. 正確的評分規則是其期望值最小化的指標,如果.

我知道這很好,因為我們希望鼓勵預測者生成真實反映他們真實信念的預測,並且不想給他們不正當的動機去做其他事情。

是否有任何適合使用不正確評分規則的真實示例?

參考

Merkle, EC 和 Steyvers, M. (2013)。選擇嚴格正確的評分規則。決策分析,10(4),292-304

當目的實際上是預測而不是推理時,使用不正確的評分規則是合適的。當我是要進行預測的人時,我真的不在乎另一位預測員是否在作弊。

適當的評分規則可確保在估計過程中模型接近真實數據生成過程 (DGP)。這聽起來很有希望,因為當我們接近真正的 DGP 時,我們在任何損失函數下的預測方面也會做得很好。問題是大多數時候(實際上幾乎總是)我們的模型搜索空間不包含真正的 DGP。我們最終用我們提出的某種函數形式來逼近真正的 DGP。

在這個更現實的環境中,如果我們的預測任務比計算出真實 DGP 的整個密度更容易,我們實際上可能會做得更好。對於分類尤其如此。例如,真正的 DGP 可能非常複雜,但分類任務可能非常簡單。

Yaroslav Bulatov 在他的博客中提供了以下示例:

http://yaroslavvb.blogspot.ro/2007/06/log-loss-or-hinge-loss.html

正如您在下面看到的那樣,真實密度是不穩定的,但是很容易構建一個分類器來將由此生成的數據分成兩個類別。簡單地說,如果 $ x \ge 0 $ 輸出類 1,如果 $ x < 0 $ 輸出類 2。

在此處輸入圖像描述

我們提出了下面的粗略模型,而不是匹配上面的精確密度,這與真正的 DGP 相去甚遠。但是它確實進行了完美的分類。這是通過使用不正確的鉸鏈損失發現的。

在此處輸入圖像描述

另一方面,如果您決定找到具有對數損失的真正 DGP(這是正確的),那麼您將開始擬合一些泛函,因為您不知道您需要先驗的確切泛函形式。但是當你越來越努力地匹配它時,你就會開始對事物進行錯誤分類。

在此處輸入圖像描述

請注意,在這兩種情況下,我們都使用了相同的函數形式。在不正確的損失情況下,它退化為一個階躍函數,進而進行了完美的分類。在適當的情況下,它瘋狂地試圖滿足密度的每個區域。

基本上,我們並不總是需要實現真實模型才能獲得準確的預測。或者有時我們真的不需要在整個密度領域做得很好,而只是在其中的某些部分做得很好。

引用自:https://stats.stackexchange.com/questions/208529

comments powered by Disqus