Model-Evaluation

為什麼 LogLoss 優於其他適當的評分規則?

  • April 17, 2017

似乎任何時候人們關心準確估計概率時,他們都會選擇 LogLoss 作為評估指標。但是還有許多其他評估指標更傾向於準確估計概率(而不僅僅是排名或某個截止點的表現)。包括 RMSE(在連續模型得分與 0/1 實際得分上)。顯然 LogLoss 對置信度的懲罰非常嚴重,為什麼這是可取的?什麼時候不是?

日誌分數的參數

一方面,正如kjetil b halvorsen 所寫,對數損失只是對對數似然度的重新表述,統計學家非常習慣於最大化,因此它作為 KPI 非常自然。(一種更常見的約定是最小化分數,在這種情況下,取預測概率的負對數,但同樣的點仍然適用。)

另一方面,在單類分類案例中,Merkle & Steyvers (2013, Decision Analysis )指出,log score 只是整個嚴格正確的評分規則家族中的一個成員,這些規則由兩個參數索引 $ \alpha\geq 0 $ 和 $ \beta\geq 0 $ . 的特定值 $ \alpha $ 和 $ \beta $ 可以根據成本設置 $ c $ 錯誤分類(反過來,基於將概率預測與閾值進行比較)。較小的值 $ \alpha+\beta $ 對應於更高的不確定性 $ c $ …而日誌分數恰好是家庭成員 $ \alpha=\beta=0 $ . 所以至少在這個分類案例中,你可以說日誌分數是一個合理的選擇(在這個評分規則係列中),它對應於錯誤分類成本中最高的不確定性或不可知性。

另一方面,Benedetti (2010, Monthly Weather Review )認為評分規則應具備以下三個屬性:

  • 添加新事件時應該是附加的
  • 它應該只取決於分配給實際發生並且可以觀察到的事件的概率(“局部性”)
  • 它應該是正確的(更強烈地,Benedetti 需要預測的可微性和真實概率的零導數)

Benedetti (2010) 然後繼續表明,在有限多個可能事件的情況下,對數損失是滿足這些條件的唯一評分規則。

(老實說,我並沒有完全遵循 Benedetti 的推導;具體來說,我不明白他是如何得出等式(7)的。但我會把這個編輯作為一個指針放在這裡,這樣比我更聰明的人看不到紙。)

Benedetti (2010) 隨後探討了與信息論的聯繫以及概率預測與實際結果分佈之間的 Kullback-Leibler 分歧。他提請注意 Brier 分數的一個缺點:它取決於對未觀察到的事件的預測概率,因此違反了局部性要求。具體來說,假設我們有 $ R=3 $ 可能的事件和兩種不同的概率預測, $ (0.2,0.4,0.4) $ 和 $ (0.2,0.3,0.5) $ . 進一步假設第一個事件確實發生了。請注意,兩個預測都分配了相同的概率 $ 0.2 $ 到這個事件。局部性要求兩個預測的分數相同,因為它們僅在未觀察到的事件的預測概率上有所不同。然而,第一個預測的多類別 Brier 分數

$$ (1-0.2)^2+0.4^2+0.4^2 = 0.96 $$

而第二個預測的分數是

$$ (1-0.2)^2+0.3^2+0.5^2 = 0.98. $$

然而,正如 Benedetti (2010) 指出的那樣,Brier 分數是對數技能分數的二階近似值,這解釋了它的一些吸引力。

最後,我從 Benedetti (2010, p. 208) 中獲得的對數損失的另一個論點:如果發生我們預測完全不可能的事件, $ \hat{p}=0 $ ,那麼對數損失是無限的,沒有機會被其他更好的預測“拯救”。因此,使用 log loss 確實迫使我們考慮極端罕見事件的可能性,而不僅僅是將它們掃到桌子底下。相比之下,Brier 分數對於觀察預計不可能發生的事件要輕鬆得多。

例如,Jewson (2004, arXiv:physics/0401046v1)給出了以下示例:假設一個簡單的二分類預測情況。事件發生的真實概率為 $ p=0.1 $ . 我們有兩個相互競爭的預測:第一個是事件是不可能的, $ \hat{p}_1=0 $ ,第二個高估了真實概率, $ \hat{p}_2=0.25 $ . 那麼第一個預測的預期 Brier 分數是

$$ 0.1\times 1^2+0.9\times 0^2 = 0.1 $$

而第二個預測的預期 Brier 分數是

$$ 0.1\times (1-0.25)^2+0.9\times 0.25^2 = 0.1125. $$

所以 Brier 分數實際上會更喜歡第一個預測,這完全是錯誤的,因為它考慮了一個事件 $ 0.1 $ 發生的概率是完全不可能的。這沒有直觀的意義。

Brier 分數的論據

當然,Brier分數也有優勢。例如,如果我們觀察到一個我們認為不可能發生的事件,那麼日誌分數就會爆炸,因為我們會採用零的對數。對一些人來說,這是一個功能(見上文),對另一些人來說,這是一個錯誤。如果發生“不可能”事件,仍將定義 Brier 分數。

Brier 分數在概念上非常接近均方誤差,實際上可以這樣表示(在概率預測向量和實際發生的類別的 0-1 向量之間)。這很容易理解。

Selten (1998, Experimental Economics )提供了四個公理,我們可能需要一個評分規則來滿足:

  • 如果重新排序類,它應該是對稱的
  • 添加一個預測概率和真實概率為零的類不應該改變分數
  • 如果真正的類別概率是 $ p=(p_1, \dots, p_k) $ 我們預測 $ \hat{p}=(\hat{p}_1, \dots, \hat{p}_k) $ ,那麼分數應該是正的(即,“差”,見上文關於正負方向的約定)——這是嚴格的適當性,Selten (1998) 稱之為“激勵相容性”
  • 如果真正的類別概率是 $ p $ 我們預測 $ \hat{p} $ ,那麼分數應該等於真實概率為的情況 $ \hat{p} $ 我們預測 $ p $ (對稱性;Selten 稱之為“中立性”)

Selten (1998) 然後表明,Brier 分數是唯一滿足這些公理的分數,直到縮放。對數分數當然違反了第四個要求,因為一般來說

$$ p\log \hat p \neq \hat p\log p. $$


因此,一種看待它的方式是,我們是否更喜歡 Benedetti 的論點,即評分規則應該是“局部的”(即,不受未觀察到的事件的預測概率的影響),還是 Selten 的論點,即它應該是對稱的(即,給出相同的如果我們交換預測和真實概率向量的結果)。在第一種情況下,我們應該使用對數分數,在第二種情況下,我們應該使用 Brier 分數。

我個人認為 Selten 的對稱性要求(上面 Brier 部分的第四個要點)是不必要的,我認為日誌分數爆炸是一個特性,而不是一個錯誤(見上文)。因此,我更喜歡日誌分數。

引用自:https://stats.stackexchange.com/questions/274088

comments powered by Disqus