Machine-Learning

(為什麼)絕對損失不是正確的計分規則嗎?

  • June 23, 2020

Brier score 是一個合適的評分規則,至少在二元分類的情況下是平方損失。

$$ Brier(y,\hat{y}) = \frac{1}{N} \sum_{i=1}^N\big\vert y_i -\hat{y}_i\big\vert^2 $$

顯然,當有三個或更多類時,可以對此進行調整。

Cross Validated 的另一篇文章中,提到絕對損失不是正確的評分規則。

$$ absoluteLoss(y,\hat{y}) = \frac{1}{N} \sum_{i=1}^N\big\vert y_i -\hat{y}_i\big\vert $$

它似乎與 Brier 評分非常相似,應該是一個正確的評分規則。

  1. 為什麼絕對損失不是正確的評分規則?
  2. 當有兩個以上的輸出類別時,絕對損失是否是二進制分類情況下失去其“適當性”的適當評分規則?
  3. 當有兩個以上的課程時,是否可以像 Brier 分數那樣處理絕對損失以獲得適當的形式?

至少在二元情況下,絕對損失比 Brier 分數或 Brier 分數的平方根更容易解釋,因為它表示預測概率與觀察到的結果不同的平均量,所以我想有一種方法絕對損失是適當的。

讓我們首先確保我們就定義達成一致。考慮一個二元隨機變量 $ Y \sim \text{Ber}(p) $ ,並考慮損失函數 $ L(y_i|s) $ , 在哪裡 $ s $ 是一個估計 $ p $ 給定數據。在你的例子中, $ s $ 是觀測數據的函數 $ y_1,\dots,y_n $ 和 $ s = \hat{p} $ . Brier 得分損失函數為 $ L_b(y_i,s) = |y_i - s|^2 $ , 絕對損失函數為 $ L_a(y_i|s) = |y_i - s| $ . 損失函數具有預期損失 $ E_Y(L(Y|s)) := R(p|s) $ . 如果預期損失,則損失函數是正確的得分規則 $ R(p|s) $ 相對於最小化 $ s $ 通過設置 $ s=p $ 對於任何 $ p\in(0,1) $ .

驗證這一點的一個方便技巧是使用 $ Y $ ,至於任何預期損失,我們有 $$ R(p|s) = pL(1|s) + (1-p)L(0|s) $$

讓我們首先驗證 Bier 損失函數是否是正確的得分規則。注意 $ L_b(1|s) = |1-s|^2 = (1-s)^2 $ , 和 $ L_b(0|s) = s^2 $ ,所以使用上面的,我們有 $$ R_b(p|s) = p(1-s)^2 + (1-p)s^2 $$

並對該函數求導 $ s $ 並設置為 $ 0 $ 會給你選擇 $ s = p $ 最小化預期風險。所以 Brier 分數確實是一個適當的分數規則。

相反,回想一下二元性質 $ Y $ ,我們可以寫出絕對損失 $ L_a $ 作為 $$ L_a(y|s) = y(1-s) + (1-y)s $$ 作為 $ y\in{0,1} $ . 因此,我們有 $$ R_a(p|s) = p(1-s) + (1-p)s = p + s - 2ps $$

很遺憾, $ R_a(p|s) $ 不會被最小化 $ s=p $ ,並且通過考慮邊緣情況,您可以證明 $ R_a(p|s) $ 被最小化 $ s=1 $ 什麼時候 $ p>.5 $ ,並由 $ s=0 $ 什麼時候 $ p<.5 $ , 並適用於任何選擇 $ s $ 什麼時候 $ p=.5 $ .

因此,要回答您的問題,絕對損失不是正確的評分規則,並且與輸出類別的數量無關。至於能不能摔跤,我當然想不出辦法……我想這樣的嘗試去想類似的辦法,很可能會把你引向 Brier 分數 :)。

編輯:

針對 OP 的評論,請注意絕對損失方法基本上是估計 $ Y $ ,在二進制情況下是預期的 $ 0 $ 或者 $ 1 $ 根據 $ p $ . 絕對損失並沒有對替代選擇造成足夠的懲罰,以至於您想要選擇除了顯示最多的值之外的任何東西。相反,平方誤差對備選方案的懲罰足以找到與均值一致的中間立場 $ p $ . 這也應該強調使用絕對損失作為分類器沒有任何問題,並且您可以認為它與確定給定問題有關,如果您更關心平均值或中位數。對於二進制數據,我個人認為平均值更有趣(知道中位數可以告訴您 p > .5,但知道平均值可以告訴您更精確的陳述 $ p $ ),但這取決於。正如另一篇文章也強調的那樣,絕對損失沒有錯,它只是不是一個正確的分數規則。

引用自:https://stats.stackexchange.com/questions/473702

comments powered by Disqus