Brier 分數和極端的階級失衡
由於我聽說過像 Brier score 或 Log Loss 這樣的二進制分類的正確評分規則,我越來越相信它們在實踐中的代表性嚴重不足,有利於準確度、ROC AUC 或 F1 等度量。由於我想在我的組織中推動向正確的模型比較評分規則轉變,有一個常見的論點我無法完全回答:
**如果存在極端的類別不平衡(例如 5 個正例對 1,000 個負例),Brier 分數如何確保我們選擇的模型能夠在 5 個正例的高概率預測方面為我們提供最佳性能?**因為我們不關心負例的預測值是否接近 0 或 0.5,只要它們相對低於正例的預測值。
我現在有兩個可能的答案,但很想听聽關於這個話題的專家意見:
- “Brier 評分作為適當的評分規則,賦予罕見事件在績效評估中應具有的適當權重。可以使用 ROC AUC 進一步檢查辨別力。”
這遵循了 Frank Harrell 對相關問題的評論的邏輯:“對罕見事件的預測對均值具有“正確”影響,即事件的平均預測概率 = 事件的總體比例。無論發生什麼,Brier 分數都有效。事件的普遍性。” 正如他在那裡進一步建議的那樣,可以用 ROC AUC 來補充 Brier 評分,以檢查在多大程度上實現了陽性病例與陰性病例的期望相對排名。
- “我們可以使用分層的 Brier 分數來平均加權每個類別的預測性能。”
這遵循了本文論證的邏輯:“對所有類的 Brier 分數求平均給出了分層 Brier 分數。當存在類不平衡時,分層 Brier 分數更合適,因為它對所有類賦予同等重要性,因此允許任何錯誤校準少數族裔要被發現。” . 我不確定嚴格正確的評分規則屬性的損失是否值得對少數感興趣的類別進行更重的加權,以及是否有統計上合理的基礎來使用這種以某種方式任意的重新加權方式(“如果我們遵循這種方法,什麼阻止我們走得更遠,將少數類別的權重設為其他類別的 2、17 或 100 倍?”)。
如果存在極端的類別不平衡(例如 5 個正例對 1,000 個負例),Brier 分數如何確保我們選擇的模型能夠在 5 個正例的高概率預測方面為我們提供最佳性能?因為我們不關心負例的預測值是否接近 0 或 0.5,只要它們相對低於正例的預測值。
這關鍵取決於我們是否可以根據預測變量區分具有不同類別概率的亞群。作為一個極端的例子,如果沒有(或沒有有用的)預測變量,那麼所有實例的預測概率將是相等的,並且要求對負類和正類進行較低的預測是沒有意義的,無論我們是在查看 Brier 分數還是其他損失職能。
是的,這很明顯。但我們需要牢記這一點。
所以讓我們看第二個最簡單的情況。假設我們有一個預測變量,可以將我們的人口乾淨地分成兩個亞群。在亞群 1 中,有 4 例陽性病例和 200 例陰性病例。在亞群 2 中,有 1 例陽性病例和 800 例陰性病例。(數字與您的示例相符。)同樣,進一步細分亞群的可能性為零。
然後我們將得到屬於正類的恆定預測概率 $ p_1 $ 對於亞群 1 和 $ p_2 $ 對於亞群 2。那麼Brier 得分為
$$ \frac{1}{5+1000}\big(4(1-p_1)^2+200p_1^2+1(1-p_2)^2+800p_2^2\big). $$
使用一點微積分,我們發現這是優化的
$$ p_1 = \frac{1}{51} \quad\text{and}\quad p_2=\frac{1}{801}, $$
這正是兩個亞群中正類的比例。這反過來也是應該的,因為這就是 Brier 分數正確的意思。
你有它。正確的 Brier 分數將通過真實的類成員概率進行優化。如果您有預測變量可以讓您識別具有更高真實概率的子群體或實例,那麼 Brier 分數將激勵您輸出這些更高的概率。相反,如果您無法識別此類亞群,那麼 Brier 評分對您無能為力——但其他任何事情也無濟於事,因為信息不存在。
但是,Brier 分數不會幫助您高估子群體 1 中的概率和低估子群體 2 中超出真實值的概率 $ p_1=\frac{1}{51} $ 和 $ p_2=\frac{1}{801} $ ,例如,因為“亞群 1 中的陽性病例多於 2 中的陽性病例”。是的,就是這樣,但是高估/低估這個值有什麼用呢?我們已經知道基於差異的差異 $ p_1 $ 和 $ p_2 $ ,而偏向這些對我們毫無幫助。
特別是,ROC 分析除了找到一個“最佳”閾值(我在這裡斷言)之外沒有任何幫助。最後,在這個分析中沒有任何東西以任何方式取決於類是否平衡,所以我認為不平衡的數據集不是問題。
最後,這就是為什麼我認為您提出的兩個答案沒有用。Brier 分數幫助我們獲得真正的班級成員概率。然後我們如何處理這些概率將取決於我們的成本結構,並且根據我關於上述閾值的帖子,這是一個單獨的問題。是的,根據這種成本結構,我們最終可能會得到分層 Brier 分數的代數重新表述版本,但將統計和決策理論方面分開可以使過程更加清晰。