Scales

正確評分規則的替代概念,以及使用評分規則評估模型

  • April 11, 2015

評分規則是在給定事件的(分類)結果的情況下,評估代理對與分類事件相關的概率的猜測的方法。根據猜測和觀察到的結果,評分規則給代理一個分數(一個實數)。評分規則應該分配分數,以便平均而言,得分最低的代理做出最準確的猜測。(關於評分規則是根據最小化還是最大化來構建的約定有所不同。這裡我採取最小化的觀點。)

評分規則的一個重要屬性是它們是否是正確的評分規則;也就是說,當智能體猜測真實概率時,它們是否給出最低平均分數(或者,在主觀貝葉斯框架中,當智能體使用自己的置信度作為它的猜測)。在二元事件的情況下,0 或 1 的平方誤差(Brier 分數)是正確的評分規則,而絕對誤差則不是。為什麼?好吧,適當性的標準是基於均值的,而均值是最小化平方差之和但不必最小化絕對誤差的集中趨勢的度量。

這種思路表明,如果我們用其他一些統計函數(例如中位數)代替適當評分規則定義中的平均值,那麼我們將獲得類似的豐富的適當評分規則係列。想像一個代理想要最小化其中位數而不是平均分的情況並非不合理。實際上,似乎沒有非平凡的中位數正確評分規則。再次考慮二元事件的情況,如果真實概率小於 1/2,則代理的中值分數將等於事件未發生時給予代理的任何分數,而不管事件的確切的概率。如果我們用幾何平均數代替平均數,似乎就會發生類似的惡作劇。

那麼,是否有一種感覺,為了使正確的評分規則理論按預期工作,統計泛函必須是均值?

我意識到這是一個模糊的問題,最好的答案可能是解釋為什麼這個問題沒有真正意義,所以這是我發現自己問這個問題的上下文,以幫助你解開我的困惑。我是一名決策心理學家,我經常發現自己想量化一個模型的性能(預測性能、交叉驗證下或模型擬合事後),該模型會吐出人們會選擇什麼的概率二元決策場景。上述討論表明我應該使用適當的評分規則。令人討厭的是,正確的評分規則與概率不同。例如,我發現自己想要取均方誤差的平方根,而不僅僅是查看均方誤差(即平均 Brier 分數),但在一次試驗的情況下,RMSE 相當於絕對誤差,這是不正確的,所以我不認為不太準確的模型更好嗎?顯然,我不能僅僅將我評估評分規則的方法從一種基於均值的方法更改為一種基於中位數的方法。我是否必須簡單地熟悉通常的適當評分規則之一的規模,或者使用 ROC 曲線下面積或 d' 之類的信號檢測統計數據?

另一個複雜因素是,根據 Wagenmakers、Ratcliff、Gomez 和 Iverson (2004) 的說法,對於一項研究,我正在查看參數自舉模型擬合,這意味著我正在查看分數的密度圖而不是單個分數。然後更不清楚我是否應該關注適當性或一些類似的標準。

**編輯:**有關更多討論,請參閱Reddit 上的此評論主題。

Wagenmakers, E.-J., Ratcliff, R., Gomez, P., & Iverson, GJ (2004)。使用參數引導程序評估模型模仿。數學心理學雜誌,48,28-50。doi:10.1016/j.jmp.2003.11.004

與你所說的幾何平均惡作劇相反,幾何平均實際上有適當的評分規則。

隨機變量的幾何平均值等於. 因此最小化隨機分數的幾何平均值對應於最小化隨機分數的算術平均值. 因此,如果是一個標準的正確評分規則(其中是你預測概率得到的分數並且事件發生了),然後是幾何平均數的正確評分規則。

同樣,調和平均是, 所以是一個調和適當的評分規則。(負號在那裡,所以坐標變換是單調遞增的。)

這適用於任何集中趨勢,即單調變換空間中的算術平均值。問題是中位數不是這樣工作的。更一般地,任何具有非零崩潰點的集中趨勢都將不起作用,因為它對概率的變化不敏感是小。例如四分位距不起作用,因為如果,那麼分數的四分位範圍不依賴於(所以同樣必須最小化所有值的 IQR少於,這是不好的)。

在我的腦海中,我想不出任何具有 0 分解點的中心趨勢,不能被重寫為算術平均值的單調變換,但這可能是因為我不知道足夠的變分微積分(當然還不夠來證明我是對的)。但是,如果我是正確的,那麼“基本上”是正確的

為了使正確評分規則的理論按預期工作,統計泛函必須是平均值。


另一句話:您建議使用 RMSE 作為評分規則,但您不應該這樣做,因為它與有一個數據點時的絕對誤差一致。這似乎反映了一些混亂。您總是對每個單獨的預測評估評分規則。然後如果你想總結分數,你可以在之後取分數的集中趨勢。因此,預測優化 RMSE始終與優化絕對誤差相同。

另一方面,如果你想要一個以“概率單位”為單位的分數總結,你可以做一些事情,比如取平均 Brier 分數的平方根作為總結。但我認為簡單地熟悉 Brier 評分量表的基準會更有成效,因為這是你通常會看到的:

  • 0 是完美的預測器;
  • 0.25 表示沒有預測能力();
  • 1 是一個完美的反預測因子 (要么)。

您還可以使用非常簡單的模型來構建其他基準 - 例如,如果您忽略有關事件的所有信息並簡單地預測基本利率, 那麼你的 Brier 分數是. 或者,如果您正在預測時間序列,您可以看到過去幾個事件的加權平均值有多好,等等。

引用自:https://stats.stackexchange.com/questions/145875

comments powered by Disqus