Threshold

什麼是 F1 最佳閾值?如何計算它?

  • November 18, 2015

我在 R 中使用了 h2o.glm() 函數,它在結果中提供了一個列聯表以及其他統計信息。列聯表標題為“基於 F1 最優閾值的交叉表

維基百科將 F1 分數或 F 分數定義為準確率和召回率的調和平均值。但是,僅當邏輯回歸的預測值的結果(例如)使用截止值轉換為二進制時才發現精度和召回率。

現在通過截止我記得,F1分數和最佳閾值之間的聯繫是什麼。如何計算最佳閾值?F1最優閾值是如何計算的?

抱歉,如果我錯過了什麼,我是這裡的統計新手。

實際上,我在這個主題上寫了我的第一篇機器學習論文。在其中,我們確定,當您的分類器輸出校準的概率(邏輯回歸應該如此)時,最佳閾值大約是它所達到的 F1 分數的 1/2。這給了你一些直覺。最佳閾值永遠不會超過 0.5。如果您的 F1 是 0.5 並且閾值是 0.5,那麼您應該期望通過降低閾值來提高 F1。另一方面,如果 F1 為 0.5,閾值為 0.1,您可能應該提高閾值以提高 F1。

可以在此處找到包含所有詳細信息和討論為什麼 F1 可能是或可能不是優化的好方法(在單標籤和多標籤情況下)的論文:

https://arxiv.org/abs/1402.1892

抱歉,這篇文章花了 9 個月的時間才引起我的注意。希望您仍然發現這些信息有用!

引用自:https://stats.stackexchange.com/questions/182331

comments powered by Disqus

相關問答