降低分類概率閾值

November 6, 2017

我有一個關於一般分類的問題。讓是一個分類器，它在給定一些數據 D 的情況下輸出一組概率。通常，人們會說：好吧，如果，我們將分配一個類 1，否則為 0（假設這是一個二元分類）。

我的問題是，如果我發現，當概率大於例如 0.2 並且分類器表現更好時，我也將類分類為 1。那麼在進行分類時使用這個新閾值是否合法？

我會在發出較小信號的數據的背景下解釋下分類界的必要性；但對於分類問題仍然很重要。

我意識到這是一種方法。但是，如果這不是降低閾值的正確想法，那麼一些數據轉換會是什麼，它們以類似的方式強調個體特徵，從而使閾值可以保持在 0.5？

Frank Harrell在他的博客上寫過這個：分類與預測，我完全同意。

從本質上講，他的論點是，當您為新樣本的每個類別輸出一個概率時，您的練習的統計部分就結束了。選擇一個閾值，超過該閾值將新觀察分類為 1 與 0 不再是統計數據的一部分。它是決策組件的一部分。在這裡，您需要模型的概率輸出 - 但還需要考慮以下因素：

決定將新觀察視為 1 類與 0 類的後果是什麼？然後我會向所有 1 發送廉價的營銷郵件嗎？或者我是否應用具有大副作用的侵襲性癌症治療？

將“真”0 視為 1 會產生什麼後果，反之亦然？我會打勾客戶嗎？讓某人接受不必要的醫療？

我的“類”真的是離散的嗎？或者實際上是否存在一個連續統一體（例如，血壓），其中臨床閾值實際上只是認知捷徑？如果是這樣，我現在正在“分類”的情況超出閾值多遠？

或者，成為第 1 類的低但肯定的概率實際上是否意味著“獲取更多數據”、“運行另一個測試”？

因此，要回答您的問題：與您的分類的最終消費者交談，並獲得上述問題的答案。或者向她或他解釋你的概率輸出，讓她或他完成接下來的步驟。

引用自：https://stats.stackexchange.com/questions/312119

降低分類概率閾值

相關問答

哪個是第一位的 - 領域專業知識或實驗方法？

可以使用多項式邏輯回歸學習任何數據嗎

我如何使我的二元分類器偏愛假陽性錯誤而不是假陰性？

邏輯回歸是神經網絡的一個特例嗎？

Brier 分數和極端的階級失衡

所有機器學習算法是否都分為分類和回歸，而不僅僅是監督學習？