Machine-Learning
降低分類概率閾值
我有一個關於一般分類的問題。讓 $ f $ 是一個分類器,它在給定一些數據 D 的情況下輸出一組概率。通常,人們會說:好吧,如果 $ P(c|D) > 0.5 $ ,我們將分配一個類 1,否則為 0(假設這是一個二元分類)。
我的問題是,如果我發現,當概率大於例如 0.2 並且分類器表現更好時,我也將類分類為 1。那麼在進行分類時使用這個新閾值是否合法?
我會在發出較小信號的數據的背景下解釋下分類界的必要性;但對於分類問題仍然很重要。
我意識到這是一種方法。但是,如果這不是降低閾值的正確想法,那麼一些數據轉換會是什麼,它們以類似的方式強調個體特徵,從而使閾值可以保持在 0.5?
Frank Harrell在他的博客上寫過這個:分類與預測,我完全同意。
從本質上講,他的論點是,當您為新樣本的每個類別輸出一個概率時,您的練習的統計部分就結束了。選擇一個閾值,超過該閾值將新觀察分類為 1 與 0 不再是統計數據的一部分。它是決策組件的一部分。在這裡,您需要模型的概率輸出 - 但還需要考慮以下因素:
- 決定將新觀察視為 1 類與 0 類的後果是什麼?然後我會向所有 1 發送廉價的營銷郵件嗎?或者我是否應用具有大副作用的侵襲性癌症治療?
- 將“真”0 視為 1 會產生什麼後果,反之亦然?我會打勾客戶嗎?讓某人接受不必要的醫療?
- 我的“類”真的是離散的嗎?或者實際上是否存在一個連續統一體(例如,血壓),其中臨床閾值實際上只是認知捷徑?如果是這樣,我現在正在“分類”的情況超出閾值多遠?
- 或者,成為第 1 類的低但肯定的概率實際上是否意味著“獲取更多數據”、“運行另一個測試”?
因此,要回答您的問題:與您的分類的最終消費者交談,並獲得上述問題的答案。或者向她或他解釋你的概率輸出,讓她或他完成接下來的步驟。