Classification

使用錯誤標記的數據進行分類

  • May 30, 2014

我有一個分類數據集,其中大約 20%(也許更多)的標籤不正確。沒有辦法知道哪些標籤不正確,也無法在將來收集更多數據時消除它們。

我在處理這個問題時看到的一種方法是訓練一個分類器集合,然後只獲取與集合多數票匹配的訓練數據。

是否有任何其他算法/方法對未 100% 正確標記的數據更具彈性?我們甚至可以將這些數據視為監督學習嗎?無論如何都可以信任經過訓練的模型或性能指標,例如準確性和 F1 分數?

感謝您的幫助。

這個問題被稱為“標籤噪聲”,有很多方法可以處理它(本質上你需要在模型中包含錯誤標記模式的可能性,並推斷模式是否被錯誤標記,或者實際上屬於錯誤決策邊界的一側)。Bootkrajang 和 Kaban有一篇關於這個主題的好論文,這是一個很好的起點。Lawrence 和 Scholkopf 的這篇論文也很值得研究。然而,關於這個問題的研究已經有相當長的歷史了,IIRC 在 McLachlan 的《判別分析和統計模式識別》一書中對此進行了討論。

引用自:https://stats.stackexchange.com/questions/100606

comments powered by Disqus