Model-Evaluation

訓練/測試數據集中的 AUC 和類不平衡

  • February 6, 2017

我剛開始學習 ROC 曲線下的面積 (AUC)。有人告訴我,AUC 不反映在數據不平衡上。我認為這意味著 AUC 對測試數據的不平衡不敏感,而不是訓練數據的不平衡。

也就是說,僅僅改變測試數據中正負類的分佈,AUC值可能變化不大。但是如果我們改變訓練數據中的分佈,AUC 值可能會發生很大變化。原因是分類器不能很好地學習。在這種情況下,我們必須使用欠採樣和過採樣。我對嗎?我只是想確保我對 AUC 的理解是正確的。

這取決於你如何理解敏感這個詞。ROC AUC 對類不平衡很敏感,因為當存在少數類時,您通常將其定義為正類,它將對 AUC 值產生強烈影響。這是非常理想的行為。例如,準確性在這種情況下是不敏感的。即使少數類別根本無法很好地預測,它也可能非常高。

在大多數實驗設置(例如引導或交叉驗證)中,訓練集和測試集的類分佈應該相似。但這是您如何對這些集合進行採樣的結果,而不是使用或不使用 ROC。基本上你可以說 ROC 通過同等重視敏感性和特異性來抽象測試集中的類不平衡。當訓練集沒有包含足夠的示例來學習該類時,這仍然會影響 ROC,因為它應該。

您在過採樣和參數調整方面所做的工作是一個單獨的問題。ROC 只能告訴您特定配置的工作情況。然後,您可以嘗試多個配置並選擇最佳配置。

引用自:https://stats.stackexchange.com/questions/260164

comments powered by Disqus