分類器獲得高 AUC 和低 MCC 是否合理?還是相反?
假設我有 2 個模型:
1)馬修相關係數(MCC)得分高,曲線下面積(AUC)低
2)低MCC,高AUC
當我說高和低時,我的意思是相對於其他模型。我不太確定哪個模型“更好”以及如何解釋這兩個模型之間的這種差異。還要澄清一下,這兩個模型都返回概率估計。MCC 在閾值 0.5 處確定。
二元分類器可能在預測時直接生成每個分類實例的類標籤,或者每個類的一些概率值。在後一種情況下,對於每個實例,它將在二進制情況下產生一個概率值一類,一個概率值第二節課。
如果分類器產生概率,則必須使用閾值才能獲得分類標籤。通常,這個閾值是,但通常情況並非如此,有時也不是可能的最佳值。
現在,MCC 是直接從分類標籤計算出來的,這意味著無論閾值是什麼,它都使用單個閾值將概率轉換為分類標籤。另一方面,AUC 使用的是整個閾值範圍。
這個想法是這兩個值,AUC 和 MCC,測量不同的東西。雖然 MCC 衡量一種統計準確度(與卡方檢驗有關,它給出了一些關於差異顯著性的提示),但 AUC 與分類器的魯棒性更相關。對於所有可能的閾值,AUC 和 ROC 曲線提供了更多關於分類器分離二元類的能力的提示。即使對於直接在標籤上計算 AUC 的退化情況(不建議這樣做,因為它會丟失很多信息),AUC 的目的仍然是相同的。
模型選擇是一個難題。我對您的建議是嘗試自己回答這個問題:更好的分類器意味著什麼?找到一個包含以下考慮因素的答案:成本矩陣、對不平衡數據的魯棒性、樂觀或保守分類器等。無論如何,提供足夠的詳細信息,直到找到一個或幾個可用於在嘗試測量不同事物之前選擇指標的標準與準確性相關,然後詢問如何處理它們。
[稍後編輯-與健壯詞的使用有關]
我使用了“穩健”一詞,因為我找不到一個合適的詞來表示“分類器將兩個類分開的程度”。我知道“穩健”這個詞在統計學中有一些特殊的含義。
通常,AUC 接近為閾值的許多值分離良好的二元情況。從這個意義上說,AUC 接近意味著它對使用哪個閾值不太敏感,這意味著它對該選擇具有魯棒性。但是,一個不接近的值並不意味著相反,這並不一定意味著沒有足夠的良好閾值範圍。在大多數情況下,需要對 ROC 曲線進行圖形檢查。這是 AUC 經常被認為具有誤導性的主要原因之一。AUC 是對所有可能分類器的度量(每個可能的閾值一個),而不是對特定分類器的度量,但實際上不能使用多個閾值。雖然 AUC 可以提供關於井分離的提示(我使用術語“魯棒性”),但它並不能單獨用作準確度的單一權威度量。