Classification

當接近 100% 的類標籤屬於一個類時,如何衡量分類器的性能?

  • August 1, 2013

在我的數據中,我有一個類變量,表示為. 此類變量值是(二進制)。幾乎所有的觀察為 0(接近 100%,更準確地說是 97%)。我想對不同的分類模型進行“性能”測試(可能是準確性)。我害怕發生的是,如果我有一個總是將任何觀察分類到 0 類的分類模型,那麼該模型的準確率將達到 97%(即使它從不考慮任何其他變量)。

對處理非常罕見事件的數據的分類模型是否有任何眾所周知的性能測試?

我想到了幾種可能性。

查看整體命中率通常不是一個好主意,因為如果不同類的性能不同,這將取決於測試集的組成。因此,至少,您應該指定(並證明)測試數據中類的相對頻率,以便得出有意義的值。

其次,正如@Shorack 已經說過的,指定哪些類型的錯誤是多麼重要。通常,分類器需要滿足某些性能標準才能有用(並且總體準確度很少是適當的衡量標準)。有考慮到不同類別和不同類型的錯誤分類的敏感性、特異性、正和負預測值等措施。您可以說這些措施回答了有關分類器的不同問題:

  • **敏感性:**真正屬於 C 類的病例中有多少被認為是這樣的?
  • **特異性:**真正屬於C類的病例中有多少被認為是這樣的?
  • **正預測值:**給定分類器預測 C 類,這個預測正確的概率是多少?
  • **負預測值:**給定分類器預測該案例不屬於C 類,該預測正確的概率是多少?

這些問題通常允許制定分類器為了有用而必須需要的規範。

從分類器的實際應用的角度來看,預測值通常更重要:它們以預測為條件,這是您在應用分類器時所處的情況(患者通常對知道測試是識別患病病例,而是識別所述診斷正確的可能性)。但是,為了正確計算它們,您需要知道分類器用於人群中不同類別的相對頻率(似乎您有這些信息 - 所以沒有什麼可以阻止您查看它)。

您還可以查看正面或負面預測給您帶來的信息增益。這是通過正負似然比、LR+和LR-來衡量的。簡而言之,他們會告訴您預測會在多大程度上改變所討論班級的機率。(有關更詳細的說明,請參閱我的答案)

對於您的普通分類器,情況如下所示:我將使用“0”類作為有問題的類,因此“正”表示“0”類。在 100 個案例中,有 100 個被預測為陽性(屬於 0 類)。其中 97 個確實有,3 個沒有。0 級的敏感性為 100%(所有 97 個真正屬於 0 級的病例均被識別),特異性為 0(其他病例均未識別)。陽性預測值(假設 97:3 相對頻率具有代表性)為 97%,由於沒有發生陰性預測,因此無法計算陰性預測值。

現在 LR⁺ 和 LR⁻ 是您乘以案例屬於正類(“0”)的機率的因素。LR⁺為 1意味著正面預測沒有給您任何信息:它不會改變賠率。所以這裡你有一個度量,它清楚地表達了你的平凡分類器沒有添加任何信息的事實


完全不同的想法方向:你提到你想評估不同的分類器。這聽起來有點像分類器比較或選擇。我在上面討論的措施的警告是,如果您在“硬”類標籤上評估它們,它們會受到非常高的隨機不確定性(意味著您需要大量測試用例)。如果您的預測主要是連續的(度量,例如後驗概率),您可以使用相關度量來查看相同類型的問題,但不使用案例的分數,而是使用連續度量,請參閱此處。這些也將更適合檢測預測中的微小差異。

(@FrankHarrell 會告訴你你需要“正確的評分規則”,所以這是另一個要記住的搜索詞。)

引用自:https://stats.stackexchange.com/questions/66204

comments powered by Disqus