Logistic

AIC 和 c 統計量 (AUC) 實際測量的模型擬合有什麼區別?

  • March 4, 2013

Akaike 信息準則 (AIC) 和 c 統計量(ROC 曲線下的面積)是邏輯回歸模型擬合的兩個度量。當兩種措施的結果不一致時,我無法解釋發生了什麼。我猜他們正在測量模型擬合的略有不同的方面,但這些具體方面是什麼?

我有 3 個邏輯回歸模型。模型 M0 有一些標準協變量。模型 M1 將 X1 添加到 M0;模型 M2 將 X2 添加到 M0(因此 M1 和 M2 沒有嵌套)。

從 M0 到 M1 和 M2 的 AIC 差異約為 15,表明 X1 和 X2 都提高了模型擬合度,並且幅度大致相同。

c-統計量為:M0,0.70;M1,0.73;M2 0.72。從 M0 到 M1 的 c 統計量差異顯著(DeLong et al 1988 的方法),但從 M0 到 M2 的差異不顯著,表明 X1 改善了模型擬合,但 X2 沒有。

X1 不是常規收集的。X2 應該定期收集,但在大約 40% 的情況下會丟失。我們要決定是開始收集 X1,還是改進 X2 的收集,或者刪除這兩個變量。

從 AIC 我們得出結論,變量對模型做出了類似的改進。改進 X2 的收集可能比開始收集一個全新的變量 (X1) 更容易,因此我們的目標是改進 X2 收集。但是從 c-statistic 來看,X1 改進了模型而 X2 沒有,所以我們應該忘記 X2 並開始收集 X1。

由於我們的建議取決於我們關注的統計數據,因此我們需要清楚地了解他們所測量的差異。

歡迎任何建議。

AIC 和 c-statistic 試圖回答不同的問題。(近年來還提出了一些 c-statistic 的問題,但我會順便說一下)

粗略地說:

  • AIC 告訴您您的模型對特定錯誤分類成本的擬合程度。
  • AUC 告訴您,您的模型在所有錯誤分類成本中的平均效果如何。

當您計算 AIC 時,您將給出 0.9 的預測的邏輯視為 1 的預測(即 1 比 0 更可能),但它不必如此。你可以拿你的邏輯分數說“0.95 以上的都是 1,低於 0.95 的都是 0”。你為什麼要這樣做?好吧,這將確保您僅在您真正有信心時才預測一個。你的誤報率會非常低,但你的誤報率會飆升。在某些情況下,這並不是一件壞事——如果您要指控某人欺詐,您可能首先要真正確定。此外,如果跟進陽性結果的成本非常高,那麼您不需要太多。

這就是為什麼它與成本有關。將 1 歸類為 0 時會產生成本,將 0 歸類為 1 時會產生成本。通常(假設您使用默認設置)邏輯回歸的 AIC 指的是兩種錯誤分類相同時的特殊情況昂貴。也就是說,邏輯回歸為您提供了正確預測的最佳總數,而沒有任何正面或負面的偏好。

使用 ROC 曲線是因為它繪製了真陽性與假陽性的關係,以顯示在不同成本要求下使用分類器時分類器的性能。c 統計量的出現是因為任何嚴格位於另一條之上的 ROC 曲線顯然是一個主導分類器。因此,測量曲線下面積作為衡量分類器整體性能的指標是直觀的。

所以基本上,如果您在擬合模型時知道您的成本,請使用 AIC(或類似的)。如果您只是構建一個分數,而不是指定診斷閾值,則需要 AUC 方法(以下關於 AUC 本身的警告)。

那麼 c-statistic/AUC/Gini 有什麼問題呢?

多年來,AUC 是標準方法,並且仍然被廣泛使用,但是它存在許多問題。使它特別吸引人的一件事是它對應於分類等級的 Wilcox 測試。也就是說,它測量了一個類中隨機挑選的成員的分數將高於另一類的隨機挑選的成員的概率。問題是,這幾乎從來都不是一個有用的指標。

幾年前,David Hand 公開了 AUC 最關鍵的問題。(參見下面的參考資料)問題的癥結在於,雖然 AUC 確實對所有成本進行了平均,但由於 ROC 曲線的 x 軸是誤報率,它分配給不同成本機制的權重因分類器而異。因此,如果您在兩個不同的邏輯回歸上計算 AUC,則在這兩種情況下都不會測量“相同的東西”。這意味著基於 AUC 比較模型幾乎沒有意義。

Hand 提出了一種使用固定成本加權的替代計算,並將其稱為 H 度量 - R 中有一個名為的包hmeasure將執行此計算,我相信 AUC 可以進行比較。

關於 AUC 問題的一些參考資料:

  • *接收器操作特徵曲線下的面積何時是分類器性能的適當度量?*DJ Hand, C. Anagnostopoulos模式識別字母34 (2013) 492–495

(我發現這是一個特別容易理解和有用的解釋)

引用自:https://stats.stackexchange.com/questions/51275

comments powered by Disqus