為什麼 ROC AUC 等於兩個隨機選擇的樣本被正確排序的概率？[複製]

January 11, 2016

我發現有兩種方法可以理解 AUC 的含義，但我不明白為什麼這兩種解釋在數學上是等價的。

在第一種解釋中，AUC 是 ROC 曲線下的面積。選取從 0 到 1 的點作為閾值，並相應地計算敏感性和特異性。當我們將它們相互繪製時，我們得到 ROC 曲線。

第二個是分類器的AUC等於分類器將隨機選擇的正例排名高於隨機選擇的負例的概率，即P(score(x+)>score(x-))。（來自AUC 代表什麼，它是什麼？）

一旦您獲得了 AUC 的封閉式公式，就很容易看到。

因為我們有有限數量的樣本，我們將在 ROC 曲線上有有限數量的點。我們在兩者之間進行線性插值。

首先，一些定義。假設我們想評估一個算法輸出概率為躺在積極的班級 . 讓我們定義作為正類中的樣本數和作為負類中的樣本數 . 現在，對於一個閾值讓我們定義假陽性率（FPR，又名 1 特異性）和真陽性率（TPR，又名敏感性）：

（在哪裡如果表達式為真，則為 1，否則為 0）。然後，ROC 曲線由以下形式的點構建對於不同的值 . 此外，很容易看出，如果我們訂購樣品（注意括號）根據算法的輸出 , 那麼兩者都不也不更改為連續樣本之間 . 所以只評估 FPR 和 TPR 就足夠了 . 為了我們有一點

$$ \text{TPR}k = \frac{\sum{i=k}^N [y_{(i)} = +1]}{N_+} \quad \text{and} \quad \text{FPR}k = \frac{\sum{i=k}^N [y_{(i)} = -1]}{N_-} $$

（注意兩個序列在）。這些序列定義了 ROC 曲線上的點x和坐標。y接下來，我們對這些點進行線性插值以獲得曲線本身併計算曲線下的面積（使用梯形面積公式）：

$$ \begin{align*} \text{AUC} &= \sum_{k=1}^{N-1} \frac{\text{TPR}{k+1} + \text{TPR}{k}}{2} (\text{FPR}{k} - \text{FPR}{k+1}) \ &= \sum_{k=1}^{N-1} \frac{\sum_{i=k+1}^N [y_{(i)} = +1] + \tfrac{1}{2} [y_{(k)} = +1]}{N_+} \frac{[y_{(k)} = -1]}{N_-} \ &= \frac{1}{N_+ N_-} \sum_{k=1}^{N-1} \sum_{i=k+1}^N [y_{(i)} = +1] [y_{(k)} = -1] = \frac{1}{N_+ N_-} \sum_{k < i} [y_{(k)} < y_{(i)}] \end{align*} $$

在這裡，我使用了以下事實對於任何 .

所以你有它：AUC與正確排序的對的數量成正比，這與隨機樣本對根據它們的標籤進行排序的概率成正比。

引用自：https://stats.stackexchange.com/questions/190216

為什麼 ROC AUC 等於兩個隨機選擇的樣本被正確排序的概率？[複製]

相關問答

基於診斷指標（𝑅2R2R^2/ AUC/ 準確度/ RMSE 等）值？

獲得交叉驗證 AUC 的適當方法

從列聯表計算ROC曲線下面積的公式是什麼？

比較兩個分類器相對於（平均）ROC AUC、敏感性和特異性的統計顯著性（p 值）

logloss vs gini/auc

為什麼使用歸一化基尼分數而不是 AUC 作為評估？