為什麼 ROC AUC 等於兩個隨機選擇的樣本被正確排序的概率?[複製]
我發現有兩種方法可以理解 AUC 的含義,但我不明白為什麼這兩種解釋在數學上是等價的。
在第一種解釋中,AUC 是 ROC 曲線下的面積。選取從 0 到 1 的點作為閾值,並相應地計算敏感性和特異性。當我們將它們相互繪製時,我們得到 ROC 曲線。
第二個是分類器的AUC等於分類器將隨機選擇的正例排名高於隨機選擇的負例的概率,即P(score(x+)>score(x-))。(來自AUC 代表什麼,它是什麼?)
一旦您獲得了 AUC 的封閉式公式,就很容易看到。
因為我們有有限數量的樣本 $ {(x_i, y_i)}_{i=1}^N $ ,我們將在 ROC 曲線上有有限數量的點。我們在兩者之間進行線性插值。
首先,一些定義。假設我們想評估一個算法 $ A(x) $ 輸出概率為 $ x $ 躺在積極的班級 $ +1 $ . 讓我們定義 $ N_+ $ 作為正類中的樣本數 $ +1 $ 和 $ N_- $ 作為負類中的樣本數 $ -1 $ . 現在,對於一個閾值 $ \tau $ 讓我們定義假陽性率(FPR,又名 1 特異性)和真陽性率(TPR,又名敏感性):
$$ \text{TPR}(\tau) = \frac{\sum_{i=1}^N [y_i = +1] [A(x_i) \ge \tau]}{N_+} \quad \text{and} \quad \text{FPR}(\tau) = \frac{\sum_{i=1}^N [y_i = -1] [A(x_i) \ge \tau]}{N_-} $$
(在哪裡 $ [\text{boolean expression}] $ 如果表達式為真,則為 1,否則為 0)。然後,ROC 曲線由以下形式的點構建 $ (\text{FPR}(\tau), \text{TPR}(\tau)) $ 對於不同的值 $ \tau $ . 此外,很容易看出,如果我們訂購樣品 $ x_{(i)} $ (注意括號)根據算法的輸出 $ A(x_i) $ , 那麼兩者都不 $ \text{TPR} $ 也不 $ \text{FPR} $ 更改為 $ \tau $ 連續樣本之間 $ A(x_{(i)}) < \tau < A(x_{(i+1)}) $ . 所以只評估 FPR 和 TPR 就足夠了 $ \tau \in {A(x_{(1)}), \dots, A(x_{(N)})} $ . 為了 $ k^{\text{th}} $ 我們有一點
$$ \text{TPR}k = \frac{\sum{i=k}^N [y_{(i)} = +1]}{N_+} \quad \text{and} \quad \text{FPR}k = \frac{\sum{i=k}^N [y_{(i)} = -1]}{N_-} $$
(注意兩個序列在 $ k $ )。這些序列定義了 ROC 曲線上的點
x
和坐標。y
接下來,我們對這些點進行線性插值以獲得曲線本身併計算曲線下的面積(使用梯形面積公式):$$ \begin{align*} \text{AUC} &= \sum_{k=1}^{N-1} \frac{\text{TPR}{k+1} + \text{TPR}{k}}{2} (\text{FPR}{k} - \text{FPR}{k+1}) \ &= \sum_{k=1}^{N-1} \frac{\sum_{i=k+1}^N [y_{(i)} = +1] + \tfrac{1}{2} [y_{(k)} = +1]}{N_+} \frac{[y_{(k)} = -1]}{N_-} \ &= \frac{1}{N_+ N_-} \sum_{k=1}^{N-1} \sum_{i=k+1}^N [y_{(i)} = +1] [y_{(k)} = -1] = \frac{1}{N_+ N_-} \sum_{k < i} [y_{(k)} < y_{(i)}] \end{align*} $$
在這裡,我使用了以下事實 $ [y = -1] [y = +1] = 0 $ 對於任何 $ y $ .
所以你有它:AUC與正確排序的對的數量成正比,這與隨機樣本對根據它們的標籤進行排序的概率成正比。