為什麼 ROC AUC 等於兩個隨機選擇的樣本被正確排序的概率?[複製]
我發現有兩種方法可以理解 AUC 的含義,但我不明白為什麼這兩種解釋在數學上是等價的。
在第一種解釋中,AUC 是 ROC 曲線下的面積。選取從 0 到 1 的點作為閾值,並相應地計算敏感性和特異性。當我們將它們相互繪製時,我們得到 ROC 曲線。
第二個是分類器的AUC等於分類器將隨機選擇的正例排名高於隨機選擇的負例的概率,即P(score(x+)>score(x-))。(來自AUC 代表什麼,它是什麼?)
一旦您獲得了 AUC 的封閉式公式,就很容易看到。
因為我們有有限數量的樣本 (xi,yi)Ni=1 ,我們將在 ROC 曲線上有有限數量的點。我們在兩者之間進行線性插值。
首先,一些定義。假設我們想評估一個算法 A(x) 輸出概率為 x 躺在積極的班級 +1 . 讓我們定義 N+ 作為正類中的樣本數 +1 和 N− 作為負類中的樣本數 −1 . 現在,對於一個閾值 τ 讓我們定義假陽性率(FPR,又名 1 特異性)和真陽性率(TPR,又名敏感性):
TPR(τ)=∑Ni=1[yi=+1][A(xi)≥τ]N+andFPR(τ)=∑Ni=1[yi=−1][A(xi)≥τ]N−
(在哪裡 [boolean expression] 如果表達式為真,則為 1,否則為 0)。然後,ROC 曲線由以下形式的點構建 (FPR(τ),TPR(τ)) 對於不同的值 τ . 此外,很容易看出,如果我們訂購樣品 x(i) (注意括號)根據算法的輸出 A(xi) , 那麼兩者都不 TPR 也不 FPR 更改為 τ 連續樣本之間 A(x(i))<τ<A(x(i+1)) . 所以只評估 FPR 和 TPR 就足夠了 τ∈A(x(1)),…,A(x(N)) . 為了 kth 我們有一點
$$ \text{TPR}k = \frac{\sum{i=k}^N [y_{(i)} = +1]}{N_+} \quad \text{and} \quad \text{FPR}k = \frac{\sum{i=k}^N [y_{(i)} = -1]}{N_-} $$
(注意兩個序列在 k )。這些序列定義了 ROC 曲線上的點
x
和坐標。y
接下來,我們對這些點進行線性插值以獲得曲線本身併計算曲線下的面積(使用梯形面積公式):$$ \begin{align*} \text{AUC} &= \sum_{k=1}^{N-1} \frac{\text{TPR}{k+1} + \text{TPR}{k}}{2} (\text{FPR}{k} - \text{FPR}{k+1}) \ &= \sum_{k=1}^{N-1} \frac{\sum_{i=k+1}^N [y_{(i)} = +1] + \tfrac{1}{2} [y_{(k)} = +1]}{N_+} \frac{[y_{(k)} = -1]}{N_-} \ &= \frac{1}{N_+ N_-} \sum_{k=1}^{N-1} \sum_{i=k+1}^N [y_{(i)} = +1] [y_{(k)} = -1] = \frac{1}{N_+ N_-} \sum_{k < i} [y_{(k)} < y_{(i)}] \end{align*} $$
在這裡,我使用了以下事實 [y=−1][y=+1]=0 對於任何 y .
所以你有它:AUC與正確排序的對的數量成正比,這與隨機樣本對根據它們的標籤進行排序的概率成正比。