Machine-Learning

為什麼 ROC 對類分佈不敏感?

  • September 20, 2021

我很困惑為什麼 ROC 在ROC 分析簡介中描述的類分佈下是不變的。我無法理解為什麼測試集中正負類的比例不會影響 ROC 曲線的示例。

還要引用這篇文章,它說:

為了說明這一點,首先讓我們從一種非常好的方式來定義精確度、召回率和特異性。假設您有一個名為 1 的“正”類和一個名為 0 的“負”類。 $ \hat{Y} $ 是您對真實類別標籤的估計 $ Y $ . 然後: $$ \begin{aligned} &\text{Precision} &= P(Y = 1 | \hat{Y} = 1) \ &\text{Recall} = \text{Sensitivity} &= P(\hat{Y} = 1 | Y = 1) \ &\text{Specificity} &= P(\hat{Y} = 0 | Y = 0) \end{aligned} $$ 需要注意的關鍵是構成 ROC 曲線的敏感度/召回率和特異性是基於真實類別標籤的概率。因此,無論什麼,它們都是相同的 $ P(Y = 1) $ 是。

我無法將這幾個概念調和在一起,可能是由於統計嚴謹性的差距。我非常感謝有人給我一個更詳細的例子,說明為什麼以上是真的。


更具體地說,有人可以解釋上面的報價嗎?特別是,以 P(Y=1) 為條件意味著什麼?這個P指的是什麼?以及為什麼以此為條件意味著 ROC 對類分佈不敏感。另外,我確實閱讀了幾乎所有與此問題相關的帖子,但對於 ROC 曲線是否對類別不平衡敏感或不敏感,並沒有達成共識。

我讀過的帖子:我知道很多,我什至設法使用純 python 代碼實現 ROC 曲線,沒有問題。但似乎即使我能實現它,我仍然沒有完全理解它。

中華民國的解讀

AUROC 的優缺點


最新了解 2021 年 9 月 21 日:

正如弗蘭克哈雷爾教授在下面的帖子中提到的那樣,我進一步說:

Y 取 0 和 1,ROC 圖下的面積(稱這個值 $ a $ ),以簡化的方式表示,如果您隨機抽取一個正樣本和一個負樣本,則正樣本排名高於負樣本的概率(閱讀:更高的概率)是 $ a $ .

現在用他的類比,老師是負樣本,足球明星是正樣本,所以現在你的條件是 Y = 0,並且 Y = 1。一旦你的條件是, $ Y=0 $ , (Specificity/TNR or 1-FPR) 那麼你的樣本空間有效地從樣本的整體減少到只有 $ Y=0 $ ,由此,我直覺地認為 $ Y=1 $ 不發揮作用,因此不會以任何方式影響 FPR。類似的概念可以應用於 TPR。因此,TPR 和 FPR 都不依賴於整個樣本空間(測試集的整個分佈(?)),因此不會受到測試集(?)的類分佈變化的影響。

TODO:解釋為什麼精度取決於類分佈。

由於 ROC 曲線上的所有點都在 Y 上,因此 Y 的分佈必然與這些點無關。這也指出了為什麼不應使用 ROC 曲線,除非在回顧性病例對照研究中,樣本取自 Y=0 和 Y=1 觀察值。對於我們基於 X 採樣或完全隨機採樣的前瞻性觀察數據,使用不尊重樣本如何產生的表示是不合邏輯的。見https://www.fharrell.com/post/addvalue/

引用自:https://stats.stackexchange.com/questions/545273

comments powered by Disqus