Machine-Learning

比較兩個分類器相對於(平均)ROC AUC、敏感性和特異性的統計顯著性(p 值)

  • July 20, 2018

我有一個包含 100 個案例和兩個分類器的測試集。

我生成了預測併計算了兩個分類器的 ROC AUC、敏感性和特異性。

問題 1:我如何計算 p 值以檢查一個在所有分數(ROC AUC、敏感性、特異性)方面是否明顯優於另一個?


現在,對於包含 100 個案例的相同測試集,我為每個案例分配了不同且獨立的特徵。這是因為我的特徵是固定的但主觀的,並且由多個 (5) 主題提供。

因此,我再次針對我的測試集的 5 個“版本”評估了我的兩個分類器,並獲得了兩個分類器的 5 個 ROC AUC、5 個敏感性和 5 個特異性。然後,我計算了兩個分類器的 5 個受試者的每個性能測量的平均值(平均 ROC AUC、平均靈敏度和平均特異性)。

問題 2:我如何計算 p 值來檢查一個在平均分數(平均 ROC AUC、平均敏感性、平均特異性)方面是否明顯優於另一個?


帶有一些示例 python(最好)或 MatLab 代碼的答案非常受歡迎。

Wojtek J. Krzanowski 和 David J. Hand ROC Curves for Continuous Data (2009) 是與 ROC 曲線相關的所有內容的絕佳參考。它在令人沮喪的廣泛文獻庫中收集了許多結果,這些文獻庫通常使用不同的術語來討論同一主題。

此外,本書還對估算相同數量的替代方法進行了評論和比較,並指出某些方法做出的假設在特定情況下可能站不住腳。這是一種這樣的背景;其他答案報告了 Hanley & McNeil 方法,該方法假定分數分佈的雙正態模型,這在班級分數分佈不(接近)正態的情況下可能不合適。在現代,分數正態分佈的假設似乎特別不合適機器學習上下文,典型的常見模型,例如xgboost傾向於為分類任務產生具有“浴缸”分佈的分數(即,在接近 0 和 1 的極端情況下具有高密度的分佈)。

問題 1 - AUC

第 6.3 節討論了兩條 ROC 曲線的 ROC AUC 比較(第 113-114 頁)。特別是,我的理解是這兩個模型相關的,所以關於如何計算的信息在這里至關重要;否則,您的檢驗統計量將有偏差,因為它沒有考慮相關性的貢獻。

對於不基於任何參數分佈假設的不相關 ROC 曲線的情況,比較 AUC 的 tets 和置信區間的統計數據可以直接基於估計和AUC 值及其標準差的估計值和,如第 3.5.1 節所述:

要將此類測試擴展到兩個分類器使用相同數據的情況,我們需要考慮 AUC 估計值之間的相關性:

在哪裡是這種相關性的估計。Hanley 和 McNeil (1983) 做了這樣的擴展,他們的分析基於副正態情況,但只給出了一個表格顯示如何計算估計的相關係數從相關性P類中的兩個分類器的相關性,以及N 類中的兩個分類器中的一個,表示可以根據要求提供數學推導。其他許多作者(例如 Zou,2001)已經開發了基於副正態模型的測試,假設可以找到一個適當的轉換,它將同時將 P 類和 N 類的分數分佈轉換為正態。

DeLong et al (1988) 利用 AUC 和 Mann-Whitney 檢驗統計量之間的同一性,以及廣義理論的結果- 由於 Sen (1960) 的統計,得出不依賴於雙正態假設的 AUC 之間相關性的估計。事實上,DeLong 等人 (1988) 提出了以下結果,用於比較分類器。

在 3.5.1 節中,我們展示了經驗 ROC 曲線下的面積等於 Mann-Whitney-統計量,並由

在哪裡是班級的分數對象和是班級的分數樣本中的對象。假設我們有分類器,產生分數和[我更正了這部分的索引錯誤 - Sycorax],並且. 定義

接下來,定義矩陣和元素

和矩陣和元素

然後是向量的估計協方差矩陣曲線下的估計面積是 有元素. 這是對單個估計 AUC 的估計方差結果的概括,也在第 3.5.1 節中給出。在兩個分類器的情況下,估計的相關性因此,估計的 AUC 之間由下式給出可用於多於。

由於另一個答案給出了 AUC 方差估計量的 Hanley 和 McNeil 表達式,因此我將在此處重現來自 p 的 DeLong 估計量。68:

由 DeLong 等人 (1988) 提出並由 Pepe (2003) 舉例說明的替代方法可能給出了更簡單的估計,並且引入了額外有用的放置值概念。分數的位置值參考特定人群是該人群的倖存者函數. 這是放置值在人口 N 是並且對於在人口 P 中是. 放置值的經驗估計由明顯的比例給出。因此觀察的放置值在人口 P 中表示, 是 P 中超過的樣本值的比例, 和是 N 中每個觀察值的放置值相對於總體 P 的方差…

DeLong 等人 (1988) 的方差估計根據這些差異給出:

注意是總體 N 中分數的累積分佈函數,並且是總體 P 中分數的累積分佈函數。估計的標準方法和是使用電子商務發展基金. 該書還提供了 ecdf 估計的一些替代方法,例如核密度估計,但這超出了本答案的範圍。

統計數據和可以假定為標準正態偏差,並且零假設的統計檢驗以通常的方式進行。(也可以看看:假設檢驗)

這是假設檢驗如何工作的簡化的高級概述:

  • 用你的話說,測試“一個分類器是否明顯優於另一個分類器”可以重新表述為測試兩個模型在統計上具有相等 AUC 的零假設與統計不相等的備擇假設。
  • 這是一個雙尾測試。
  • 如果檢驗統計量在參考分佈的臨界區域(在這種情況下是標準正態分佈),我們拒絕原假設。
  • 臨界區的大小取決於級別的測試。對於 95% 的顯著性水平,如果滿足以下條件,則檢驗統計量落入臨界區域或者. (這些是和標準正態分佈的分位數。)否則,您無法拒絕原假設,並且兩個模型在統計上是相關的。

問題 1 - 敏感性和特異性

比較敏感性和特異性的一般策略是觀察這兩個統計數據都相當於對比例進行統計推斷,這是一個標準的、經過充分研究的問題。具體來說,敏感性是分數大於某個閾值的總體 P 的比例,同樣對於群體 N 的特異性:

鑑於兩個樣本比例將相關(因為您已將兩個模型應用於相同的測試數據),因此主要的癥結在於開發適當的測試。這將在第 4 頁解決。111.

轉向特定的測試,幾個匯總統計量減少到每條曲線的比例,因此可以使用標準方法來比較比例。例如,價值對於固定是一個比例,固定閾值的誤分類率也是一個比例. 因此,我們可以使用這些度量來比較曲線,通過標準測試來比較比例。例如,在未配對的情況下,我們可以使用檢驗統計量, 在哪裡是曲線的真陽性率作為問題點,以及是方差的總和和…

然而,對於成對的情況,我們可以推導出一個調整,允許之間的協方差和,但另一種方法是使用 McNemar 的相關比例檢驗(Marascuilo 和 McSweeney,1977)。

mcnemar 測試當你有受試者,並且每個受試者被測試兩次,對於兩個二分結果中的每一個測試一次。鑑於敏感性和特異性的定義,很明顯這正是我們尋求的測試,因為您已經將兩個模型應用於相同的測試數據併計算了某個閾值的敏感性和特異性。

McNemar 檢驗使用不同的統計量,但使用了類似的零假設和備擇假設。例如,考慮敏感性,原假設是比例, 替代方案是. 將比例重新排列為原始計數,我們可以編寫一個列聯表

其中細胞計數是通過根據每個模型計算真陽性和假陰性來給出的

我們有檢驗統計量

分佈為自由度為 1 的卡方分佈。有水平, 拒絕原假設. 對於特殊性,您可以使用相同的過程,除了您替換與.

問題2

似乎通過平均每個受訪者的預測值來合併結果就足夠了,因此對於每個模型,您都有 100 個平均預測值的向量。然後像往常一樣計算 ROC AUC、敏感性和特異性統計,就好像原始模型不存在一樣。這反映了一種建模策略,將 5 個受訪者的模型中的每一個都視為模型的“委員會”之一,有點像一個整體。

引用自:https://stats.stackexchange.com/questions/358101

comments powered by Disqus