Cross-Validation
如何為留一法交叉驗證生成 ROC 曲線?
當執行 5 折交叉驗證(例如)時,通常為 5 折中的每一個計算單獨的 ROC 曲線,並且通常使用標準計算平均 ROC 曲線。開發。顯示為曲線厚度。
但是,對於 LOO 交叉驗證,每個折疊中只有一個測試數據點,為這個單個數據點計算 ROC“曲線”似乎並不明智。
我一直在獲取我所有的測試數據點(以及它們單獨計算的 p 值)並將它們匯集到一個大集合中以計算單個 ROC 曲線,但這是統計上的猶太潔食嗎?
當每個折疊中的數據點數量為 1 時(如 LOO 交叉驗證的情況),應用 ROC 分析的正確方法是什麼?
如果分類器輸出概率,則將所有測試點輸出組合成一條 ROC 曲線是合適的。如果不是,則以使其在分類器之間直接可比較的方式縮放分類器的輸出。例如,假設您正在使用線性判別分析。訓練分類器,然後將訓練數據通過分類器。學習兩個權重:一個尺度參數(分類器輸出的標準差,減去類均值後),以及一個移位參數(第一類的平均值)。使用這些參數來標準化原始每個 LDA 分類器的輸出通過,然後您可以從歸一化輸出集創建 ROC 曲線。需要注意的是,您正在估計更多參數,因此與基於單獨的測試集構建 ROC 曲線相比,結果可能會略有偏差。
如果無法標準化分類器輸出或將其轉換為概率,則基於 LOO-CV 的 ROC 分析是不合適的。