應該如何比較兩個交叉驗證的邏輯回歸模型?
我使用 100 次 10 倍重複交叉驗證來評估向現有模型添加生物標誌物的 ROC-AUC 性能改進: Model_A : pred1 + pred2 Model_B :pred1 + pred2 + pred3
我之前看到過使用 Wilcoxon 秩檢驗來比較每個折疊之間的 AUC 的建議。 在交叉驗證中平均 ROC 曲線超過折疊
我應該從中提取中位數 p 值嗎?是否可以使用 Caret 包中的 diff.resamples 函數並使用 Wilcoxin 等級而不是默認的 t 檢驗?如果只看 AUC,是否需要 Bonferonni 校正? https://www.rdocumentation.org/packages/caret/versions/6.0-86/topics/diff.resamples
最後,關於使用 DeLong 或似然比檢驗的任何想法。反而?
由於這些是嵌套邏輯回歸模型,因此 Frank Harrell 的評論毫無疑問顯示瞭如何進行:根據所有數據對 2 個模型*進行標準似然比檢驗,以確定添加第三個預測變量是否會提高性能。這具有完善的理論基礎,比 AUC 更敏感地檢測模型差異,並且它本身不需要交叉驗證。
交叉驗證或引導來評估模型的樂觀性和校準肯定會幫助您證明您的建模方法是正確的,但重點不應該放在 AUC 上。顯示 AUC 的變化量並沒有什麼壞處,但這應該是次要考慮因素。
validate
Harrell 軟件包中的函數rms
提供了幾種基於引導或交叉驗證的模型質量度量,包括可以轉換為 AUC 值的 Dxy 秩相關值(原始和樂觀校正值)。
*我有點擔心您的模型中似乎包含如此少的預測變量。如果與結果相關的預測變量被排除在模型之外,則邏輯回歸可能具有遺漏變量偏差。與線性回歸不同,省略的預測變量甚至不需要與包含的預測變量相關來獲得有偏估計。這並不是說您應該過度擬合,但通常有很多臨床變量與某些狀況或結果相關,僅包括 2 或 3 個往往會有風險。