Cross-Validation
交叉驗證濫用(報告最佳超參數值的性能)
最近我遇到了一篇論文,該論文建議在特定數據集上使用k-NN分類器。作者使用所有可用的數據樣本對不同的k值執行 k 折交叉驗證,並報告最佳超參數配置的交叉驗證結果。
據我所知,這個結果是有偏差的,他們應該保留一個單獨的測試集,以獲得對未用於執行超參數優化的樣本的準確度估計。
我對嗎?您能否提供一些描述交叉驗證濫用的參考資料(最好是研究論文)?
是的,僅報告 k 倍 CV 結果存在問題。您可以使用例如以下三個出版物來達到您的目的(當然還有更多)來為人們指明正確的方向:
- 瓦瑪和西蒙 (2006)。“使用交叉驗證進行模型選擇時的誤差估計偏差。” BMC 生物信息學, 7: 91
- 考利和塔爾博特 (2010)。“關於模型選擇中的過度擬合和性能評估中的後續選擇偏差。” 機器學習研究雜誌, 11: 2079-2107
- Bengio & Grandvalet (2004)。“沒有無偏估計的方差-折疊交叉驗證。”機器學習研究雜誌,5:1089–1105
我個人喜歡這些,因為他們試圖用簡單的英語而不是數學來陳述問題。