Validation
在測試樣本上具有更高 AUC 的過度擬合模型是否優於未過度擬合的模型
我正在參加一項挑戰,我在其中創建了一個模型,該模型在訓練集上執行70% AUC ,在保留測試集上執行 70% AUC。
另一位參與者創建了一個模型,該模型在訓練集上執行96% AUC,在保留測試集上執行76% AUC。
在我看來,我的模型更好,因為它在保留集上的表現相同。
**問:**是否可以說他在一個測試集上的 76% 只是一個巧合,而在另一個保留測試集上,他的模型可能表現更差?
這將取決於您的訓練和測試集是如何組成的。
如果測試集相當大並且正確地反映了“應用案例”數據的多樣性,我不會這樣爭論。但是如果測試數據比較小,你當然可以偶然獲得一些好的或壞的結果。在這種情況下使用更多的測試數據會有所幫助(或者使用可用的總數據的更大部分 - 如果可能的話)。
此外,應該使用一些內部劃分(例如重複交叉驗證)來獲得訓練結果,這些劃分是對模型以前未見過的數據進行測試。這些結果中的性能和性能向您展示了您的模型通常如何執行,以及獲得更好或更差結果的可能性有多大。使用這樣的程序,我不會認為任何比你的簡歷結果*更好的測試結果是現實的。*您可能還應該查看並比較兩種模型的 CV 性能和性能分佈。
並且:請記住,如果您的訓練數據與測試數據相比相當小,那麼您的訓練結果可能仍然明顯優於測試結果和實際應用案例結果。