在測試樣本上具有更高 AUC 的過度擬合模型是否優於未過度擬合的模型

June 27, 2016

我正在參加一項挑戰，我在其中創建了一個模型，該模型在訓練集上執行70% AUC ，在保留測試集上執行 70% AUC。

另一位參與者創建了一個模型，該模型在訓練集上執行96% AUC，在保留測試集上執行76% AUC。

在我看來，我的模型更好，因為它在保留集上的表現相同。

**問：**是否可以說他在一個測試集上的 76% 只是一個巧合，而在另一個保留測試集上，他的模型可能表現更差？

這將取決於您的訓練和測試集是如何組成的。

如果測試集相當大並且正確地反映了“應用案例”數據的多樣性，我不會這樣爭論。但是如果測試數據比較小，你當然可以偶然獲得一些好的或壞的結果。在這種情況下使用更多的測試數據會有所幫助（或者使用可用的總數據的更大部分 - 如果可能的話）。

此外，應該使用一些內部劃分（例如重複交叉驗證）來獲得訓練結果，這些劃分是對模型以前未見過的數據進行測試。這些結果中的性能和性能向您展示了您的模型通常如何執行，以及獲得更好或更差結果的可能性有多大。使用這樣的程序，我不會認為任何比你的簡歷結果*更好的測試結果是現實的。*您可能還應該查看並比較兩種模型的 CV 性能和性能分佈。

並且：請記住，如果您的訓練數據與測試數據相比相當小，那麼您的訓練結果可能仍然明顯優於測試結果和實際應用案例結果。

引用自：https://stats.stackexchange.com/questions/220807

相關問答

Multiple-Regression

我已經在回歸中使用了我的整個數據集，我不應該將其用作預測模型嗎？

October 25, 2021

對訓練集進行插值實際上意味著什麼？

June 24, 2021

Predictive-Models

我可以（合理地）僅根據先前模型預測不佳的觀察結果訓練第二個模型嗎？

May 5, 2021

Machine-Learning

過擬合比欠擬合“更好”嗎？

April 28, 2021

Neural-Networks

將“外部”數據集添加到訓練數據集中通常有幫助嗎？[關閉]

June 29, 2020

為什麼邏輯回歸在高維度上特別容易過擬合？

June 1, 2020