Machine-Learning

我什麼時候應該使用驗證而不是交叉驗證

  • November 3, 2019

我知道 CV 的誕生是在缺乏訓練數據時驗證模型的一種方式,但我的理解是,交叉驗證通常比只使用一個驗證集更好,因為這提供了更公正的模型選擇步驟由於驗證數據的選擇過程,減少了模型結果的隨機性。

除了增加計算費用之外,與正常驗證相比,交叉驗證還有其他缺點嗎?可以肯定地說,如果計算複雜性不是問題,那麼交叉驗證總是比僅僅使用普通驗證更好嗎?

在缺乏訓練數據的情況下,交叉驗證作為一種替代方法是一種輕描淡寫的說法。除非您的樣本量非常大,否則不同隨機拆分的驗證性能可能會有很大差異。

交叉驗證受此影響較小,因為它考慮了多重折疊的結果。更好的是對多次交叉驗證進行平均,每次都有不同的隨機分成 $ k $ 折疊。

您認為的普通驗證實際上只是單折交叉驗證。您可能有意使用的示例 $ k=1 $ 多次折疊包括:

  • 你買不起 $ k>1 $ 計算;
  • 例如,您擁有數百萬條記錄,並且可以自信地隨機拆分數據;
  • 您正在執行外部驗證,並希望證明您的模型在模型從未見過的源數據上仍然表現良好。

在後者的情況下,如果您包含來自多個培訓來源的數據(例如來自不同機構、研究或數據庫的數據),您的模型可能會更好地概括。但是,如果您使用所有來源進行訓練,您仍然無法真正估計新來源的性能。

引用自:https://stats.stackexchange.com/questions/434322

comments powered by Disqus