Machine-Learning
我什麼時候應該使用驗證而不是交叉驗證
我知道 CV 的誕生是在缺乏訓練數據時驗證模型的一種方式,但我的理解是,交叉驗證通常比只使用一個驗證集更好,因為這提供了更公正的模型選擇步驟由於驗證數據的選擇過程,減少了模型結果的隨機性。
除了增加計算費用之外,與正常驗證相比,交叉驗證還有其他缺點嗎?可以肯定地說,如果計算複雜性不是問題,那麼交叉驗證總是比僅僅使用普通驗證更好嗎?
在缺乏訓練數據的情況下,交叉驗證作為一種替代方法是一種輕描淡寫的說法。除非您的樣本量非常大,否則不同隨機拆分的驗證性能可能會有很大差異。
交叉驗證受此影響較小,因為它考慮了多重折疊的結果。更好的是對多次交叉驗證進行平均,每次都有不同的隨機分成 $ k $ 折疊。
您認為的普通驗證實際上只是單折交叉驗證。您可能有意使用的示例 $ k=1 $ 多次折疊包括:
- 你買不起 $ k>1 $ 計算;
- 例如,您擁有數百萬條記錄,並且可以自信地隨機拆分數據;
- 您正在執行外部驗證,並希望證明您的模型在模型從未見過的源數據上仍然表現良好。
在後者的情況下,如果您包含來自多個培訓來源的數據(例如來自不同機構、研究或數據庫的數據),您的模型可能會更好地概括。但是,如果您使用所有來源進行訓練,您仍然無法真正估計新來源的性能。