Cross-Validation

最佳折疊數𝐾ķK-折疊交叉驗證:留一法CV總是最好的選擇嗎?

  • June 12, 2013

除了計算能力的考慮之外,是否有任何理由相信增加交叉驗證中的折疊數會導致更好的模型選擇/驗證(即折疊數越高越好)?

將論證推向極端,留一法交叉驗證是否必然會導致比-折疊交叉驗證?

關於這個問題的一些背景知識:我正在處理一個實例很少的問題(例如 10 個正例和 10 個負例),並且擔心我的模型可能無法很好地概括/會在如此少的數據下過度擬合。

留一法交叉驗證通常不會導致比 K-fold 更好的性能,並且更有可能更差,因為它具有相對較高的方差(即,不同數據樣本的值變化比k 折交叉驗證)。這在模型選擇標準中是不好的,因為這意味著模型選擇標準可以通過僅利用特定數據樣本中的隨機變化的方式進行優化,而不是真正提高性能,即您更有可能過度擬合模型選擇標準。在實踐中使用留一法交叉驗證的原因是,對於許多模型,它可以作為擬合模型的副產品非常便宜地進行評估。

如果計算開銷不是主要問題,則更好的方法是執行重複的 k 折交叉驗證,其中每次重複 k 折交叉驗證過程,將不同的隨機分區分成 k 個不相交的子集。這減少了方差。

如果你只有 20 種模式,你很可能會遇到模型選擇標準的過度擬合,這是統計和機器學習中一個被忽視的陷阱(無恥插入:請參閱我關於該主題的論文)。您最好選擇一個相對簡單的模型,盡量不要過於激進地對其進行優化,或者採用貝葉斯方法並對所有模型選擇進行平均,並根據它們的合理性加權。恕我直言,優化是統計中萬惡之源,因此如果不需要,最好不要優化,並且無論何時都要謹慎優化。

另請注意,如果您要執行模型選擇,如果您還需要性能估計,則需要使用嵌套交叉驗證之類的東西(即,您需要將模型選擇視為模型擬合過程的一個組成部分並交叉驗證以及)。

引用自:https://stats.stackexchange.com/questions/61546

comments powered by Disqus