我們應該重複多少次 K-fold CV？

January 17, 2014

我遇到了這個線程，看看引導和交叉驗證之間的區別——順便說一句，很好的答案和參考。我現在想知道的是，如果我要執行重複的 10 倍 CV 來計算分類器的準確度，我應該重複多少次*？*

n是否取決於折疊數？關於樣本量？這有什麼規則嗎？

（在我的例子中，我有 5000 個樣本，如果我選擇大於n = 20的任何值，我的計算機將花費太長時間來執行計算。）

影響因素是您的模型的穩定性——或者更準確地說：代理的預測。

如果模型完全穩定，則所有代理模型將對相同的測試用例產生相同的預測。在這種情況下，不需要迭代/重複，它們不會產生任何改進。

正如您可以衡量預測的穩定性，這就是我要做的：

以將每次交叉驗證重複/迭代的結果保存到硬盤的方式設置整個過程

從大量迭代開始

經過幾次迭代後，獲取初步結果並查看每次運行結果的穩定性/變化。

然後決定你想進一步迭代多少次來優化結果。

當然，您可能會決定運行 5 次迭代，然後再決定要執行的最終迭代次數。

（旁注：我通常使用 > ca. 1000 代理模型，因此典型的重複/迭代次數約為 100 - 125）。

引用自：https://stats.stackexchange.com/questions/82546

我們應該重複多少次 K-fold CV？

相關問答