Cross-Validation
我們應該重複多少次 K-fold CV?
我遇到了這個線程,看看引導和交叉驗證之間的區別——順便說一句,很好的答案和參考。我現在想知道的是,如果我要執行重複的 10 倍 CV 來計算分類器的準確度,我應該重複多少次*?*
n是否取決於折疊數?關於樣本量?這有什麼規則嗎?
(在我的例子中,我有 5000 個樣本,如果我選擇大於n = 20的任何值,我的計算機將花費太長時間來執行計算。)
影響因素是您的模型的穩定性——或者更準確地說:代理的預測。
如果模型完全穩定,則所有代理模型將對相同的測試用例產生相同的預測。在這種情況下,不需要迭代/重複,它們不會產生任何改進。
正如您可以衡量預測的穩定性,這就是我要做的:
- 以將每次交叉驗證重複/迭代的結果保存到硬盤的方式設置整個過程
- 從大量迭代開始
- 經過幾次迭代後,獲取初步結果並查看每次運行結果的穩定性/變化。
- 然後決定你想進一步迭代多少次來優化結果。
- 當然,您可能會決定運行 5 次迭代,然後再決定要執行的最終迭代次數。
(旁注:我通常使用 > ca. 1000 代理模型,因此典型的重複/迭代次數約為 100 - 125)。