Cross-Validation

交叉驗證和參數優化

  • November 8, 2012

我在使用 10 倍交叉驗證時對參數優化有疑問。

我想問在每個折疊的模型訓練期間參數是否應該固定,即(1)為每個折疊的平均精度選擇一組優化參數。

或者

(2)我應該找到每個折疊的優化參數,然後每個折疊使用不同的優化參數來訓練它的模型,然後分別測試折疊的測試數據,最後平均每個折疊的精度作為結果?

哪一種是正確的交叉驗證方法?非常感謝。

讓我們首先區分兩組參數:模型參數(例如回歸中特徵的權重)和學習算法的參數(和超參數)。交叉驗證的目的是確定學習參數,這些參數可以很好地概括我們在每個折疊中學習的總體樣本。

更具體地說:我們在學習參數上全局搜索空間,但在每個折疊中,我們固定學習參數並學習模型參數。結果應該是在所有方面平均產生最佳性能的學習參數。然後我們可以使用這些在整個數據集上訓練模型。

引用自:https://stats.stackexchange.com/questions/43131

comments powered by Disqus