Random-Forest

隨機森林 - 如何處理過擬合

  • August 15, 2014

我有計算機科學背景,但我試圖通過解決互聯網上的問題來自學數據科學。

過去幾週我一直在解決這個問題(大約 900 行和 10 個功能)。我最初使用邏輯回歸,但現在我已切換到隨機森林。當我在訓練數據上運行我的隨機森林模型時,我得到了非常高的 auc 值(> 99%)。但是,當我在測試數據上運行相同的模型時,結果並不是那麼好(準確度約為 77%)。這讓我相信我過度擬合了訓練數據。

防止隨機森林過度擬合的最佳實踐是什麼?

我使用 r 和 rstudio 作為我的開發環境。我正在使用該randomForest軟件包並接受所有參數的默認值

為了避免在隨機森林中過度擬合,您需要做的主要事情是優化一個調整參數,該參數控制隨機選擇的特徵數量,以從引導數據中生成每棵樹。通常,您可以通過-折疊交叉驗證,其中,並選擇最小化測試樣本預測誤差的調整參數。此外,種植更大的森林將提高預測準確性,儘管一旦種植了數百棵樹,回報通常會遞減。

引用自:https://stats.stackexchange.com/questions/111968

comments powered by Disqus