R

如何選擇 rpart() 中的分割數?

  • July 25, 2011

我已經使用rpart.control了,並從函數中minsplit=2得到了以下結果。rpart()為了避免過度擬合數據,我需要使用拆分 3 還是拆分 7?我不應該使用拆分 7 嗎?請告訴我。

樹構造中實際使用的變量:

[1] ct_a ct_b usr_a

Root node error: 23205/60 = 386.75

n= 60        

   CP nsplit rel error  xerror     xstd
1 0.615208      0  1.000000 1.05013 0.189409
2 0.181446      1  0.384792 0.54650 0.084423
3 0.044878      2  0.203346 0.31439 0.063681
4 0.027653      3  0.158468 0.27281 0.060605
5 0.025035      4  0.130815 0.30120 0.058992
6 0.022685      5  0.105780 0.29649 0.059138
7 0.013603      6  0.083095 0.21761 0.045295
8 0.010607      7  0.069492 0.21076 0.042196
9 0.010000      8  0.058885 0.21076 0.042196

慣例是在最佳樹的一個標準誤差內使用最佳樹(最低交叉驗證相對誤差)或最小(最簡單)樹。最好的樹在第 8 行(7 次拆分),但第 7 行(6 次拆分)中的樹有效地完成了相同的工作(xerror對於第 7 行中的樹 = 0.21761,它在(小於)xerror最佳樹加一個標準之內錯誤, xstd, (0.21076 + 0.042196) = 0.252956) 並且更簡單,因此 1 標準錯誤規則會選擇它。

引用自:https://stats.stackexchange.com/questions/13471

comments powered by Disqus