R
如何選擇 rpart() 中的分割數?
我已經使用
rpart.control
了,並從函數中minsplit=2
得到了以下結果。rpart()
為了避免過度擬合數據,我需要使用拆分 3 還是拆分 7?我不應該使用拆分 7 嗎?請告訴我。樹構造中實際使用的變量:
[1] ct_a ct_b usr_a Root node error: 23205/60 = 386.75 n= 60 CP nsplit rel error xerror xstd 1 0.615208 0 1.000000 1.05013 0.189409 2 0.181446 1 0.384792 0.54650 0.084423 3 0.044878 2 0.203346 0.31439 0.063681 4 0.027653 3 0.158468 0.27281 0.060605 5 0.025035 4 0.130815 0.30120 0.058992 6 0.022685 5 0.105780 0.29649 0.059138 7 0.013603 6 0.083095 0.21761 0.045295 8 0.010607 7 0.069492 0.21076 0.042196 9 0.010000 8 0.058885 0.21076 0.042196
慣例是在最佳樹的一個標準誤差內使用最佳樹(最低交叉驗證相對誤差)或最小(最簡單)樹。最好的樹在第 8 行(7 次拆分),但第 7 行(6 次拆分)中的樹有效地完成了相同的工作(
xerror
對於第 7 行中的樹 = 0.21761,它在(小於)xerror
最佳樹加一個標準之內錯誤,xstd
, (0.21076 + 0.042196) = 0.252956) 並且更簡單,因此 1 標準錯誤規則會選擇它。