Bootstrap
是否應該避免對 bagging 進行修剪(使用決策樹)?
我看到了幾篇文章和論文,聲稱不需要在“裝袋”的樹木群中修剪樹木(見1)。
但是,對集合中的單個樹執行修剪(例如,使用 OOB 樣本)是否必然(或至少在某些已知情況下)有害?
謝謝!
塔爾,
一般來說,修剪會損害袋裝樹的性能。
Tress 是不穩定的分類器;這意味著如果您稍微擾亂數據,樹可能會發生顯著變化。它們是低偏差但高方差的模型。Bagging 通常通過“複製”模型來降低方差(舊的“增加樣本量”技巧)。
但是,如果您最終對非常相似的模型進行平均,那麼您不會獲得太多收益。如果樹木未修剪,它們之間的差異往往比修剪時更大。這具有“去相關”樹的效果,以便您對不太相似的樹進行平均。這也是隨機森林添加隨機預測器選擇的額外調整的原因。這迫使樹木變得非常不同。
使用未修剪的樹會增加過度擬合的風險,但模型平均會抵消這一點(一般來說)。
高溫下,
最大限度