Variance
為什麼袋裝樹/隨機森林樹比單個決策樹具有更高的偏差?
如果我們考慮一個完整的決策樹(即未修剪的決策樹),它具有高方差和低偏差。
Bagging 和隨機森林使用這些高方差模型並將它們聚合以減少方差,從而提高預測準確性。Bagging 和隨機森林都使用 Bootstrap 採樣,如“統計學習要素”中所述,這會增加單棵樹的偏差。
此外,由於隨機森林方法限制了每個節點中允許的變量拆分,單個隨機森林樹的偏差甚至增加了更多。
因此,只有在 Bagging 和隨機森林中單棵樹的偏差增加沒有“過度”降低方差時,預測精度才會增加。
這讓我想到了以下兩個問題:1)我知道,通過 bootstrap 抽樣,我們(幾乎總是)會在 bootstrap 樣本中得到一些相同的觀察結果。但是為什麼這會導致 Bagging / Random Forests 中個體樹的偏差增加?2)此外,為什麼在每次拆分中對可用變量進行拆分的限制會導致隨機森林中單個樹的偏差更高?
我會接受崑崙關於1)的答案,但為了結束這個案例,我將在這裡對我在論文中得出的兩個問題(都被我的導師接受)給出結論:
1)更多的數據產生更好的模型,由於我們只使用整個訓練數據的一部分來訓練模型(bootstrap),每棵樹都會出現更高的偏差(複製自崑崙的答案)
2)在隨機森林算法中,我們限制了每次拆分中要拆分的變量數量——即我們限制了解釋數據的變量數量。同樣,每棵樹都會出現更高的偏差。
結論:這兩種情況都限制了我們解釋總體的能力:首先我們限制了觀察的數量,然後我們限制了每次拆分中要拆分的變量數量。這兩種限制都會導致每棵樹的偏差更高,但模型中的方差減少通常會超過每棵樹的偏差增加,因此 Bagging 和隨機森林往往會產生比單個決策樹更好的模型。