Random-Forest
隨機森林是否需要對輸入變量進行縮放或居中?
我的輸入變量有不同的維度。有些變量是十進制的,而有些是數百個。在使用隨機森林時,為了使數據無量綱,是否必須將這些輸入變量居中(減去平均值)或縮放(除以標準差)?
不。
隨機森林基於樹分區算法。
因此,沒有類似於在一般回歸策略中獲得的係數,這將取決於自變量的單位。取而代之的是,獲得一組分區規則,基本上是給定閾值的決定,這不應該隨著縮放而改變。換句話說,樹只看到特徵中的等級。
基本上,數據的任何單調變換都不應該改變森林(在最常見的實現中)。
此外,決策樹通常對有時會損害其他算法的收斂性和精度的數值不穩定性具有魯棒性。