Random-Forest

為什麼隨機森林不處理預測變量中的缺失值?

  • May 16, 2014

不處理缺失值的理論原因是什麼?梯度提昇機器、回歸樹處理缺失值。為什麼隨機森林不這樣做?

Gradient Boosting Trees 使用 CART 樹(在標准設置中,正如其作者提出的那樣)。CART 樹也用於隨機森林。@ user777 所說的是正確的,RF 樹處理缺失值的方法是通過平均值插補,粗略平均值/模式,或者基於近似值的平均/模式。這些方法由 Breiman 和 Cutler 提出並用於射頻。這是作者的參考Missing values in training set

但是,可以使用其他類型的決策樹構建 GBM 或 RF。CART 的常用替代品是 Quinlan 提出的 C4.5。在 C4.5 中,數據集上的缺失值不會被替換。相反,計算的雜質函數通過用缺失值的比率懲罰雜質分數來考慮缺失值。在測試集上,在具有缺失值測試的節點中進行評估,為每個子節點建立預測並稍後聚合(通過加權)。

現在,在許多實現中使用 C4.5 代替 CART。主要原因是為了避免昂貴的計算(CART 有更嚴格的統計方法,需要更多的計算),結果似乎相似,結果樹通常更小(因為 CART 是二元的,而 C4.5 不是)。我知道 Weka 使用這種方法。我不知道其他圖書館,但我希望它不是一個單一的情況。如果您的 GBM 實施是這種情況,那麼這將是一個答案。

引用自:https://stats.stackexchange.com/questions/98953

comments powered by Disqus