決策樹學習算法如何處理缺失值（幕後）

May 2, 2014

決策樹學習算法用來處理缺失值的方法有哪些。

他們是否只是簡單地使用稱為缺失的值來填補空缺？

謝謝。

各種決策樹使用了幾種方法。簡單地忽略缺失值（如 ID3 和其他舊算法所做的）或將缺失值視為另一個類別（在名義特徵的情況下）並不能真正處理缺失值。然而，這些方法被用於決策樹開發的早期階段。

缺失數據的實際處理方法在評估拆分時不使用具有缺失值的數據點。但是，當創建和訓練子節點時，這些實例會以某種方式分佈。

我知道以下將缺失值實例分配給子節點的方法：

全部轉到已經擁有最多實例數的節點（CART，不是主要規則）

分配給所有子節點，但權重減小，與每個子節點（C45 等）的實例數成正比

隨機分佈到只有一個子節點，最終符合分類分佈（我已經看到在 C45 和 CART 的各種實現中以更快的運行時間）

構建、排序和使用代理將實例分發到子節點，其中代理是輸入特徵，最類似於測試特徵如何將數據實例發送到左或右子節點（CART，如果失敗，則使用多數規則）

引用自：https://stats.stackexchange.com/questions/96025

comments powered by Disqus

相關問答

Cross-Validation

OOB（Out Of Bag）錯誤應該小於隨機森林中的測試集錯誤嗎？

April 11, 2019

Machine-Learning

為什麼對決策樹進行對數轉換為正態分佈？

January 2, 2019

提升和裝袋樹（XGBoost，LightGBM）

October 18, 2018

Machine-Learning

為什麼我會得到 100% 準確率的決策樹？

March 22, 2018

決策樹的損失/成本函數是什麼？

December 15, 2017

對基尼雜質的簡單明了的解釋？

October 19, 2017