具有連續輸入變量的決策樹

February 16, 2016

眾所周知，在構建決策樹時，我們對輸入變量進行了詳盡的拆分，並通過統計測試方法或雜質函數方法找到“最佳”拆分。

我的問題是當我們使用連續變量作為輸入變量（只有幾個重複值）時，可能的拆分數量可能非常大，找到“最佳”拆分將非常耗時。數據科學家將如何處理它？

我已經閱讀了一些材料，人們會對輸入的級別進行聚類以限制可能的分裂。（示例）。但是，他們沒有解釋它是如何完成的。我們基於什麼來聚類單變量變量？是否有更多詳細信息的資源或任何人都可以詳細解釋？

謝謝！

常用的方法是只檢查某些 bin 作為分割點/閾值。我認為這就是您發布的演示文稿的作者所指的內容。假設您有一個連續的輸入隨機變量有 10 個樣本

[1,3,4,6,2,5,18,10,-3,-5]

可能您不會檢查每個值從 10 個觀測值作為分裂點。相反，您將例如計算僅檢查數據中的 20%、40%、60%、80% 分位數。所以你訂購你的數據

[-5,-3,1,2,3,4,5,6,10,18]

並將您的數據“聚集”到垃圾箱中

[-5,-3],[1,2],[3,4],[5,6],[10,18]

因此，您只需檢查 -1、2.5、4.5 和 8 作為可能的分割點（您在 bin 之間進行線性插值）

以下論文比較瞭如何選擇分裂點進行測試的三個規則。我認為這就是您要搜索的內容。

@article{chickeringefficient, title={決策樹中動態分裂點的有效確定}, author={Chickering, David Maxwell and Meek, Christopher and Routhwaite, Robert} }

引用自：https://stats.stackexchange.com/questions/196787

comments powered by Disqus

具有連續輸入變量的決策樹

相關問答