隨機森林mtry問題

June 10, 2014

我只是想了解 mtry 在隨機森林中的工作原理。如果我錯了，請糾正我。

當您指定 mtry（例如 10）時，它會從您的數據集中獲取 10 個隨機變量並檢查它們是否為一棵樹。因此，下一棵樹將採用 10 個以上的隨機變量，檢查它們，依此類推，直到它遍歷您指定的 ntree，然後返回最佳/最重要變量的平均估計值？

不，這不是它的工作原理。

考慮將一棵樹添加到隨機森林 (RF) 模型中。

標準的遞歸分區算法將從所有數據開始，對所有變量和可能的分割點進行詳盡的搜索，以找到最能“解釋”整個數據的那個——最大程度地減少節點雜質。數據根據最佳分割點進行分割，並在左右葉中依次遞歸地重複該過程，直到滿足一些停止規則。這裡的關鍵是，每次遞歸分區算法尋找一個分割時，所有變量都包含在搜索中。

RF 模型的不同之處在於，當在樹中形成每個拆分時，算法會mtry從可用的預測變量集中隨機選擇變量。因此，當形成每個分割時，會選擇 一組不同的隨機變量，在其中選擇最佳分割點。

因此，對於 RF 使用的大樹，至少可以想像，在生長樹的同時搜索分割點時，所有變量都可能在某個時間點被使用。

引用自：https://stats.stackexchange.com/questions/102867

comments powered by Disqus

相關問答

當我們繪製數據然後在回歸模型中使用非線性變換時，我們是否在窺探數據？

August 22, 2020

Statistical-Significance

我們想遠離意義嗎？

July 30, 2020

Model-Selection

通過選擇聚合數據來解決辛普森悖論的示例

July 22, 2020

Machine-Learning

我什麼時候應該使用驗證而不是交叉驗證

November 3, 2019

Model-Selection

R中GAM的模型選擇

April 26, 2019

Model-Selection

AIC 中有意義的差異的“經驗法則”背後的邏輯是什麼？

June 5, 2018