Random-Forest
隨機森林mtry問題
我只是想了解 mtry 在隨機森林中的工作原理。如果我錯了,請糾正我。
當您指定 mtry(例如 10)時,它會從您的數據集中獲取 10 個隨機變量並檢查它們是否為一棵樹。因此,下一棵樹將採用 10 個以上的隨機變量,檢查它們,依此類推,直到它遍歷您指定的 ntree,然後返回最佳/最重要變量的平均估計值?
不,這不是它的工作原理。
考慮將一棵樹添加到隨機森林 (RF) 模型中。
標準的遞歸分區算法將從所有數據開始,對所有變量和可能的分割點進行詳盡的搜索,以找到最能“解釋”整個數據的那個——最大程度地減少節點雜質。數據根據最佳分割點進行分割,並在左右葉中依次遞歸地重複該過程,直到滿足一些停止規則。這裡的關鍵是,每次遞歸分區算法尋找一個分割時,所有變量都包含在搜索中。
RF 模型的不同之處在於,當在樹中形成每個拆分時,算法會
mtry
從可用的預測變量集中隨機選擇變量。因此,當形成每個分割時,會選擇 一組不同的隨機變量,在其中選擇最佳分割點。因此,對於 RF 使用的大樹,至少可以想像,在生長樹的同時搜索分割點時,所有變量都可能在某個時間點被使用。