Random-Forest

隨機森林中高度相關的變量不會扭曲準確性和特徵選擇嗎?

  • March 13, 2015

據我了解,高度相關的變量不會導致隨機森林模型中的多重共線性問題(如果我錯了,請糾正我)。然而,另一方面,如果我有太多包含相似信息的變量,模型在這個集合上的權重是否會超過其他?

例如,有兩組信息(A,B)具有相同的預測能力。多變的,,…都包含信息A,只有Y包含信息B。當隨機抽樣變量時,會不會大部分樹都在信息A上生長,結果信息B沒有被完全捕獲?

這是正確的,但因此在變量 Y 可用的大多數子抽樣中,它會產生最好的分割。

您可以嘗試增加 mtry,以確保更頻繁地發生這種情況。

您可以嘗試遞歸相關修剪,即依次刪除兩個一起具有最高相關性的變量之一。停止這種修剪的合理閾值可能是任何一對相關性(皮爾遜)低於

您可以嘗試遞歸變量重要性修剪,即依次刪除變量重要性最低的 20%。嘗試例如來自 randomForest 包的 rfcv。

您可以嘗試對冗餘變量進行一些分解/聚合。

引用自:https://stats.stackexchange.com/questions/141619

comments powered by Disqus