Regression
為什麼我們對回歸隨機森林預測取平均值?
在我讀過的所有(回歸)隨機森林論文中,當需要收集所有樹的預測時,我們將平均值作為預測。
我的問題是我們為什麼要這樣做?
取平均值是否有統計依據?
編輯:為了澄清這個問題,我知道可以使用其他聚合函數(我們使用該模式進行分類),我最感興趣的是選擇平均函數背後是否有一些理論依據。
我一直在考慮偏差方差權衡的平均值。如果我沒記錯的話,Leo Breiman 在randomForest 論文中暗示了這一點,他的聲明“……在噪聲方面更加穩健”。
解釋是這樣的:基本上你是在採一堆長到全長的樹——沒有修剪——所以你知道它們每個都會有自己的偏見。然而,誘導森林中每棵樹的隨機抽樣應該像誘導過度偏差一樣頻繁地誘導欠偏差。因此,通過取平均值,您可以消除每棵樹的偏差 - 消除過度+不足的偏差。希望在此過程中您還可以減少每棵樹的方差,因此也應該減少整體方差。
正如該帖子的其他答案所示,這可能不是平均的唯一原因。