隨機森林是否表現出預測偏差？

January 22, 2012

我認為這是一個直截了當的問題，儘管為什麼或為什麼不背後的原因可能不是。我問的原因是我最近編寫了自己的 RF 實現，雖然它表現良好，但表現不如我預期的那麼好（基於Kaggle 照片質量預測競賽數據集、獲勝分數和一些有關使用了哪些技術的後續信息）。

在這種情況下，我做的第一件事是為我的模型繪製預測誤差，因此對於每個給定的預測值，我確定偏離正確目標值的平均偏差（或偏差）。對於我的射頻，我得到了這個情節：

我想知道這是否是 RF 普遍觀察到的偏差模式（如果不是，那麼它可能是特定於數據集和/或我的實現的東西）。我當然可以使用此圖來通過補償偏差來改進預測，但我想知道 RF 模型本身是否存在更基本的錯誤或缺陷需要解決。謝謝你。

== 附錄 ==

我的初步調查是在這個博客條目隨機森林偏差 - 更新

（我遠非專家。這些只是來自處理不同但鬆散相似的問題的初級統計學家的沉思。我的回答可能斷章取義。）

給定一個要預測的新樣本，以及一個可以訪問更大訓練集的預言機，那麼“最好”和最誠實的預測可能是說“我以 60% 的概率預測它屬於紅色類而不是藍色班”。

我將舉一個更具體的例子。想像一下，在我們非常大的訓練集中，有一大組樣本與我們的新樣本非常相似。其中，60% 為藍色，40% 為紅色。似乎沒有什麼可以區分藍軍和紅軍。在這種情況下，很明顯 60%/40% 是理智的人可以做出的唯一預測。

當然，我們沒有這樣的神諭，而是有很多樹。簡單的決策樹無法做出這些 60%/40% 的預測，因此每棵樹都會做出離散的預測（紅色或藍色，中間沒有）。由於這個新樣本正好落在決策表面的紅色一側，您會發現幾乎所有的樹都預測紅色而不是藍色。每棵樹都假裝比它自己更確定，它開始朝著有偏見的預測邁進。

問題是我們往往會誤解一棵樹的決定。當一棵樹將一個節點放入 Red 類時，我們不應將其解釋為來自樹的 100%/0% 預測。（我不只是說我們“知道”這可能是一個糟糕的預測。我說的是更強有力的東西，即我們應該小心我們將其解釋為樹的預測）。我無法簡潔地擴展如何解決這個問題。但是可以從統計領域借用關於如何在一棵樹中構建更多“模糊”分裂的想法，以鼓勵一棵樹對其不確定性更加誠實。然後，應該可以有意義地平均來自樹木森林的預測。

希望這會有幫助。如果沒有，我希望從任何回應中學習。

引用自：https://stats.stackexchange.com/questions/21530

隨機森林是否表現出預測偏差？

相關問答

隨機森林是否擅長檢測交互項？

為什麼隨機森林圖中有很多條線？

使用 XGBoost 時二進制特徵的一種熱編碼

OOB（Out Of Bag）錯誤應該小於隨機森林中的測試集錯誤嗎？

為什麼對決策樹進行對數轉換為正態分佈？

提升和裝袋樹（XGBoost，LightGBM）