隨機森林是否表現出預測偏差?
我認為這是一個直截了當的問題,儘管為什麼或為什麼不背後的原因可能不是。我問的原因是我最近編寫了自己的 RF 實現,雖然它表現良好,但表現不如我預期的那麼好(基於Kaggle 照片質量預測競賽數據集、獲勝分數和一些有關使用了哪些技術的後續信息)。
在這種情況下,我做的第一件事是為我的模型繪製預測誤差,因此對於每個給定的預測值,我確定偏離正確目標值的平均偏差(或偏差)。對於我的射頻,我得到了這個情節:
我想知道這是否是 RF 普遍觀察到的偏差模式(如果不是,那麼它可能是特定於數據集和/或我的實現的東西)。我當然可以使用此圖來通過補償偏差來改進預測,但我想知道 RF 模型本身是否存在更基本的錯誤或缺陷需要解決。謝謝你。
== 附錄 ==
我的初步調查是在這個博客條目隨機森林偏差 - 更新
(我遠非專家。這些只是來自處理不同但鬆散相似的問題的初級統計學家的沉思。我的回答可能斷章取義。)
給定一個要預測的新樣本,以及一個可以訪問更大訓練集的預言機,那麼“最好”和最誠實的預測可能是說“我以 60% 的概率預測它屬於紅色類而不是藍色班”。
我將舉一個更具體的例子。想像一下,在我們非常大的訓練集中,有一大組樣本與我們的新樣本非常相似。其中,60% 為藍色,40% 為紅色。似乎沒有什麼可以區分藍軍和紅軍。在這種情況下,很明顯 60%/40% 是理智的人可以做出的唯一預測。
當然,我們沒有這樣的神諭,而是有很多樹。簡單的決策樹無法做出這些 60%/40% 的預測,因此每棵樹都會做出離散的預測(紅色或藍色,中間沒有)。由於這個新樣本正好落在決策表面的紅色一側,您會發現幾乎所有的樹都預測紅色而不是藍色。每棵樹都假裝比它自己更確定,它開始朝著有偏見的預測邁進。
問題是我們往往會誤解一棵樹的決定。當一棵樹將一個節點放入 Red 類時,我們不應將其解釋為來自樹的 100%/0% 預測。(我不只是說我們“知道”這可能是一個糟糕的預測。我說的是更強有力的東西,即我們應該小心我們將其解釋為樹的預測)。我無法簡潔地擴展如何解決這個問題。但是可以從統計領域借用關於如何在一棵樹中構建更多“模糊”分裂的想法,以鼓勵一棵樹對其不確定性更加誠實。然後,應該可以有意義地平均來自樹木森林的預測。
希望這會有幫助。如果沒有,我希望從任何回應中學習。