Regression
隨機森林回歸之前的 PCA 為我的數據集提供了比隨機森林回歸更好的預測分數,如何解釋它?[複製]
我有一個回歸數據集,其中特徵大約有 400 個變量,數據集本身大約有 300 個樣本。我嘗試在數據集上使用隨機森林回歸 (RFR),並使用袋外 (oob) 分數或 k-fold cv 分數來判斷其性能。我現在看到的那種我試圖理解的行為是,如果我直接使用 RFR,無論我使用多少棵樹或者我結合了什麼樣的參數調整,我都不會獲得好的性能,而如果我在 RFR 之前加入 PCA,我可以對 RFR 之前的 PC 數量和大約 8 或 9 台 PC 運行網格搜索,處理流程可以提供稍微下降的分數。當我掃描 PC 數量時,分數會在這個“最佳 PC 數量”附近上升和下降。
我試圖理解這種行為,因為我試圖在我發現的幾個玩具數據集上使用相同的處理流程,通常有或沒有 PCA 對 RFR 性能不會有太大變化。我擔心的一個問題是我的數據集是一個非常嘈雜的數據集,到目前為止我嘗試的大多數回歸方法都不會提供很好的性能,除了這個 PCA-RFR 流程。所以我不確定這是否是一個垃圾進垃圾出的情況,這個 PCA-RFR 東西只是以某種方式過度擬合我的數據集。另一方面,我的特徵彼此非常共線,而且我沒有那麼多數據來訓練我的模型,所以 PCA 預處理可以幫助對數據集進行一些去噪,並且還可以幫助減少我的訓練集的過度擬合與一組較小的“減少特徵”,
如果有人以前看過這個並且有很好的解釋或有任何關於 PCA-RFR 行為的參考論文,請告訴我,我將非常感激。
如您所描述的那樣,在數據集中使用隨機森林有兩個主要問題:
- 當特徵是其他特徵的單調變換時,隨機森林表現不佳(這使得森林中的樹木彼此之間的獨立性降低)。
- 當您擁有的特徵多於樣本時也會發生同樣的情況:隨機森林可能會過度擬合數據集,並且您的袋裝性能會很差。
使用 PCA 時,您可以擺脫降低 Ranfom Forest 性能的兩個問題:
- 你減少了特徵的數量。
- 你擺脫了共線特徵。(所有共線特徵將最終出現在單個 PCA 組件中)。