隨機森林回歸之前的 PCA 為我的數據集提供了比隨機森林回歸更好的預測分數，如何解釋它？[複製]

January 30, 2017

我有一個回歸數據集，其中特徵大約有 400 個變量，數據集本身大約有 300 個樣本。我嘗試在數據集上使用隨機森林回歸 (RFR)，並使用袋外 (oob) 分數或 k-fold cv 分數來判斷其性能。我現在看到的那種我試圖理解的行為是，如果我直接使用 RFR，無論我使用多少棵樹或者我結合了什麼樣的參數調整，我都不會獲得好的性能，而如果我在 RFR 之前加入 PCA，我可以對 RFR 之前的 PC 數量和大約 8 或 9 台 PC 運行網格搜索，處理流程可以提供稍微下降的分數。當我掃描 PC 數量時，分數會在這個“最佳 PC 數量”附近上升和下降。

我試圖理解這種行為，因為我試圖在我發現的幾個玩具數據集上使用相同的處理流程，通常有或沒有 PCA 對 RFR 性能不會有太大變化。我擔心的一個問題是我的數據集是一個非常嘈雜的數據集，到目前為止我嘗試的大多數回歸方法都不會提供很好的性能，除了這個 PCA-RFR 流程。所以我不確定這是否是一個垃圾進垃圾出的情況，這個 PCA-RFR 東西只是以某種方式過度擬合我的數據集。另一方面，我的特徵彼此非常共線，而且我沒有那麼多數據來訓練我的模型，所以 PCA 預處理可以幫助對數據集進行一些去噪，並且還可以幫助減少我的訓練集的過度擬合與一組較小的“減少特徵”，

如果有人以前看過這個並且有很好的解釋或有任何關於 PCA-RFR 行為的參考論文，請告訴我，我將非常感激。

如您所描述的那樣，在數據集中使用隨機森林有兩個主要問題：

當特徵是其他特徵的單調變換時，隨機森林表現不佳（這使得森林中的樹木彼此之間的獨立性降低）。

當您擁有的特徵多於樣本時也會發生同樣的情況：隨機森林可能會過度擬合數據集，並且您的袋裝性能會很差。

使用 PCA 時，您可以擺脫降低 Ranfom Forest 性能的兩個問題：

你減少了特徵的數量。

你擺脫了共線特徵。（所有共線特徵將最終出現在單個 PCA 組件中）。

引用自：https://stats.stackexchange.com/questions/258938

隨機森林回歸之前的 PCA 為我的數據集提供了比隨機森林回歸更好的預測分數，如何解釋它？[複製]

相關問答

如果使用所有 PC，PCA 是否提供優勢？

隨機森林是否擅長檢測交互項？

PCA 名稱中的“組件”一詞應該是單數還是複數？

為什麼隨機森林圖中有很多條線？

當 PCA 不產生降維時，這意味著什麼？

結合 PCA、特徵縮放和交叉驗證，而不會洩露訓練測試數據