隨機森林分類前高維文本數據的 PCA？

January 10, 2013

在進行隨機森林分類之前進行 PCA 是否有意義？

我正在處理高維文本數據，我想進行特徵縮減以幫助避免維度災難，但隨機森林不是已經進行了某種維度縮減嗎？

Leo Breiman 寫道，“維度可以是一種祝福”。一般來說，隨機森林可以毫無問題地在大型數據集上運行。你的數據有多大？不同的領域根據主題知識以不同的方式處理事情。例如，在基因表達研究中，基因通常在有時稱為非特異性過濾的過程中基於低方差（不查看結果）被丟棄。這可以幫助隨機森林的運行時間。但這不是必需的。

以基因表達為例，有時分析師使用 PCA 分數來表示基因表達測量。這個想法是用一個可能不那麼混亂的分數來替換相似的配置文件。隨機森林可以在原始變量或 PCA 分數（變量的替代）上運行。有些人用這種方法報告了更好的結果，但據我所知沒有很好的比較。

總之，在運行 RF 之前無需進行 PCA。但是你可以。解釋可能會根據您的目標而改變。如果你想做的只是預測，那麼解釋可能就不那麼重要了。

引用自：https://stats.stackexchange.com/questions/47457

comments powered by Disqus

相關問答

Normal-Distribution

高維柯西分佈是什麼樣的？

November 27, 2021

如果使用所有 PC，PCA 是否提供優勢？

July 22, 2021

隨機森林是否擅長檢測交互項？

January 10, 2021

PCA 名稱中的“組件”一詞應該是單數還是複數？

December 21, 2020

R

為什麼隨機森林圖中有很多條線？

March 5, 2020

當 PCA 不產生降維時，這意味著什麼？

February 27, 2020