Classification
隨機森林分類前高維文本數據的 PCA?
在進行隨機森林分類之前進行 PCA 是否有意義?
我正在處理高維文本數據,我想進行特徵縮減以幫助避免維度災難,但隨機森林不是已經進行了某種維度縮減嗎?
Leo Breiman 寫道,“維度可以是一種祝福”。一般來說,隨機森林可以毫無問題地在大型數據集上運行。你的數據有多大?不同的領域根據主題知識以不同的方式處理事情。例如,在基因表達研究中,基因通常在有時稱為非特異性過濾的過程中基於低方差(不查看結果)被丟棄。這可以幫助隨機森林的運行時間。但這不是必需的。
以基因表達為例,有時分析師使用 PCA 分數來表示基因表達測量。這個想法是用一個可能不那麼混亂的分數來替換相似的配置文件。隨機森林可以在原始變量或 PCA 分數(變量的替代)上運行。有些人用這種方法報告了更好的結果,但據我所知沒有很好的比較。
總之,在運行 RF 之前無需進行 PCA。但是你可以。解釋可能會根據您的目標而改變。如果你想做的只是預測,那麼解釋可能就不那麼重要了。