Classification

什麼會導致 PCA 惡化分類器的結果?

  • March 19, 2013

我有一個要進行交叉驗證的分類器,以及一百個左右的特徵,我正在對其進行前向選擇以找到特徵的最佳組合。我還將這與使用 PCA 運行相同的實驗進行比較,我在其中獲取潛在特徵,應用 SVD,將原始信號轉換到新的坐標空間,並使用頂部我的前向選擇過程中的功能。

我的直覺是 PCA 會改善結果,因為信號會比原始特徵更“信息豐富”。我對 PCA 的幼稚理解是否會導致我陷入困境?誰能提出一些常見原因,為什麼 PCA 在某些情況下可能會改善結果,但在其他情況下會使結果惡化?

考慮一個簡單的案例,取自一篇很棒但被低估的文章“回歸中使用主成分的說明”

假設你只有兩個(按比例縮放和去平均)特徵,用它們來表示和正相關等於 0.5,對齊在,以及第三個響應變量你想分類。假設分類完全由.

執行 PCA產生新的(按方差排序)特徵, 自從. 因此,如果您將維度減少到 1,即第一個主成分,那麼您將丟掉分類的精確解!

出現問題是因為 PCA 不知道. 不幸的是,不能包括在 PCA 中,因為這將導致數據洩漏。


數據洩漏是當你的矩陣是使用有問題的目標預測器構建的,因此任何樣本外的預測都是不可能的。

例如:在金融時間序列中,試圖預測發生在美國東部標準時間上午 11:00 的歐洲收盤價,使用美國東部標準時間下午 4:00 的收盤價,是自美國收盤以來的數據洩露數小時後發生的,已包含歐洲收盤價。

引用自:https://stats.stackexchange.com/questions/52773

comments powered by Disqus