Classification
PCA 和隨機森林
在最近的 Kaggle 比賽中,我(手動)為我的訓練集定義了 10 個附加特徵,然後將它們用於訓練隨機森林分類器。我決定在具有新功能的數據集上運行 PCA,以查看它們之間的比較。我發現約 98% 的方差是由第一個分量(第一個特徵向量)攜帶的。然後我多次訓練分類器,一次添加一個特徵,並使用交叉驗證和 RMS 誤差來比較分類的質量。我發現每增加一個特性,分類就會得到改善,最終結果(包含所有 10 個新特性)比第一次運行(比如說)2 個特性要好得多。
- 鑑於 PCA 聲稱約 98% 的方差出現在我的數據集的第一個組件中,為什麼分類的質量會提高這麼多?
- 這適用於其他分類器嗎?RF 可以跨多個內核擴展,因此它的訓練速度比(比如說)SVM 快得多。
- 如果我將數據集轉換為“PCA”空間,並在轉換後的空間上運行分類器會怎樣。我的結果將如何變化?
在進行預測建模時,您試圖解釋響應的變化,而不是特徵的變化。沒有理由相信將盡可能多的特徵變化塞進一個新特徵中會捕獲整個特徵的大量預測能力。
這通常被解釋為主成分回歸而不是偏最小二乘法之間的差異。