Machine-Learning

為什麼 PCA 對異常值敏感?

  • November 26, 2018

這個 SE 上有很多帖子討論了主成分分析 (PCA) 的穩健方法,但我找不到一個很好的解釋來解釋為什麼PCA 首先對異常值敏感。

原因之一是 PCA 可以被認為是數據的低秩分解,它使總和最小化 $ L_2 $ 分解殘差的範數。即如果 $ Y $ 是你的數據( $ m $ 的向量 $ n $ 尺寸),和 $ X $ 是 PCA 基 ( $ k $ 的向量 $ n $ 尺寸),那麼分解將嚴格最小化 $$ \lVert Y-XA \rVert^2_F = \sum_{j=1}^{m} \lVert Y_j - X A_{j.} \rVert^2 $$ 這裡 $ A $ 是 PCA 分解係數的矩陣,並且 $ \lVert \cdot \rVert_F $ 是矩陣的 Frobenius 範數

因為 PCA 最小化了 $ L_2 $ 範數(即二次範數)它與最小二乘或通過對異常值敏感來擬合高斯具有相同的問題。由於離群值偏差的平方,它們將主導總規範,因此將驅動 PCA 組件。

引用自:https://stats.stackexchange.com/questions/378751

comments powered by Disqus