Machine-Learning

為什麼 PCA 對異常值敏感?

  • November 26, 2018

這個 SE 上有很多帖子討論了主成分分析 (PCA) 的穩健方法,但我找不到一個很好的解釋來解釋為什麼PCA 首先對異常值敏感。

原因之一是 PCA 可以被認為是數據的低秩分解,它使總和最小化 L2 分解殘差的範數。即如果 Y 是你的數據( m 的向量 n 尺寸),和 X 是 PCA 基 ( k 的向量 n 尺寸),那麼分解將嚴格最小化 YXA2F=mj=1YjXAj.2

這裡 A 是 PCA 分解係數的矩陣,並且 F 是矩陣的 Frobenius 範數

因為 PCA 最小化了 L2 範數(即二次範數)它與最小二乘或通過對異常值敏感來擬合高斯具有相同的問題。由於離群值偏差的平方,它們將主導總規範,因此將驅動 PCA 組件。

引用自:https://stats.stackexchange.com/questions/378751