Pca

為什麼我們需要在主成分分析 (PCA) 之前對數據進行歸一化?[複製]

  • September 4, 2013

我正在對我的數據集進行主成分分析,我的教授告訴我應該在進行分析之前對數據進行標準化。為什麼?

  • 如果我在沒有標準化的情況下進行 PCA,會發生什麼?
  • 為什麼我們通常對數據進行規範化?
  • 有人可以給出清晰直觀的例子來說明在分析之前不對數據進行標準化的後果嗎?

歸一化在 PCA 中很重要,因為它是方差最大化的練習。它將您的原始數據投影到最大化方差的方向上。下面的第一個圖顯示了在我們沒有對數據進行歸一化的情況下,不同主成分解釋的總方差量。如您所見,組件一似乎解釋了數據中的大部分差異。

沒有歸一化

如果你看第二張圖片,我們首先對數據進行了標準化。很明顯,其他組件也有貢獻。這樣做的原因是因為 PCA 尋求最大化每個組件的方差。由於這個特定數據集的協方差矩陣是:

            Murder   Assault   UrbanPop      Rape
Murder    18.970465  291.0624   4.386204  22.99141
Assault  291.062367 6945.1657 312.275102 519.26906
UrbanPop   4.386204  312.2751 209.518776  55.76808
Rape      22.991412  519.2691  55.768082  87.72916

從這個結構中,PCA 將選擇盡可能多地向 Assault 方向投射,因為這種差異要大得多。因此,為了尋找可用於任何類型模型的特徵,沒有歸一化的 PCA 會比使用歸一化的 PCA 表現得更差。

標準化

引用自:https://stats.stackexchange.com/questions/69157

comments powered by Disqus