Pca
為什麼我們需要在主成分分析 (PCA) 之前對數據進行歸一化?[複製]
我正在對我的數據集進行主成分分析,我的教授告訴我應該在進行分析之前對數據進行標準化。為什麼?
- 如果我在沒有標準化的情況下進行 PCA,會發生什麼?
- 為什麼我們通常對數據進行規範化?
- 有人可以給出清晰直觀的例子來說明在分析之前不對數據進行標準化的後果嗎?
歸一化在 PCA 中很重要,因為它是方差最大化的練習。它將您的原始數據投影到最大化方差的方向上。下面的第一個圖顯示了在我們沒有對數據進行歸一化的情況下,不同主成分解釋的總方差量。如您所見,組件一似乎解釋了數據中的大部分差異。
如果你看第二張圖片,我們首先對數據進行了標準化。很明顯,其他組件也有貢獻。這樣做的原因是因為 PCA 尋求最大化每個組件的方差。由於這個特定數據集的協方差矩陣是:
Murder Assault UrbanPop Rape Murder 18.970465 291.0624 4.386204 22.99141 Assault 291.062367 6945.1657 312.275102 519.26906 UrbanPop 4.386204 312.2751 209.518776 55.76808 Rape 22.991412 519.2691 55.768082 87.72916
從這個結構中,PCA 將選擇盡可能多地向 Assault 方向投射,因為這種差異要大得多。因此,為了尋找可用於任何類型模型的特徵,沒有歸一化的 PCA 會比使用歸一化的 PCA 表現得更差。