關於 PCA 的問題:PC 何時獨立?為什麼 PCA 對縮放敏感?為什麼 PC 被限制為正交?
我試圖理解 PCA 的一些描述(前兩個來自維基百科),重點補充說:
只有當數據集是聯合正態分佈時,才能保證主成分是獨立的。
主成分的獨立性很重要嗎?我如何理解這個描述?
PCA對原始變量 的相對縮放很敏感。
那裡的“縮放”是什麼意思?不同維度的歸一化?
變換被定義為第一個主成分具有最大可能的方差,並且每個後續成分在與前面的成分正交的約束下依次具有最高的方差。
你能解釋一下這個限制嗎?
Q1。主成分是相互正交(不相關)的變量。正交性和統計獨立性不是同義詞。主成分沒有什麼特別之處;多變量數據分析中的任何變量也是如此。如果數據是多元正態的(這與聲明每個變量都是單變量正態的不同)並且變量不相關,那麼是的,它們是獨立的。主要組件的獨立性是否重要 - 取決於您將如何使用它們。很多時候,它們的正交性就足夠了。
Q2。是的,縮放意味著縮小或拉伸單個變量的方差。變量是數據所在空間的維度。PCA 結果 - 組件 - 對數據云的形狀、“橢圓體”的形狀很敏感。如果您僅將變量居中,則保持方差不變,這通常稱為“基於協方差的 PCA”。如果您還將變量標準化為方差 = 1,這通常稱為“基於相關性的 PCA”,它可能與前者有很大不同(參見線程)。此外,很少有人對非中心數據進行 PCA:原始數據或僅縮放到單位量級;這種 PCA 的結果與您將數據居中的位置進一步不同(見圖)。
Q3。“約束”是 PCA 的工作方式(參見一個巨大的線程)。想像一下您的數據是 3 維雲(3 個變量,點);原點設置在它的質心(平均值)。PCA 將 component1 繪製為通過原點的軸,在其上最大化的平方投影(坐標)的總和;也就是說,沿分量 1 的方差最大化。定義component1後,可以將其作為維度移除,這意味著數據點被投影到與該組件正交的平面上。剩下的是二維雲。然後,您再次應用上述查找最大方差軸的過程 - 現在在這個剩餘的 2D 雲中。那將是component2。您可以通過將數據點投影到正交線上來從平面中移除繪製的組件 2給它。代表殘餘一維雲的那條線被定義為最後一個分量,即分量 3。您可以看到,在這 3 個“步驟”中的每一個上,分析 a) 找到了當前最大方差的維度-維空間,b)將數據減少到沒有該維度的維度,即維空間正交於提到的維度。事實證明,每個主成分都是“最大方差”,並且所有成分都是相互正交的(另請參見參考資料)。
[ PS請注意,“正交”意味著兩件事:(1)可變軸作為物理垂直軸;(2) 變量與其數據不相關。使用 PCA 和其他一些多元方法,這兩件事是一回事。但是對於其他一些分析(例如判別分析),不相關的提取潛變量並不自動意味著它們的軸在原始空間中是垂直的。]