Pca

如何解釋 PCA 載荷?

  • April 4, 2014

在閱讀有關 PCA 的信息時,我遇到了以下解釋:

假設我們有一個數據集,其中每個數據點代表一個學生在數學測試、物理測試、閱讀理解測試和詞彙測試中的分數。

我們找到了前兩個主要成分,它們捕獲了數據中 90% 的可變性,並解釋了它們的負載。我們得出結論,第一個主要成分代表整體學術能力,第二個主要成分代表定量能力和語言能力之間的對比。

文本指出 PC1 和 PC2 載荷是對於 PC1 和對於 PC2,並提供以下解釋:

[T]第一個分量與平均分數成正比,第二個分量測量第一對分數和第二對分數之間的差異。

我無法理解這個解釋是什麼意思。

載荷(不應與特徵向量混淆)具有以下屬性:

  1. 它們在每個分量內的平方和是特徵值(分量的方差)。
  2. 載荷是線性組合的係數,通過(標準化)分量預測變量。

您從 4 台 PC 中提取了 2 台第一台 PC。 負載矩陣和特徵值:

A (loadings)
        PC1           PC2
X1   .5000000000   .5000000000 
X2   .5000000000   .5000000000 
X3   .5000000000  -.5000000000 
X4   .5000000000  -.5000000000
Eigenvalues:
   1.0000000000  1.0000000000

在這種情況下,兩個特徵值相等。這是現實世界中罕見的情況,它說PC1和PC2具有相同的解釋“強度”。

假設您還計算了組件值,Nx2矩陣,並且您在每列中對它們進行 z 標準化(平均值 = 0,標准開發 = 1)。然後(如上面第 2 點所說),. 但是,因為您在 4 台 PC 中只剩下 2 台(您在) 恢復的數據值不准確, - 存在錯誤(如果特徵值 3、4 不為零)。

行。通過變量預測組件的係數是多少?顯然,如果滿了4x4,這些是. 對於非方形加載矩陣,我們可以將它們計算為,其中diag(eigenvalues)是對角線方陣,特徵值在其對角線上,+上標表示偽逆矩陣。在你的情況下:

diag(eigenvalues):
1 0
0 1

B (coefficients to predict components by original variables):
   PC1           PC2
X1 .5000000000   .5000000000 
X2 .5000000000   .5000000000 
X3 .5000000000  -.5000000000 
X4 .5000000000  -.5000000000

因此,如果是Nx4原始中心變量(或標準化變量,如果您基於相關性而不是協方差進行 PCA)的矩陣,則;是標準化的主成分分數。在您的示例中是:

PC1 = 0.5X1 + 0.5X2 + 0.5X3 + 0.5X4 ~ (X1+X2+X3+X4)/4

“第一部分與平均分成正比”

PC2 = 0.5X1 + 0.5X2 - 0.5X3 - 0.5X4 = (0.5X1 + 0.5X2) - (0.5X3 + 0.5X4)

“第二部分測量第一對分數和第二對分數之間的差異”

在這個例子中,看起來,但在一般情況下它們是不同的。


注意:上述係數計算組件分數的公式,, 等價於, 和是變量的協方差(或相關)矩陣。後一個公式直接來自線性回歸理論。這兩個公式僅在 PCA 上下文中是等效的。在因子分析中,它們不是,並且計算因子分數(在 FA 中總是近似的)應該依賴於第二個公式。


我的相關回答:

有關 loading 與 eigenvectors 的更詳細信息

如何計算主成分分數和因子分數

引用自:https://stats.stackexchange.com/questions/92499

comments powered by Disqus

相關問答