什麼是主成分分數?
什麼是主成分分數(PC 分數、PCA 分數)?
首先,讓我們定義一個分數。
約翰、邁克和凱特在數學、科學、英語和音樂考試中的百分比如下:
Maths Science English Music John 80 85 60 55 Mike 90 85 70 45 Kate 95 80 40 50
在這種情況下,總共有 12 個分數。每個分數代表每個人在特定科目中的考試成績。因此,在這種情況下,分數只是表示行和列相交的位置。
現在讓我們非正式地定義一個主成分。
在上表中,您可以輕鬆地將數據繪製成二維圖形嗎?不,因為有四個科目(這意味著四個變量:數學、科學、英語和音樂),即:
- 您可以以與使用完全相同的方式繪製兩個主題 $ x $ 和 $ y $ 二維圖形中的坐標。
- 您甚至可以以與繪製相同的方式繪製三個主題 $ x $ , $ y $ 和 $ z $ 在 3D 圖形中(儘管這通常是不好的做法,因為在 3D 數據的 2D 表示中不可避免地會出現一些失真)。
但是你將如何繪製 4 個主題?
目前我們有四個變量,每個變量只代表一個主題。因此,解決此問題的方法可能是以某種方式將主題組合成兩個新變量,然後我們可以繪製它們。這稱為多維縮放。
主成分分析是多維縮放的一種形式。它是變量到低維空間的線性變換,該空間保留了有關變量的最大信息量。例如,這意味著我們可以查看每個學生可能更適合的科目類型。
因此,主成分是原始變量經過線性變換後的組合。在 R 中,這是:
DF <- data.frame(Maths=c(80, 90, 95), Science=c(85, 85, 80), English=c(60, 70, 40), Music=c(55, 45, 50)) prcomp(DF, scale = FALSE)
這會給你這樣的東西(前兩個主要成分只是為了簡單起見):
PC1 PC2 Maths 0.27795606 0.76772853 Science -0.17428077 -0.08162874 English -0.94200929 0.19632732 Music 0.07060547 -0.60447104
這裡的第一列顯示了定義主成分#1 的線性組合的係數,第二列顯示了主成分#2 的係數。
那麼什麼是主成分分數?
這是本文末尾表格中的分數(見下文)。
R 的上述輸出意味著我們現在可以在 2D 圖中繪製每個人在所有科目中的分數,如下所示。首先,我們需要將原始變量居中,我的減法列意味著:
Maths Science English Music John -8.33 1.66 3.33 5 Mike 1.66 1.66 13.33 -5 Kate 6.66 -3.33 -16.66 0
然後形成線性組合得到 PC1 和 PC2分數:
x y John -0.28*8.33 + -0.17*1.66 + -0.94*3.33 + 0.07*5 -0.77*8.33 + -0.08*1.66 + 0.19*3.33 + -0.60*5 Mike 0.28*1.66 + -0.17*1.66 + -0.94*13.33 + -0.07*5 0.77*1.66 + -0.08*1.66 + 0.19*13.33 + -0.60*5 Kate 0.28*6.66 + 0.17*3.33 + 0.94*16.66 + 0.07*0 0.77*6.66 + 0.08*3.33 + -0.19*16.66 + -0.60*0
這簡化為:
x y John -5.39 -8.90 Mike -12.74 6.78 Kate 18.13 2.12
上表中有六個主成分分數。您現在可以在 2D 圖表中繪製分數,以了解每個學生可能更適合的科目類型。
在 R 中可以通過鍵入 獲得相同的輸出
prcomp(DF, scale = FALSE)$x
。編輯 1:嗯,我可能想出了一個更好的例子,它比我在這裡放的更多,但我希望你能明白。
編輯 2:完全歸功於 @drpaulbrewer 對改進此答案的評論。