Pca

什麼是主成分分數?

  • July 20, 2010

什麼是主成分分數(PC 分數、PCA 分數)?

首先,讓我們定義一個分數。

約翰、邁克和凱特在數學、科學、英語和音樂考試中的百分比如下:

     Maths    Science    English    Music    
John  80        85          60       55  
Mike  90        85          70       45
Kate  95        80          40       50

在這種情況下,總共有 12 個分數。每個分數代表每個人在特定科目中的考試成績。因此,在這種情況下,分數只是表示行和列相交的位置。

現在讓我們非正式地定義一個主成分。

在上表中,您可以輕鬆地將數據繪製成二維圖形嗎?不,因為有四個科目(這意味著四個變量:數學、科學、英語和音樂),即:

  • 您可以以與使用完全相同的方式繪製兩個主題 $ x $ 和 $ y $ 二維圖形中的坐標。
  • 您甚至可以以與繪製相同的方式繪製三個主題 $ x $ , $ y $ 和 $ z $ 在 3D 圖形中(儘管這通常是不好的做法,因為在 3D 數據的 2D 表示中不可避免地會出現一些失真)。

但是你將如何繪製 4 個主題?

目前我們有四個變量,每個變量只代表一個主題。因此,解決此問題的方法可能是以某種方式將主題組合成兩個新變量,然後我們可以繪製它們。這稱為多維縮放

主成分分析是多維縮放的一種形式。它是變量到低維空間的線性變換,該空間保留了有關變量的最大信息量。例如,這意味著我們可以查看每個學生可能更適合的科目類型。

因此,主成分是原始變量經過線性變換後的組合。在 R 中,這是:

DF <- data.frame(Maths=c(80, 90, 95), Science=c(85, 85, 80),  
                English=c(60, 70, 40), Music=c(55, 45, 50))
prcomp(DF, scale = FALSE)

這會給你這樣的東西(前兩個主要成分只是為了簡單起見):

               PC1         PC2
Maths    0.27795606  0.76772853 
Science -0.17428077 -0.08162874 
English -0.94200929  0.19632732 
Music    0.07060547 -0.60447104 

這裡的第一列顯示了定義主成分#1 的線性組合的係數,第二列顯示了主成分#2 的係數。

那麼什麼是主成分分數?

這是本文末尾表格中的分數(見下文)。

R 的上述輸出意味著我們現在可以在 2D 圖中繪製每個人在所有科目中的分數,如下所示。首先,我們需要將原始變量居中,我的減法列意味著:

     Maths    Science    English    Music    
John  -8.33       1.66       3.33       5  
Mike   1.66       1.66      13.33      -5
Kate   6.66       -3.33    -16.66       0

然後形成線性組合得到 PC1 和 PC2分數

     x                                                    y
John -0.28*8.33 + -0.17*1.66 + -0.94*3.33  + 0.07*5   -0.77*8.33 + -0.08*1.66 + 0.19*3.33   + -0.60*5 
Mike 0.28*1.66  + -0.17*1.66 + -0.94*13.33 + -0.07*5   0.77*1.66 + -0.08*1.66 + 0.19*13.33  + -0.60*5
Kate 0.28*6.66  + 0.17*3.33  + 0.94*16.66  + 0.07*0    0.77*6.66 +  0.08*3.33 + -0.19*16.66 + -0.60*0

這簡化為:

       x       y
John   -5.39   -8.90
Mike  -12.74    6.78
Kate   18.13    2.12

上表中有六個主成分分數。您現在可以在 2D 圖表中繪製分數,以了解每個學生可能更適合的科目類型。

在 R 中可以通過鍵入 獲得相同的輸出prcomp(DF, scale = FALSE)$x

編輯 1:嗯,我可能想出了一個更好的例子,它比我在這裡放的更多,但我希望你能明白。

編輯 2:完全歸功於 @drpaulbrewer 對改進此答案的評論。

引用自:https://stats.stackexchange.com/questions/222

comments powered by Disqus