Correlation

變量與 PCA 組件的正確關聯度量是什麼(在雙圖/加載圖上)?

  • October 12, 2014

我正在使用FactoMineR將我的測量數據集減少到潛在變量。

變量圖

上面的變量映射對我來說是很清楚的解釋,但是當談到變量和組件之間的關聯時我感到困惑 1. 看變量映射,ddp並且cov非常接近映射中的組件,並且ddpAbs有點遠離開。但是,這不是相關性所顯示的:

$Dim.1
$Dim.1$quanti
       correlation      p.value
jittAbs   0.9388158 1.166116e-11
rpvi      0.9388158 1.166116e-11
sd        0.9359214 1.912641e-11
ddpAbs    0.9327135 3.224252e-11
rapAbs    0.9327135 3.224252e-11
ppq5      0.9319101 3.660014e-11
ppq5Abs   0.9247266 1.066303e-10
cov       0.9150209 3.865897e-10
npvi      0.8853941 9.005243e-09
ddp       0.8554260 1.002460e-07
rap       0.8554260 1.002460e-07
jitt      0.8181207 1.042053e-06
cov5_x    0.6596751 4.533596e-04
ps13_20  -0.4593369 2.394361e-02
ps5_12   -0.5237125 8.625918e-03

然後是sin2數量,它是 rpvi(例如)的高度,但該度量根本不是最接近第一個組件的變量。

Variables
          Dim.1    ctr   cos2    Dim.2    ctr   cos2  
rpvi    |  0.939  8.126  0.881 |  0.147  1.020  0.022 |
npvi    |  0.885  7.227  0.784 |  0.075  0.267  0.006 |
cov     |  0.915  7.719  0.837 | -0.006  0.001  0.000 |
jittAbs |  0.939  8.126  0.881 |  0.147  1.020  0.022 |
jitt    |  0.818  6.171  0.669 |  0.090  0.380  0.008 |
rapAbs  |  0.933  8.020  0.870 |  0.126  0.746  0.016 |
rap     |  0.855  6.746  0.732 |  0.040  0.076  0.002 |
ppq5Abs |  0.925  7.884  0.855 |  0.091  0.392  0.008 |
ppq5    |  0.932  8.007  0.868 | -0.035  0.057  0.001 |
ddpAbs  |  0.933  8.020  0.870 |  0.126  0.746  0.016 |
ddp     |  0.855  6.746  0.732 |  0.040  0.076  0.002 |
pa      |  0.265  0.646  0.070 | -0.857 34.614  0.735 |
ps5_12  | -0.524  2.529  0.274 |  0.664 20.759  0.441 |
ps13_20 | -0.459  1.945  0.211 |  0.885 36.867  0.783 |
cov5_x  |  0.660  4.012  0.435 |  0.245  2.831  0.060 |
sd      |  0.936  8.076  0.876 |  0.056  0.150  0.003 |

那麼,當涉及到變量和第一個組件之間的關聯時,我應該看什麼?

PCA 或因子分析的加載圖的解釋。

加載圖將變量顯示為主成分(或因子)空間中的點。變量的坐標通常是載荷。(如果您在相同的組件空間中正確地將加載圖與數據案例的相應散點圖結合起來,那將是雙圖。)

讓我們有3個以某種方式相關的變量,,,. 我們將它們居中並執行PCA,從三個中提取 2 個第一個主成分:和. 我們使用載荷作為坐標來繪製下面的載荷圖。載荷是非標準化特徵向量的元素,即由相應分量方差或特徵值賦予的特徵向量。

在此處輸入圖像描述

加載圖是圖片上的平面。讓我們只考慮變量. 加載圖上習慣性地繪製的箭頭是標記的這裡; 該坐標,是載荷和和,分別(請知道從術語上說“組件加載變量”更正確,反之亦然)。

箭是向量在分量平面上的投影這是變量的真實位置在跨越的變量空間中,,. 向量的平方長度,, 是方差的. 儘管是由兩個分量解釋的方差部分。

加載,相關性,預計相關性。由於變量在提取組件之前居中,是之間的皮爾遜相關性和組件. 這不應該與在加載圖上,這是另一個量:它是組件之間的 Pearson 相關性和變量向量在這裡. 作為變量,是預測通過線性回歸中的(標準化)分量(與此處的線性回歸幾何圖形進行比較)是回歸係數(當組件保持正交時,如提取的那樣)。

更遠。我們可能記得(三角). 可以理解為向量之間的標量積和單位長度向量:.被設置為單位方差向量,因為它除了方差之外沒有自己的方差它解釋了(按金額): IE是從 V、W、U 中提取的,而不是從外部邀請的實體。那麼,很明顯,是之間的協方差標準化的,單位規模的(設置) 零件. 這個協方差可以直接與輸入變量之間的協方差進行比較;例如,之間的協方差和將是它們的向量長度乘以它們之間的餘弦的乘積。

總結:加載可以看作是標準化分量和觀察變量之間的協方差,,或等效地在標準化組件和變量的解釋(通過定義圖的所有組件)圖像之間,. 那可以稱為投影在 F1-F2 分量子空間上的 V-F1 相關性。

變量和組件之間的上述相關性,,也稱為標準化或重新調整加載。由於它在 [-1,1] 範圍內,因此在解釋組件時很方便。

與特徵向量的關係。重新調整加載不應與**特徵向量元素混淆,我們知道它是變量和主成分之間夾角的餘弦值。回想一下,加載是按組件的奇異值(特徵值的平方根)按比例放大的特徵向量元素。即變量我們的情節:, 在哪裡是聖。偏差(不但原始的,即奇異值)的潛變量。然後就是特徵向量元素,而不是本身。當我們回想我們所處的空間表示形式時,圍繞“餘弦”兩個詞的混淆就消失了。特徵向量值作為軸的變量旋轉角度到 pr 的餘弦值。組件作為變量空間中的軸(又名散點圖視圖),例如這裡. 儘管在我們的加載圖上是作為向量的變量和 pr 之間*的餘弦相似度度量。*組件也…以及..作為向量,如果您願意(儘管它在圖上被繪製為軸),-因為我們目前處於主題空間(加載圖是),其中相關變量是向量的粉絲-不是正交軸, - 並且矢量角度是關聯的度量 - 而不是空間基礎旋轉。

而載荷是變量和單位尺度分量之間的角度(即標量積類型)關聯度量,重新尺度載荷是變量尺度減少到單位的標準化載荷,但特徵向量係數是載荷組件被“過度標準化”,即規模化(而不是 1 個);或者,它可以被認為是一個重新調整的加載,其中變量的比例被帶到(而不是 1)。

那麼,變量和組件之間的關聯是什麼?你可以選擇你喜歡的。它可能是負載(與單位比例分量的協方差); 重新調整的加載 (=可變分量相關性);圖像(預測)和組件之間的相關性(= 投影相關性)。你甚至可以選擇特徵向量係數如果您需要(儘管我想知道可能是什麼原因)。或者發明你自己的措施。

特徵向量值平方的含義是變量對pr的貢獻。零件。Rescaled loading squared具有 pr 貢獻的含義。組成一個變量。

基於相關性與 PCA 的關係。如果我們不僅對居中而且對標準化(居中然後單位方差縮放)變量進行 PCA 分析,那麼這三個變量向量(不是它們在平面上的投影)將具有相同的單位長度。然後它自動得出負載是變量和組件之間的相關性,而不是協方差。但這種相關性等於“標準化加載” 圖(基於對中心變量的分析),因為標準化變量的 PCA(基於相關性的 PCA)與中心變量的 PCA(基於協方差的 PCA)產生不同的分量。在基於相關性的 PCA 中因為,但主成分我們從基於協方差的 PCA(讀取讀取)中獲得的主成分不同。

因子分析中,載荷圖的概念和解釋與 PCA 基本相同。唯一(但重要)的區別是. 在因子分析中,- 稱為變量的“公共性” - 是其方差的一部分,由共同因素解釋,這些共同因素 專門負責 變量之間的*相關性。*而在 PCA 中,解釋部分是粗略的“混合” - 它部分代表變量之間的相關性和部分不相關性。通過因子分析,我們圖片上的載荷平面會以不同的方式定向(實際上,它甚至會從我們的 3d 變量空間延伸到我們無法繪製的第 4 維;載荷平面不會是我們的子空間3d 空間跨越和其他兩個變量)和投影將有另一個長度和另一個角度. (PCA 和因子分析之間的理論差異在此處通過主題空間表示和此處通過變量空間表示進行幾何解釋。)


在評論中回复@Antoni Parellada 的請求。無論您更喜歡用方差還是度(偏差的SS)來說話,都是等價的:方差=散佈, 在哪裡是樣本量。因為我們正在處理一個相同的數據集,常數在公式中沒有任何變化。如果是數據(以變量 V、W、U 為中心),則其 (A) 協方差矩陣的特徵分解產生與 (B) 散佈矩陣的特徵分解相同的特徵值(分量方差)和特徵向量初步劃分後獲得經過因素。之後,在一個加載的公式中(見答案的中間部分),, 學期 聖。偏差在(A)中但根分散(即範數)在 (B) 中。學期, 等於,標準化的組件的聖。偏差在 (A) 中,但根分散在 (B) 中。最後,是對使用不敏感的相關性在其計算中。因此,我們只是從概念上講方差 (A) 或散點 (B),而在這兩種情況下,公式中的值本身保持不變。

引用自:https://stats.stackexchange.com/questions/119746

comments powered by Disqus