Correlation

找到具有最小成對相關性的 n 個項目中的 k 個

  • October 18, 2013

我有一個 n 項之間的成對相關矩陣。現在我想找到相關性最小的 k 個項目的子集。因此有兩個問題:

  1. 哪個是該組內相關性的適當度量?
  2. 如何找到相關性最小的組?

這個問題對我來說似乎是一種逆因子分析,我很確定有一個直接的解決方案。

我認為這個問題實際上等於從完整圖中刪除(nk)節點的問題,以便剩餘節點以最小邊權重連接。你怎麼認為?

提前感謝您的建議!

[預警:這個答案出現在 OP 決定重新制定問題之前,因此它可能已經失​​去了相關性。最初的問題是關於How to rank items according to their pairwise correlations]

因為成對相關矩陣不是一維數組,所以不太清楚“排名”可能是什麼樣子。特別是只要你還沒有像看起來那樣詳細地制定出你的想法。但是您提到 PCA 適合您,這立即讓我認為Cholesky 根可能是更合適的替代方案。

Cholesky 根就像 PCA 留下的載荷矩陣,只是它是三角形的。我將用一個例子來解釋這兩者。

R, correlation matrix
        V1       V2       V3       V4
V1   1.0000   -.5255   -.1487   -.2790
V2   -.5255   1.0000    .2134    .2624
V3   -.1487    .2134   1.0000    .1254
V4   -.2790    .2624    .1254   1.0000

A, PCA full loading matrix
         I       II      III       IV
V1   -.7933    .2385    .2944    .4767
V2    .8071   -.0971   -.3198    .4867
V3    .4413    .8918    .0721   -.0683
V4    .5916   -.2130    .7771    .0261

B, Cholesky root matrix
         I       II      III       IV
V1   1.0000    .0000    .0000    .0000
V2   -.5255    .8508    .0000    .0000
V3   -.1487    .1589    .9760    .0000
V4   -.2790    .1361    .0638    .9485

A*A' or B*B': both restore R
        V1       V2       V3       V4
V1   1.0000   -.5255   -.1487   -.2790
V2   -.5255   1.0000    .2134    .2624
V3   -.1487    .2134   1.0000    .1254
V4   -.2790    .2624    .1254   1.0000

PCA 的加載矩陣 A 是變量和主成分之間的相關矩陣。我們可以這樣說,因為行平方和都是 1(R 的對角線),而矩陣平方和是整體方差(R 的跡)。B 的 Cholesky 根元素也是相關的,因為該矩陣也具有這兩個屬性。B 的列不是 A 的主要組件,儘管它們在某種意義上是“組件”。

A 和 B 都可以恢復 R,因此都可以替換 R,作為它的表示。B 是三角形的,這清楚地表明它按順序或分層捕獲 R 的成對相關性。Cholesky 分量I與所有變量相關,是第一個變量的線性圖像V1。組件II不再與最後三個共享V1但與最後三個IV相關……最後僅與最後一個相關,V4. 我認為這種“排名”也許是您所尋求的

但是,Cholesky 分解的問題在於 - 與 PCA 不同 - 它取決於矩陣 R 中項目的順序。好吧,您可以對項目進行排序是平方元素之和的降序或升序(或者,如果你喜歡,絕對元素的總和,或按多重相關係數的順序 - 請參見下文)。此順序反映了項目的總體相關程度。

R, rearranged
        V2       V1       V4       V3 
V2   1.0000   -.5255    .2624    .2134 
V1   -.5255   1.0000   -.2790   -.1487 
V4    .2624   -.2790   1.0000    .1254 
V3    .2134   -.1487    .1254   1.0000 

Column sum of squares (descending)
    1.3906   1.3761   1.1624   1.0833 

B 
         I       II      III       IV 
V2   1.0000    .0000    .0000    .0000 
V1   -.5255    .8508    .0000    .0000 
V4    .2624   -.1658    .9506    .0000 
V3    .2134   -.0430    .0655    .9738

從最後一個 B 矩陣我們看到V2,最嚴重相關的項目,將其所有相關性典當在 中I。下一個嚴重相關的項目V1典當其所有相關性,除了與V2, in II; 等等。


另一個決定可能是計算每個項目的多重相關係數並根據其大小進行排名。一個項目與所有其他項目之間的多重相關性隨著項目與所有其他項目的相關性增加而增長,但它們彼此之間的相關性較低。平方多重相關係數形成所謂的圖像協方差矩陣的對角線,即, 在哪裡是對角線的倒數的對角矩陣.

引用自:https://stats.stackexchange.com/questions/73125

comments powered by Disqus