找到具有最小成對相關性的 n 個項目中的 k 個
我有一個 n 項之間的成對相關矩陣。現在我想找到相關性最小的 k 個項目的子集。因此有兩個問題:
- 哪個是該組內相關性的適當度量?
- 如何找到相關性最小的組?
這個問題對我來說似乎是一種逆因子分析,我很確定有一個直接的解決方案。
我認為這個問題實際上等於從完整圖中刪除(nk)節點的問題,以便剩餘節點以最小邊權重連接。你怎麼認為?
提前感謝您的建議!
[預警:這個答案出現在 OP 決定重新制定問題之前,因此它可能已經失去了相關性。最初的問題是關於
How to rank items according to their pairwise correlations
]因為成對相關矩陣不是一維數組,所以不太清楚“排名”可能是什麼樣子。特別是只要你還沒有像看起來那樣詳細地制定出你的想法。但是您提到 PCA 適合您,這立即讓我認為Cholesky 根可能是更合適的替代方案。
Cholesky 根就像 PCA 留下的載荷矩陣,只是它是三角形的。我將用一個例子來解釋這兩者。
R, correlation matrix V1 V2 V3 V4 V1 1.0000 -.5255 -.1487 -.2790 V2 -.5255 1.0000 .2134 .2624 V3 -.1487 .2134 1.0000 .1254 V4 -.2790 .2624 .1254 1.0000 A, PCA full loading matrix I II III IV V1 -.7933 .2385 .2944 .4767 V2 .8071 -.0971 -.3198 .4867 V3 .4413 .8918 .0721 -.0683 V4 .5916 -.2130 .7771 .0261 B, Cholesky root matrix I II III IV V1 1.0000 .0000 .0000 .0000 V2 -.5255 .8508 .0000 .0000 V3 -.1487 .1589 .9760 .0000 V4 -.2790 .1361 .0638 .9485 A*A' or B*B': both restore R V1 V2 V3 V4 V1 1.0000 -.5255 -.1487 -.2790 V2 -.5255 1.0000 .2134 .2624 V3 -.1487 .2134 1.0000 .1254 V4 -.2790 .2624 .1254 1.0000
PCA 的加載矩陣 A 是變量和主成分之間的相關矩陣。我們可以這樣說,因為行平方和都是 1(R 的對角線),而矩陣平方和是整體方差(R 的跡)。B 的 Cholesky 根元素也是相關的,因為該矩陣也具有這兩個屬性。B 的列不是 A 的主要組件,儘管它們在某種意義上是“組件”。
A 和 B 都可以恢復 R,因此都可以替換 R,作為它的表示。B 是三角形的,這清楚地表明它按順序或分層捕獲 R 的成對相關性。Cholesky 分量
I
與所有變量相關,是第一個變量的線性圖像V1
。組件II
不再與最後三個共享V1
但與最後三個IV
相關……最後僅與最後一個相關,V4
. 我認為這種“排名”也許是您所尋求的?但是,Cholesky 分解的問題在於 - 與 PCA 不同 - 它取決於矩陣 R 中項目的順序。好吧,您可以對項目進行排序是平方元素之和的降序或升序(或者,如果你喜歡,絕對元素的總和,或按多重相關係數的順序 - 請參見下文)。此順序反映了項目的總體相關程度。
R, rearranged V2 V1 V4 V3 V2 1.0000 -.5255 .2624 .2134 V1 -.5255 1.0000 -.2790 -.1487 V4 .2624 -.2790 1.0000 .1254 V3 .2134 -.1487 .1254 1.0000 Column sum of squares (descending) 1.3906 1.3761 1.1624 1.0833 B I II III IV V2 1.0000 .0000 .0000 .0000 V1 -.5255 .8508 .0000 .0000 V4 .2624 -.1658 .9506 .0000 V3 .2134 -.0430 .0655 .9738
從最後一個 B 矩陣我們看到
V2
,最嚴重相關的項目,將其所有相關性典當在 中I
。下一個嚴重相關的項目V1
典當其所有相關性,除了與V2
, inII
; 等等。
另一個決定可能是計算每個項目的多重相關係數並根據其大小進行排名。一個項目與所有其他項目之間的多重相關性隨著項目與所有其他項目的相關性增加而增長,但它們彼此之間的相關性較低。平方多重相關係數形成所謂的圖像協方差矩陣的對角線,即, 在哪裡是對角線的倒數的對角矩陣.