Clustering

聚類鄰接矩陣的最佳方法

  • November 24, 2014

我很難解釋鄰接矩陣的結果簇。我有 200 個相對較大的矩陣,代表包含時間序列(神經數據)的偏相關(z 分數)的主題。目標是對這 210 個矩陣進行聚類並檢測任何潛在的未發現社區。所以我做了另一個偏相關計算,得到了 200x200 的鄰接矩陣。每當我運行社區檢測算法(例如 Newmann’s)時,它都會出現難以解釋的社區。

問題是,什麼樣的統計測試可以判斷這些社區或集群是否重要?如果是這樣,是否有系統的方法來進行解釋?

我過去在光譜聚類方面做過一些工作,這可能在這裡有用。基本思想是可以使用鄰接矩陣來形成所謂的拉普拉斯矩陣:

您可以自己檢查拉普拉斯算子的最低特徵值是否為零。第一個非零特徵值通常稱為代數連通性,對應的特徵向量將有正負部分對應兩個分區的基礎圖。粗略地說,第一個非零特徵值的大小是兩個分區之間連接強度的度量。也許您可以遞歸地使用這種方法,或者考慮拉普拉斯算子的前幾個非零特徵值。以下關於譜聚類的維基百科文章是一個好的開始。

引用自:https://stats.stackexchange.com/questions/125295

comments powered by Disqus