Clustering

我們什麼時候將降維與聚類結合起來?

  • July 10, 2011

我正在嘗試執行文檔級聚類。我構建了術語文檔頻率矩陣,並嘗試使用 k-means 對這些高維向量進行聚類。我所做的不是直接聚類,而是首先應用 LSA(潛在語義分析)奇異向量分解來獲得 U、S、Vt 矩陣,使用碎石圖選擇合適的閾值並在縮減矩陣上應用聚類(特別是 Vt,因為它給了我一個概念文檔信息)這似乎給了我很好的結果。

我聽說有人說 SVD(奇異向量分解)聚類(通過使用餘弦相似度等),並且不確定我是否可以在 SVD 的輸出上應用 k-means。我認為這在邏輯上是正確的,因為 SVD 是一種降維技術,給了我一堆新的向量。另一方面,k-means 會將簇的數量作為輸入,並將這些向量劃分為指定數量的簇。這個程序是否有缺陷,或者有什麼可以改進的方法?有什麼建議?

這絕不是一個完整的答案,您應該問的問題是“在進行降維時保留了什麼樣的距離?”。由於諸如 K-means 之類的聚類算法僅對距離進行操作,因此(理論上)要使用的正確距離度量是通過降維保留的距離度量。這樣,降維步驟可以看作是在低維空間中對數據進行聚類的計算捷徑。(也為了避免局部最小值等)

這裡有許多我不會假裝理解的微妙之處(局部距離與全局距離,相對距離如何失真等),但我認為這是從理論上考慮這些事情的正確方向。

引用自:https://stats.stackexchange.com/questions/12853

comments powered by Disqus