Data-Visualization

在 2D 中可視化多維數據 (LSI)

  • June 7, 2011

我正在使用潛在語義索引來查找文檔之間的相似性(謝謝,JMS!

降維後,我嘗試了 k-means 聚類將文檔分組到集群中,效果很好。但我想更進一步,將文檔可視化為一組節點,其中任何兩個節點之間的距離與其相似度成反比(高度相似的節點靠得很近)。

令我震驚的是,由於我的數據> 2維,因此我無法準確地將相似度矩陣簡化為二維圖。所以我的第一個問題:有沒有標準的方法來做到這一點?

我可以將我的數據減少到二維,然後將它們繪製為 X 和 Y 軸,這對於一組約 100-200 個文檔是否足夠?如果這是解決方案,最好從一開始就將我的數據減少到二維,或者有沒有辦法從我的多維數據中選擇兩個“最佳”維度?

如果有區別,我正在使用 Python 和 gensim 庫。

這就是 MDS(多維縮放)的設計目的。簡而言之,如果給定一個相似度矩陣 M,您希望找到最接近的近似值在哪裡排名為 2。這可以通過計算 SVD 來完成在哪裡.

現在,假設被置換,因此特徵值按降序排列,前兩列是您想要的嵌入平面。

MDS 有很多可用的代碼(如果 scipy 沒有它的某個版本,我會感到驚訝)。無論如何,只要您可以訪問 python 中的某些 SVD 例程,您就可以設置。

引用自:https://stats.stackexchange.com/questions/11650

comments powered by Disqus