Clustering

k-means 聚類對高維數據的有用性

  • April 11, 2014

我想知道 k-means 聚類在高維空間中有什麼用處,以及為什麼在處理高維空間時它比其他聚類方法更好(或不更好)。

k-means 是否有意義?

例如,請參閱我的答案:https ://stats.stackexchange.com/a/35760/7828

k-means 優化方差。未加權的方差總和對您的數據集有意義嗎?可能不是。那麼k-means怎麼可能有意義呢?在高維數據中,距離不起作用。但是方差=平方歐幾里得距離;那麼優化一些你知道它在高維數據中不起作用的東西有意義嗎?

針對高維數據的特殊問題,我推薦以下研究:

Zimek, A.、Schubert, E. 和 Kriegel, H.-P。(2012),高維數值數據中無監督異常值檢測的調查。統計分析數據挖掘,5:363-387。doi: 10.1002/sam.11161

它的主要重點是異常值檢測,但對高維數據挑戰的觀察適用於更廣泛的背景。他們展示了一些簡單的實驗,高維數據如何成為問題。我喜歡這項研究的地方在於,它們還表明高維數據很容易;它不是黑白的,但您需要仔細研究您的數據。

有用的就不一樣了。人們經常使用 k-means 來實際發現集群。

而是要找到有代表性的對象。這是一種對不太相似而無用的 k 對象進行半隨機採樣的巧妙方法

如果您只需要一種巧妙的採樣方式,k-means 可能非常有用。

引用自:https://stats.stackexchange.com/questions/93488

comments powered by Disqus