Clustering

求質心與求均值有何不同?

  • March 9, 2013

在執行層次聚類時,可以使用許多指標來衡量聚類之間的距離。兩個這樣的指標意味著計算聚類中數據點的質心和均值。

均值和質心有什麼區別?這些不是集群中的同一點嗎?

據我所知,集群的“平均值”和單個集群的質心是一回事,儘管在處理多變量數據時“質心”一詞可能比“平均值”更精確一些。

為了找到質心,需要分別計算每個維度的點位置的(算術)平均值。例如,如果您有以下幾點:

  • (-1, 10, 3),
  • (0, 5, 2), 和
  • (1, 20, 10),

那麼質心將位於 ((-1+0+1)/3, (10+5+20)/3, (3+2+10)/3),這簡化了 (0, 11 2/3, 5)。(注意:質心不一定是——而且很少是——原始數據點之一)

質心有時也稱為質心或重心,基於其物理解釋(它是由點定義的對象的質心)。與平均值一樣,質心的位置使與其他點的平方和距離最小。

一個相關的想法是medoid,它是與所有其他數據點“最不相似”的數據點。與質心不同,中心點必須是原始點之一。您可能還對與中位數類似的幾何中位數感興趣,但對於多變量數據。這些都與質心不同。

但是,正如 Gabe 在他的回答中指出的那樣,在比較集群時,“質心距離”和“平均距離”之間存在差異。簇之間的質心距離和只是之間的距離和. 平均距離是通過找到每個聚類中的點之間的平均成對距離來計算的。換句話說,對於每個點在集群中, 你計算,, …並將它們平均在一起。

引用自:https://stats.stackexchange.com/questions/51743

comments powered by Disqus