Clustering
k-means 聚類中的總 ss 和 ss 之間是什麼意思?
我對聚類分析很陌生。我正在使用 R 進行 k-means 聚類,我想知道這些東西是什麼。如果它們的比例更小或更大,什麼更好?
它基本上是對 k-means 發現的分類的好壞的衡量。SS 顯然代表平方和,所以它是偏差“Between”和偏差“Within”中偏差的通常分解。理想情況下,您需要一個具有內部凝聚和外部分離特性的聚類,即 BSS/TSS 比率應接近 1。
例如,在 R 中:
data(iris) km <- kmeans(iris[,1:4], 3)
給出了 88.4% (0.884) 的 BSS/TSS 比率,表明擬合良好。您應該小心謹慎,通常最好將 WSS 與集群數量進行對比,因為必須事先指定該數量。