如何定義 K-means 聚類中的聚類數？

March 31, 2011

有什麼方法可以確定最佳集群數，還是我應該嘗試不同的值並檢查錯誤率以確定最佳值？

我使用的方法是使用 CCC (Cubic Clustering Criteria)。當我將集群數量增加 1 時，我希望 CCC 增加到最大值，然後觀察 CCC 何時開始減少。那時，我將集群數量設為（本地）最大值。這類似於使用碎石圖來選擇主成分的數量。

SAS 技術報告 A-108 三次聚類標準 ( pdf )

= 觀察次數

=集群中的數字

= 變量數

= 聚類數

=數據矩陣

=聚類均值矩陣

=集群指標（如果 obs。在集群中, 否則為 0)

假設每個變量的均值為 0：

,

（總）矩陣==

（簇之間）矩陣 ==

（簇內）矩陣 ==

（跡線 = 對角線元素的總和）

堆疊列成一長列。Kronecker 乘積的

回歸和單位矩陣

計算對於這個回歸 - 相同

CCC 的想法是比較你得到一組給定的集群您可以通過將一組均勻分佈的點聚集在維空間。

引用自：https://stats.stackexchange.com/questions/9016

comments powered by Disqus

相關問答

Maximum-Likelihood

用最大似然法尋找類別

December 6, 2021

所有機器學習算法是否都分為分類和回歸，而不僅僅是監督學習？

July 19, 2020

Neural-Networks

對比學習或方法背後的直覺是什麼？

February 28, 2020

具有混合連續變量和二元變量的 t-SNE

April 3, 2019

Normal-Distribution

為什麼使用高斯混合模型？

March 6, 2019

Machine-Learning

什麼是人工神經網絡？

August 16, 2018