Clustering
如何定義 K-means 聚類中的聚類數?
有什麼方法可以確定最佳集群數,還是我應該嘗試不同的值並檢查錯誤率以確定最佳值?
我使用的方法是使用 CCC (Cubic Clustering Criteria)。當我將集群數量增加 1 時,我希望 CCC 增加到最大值,然後觀察 CCC 何時開始減少。那時,我將集群數量設為(本地)最大值。這類似於使用碎石圖來選擇主成分的數量。
SAS 技術報告 A-108 三次聚類標準 ( pdf )
= 觀察次數
=集群中的數字
= 變量數
= 聚類數
=數據矩陣
=聚類均值矩陣
=集群指標(如果 obs。在集群中, 否則為 0)
假設每個變量的均值為 0:
,
(總)矩陣==
(簇之間)矩陣 ==
(簇內)矩陣 ==
(跡線 = 對角線元素的總和)
堆疊列成一長列。Kronecker 乘積的
回歸和單位矩陣
計算對於這個回歸 - 相同
CCC 的想法是比較你得到一組給定的集群您可以通過將一組均勻分佈的點聚集在維空間。