Clustering

不需要預先指定聚類數量的聚類方法

  • October 20, 2016

是否有任何“非參數”聚類方法我們不需要指定聚類的數量?以及其他參數,例如每個集群的點數等。

需要您預先指定聚類數量的聚類算法是少數。有大量的算法沒有。它們很難概括;這有點像要求描述任何不是貓的生物。

聚類算法通常分為廣泛的領域:

  1. 分區算法(如k-means及其後代)
  2. 分層聚類(如@Tim 所述
  3. 基於密度的聚類(例如DBSCAN
  4. 基於模型的聚類(例如,有限高斯混合模型潛在類分析

可以有其他類別,人們可以不同意這些類別以及哪些算法屬於哪個類別,因為這是啟發式的。然而,類似這種方案的東西很常見。從這裡開始,主要只有分區方法 (1) 需要預先指定要查找的集群數量。需要預先指定哪些其他信息(例如,每個集群的點數),以及將各種算法稱為“非參數”是否合理,同樣是高度可變的並且難以總結。

分層聚類不需要您像 k-means 那樣預先指定聚類的數量,但您確實從輸出中選擇了一些聚類。另一方面,DBSCAN 兩者都不需要(但它確實需要指定“鄰居”的最小點數——儘管有默認值,所以在某種意義上你可以跳過指定——這確實為簇中模式的數量)。GMM 甚至不需要這三個中的任何一個,但確實需要關於數據生成過程的參數假設。據我所知,沒有一種聚類算法永遠不需要您指定集群的數量、每個集群的最小數據數量或集群內數據的任何模式/排列。我不明白怎麼可能。

它可能會幫助您閱讀不同類型聚類算法的概述。以下可能是一個開始的地方:

  • Berkhin, P. “聚類數據挖掘技術調查” ( pdf )

引用自:https://stats.stackexchange.com/questions/241381

comments powered by Disqus

相關問答