Clustering

如何確定正確的集群數量?

  • February 9, 2012

我們在k-means 聚類中找到聚類中心並將點分配給 k 個不同的聚類 bin,這是一種非常知名的算法,幾乎在網絡上的每個機器學習包中都可以找到。但在我看來,缺少的也是最重要的部分是選擇正確的 k。它的最佳價值是什麼?而且,最好的意思是什麼?

我使用 MATLAB 進行科學計算,其中查看剪影圖作為決定此處討論的 k 的一種方式。但是,我會對貝葉斯方法更感興趣。任何建議表示讚賞。

這已經在stackoverflow上被問過幾次:hereherehere。您可以看看那邊的人群對這個問題(或其中的一個小變體)的看法。

讓我也複製我自己對這個問題的回答,在 stackoverflow.com 上:

不幸的是,沒有辦法自動設置“正確”K,也沒有定義“正確”是什麼。沒有一種簡單或複雜的有原則的統計方法可以設置“正確的 K”。有一些啟發式的經驗法則有時有效,有時無效。

這種情況更為普遍,因為許多聚類方法都有這些類型的參數,我認為這是聚類/無監督學習研究社區中一個很大的開放問題。

引用自:https://stats.stackexchange.com/questions/23472

comments powered by Disqus