Clustering

如何選擇聚類方法?如何驗證集群解決方案(保證方法選擇)?

  • February 13, 2016

聚類分析的最大問題之一是,當基於所使用的不同聚類方法(包括層次聚類中的不同鏈接方法)時,我們可能不得不得出不同的結論。

我想知道您對此的看法——**您將選擇哪種方法以及如何選擇。**有人可能會說“最好的聚類方法是給你正確的答案”;但我可能會質疑聚類分析應該是一種無監督的技術——那麼我怎麼知道哪種方法或聯繫是正確的答案呢?

一般來說:單獨的集群是否足夠強大,可以依賴?或者我們需要第二種方法並獲得基於兩者的共享結果?

我的問題不僅是關於驗證/評估聚類性能的可能方法,而且更廣泛——我們在什麼基礎上選擇/偏好一種聚類方法/算法而不是另一種聚類方法/算法。此外,當我們選擇一種方法來對我們的數據進行聚類時,是否有常見的警告我們應該環顧四周?

我知道這是一個非常籠統的問題,很難回答。我只想知道您是否有任何意見或建議或任何建議讓我了解更多相關信息。

他們經常說,沒有其他分析技術能像聚類分析那樣強烈地“播種即割”。

我可以想像這種或那種聚類方法的“正確性”的多個維度或方面:

  1. 集群比喻“我更喜歡這種方法,因為它構成了符合我在特定項目中的集群概念的集群(或這樣的方式)”。每個聚類算法或子算法/方法都暗示了其相應的聚類結構/構建/形狀。關於分層方法,我在此處此處的點之一中觀察到了這一點. 即一些方法給出典型的“類型”集群,其他給出“[按興趣]圈子”,還有其他“[政治]平台”、“類”、“鏈”等。選擇集群隱喻適合你的方法。例如,如果我將我的客戶群視為類型 - 或多或少的球形,中間有壓實,我會選擇 Ward 的鏈接方法或 K-means,但絕不選擇單一鏈接方法。如果我需要一個焦點代表點,我可以使用 medoid 方法。如果我需要篩選作為核心和外圍代表的點,我可以使用 DBSCAN 方法。
  2. 數據/方法假設“我更喜歡這種方法,因為我的數據性質或格式傾向於它”。我在上面的鏈接中也提到了這一重要而廣泛的觀點。不同的算法/方法可能需要不同類型的數據,或者對數據應用不同的鄰近度度量,反之亦然,不同的數據可能需要不同的方法。有定量數據的方法和定性數據的方法。混合定量+定性特徵極大地縮小了方法的選擇範圍。Ward 或K-means僅基於 - 顯式或隱式 - 僅基於(平方)歐幾里德距離接近度測量,而不是任意測量。二進制數據可能需要特殊的相似性度量,這反過來會強烈質疑使用某些方法,例如 Ward 或 K-means。大數據可能需要特殊的算法或特殊的實現。
  3. 內部有效性“我更喜歡這種方法,因為它給了我最清晰、緊密和孤立的集群”。從這個角度來看,選擇對您的數據顯示最佳結果的算法/方法。內部的簇越緊密、密集,外部的密度越小(或者簇之間的距離越寬)——內部有效性就越大。選擇並使用適當的內部聚類標準很多——Calinski-Harabasz、Silhouette 等;有時也稱為“停止規則”)來評估它。[謹防過度擬合:所有聚類方法都尋求最大化某些版本的內部有效性 $ ^1 $ (這就是聚類的意義所在),所以高有效性可能部分是由於給定數據集的隨機特性;擁有一個測試數據集總是有益的。]
  4. 外部效度“我更喜歡這種方法,因為它給了我背景不同的集群,或者與我所知道的真實集群相匹配的集群”。如果聚類分區呈現在某些重要背景(即未參與聚類分析)特徵上明顯不同的聚類,那麼它是生成該分區的方法的資產。使用任何適用於檢查差異的分析;還存在許多有用的外部聚類標準(蘭德、F-measure 等)。外部驗證案例的另一種變體是當您以某種方式知道數據中的真實集群(知道“基本事實”)時,例如您自己生成集群時。那麼你的聚類方法能夠多準確地發現真正的聚類就是外部有效性的衡量標準。
  5. 交叉效度“我更喜歡這種方法,因為它在數據的等效樣本上為我提供了非常相似的集群,或者很好地推斷出這些樣本”。有多種方法及其混合方法,其中一些更適用於某些聚類方法,而另一些則適用於其他方法。兩種主要方法是穩定性檢查和泛化性查看。檢查聚類方法的穩定性,將數據隨機拆分或重新採樣到部分相交或完全不相交的集合中,並對每個集合進行聚類;然後匹配並比較解決方案與一些緊急集群特徵(例如,集群的集中趨勢位置)是否在集合中穩定。檢查泛化性意味著在訓練集上進行聚類,然後使用其湧現的聚類特徵或規則來分配測試集的對象,另外還要對測試集進行聚類。然後比較測試集對象的分配結果和聚類結果的聚類成員關係。
  6. 解釋“我更喜歡這種方法,因為它給了我集群,解釋說,這些集群最有說服力地表明世界上存在意義”。這不是統計數據——這是你的心理驗證。結果對您、域以及可能的受眾/客戶有多大意義。選擇給出最可解釋、最辣的結果的方法。
  7. 合群。一些研究定期和所有研究偶爾會說*“我更喜歡這種方法,因為它在我的數據中給出了與我調查的所有其他方法相似的結果”*。這是一種啟發式但有問題的策略,它假設存在非常普遍的數據或非常普遍的方法。

第 1 點和第 2 點是理論上的,在獲得結果之前;獨靠這些點是傲慢、自信的探索策略。第 3、4 和 5 點是經驗性的,並遵循結果;唯一依靠這些點的是煩躁的、試探性的探索策略。第 6 點是創造性的,這意味著它否認任何結果以試圖重新證明它的合理性。第 7 點是忠誠的淡紫色。

第 3 點到第 7 點也可以作為您選擇“最佳”聚類數的判斷依據


$ ^1 $ 具體的內部聚類標準本身與聚類方法(也不與數據類型)“正交”。這就提出了一個哲學問題,這種有偏見或有偏見的標准在多大程度上是有用的(請參閱答案,只是注意到它)。

引用自:https://stats.stackexchange.com/questions/195456

comments powered by Disqus