Clustering

在哪里切割樹狀圖?

  • October 17, 2010

層次聚類可以用樹狀圖表示。在某個級別切割樹狀圖會給出一組簇。在另一個層次上切割會產生另一組集群。你會如何選擇在哪里切割樹狀圖?有什麼我們可以考慮的最佳點嗎?如果我查看隨時間變化的樹狀圖,我應該在同一點切割嗎?

由於聚類分析本質上是一種探索性方法,因此沒有明確的答案;由此產生的層次結構的解釋是依賴於上下文的,從理論的角度來看,通常有幾個解決方案同樣好。

在一個相關問題中給出了幾條線索,在實踐中使用了哪些凝聚層次聚類的停止標準?我通常使用視覺標準,例如輪廓圖,以及某種數值標準,例如 Dunn 的有效性指數、Hubert 的 gamma、G2/G3 係數或校正後的 Rand 指數。基本上,我們想知道原始距離矩陣在聚類空間中的近似程度,因此對共相相關性的測量也是有用的。我還使用具有多個起始值的 k-means 和間隙統計量( mirror ) 來確定最小化內部 SS 的集群數量。與 Ward 層次聚類的一致性給出了集群解決方案穩定性的概念(您可以使用matchClasses()e1071包中)。

您將在 CRAN 任務視圖集群中找到有用的資源,包括pvclustfpcclv等。另外值得一試的是clValid包(在Journal of Statistical Software中有描述)。

現在,如果您的集群隨著時間的推移而變化,這就有點棘手了;為什麼選擇第一個集群解決方案而不是另一個?您是否期望某些人從一個集群移動到另一個集群,這是由於一個潛在的過程隨著時間而演變的結果?

正如您在上一個問題中向您建議的那樣,有一些措施試圖匹配具有最大絕對或相對重疊的集群。查看比較聚類 - Wagner 和 Wagner 的概述

引用自:https://stats.stackexchange.com/questions/3685

comments powered by Disqus