Clustering

降維技術以最大限度地分離已知集群?

  • September 30, 2011

所以假設我在 R^n 中有一堆數據點,其中 n 非常大(比如 50)。我知道這些數據分為 3 個集群,並且我知道每個數據點屬於哪個集群。我想要做的就是在 2D 中可視化這些集群,以最大化我看到的可視集群間分離,目的是證明集群可以根據數據點在 R 中的位置輕鬆分離^n 一個人。

到目前為止,我一直在解決這個問題的方法是對數據點進行 PCA 轉換,然後隨機可視化成對的 PC,直到我找到一個集群似乎完全分離的 PC。不過,這種方法似乎很特別,而且似乎應該有一種簡單的方法來找到數據的 PCA 式旋轉,而不是最大化整體方差,而是最大化集群間的分離。

有沒有一種標準技術可以做到這一點?如果沒有,關於如何創建這種轉換的任何想法?

“數據的 PCA 式旋轉,不是最大化整體方差,而是最大化集群間分離”。判別分析正是這樣一種技術。主成分使沿它的方差最大化。判別函數沿它最大化集群方差/池內集群方差之間的比率。

引用自:https://stats.stackexchange.com/questions/16305

comments powered by Disqus