何時使用 LDA over GMM 進行聚類?
我有一個包含 168 維用戶活動的數據集,我想在其中使用無監督學習提取集群。在潛在狄利克雷分配 (LDA) 或高斯混合模型 (GMM) 中使用主題建模方法對我來說並不明顯,後者更像是貝葉斯方法。在這方面,我有兩個相關的問題:
- 這兩種方法的主要區別是什麼?我知道這兩個模型的基礎知識,但我很好奇是什麼讓一個真正與眾不同。問題/數據中的某些內容能否告訴我一個模型是否更合適?
- 如果我將這兩種方法應用於我的數據,我如何比較結果以查看哪種方法更好?
更新
168 個用戶活動變量是活動的計數,因此具有正離散值。沒有最大值,但大約 90% 的變量在區間內達到值.
將所有這些活動變量簡單地建模為描述它是零還是非零的二進制變量可能是有意義的,但我們對問題的了解還不夠,無法確定這一點。我們正在尋找的主要內容是對不同用戶活動集群的洞察力。
我不會使用高斯混合模型,因為它們要求成分分佈都是正態的。你有計數,所以 GMM 從定義上講是不合適的。
潛在狄利克雷分配(完全披露:我真的不知道主題建模)要求您的數據是多項式的,但在這種情況下您可以進行計數 - 它們將是變量不同類別出現的計數。另一種可能性是您的計數是不同變量的計數,例如具有多個泊松變量。這是一個關於您如何考慮數據的本體論問題。
考慮一個簡單的例子,我去雜貨店是因為我想要一些水果。我將購買一定數量的蘋果、橙子、桃子和香蕉。這些中的每一個都可以被視為一個單獨的泊松變量。當我回到家時,我把它們都放在一個水果碗裡。之後,當我想吃零食時,我可能不看就把手伸進碗裡,抓起兩片水果(例如,一個蘋果和一個桃子)。這可以被認為是從多項分佈中得出的。在這兩種情況下,我都有類別的數量,但我們對它們的看法不同。在第一種情況下,在我去雜貨店之前,我將購買的水果是已知的,但每個類別中購買的數量可能會有所不同。在第二種情況下,我不知道我會選擇哪種水果,但我知道我會從可能的類型中挑選兩種。
如果您的數據類似於水果碗示例,則 LDA 可能適合您。另一方面,如果它們像雜貨店的例子,你可以嘗試泊鬆有限混合建模。也就是說,您可以將混合建模與高斯/正態以外的分佈一起使用。GMM 是迄今為止最常見的;其他分佈(例如泊松)更具異國情調。我不知道它們在軟件中的實施範圍有多廣。如果你使用 R,谷歌搜索會導致在HTSCluster包和rebmix包中發現?PoisMixClus(注意我從來沒有使用過,也沒有做過泊松混合建模)。也有可能找到其他軟件的實現。
添加一些細節:我會說 LDA 至少與 GMM 一樣是貝葉斯技術。
- 我懷疑 LDA 和 GMM 之間最重要的區別是他們假設你擁有的數據類型。
- 您無法比較它們,因為它們用於不同類型的數據。(我也不想比較 LDA 和 Poisson MM,因為它們對計數的概念化不同。)
我不會將您的數據分為零/非零。