Machine-Learning
LDA 與 word2vec
我試圖了解潛在 Dirichlet 分配和word2vec之間的相似度以計算單詞相似度。
據我了解,LDA 將單詞映射到潛在主題的概率向量,而 word2vec 將它們映射到實數向量(與逐點互信息的奇異值分解有關,請參閱O. Levy、Y. Goldberg,“Neural Word Embedding作為隱式矩陣分解”;另請參閱word2vec 是如何工作的?)。
我對理論關係(一種可以被認為是一種概括,或另一種的變體)和實際關係(何時使用一種而不是另一種)都感興趣。
有關的:
對主題模型和詞共現方法的回答涵蓋了差異(skip-gram word2vec 是逐點互信息(PMI)的壓縮)。
所以:
- 兩種方法都不是另一種方法的概括,
- word2vec 允許我們使用矢量幾何(如單詞類比,例如 $ v_{king} - v_{man} + v_{woman} \approx v_{queen} $ ,我寫了word2vec的概述)
- LDA 的相關性高於二元,
- LDA 提供可解釋的主題。
在幻燈片 word2vec、LDA 中討論了一些差異,並介紹了一種新的混合算法:lda2vec - Christopher Moody。