什麼是短文本聚類的好方法?
我正在研究文本聚類問題。數據包含幾個句子。有沒有一種很好的算法可以在短文本上達到高精度?
你能提供好的參考嗎?
KMeans、譜聚類等算法不能很好地解決這個問題。
這主要取決於您想要多少“最先進”(SOTA)與您希望走多深(雙關語……)。
如果您只能使用 word2vec、Glove 或 fastText 提供的淺詞嵌入,我認為 Word Mover Distance(WMD [是的,真的…])是測量(短)文檔距離的好功能 [1] . 過去我什至看過幾個 Python Notebooks 提供了這種距離測量的“教程”,所以它真的很容易上手。
但是,如果您對 SOTA 更感興趣,您將不得不研究深度(序列表示)學習,使用某種從句子中學習主題模型的循環網絡。除了集成(語義)單詞嵌入之外,這些方法通過使用依賴關係學習主題表示,超越了 [good, old] “bag-of-words” 方法句子中的單詞[s]。例如,Sentence Level Recurrent Topic Model (SLRTM) 是一個非常有趣的深度循環模型,它基於更傳統的 LDA(Blei 等人)或 LSA(Landauer 等人)的思想,但它只是一個 arXiv論文(因此,所有關於非同行評審研究的默認“用鹽警告”都應該適用……)[2]。儘管如此,如果您想進入這個兔子洞,該論文有許多出色的指針和參考資料可以幫助您開始研究。
最後,應該澄清的是,我並沒有聲稱這些是公認的詞袋模型和序列模型的最佳性能方法。但是它們應該讓您非常接近“最好的” SOTA 可能是什麼,並且至少應該作為一個很好的起點。
[1] 馬特 J.庫斯納等人。從詞嵌入到文檔距離。第 32 屆機器學習國際會議論文集,JMLR,2015。
[2] 飛天等。SLRTM:讓話題自己說話。arXiv 1604.02038, 2016。