什麼是短文本聚類的好方法？

February 15, 2017

我正在研究文本聚類問題。數據包含幾個句子。有沒有一種很好的算法可以在短文本上達到高精度？

你能提供好的參考嗎？

KMeans、譜聚類等算法不能很好地解決這個問題。

這主要取決於您想要多少“最先進”（SOTA）與您希望走多深（雙關語……）。

如果您只能使用 word2vec、Glove 或 fastText 提供的淺詞嵌入，我認為 Word Mover Distance（WMD [是的，真的…]）是測量（短）文檔距離的好功能 [1] . 過去我什至看過幾個 Python Notebooks 提供了這種距離測量的“教程”，所以它真的很容易上手。

但是，如果您對 SOTA 更感興趣，您將不得不研究深度（序列表示）學習，使用某種從句子中學習主題模型的循環網絡。除了集成（語義）單詞嵌入之外，這些方法通過使用依賴關係學習主題表示，超越了 [good, old] “bag-of-words” 方法句子中的單詞[s]。例如，Sentence Level Recurrent Topic Model (SLRTM) 是一個非常有趣的深度循環模型，它基於更傳統的 LDA（Blei 等人）或 LSA（Landauer 等人）的思想，但它只是一個 arXiv論文（因此，所有關於非同行評審研究的默認“用鹽警告”都應該適用……）[2]。儘管如此，如果您想進入這個兔子洞，該論文有許多出色的指針和參考資料可以幫助您開始研究。

最後，應該澄清的是，我並沒有聲稱這些是公認的詞袋模型和序列模型的最佳性能方法。但是它們應該讓您非常接近“最好的” SOTA 可能是什麼，並且至少應該作為一個很好的起點。

[1] 馬特 J.庫斯納等人。從詞嵌入到文檔距離。第 32 屆機器學習國際會議論文集，JMLR，2015。

[2] 飛天等。SLRTM：讓話題自己說話。arXiv 1604.02038, 2016。

引用自：https://stats.stackexchange.com/questions/262066

comments powered by Disqus

什麼是短文本聚類的好方法？

相關問答

為什麼特徵向量揭示譜聚類中的組

2000 種不同產品的時間序列預測策略？

PCA 之前的標準化與縮放

檢查字符串是否不是隨機的

維度的詛咒——餘弦相似度是否更好，如果是，為什麼？[複製]

Why is t-SNE not used as a dimensionality reduction technique for clustering or classification?