Feature-Selection

使用 LDA 生成的主題詞來表示文檔

  • September 6, 2014

我想通過將每個文檔表示為一組特徵來進行文檔分類。我知道有很多方法:BOW,TFIDF,…

我想使用 Latent Dirichlet Allocation (LDA) 來提取 EACH SINGLE 文檔的主題關鍵字。文檔由這些主題詞表示。但是我不知道這是否合理,因為我認為LDA通常用於提取A BUNCH OF文檔共享的主題詞。

LDA 可以用來檢測 A SINGLE 文檔的主題嗎?

LDA 可以用來檢測 A SINGLE 文檔的主題嗎?

是的,在其特定的“主題”表示中,並給出了(通常相關的)文檔的訓練語料庫。

LDA 將主題表示為單詞的分佈,將文檔表示為主題的分佈。也就是說,LDA 的一個目的就是將每個文檔的概率表示為一組主題。例如,LDA 實現gensim可以為任何給定文檔返回此表示。

但這取決於語料庫中的其他文檔:如果作為不同語料庫的一部分進行分析,任何給定的文檔都會有不同的表示。

這通常不被認為是一個缺點:LDA 的大多數應用程序都集中在相關文檔上。介紹 LDA的論文將其應用於兩個語料庫,一篇美聯社文章和一篇科學文章摘要。Edwin Chen 平易近人的博客文章將 LDA 應用於 Sarah Palin 擔任阿拉斯加州長期間的一系列電子郵件。

如果您的應用程序需要將文檔分成已知的、互斥的類,那麼 LDA 派生的主題可以用作分類的特徵。事實上,最初的論文就是用 AP 語料庫做的,結果很好。

與此相關的是,Chen 的演示並未將文檔分類為專有類別,但他的文檔主要集中在單個 LDA 主題上的概率。正如 David Blei 在此視頻講座中解釋的那樣,可以選擇 Dirichlet 先驗來支持稀疏性。更簡單地說,正如他的幻燈片所說,“一份文件因使用許多主題而受到懲罰”。這似乎是最接近的 LDA 可以到達單個無監督主題,但當然不能保證每個文檔都可以這樣表示。

引用自:https://stats.stackexchange.com/questions/114535

comments powered by Disqus