用於執行主題建模/LDA 的 R 包:只有 topicmodels
和 lda
[關閉]
在我看來,只有兩個 R 包能夠執行潛在狄利克雷分配:
一個是**
lda
Jonathan Chang 所著;另一個topicmodels
**由 Bettina Grün 和 Kurt Hornik 撰寫。這兩個包在性能、實現細節和可擴展性方面有什麼區別?
實現:topicmodels 包為 Blei 等人的主題模型提供了 GSL C 和 C++ 代碼的接口。和潘等人。對於早期它使用 Variational EM,對於後者 Gibbs Sampling。請參閱http://www.jstatsoft.org/v40/i13/paper。該軟件包與 tm 軟件包中的實用程序配合得很好。
lda 包對許多類似於 GSL 庫中的模型使用折疊的 Gibbs 採樣器。然而,它是由包作者自己實現的,而不是由 Blei 等人實現的。因此,這種實現通常不同於在引入這些模型變體的原始論文中提出的估計技術,其中通常應用 VEM 算法。另一方面,該軟件包提供了比其他軟件包更多的功能。該軟件包還提供文本挖掘功能。
可擴展性:關於可擴展性,主題模型代碼本質上可以擴展為接口其他用 C 和 C++ 編寫的主題模型代碼。lda 包似乎更依賴作者提供的具體實現,但 Gibbs 採樣器可能允許指定您自己的主題模型。對於不可擴展性問題,前者在 GPL-2 下獲得許可,後者在 LGPL 下獲得許可,因此它可能取決於您需要擴展它的目的(GPL-2 在開源方面更嚴格,即您不能使用它在專有軟件中)。
性能:我在這裡幫不了你,到目前為止我只使用過topicmodels。
結論:
我個人使用
topicmodels
,因為它有很好的文檔記錄(參見上面的 JSS 論文)並且我信任作者(Grün 也實現了 flexmix,Hornik 是 R 核心成員)。