Machine-Learning

詞嵌入算法在性能方面

  • September 22, 2015

我試圖將大約6000 萬個短語嵌入到向量空間中,然後計算它們之間的餘弦相似度。我一直在使用 sklearnCountVectorizer和一個自定義構建的分詞器功能,該功能產生一元和二元。事實證明,要獲得有意義的表示,我必須允許大量的列,與行數成線性關係。這會導致令人難以置信的稀疏矩陣並降低性能。如果只有大約 10,000 列就不會那麼糟糕了,我認為這對於詞嵌入來說是相當合理的。

我正在考慮嘗試使用 Google 的word2vec,因為我很確定它會產生更低維度和更密集的嵌入。但在此之前,是否還有其他可能值得一看的嵌入?關鍵要求是能夠擴展大約 6000 萬個短語(行)。

我對詞嵌入領域很陌生,所以任何建議都會有所幫助。

我還應該補充一點,我已經在使用奇異值分解來提高性能。

最近有一些關於使用玻爾茲曼機動態分配 word2vec(skip gram)維度的​​工作。看看這篇論文:

“無限維詞嵌入”-Nalsnick, Ravi

基本思想是讓您的訓練集決定您的 word2vec 模型的維度,該模型受到與維度大小相關的正則化項的懲罰。

上面的論文對單詞做了這個,我很想知道它在短語中的表現如何。

引用自:https://stats.stackexchange.com/questions/173728

comments powered by Disqus