Natural-Language

使用 LSTM 處理語言建模任務中的未知單詞

  • March 19, 2016

對於自然語言處理 (NLP) 任務,通常使用word2vec 向量作為詞的嵌入。然而,可能有許多未知詞沒有被 word2vec 向量捕獲,僅僅是因為這些詞在訓練數據中出現的頻率不夠高(許多實現在將詞添加到詞彙表之前使用最小計數)。尤其是來自 Twitter 等文本的情況尤其如此,其中單詞經常拼寫錯誤。

在使用長短期 (LSTM) 網絡對情緒預測等 NLP 任務進行建模時,應該如何處理這些未知詞?我看到兩個選項:

  1. 向 word2vec 字典添加“未知單詞”標記。
  2. 刪除這些未知詞,使得 LSTM 甚至不知道該詞在句子中。

處理這些詞的首選方式是什麼?

選項 1(添加未知單詞標記)是大多數人解決此問題的方法。

選項 2(刪除未知詞)是一個壞主意,因為它以與 LSTM 的訓練方式不一致的方式轉換句子。

最近開發的另一種選擇是使用卷積神經網絡或單獨的 LSTM 為每個單詞動態創建單詞嵌入,該 LSTM 一次處理每個單詞的字符。使用這種技術,您的模型將永遠不會遇到無法為其創建嵌入的單詞。

引用自:https://stats.stackexchange.com/questions/202544

comments powered by Disqus