Neural-Networks

深度神經網絡中的senones是什麼?

  • November 24, 2015

我正在閱讀這篇論文:Skype 翻譯,他們使用 CD-DNN-HMM(具有隱馬爾可夫模型的上下文相關深度神經網絡)。我可以理解項目的想法和他們設計的架構,但我不明白senones是什麼。我一直在尋找定義,但我沒有找到任何東西

— 我們提出了一種新穎的上下文相關 (CD) 模型,用於大詞彙量語音識別 (LVSR),該模型利用了在使用深度信念網絡進行電話識別方面的最新進展。我們描述了一種預訓練的深度神經網絡隱馬爾可夫模型 (DNN-HMM) 混合架構,該架構訓練 DNN 以產生對Senones(並列三音素狀態)的分佈作為其輸出

如果您能給我一個解釋,我將不勝感激。

編輯:

我在這篇論文中找到了這個定義:

我們建議用馬爾可夫狀態對子語音事件進行建模,並將語音隱藏馬爾可夫模型中的狀態視為我們的基本子語音單元**——senone**。詞模型是依賴於狀態的senones的串聯,並且senones可以在不同的詞模型之間共享。

我猜它們在第一篇論文的架構的隱馬爾可夫模型部分中使用了。它們是 HMM 的狀態嗎?DNN 的輸出?

這是我終於明白的:

在此架構中,DNN 用於將噪聲轉換為音素。

在語音學和語言學中,phone這個詞可以指任何被視為物理事件的語音或手勢,而不考慮它在語言音系中的位置。

在此處輸入圖像描述

DNN 的最後一層由所有可能的音素組成,每個音素有一個輸出神經元。這些神經元的激活是輸入噪聲對應於該電話的概率。

這些激活的組合是隱馬爾可夫模型的輸入,並建立了 HMM 的 senones,它通過字典獲得候選文本列表。

senones 是 HMM 的狀態,在下圖中,senones 將是 x1 x2 和 x3。

在此處輸入圖像描述

如果我說錯了,請糾正我,希望它有幫助!

引用自:https://stats.stackexchange.com/questions/183438

comments powered by Disqus