Neural-Networks
深度神經網絡中的senones是什麼?
我正在閱讀這篇論文:Skype 翻譯,他們使用 CD-DNN-HMM(具有隱馬爾可夫模型的上下文相關深度神經網絡)。我可以理解項目的想法和他們設計的架構,但我不明白senones是什麼。我一直在尋找定義,但我沒有找到任何東西
— 我們提出了一種新穎的上下文相關 (CD) 模型,用於大詞彙量語音識別 (LVSR),該模型利用了在使用深度信念網絡進行電話識別方面的最新進展。我們描述了一種預訓練的深度神經網絡隱馬爾可夫模型 (DNN-HMM) 混合架構,該架構訓練 DNN 以產生對Senones(並列三音素狀態)的分佈作為其輸出
如果您能給我一個解釋,我將不勝感激。
編輯:
我在這篇論文中找到了這個定義:
我們建議用馬爾可夫狀態對子語音事件進行建模,並將語音隱藏馬爾可夫模型中的狀態視為我們的基本子語音單元**——senone**。詞模型是依賴於狀態的senones的串聯,並且senones可以在不同的詞模型之間共享。
我猜它們在第一篇論文的架構的隱馬爾可夫模型部分中使用了。它們是 HMM 的狀態嗎?DNN 的輸出?
這是我終於明白的:
在此架構中,DNN 用於將噪聲轉換為音素。
在語音學和語言學中,phone這個詞可以指任何被視為物理事件的語音或手勢,而不考慮它在語言音系中的位置。
DNN 的最後一層由所有可能的音素組成,每個音素有一個輸出神經元。這些神經元的激活是輸入噪聲對應於該電話的概率。
這些激活的組合是隱馬爾可夫模型的輸入,並建立了 HMM 的 senones,它通過字典獲得候選文本列表。
senones 是 HMM 的狀態,在下圖中,senones 將是 x1 x2 和 x3。
如果我說錯了,請糾正我,希望它有幫助!