楊 璐,郭文明,,韓 芳
(1.北京郵電大學計算機學院(國家示范性軟件學院),北京 100876;2.可信分布式計算與服務教育部重點實驗室,北京 100876;3.新疆工程學院信息工程學院,烏魯木齊 830023)
語音識別是讓計算機聽懂人類的語音,并轉換成人類能讀懂的文字,實現人與機器的交互。隨著互聯網的不斷發展,百度、阿里、科大訊飛等都開發出相對成熟的語音識別系統,但有些公司涉及內部語音保密和投資成本等問題,需要開發滿足自己需求的語音識別系統,本文基于此背景展開研究。
語音識別技術最早開始于1952 年,貝爾實驗室研發出的10 個孤立數字的識別系統。語音識別的目標是給定語音輸入的情況下,找到對應可能性最大的文字序列,根據此目標將語音識別分為聲學模型(acoustic model)和語言模型(language model)兩個部分,二者對語言現象訓練學習到的特征越多,識別結果越準確。但在很多語音識別的應用中,可能輸入一段較長語音或將多句話連續輸入,則識別的結果是沒有空格或標點符號的一連串漢字,為此需要為識別結果添加適當的標點停頓,增強文本的可讀性。
因此,本文引入語音端點檢測技術,通過捕捉語音中說話者的停頓位置添加標點符號,幫助人們更準確地理解文本,以DFCNN 輸出端融合CTC 作為聲學模型,實現模型的端到端訓練,引入Transformer作為強語言模型建立語音識別系統進行研究。
在聲學模型領域中,基于DNN-HMM 的混合模型架構,卷積神經網絡(convolutional neural network,CNN)能夠充分利……