999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的語音識別系統研究

2018-06-08 02:51:52劉鵬程袁三男劉虹
新型工業化 2018年5期
關鍵詞:深度模型

劉鵬程,袁三男,劉虹

(上海電力學院電子與信息工程學院,上海,200090)

0 引言

信息技術日新月異的進步使語音識別成為可能,且在全球范圍內得到了廣泛的關注。人工神經網絡(ANN)最早于20世紀80年代開始被引入聲學領域,并利用反向傳播方法(BP)對網絡進行訓練,極大地提高了語音識別的準確率和效率。但是,隨著相關研究的補充和完善,傳統神經網絡已經難以滿足使用需求,各種缺陷也越來越突出,此后,人們開始尋求新的識別方法,例如嘗試通過高斯混合模型(GMM)實現語音識別。2006年,著名學者Hinton將深度學習[1-2]引入語音識別過程,研究結果表明,此方法可以比較有效地防止陷入局部最優。以深度神經網絡(DNN)為基礎的聲學模型[3]性能遠好于傳統的高斯混合模型(GMM),因而得到了大范圍應用,極大地促進了語音識別的效果的優化。語音識別在人機交互的巨大潛力使得眾多國內外公司如蘋果和科大訊飛在語音識別的研究上投入了大量的人力和財力,并且也取得了不菲的成績,得到了商業上的巨大成功。語音識別的迅猛發展極大的方便了我們的生產和生活,也必將在未來的信息化時代寫下濃墨重彩的一筆。

1 隱馬爾科夫模型

1.1 概述

可以通過參數對特定的隱馬爾科夫模型進行表示[4]。模型的狀態集合是,其中N為狀態個數;代表不同狀態下能夠觀測到的輸出,集合中M代表可觀測符號數量;aij代表t時刻到t+1完成狀態轉換的概率,全部的aij共同構成矩陣A,即:B代表能夠觀測到的狀態的概率情況,分析過程中結合觀測量對HMM模型進行區分,包括離散和連續兩種類型。Ok為t時刻的觀測值,它是由不可見的內部狀態 qt=Sj決定的,則有: π 為初始狀態分布,有,。如圖1所示,HMM是個雙重隨機過程。下一時刻出現狀態轉移的概率僅取決于該時刻所在的位置,不受歷史位置信息的影響,是一種很有代表性的馬爾科夫鏈,通過參數A進行描述。通常用隨機過程B來表示依附于狀態的觀測事件的概率,得到觀測值序列。

圖1 HMM的雙重隨機過程Fig.1 The double random process of HMM

1.2 隱馬爾可夫模型的三個基本問題

確定模型的基本形式后,為了確保構建的模型符合實際,必須注意以下三個基本問題[5]:

1)評估問題:確定觀測序列及模型參數,對這些序列出現的概率進行分析,據此對模型進行相應的評估。通常用前向算法相對高效地完成模型的評估問題[6]。

2)譯碼問題:確定序列和參數 λ= {N , M,π,A,B},如何找出一定條件下最佳的隱狀態序列。利用(Viterbi)算法可以快速找出最佳路徑,因此一般通過該算法完成譯碼過程。

3)訓練問題:已知觀測序列,如何調整參數{π,A,B},使得P(O λ)最大。HMM 模型的參數估計問題通常使用Baum-Welch算法解決。

2 基于深度學習的語音識別系統的建立

2.1 語音輸入

本次實驗采用實驗室環境下錄制的孤立單詞、連續語音、有噪聲干擾、方言和遠場情況的語音作為輸入。錄制時將采樣頻率設置為16 KHz,對于各個采樣點采取16位量化,每一幀的長度為30 ms,幀移位10 ms,選擇單聲道。

2.2 語音信號的特征提取

語音識別系統的優劣在很大程度上由特征參數決定,因此必須選擇可以較好地代表語音生成與聽覺感知特點的參數。比較常用的參數包括有線性預測倒譜系數(LPCC) 和梅爾頻率倒譜系數(MFCC)[7-8]。其中,前者根據聲音的形成原理,對其初始特征進行表示,但是未能涉及到實際傳播途徑中必然存在的多種噪聲的影響,因此其識別質量差強人意;后者則是基于聽覺的感知原理,可以比較精確地表示聽覺器官接收信號的特點,識別效果較好。因此本文通過MFCC參數對信號特征進行提取。圖2描述了MFCC特征提取的過程。

圖2 梅爾頻率倒譜系數的提取Fig.2 Extraction of MFCC

2.3 聲學模型的建立

GMM-HMM系統具有構成簡單的優勢,但是面對大規模的數據往往難以處理,在降噪過程中也主要是在特征處理上做工作,識別率不高,魯棒性也不強。相比之下,DNN-HMM系統最突出的特點是通過DNN代替GMM,深度學習大量的參數可以對海量數據進行有效建模,通過底層網絡把噪聲濾去,高層網絡可以提取語音特征中更具區分性的特征,把需要的語音信息保存在上層,極大地增強了魯棒性,準確率與傳統方法相比提升了20%[9-11]。基于DNN-HMM的聲學模型如圖3所示。

整個模型可以表示為:

圖3 DNN-HMM聲學模型Fig.3 DNN-HMM acoustic model

式中:x 表示輸入的語音聲學特征;{Wl,bl}分別表示l層的連接權重和偏量; f()為隱含層的非線性激活函數。在最早提出的DNN-HMM模型中,DNN往往采取以sigmoid為基礎的非線性激活函數,現階段最新的研究進展證明線性單元(ReLUs)的應用效果更好。相比與sigmoid,它可以在不進行預訓練的情況下獲得更好的性能。ReLUs公式表達如下:

Softm ax函數代表不同單元對應的后驗概率。系統的輸出和對應的標注的相似程度,決定了模型性能的優劣。實驗選用的優化目標函數是交叉熵(CE)[7],可以描述實際輸出和目標輸出之間的相似程度,其數值越小代表越相似,表明模型的性能越理想[12]。基于CE準則的優化目標函數如下:

式中:t時刻第r句話在狀態s下對應Softmax層的實際 yrt(s),srt表示Xrt對應的標注。

2.4 語言模型的建立

語言模型是自然語言處理領域的基礎問題,主要是根據客觀語音信息而進行的語言抽象數學建模,包含了字詞之間的上下聯系和語義[13]。模型能夠動態檢測是否存在發音邊界,使不同的字或詞之間的區分變得清晰。模型包含了字詞間的上下文聯系和語義,在實踐過程中應用最多的是三音子模型。三音子模型同時考慮前后各一個音素,充分的利用了上下文的信息,大大提高了語音識別效率。實驗采用基于決策樹的方式對這些三音子模型進行聚類,每一個模型都可以進行訓練數據和參數的共享。在設計決策樹的方式以及由上至下的分裂過程中,可以輸入一定的語音學常識,減少運算量的同時也可以在識別中使用訓練數據未出現的三音子模型。

3 基于深度學習的語音識別

模型構建完畢后,需要通過系統對語音進行識別。識別過程如圖4所示。具體識別過程包括如下幾個步驟[14-17]:

1)對原始聲音進行一定的處理,例如預加重、分幀、加窗等;

2)計算每一幀聲音的梅爾頻率倒譜系數,得到一個輸入特征矩陣I(n×r),其中r為幀數;

3)通過深度神經網絡實現逐層的前向計算,獲得輸出矩陣 O(m ×r);

4)在輸出矩陣中,找到每一個列向量中的最大輸出概率值,構成一個具有r個元素的馬爾科夫鏈,其中每一個元素分別代表每一幀聲音的音素;

5)將上一步得到的Hr輸入模型中,對模型進行分析確定最高概率對應的路徑,獲取有關的文字信息,對識別結果進行輸出。

圖4 語音識別系統Fig.4 Speech recognition system

4 實驗結果及分析

分別采用GMM-HMM和DNN-HMM對孤立單詞、連續語音、有噪聲干擾、方言和遠場情況語音材料進行識別。表1所示為試驗結果,對表中數據進行觀察可以看到,DNN-HMM系統對于單個詞語進行識別的準確率達到97%,而GMM-HMM系統則僅有81%,前者的識別質量顯著高于后者。但是在部分條件下,例如噪聲較強時,DNN-HMM系統的識別率不足80%,其效果有待進一步提高。

表1 基于DNN-HMM模型的ASR與傳統模型對比Table 1 Comparison of ASR and traditional model based on DNN-HMM model

5 結束語

本文對隱馬爾科夫模型的相關理論進行了分析和探討,并利用實驗論證了基于DNN-HMM的語音識別系統與傳統系統相比在識別率方面得到了很大的提升。在連續語音、噪聲干擾、方言和遠場情況下,基于DNN-HMM的語音識別系統識別率不甚理想。為解決此類問題,一般需要在聲學模型中將CNN、RNN與DNN合理搭配,混合使用,發揮不同類型神經網絡各自的優越性,使識別率得到進一步提高。

[1] HINTON G E, SALAKHUTDINOV R R. Reducing the Dimensionality of Data with Neural Networks[J]. Science, 2006, 313(5786): 504-507.

[2] 余凱, 賈磊, 陳雨強, 等. 深度學習的昨天、今天和明天[J]. 計算機研究與發展, 2013, 50(9): 1799-1804.YU Kai, JIA Lei, CHEN Yu-qiang, et al. Yesterday, Today and Tomorrow of Deep Learning[J]. Computer Research and Development, 2013,50(9): 1799-1804.

[3] 趙永生, 徐海青, 吳立剛. 基于DNN-HMM模型的語音識別的語音導航系統[J]. 新型工業化, 2017, 7(2): 45-53.ZHAO Yong-sheng, XU Hai-qing, WU Li-gang. Speech Recognition System Based on DNN-HMM Model Speech Recognition Navigation System[J]. The Journal of New Industrialization, 2017, 7(2): 45-53.

[4] 劉韜. 基于隱馬爾可夫模型與信息融合的設備故障診斷與性能退化評估研究[D]. 上海:上海交通大學, 2014.LIU Tao. Research on Equipment Fault Diagnosis and Performance Degradation Based on Hidden Markov Model and Information Fusion[D].Shanghai: Shanghai Jiao Tong University, 2014.

[5] 游治勇. 基于字的分詞方法的研究與實現[D]. 成都:電子科技大學, 2015.YOU Zhi-yong. Research and Implementation of Word Segmentation Method[D]. Chengdu: University of Electronic Science and Technology, 2015.

[6] 王坤, 劉鶴飛, 蔣成飛. 隱馬爾可夫結構方程模型及其貝葉斯估計[J]. 數理統計與管理: 1-8.WANG Kun, LIU He-fei, JIANG Cheng-fei. Hidden Markov Structure Equation Model and its Bayesian Estimation [J]. Mathematical Statistics and Management: 1-8.

[7] 戴禮榮, 張仕良, 黃智穎. 基于深度學習的語音識別技術現狀與展望[J]. 數據采集與處理, 2017, 32(2): 221-231.DAI Li-rong, ZHANG Shi-liang, HUANG Zhi-ying. Current Situation and Prospect of Speech Recognition Technology Based on Deep Learning[J]. Data Acquisition and Processing, 2017, 32 (2): 221-231.

[8] AREL I, ROSE D C, KARNOWSKI T P. Deep Machine Learning - A New Frontier in Artificial Intelligence Research [Research Frontier][J].Computational Intelligence Magazine, IEEE, 2010, 5(4): 13-18.

[9] 蔡敏. 基于多特征組合優化的漢語數字語音識別研究[J]. 電子器件, 2013, 36(2): 282-284.CAI Min. Chinese Digital Speech Recognition Based on Multi Feature Combination Optimization[J]. Electronic Devices, 2013, 36 (2): 282-284.

[10] 胡石, 章毅, 陳芳, 等. 基于HMM模型語音識別系統中聲學模型的建立[J]. 通訊世界, 2017(8): 233-234.HU Shi, ZHANG Yi, CHEN Fang, et al. Establishment of Acoustic Model in Speech Recognition System Based on HMM Model[J].Communication World, 2017 (8): 233-234.

[11] 張仕良. 基于深度神經網絡的語音識別模型研究[D]. 合肥:中國科學技術大學, 2017.ZHANG Shi-liang. Speech Recognition Model Based on Deep Neural Network[D]. Hefei:University of Science & Technology, China, 2017.

[12] 張越. 語音識別:從技術應用到習慣應用[J]. 中國信息化, 2015(2): 30-31.ZHANG Yue. Speech Recognition: from Technology Application to Customary Application[J]. China Information Technology, 2015 (2): 30-31.

[13] 劉豫軍, 夏聰. 深度學習神經網絡在語音識別中的應用[J]. 網絡安全技術與應用, 2014(12): 28.LIU Yu-jun, XIA Cong. Application of Deep Learning Neural Network in Speech Recognition[J]. Network Security Technology and Applications, 2014(12): 28.

[14] 黃天蕓. 基于人工智能深度學習的語音識別方法[J]. 信息記錄材料, 2017, 18(9): 20-21.HUANG Tian-yun. Speech Recognition Method based on artificial intelligence deep learning[J]. Information Recording Material, 2017, 18(9): 20-21.

[15] HINTON G E, OSINDERO S, TEH Y W. A Fast Learning Algorithm for Deep Belief Nets[J]. Neural Computation, 2006, 18(7): 1527-1554

[16] 龐榮. 深度神經網絡算法研究及應用[D]. 成都: 西南交通大學, 2016.PANG Rong. Deep Neural Network Algorithm Research and Application [D]. Chengdu: Southwest Jiao Tong University, 2016.

[17] 張建明, 詹智財, 成科揚, 等. 深度學習的研究與發展[J]. 江蘇大學學報(自然科學版), 2015, 36(2): 191-200.ZHANG Jian-ming, ZHAN Zhi-cai, CHENG Ke-yang, et al. Research and Development of Deep Learning[J]. Journal of Jiangsu University(Natural Science Edition), 2015, 36 (2): 191-200.

猜你喜歡
深度模型
一半模型
深度理解一元一次方程
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
深度觀察
深度觀察
深度觀察
深度觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 99视频免费观看| 亚洲精品男人天堂| 伊人丁香五月天久久综合| 亚洲日韩精品无码专区97| 久久毛片免费基地| 欧美激情视频在线观看一区| 欧美性色综合网| 色偷偷一区| 亚洲成人在线免费观看| 欧美成人国产| 亚洲天堂网在线播放| 亚洲国产欧美国产综合久久 | 欧美成人亚洲综合精品欧美激情| 中文字幕资源站| 国产成人毛片| 国产波多野结衣中文在线播放| av在线人妻熟妇| 日韩欧美中文在线| 久久天天躁夜夜躁狠狠| 色综合久久久久8天国| 日本AⅤ精品一区二区三区日| 亚洲中文字幕在线观看| 亚洲人成网站在线观看播放不卡| 拍国产真实乱人偷精品| 午夜福利免费视频| 久久a级片| 国产国模一区二区三区四区| 偷拍久久网| 午夜激情福利视频| 国产在线观看91精品亚瑟| 亚洲精品无码日韩国产不卡| 性喷潮久久久久久久久| 日韩人妻无码制服丝袜视频| 亚洲狼网站狼狼鲁亚洲下载| 精品视频免费在线| 欧美精品色视频| 国产免费福利网站| 欧洲高清无码在线| 天天视频在线91频| 少妇高潮惨叫久久久久久| 免费国产小视频在线观看| 最新国语自产精品视频在| 99精品视频在线观看免费播放| 国产成人夜色91| 亚洲视频色图| 六月婷婷激情综合| 欧美啪啪网| 亚洲乱码在线视频| 国产手机在线小视频免费观看| 黄色三级网站免费| 一区二区三区四区精品视频| 久无码久无码av无码| 亚洲性视频网站| 中文字幕乱码中文乱码51精品| 四虎永久在线| 欧美亚洲激情| 日本一区二区不卡视频| 992tv国产人成在线观看| 久久婷婷人人澡人人爱91| 国产青青操| 国产欧美精品专区一区二区| 九九热精品免费视频| 中文字幕无码制服中字| 亚洲人成高清| 青青草国产一区二区三区| 999精品色在线观看| 日本一区二区三区精品视频| 欧美一区二区三区国产精品| 无码AV高清毛片中国一级毛片| 中国精品久久| 国产91av在线| 制服无码网站| 欧美色99| 伊人福利视频| 亚洲精品国产日韩无码AV永久免费网| 成人看片欧美一区二区| 欧洲欧美人成免费全部视频| 亚洲性影院| 丁香六月综合网| 久久久亚洲色| 色有码无码视频| 国产va在线观看|