999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多尺度殘差深度卷積神經(jīng)網(wǎng)絡的語音識別

2020-11-12 10:39:34袁三男
計算機應用與軟件 2020年11期
關(guān)鍵詞:模型

劉 虹 袁三男

(上海電力大學電子與信息工程學院 上海 200090)

0 引 言

自動語音識別(Automatic Speech Recognition,ASR)技術(shù)是一種將人類語音轉(zhuǎn)換成文字的技術(shù),語音識別的任務主要有聲紋識別、關(guān)鍵詞識別、語言辨識、連續(xù)語音識別[1]。語音識別屬于模式識別,主要通過模型算法識別聲音向量,即語音的特征參數(shù),最終給出識別結(jié)果,而語音識別的最終目標是能夠在不同環(huán)境下,依舊能準確地識別出說話人說的內(nèi)容[2]。早期語音識別的聲學模型主要是混合高斯隱馬爾可夫模型(Gaussian Mixture Model-Hidden Markov Model,GMM-HMM),但是該模型在嘈雜環(huán)境下的識別效果較差,無法滿足現(xiàn)代自動語音識別的要求[3]。從2009年開始,深度學習的發(fā)展使得大詞匯量的語音識別成為可能。基于深度神經(jīng)網(wǎng)絡(Deep Neural Network,DNN)的系統(tǒng)取代了GMM-HMM模型成為了主流語音識別的模型[4],但由于模型本身的缺陷,語音識別的識別率難以繼續(xù)得到提高。由于語音是上下文相關(guān)的,因此長短時記憶神經(jīng)網(wǎng)絡(LSTM)的出現(xiàn)大大提高了語音識別的準確度,LSTM有著強大的序列建模能力[5]。同時,Graves等[6]將聯(lián)結(jié)時序分類技術(shù)引入到循環(huán)神經(jīng)網(wǎng)絡的訓練中,完成了序列的輸入和輸出自動對齊的任務。目前識別率較好的語音識別的模型主要將CNN和LSTM結(jié)合到一起,CNN用來提取特征,LSTM對序列建模,但是CNN的層數(shù)一般是兩到三層,表達能力有限,提取上下文的相關(guān)性主要還是依靠LSTM網(wǎng)絡。但是LSTM的記憶模塊較小,神經(jīng)網(wǎng)絡的訓練速度很慢,且實時性較差。

本文提出一種基于多尺度殘差深度卷積神經(jīng)網(wǎng)絡的語音識別模型,由于卷積神經(jīng)早期用在語音識別中主要是提取特征,卷積層數(shù)也較少,限制了卷積神經(jīng)網(wǎng)絡對語音識別的表達能力。因此,本文結(jié)合多尺度分析和深度殘差網(wǎng)絡,提取語音特征圖中不同尺度的特征,將這些特征進行融合,最后結(jié)合聯(lián)結(jié)時序分類算法構(gòu)建端到端的中文語音識別模型,擺脫序列建模對LSTM的依賴。

1 多尺度殘差深度卷積網(wǎng)絡

隨著激活函數(shù)、批量歸一化和殘差機制等各類算法的出現(xiàn),卷積神經(jīng)網(wǎng)絡向著更深層次的方向發(fā)展,圖像識別的準確率得到了進一步的提升[7]。但在語音識別中,目前主流神經(jīng)網(wǎng)絡框架中的卷積層的層數(shù)只有幾層,序列建模仍然依賴LSTM網(wǎng)絡,限制了卷積神經(jīng)網(wǎng)絡在語音識別領(lǐng)域中的發(fā)展。

1.1 卷積神經(jīng)網(wǎng)絡

CNN主要由卷積層、池化層、全連接層、激活函數(shù)組成,卷積層用來提取特征參數(shù),池化層對特征圖進行壓縮,而全連接層充當分類器的作用[8]。池化層又分為最大池化和平均池化,最大池化采用特征圖的局部最大值達到特征降維的目的,在有噪聲的語音中,相鄰幀的時頻圖的局部最大值通常為語音,局部最小值為噪聲,最大池化層會對含噪語音的時頻圖進行篩選,提高語音的分辨率,降低噪聲,因此本文采用最大池化層[9]。CNN的激活函數(shù)一般使用線性整流函數(shù)(Rectifiler Linear Unit,ReLU)。批量歸一化(Batch Normalization,BN)技術(shù)的出現(xiàn)有效地解決了神經(jīng)網(wǎng)絡內(nèi)部協(xié)變量轉(zhuǎn)移的問題,大大加快了神經(jīng)網(wǎng)絡的訓練速度[10]。隨機失活層(Dropout)使網(wǎng)絡的泛化性能得到提高,隨機響應網(wǎng)絡的節(jié)點,保證了網(wǎng)絡的稀疏性[11],本文同時引入空洞卷積,在相同的卷積核大小的情況下,空洞卷積通過改變空洞率的大小來改變感受野的大小,網(wǎng)絡的參數(shù)量不變的同時,又獲得更多的上下文信息,空洞卷積實際的卷積核大小計算公式如下:

K=k+(k-1)(r-1)

(1)

式中:k為原始卷積核的大小;r為擴張率;K為空洞卷積的實際感受野大小。

1.2 殘差學習機制

批量歸一化和Dropout層的出現(xiàn)加深了CNN的深度,通常網(wǎng)絡越深,訓練精度越高。但是隨著網(wǎng)絡層數(shù)的增加,網(wǎng)絡參數(shù)變得難以優(yōu)化[12],訓練精度反而會下降。深度殘差網(wǎng)絡是2015年提出的深度卷積網(wǎng)絡,其特點是簡單高效,并能有效地解決網(wǎng)絡深度變深以后的網(wǎng)絡性能退化的問題[13]。殘差網(wǎng)絡通過學習輸入到輸出的目標函數(shù)與原輸入的殘差量,將殘差量與原始輸入量相加,得到最終的目標映射函數(shù),若輸入變量為x,目標輸出的實際映射為H(xl),則殘差映射F(xl,Wl)可以定義為:

F(xl,Wl)=H(xl)-xl

(2)

式中:xl為l層的輸入量;Wl為l層的權(quán)重矩陣。通過“捷徑連接”的方式,直接把輸入xl傳到輸出作為初始結(jié)果,輸出結(jié)果為H(xl)=F(xl,Wl)+xl,當F(xl,Wl)=0時,H(xl)=xl。

1.3 多尺度特征

語音當前的狀態(tài),與前后的狀態(tài)都有關(guān),網(wǎng)絡層數(shù)越多,丟失的細節(jié)信息越多,因此本文引入多尺度特征。圖1為一段純凈語音的時頻圖,圖2為加了噪聲的語音時頻圖,兩幅圖所表示的語音內(nèi)容相同,橫向為時間軸,縱向為頻率軸,該段語音有16 s,時頻圖的時間軸較長。時頻圖反映了語音的信號強度在不同頻段內(nèi)隨時間的變化情況。不同頻率中顏色深的地方隨著時間的推移,延長成聲紋,由圖1可以看出,語音信號的能量大多集中在低頻,高頻能量較少,但高頻能量中包含很多語音的細節(jié)部分,這些細節(jié)部分也會影響語音識別的結(jié)果。由圖2可知,在噪聲背景下,語音時頻圖的紋理受到了干擾,但是高低頻段某些紋理特征和輪廓信息依舊存在,因此模型既要能提取到細節(jié)信息,又要提取整體的輪廓信息。本文采用不同大小的卷積核以及不同空洞率的空洞卷積獲取語音信號的細節(jié)信息和上下文相關(guān)性,卷積核越大,感受野越大,并對語音的時間維度和頻率維度建模。圖3中的scale1和scale2為兩個多尺度子空間,scale1的卷積核大小為3,scale2的卷積核大小為5,scale1和scale2各包含兩個殘差網(wǎng)絡,Conv表示卷積層,Max_pool表示最大池化層,箭頭所示即為殘差結(jié)構(gòu),殘差網(wǎng)絡采用“捷徑連接”的方式,相同的特征圖在兩個不同尺度空間下會有不同的表達形式,達到信息互補的目的。因此將這兩個尺度空間融合,得到具有較好語義能力特征參數(shù),從低層往高層逐層提取特征,得到全局信息,既可以得到相鄰幀之間的相關(guān)性,也可以獲取不相鄰幀之間的相關(guān)性。若scale1網(wǎng)絡的輸出為fs1(x),scale2網(wǎng)絡的輸出為fs2(x),則融合后網(wǎng)絡輸出為fs1(x)+fs2(x)。

圖1 語音信號的時頻圖

圖2 含噪語音的時頻圖

圖3 多尺度殘差深度神經(jīng)網(wǎng)絡的語音識別模型

2 連接時序CTC的應用

CTC通常和LSTM以及RNN一起建模,目前主流的語音識別模型都含有LSTM或者RNN,但LSTM和RNN的訓練受到計算機計算能力和內(nèi)存的限制,訓練周期較長,不利于參數(shù)調(diào)整和優(yōu)化,CNN可借助其強大的并行運算能力大大縮短訓練周期。語音識別中常用HMM進行幀對齊,將每一幀數(shù)據(jù)對齊到HMM狀態(tài)下[14],這種強制對齊的方法并不合理,因為語音中靜音狀態(tài)并沒有對應的標簽,而CTC不需要預先將輸入和輸出強制對齊。

在給定輸入序列下X,經(jīng)過Softmax層輸出之后,網(wǎng)絡的輸出為P(qt|X),qt為t時刻的輸出,則標簽序列l(wèi)為所有路徑概率總和為:

(3)

式中:Γ(qt)為標簽序列的多對一的映射。因為同一個標簽序列可能有多條路徑與其對應,所以需要去掉路徑中的重復的標簽和空白標簽。qt∈A,t=1,2,…,T,A為加了空白標簽“—”的標簽集合,輸出序列中概率最大的標注序列為:

(4)

CTC的損失函數(shù)是所有標簽的負對數(shù)概率之和,可以通過反向傳播訓練CTC網(wǎng)絡:

H(x)=-logP(l|X)

(5)

本文所用到的模型框架如圖3所示,輸入為語音的時頻特征(500×250),分別輸入scale1和scale2兩個尺度空間,提取不同尺度的特征,兩個尺度空間融合后,將融合后的特征參數(shù)輸入全連接層。全連接層共2層,第一層有256個網(wǎng)絡節(jié)點,第二層網(wǎng)絡節(jié)點的個數(shù)為2 667個,加上了一個空白字符。通過Softmax層連接CTC模型,學習率為0.001,batchsize為8,所有卷積層和池化層后都添加了dropout層。CTC在海量訓練數(shù)據(jù)的條件下不再需要語言模型,因此本文的模型直接以漢字為建模單元,構(gòu)建端到端的語音識別模型。

3 實 驗

3.1 實驗環(huán)境和數(shù)據(jù)

本文基于THCHS30進行實驗,THCHS30數(shù)據(jù)庫是由清華大學發(fā)布的中文語音庫,有35小時的語音數(shù)據(jù),數(shù)據(jù)庫內(nèi)容大部分來自新聞語料,全部為中文普通話,每個音頻16 s左右。將該數(shù)據(jù)集中10 000句作為訓練集,893句作為驗證集,2 495句作為測試集。該數(shù)據(jù)集還提供了含有噪聲的語音數(shù)據(jù),噪聲環(huán)境主要是咖啡館、汽車內(nèi)噪聲和白噪聲,可用于模型在不同噪聲環(huán)境下的性能測試。實驗采用的操作系統(tǒng)是Ubuntu 16.04,GPU為Rtx2080ti,實驗平臺為Tensorflow 3,Python 3.6。

3.2 實驗結(jié)果及分析

(1) 不同模型的對比。將本文模型與BLSTM-CTC模型、DCNN模型、CNN-LSTM模型進行對比。DCNN模型即scale1和scale2。

BLSTM-CTC模型的輸入特征為600×39維的二階差分MFCC特征參數(shù),其中BLSTM聲學模型包含3層隱藏層,第一層和第二層包含共256個前向和后向的LSTM單元,第三層為512個前向和后向的LSTM單元。解碼單元CTC模型,batch size設置為8,學習率為0.001。

DCNN1模型的結(jié)構(gòu)采用scale1尺度空間的結(jié)構(gòu),卷積核大小為3,經(jīng)過兩個殘差網(wǎng)絡和最后一層池化層后,輸入三層全連接層,第一層全連接層有256個網(wǎng)絡節(jié)點,第二層有512個神經(jīng)網(wǎng)絡單元,第三層有2 667個網(wǎng)絡節(jié)點,batch size為8,學習率為0.001。DCNN2模型采用scale2尺度空間的結(jié)構(gòu),卷積核大小為5,全連層結(jié)構(gòu)與DCNN1結(jié)構(gòu)一致。

CNN-LSTM模型結(jié)構(gòu)由三層卷積、三層池化層、兩層BLSTM隱藏層、一層全連接層組成。輸入特征為600×39的二階差分MFCC特征參數(shù)。卷積核大小為3,池化層選擇1×3,只對頻率維度進行池化。第一層隱藏層有256個網(wǎng)絡節(jié)點,第二層有512個神經(jīng)網(wǎng)絡單元,全連接層有2 667個節(jié)點。batch size為8,學習率為0.001。

本文提出的語音識別模型的識別率比單一尺度空間、BLSTM網(wǎng)絡和CNN-LSTM網(wǎng)絡的都高,相對于BLSTM模型,驗證集和測試集的識別率都提高9%左右,相對于DCNN1和DCNN2模型,識別率分別提高5%和10%左右,相對于CNN-LSTM網(wǎng)絡,識別率提高3%左右。不同模型下的語音識別率如表1所示,只含CNN的語音識別模型每輪的訓練時間比BLSTM模型縮短6倍左右,比CNN-LSTM模型縮短4倍左右。

表1 不同模型下的語音識別率

(2) 不同模型的抗噪聲性能對比。本文同時還驗證不同模型的抗噪聲性能,數(shù)據(jù)集中包含咖啡館噪聲(cafe),汽車噪聲(car)和白噪聲(white),信噪比為0 dB。將這些噪聲加入待識別的語音中,實驗結(jié)果如表2所示,CNN有一定的抗噪聲性能,而本文提出的multi-scale DCNN 模型的抗噪聲性能比BLSTM網(wǎng)絡、DCNN網(wǎng)絡和CNN-LSTM模型都要好,更具有實用性。

表2 不同噪聲類型下的語音識別率 %

(3) 低信噪比下的識別率變化。本文還對比不同噪聲在低信噪比下的BLSTM、DCNN1、CNN-LSTM模型和本文模型的誤碼率。由圖4-圖6可知,在低信噪比下,本文提出的多尺度殘差深度神經(jīng)網(wǎng)絡比BLSTM網(wǎng)絡的抗噪聲性能更加穩(wěn)定,噪聲越強,BLSTM網(wǎng)絡的識別率較差并且識別率下降更快,不利于實際生活中的應用。而DCNN網(wǎng)絡和CNN-LSTM網(wǎng)絡的抗噪聲性能比BLSTM網(wǎng)絡好,在cafe和car噪聲下,變化相對平緩,但是在白噪聲下,識別率也下降較快。因此,本文模型具有更好的魯棒性。

圖4 不同信噪比下不同模型的誤碼率(cafe)

圖5 不同信噪比下不同模型的誤碼率(car)

圖6 不同信噪比下不同模型的誤碼率(white)

4 結(jié) 語

本文針對傳統(tǒng)語音識別模型訓練時間較長以及抗噪聲性能較差的問題,提出多尺度殘差深度神經(jīng)網(wǎng)絡的端到端語音識別模型。該模型不僅加快網(wǎng)絡的訓練速度,而且提高語音識別的識別率和抗噪聲性能。為了提取更多的上下文信息,還引入空洞卷積和多尺度特征,增大感受野,提升網(wǎng)絡的泛化性能,降低過擬合的概率。實驗證明,該模型相對于傳統(tǒng)的語音識別的模型,有更好的穩(wěn)定性和實用性。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數(shù)模型及應用
p150Glued在帕金森病模型中的表達及分布
函數(shù)模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 色偷偷一区| 久久99国产综合精品1| 国产精品高清国产三级囯产AV| 97人妻精品专区久久久久| 9cao视频精品| 露脸真实国语乱在线观看| 亚洲码一区二区三区| 成人伊人色一区二区三区| 国产一区二区三区夜色| 国产美女在线观看| 免费啪啪网址| 国产欧美高清| 亚洲最新地址| 色悠久久久久久久综合网伊人| 青青草国产一区二区三区| 欧美h在线观看| 欧美天天干| 婷五月综合| 无码AV高清毛片中国一级毛片| 动漫精品中文字幕无码| 国产一区在线观看无码| 日韩天堂在线观看| 日韩在线网址| 久久久久久久97| 欧美国产日韩另类| 丰满人妻久久中文字幕| 又爽又大又黄a级毛片在线视频| 在线视频亚洲色图| 亚洲一区二区视频在线观看| 国产在线观看精品| 日韩欧美在线观看| 免费AV在线播放观看18禁强制| 亚洲第一成人在线| 国产自在线拍| 91成人免费观看在线观看| a毛片在线免费观看| 久久视精品| 国产福利微拍精品一区二区| 午夜毛片福利| 国产精品久线在线观看| 五月激激激综合网色播免费| 亚洲第一中文字幕| 99re在线视频观看| 人妻免费无码不卡视频| 亚洲精品视频免费| 无码精品国产VA在线观看DVD | 青青草一区二区免费精品| 97视频精品全国免费观看| 国产99视频免费精品是看6| 高潮爽到爆的喷水女主播视频| 91激情视频| 五月天久久综合| 欧美三级自拍| 日韩在线成年视频人网站观看| 午夜福利免费视频| 色综合中文字幕| 国产导航在线| 国产一级裸网站| 国产第四页| 久久这里只精品国产99热8| 中国国产A一级毛片| 在线欧美a| 97精品久久久大香线焦| 亚洲国产日韩一区| 国产成人亚洲欧美激情| 免费高清毛片| 亚洲色欲色欲www网| 国产精品久久久久鬼色| 国产网友愉拍精品视频| 久久综合伊人77777| 手机成人午夜在线视频| 99ri国产在线| 东京热高清无码精品| 久久99蜜桃精品久久久久小说| 新SSS无码手机在线观看| 在线视频一区二区三区不卡| 亚洲AⅤ无码日韩AV无码网站| 91青草视频| 国产JIZzJIzz视频全部免费| 亚洲中文在线视频| 亚洲另类国产欧美一区二区| 欧美69视频在线|