999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于門控卷積網絡與CTC的端到端語音識別

2020-09-29 08:08:50楊德舉馬良荔譚琳珊裴晶晶
計算機工程與設計 2020年9期
關鍵詞:特征模型

楊德舉,馬良荔,譚琳珊,裴晶晶

(1.海軍工程大學 電子工程學院,湖北 武漢 430033;2.中國人民解放軍91001部隊,北京 100841)

0 引 言

傳統的自動語音識別(automatic speech recognition,ASR)系統使用混合高斯模型-隱馬爾科夫模型(GMM-HMM)[1]作為聲學模型進行訓練,然后利用外部語言模型對單詞序列進行重核,生成合理的句子。系統一般包含聲學模型、發音詞典和語言模型等多個模塊,設計過程中需要運用語音學、語言學等不同的領域知識,訓練過程中各模塊根據各自的優化目標單獨進行訓練,導致在推斷階段各模塊的誤差會不斷累積。更重要的是,這些模型需要高質量的數據集來進行訓練,數據集中的訓練數據必須強制預對齊,保證每個輸入幀必須有一個對應的標簽,構建這樣一個數據集需要大量的時間、精力。因此,設計和訓練一個性能良好的ASR系統是極其復雜和困難的。

端到端的ASR系統是一種序列到序列(seq2seq)模型,它直接將輸入的聲學信號映射到字符或單詞等輸出,而不需要任何預定義的標簽對齊。它將大多數模塊包含到一個深度神經網絡(deep neural network,DNN)中,使用一個整體的目標函數來優化模型[2-5]。基于此,本文提出了一種融合門控線性單元(gated linear units, GLU)[6]的卷積神經網絡(convolutional neural network,CNN)模型。該模型使用一維CNN(1D-CNN)[7,8]聯合上下文信息進行特征抽象,提高特征表達能力,利用鏈接時序分類(connectionist temporal classification,CTC)[9]技術實現端到端的語音識別。

1 相關研究

端到端的語音識別系統直接將輸入的語音映射到字母或單詞序列,并在單個系統中聯合訓練聲學和發音等建模組件,其實現方法主要分為兩類,分別為基于CTC的方法和基于注意力機制[10]的方法。基于CTC的方法通過引入CTC準則,解決了輸入序列長度大于輸出序列長度的問題,與DNN結合可直接用于端到端的模型建模。基于注意力機制的方法通常包括一個編碼器網絡和一個解碼器網絡,編碼器將輸入的語音映射到更高層次的特征表示,然后注意力機制決定應該注意哪些編碼器特性,以便預測下一個輸出符號,從而生成上下文向量,最后解碼器獲取注意力上下文向量和前一個預測的嵌入,以生成下一個輸出的預測。

1.1 基于CTC的方法

語音識別數據集是語音文件和對應標簽文本的集合,將數據集中的語音幀和文本字符進行對齊是一項艱難的任務。CTC算法是專門用于解決seq2seq模型中數據對齊問題的,它引入了一個blank標簽代表靜音幀和字符間隔。在空白標簽的基礎上,設計了路徑的中間結構,通過刪除路徑中所有重復的和空白的標簽,可以將一些路徑包含到最終的標簽序列中。因此,沒有分割和對齊,CTC仍然可以將輸入序列映射到輸出序列。Maas A等[9]在對話語音轉錄任務中利用CTC訓練了一個深度雙向循環神經網絡(deep bidirectional recurrent neural network,DBRNN),通過結合字符級語言模型,達到了與GMM-HMM基線系統相當的識別率。姚煜等[11]提出了基于雙向長短時記憶神經網絡(bidirectional long short-term memory,BLSTM)的聲學模型構建方法,并將CTC應用于聲學模型訓練中,搭建出基于BLSTM-CTC的端到端中文語音識別系統。張立民等[12]將CTC作為目標函數,改進深度雙向長短時記憶網絡架構,以音素為基本建模單元,構建了一種基于序列級轉錄的端到端語音識別系統。通過在解碼過程中引入詞典和語言模型,并利用序列區分度訓練技術提升CTC模型的建模效果。Wang等[13]提出一個CNN+BLSTM+CTC端到端普通話語音識別模型,采用CNN學習局部語音特征,BLSTM學習上下文信息,使用CTC進行解碼。

1.2 基于注意力機制的方法

Chan等[3]提出的LAS(listen, attend and spell)神經網絡結構包含一個監聽器和一個拼寫器,監聽器是一個金字塔式的BLSTM網絡,拼寫器是一種基于注意力的循環網絡解碼器,它根據所有之前的字符和整個聲音序列發出每個字符。與DNN-HMM、CTC等模型相比,LAS對給定的聲序列輸出字符序列的概率分布沒有獨立的假設。針對LAS在普通話語音識別中效果不佳的問題,Shan等[5]對其進行了改進,使用字符嵌入來處理大量的詞匯,采用L2正則化、高斯權值噪聲和跳幀等方法對模型進行有效訓練,并在注意力模型中使用注意力平滑方法來覆蓋更長的上下文。Chiu等[14]使用多頭注意力機制對LAS模型進行了結構的優化改進,顯著提高了性能。Zhou等[15]將Transformer擴展到語音識別領域,提出了一個貪婪級聯解碼器Transformer模型,在普通話語音識別上效果良好。

2 模型結構

本文設計的1D-CNN+GLU+CTC的深度神經網絡模型結構如圖1所示。首先對輸入的原始音頻序列x進行預處理和特征提取。然后通過4類共10個卷積塊(CNN blocks),每個CNN block包含3個操作,分別為一維卷積、門控線性單元和Dropout,每類CNN block設置不同的參數。之后,經過一個卷積核大小和步長均為1的一維卷積層,將輸出映射為在每個時間步輸出不同漢字的概率,最后由CTC層進行解碼,輸出標簽序列y。

圖1 模型結構

2.1 特征提取

在端到端的語音識別系統中,最常用的特征為梅爾頻率倒譜系數(Mel-frequency cepstral coefficient,MFCC)和基于濾波器組的特征Fbank(Filter bank)。MFCC基于人耳聽覺特性進行設計,是在梅爾刻度頻率提取出來的倒譜參數。Fbank特征相當于去掉MFCC提取過程最后一步的離散余弦變換操作,與MFCC相比,Fbank特征保留了更多的原始語音信息。最近的研究中也出現了直接使用語譜圖(Spectrogram)和原始語音波形進行建模的方法[4]。本文分別使用Spectrogram、Fbank、MFCC特征進行了研究和實驗,特征提取的流程如圖2所示。

圖2 音頻特征提取流程

2.2 門控卷積神經網絡

卷積神經網絡最先在圖像識別領域得到廣泛的應用,之后被引入到自然語言處理和語音識別領域。將CNN用于語音識別,不僅可以精確控制依賴項的長度,通過堆疊CNN來標識長序列還可以使鄰近的輸入元素在較低的層進行交互,而遠處的元素在較高的層進行交互,從而提取更高層、更抽象的特征。本文使用融合了GLU的一維門控卷積神經網絡,訓練將一系列音頻特征映射到對應的漢字。門控卷積神經網絡結構如圖3所示。

圖3 一維門控卷積神經網絡結構

設輸入層的輸入序列x=(x1,x2,…,xT), 其中xi∈Rdx, 即每一幀的輸入為dx維的特征向量。其與寬度為kw, 步長為s, 深度為m的卷積核進行卷積計算的公式如式(1)所示

(1)

式中:w∈Rm×dx×kw和b∈Rm為模型需要學習的參數。在圖3 中我們可以看到,當T=6,dx=4,kw=2,s=1,m=3時,經計算輸出張量的大小為size=(3,5)。

對于門控線性單元,其計算公式如式(2)所示

h(x)=(x*W+b)?σ(x*V+c)

(2)

式中:*為卷積運算,?為矩陣對應元素相乘,σ是sigmoid函數。通過門控機制,網絡可以控制在層次結構中傳遞的信息,使更有價值的信息通過網絡,抑制無用的信息,提高網絡的學習能力。門控卷積在保持非線性能力的同時為梯度提供了線性路徑,可以減少梯度彌散問題[6]。

2.3 鏈接時序分類

鏈接時序分類(CTC)是一種將輸入序列x轉換為輸出序列y的技術,其中x的長度大于y。它可以將音頻數據直接轉換為文本,而不需要中間語音表示。此外,不需要在輸入序列和目標序列之間進行任何預對齊。

y=F(x),F∶(Rdx)T→(RN+1)T

(3)

在每個時間步t取字典L′中的一個元素并按時序排列,則可得到一個輸出序列π, 我們稱之為一條路徑。在輸入為x的條件下,輸出路徑為π的概率如式(4)所示

(4)

即在每個時間步輸出路徑π的相應標簽字符的概率乘積。以上為路徑概率計算的過程,該過程中路徑與輸入序列的長度T相同,而實際上標簽文本的長度通常比輸入序列要短得多。因此,我們應該將一些相關的路徑合并到一個更短的標簽序列中,路徑合并一般分為兩步:

(1)刪除重復的標簽。如果在連續的時間步驟中有多個相同的輸出,則只保留其中的一個。例如:對于6個時間步的路徑“cc-aat”、“c-attt”,移除重復標簽后的路徑均為“c-at”。

(2)從路徑中移除空白標簽“-”。“-”表示這一幀沒有輸出,應該刪除它以獲得最終的標簽序列。第一步得到的標簽“c-at”移除“-”之后得到最終輸出為“cat”。

通常,一個很短的輸出序列可以由多條路徑π合并得到。圖4的籬笆圖給出了當路徑長度為6時,標簽序列“cat”的全部合法路徑。

圖4 CTC籬笆網格

除了從路徑中獲取最終標簽序列外,路徑合并過程還旨在計算最終標簽序列的概率。定義變換B為從序列中刪除空白和重復,則B(cc-aat)=B(c-attt)=cat。 對于給定輸入x的情況下,輸出為l的概率如式(5)所示

(5)

從上面描述的計算可以看出,標簽序列的概率是可微的。因此,我們可以利用反向傳播算法訓練模型,使真標簽的概率最大化,并利用訓練后的模型,將概率最大的標簽序列作為最終結果來識別語音。

3 實驗與分析

3.1 實驗環境

本文實驗在i7 CPU和NVIDIA TITAN Xp GPU構建的硬件計算平臺上,使用PyTorch深度學習框架進行。具體配置見表1。

表1 實驗的軟硬件環境

3.2 數據集與評價指標

本文使用希爾貝殼開源的AISHELL-1中文普通話語音數據集[16]進行模型訓練和實驗,數據集包含400個說話人的141 600條錄音文件,錄音時長共計165 h,涉及常用的4000多個漢字。數據集被劃分為訓練集、驗證集和測試集三部分,具體分布見表2。

表2 數據集劃分

英語語音識別任務中評價指標通常為WER,中文普通話語音識別任務中通常為字錯誤率(character error rate,CER)。本文使用CER作為評價指標,其計算公式如式(6)所示

(6)

式中:I為插入錯誤字數,D為刪除錯誤字數,R為替換錯誤字數,L為真標簽的總字數。

3.3 不同輸入特征的比較

本文對Spectrogram、Fbank、MFCC這3類輸入特征進行了實驗比較,語音數據采用原始的16 KHz采樣率,設置時間窗寬度為20 ms,時移10 ms,使用漢明窗對原始語音進行分幀、加窗,經FFT和譜線能量計算得到161維的Spectrogram特征,經Mel濾波得到40維的Fbank特征,MFCC使用常見的包含一階、二階差分的共39維特征。

不同輸入特征下的系統最佳CER性能見表3,可以看出Fbank特征的CER最低,為15.9%。Spectrogram特征次之,MFCC效果最差。這是因為MFCC特征經過了更多的人工特征提取操作,不可避免地會造成信息的丟失,從而降低系統性能。而Spectrogram雖然最大限度保留了語音的原始特征,但也使冗余的無用信息得以保留,受其影響,在數據集規模沒有足夠大時,模型還不足以學習到真正有用的音頻信息。

表3 不同輸入特征的比較

3.4 與基線模型的性能比較

本文將文獻[12,13]的模型作為基線模型,使用Fbank作為輸入特征,在均不外接語言模型的情況下,將本文模型與基線模型在測試集上進行了性能對比,結果見表4,本文提出的1D-CNN+GLU+CTC模型在AISHELL-1數據集上比BLSTM+CTC[12]模型和CNN+BLSTM+CTC[13]模型的CER分別降低了4.8%和3.3%,取得了更好的效果。

表4 與基線模型的比較

4 結束語

本文提出了一個基于一維門控卷積神經網絡和CTC的中文普通話語音識別系統,直接使用漢字作為輸出標簽,簡化了系統訓練和解碼流程。嘗試了不同的系統輸入特征,驗證了不同音頻特征對系統性能的影響。在AISHELL-1數據集上的實驗結果表明,與基線系統相比,該系統明顯地降低了識別錯誤率。在今后的工作中,擬嘗試進一步改進模型架構,并在現有數據集的基礎上通過數據增強的方式彌補數據不足的問題,進一步提高系統的識別率。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 美美女高清毛片视频免费观看| 欧美 国产 人人视频| 高清无码一本到东京热| 成人第一页| 久久综合结合久久狠狠狠97色| 精品自窥自偷在线看| 精品国产aⅴ一区二区三区| 国产精品欧美激情| 91偷拍一区| 波多野结衣在线se| 亚洲欧美精品一中文字幕| 国产精选自拍| 思思99热精品在线| 亚洲欧美日韩色图| 丁香五月激情图片| 国产精品免费福利久久播放| 午夜精品福利影院| 天天躁狠狠躁| 8090成人午夜精品| 亚洲中文在线看视频一区| 色婷婷国产精品视频| 亚洲欧美国产视频| 美女毛片在线| 日本高清在线看免费观看| 亚洲无限乱码一二三四区| 超清无码一区二区三区| 香蕉蕉亚亚洲aav综合| 啪啪免费视频一区二区| 亚洲人成高清| 在线观看国产精美视频| 白浆视频在线观看| AV网站中文| 亚洲国模精品一区| 尤物精品视频一区二区三区| 九九精品在线观看| 91在线视频福利| 一边摸一边做爽的视频17国产| 国产丝袜无码一区二区视频| 国产欧美日韩一区二区视频在线| 手机成人午夜在线视频| 精品三级网站| 国产久草视频| 乱色熟女综合一区二区| 色播五月婷婷| 国产福利一区在线| 国产精品内射视频| 日韩国产另类| 美臀人妻中出中文字幕在线| 久久久久久久97| 久久亚洲中文字幕精品一区| 亚洲一区波多野结衣二区三区| 黄色网页在线观看| 欧美成人精品在线| 国产精品妖精视频| 伊人久久综在合线亚洲2019| av午夜福利一片免费看| 亚洲国产成人自拍| a毛片基地免费大全| 另类重口100页在线播放| 人妻精品全国免费视频| 国产视频一二三区| 日韩在线第三页| 69国产精品视频免费| 日日噜噜夜夜狠狠视频| 国产亚洲高清在线精品99| 国产AV无码专区亚洲A∨毛片| 国产成人啪视频一区二区三区| 日本高清在线看免费观看| 亚洲91在线精品| 亚洲欧美日韩另类在线一| 国产精品xxx| 欧美精品黑人粗大| 欧美一级高清片欧美国产欧美| 国产9191精品免费观看| 国产亚洲精品91| 亚洲精品制服丝袜二区| 国产亚洲第一页| 国产三级a| 丁香综合在线| 美美女高清毛片视频免费观看| 在线国产你懂的| 国产视频你懂得|