999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于反向卷積的Bi—LSTM語音識別

2018-09-26 11:30:48居治華劉罡陳琦嵐呂微阮佳慧武業皓
軟件導刊 2018年7期
關鍵詞:深度學習

居治華 劉罡 陳琦嵐 呂微 阮佳慧 武業皓

摘要:語音本身具有一定的上下文相關性,而傳統語音識別系統中的語言模型對歷史信息記憶能力不足,無法充分學習語音序列的相關性。為解決該問題,提出一種基于反向卷積的雙向長短時記憶(Bi-LSTM)網絡的語音識別方法,該模型在反向長短時記憶單元通路末端增加了一個卷積層,再經過兩個全連接層,最后通過分類器輸出識別結果。將該模型與目前主流的深度學習模型進行實驗對比,結果表明該模型能有效提高語音識別正確率。

關鍵詞:語音識別;雙向長短時記憶神經網絡;深度學習

DOI:10.11907/rjdk.173082

中圖分類號:TP301

文獻標識碼:A文章編號:1672-7800(2018)007-0027-04

Abstract:Thespeechitselfhasacertaindegreeofcontextualrelevance.However,thelanguagemodelinthetraditionalspeechrecognitionsystemisnotcapableofrememberinghistoricalinformationandcannotsufficientlylearntherelevanceofthespeechsequence.Tosolvethisproblem,thispaperproposesaspeechrecognitionmethodbasedonreverseconvolutionaryBidirectionalLongShortTermMemory(Bi-LSTM)network.Themodeladdsaconvolutionlayertotheendofthememorycellpathinthereversedirection,andthenpassesthroughtwofullyconnectedlayers.Finally,therecognitionresultisoutputtedthroughtheclassifier.Comparedwiththecurrentmainstreamdepthlearningmodel,thismodelcaneffectivelyimprovethespeechrecognitionaccuracy.

KeyWords:speechrecognition;bidirectionallongshort-termmemoryneuralnetwork;depthlearning

0引言

語音識別是將一段語音信號轉換成對應的文本信息或命令的技術。傳統的語音識別由信號處理及特征提取模塊、聲學模型、發音詞典、語言模型、解碼器所構成,常用方法有:動態時間規整(DynamicalTimeWarping,DTW)[1]、矢量量化(VectorQuantizization,VQ)[2]、隱馬爾科夫模型(HiddenMarkovModel,HMM)[3]等。

隨后發展的人工神經網絡也被應用于語音識別,但它與傳統語音識別方法不同,其本質上是一個自適應非線性動力學系統,一般由神經元、訓練算法及網絡結構3大要素構成。人工神經網絡模型有反向傳播算法(BackPropagation,BP)[4]、最大熵法(LogisticsRegression,LR)[5]、Boosting算法[6]等。但這些都屬于淺層學習模型,例如,Boosting模型只有一層隱含層節點,LR沒有隱含層節點。淺層人工神經網絡模型存在著一些問題,例如,不能很好地解釋語音信號的時間動態特性;在訓練學習網絡模型時容易過擬合;調整模型參數較難,需要不少技巧和經驗。隨著深度學習概念[7]的提出,不少深度學習模型也被應用于語音識別中。深度學習是用多層非線性結構將低層特征變換成更加抽象的高層特征,通過逐層學習和特征變換,保留本質特征,從而提升分類或預測準確性[8]。目前主流的深度學習模型有循環神經網絡(RecurrentNeuralNetworks,RNN),其被應用于語音識別的聲學建模[9],但簡單的RNN存在梯度消失問題,歷史信息記憶能力不強。為解決該問題,研究人員提出基于長短時記憶單元(LongShort-TermMemory,LSTM)的遞歸結構[10],在此基礎上又提出雙向長短時記憶(BidirectionalLongShort-TermMemory,Bi-LSTM)網絡[11]。相比于LSTM模型,應用Bi-LSTM模型的語音識別正確率更高。

針對以上問題,本文提出一種基于反向卷積的Bi-LSTM模型用于英文數字語音識別,該神經網絡包含Bi-LSTM結構、卷積層、全連接層與分類器。該模型不僅繼承了Bi-LSTM結構可獲取語音特征序列上下文所含隱藏信息的能力,增加的卷積層還能提取出更抽象的語音特征向量,加速網絡計算過程。經過本文實驗驗證,與常見的深度學習模型相比,基于反向卷積的Bi-LSTM模型語音識別正確率與之相當或者更高。

1相關模型

1.1長短時記憶單元

循環神經網絡(RecurrentNeuralNetworks,RNN)不僅具有前向反饋神經網絡神經元信號,能向上一層傳播,還能夠有效利用上一時刻隱含層單元輸出的數據[12]。但RNN網絡在梯度后向傳播過程中會產生“梯度消失”問題,使網絡參數學習過程極為緩慢,即在實際中能獲取利用的歷史信息非常少。

為有效解決上述問題,Hochreiter等提出長短時記憶單元結構(LongShort-TermMemory,LSTM)。LSTM是一種時間遞歸神經網絡,能選擇性地記憶歷史信息。研究人員在RNN模型基礎上對其作進一步改進,即用如圖1所示的LSTM單元替換RNN網絡中的隱含層節點,則形成LSTM網絡。

LSTM單元的記憶單元(MemoryCell,Cell)狀態受到3個門控制,即輸入門(inputgate)、遺忘門(forgetgate)、輸出門(outputgate)。輸入門將當前數據選擇性地輸入到記憶單元;遺忘門調控歷史信息對當前記憶單元狀態值的影響;輸出門用于選擇性輸出記憶單元狀態值。3個門和獨立記憶單元的設計,使LSTM單元具有保存、讀取、重置及更新長距離歷史信息作用。在時刻t,Cell的狀態通過以下步驟進行更新:

1.2雙向長短時記憶

LSTM缺點是只能利用出現在當前節點之前的信息,而無法充分利用未來的信息。Bi-LSTM神經網絡能解決上述問題,如圖2所示,Bi-LSTM包括輸入層、前向傳遞層、后向傳遞層、輸出層。輸入層對應于序列向量,其主要構建了一個對齊的雙層模型,一層從右向左傳播,一層從左往右傳播;前向傳遞層節點連接輸入層節點和上一輸入的歷史狀態;后向傳遞層節點同樣連接輸入層節點和同一層次上一時刻輸入的歷史狀態。其基本思想是利用兩個獨立的隱含層分別向前和向后捕獲上下文所含的隱藏特征信息,最后將兩個隱含層結果組成最終輸出。

2反向卷積Bi-LSTM模型

Bi-LSTM模型的結構和性能優異,但語音識別正確率有待進一步提高。因此,本文對Bi-LSTM網絡模型進行改進,整體結構如圖3所示。第一部分是輸入層,輸入Mel頻率倒譜系數(MelFrequencyCepstrumCoefficient,MFCC)特征向量;第二部分是特征提取層,包含正向和反向LSTM結構,反向LSTM通路包含一個卷積層;第三部分是分類層,包含兩個全連接層、Softmax分類器。

Bi-LSTM層中包含一個正向LSTM和一個反向LSTM,正向LSTM用于捕獲語音特征向量上文信息,而反向LSTM捕獲語音特征向量下文信息,最后通過組合捕獲的語音上下文特征信息向量,獲取全局的上下文信息。一般以正向LSTM獲取的語音特征上文信息構成的輸出為準,在反向LSTM末端加卷積層是為了避免反向LSTM單元獲取的語音特征下文信息對輸出過多干擾,因為卷積層能提取出參數更少的特征向量。

反向卷積的Bi-LSTM模型語音識別整體流程如下:①首先通過語音預處理、特征提取模塊,從語音中提取出MFCC特征向量,將MFCC特征向量同時輸入到正向LSTM層和反向LSTM層;②MFCC特征向量經反向LSTM提取出與語音特征下文信息相關的參數向量,將其送入卷積層進行卷積運算;③將卷積層輸出的更為抽象的參數向量和正向LSTM層輸出的與語音特征上文相關的參數向量拼接成一個新的特征參數向量;④將新的特征參數向量送入兩個全連接層,達到參數優化的效果;⑤將優化后的特征向量送入Softmax分類器,分類識別后輸出分類標簽和識別正確率。

3實驗相關及結果分析

3.1實驗環境、數據集及評價指標

本實驗所有模型全部使用NVIDIAGeForceGTX1080顯卡進行訓練。實驗采用深度學習框架TensorFlow,其能對函數進行自動求導以及分布式計算,還用到一個名為tensorboard的可視化工具,啟動后可通過網頁觀察模型結構與訓練過程中各參數的變化。

實驗采用名為Spoken_Numbers的英文數字數據集,該數據集分為訓練集、測試集兩部分,分別由2400、450個wav格式的音頻文件組成,大小為470MB。音頻是由15人錄制的0~9英文數字語音。兩者統計信息如表1所示。

語音識別效果的評價指標采用詞識別錯誤率WER,為使識別出的詞序列與標準詞序列保持一致,需要進行替換、刪除或者插入某些詞,插入詞(Insertions)、替換詞(Substitutions)和刪除詞(Deletions)3者個數總和除以標準的詞序列中詞個數(TotalWordinCorrectTranscript)的百分比,即為WER,其計算公式如下:

3.2參數設置

在Bi-LSTM層,將正向和反向LSTM的隱含層節點數都設置為128。經過語音預處理并提取出80維MFCC特征向量后,將該特征向量同時送入正向和反向LSTM單元神經網絡通路中。其中Bi-LSTM層能將語音的MFCC特征向量序列化,并提取出語音前后相關的特征信息;而卷積層中采用的卷積核進行卷積運算能在輸入信號的每個位置疊加單位響應,得到輸出信號,即能使原語音信號特征增強,降低噪音。訓練中梯度下降函數采用批量梯度下降法,它使交叉熵損失函數的輸出值loss向當前點對應梯度的反方向不斷移動,從而降低loss。一次移動距離是由學習速率控制的,設置為0.0015。實驗對10個英文數字進行分類識別,因此式(8)中的類別k值設置為10。

3.3結果分析

圖4-圖6分別為LSTM模型、Bi-LSTM模型和反向卷積的Bi-LSTM模型在tensorboard中產生的loss圖,其中橫坐標step是訓練代數,縱坐標loss是損失函數的輸出值。loss越高,表示預測值和目標值差異性越大。三者對比來看,0~2000代階段,反向卷積的Bi-LSTM模型loss下降速率最大,即lossfunction收斂速度最快;到5000代時,反向卷積Bi-LSTM模型的loss值最趨近0,即收斂效果最好。

3種模型的詞識別錯誤率如表2所示,WER越小,表示語音識別系統識別率越高。訓練時,反向卷積Bi-LSTM模型的WER相較于單向LSTM降低了4.96%,相較于Bi-LSTM模型降低了0.37%;測試時,反向卷積Bi-LSTM模型的WER相較于單向LSTM降低了612%,相較于Bi-LSTM模型降低了0.57%。實驗結果表明,基于反向卷積的Bi-LSTM模型詞識別錯誤率最低,有效提高了英文數字識別正確率。

4結語

本文通過對主流深度神經網絡模型的研究,發現傳統模型都存在一些問題,比如RNN模型存在梯度消失問題,不能保留長距離的歷史信息;LSTM模型僅在時序上處理序列,忽略了未來信息;應用于英文語音識別系統的Bi-LSTM模型能解決上述問題,其可以捕獲歷史信息,并充分獲取語音序列向量上下文相關性信息,但存在詞識別正確率不高、訓練時間較長的問題。因此,本文提出一種基于反向卷積的Bi-LSTM模型,即在反向LSTM通路末端加入卷積層,從而優化并減少語音特征參數,縮短訓練時間。實驗結果表明,基于反向卷積的Bi-LSTM模型能相對提高英文數字語音識別正確率。

然而,本文針對反向卷積的Bi-LSTM模型僅經過較小數據量的訓練和測試,其中還有許多理論和應用問題需要繼續深入探討。實驗中訓練使用的語音數據集僅為英文數字,要想取得更好的識別效果,應收集更多不同類型數據集作進一步探索。

參考文獻:

[1]呂釗.噪聲環境下的語音識別算法研究[D].合肥:安徽大學,2011.

[2]魏艷娜.語音識別的矢量量化技術研究[D].邯鄲:河北工程大學,2007.

[3]陳程.基于HMM的語音識別系統研究[D].長沙:中南大學,2008.

[4]陳碩.深度學習神經網絡在語音識別中的應用研究[D].廣州:華南理工大學,2013.

[5]周雅倩.最大熵方法及其在自然語言處理中的應用[D].上海:復旦大學,2005.

[6]SCHAPIRE,ROBERTE.Thestrengthofweaklearnability[J].Machinelearning,1990,5(2):197-227.

[7]HINTONGE,OSINDEROS,TEHYW.Afastlearningalgorithmfordeepbeliefnets[J].NeuralComputation,2006,18(7):1527-1554.

[8]DENGL.Anoverviewofdeep-structuredlearningforinformationprocessing[C].Xi′an:APSIPAASC,2011.

[9]GRAVESA,MOHAMEDA,HINTONG.Speechrecognitionwithdeeprecurrentneuralnetworks[C].InAcoustics,SpeechandSignalProcessing,2013IEEEInternationalConference,2013:6645-6649.

[10]HOCHREITERS,SCHMIDHUBERJ.Longshort-termmemory[J].NeuralComputation,1997,9(8):1735-1780.

[11]GRAVESA,SCHMIDHUBERJ.FramewisephonemeclassificationwithbidirectionalLSTMandotherneuralnetworkarchitectures[J].NeuralNetworks,2005,18(5):602-610.

[12]LEVYO,ZESCHT,DAGANI,etal.UKP-BIU:similarityandentailmentmetricsforstudentresponseanalysis[C].InSecondJointConferenceonLexicalandComputationalSemantics,2013:285-289.

(責任編輯:黃健)

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構建
面向大數據遠程開放實驗平臺構建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
現代情報(2016年10期)2016-12-15 11:50:53
利用網絡技術促進學生深度學習的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
主站蜘蛛池模板: 国产在线一区视频| 综合成人国产| 国产美女叼嘿视频免费看| 亚洲AV无码久久精品色欲 | 日韩A∨精品日韩精品无码| 嫩草国产在线| 国产精品浪潮Av| 91无码视频在线观看| 久久国产亚洲欧美日韩精品| 欧美三级不卡在线观看视频| 婷婷综合缴情亚洲五月伊| 91成人免费观看在线观看| 亚洲,国产,日韩,综合一区| 呦视频在线一区二区三区| 中文字幕一区二区人妻电影| 日韩一区二区三免费高清| 国产黄在线免费观看| 亚洲成a人在线观看| 最新亚洲人成无码网站欣赏网| 不卡国产视频第一页| 亚洲资源站av无码网址| 婷婷开心中文字幕| 综合亚洲色图| 亚洲大学生视频在线播放| 欧美一级黄色影院| 久久男人资源站| 国产日韩精品一区在线不卡 | 国产资源免费观看| 国产激情在线视频| 无码人中文字幕| 日韩视频精品在线| 国产成人精彩在线视频50| 久久婷婷五月综合97色| 国产精品极品美女自在线| 色偷偷一区| 91在线激情在线观看| 国产精品短篇二区| 黄色免费在线网址| 亚洲无线视频| 毛片免费网址| 91国语视频| 无码视频国产精品一区二区| 亚洲精品日产精品乱码不卡| 九九热免费在线视频| 亚洲无码视频图片| 99re在线免费视频| 精品久久蜜桃| 午夜国产小视频| 亚洲欧美在线综合图区| 国产日韩欧美在线视频免费观看| 国产精品亚洲精品爽爽| 色天堂无毒不卡| 欧美日本不卡| 伊人久久婷婷| 一级成人a做片免费| 日韩高清无码免费| 天堂va亚洲va欧美va国产 | 欧美区国产区| 国产白浆一区二区三区视频在线| 日本在线免费网站| 在线亚洲精品福利网址导航| 成人年鲁鲁在线观看视频| 在线观看av永久| 日韩精品久久久久久久电影蜜臀| 四虎精品国产AV二区| 亚洲欧美成人| 在线a视频免费观看| 青青青国产精品国产精品美女| 四虎永久免费在线| 亚洲免费福利视频| 亚洲国产看片基地久久1024| 午夜视频在线观看免费网站| 国产精品久久久久久久久kt| 亚洲福利视频一区二区| 大学生久久香蕉国产线观看| 欧美啪啪视频免码| 中文字幕波多野不卡一区| 88av在线| 3D动漫精品啪啪一区二区下载| 国产高清在线丝袜精品一区| 久热re国产手机在线观看| 日本三区视频|