999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學(xué)習(xí)的聲學(xué)模型研究?

2021-03-22 09:11:50沈東風(fēng)張二華
關(guān)鍵詞:信息模型

沈東風(fēng) 張二華

(南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 南京 210094)

1 引言

語(yǔ)言是人類(lèi)最重要的信息交流工具,是人們進(jìn)行溝通、表達(dá)的主要方式。語(yǔ)音是語(yǔ)言的外部形式,也是最直接記錄人的思維活動(dòng)的符號(hào)體系。隨著科學(xué)技術(shù)的不斷發(fā)展,語(yǔ)音交流已經(jīng)不再局限于人與人之間,人與機(jī)器之間同樣需要信息的交流。語(yǔ)音識(shí)別技術(shù)能夠?qū)⑷祟?lèi)的聲音信號(hào)轉(zhuǎn)化為文字或指令,這樣一來(lái),人類(lèi)就能輕松地和機(jī)器進(jìn)行語(yǔ)音交流。

語(yǔ)音識(shí)別技術(shù)最早誕生于20 世紀(jì)50 年代,早期的研究主要是簡(jiǎn)單的孤立詞語(yǔ)音識(shí)別系統(tǒng)。20世紀(jì)80年代,GMM-HMM[1]模型的出現(xiàn)促進(jìn)了語(yǔ)音識(shí)別從孤立詞識(shí)別到連續(xù)語(yǔ)音識(shí)別的發(fā)展,并且,GMM-HMM 語(yǔ)音識(shí)別框架成為了語(yǔ)音識(shí)別系統(tǒng)的主導(dǎo)框架。

進(jìn)入21 世紀(jì)后,基于GMM-HMM 的語(yǔ)音識(shí)別系統(tǒng)框架已經(jīng)趨于完善,但是在將語(yǔ)音識(shí)別從標(biāo)準(zhǔn)的朗讀轉(zhuǎn)向日常交流時(shí),由于字和字之間的間隔時(shí)間短、連續(xù)語(yǔ)音的相互影響、無(wú)法準(zhǔn)確切分等問(wèn)題,識(shí)別率大幅下降,實(shí)用效果受到很大影響,語(yǔ)音識(shí)別研究進(jìn)入瓶頸期。2006 年,隨著深度置信網(wǎng)絡(luò)(Deep Belief Network,DBN)[2]的提出,深度學(xué)習(xí)的崛起突破了這一瓶頸。經(jīng)過(guò)幾年的研究和探索,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)等在語(yǔ)音識(shí)別中取得了顯著效果[3~4]。

2 深度學(xué)習(xí)

2006 年,深度學(xué)習(xí)理論在機(jī)器學(xué)習(xí)中的成功應(yīng)用引起了人們的極大關(guān)注,隨后,機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn)轉(zhuǎn)向了深度學(xué)習(xí)。深度學(xué)習(xí)的歷史可以追溯到19 世紀(jì)40 年代,深度學(xué)習(xí)的概念來(lái)源于人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)[5]。它從信息處理角度對(duì)人類(lèi)大腦的神經(jīng)元網(wǎng)絡(luò)進(jìn)行抽象,從而達(dá)到模擬人腦的認(rèn)知和學(xué)習(xí)能力的目的。人工神經(jīng)網(wǎng)絡(luò)經(jīng)歷了三次發(fā)展浪潮[6]。

20世紀(jì)40~60年代,深度學(xué)習(xí)的雛形出現(xiàn)在控制論中。1958 年,Rosenblatt 提出了感知機(jī)模型(perceptron),掀起了第一次人工神經(jīng)網(wǎng)絡(luò)研究的熱潮。感知機(jī)是第一代神經(jīng)網(wǎng)絡(luò),但是當(dāng)時(shí)缺少好的學(xué)習(xí)算法用于訓(xùn)練多層感知機(jī)(Multi-Layer Per?ceptron,MLP)[7],導(dǎo)致第一代神經(jīng)網(wǎng)絡(luò)的研究走向低谷。

20世紀(jì)80~90年代,人工神經(jīng)網(wǎng)絡(luò)表現(xiàn)為聯(lián)結(jié)主義,它的核心思想是模擬生物的神經(jīng)系統(tǒng),通過(guò)將大量的簡(jiǎn)單計(jì)算單元連接在一起從而實(shí)現(xiàn)智能行為。這一階段,誤差反向傳播算法(Back Propa?gation,BP)[8]被成功應(yīng)用于訓(xùn)練MLP。但是經(jīng)過(guò)一段時(shí)間的研究,研究人員發(fā)現(xiàn)借助BP算法,MLP的訓(xùn)練也非常困難,性能較差,神經(jīng)網(wǎng)絡(luò)進(jìn)入第二次衰退,并一直持續(xù)到2006年。

2006 年,Hinton 等學(xué)者提出的DBN 是一種無(wú)監(jiān)督的概率生成模型,通過(guò)逐層訓(xùn)練受限波爾茲曼機(jī)(Restricted Boltzmann Machine,RBN)[9]得到。對(duì)于訓(xùn)練好的DBN,添加一個(gè)和目標(biāo)相關(guān)的輸出層就可以構(gòu)成一個(gè)深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)。基于DBN 的初始化使得DNN 的訓(xùn)練優(yōu)化變得容易,深層結(jié)構(gòu)的模型優(yōu)勢(shì)開(kāi)始展現(xiàn),機(jī)器學(xué)習(xí)領(lǐng)域又一次掀起了研究熱潮。

2.1 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)

循 環(huán) 神 經(jīng) 網(wǎng) 絡(luò)(RNN)[10]是Jordan,Pineda.Williams,Elman 等于20 世紀(jì)80 年代末提出的一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型,它是一種節(jié)點(diǎn)定向連接成環(huán)的人工神經(jīng)網(wǎng)絡(luò)。RNN 之所以稱(chēng)為循環(huán)神經(jīng)網(wǎng)絡(luò),指一個(gè)序列當(dāng)前的輸出與前面的輸出有關(guān),具體表現(xiàn)為網(wǎng)絡(luò)會(huì)對(duì)前面的信息進(jìn)行記憶并應(yīng)用于當(dāng)前輸出的計(jì)算中。以前,無(wú)論是ANN,還是CNN,隱藏層之間的節(jié)點(diǎn)是無(wú)連接的,而RNN 隱藏層之間的節(jié)點(diǎn)是有連接的,隱藏層的輸入不僅包括輸入層的輸入,還包括上一時(shí)刻隱藏層的輸出。理論上,RNN能夠?qū)θ魏伍L(zhǎng)度的序列數(shù)據(jù)進(jìn)行處理。

圖1 RNN結(jié)構(gòu)

圖1 展示的是RNN 的結(jié)構(gòu),圖中X 表示輸入的向量,S 為隱藏層的值,O 表示輸出向量,U 表示輸入層到隱藏層的權(quán)重矩陣,V 表示隱藏層到輸出層的權(quán)重矩陣,W 是隱藏層與上一層的權(quán)重矩陣。如果沒(méi)有W,那么該網(wǎng)絡(luò)結(jié)構(gòu)就變成了最普通的全連接神經(jīng)網(wǎng)絡(luò)。將圖1的RNN結(jié)構(gòu)按照時(shí)間線(xiàn)展開(kāi),得到如圖2所示的結(jié)構(gòu)。

圖2 RNN時(shí)間線(xiàn)展開(kāi)圖

由圖2 可知,RNN 在t時(shí)刻接收到輸入Xt后,得到隱藏層的值St,輸出層的值Ot,而隱藏層的值St不僅取決于當(dāng)前的輸入Xt,還取決于上一隱藏層St-1的值,計(jì)算公式如式(1)和式(2)所示。其中,soft?max 和TanHyperbolic(tanh)是激活函數(shù),softmax 將多個(gè)神經(jīng)元的輸出,映射到(0,1)區(qū)間內(nèi),可以看成是當(dāng)前輸出是屬于各個(gè)分類(lèi)的概率,主要用于神經(jīng)網(wǎng)絡(luò)最后一層,作為輸出層進(jìn)行分類(lèi),tanh 常用于隱層神經(jīng)元輸出,加入非線(xiàn)性因素,提高神經(jīng)網(wǎng)絡(luò)對(duì)模型的表達(dá)能力。

在RNN 的訓(xùn)練過(guò)程中,如果要預(yù)測(cè)t 時(shí)刻的輸出,首先利用上一時(shí)刻(t-1)的記憶和當(dāng)前時(shí)刻的輸入,得到t 時(shí)刻的記憶,然后利用當(dāng)前時(shí)刻的記憶,通過(guò)softmax分類(lèi)器輸出每個(gè)詞出現(xiàn)的概率。

RNN 由于其特有的記憶性,能夠利用上文的信息輔助進(jìn)行語(yǔ)音識(shí)別,進(jìn)一步提高語(yǔ)音識(shí)別的準(zhǔn)確率。但是RNN 與其他類(lèi)型的神經(jīng)網(wǎng)絡(luò)一樣還面臨梯度消失的問(wèn)題,只不過(guò)這種消失問(wèn)題表現(xiàn)在時(shí)間軸上,即如果輸入序列的長(zhǎng)度很長(zhǎng),將很難進(jìn)行有效的梯度更新,也就是對(duì)長(zhǎng)度的依賴(lài)。為解決該問(wèn)題,先后出現(xiàn)了一系列有效的處理方案,如LSTM等[11]。

2.2 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)

長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short Time Memory,LSTM)[12]由Schmidhuber 等人于1997 年提出,這是一種時(shí)間遞歸神經(jīng)網(wǎng)絡(luò),適合于處理和預(yù)測(cè)時(shí)間序列中間隔和延遲相對(duì)較長(zhǎng)的重要事件,能夠有效解決RNN 的長(zhǎng)度依賴(lài)問(wèn)題。該模型中,常規(guī)的神經(jīng)元被存儲(chǔ)單元替代,每個(gè)存儲(chǔ)單元都增加了一個(gè)細(xì)胞狀態(tài),細(xì)胞狀態(tài)是LSTM 的關(guān)鍵,它類(lèi)似于一條傳送帶,直接在整個(gè)鏈上運(yùn)行,進(jìn)行線(xiàn)性交互。標(biāo)準(zhǔn)RNN 每一時(shí)刻的計(jì)算節(jié)點(diǎn)只包含一個(gè)tanh 函數(shù),而LSTM 中的重復(fù)模塊包含四個(gè)相互作用的激活函數(shù),如圖3所示。

圖3 LSTM的存儲(chǔ)單元

圖3 展示了3 個(gè)相連的存儲(chǔ)單元,以中間的存儲(chǔ)單元為例,三條虛線(xiàn)指示的就是存儲(chǔ)單元中負(fù)責(zé)向單元移除或添加信息的三個(gè)門(mén)限,從左至右分別是遺忘門(mén)、輸入門(mén)和輸出門(mén),門(mén)限由sigmoid 激活函數(shù)和逐點(diǎn)乘法運(yùn)算組成,LSTM 的工作依靠這三個(gè)門(mén)來(lái)實(shí)現(xiàn)。LSTM 的核心是細(xì)胞狀態(tài),也就是位于圖3 中上方,貫穿整個(gè)圖的水平線(xiàn),它表示了從t-1狀態(tài)到t狀態(tài),再到t+1狀態(tài)的記憶信息更新和傳遞。

以t-1 狀態(tài)到t 狀態(tài)為例,正向傳遞的第一步是遺忘門(mén)限層,它決定了上一時(shí)刻的值有多少被保留下來(lái)。計(jì)算如式(3)所示,其中ft是遺忘門(mén),Whf是遺忘門(mén)與前一單元隱含層輸出之間的權(quán)重矩陣,Wxf是遺忘門(mén)與當(dāng)前輸入之間的權(quán)重矩陣,ht-1是上一個(gè)時(shí)間節(jié)點(diǎn)隱含層的輸出,xt是t 時(shí)刻輸入層的輸入,bf是遺忘門(mén)的偏移值。

正向傳遞第二步包括兩個(gè)部分,分別是生成臨時(shí)狀態(tài)和更新原來(lái)狀態(tài),計(jì)算公式如式(4)、式(5)和式(6)所示。其中it是輸入門(mén),控制當(dāng)前輸入有多少能進(jìn)入記憶單元,Whi是輸入門(mén)與前一單元隱含層輸出之間的權(quán)重矩陣,Wxi是輸入門(mén)與當(dāng)前輸入之間的權(quán)重矩陣,bi為輸入門(mén)的偏移值是臨時(shí)狀態(tài),包含進(jìn)入記憶單元的候選值,Wc和bc分別為臨時(shí)狀態(tài)的權(quán)重矩陣和偏移值;Ct是更新后的狀態(tài)。

正向傳遞第三步是輸出,計(jì)算公式如式(7)和式(8)所示。其中ot是輸出門(mén),控制記憶單元中輸出的記憶值所占比例,Who是輸出門(mén)與前一單元隱含層輸出之間的權(quán)重矩陣,Wxo是輸出門(mén)與當(dāng)前輸入之間的權(quán)重矩陣,bo分別為輸出門(mén)的權(quán)重矩陣和偏移值;ht為當(dāng)前時(shí)刻的輸出。

總結(jié)起來(lái),LSTM的計(jì)算思路為:輸入門(mén)作用于輸入信息,遺忘門(mén)作用于之前的記憶信息,二者加權(quán)和,得到單元的狀態(tài)信息;通過(guò)輸出門(mén)決定輸出信息;由單元的狀態(tài)信息和輸出信息得到單元的隱含層輸出,并傳遞給下一單元。所有的權(quán)重矩陣,偏置向量都通過(guò)訓(xùn)練得到,這和普通的循環(huán)神經(jīng)網(wǎng)絡(luò)沒(méi)有區(qū)別,根據(jù)隨時(shí)間反向傳播算法(Backpropa?gation Through Time,BPTT),就能得到這些參數(shù)的梯度值。

2.3 LSTM應(yīng)用于語(yǔ)音識(shí)別

語(yǔ)音信號(hào)是一種復(fù)雜的時(shí)變信號(hào),而LSTM 能夠在處理時(shí)間序列數(shù)據(jù)的同時(shí),選擇性地記住有效信息,丟棄無(wú)用信息,在語(yǔ)音識(shí)別上顯示出強(qiáng)大的優(yōu)越性[13~14]。但是,LSTM 只利用了上文(前一時(shí)刻)信息,未利用下文(下一時(shí)刻)的信息,存在不足,而連續(xù)語(yǔ)音受上下文的影響,有協(xié)同發(fā)音現(xiàn)象。因此,本文采用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(BLSTM)來(lái)構(gòu)建聲學(xué)模型,BLSTM 充分考慮了正向時(shí)序信息和反向時(shí)序信息的影響,提高了魯棒性。文獻(xiàn)[15]證明,在語(yǔ)音識(shí)別上,BLSTM 的識(shí)別率高于LSTM。BLSTM的結(jié)構(gòu)如圖4所示。

圖4 BLST模型

圖4 矩形框中的LSTM就是2.2節(jié)中的LSTM存儲(chǔ)單元,位于圖上方的虛線(xiàn)框?yàn)檎騻鬟f,位于圖下方的虛線(xiàn)框是逆向傳遞,Xt-1、Xt、Xt+1分別為t-1、t、t+1 時(shí)刻的輸入,ht-1、ht、ht+1分別為正向傳遞過(guò)程中t-1、t、t+1時(shí)刻的輸出,ht-1*、ht*、ht+1*分別為逆向傳遞過(guò)程中t-1、t、t+1 時(shí)刻的輸出,以t 時(shí)刻為例,BLSTM 的輸出為ht和ht*兩者的直接拼接,即假設(shè)ht和ht*兩者為m×n 的矩陣,拼接后得到的是2m×n的矩陣,該矩陣同時(shí)包含了上文信息和下文信息。

3 連續(xù)語(yǔ)音識(shí)別及聲學(xué)模型

3.1 連續(xù)語(yǔ)音識(shí)別的基本步驟

連續(xù)語(yǔ)音識(shí)別,就是將一段語(yǔ)音信號(hào)轉(zhuǎn)換成相對(duì)應(yīng)的文本信息。這一過(guò)程中主要包含特征提取、聲學(xué)模型及語(yǔ)言模型三大部分,此外為了更有效地提取特征往往還需要對(duì)語(yǔ)音信號(hào)進(jìn)行濾波、分幀等預(yù)處理工作,為提高識(shí)別的準(zhǔn)確率,還需要對(duì)連續(xù)語(yǔ)音進(jìn)行準(zhǔn)確的切分,即將連續(xù)語(yǔ)音切分成單個(gè)漢字[16~17]。

特征提取是指提取能反映語(yǔ)音信號(hào)本質(zhì)的一組特征參數(shù)。本文選取的特征參數(shù)是24 維梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC),MFCC 充分考慮了人耳的聽(tīng)覺(jué)特征,首先對(duì)時(shí)域信號(hào)做傅里葉變換,得到頻譜,再利用Mel濾波器組將線(xiàn)性頻譜映射到基于聽(tīng)覺(jué)感知的Mel非線(xiàn)性頻譜中,然后進(jìn)行倒譜分析,即對(duì)振幅取對(duì)數(shù)后,再做離散余弦變換得到MFCC。

聲學(xué)模型根據(jù)語(yǔ)音特征參數(shù)計(jì)算每一個(gè)特征向量在聲學(xué)特征上的得分,得到當(dāng)前語(yǔ)音最有可能對(duì)應(yīng)的漢字語(yǔ)音,由于漢語(yǔ)中普遍存在多音字現(xiàn)象,一個(gè)音可能對(duì)應(yīng)多個(gè)漢字,所以還需要根據(jù)語(yǔ)言模型進(jìn)行音-字的轉(zhuǎn)換。

語(yǔ)言模型就是基于語(yǔ)料庫(kù)統(tǒng)計(jì)出各種詞串出現(xiàn)的概率,結(jié)合聲學(xué)模型的結(jié)果,得到最可能的文本表示,具體過(guò)程如圖5 所示,圖中上方的虛線(xiàn)框?yàn)檎Z(yǔ)音信號(hào)的訓(xùn)練過(guò)程,下方的虛線(xiàn)框?yàn)閷?shí)際語(yǔ)音的識(shí)別過(guò)程。

3.2 聲學(xué)模型的構(gòu)建

聲學(xué)模型是語(yǔ)音識(shí)別的重要組成部分,是提高識(shí)別率的重要環(huán)節(jié)。本文實(shí)驗(yàn)采取GMM-HMM 模型和BLSTM 模型分別進(jìn)行聲學(xué)模型構(gòu)建[18],對(duì)比分析識(shí)別率。

圖5 連續(xù)語(yǔ)音識(shí)別流程圖

聲學(xué)模型的構(gòu)建過(guò)程:首先對(duì)語(yǔ)音信號(hào)進(jìn)行分幀、加窗等預(yù)處理;其次對(duì)信號(hào)進(jìn)行漢字切分,得到單個(gè)字的起始位置;然后分別提取每個(gè)字的24 維MFCC 作為特征參數(shù),輸入模型進(jìn)行訓(xùn)練,得到對(duì)應(yīng)單字有調(diào)音節(jié)的聲學(xué)模型。

4 實(shí)驗(yàn)過(guò)程及結(jié)果對(duì)比分析

實(shí)驗(yàn)語(yǔ)料庫(kù)采用南京理工大學(xué)NJUST603語(yǔ)音庫(kù)的一段漢語(yǔ)文本錄音,文本內(nèi)容為劉紹棠的散文《師恩難忘》,共596 個(gè)漢字,剔除重復(fù)的漢字后剩余245 個(gè)不重復(fù)的漢字。由于樣本數(shù)量限制,本文選取切分好的100 個(gè)漢字作為實(shí)驗(yàn)對(duì)象,每個(gè)漢字135個(gè)樣本,其中隨機(jī)選取120個(gè)樣本進(jìn)行訓(xùn)練,用其余的15個(gè)樣本進(jìn)行測(cè)試。正確率計(jì)算公式如下:

4.1 GMM-HMM訓(xùn)練

隱馬爾可夫模型(Hidden Markov Model,HMM)是一種統(tǒng)計(jì)分析模型,是在馬爾科夫鏈的基礎(chǔ)上發(fā)展起來(lái)的[19]。HMM 模型通過(guò)兩個(gè)相互關(guān)聯(lián)的隨機(jī)過(guò)程來(lái)描述信號(hào)的統(tǒng)計(jì)特性,一個(gè)是具有有限狀態(tài)的馬爾科夫鏈,用來(lái)描述狀態(tài)的轉(zhuǎn)移,是隱含的不可觀測(cè)的;另一個(gè)是與馬爾科夫鏈的狀態(tài)相關(guān)聯(lián)的特征矢量的隨機(jī)過(guò)程,用來(lái)描述狀態(tài)和特征值之間的統(tǒng)計(jì)對(duì)應(yīng)關(guān)系,是可觀測(cè)的。基于這兩個(gè)隨機(jī)過(guò)程,HMM 模型就可以辨識(shí)不同平穩(wěn)信號(hào)段的特征參數(shù)。

HMM 模型考慮了語(yǔ)音信號(hào)的時(shí)變特征,但在語(yǔ)音識(shí)別系統(tǒng)中,所有狀態(tài)的觀察值概率矩陣很難直接給出,高斯混合模型(Gaussian Mixture Model,GMM)可以利用高階多維高斯分布描述連續(xù)空間的概率分布,因此HMM 的觀察值概率分布可以用GMM 描述。一般將各個(gè)觀察值序列劃分到N(狀態(tài)數(shù))個(gè)空間中去,將每個(gè)空間的特征參數(shù)映射為高斯混合模型,每個(gè)狀態(tài)對(duì)應(yīng)的觀察值分布是高斯混合分布。

實(shí)驗(yàn)利用人工切分好的數(shù)據(jù)對(duì)每個(gè)漢字分別建模;然后提取切分好的測(cè)試語(yǔ)音的MFCC 參數(shù),利用HMM 模型進(jìn)行識(shí)別,統(tǒng)計(jì)每個(gè)音節(jié)最可能的識(shí)別結(jié)果,最終正確率為85.6%。

4.2 BLSTM訓(xùn)練

實(shí) 驗(yàn) 使 用TensorFlow 搭 建BLSTM 模 型[20~21],TensorFlow 是一個(gè)采用數(shù)據(jù)流圖進(jìn)行數(shù)值計(jì)算的開(kāi)源軟件庫(kù),被廣泛應(yīng)用于各類(lèi)機(jī)器學(xué)習(xí)算法的編程實(shí)現(xiàn)。由于每個(gè)漢字的語(yǔ)音長(zhǎng)短不同,MFCC 序列也就不同。因此,需要按最長(zhǎng)序列進(jìn)行存儲(chǔ),不足長(zhǎng)度的后面補(bǔ)0,并將真實(shí)長(zhǎng)度存放在一個(gè)向量中。

BLSTM 模型的輸入有兩項(xiàng),一是補(bǔ)0后的所有樣本的訓(xùn)練數(shù)據(jù),將全部數(shù)據(jù)讀入后重組為(batch_size,n_steps,n_input)的 張 量。 其 中batch_size 是一次性輸入到神經(jīng)網(wǎng)絡(luò)中訓(xùn)練,完成一次參數(shù)計(jì)算和更新的個(gè)數(shù),這里取batch_size=200;n_steps 是構(gòu)造的BLSTM 總共有多少個(gè)時(shí)間上的輸入,這里取訓(xùn)練樣本中序列最長(zhǎng)的樣本的幀數(shù);n_input是一次輸入的數(shù)據(jù)維數(shù)這里取n_input=24。二是對(duì)應(yīng)的每個(gè)訓(xùn)練樣本實(shí)際長(zhǎng)度的向量。

這是一個(gè)多分類(lèi)問(wèn)題,本文的實(shí)驗(yàn)對(duì)象為100個(gè)漢字,也就是100 個(gè)類(lèi)別,BLSTM 的輸出是一個(gè)向量,包含當(dāng)前語(yǔ)音屬于每一類(lèi)別的計(jì)算值。本文采取交叉熵?fù)p失函數(shù)計(jì)算損失J(θ),公式如式(10)所示,其中,m 為訓(xùn)練樣本的總數(shù),x(i)和y(i)分別表示第i 組數(shù)據(jù)經(jīng)BLSTM 后的輸出和期望的輸出,x(i)=(1,x1(i),x2(i),…,x100(i))T,因考慮到偏置項(xiàng),x(i)的第一項(xiàng)為1,模型的參數(shù)為θ=(θ0,θ1,θ2,…,θ100)T,θ0為偏置項(xiàng)。J(θ)對(duì)第j 個(gè)參數(shù)分量θj求偏導(dǎo)可得式(12)。

本文在最優(yōu)參數(shù)θ的求解上采取Adam 優(yōu)化算法,對(duì)梯度的一階矩和二階矩進(jìn)行綜合考慮,計(jì)算出更新步長(zhǎng),它能夠在訓(xùn)練數(shù)據(jù)迭代過(guò)程中更新神經(jīng)網(wǎng)絡(luò)的參數(shù),得到全局最優(yōu)解。

利用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)對(duì)測(cè)試樣本進(jìn)行測(cè)試,最終正確率為92.3%。

4.3 訓(xùn)練結(jié)果對(duì)比

實(shí)驗(yàn)結(jié)果如表1 所示,基于深度學(xué)習(xí)的聲學(xué)建模技術(shù)相比于傳統(tǒng)GMM-HMM 技術(shù)正確率提高了6.7%,可見(jiàn)深度學(xué)習(xí)在聲學(xué)建模上確實(shí)具有明顯的優(yōu)越性。

表1 兩種聲學(xué)模型的識(shí)別率對(duì)比

雖然BLSTM 模型的訓(xùn)練結(jié)果優(yōu)于傳統(tǒng)的GMM-HMM 模型,但還存在一些不足,表2 列舉了BLSTM模型測(cè)試結(jié)果中部分識(shí)別錯(cuò)誤的例子。

表2 部分識(shí)別錯(cuò)誤實(shí)例

從表2 分析可得,漢字的韻母相同或相近的音在識(shí)別過(guò)程中容易混淆,還需進(jìn)一步改進(jìn)。

5 結(jié)語(yǔ)

本文通過(guò)對(duì)比分析基于傳統(tǒng)的GMM-HMM 聲學(xué)模型和基于BLSTM 的聲學(xué)模型在識(shí)別中的正確率,發(fā)現(xiàn)后者明顯優(yōu)于前者。BLSTM 模型解決了一般RNN 模型的梯度爆炸和長(zhǎng)度約束問(wèn)題,充分利用了上下文信息,所以性能更佳。由于本文實(shí)驗(yàn)所用的語(yǔ)音數(shù)據(jù)集較小,后續(xù)研究還需進(jìn)一步擴(kuò)大數(shù)據(jù)集,使實(shí)驗(yàn)結(jié)果更加令人信服。

猜你喜歡
信息模型
一半模型
重要模型『一線(xiàn)三等角』
重尾非線(xiàn)性自回歸模型自加權(quán)M-估計(jì)的漸近分布
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
展會(huì)信息
一個(gè)相似模型的應(yīng)用
信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 99精品在线视频观看| 欧美午夜久久| 亚洲国产清纯| 国产免费自拍视频| 狠狠躁天天躁夜夜躁婷婷| 亚洲国产日韩欧美在线| 国产精品欧美日本韩免费一区二区三区不卡 | 久久久精品无码一二三区| 精品一区二区三区四区五区| jizz国产视频| 91精品国产无线乱码在线| 国产迷奸在线看| 国产尹人香蕉综合在线电影| 亚洲成人高清无码| 亚洲日韩高清无码| 色婷婷色丁香| 日韩在线影院| 亚洲精品国产综合99久久夜夜嗨| 麻豆国产精品| 国产精品无码影视久久久久久久| 国产无码在线调教| 又猛又黄又爽无遮挡的视频网站| 久久中文无码精品| 免费毛片视频| 亚洲AV无码不卡无码| 国产一级片网址| 一级一级一片免费| 精品国产亚洲人成在线| 毛片手机在线看| 亚洲成人精品在线| 干中文字幕| 婷婷综合在线观看丁香| 中文字幕无线码一区| 99久久国产综合精品2020| 在线观看网站国产| 五月婷婷综合色| 波多野结衣一区二区三区88| 色婷婷狠狠干| 久久久无码人妻精品无码| 无码啪啪精品天堂浪潮av| 国产簧片免费在线播放| 人人91人人澡人人妻人人爽 | 国产麻豆va精品视频| 亚国产欧美在线人成| 国产视频一区二区在线观看| 亚洲精品卡2卡3卡4卡5卡区| 亚洲国产成人超福利久久精品| 亚洲综合精品第一页| 中字无码精油按摩中出视频| 亚洲大学生视频在线播放| 亚洲国产午夜精华无码福利| 国产精品30p| 亚洲永久色| 国产成人精品视频一区视频二区| 国产激情无码一区二区免费| 亚洲妓女综合网995久久| 中国精品久久| 国产精品无码作爱| 小13箩利洗澡无码视频免费网站| 澳门av无码| 国产高清免费午夜在线视频| 无码'专区第一页| 天天爽免费视频| 一本二本三本不卡无码| 毛片一级在线| 福利在线一区| 91视频99| 久久精品人妻中文视频| 波多野结衣一区二区三区88| 一区二区三区四区精品视频| 四虎国产在线观看| 日本少妇又色又爽又高潮| www.av男人.com| 久久国产亚洲欧美日韩精品| 91久久夜色精品国产网站| 亚欧美国产综合| 国内自拍久第一页| 国产亚洲精品自在久久不卡| 女人18一级毛片免费观看| 精品一区二区久久久久网站| 国产精品黑色丝袜的老师| 日本免费高清一区|