999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

藏語(yǔ)語(yǔ)音識(shí)別研究進(jìn)展和展望①

2020-03-18 07:54:30王福釗
關(guān)鍵詞:特征提取深度特征

王福釗,周 雁

1(西藏大學(xué) 信息科學(xué)技術(shù)學(xué)院,拉薩 850000)

2(北京理工大學(xué)珠海學(xué)院 計(jì)算機(jī)學(xué)院,珠海 519088)

從狹義上講,自動(dòng)語(yǔ)音識(shí)別(Auto-Speech Recognition,ASR)是指將人類語(yǔ)音信號(hào)自動(dòng)轉(zhuǎn)換成相應(yīng)的文本內(nèi)容的機(jī)器程序執(zhí)行過程.但就其廣義上講,語(yǔ)音識(shí)別是指能夠理解人類的語(yǔ)音信號(hào)的機(jī)器程序執(zhí)行過程,包括聲紋理解和內(nèi)容理解.語(yǔ)音識(shí)別是一門跨學(xué)科技術(shù),結(jié)合了物理聲學(xué)、語(yǔ)言學(xué)、信號(hào)處理學(xué)、生理學(xué)、計(jì)算機(jī)學(xué)和統(tǒng)計(jì)概率學(xué).語(yǔ)音識(shí)別研究可追溯到20 世紀(jì)50 年代,貝爾實(shí)驗(yàn)室成功研究實(shí)現(xiàn)了Audry 語(yǔ)音識(shí)別系統(tǒng)[1].自20 世紀(jì)80 年代以來(lái),國(guó)內(nèi)漢語(yǔ)語(yǔ)音識(shí)別研究取得了空前的發(fā)展.到目前,以百度、科大訊飛為首的公司已將深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)成功運(yùn)用在漢語(yǔ)普通話和各方言的語(yǔ)音識(shí)別上,識(shí)別效果好,識(shí)別率高,識(shí)別技術(shù)成熟.

藏族是中華民族大家庭中重要的一員,其人口近630 萬(wàn)人(來(lái)自第6 次人口普查數(shù)據(jù)),主要分布在我國(guó)康巴地區(qū)(西藏、四川、云南)、安多地區(qū)(西藏、甘肅、青海、四川)和衛(wèi)藏地區(qū)(西藏).藏語(yǔ)是藏族人民交流和溝通的主要載體.藏語(yǔ)起源可追溯至上古象雄語(yǔ)言學(xué)時(shí)期,其正式成文可追溯至七世紀(jì)吐蕃王朝松贊干布時(shí)期,后經(jīng)中世紀(jì)和近代語(yǔ)言學(xué)時(shí)期的發(fā)展形成了如今這具有統(tǒng)一的文字、語(yǔ)法、字法、詞法以及書寫法的獨(dú)特魅力語(yǔ)言[2].

隨著信息化和智能化時(shí)代的到來(lái),藏語(yǔ)言語(yǔ)音識(shí)別具有不可替代的重要作用.首先,藏語(yǔ)言語(yǔ)音識(shí)別是藏區(qū)智能化發(fā)展過程中不可或缺的關(guān)鍵技術(shù).第二,藏語(yǔ)言語(yǔ)音識(shí)別對(duì)加強(qiáng)藏區(qū)內(nèi)各地區(qū)(衛(wèi)藏、康巴和安多)、藏區(qū)與其他地區(qū)的交流和溝通,進(jìn)而有效加強(qiáng)民族融合、增進(jìn)民族和諧方面具有突出的重要地位和意義.

1 藏語(yǔ)語(yǔ)音識(shí)別研究現(xiàn)狀

藏語(yǔ)語(yǔ)音識(shí)別是在英語(yǔ)、漢語(yǔ)的語(yǔ)音識(shí)別研究基礎(chǔ)上,從物理聲學(xué)、語(yǔ)言學(xué)角度出發(fā)結(jié)合藏語(yǔ)自身特點(diǎn)采用計(jì)算機(jī)技術(shù)實(shí)現(xiàn)自動(dòng)語(yǔ)音轉(zhuǎn)換文本.國(guó)內(nèi)藏語(yǔ)語(yǔ)音識(shí)別的研究始于本世紀(jì)初,滯后于漢語(yǔ)語(yǔ)音識(shí)別.經(jīng)過十多年的快速發(fā)展,藏語(yǔ)語(yǔ)音識(shí)別研究取得了一定的成果.

2006 年,李洪波和于洪志研究了基于藏文音節(jié)和文字特性的藏語(yǔ)語(yǔ)音識(shí)別基元,選擇以音素為識(shí)別基元進(jìn)行語(yǔ)音端點(diǎn)檢測(cè),從而提高了噪音背景下語(yǔ)音識(shí)別效率[3].

2007 年,西北民族大學(xué)于洪志、李永宏、索南楞次等研究創(chuàng)建了安多藏語(yǔ)單音節(jié)文本庫(kù)、語(yǔ)音庫(kù)和聲學(xué)參數(shù)數(shù)據(jù)庫(kù),并針對(duì)單音節(jié)的語(yǔ)音聲學(xué)特征進(jìn)行了較為系統(tǒng)的研究[4];同年,劉靜萍和德熙嘉措通過提取LPCC 參數(shù)并使用DTW 實(shí)現(xiàn)了安多藏語(yǔ)小詞匯孤立詞語(yǔ)音識(shí)別系統(tǒng)[5];同年,武光利、戴玉剛等通過短時(shí)平均幅度和短時(shí)平均過零率相結(jié)合的方法來(lái)改進(jìn)了藏語(yǔ)語(yǔ)音端點(diǎn)檢測(cè)技術(shù)[6];同年,李洪波和于洪志通過提取MFCC 參數(shù)進(jìn)行語(yǔ)音識(shí)別而提高了識(shí)別效率[7].

2009 年,李勇、于洪志、達(dá)哇彭措研究提取了藏語(yǔ)語(yǔ)音韻律特征用于語(yǔ)音識(shí)別進(jìn)而提高了語(yǔ)音識(shí)別效率[8];同年,姚徐、李永宏、單廣榮等提取了MFCC 特征參數(shù),并構(gòu)建了語(yǔ)音模板庫(kù),采用DTW 技術(shù)實(shí)現(xiàn)了藏語(yǔ)語(yǔ)音識(shí)別系統(tǒng)[9].

2010 年,西藏大學(xué)德慶卓瑪以聲韻母作為識(shí)別基元,分別提取了LPCC 和MFCC 特征參數(shù)實(shí)現(xiàn)拉薩話藏語(yǔ)特定人小詞匯量語(yǔ)音識(shí)別系統(tǒng),并比較了兩者的識(shí)別效果[10];同年,韓清華改進(jìn)了語(yǔ)音端點(diǎn)檢測(cè),并對(duì)提取的MFCC 參數(shù)進(jìn)行矢量量化,采用HMM 進(jìn)行聲學(xué)建模實(shí)現(xiàn)了藏語(yǔ)安多方言非特定人孤立詞語(yǔ)音識(shí)別系統(tǒng)[11].

2011 年,西南交通大學(xué)劉巧鳳引入快速沃爾什變換對(duì)MFCC 提取進(jìn)行改進(jìn),進(jìn)而提高了藏語(yǔ)語(yǔ)音識(shí)別的特征有效性和性能優(yōu)越性[12].

2012 年,李冠宇分別以音素和聲韻母作為識(shí)別基元,通過HTK 工具包構(gòu)建了一個(gè)上下文相關(guān)的拉薩話藏語(yǔ)大詞量連續(xù)語(yǔ)音識(shí)別聲學(xué)模型[13].

2015 年,趙爾平對(duì)傳統(tǒng)的特征提取方法進(jìn)行了改進(jìn),在MFCC 特征向量的基礎(chǔ)上結(jié)合拉薩話語(yǔ)音特點(diǎn)融入共振峰參數(shù),提高了拉薩話藏語(yǔ)孤立詞的語(yǔ)音識(shí)別率[14];同年,中央民族大學(xué)許彥敏引入了種子模型建立了藏語(yǔ)單音素和三音素聲學(xué)模型,并實(shí)現(xiàn)了基于sparse auto-encode 的英藏跨語(yǔ)言語(yǔ)音識(shí)別系統(tǒng)[15];同年,王輝、趙悅、劉曉鳳等將提取到的MFCC 特征提取使用稀疏自動(dòng)編碼器提取了語(yǔ)音深度特征,進(jìn)而實(shí)現(xiàn)了基于深度特征的藏語(yǔ)語(yǔ)音識(shí)別系統(tǒng)[16].

2016 年,中央民族大學(xué)劉曉鳳比較了基于MFCC特征參數(shù)、SA+MFCC 特征參數(shù)和DBN+MFCC 特征參數(shù)的藏語(yǔ)連續(xù)語(yǔ)音識(shí)別率,提出了通過DBN 模型處理MFCC 提取的深度特征對(duì)藏語(yǔ)連續(xù)語(yǔ)音識(shí)別有更高的識(shí)別效率[17];同年,西北師范大學(xué)張宇聰利用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型提取深度特征,實(shí)現(xiàn)了基于深度學(xué)習(xí)的拉薩話藏語(yǔ)語(yǔ)音識(shí)別系統(tǒng)[18].

2017 年,中央民族大學(xué)周楠將深度神經(jīng)網(wǎng)絡(luò)提取的瓶頸特征與傳統(tǒng)MFCC 組合形成了復(fù)合特征.并對(duì)提取的復(fù)合特征和單瓶頸特征進(jìn)行了在藏語(yǔ)語(yǔ)音識(shí)別率上的比較[19].

2018 年,中央民族大學(xué)趙悅、李要嬙、徐曉娜等采用基于主動(dòng)學(xué)習(xí)的語(yǔ)音語(yǔ)料選取方法實(shí)現(xiàn)了利用少量語(yǔ)音樣本構(gòu)建了能夠代表大量語(yǔ)音樣本的高精度藏語(yǔ)拉薩話識(shí)別模型,成功降低了語(yǔ)音預(yù)處理過程中語(yǔ)音語(yǔ)料人工標(biāo)注的工作復(fù)雜度[20].同年,梁寧娜、鄧彥松其中在傳統(tǒng)雙門限檢測(cè)法的基礎(chǔ)上進(jìn)行了端點(diǎn)放松處理對(duì)端點(diǎn)檢測(cè)技術(shù)進(jìn)行了改進(jìn),再采用DTW 實(shí)現(xiàn)藏語(yǔ)孤立詞語(yǔ)音識(shí)別,實(shí)驗(yàn)成功的提高了在噪聲下的語(yǔ)音識(shí)別效率[21].同年,中科大的黃曉輝、李京利用RNN和連續(xù)時(shí)序分類算法實(shí)現(xiàn)了端到端的藏語(yǔ)語(yǔ)音聲學(xué)建模[22].同年,陜西師范大學(xué)李濤、曹輝、郭樂樂通過堆疊稀疏自編碼器組成深度自編碼器提取了深度特征并實(shí)現(xiàn)了基于深度特征的藏語(yǔ)語(yǔ)音識(shí)別[23].

2 藏語(yǔ)概述

2.1 藏文結(jié)構(gòu)

藏文類似于漢文屬于拼音型文字. 從狹義上講, 藏文是指藏語(yǔ)的符號(hào); 但就廣義上講, 藏文除了符號(hào)外還包括藏文文法等. 藏文音節(jié)是現(xiàn)代藏文文本的基本組成單位, 藏文音節(jié)由30 個(gè)輔音字母和5 個(gè)元音字母(其中為省略不寫)組成[2]. 如表1 及表2 所示.

表1 藏文輔音字母及其拉丁轉(zhuǎn)寫

表2 藏文元音字母及其拉丁轉(zhuǎn)寫

圖1 藏文音節(jié)結(jié)構(gòu)

圖1 中, 基字: 30 個(gè)輔音字母皆可作為基字.

藏字在結(jié)構(gòu)上有嚴(yán)格的規(guī)則限制. 基字是組成藏字不可缺少的構(gòu)件, 其余各構(gòu)件通過構(gòu)字規(guī)則進(jìn)行約束出現(xiàn).

2.2 藏語(yǔ)發(fā)音

藏語(yǔ)發(fā)音過程是通過聲帶按照音節(jié)拼讀規(guī)則振動(dòng)產(chǎn)生聲音的過程.在藏語(yǔ)表達(dá)過程中,其聲音音素?cái)y帶了語(yǔ)音信號(hào)的大量信息.藏字發(fā)音時(shí)基字發(fā)主音,前加字、上加字、下加字、后加字、再后加字發(fā)輔助音.藏字的拼讀發(fā)音順序?yàn)榍凹幼帧粠г舻幕侄?不帶元音符號(hào)的縱向疊加部分)→元音→后加字→再后加字[16].

值得注意的是藏語(yǔ)三大方言雖文字相同,但發(fā)音存在較大差異.具體差異如下:(1)安多方言沒有聲調(diào)、復(fù)元音、長(zhǎng)元音,而衛(wèi)藏和康巴方言有該特征,且安多方言復(fù)輔音比較豐富;(2)衛(wèi)藏方言沒有送氣清擦音、清化鼻音、濁塞擦音和濁塞音,而安多和康巴方言則具有,且衛(wèi)藏方言具有單輔音和復(fù)輔音;(3)康巴方言和安多方言很少有舌面擦音c 和ch,但衛(wèi)藏方言中有[24];(4)藏語(yǔ)拉薩話在發(fā)音上聲母發(fā)音不含濁音和塞音,這與漢語(yǔ)的發(fā)音不同.復(fù)輔音聲母出現(xiàn)較少,有真性復(fù)合和鼻化元音,聲調(diào)起伏波動(dòng)不大,發(fā)音也較為平穩(wěn)[25].

藏字發(fā)音攜帶了特定的音素信息,故可以通過對(duì)音素進(jìn)行特征提取來(lái)表達(dá)語(yǔ)音信號(hào)的內(nèi)容.在藏語(yǔ)拉薩話中有59 個(gè)音素[13].如表3 所示.

表3 藏語(yǔ)拉薩話音素及其拉丁轉(zhuǎn)寫

藏語(yǔ)同漢語(yǔ)一樣可以將一個(gè)音節(jié)分離成聲母和韻母來(lái)表示.藏語(yǔ)拉薩話包含了36 個(gè)聲母和45 個(gè)韻母[1].藏語(yǔ)拉薩話聲、韻母及其拉丁轉(zhuǎn)寫如表4、表5所示.

表4 藏語(yǔ)拉薩話韻母、音標(biāo)及拉丁轉(zhuǎn)寫

3 藏語(yǔ)語(yǔ)音識(shí)別技術(shù)

藏語(yǔ)語(yǔ)音識(shí)別過程一般包括幾個(gè)重要階段:語(yǔ)音數(shù)字化、預(yù)處理、特征參數(shù)提取、模型訓(xùn)練和模式匹配.其原理如圖2 所示.

(1)語(yǔ)音采集及處理.常使用CoolEdit 等工具采集一定頻率、聲道和分辨率的語(yǔ)音.對(duì)采集的語(yǔ)音通過語(yǔ)音增強(qiáng)技術(shù)進(jìn)行去噪.

(2)語(yǔ)音信號(hào)預(yù)加重.由于語(yǔ)音由聲道產(chǎn)生后從嘴唇發(fā)出,此過程中受口腔輻射影響會(huì)有高頻損失,為彌補(bǔ)這些高頻信號(hào)損失,常使用高通數(shù)字濾波器來(lái)增強(qiáng)高頻語(yǔ)音信號(hào)[26].濾波器傳遞函數(shù)如式(1)所示.

(3)語(yǔ)音端點(diǎn)檢測(cè).語(yǔ)音端點(diǎn)檢測(cè)是用于檢測(cè)語(yǔ)音信號(hào)段和非語(yǔ)音信號(hào)段.一般使用基于短時(shí)能量和短時(shí)平均過零率的端點(diǎn)檢測(cè)方法端點(diǎn)方法.

(4)語(yǔ)音特征參數(shù)提取.藏語(yǔ)的元音比輔音攜帶了更多聽覺感知信息.通常提取語(yǔ)音信號(hào)的LPCC(線性預(yù)測(cè)倒譜系數(shù))、MFCC(Mel 頻率倒譜系數(shù))、PLPC(基于聽覺模型的感知線性預(yù)測(cè))和深度特征等.由于Mel 頻率更符合人耳聽覺感知,故一般提取MFCC 特征用于語(yǔ)音識(shí)別.聲音頻率和梅爾頻率之間的轉(zhuǎn)換關(guān)系如式(2)所示.

隨著語(yǔ)音技術(shù)的發(fā)展,現(xiàn)在已經(jīng)有更多的研究開始提取深度特征來(lái)代替原來(lái)的MFCC 特征.

(5)訓(xùn)練與識(shí)別.模式創(chuàng)建過程即是模型訓(xùn)練的過程,語(yǔ)音識(shí)別過程即是模式匹配的過程.藏語(yǔ)語(yǔ)音識(shí)別技術(shù)研究至今已經(jīng)有較大的進(jìn)展,從提取的不同特征和識(shí)別原理上,可將藏語(yǔ)語(yǔ)音識(shí)別技術(shù)分為基于模板匹配的藏語(yǔ)語(yǔ)音識(shí)別技術(shù)、基于統(tǒng)計(jì)概率模型的藏語(yǔ)語(yǔ)音識(shí)別技術(shù)和基于人工神經(jīng)網(wǎng)絡(luò)的藏語(yǔ)語(yǔ)音識(shí)別技術(shù)3 類.

表5 藏語(yǔ)拉薩話聲母、音標(biāo)及拉丁轉(zhuǎn)寫

圖2 語(yǔ)音識(shí)別原理圖

3.1 基于模板匹配的藏語(yǔ)語(yǔ)音識(shí)別技術(shù)

基于模板匹配的藏語(yǔ)語(yǔ)音識(shí)別技術(shù)是應(yīng)用最早且、最成熟的藏語(yǔ)語(yǔ)音識(shí)別技術(shù).模板匹配的方法,顧名思義就是通過創(chuàng)建參考模板庫(kù),再由測(cè)試模板與模板庫(kù)中的參考模板一一進(jìn)行比較,輸出具有最大相似度的參考模板相對(duì)應(yīng)的文本作為識(shí)別結(jié)果.其原理圖如圖3 所示.

基于模板匹配方法最常用的方法是動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping,DTW),其主要用來(lái)計(jì)算兩個(gè)不等時(shí)長(zhǎng)語(yǔ)音之間的相似度.在模板訓(xùn)練方面,有針對(duì)特定人群小詞匯量的偶然模板訓(xùn)練法、有針對(duì)特定人群大詞匯量的多模板平均訓(xùn)練法和針對(duì)非特定人群的聚類訓(xùn)練法[10].在系統(tǒng)實(shí)現(xiàn)中根據(jù)實(shí)際應(yīng)用場(chǎng)景進(jìn)行模板訓(xùn)練方法選擇.在語(yǔ)音識(shí)別上,通過計(jì)算歐幾里德距離獲得測(cè)試模板和參考模板之間的相似度,并將相似度最大的作為識(shí)別結(jié)果輸出.歐氏距離計(jì)算公式如式(3)所示.

圖3 基于模板庫(kù)匹配的藏語(yǔ)語(yǔ)音識(shí)別方法原理

3.2 基于統(tǒng)計(jì)概率模型的藏語(yǔ)語(yǔ)音識(shí)別技術(shù)

基于統(tǒng)計(jì)概率模型的藏語(yǔ)音識(shí)別方法是通過統(tǒng)計(jì)概率學(xué)知識(shí)構(gòu)建訓(xùn)練語(yǔ)料語(yǔ)音音素序列的概率網(wǎng)絡(luò),再根據(jù)該概率網(wǎng)絡(luò)找到測(cè)試語(yǔ)料語(yǔ)音的可能音素序列,從而實(shí)現(xiàn)語(yǔ)音識(shí)別.

利用GMM-HMM 訓(xùn)練提取的MFCC 參數(shù)建立聲學(xué)模型,通過N-gram 方法建立語(yǔ)言模型.對(duì)于藏語(yǔ)聲學(xué)建模過程而言,首先,HMM 狀態(tài)序列是由藏語(yǔ)音節(jié)發(fā)音過程中選取的音素經(jīng)過一系列的過程變化構(gòu)成的.其次,觀測(cè)向量(即MFCC 特征向量)是由每一個(gè)音素以一定的概率密度函數(shù)生成.最后,使用高斯混合函數(shù)來(lái)擬合這種概率密度函數(shù)來(lái)表示具有隨機(jī)特性的語(yǔ)音信號(hào)[24].基于統(tǒng)計(jì)概率模型的藏語(yǔ)語(yǔ)音識(shí)別技術(shù)原理圖如圖4 所示.

圖4 基于統(tǒng)計(jì)概率模型的藏語(yǔ)語(yǔ)音識(shí)別方法原理

(1)語(yǔ)音語(yǔ)料庫(kù)創(chuàng)建.根據(jù)識(shí)別系統(tǒng)應(yīng)用領(lǐng)域收集、整理文本語(yǔ)料形成文本語(yǔ)料庫(kù).將文本語(yǔ)料按照特定語(yǔ)音規(guī)格進(jìn)行錄制,再將錄制的語(yǔ)音文件整理標(biāo)注后創(chuàng)建語(yǔ)音語(yǔ)料庫(kù).

(2)發(fā)音字典創(chuàng)建.首先對(duì)文本語(yǔ)料進(jìn)行音節(jié)統(tǒng)計(jì),將統(tǒng)計(jì)的音節(jié)按照Wylie(威利)轉(zhuǎn)寫方案進(jìn)行音節(jié)拉丁轉(zhuǎn)寫,其次將統(tǒng)計(jì)的音節(jié)通過基字丁拆分技術(shù)進(jìn)行聲韻母拆分,最后由音節(jié)拉丁轉(zhuǎn)寫字符串和聲韻母拉丁轉(zhuǎn)寫字符串共同創(chuàng)建發(fā)音字典.

(3)特征參數(shù)提取.主要提取MFCC 特征,同時(shí)根據(jù)不同方言特點(diǎn)融入其他特征信息.

(4)語(yǔ)言建模.語(yǔ)言模型的引入是為了解決字、詞之間的上下文關(guān)系紊亂的問題.簡(jiǎn)單來(lái)講,就是用來(lái)將識(shí)別出來(lái)的孤立字詞組合成一句完整的句子.通常創(chuàng)建基于bigram 和trigram 算法的具有上下文相關(guān)性的語(yǔ)言模型.

3.3 基于人工神經(jīng)網(wǎng)絡(luò)的藏語(yǔ)語(yǔ)音識(shí)別技術(shù)

由于人與動(dòng)物的神經(jīng)網(wǎng)絡(luò)具有根據(jù)自然環(huán)境而自學(xué)習(xí)的能力,所以人工神經(jīng)網(wǎng)絡(luò)的引入是為了實(shí)現(xiàn)語(yǔ)音識(shí)別程序的差異語(yǔ)境自適應(yīng)[27].基于人工神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別原理圖如圖5 所示.

神經(jīng)元是最小的信息處理單元,是聯(lián)絡(luò)和整合輸入信息并傳出信息的基本單位.在人工神經(jīng)網(wǎng)絡(luò)中的人工神經(jīng)元由3 個(gè)基本要素組成,其結(jié)構(gòu)如圖6 所示.

圖5 語(yǔ)音識(shí)別之人工神經(jīng)網(wǎng)絡(luò)原理

圖6 人工神經(jīng)元結(jié)構(gòu)

第一個(gè)要素為突觸或者稱為連接鏈集,可以用權(quán)值來(lái)表征其大小;第二個(gè)要素為加法器,即線性組合器,它將對(duì)每一個(gè)輸入信號(hào)進(jìn)行加權(quán)求和;第三要素為激活函數(shù),它將調(diào)節(jié)信號(hào)的輸出范圍.

深度神經(jīng)網(wǎng)絡(luò)是人工神經(jīng)網(wǎng)絡(luò)的改進(jìn),是更高效的網(wǎng)絡(luò)結(jié)構(gòu).基于深度神經(jīng)網(wǎng)絡(luò)的藏語(yǔ)語(yǔ)音識(shí)別技術(shù)是一種利用DNN-HMM 提取深度特征并建立聲學(xué)模型的藏語(yǔ)連續(xù)語(yǔ)音識(shí)別技術(shù)[17,28].基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別技術(shù)具有高抗噪能力和高識(shí)別率的特點(diǎn).基于深度神經(jīng)網(wǎng)絡(luò)的藏語(yǔ)語(yǔ)音識(shí)別方法原理圖如圖7.

基于深度神經(jīng)網(wǎng)絡(luò)的藏語(yǔ)語(yǔ)音識(shí)別根據(jù)深度特征提取方式的不同又分為常用的4 種:基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)、深度置信網(wǎng)(Deep Belief Network,DBN)、稀疏自動(dòng)編碼器(Sparse Auto-Encoder,SAE)和長(zhǎng)短時(shí)記憶算法(Long Short Term Memory,LSTM)提取深度特征的藏語(yǔ)語(yǔ)音識(shí)別技術(shù).

圖7 基于深度特征的藏語(yǔ)語(yǔ)音識(shí)別方法原理

3.3.1 CNN

CNN 是一種較為實(shí)用的深層神經(jīng)網(wǎng)絡(luò)的基本模型,該模型由卷積和池化運(yùn)算搭建而成[29].在CNN 中,下一層的輸入是上一層的輸出與某個(gè)卷積核進(jìn)行卷積運(yùn)算的結(jié)果,類似依次進(jìn)行逐層運(yùn)算,最終構(gòu)成神經(jīng)網(wǎng)絡(luò)[26].基于卷積神經(jīng)網(wǎng)絡(luò)的藏語(yǔ)語(yǔ)音特征提取模型如圖8 所示.

CNN 較其他網(wǎng)絡(luò)模型而言,訓(xùn)練需要的參數(shù)較少且具有一定的平移不變性,是一種容易訓(xùn)練的模型.在一般情況下,只要網(wǎng)絡(luò)結(jié)構(gòu)配置的合理,那么CNN 建模是不需要經(jīng)過預(yù)訓(xùn)練階段的,并且有時(shí)候使用隨機(jī)的權(quán)值就可得到較好的特征提取結(jié)果[17].

圖8 基于CNN 的藏語(yǔ)語(yǔ)音深度特征提取模型

3.3.2 DBN

深度信念網(wǎng)DBN 的方法提出是為了解決局部最優(yōu)問題[16].DBN 是由一系列受限玻爾茲曼機(jī)(Restricted Boltzmann Machine,RBM)組成.RBM 模型如圖9所示.

RBM 網(wǎng)絡(luò)的特征提取層包括輸入層和隱含層兩層.如圖9 所示,其中表示觀測(cè)節(jié)點(diǎn)的偏移量,表示輸入層與隱含層之間的權(quán)重矩陣,表示隱含節(jié)點(diǎn)的偏移量.基于DBN 的藏語(yǔ)語(yǔ)音識(shí)別,就是將提取的MFCC傳統(tǒng)特征作為DBN 輸入,在DBN 的頂層用Softmax分類器來(lái)微調(diào)整個(gè)網(wǎng)絡(luò)參數(shù)進(jìn)而提取深度特征,最終使用HMM-GMM 構(gòu)件模型實(shí)現(xiàn)藏語(yǔ)語(yǔ)音識(shí)別.基于DBN 的藏語(yǔ)語(yǔ)音深度特征提取模型如圖10 所示.

圖9 RBM 模型圖

圖10 基于DBN 的藏語(yǔ)語(yǔ)音深度特征提取模型

對(duì)于預(yù)訓(xùn)練階段,首先單獨(dú)訓(xùn)練一個(gè)RBM,再把該RBM 的輸出作為下一個(gè)RBM 的輸入,依次逐層疊加訓(xùn)練.對(duì)于訓(xùn)練階段,待預(yù)訓(xùn)練結(jié)束后可根據(jù)誤差大小使用誤差傳播(Back-Propagation,BP)算法進(jìn)行有監(jiān)督訓(xùn)練進(jìn)行權(quán)值微調(diào)從而到達(dá)自動(dòng)修正層次之間權(quán)值的效果,最終形成具有深層結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)[23].

3.3.3 SAE

利用SAE 對(duì)傳統(tǒng)的MFCC 聲學(xué)特征進(jìn)行深度學(xué)習(xí)以提取深度特征.SAE 進(jìn)行特征提取的過程就是將聲音頻率轉(zhuǎn)換為聽覺神經(jīng)稀疏觸動(dòng)信號(hào)的過程,是一種有監(jiān)督的、簡(jiǎn)單的深度特征提取方法[17].同DBN 深度特征提取模型類似,把提取的藏語(yǔ)語(yǔ)音MFCC 特征輸入到SAE 網(wǎng)絡(luò)中進(jìn)行逐層迭代,在網(wǎng)絡(luò)頂層增加Softmax 分類器來(lái)細(xì)微調(diào)整全網(wǎng)絡(luò)的逐級(jí)參數(shù),最終提取得到深度學(xué)習(xí)特征.與DBN 不同的是SAE 采用自下而上的逐層無(wú)監(jiān)督預(yù)訓(xùn)練和自上而下的權(quán)重調(diào)優(yōu)方式來(lái)獲取語(yǔ)音深度特征,這樣就能成功地?cái)[脫了參數(shù)局部最優(yōu)和非稀疏性問題[29].基于SAE 的藏語(yǔ)深度特征提取模型如圖11 所示.

圖11 基于SAE 的藏語(yǔ)深度特征提取模型

對(duì)于訓(xùn)練階段,SAE 的訓(xùn)練過程和DBN 訓(xùn)練過程一樣,使用貪心逐層預(yù)訓(xùn)練算法.使用逐層貪心訓(xùn)練算法訓(xùn)練SAE 參數(shù)進(jìn)行有監(jiān)督的特征提取分為預(yù)訓(xùn)練和微調(diào)兩步.① 預(yù)訓(xùn)練時(shí)將無(wú)標(biāo)簽的數(shù)據(jù)樣本采用無(wú)監(jiān)督的方法訓(xùn)練網(wǎng)絡(luò)獲得參數(shù);② 微調(diào)時(shí)將預(yù)訓(xùn)練后帶標(biāo)簽的結(jié)果數(shù)據(jù)使用BP 算法對(duì)所有層的參數(shù)同時(shí)進(jìn)行微調(diào),最終提取到深度特征.在識(shí)別階段,同樣將待識(shí)別語(yǔ)音經(jīng)過SAE 進(jìn)行特征提取,再將特征傳入已經(jīng)訓(xùn)練好的代表聽覺中樞的HMM 模型中進(jìn)行解碼,最終實(shí)現(xiàn)語(yǔ)音識(shí)別.

3.3.4 LSTM

采用LSTM 的輸出激活與傳統(tǒng)的MFCC 聲學(xué)特征相結(jié)合通過降維以提取深度特征[18].以提取的N維MFCC 作為輸入,經(jīng)網(wǎng)絡(luò)迭代生成M維輸出激活,將此M維輸出激活與N 維MFCC 特征相結(jié)合,生成M+N維特征,然后使用主成分分析(Principal Component Analysis,PCA)算法進(jìn)行降維并提取最重要的R(N<R<M+N)維Tandem 特征作為HMM-GMM 模型的輸入,最后進(jìn)行訓(xùn)練[25].基于LSTM 的藏語(yǔ)特征提取流程如圖12 所示.

圖12 基于LSTM 的深度特征提取過程

對(duì)于訓(xùn)練過程,需經(jīng)過步驟:(1)將輸入的藏語(yǔ)語(yǔ)音信號(hào)通過預(yù)處理,再提取出N 維MFCC 特征;(2)將提取的N為特征輸入到LSTM 網(wǎng)絡(luò)中處理,后輸出M維激活(也就是文本語(yǔ)料庫(kù)中音節(jié)的后驗(yàn)概率);(3)將M維輸出激活與N維MFCC 特征結(jié)合生成M+N維特征,使用PCA 提取R維Tandem 特征;(4)將R維Tandem 特征輸入HMM-GMM 模型進(jìn)行訓(xùn)練.

對(duì)于識(shí)別過程,首先,需經(jīng)過訓(xùn)練過程的步驟處理.其次,對(duì)照HMM 模型庫(kù),將最相似模型的對(duì)應(yīng)文本作為輸出完成識(shí)別.

3.4 技術(shù)小結(jié)

不同的藏語(yǔ)語(yǔ)音識(shí)別技術(shù)根據(jù)其特點(diǎn)應(yīng)用到不同的場(chǎng)景中.3 種技術(shù)方法各自不同的特點(diǎn)如表6 所示.

基于模板匹配的藏語(yǔ)語(yǔ)音識(shí)別是簡(jiǎn)單而易實(shí)現(xiàn)的方法,但是其局限在于僅適用于小詞匯量孤立詞、短語(yǔ)、短句的識(shí)別系統(tǒng);基于統(tǒng)計(jì)概率模型的藏語(yǔ)語(yǔ)音識(shí)別就是基于聲學(xué)模型和語(yǔ)音模型的語(yǔ)音識(shí)別方法,建模過程較為復(fù)雜,其可適用于大詞匯量的連續(xù)語(yǔ)音識(shí)別,但由于其在聲學(xué)建模過程中使用的每幀MFCC 特征包含較少的語(yǔ)音信息量,故抗噪聲性能力弱并且易受噪聲污染;基于深度神經(jīng)網(wǎng)絡(luò)的藏語(yǔ)語(yǔ)音識(shí)別是具體高抗燥能力以及高識(shí)別效率的大詞匯量連續(xù)語(yǔ)音識(shí)別方法,由于深度網(wǎng)絡(luò)的訓(xùn)練過程較為復(fù)雜,導(dǎo)致整個(gè)方法在實(shí)現(xiàn)上較為困難.

表6 3 種語(yǔ)音識(shí)別技術(shù)比較

4 存在問題

藏語(yǔ)語(yǔ)音識(shí)別技術(shù)比英漢語(yǔ)音識(shí)別技術(shù)在研究實(shí)現(xiàn)上存在的困難要多得多.目前主要存在的問題有如下這些:

(1)在藏語(yǔ)表述中,協(xié)同發(fā)音出現(xiàn)的情況較普遍,故在語(yǔ)音端點(diǎn)檢測(cè)時(shí)分割各語(yǔ)音基元(如詞、音節(jié)、音素)間的邊界比較困難,在研究中可以考慮使用后音節(jié)對(duì)前音節(jié)元音尾作用的共振峰過渡回歸方程來(lái)解決協(xié)同發(fā)音問題.

(2)藏語(yǔ)雖分為衛(wèi)藏、康巴、安多三大方言,但它們各自的下屬方言還比較多.在研究中,基本采用一些代表性的方言進(jìn)行研究,例如衛(wèi)藏方言以拉薩話為代表,安多方言以青海藏語(yǔ)為代表.因此,在研究結(jié)果應(yīng)用上仍然存在較多困難.對(duì)于這些問題,目前只能采取“因地制宜”的研究策略.

(3)到目前為止,尚未有比較權(quán)威的研究用藏語(yǔ)語(yǔ)音語(yǔ)料庫(kù)資源,這就導(dǎo)致絕大多數(shù)的研究都是基于自己研究應(yīng)用領(lǐng)域的私人語(yǔ)音語(yǔ)料進(jìn)行的,造成研究的局限以及在一定程度上阻礙了藏語(yǔ)語(yǔ)音識(shí)別的發(fā)展.對(duì)于此問題,寄希望于各大研究機(jī)構(gòu)達(dá)成共識(shí),并共同創(chuàng)建具有代表性和研究?jī)r(jià)值的開放語(yǔ)音語(yǔ)料庫(kù).

(4)研究的人力和財(cái)力投入不足,也嚴(yán)重阻礙了藏語(yǔ)語(yǔ)音識(shí)別的研究發(fā)展.

5 結(jié)論與展望

經(jīng)過多年的研究發(fā)展,藏語(yǔ)語(yǔ)音識(shí)別技術(shù)已經(jīng)取得了良好的效果.然而,根據(jù)藏語(yǔ)各方言的發(fā)音特點(diǎn),可以在語(yǔ)音識(shí)別的語(yǔ)音去噪、端點(diǎn)檢測(cè)方面進(jìn)行技術(shù)優(yōu)化來(lái)提高識(shí)別率,其研究空間仍然很廣闊.隨著深度學(xué)習(xí)軟硬件資源的不斷發(fā)展,具有自學(xué)習(xí)能力、高抗噪能力和高識(shí)別率的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)將會(huì)成為藏語(yǔ)語(yǔ)音識(shí)別技術(shù)研究的熱點(diǎn)和重點(diǎn),這將是未來(lái)藏語(yǔ)語(yǔ)音識(shí)別研究的趨勢(shì).

猜你喜歡
特征提取深度特征
深度理解一元一次方程
如何表達(dá)“特征”
基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠(chéng)的四個(gè)特征
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識(shí)別算法
基于MED和循環(huán)域解調(diào)的多故障特征提取
主站蜘蛛池模板: 亚洲欧美成人综合| 四虎国产永久在线观看| 国产又爽又黄无遮挡免费观看 | 日本在线视频免费| 在线观看欧美国产| 亚洲美女高潮久久久久久久| 免费一看一级毛片| 国产成人精品高清不卡在线| 国产综合无码一区二区色蜜蜜| 日本AⅤ精品一区二区三区日| 2024av在线无码中文最新| 中国黄色一级视频| www.亚洲一区| 亚洲av日韩综合一区尤物| 丰满的熟女一区二区三区l| 国产XXXX做受性欧美88| 亚洲AV无码一区二区三区牲色| 中文字幕欧美日韩高清| 欧美亚洲国产精品第一页| 亚洲美女一级毛片| 人妻熟妇日韩AV在线播放| 日韩国产一区二区三区无码| 国产青榴视频| AV无码一区二区三区四区| 国产一区二区三区免费观看| 国产精品无码一区二区桃花视频| 波多野结衣一二三| 国产网友愉拍精品| 免费高清毛片| 91视频国产高清| 亚洲一级毛片在线播放| 亚洲第一页在线观看| 亚洲欧美在线看片AI| 欧美性久久久久| 国产美女在线观看| 久久亚洲黄色视频| 狠狠干综合| 亚洲av无码牛牛影视在线二区| 亚洲国产中文在线二区三区免| 国产成人精品第一区二区| 久久国产精品麻豆系列| 日韩精品欧美国产在线| 福利在线不卡| 伊人久久久大香线蕉综合直播| 国产午夜精品一区二区三| 青青草国产在线视频| 动漫精品中文字幕无码| 在线看国产精品| 99精品视频在线观看免费播放| 国产不卡在线看| 国产亚洲成AⅤ人片在线观看| 99这里精品| 欧美 国产 人人视频| 免费一极毛片| 99精品欧美一区| 国产午夜无码片在线观看网站| 亚洲精品中文字幕无乱码| 亚洲成人网在线观看| 亚洲婷婷在线视频| 九九久久精品免费观看| 无码国产伊人| 97免费在线观看视频| 自拍中文字幕| 亚洲一区波多野结衣二区三区| 97视频在线观看免费视频| 日本午夜三级| 欧美日韩国产系列在线观看| 亚洲熟妇AV日韩熟妇在线| 国产va视频| 亚洲区视频在线观看| 大香伊人久久| 99re热精品视频国产免费| 在线免费看黄的网站| 亚洲最大综合网| 精品国产一区二区三区在线观看 | 欧美一级高清片欧美国产欧美| 一区二区影院| 9966国产精品视频| yjizz视频最新网站在线| 日本一区二区三区精品国产| 午夜a级毛片| 成人亚洲国产|