999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

臨近最優(yōu)主動學(xué)習(xí)的藏語語音識別方法研究

2018-11-17 02:50:38李要嬙徐曉娜吳立成
計算機工程與應(yīng)用 2018年22期

趙 悅,李要嬙,徐曉娜,吳立成

中央民族大學(xué) 信息工程學(xué)院,北京 100081

1 引言

藏語是一種非常重要的中國少數(shù)民族語種,在我國使用藏語的人數(shù)500多萬,其中主要分布在我國的西藏自治區(qū)以及青海、甘肅、四川和云南等藏族聚集區(qū)。藏語語音識別技術(shù)的發(fā)展,不僅可以有效地解決藏族地區(qū)和我國其他區(qū)域之間的語言障礙問題,促進民族間的相互交流,而且可以推動藏區(qū)經(jīng)濟、科技、文化等領(lǐng)域的發(fā)展,促進民族團結(jié)統(tǒng)一,增強民族凝聚力。

在語音識別領(lǐng)域,語音識別算法(如隱馬爾科夫模型和深度神經(jīng)網(wǎng)絡(luò)等)采用監(jiān)督式學(xué)習(xí)方式建立語音識別模型[1]。為了建立高準(zhǔn)確的語音識別模型,這種學(xué)習(xí)方式需要大量的帶標(biāo)注的語音語料,而標(biāo)注語音語料是一件非常費時費力的工作。通常以詞為語音識別單位的標(biāo)注工作所花費的時間是實際音頻語句時間的10倍,以音素為識別單位的語音標(biāo)注工作將會達到語音語句時間長度的400倍[2]。藏語作為小語種,其語音標(biāo)注專家十分匱乏,人工標(biāo)注語音語料更加耗時耗力。目前,帶標(biāo)注的藏語連續(xù)語音數(shù)據(jù)量還遠遠不能滿足實際語音識別系統(tǒng)建模的需要[3-5]。

然而,在大量未標(biāo)記的數(shù)據(jù)集中,有許多較為相似的信息,如果能夠選擇較少的數(shù)據(jù)給語音專家去標(biāo)注,那么同樣會獲得具有較高精度的識別器,這便是主動學(xué)習(xí)的原理。

主動學(xué)習(xí)的過程如圖1所示,其基于少量的帶標(biāo)注訓(xùn)練樣本建立初始識別器,在每次迭代學(xué)習(xí)中,根據(jù)目標(biāo)函數(shù)的設(shè)定,在候選樣本集中選擇最具有價值的樣本交給用戶標(biāo)記,然后將標(biāo)記后的樣本加入到當(dāng)前訓(xùn)練集中,更新識別器,直到識別器達到滿意的精度[6]。主動學(xué)習(xí)通常被用來減少人工標(biāo)注的數(shù)據(jù)量,解決標(biāo)注工作繁瑣冗長的問題。它可以從大量未標(biāo)注的數(shù)據(jù)中挑選一些具有價值的樣本交給用戶進行標(biāo)注,以便利用少量高質(zhì)量的訓(xùn)練樣本構(gòu)建與大數(shù)據(jù)量訓(xùn)練方式一樣精準(zhǔn)的識別模型[7]。

圖1 主動學(xué)習(xí)過程

本文針對藏語拉薩話連續(xù)語音識別目標(biāo),構(gòu)造了語音語料的評價函數(shù)和語料批量選擇的目標(biāo)函數(shù),通過臨近最優(yōu)選擇算法,實現(xiàn)了語音數(shù)據(jù)的挑選。實驗結(jié)果顯示,通過使用主動學(xué)習(xí)方法挑選的少量樣本進行建模,所構(gòu)建的語音識別模型識別精度可以達到與使用全部數(shù)據(jù)進行建模的精度。本文提出的基于主動學(xué)習(xí)的藏語語音語料選擇方法,可以加快藏語連續(xù)語音識別工作,為識別建模提供充分、可信的訓(xùn)練數(shù)據(jù)。

2 語料評價函數(shù)構(gòu)造

主動學(xué)習(xí)方法首先通過樣本評價函數(shù)對候選數(shù)據(jù)集中的樣本進行打分,因此,對已標(biāo)注的樣本集進行了數(shù)據(jù)統(tǒng)計,通過當(dāng)前的數(shù)據(jù)分布情況和語音識別目標(biāo),構(gòu)造藏語拉薩話語音語料的評價函數(shù)。

本文對現(xiàn)有訓(xùn)練數(shù)據(jù)集中單音素出現(xiàn)的頻數(shù)進行了統(tǒng)計,如圖2所示。將出現(xiàn)頻數(shù)低于50次的音素定義為稀疏音素。本文稀疏音素頻數(shù)分布圖如圖3所示。

考慮到構(gòu)建的訓(xùn)練數(shù)據(jù)集應(yīng)該盡量涵蓋全部藏語拉薩話音素,并且各個音素數(shù)據(jù)分布要均衡,同時結(jié)合提高語音識別準(zhǔn)確率的目標(biāo),在構(gòu)造主動學(xué)習(xí)的樣本評價函數(shù)時,主要考慮以下三個因素:

(1)句子中識別音子的覆蓋度Xk,即語音句子中包含識別音子的個數(shù);

圖2 單音素頻數(shù)分布圖

圖3 稀疏音素頻數(shù)分布圖

(2)句子中稀疏音子的覆蓋度Yk,即語音句子中包含稀疏音子的個數(shù);

(3)句子對于語音識別精度提高的貢獻度Zk,即每個語音句子加入到識別器中,語音識別精度的提高程度。

基于以上三個評價因素,語音語料的評價函數(shù)可以寫成:

3 臨近最優(yōu)語料子集的目標(biāo)函數(shù)構(gòu)造

大多數(shù)的主動學(xué)習(xí)方法都是非批量的方法,它們一次只選擇一個最有價值的樣本去標(biāo)注[8]。因為非批量的主動學(xué)習(xí)方法對每一個選出的數(shù)據(jù)都要進行識別器的重新訓(xùn)練,所以訓(xùn)練過程緩慢,并且不能進行多專家在線同時標(biāo)注。

相反,批量主動學(xué)習(xí)方法允許一次選擇多個未標(biāo)注的樣本[9-11]。但是如果只是把單一樣本選擇策略應(yīng)用到批量主動學(xué)習(xí)選擇樣本過程中效果并不好,因為所選樣本具有高度的信息相似性,例如N-best方法。為了選擇能夠代表整體數(shù)據(jù)集的全局最優(yōu)子集樣本,作者在文獻[12]中利用submodular函數(shù)理論優(yōu)化了樣本選擇問題。基于該工作,本文研究了臨近最優(yōu)語音樣本集合的目標(biāo)函數(shù),并證明了該函數(shù)具有submodularity性質(zhì),這使得主動學(xué)習(xí)器可以利用greedy算法來獲得臨近最優(yōu)的語料子集。

批量主動學(xué)習(xí)的一般過程是:基于少量的已標(biāo)注訓(xùn)練樣本建立初始識別器,在每次迭代學(xué)習(xí)中,根據(jù)目標(biāo)函數(shù)的設(shè)定,在候選樣本集中選擇多個最具有價值的樣本交給用戶標(biāo)注,然后將這些標(biāo)注后的樣本加入到當(dāng)前的訓(xùn)練集中,更新識別器,直到識別器達到滿意的精度。在每次迭代學(xué)習(xí)過程中,批量主動學(xué)習(xí)的目的就是從未標(biāo)記的樣本中選擇一個最優(yōu)子集S*,S*可以通過式(2)獲得:

其中,O(S)為目標(biāo)函數(shù),S為樣本數(shù)是N的子集。為得到O(S)的最優(yōu)解,需要將O(S)構(gòu)造為submodular函數(shù),利用其函數(shù)性質(zhì),就可獲得其臨近最優(yōu)解,也就是臨近最優(yōu)樣本數(shù)據(jù)集S*。

一個函數(shù)是submodular函數(shù)的充分必要條件是:如果有且僅有A?B?V并且s∈VB,那么如果函數(shù)滿足“回報遞減(diminishing returns)”性質(zhì):

第2章闡述了單一樣本評價函數(shù)基于三個考慮因素,在批量選擇樣本時,同樣依據(jù)這三個評價因素,希望每次迭代能夠選擇出N個未標(biāo)注樣本,它們構(gòu)成的樣本子集涵蓋最多的音素個數(shù)、最多的稀疏音子個數(shù)和具有最大的期望識別誤差減少。因此,對于式(2)中的目標(biāo)函數(shù)O(S),構(gòu)造如下公式:

其中,X(S)代表樣本集中音素出現(xiàn)的個數(shù);Y(S)表示稀疏音子出現(xiàn)的次數(shù);Z(S)表示樣本集的期望識別誤差減少;α、β、γ同式(1)中的定義一樣,仍然分別是三個因素的預(yù)設(shè)系數(shù)。

下面來推導(dǎo)O(S)滿足submodular函數(shù)的充分必要條件。讓A?B?U且{s}?UB,則:

證明過程的第二步中,X(A?{s})-X(A)等于{s}中新出現(xiàn)的音素個數(shù)或等于0;Y(A?{s})-Y(A)等于{s}中稀疏音子出現(xiàn)次數(shù);根據(jù)文獻[6]中的證明,期望誤差減少函數(shù) Z(A?{s})-Z(A)等于為當(dāng)前分類器在未標(biāo)注數(shù)據(jù)集上的分類信息熵,即期望誤差。同理,也可以推導(dǎo)出:

因為A?B?U,所以由式(7)得:

從而,O(?)滿足式(3),其是submodular函數(shù)。

4 基于臨近最優(yōu)批量主動學(xué)習(xí)的藏語語音語料選擇算法

正如文獻[16]所示,如果目標(biāo)函數(shù)為submodular函數(shù),那么由S={}(此時O(S)=0)開始,使用greedy算法,迭代地選擇未標(biāo)注樣本并加入到S中,直到有N個樣本被加入為止,那么此時獲得的集合S就是臨近最優(yōu)集合。根據(jù)第3章構(gòu)造的語料子集目標(biāo)函數(shù)公式(4),藏語語音語料選擇算法描述如下。

算法1臨近最優(yōu)批量主動學(xué)習(xí)算法

1.隨機從未標(biāo)注樣本集U中選擇少量樣本,為每個樣本標(biāo)注文本內(nèi)容,形成初始訓(xùn)練數(shù)據(jù)集L;

2.基于L訓(xùn)練語音識別器C;

3.循環(huán)以下各步驟直到識別器精度滿足設(shè)定的要求或選擇了全部未標(biāo)注樣本;

3.1 greedy算法發(fā)現(xiàn)S;

3.2 用戶標(biāo)注S,并將標(biāo)注后的S加入到L中;

3.3 重新訓(xùn)練識別器C,在測試集上獲得C的識別精度。

算法2 greedy算法發(fā)現(xiàn)S 1.S={};

2.While|S|≤N

2.1 基于當(dāng)前識別器C*(初始C*=C)預(yù)估數(shù)據(jù)集U(L?S)中每一個未標(biāo)注樣本的語音內(nèi)容,即用音素表征的語音內(nèi)容;

2.2 根據(jù)式(1)計算每一個未標(biāo)注樣本的Xk、Yk;

2.3 將每一個預(yù)標(biāo)注的樣本分別加入預(yù)訓(xùn)練集L*=,訓(xùn)練識別器Ck,得到期望誤差ek;

2.4 對數(shù)據(jù)集U(L?S)中的每一個樣本根據(jù)式(1)進行打分,得到sk;

2.5 選擇sk得分最高的未標(biāo)注樣本加入S,即S=S+{xk};

2.6 用sk得分最高的預(yù)標(biāo)注樣本對應(yīng)的識別器Ck替換 C*,即 C*=Ck

3.End

5 實驗結(jié)果分析

本文使用自建的藏語拉薩話連續(xù)語音數(shù)據(jù)集對提出的語音語料選擇方法進行評估。實驗中,語料665句,選取其中57句作為測試數(shù)據(jù),剩余608句中的564句作為主動學(xué)習(xí)的初始訓(xùn)練集,44句作為未標(biāo)注語料。實驗測得,用608句作為全部訓(xùn)練數(shù)據(jù),句子識別率為75.07%。

在主動學(xué)習(xí)中,564句初始訓(xùn)練集的識別率為65.07%,根據(jù)臨近最優(yōu)主動學(xué)習(xí)算法進行實驗,每次在未標(biāo)注數(shù)據(jù)集中挑選N=2條語音語句添加到初始訓(xùn)練集中,并且式(1)和式(4)中的 α、β、γ 參數(shù)均設(shè)置為1。利用HTK進行識別模型建模,當(dāng)進行8次迭代選擇了16條語句后,識別器的識別率就達到75.73%。實驗結(jié)果如表1所示,其折線圖如圖4所示。

表1 三種方法的語音識別率實驗數(shù)據(jù)比較 %

圖4 三種方法的語音識別率折線圖比較

正如實驗結(jié)果顯示,第8次迭代學(xué)習(xí)后,臨近最優(yōu)批量主動學(xué)習(xí)方法選擇大約1/3的未標(biāo)注語料,就可以使識別器的識別精度與全部語料訓(xùn)練的結(jié)果相當(dāng),其表現(xiàn)好于N-best和隨機數(shù)據(jù)選擇兩種方法。本文提出的語音語料選擇方法,明顯減少了語音標(biāo)注的工作量,不需要標(biāo)注全部語音語料就可以達到全部語音語料的識別率,甚至高于全部訓(xùn)練語句的識別率。

6 總結(jié)

本文研究了基于臨近最優(yōu)主動學(xué)習(xí)的藏語語音語料選擇方法,提出了語料樣本評價函數(shù)和臨近最優(yōu)批量樣本選擇的目標(biāo)函數(shù),并證明了后者具有submodular函數(shù)性質(zhì)。該函數(shù)性質(zhì)保證了基于greedy算法實現(xiàn)的藏語語料選擇是臨近最優(yōu)樣本集,該樣本集包含了最有價值的樣本參與人工標(biāo)注和識別器訓(xùn)練,減少了冗余樣本的標(biāo)注,極大地提高了語音識別器構(gòu)建的工作效率。

主站蜘蛛池模板: 青青热久免费精品视频6| 亚洲va欧美ⅴa国产va影院| 久久香蕉国产线看观看精品蕉| 欧美一级特黄aaaaaa在线看片| 91精品人妻一区二区| 国产香蕉在线视频| 日韩一区二区三免费高清| 国产黄在线免费观看| 999国产精品永久免费视频精品久久| 十八禁美女裸体网站| 人妖无码第一页| 72种姿势欧美久久久大黄蕉| 免费国产无遮挡又黄又爽| 国产精品人莉莉成在线播放| 高潮毛片无遮挡高清视频播放| 九色91在线视频| 九色综合视频网| 无码人妻免费| 国产精品永久免费嫩草研究院| 国产女人爽到高潮的免费视频 | 国产91导航| 91视频99| 国产精品专区第1页| 国产精品高清国产三级囯产AV| 欧美19综合中文字幕| aaa国产一级毛片| 夜夜操天天摸| 四虎永久在线| 国产成人三级| 国产精选小视频在线观看| 国产视频入口| 日本人又色又爽的视频| 国产91色在线| 911亚洲精品| 午夜福利无码一区二区| 777国产精品永久免费观看| 亚洲国产AV无码综合原创| 亚洲va在线∨a天堂va欧美va| 国产成人调教在线视频| 欧美无遮挡国产欧美另类| 中文字幕在线不卡视频| 尤物精品视频一区二区三区| 狠狠v日韩v欧美v| 精品成人一区二区三区电影| 欧美成人看片一区二区三区| 亚洲妓女综合网995久久| 国产91高跟丝袜| 亚洲欧洲日韩综合| 在线播放真实国产乱子伦| 一级一级一片免费| 国产永久在线观看| 久久精品人妻中文系列| 欧美午夜视频在线| a免费毛片在线播放| 美女无遮挡拍拍拍免费视频| 综合久久久久久久综合网| 亚洲欧美综合在线观看| 黄色成年视频| 91免费片| 久久狠狠色噜噜狠狠狠狠97视色 | 91区国产福利在线观看午夜| 无码啪啪精品天堂浪潮av| 玖玖免费视频在线观看| 少妇精品在线| 婷婷久久综合九色综合88| 亚洲伊人天堂| 欧美精品不卡| 四虎在线观看视频高清无码| 秋霞国产在线| 欧美一级高清片欧美国产欧美| 欧美日韩国产在线人成app| 久久青青草原亚洲av无码| 一级成人a做片免费| 欧美成人一区午夜福利在线| 欧洲高清无码在线| 久久99国产综合精品女同| 成人毛片免费在线观看| 久久成人国产精品免费软件| 成人91在线| 亚洲欧美成人在线视频| 999福利激情视频| 欧洲成人免费视频|