999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于非均勻MCE準則的DNN關鍵詞檢測系統中聲學模型的訓練

2015-05-30 22:01:06王朝松韓紀慶鄭鐵然
智能計算機與應用 2015年5期
關鍵詞:檢測模型

王朝松 韓紀慶 鄭鐵然

摘 要:關鍵詞檢測是從連續語音流中檢測預先定義的給定詞的技術,是語音識別領域的一個重要應用。目前的關鍵詞檢測研究中,主流的方法是基于連續語音識別器的先識別后檢測的兩階段方法,語音識別器的準確率對關鍵詞檢測有很大影響。本文首先在識別階段引入深度學習技術來改善關鍵詞檢測算法的性能。進而針對識別階段和檢測階段缺乏緊密聯系,耦合度不夠的問題,研究了側重關鍵詞的深度神經網絡聲學建模技術,利用非均勻的最小分類錯誤準則來調整深度神經網絡聲學建模中的參數,并利用AdaBoost算法來動態調整聲學建模中的關鍵詞權重。結果表明,利用非均勻最小分類錯誤準則來調整深度神經網絡參數進行優化的聲學模型,可以提高關鍵詞檢測的性能。

關鍵詞:深度學習;關鍵詞檢測;AdaBoost;最小分類錯誤

中圖分類號:TP391.4 文獻標識碼: A 文章編號:2095-2163(2015)04-

Non-uniform MCE based Acoustic Model for Keyword Spotting based on Deep Neural Network

WANG Zhaosong, HAN Jiqing, ZHENG Tieran

(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001,China)

Abstract: Spoken term detection (STD) is a task to automatically detect a set of keywords in continuous speech, which is an important field of speech recognition. Current study is based on two-stage approach i.e. recognition and detection. The accuracy of speech recognition has a significant impact on keyword detection. Firstly, this paper uses deep leaning techniques to improve performance during the first stage. As the two stages lack of close contact, the paper studies using non-uniform misclassification error (MCE) criteria to adjust the parameters in deep neural network based acoustic modeling. Further the paper uses the adaptive boosting (AdaBoost) strategy to adjust keywords weight dynamically. It shows that non-uniform MCE can improve the performance of STD.

Keyword: Deep Learning; Spoken Term Detection; AdaBoost; Minimum Classification Error

0 引 言

自2006年以來,深度學習已經成為機器學習的一個重點研究領域,而且現已在許多方面取得了卓越進展。而在語音識別領域,基于深度學習的方法也隨即應用而生,特別是在聲學建模上,深度神經網絡(Deep Neural Network, DNN)已經能夠替代高斯混合模型(Gaussian Mixture Model, GMM),并和隱馬爾科夫模型(Hidden Markov Model, HMM)結合而推出了DNN-HMM混合模型,在實際應用中取得了很高的識別率[1]。當前的關鍵詞檢測(Spoken term detection, STD)系統通常是利用大詞匯量連續語音識別器(large vocabulary continuous speech recognition, LVCSR)來對搜索語音解碼產生關鍵詞假設,再通過將輸入語音轉換為文本形式;基于此,關鍵詞檢測系統就可以利用文本搜索的一些技術,但其與文本搜索不同的則是關鍵詞檢測多會利用lattice來表示語音識別結果[2-3]。在語音識別中,常常都是采用不同的區分性訓練準則來減小語音識別的詞錯誤率(Word Error Rate, WER),著名的區分性訓練準則主要有MCE(Minimum Classification Error)[4]、MMI(Maximum Mutual Information)[5]、MPE(Minimum Phone Error)[6]和MWE(Minimum Word Error)[6]。

在關鍵詞檢測任務中,關注的重點只是預定義的關鍵詞是否被檢測到。至于與目標關鍵詞無關的詞,針對其所獲的檢測結果卻并不重要。Fu等人提出利用非均勻MCE準則,并開展了運用至語音識別中的嘗試[7-8]。Weng等人針對傳統GMM-HMM模型利用非均勻MCE準則來推進關鍵詞檢測的研究,也就是通過在聲學建模階段利用非均勻MCE準則來進行區分性訓練,提高了關鍵詞檢測系統的性能[9]。研究表明,區分性訓練可以改善DNN系統的性能[10]。Chen等人在非均勻準則的基礎上,利用基于keyword-boosted sMBR(state-level minimum Bayes risk)準則來訓練關鍵詞檢測中的DNN-HMM模型,同時再通過在聲學模型訓練階段對定義的關鍵詞進行加重來提高模型對關鍵詞的建模能力,結果即取得了ATWV(Actual Term Weighted Value)1.7%-6.1%的提升[11]。

在此,立基于對傳統GMM-HMM模型之上,相較于非均勻sMBR準則而言,非均勻MCE準則能夠利用AdaBoost來調整關鍵詞權重系數,而非均勻sMBR準則的權重系數卻是固定的,因而非均勻MCE準則要比非均勻sMBR準則獲得更佳效果[12]。從這一結論出發,本文即將文獻[9]中所提出的非均勻MCE準則引入到關鍵詞檢測的DNN聲學建模階段,在DNN的參數調整過程中,通過對關鍵詞進行一定程度的側重來提高DNN-HMM模型對關鍵詞的建模能力。

1 基于非均勻MCE準則的關鍵詞DNN聲學模型訓練

1.1 DNN-HMM聲學模型

DNN-HMM模型利用DNN替代GMM提供LVCSR中HMM狀態的后驗概率。特別的, 表示語句r時刻t的觀測變量,DNN對HMM狀態s的輸出 可以通過softmax激活函數來計算:

(1)

其中, 表示狀態s對應的輸出層的激活值,識別器通常利用偽對數似然來計算后驗概率:

(2)

式中, 表示從訓練數據中計算得到的狀態s的先驗概率。

網絡訓練可以通過利用反向傳播算法來優化給定的目標函數而獲得實現。更經常地,DNN-HMM聲學模型主要利用交叉熵(cross-entropy)作為目標函數,優化則主要利用隨機梯度下降方法來進行處理和操作展開。

1.2 基于MCE準則的區分性訓練

區分性訓練中,MCE訓練準則是常用的一種。該準則以最小化經驗錯誤率為目標[4],在語音識別中,令Xr(r=1,…R)為訓練集中的R個句子,Wr為句子Xr所對應的標注,W是特定的假設空間,對某個假設W的判別函數可以定義為:

(3)

其中, 和 分別表示聲學模型和語言模型得分, 表示聲學模型因子,誤分類度量通常采用:

(4)

誤分類度量的符號反映了給定聲學模型參數,句子 的分類正確或者錯誤程度。經過對上式運用sigmoid函數進行平滑,目標損失函數可以表示為:

(5)

其中, 表示sigmoid函數,目標函數表示針對訓練集的經驗損失。

1.3 關鍵詞檢測的非均勻MCE準則

非均勻準則的區分性訓練是基于某些識別單元可能比其他單元攜帶更多重要信息的假設[9],其目標不是最小錯誤率而是最小錯誤損失,最小錯誤率不區分不同的錯誤。訓練過程中的關鍵詞識別錯誤比非關鍵詞識別錯誤代價更大。

在DNN系統中,對某一幀t,定義幀級判別函數為:

(6)

其中,i是狀態編號, 是給定Xr和假設標簽W的后驗概率,研究中只關注關鍵詞是否在標簽或假設中出現,定義錯誤損失函數 為語句r在時刻t的損失,關鍵詞檢測的非均勻MCE準則的目標函數為:

(7)

為了對公式(7)進行優化,同時與普通的MCE準則進行對比,并推導出非均勻MCE與普通MCE準則優化的不同,進而采取有效的方法來優化非均勻MCE準則的目標函數,即對公式(7)進行求導:

(8)

其中, 分別表示標注和假設的幀后驗概率,將非均勻MCE準則的導數與原來的MCE準則進行對比,實際使用中,為了便于計算,通常令 并忽略 ,具體公式為:

(9)

可以看到,非均勻MCE與普通的MCE方法的一個區別是 ,普通MCE對單個句子是不變的。另一個區別是非均勻的錯誤損失函數 ,錯誤損失函數是加在每一幀上的,為了便于計算非均勻MCE目標函數并有效優化參數,在此采用了普通MCE的固定值而不是變化值,目標函數近似為:

(10)

錯誤損失函數定義為:

(11)

其含義是,如果當前訓練實例的標注是關鍵詞,錯誤損失定義為K1;若對當前訓練實例,關鍵詞出現在假設中錯誤損失定義為K2;當關鍵詞既未出現在標注又未出現在假設空間時,錯誤損失定義為1。K1、K2應該都大于1,這樣在模型訓練階段才可以對關鍵詞進行側重。

公式(11)中的錯誤損失函數在不同的迭代中對同一幀賦予相同的錯誤損失,當使用較大的錯誤損失時可能會導致過訓練。與普通的MCE相比,非均勻的MCE相當于對每一幀根據 進行了重采樣,因此,可以考慮采用基于boosting的方法。AdaBoost方法在每次迭代時均會根據錯誤率調整錯誤損失[13],因此可以將AdaBoost方法運用到非均勻MCE準則中。訓練啟動時會使用較大的K1和K2來初始化錯誤損失函數,這些值會根據識別器的性能進行調整[9]。具體算法總結如算法1所示。

2 實驗結果與分析

本文設計了一系列的實驗來研究前述的非均勻MCE準則的DNN聲學模型區分性訓練,主要研究不同的K1、K2值對關鍵詞檢測系統性能的影響。

本實驗所使用的語料庫來自于國家863朗讀語料庫,其中約100個小時的數據用來訓練DNN-HMM模型的識別器,約10個小時的數據用作關鍵詞檢測的搜索集。實驗的基線系統由開源的語音識別工具Kaldi建立[14],關鍵詞檢測系統的評測利用NIST OpenKWS15提供,關鍵詞檢測系統的評價主要通過ATWV來計算[15-16],其數學描述如下:

(12)

其中,K是關鍵詞數目,Nmiss(kw)是漏檢的關鍵詞數,NFA(kw)是檢測到的虛警數,T是測試集的時間長度(以秒計),β是為999.9的常數。

本文進行了非均勻MCE準則的訓練,迭代次數為4,不同的K1、K2和 下系統ATWV值如表1所示。分析可知,較大的K1和K2可以取得較高的性能,但衰減因子 會導致波動。

表1 基于非均勻MCE準則關鍵詞檢測實驗結果

Tab.1 Results of non-uniform criteria based STD

方案 K1 K2

ATWV

基線(MLE) - - - 0.615 3

AdaBoost非均勻MCE準則 5 5 0.3 0.726 5

5 5 0.5 0.723 7

5 5 0.7 0.721 3

7 7 0.3 0.727 6

7 7 0.5 0.726 8

7 7 0.7 0.727 3

3 結束語

本文在DNN聲學模型的參數訓練階段,通過利用非均勻的MCE準則對關鍵詞進行側重,由此提高了DNN-HMM模型對關鍵詞的建模能力。采用AdaBoost算法,可以解決過訓練的問題。研究結果表明,非均勻MCE方法相比基線系統可以提高關鍵詞檢測的性能。本文用不同的組合(K1,K2, β)來進行實驗,并測試不同配置下的性能。錯誤損失函數中K1、K2的取值越大,系統性能越好,而β取較大值時,系統會出現波動。此外,較小的β值則具有較好的效果。接下來的工作可以研究衰減系數β對關鍵詞檢測系統的作用,并且可以嘗試使β進行自適應調整而不再是使用固定值。

參考文獻:

[1] HINTON G, DENG L, YU D, et al. Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups[J]. Signal Processing Magazine IEEE, 2012, 29(6):82 - 97.

[2] MILLER D, KLEBER M, KAO C, et al. Rapid and accurate spoken term detection[J]. Proc. Interspeech, 2007, 3:1965 - 1968.

[3] National Institute of Standards and Technology (NIST). The spoken term detection (STD) 2006 evaluation plan [J]. http://www.nist.gov/speech/tests/std,2006. 10 edition

[4] JUANG B, HOU W, LEE C. Minimum classification error rate methods for speech recognition[J]. IEEE Trans on Speech & Audio Proc, 1997, 5(3):257 - 265.

[5] BAHL L, BROWN P F, De SOUZA P V, et al. Maximum mutual information estimation of hidden Markov model parameters for speech recognition[J]. Acoustics Speech & Signal Processing IEEE International Conference on Icassp, 1986, 11:49 - 52.

[6] DANIEL P. Discriminative training for large vocabulary speech recognition [D]. Cambridge:University of Cambridge, 2003.

[7] FU Q, MANSJUR D S, JUANG B H. Non-Uniform error criteria for automatic pattern and speech recognition[C]// Acoustics, Speech and Signal Processing, 2008. ICASSP 2008, IEEE International Conference on. Las Vegas: IEEE, 2008:1853 - 1856.

[8] FU Q, MANSJUR D S, JUANG B. Empirical System Learning for Statistical Pattern Recognition With Non-Uniform Error Criteria[J]. Signal Processing IEEE Transactions on, 2010, 58(9):4621 - 4633.

[9] WENG C, JUANG B, WENG C, et al. Adaptive boosted non-uniform mce for keyword spotting on spontaneous speech[C] //IEEE International Conference on Acoustics, Speech & Signal Processing, Vancouver:IEEE, 2013:6960 - 6964.

[10] GHOSHAL A, POVEY D. Sequence discriminative training of deep neural networks[J]. ProcInterspeech, 2013, (8):2345 - 2349.

[11] CHEN I, CHEN N, LEE C. A keyword-boosted sMBR Criterion to enhance keyword search performance in deep neural network based acoustic modeling[J]. Interspeech,2014, (9):2779-2783.

[12] WENG C, JUANG B H F. Discriminative training using non-uniform criteria for keyword spotting on spontaneous speech[J]. Audio Speech & Language Processing IEEE/ACM Transactions on, 2015, 23(2):300 - 312.

[13] FREUND Y, SCHAPIRE R E. Experiments with a New Boosting Algorithm[J]. Proceedings of the Thirteenth International Conference on Machine Learning, 1996, 96:148 - 156.

[14] POVEY D, GHOSHAL A, BOULIANNE G, et al. The Kaldi speech recognition toolkit[C]// Automatic Speech Recognition and Understanding(ASRU), IEEE Workshop on. Hawaii: IEEE, 2011:174 – 178.

[15] NIST Open Keyword Search 2015 Evaluation (OpenKWS15)[EB/OL].http://www.nist.gov/itl/iad/mig/openkws15.cfm.

[16] WEGMANN S, FARIA A, JANIN A, et al. The TAO of ATWV: Probing the mysteries of keyword search performance[C]// Automatic Speech Recognition and Understanding (ASRU), IEEE Workshop on. Olomouc:IEEE, 2013:192 – 197.

猜你喜歡
檢測模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
小波變換在PCB缺陷檢測中的應用
主站蜘蛛池模板: 国产波多野结衣中文在线播放| 一级毛片基地| 国产成人做受免费视频| 国产福利影院在线观看| 国产午夜精品鲁丝片| 欧美日韩另类在线| 欧美国产精品拍自| 波多野结衣视频一区二区 | 国产毛片网站| 国产99视频免费精品是看6| 亚洲视频影院| 国产成人精品免费视频大全五级| 欧美成人二区| 扒开粉嫩的小缝隙喷白浆视频| 91精品啪在线观看国产91| 丁香六月综合网| 538国产在线| 国产呦视频免费视频在线观看| 青青草原偷拍视频| 国产青榴视频| 精品国产污污免费网站| 欧美a网站| 婷婷综合色| 亚洲天堂日韩在线| 亚洲乱码视频| 国产在线自乱拍播放| 国产欧美成人不卡视频| 欧美国产日韩在线| 久久一本日韩精品中文字幕屁孩| 精品国产一区二区三区在线观看| 欧美在线黄| 国产色婷婷| 欧美a级在线| 亚洲三级色| 欧美日韩第二页| 日韩av无码精品专区| 久草视频中文| 亚洲最大看欧美片网站地址| 亚洲成人在线免费| 国产微拍一区二区三区四区| 97色婷婷成人综合在线观看| 国产一区二区三区日韩精品| 亚洲妓女综合网995久久| 手机成人午夜在线视频| 国产91九色在线播放| 国产在线拍偷自揄拍精品| 欧美人与动牲交a欧美精品| 国内精品久久九九国产精品| 欧洲极品无码一区二区三区| 国产一区二区影院| 亚洲不卡无码av中文字幕| 久青草免费在线视频| 在线亚洲小视频| 手机永久AV在线播放| 久久大香香蕉国产免费网站| 亚洲欧美成人| 亚洲天堂免费在线视频| 91人妻日韩人妻无码专区精品| 欧美在线精品怡红院| 亚洲综合专区| 亚洲高清无码精品| 极品尤物av美乳在线观看| 中文字幕66页| 国产人在线成免费视频| 丰满人妻中出白浆| 国产96在线 | 免费一级全黄少妇性色生活片| 亚洲一区二区三区香蕉| 久久国语对白| 欧美激情第一欧美在线| 亚洲一区二区三区香蕉| 国产美女在线观看| 日韩欧美中文字幕在线韩免费 | 久久99国产视频| 日韩人妻少妇一区二区| 宅男噜噜噜66国产在线观看| 一本综合久久| 无码精品国产VA在线观看DVD| 精品视频一区在线观看| 91丨九色丨首页在线播放| 国产精品久久久久久久久久98| yjizz视频最新网站在线|