999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種改進的有監督訓練的TV語種識別方法

2016-11-09 01:11:32張翼飛騰瀟琦
計算機應用與軟件 2016年9期
關鍵詞:監督特征效果

張翼飛 騰瀟琦

1(上海大學機電工程與自動化學院 上海 200072)2(訊飛智元信息科技有限公司 安徽 合肥 230088)3(北京市互聯網信息辦公室 北京 100062)

?

一種改進的有監督訓練的TV語種識別方法

張翼飛1,2騰瀟琦3

1(上海大學機電工程與自動化學院上海 200072)2(訊飛智元信息科技有限公司安徽 合肥 230088)3(北京市互聯網信息辦公室北京 100062)

傳統的GMM-TV(Gaussian Mixture Model-Total Variability,又稱為i-vector)系統得益于它良好的識別效果以及優秀的識別效率,在語種識別LID(language identification)中得到廣泛應用,然而載荷矩陣T的訓練過程是無監督的,使得它的分類空間并沒有得到最好的優化。已有的有監督TV(Supervised-TV,S-TV)算法,通過在均值超矢量上拼接一個帶有標簽信息的向量,使得T矩陣的訓練過程變成一個有監督的過程,但是效果增長較弱,同時帶來了載荷矩陣自由度問題。提出一種改進的有監督訓練方法,在目標函數中引入正則化項來解決自由度的問題,同時大大提升它的分類效果。該方法在NIST LRE09的30s數據集實驗中得到了很好的效果,等錯誤率EER(Equal Error Rate)從5.40%下降到4.96%,融合系統的EER達到了3.86%。

語種識別TV系統有監督訓練載荷矩陣

0 引 言

語種識別LID是通過對給定的一段語音信號分析處理,識別其所屬語言的種類。它往往作為語音識別和其他相關應用的一個前端處理技術,是在語音識別基礎上發展起來的[1]。隨著全球化趨勢和國際互聯網的發展,人們更加迫切地希望可以突破語言的障礙進行交流,因而對于語種識別技術的需求也與日俱增,比如音頻和視頻信息檢索、自動機器翻譯、電話自動轉接、多語種語音識別和智能監測等。不僅如此,語種識別還廣泛應用于軍事、國家安全和各個信息產業領域,具有極為重要的應用價值和前景。

目前主流的LID方法有很多,但國際主流的方法都是以GMM-TV[2-4]為基礎的,這主要得益于GMM-TV系統優秀的識別效率和良好的識別效果。然而傳統的T矩陣的訓練是無監督的過程,這就使得它的分類空間并沒有得到最好的優化。2014年李明提出了一種有監督的TV系統S-TV[5]。該方法在原TV系統的基礎上,在均值超矢量上拼接了一個帶標簽的語種標識向量,使得T矩陣的訓練過程融入了監督信息,以此來增加T矩陣的區分性。實驗結果表明,該方法在傳統的TV系統基線上有一定的提升。

然而S-TV系統在迭代過程中T和W的方差不斷地在增大,尤其在迭代了5次以后,方差的增大幅度在10倍以上,遠遠超過了傳統TV系統中T矩陣方差的增長速度。而我們需要的是盡量收斂的T矩陣,于是本文對S-TV做了小小的改進,通過增加正則化項來抑制T和W矩陣的增長幅度,使得識別效果得到了很大的提升。在NIST LRE09數據集上,此方法取得了較好的效果。

1 傳統TV系統

給定混合度為C的UBM模型λ,C個分量λc={wc,uc,Σc}。假設一條語音有L幀,它的特征序列為{x1,x2,…,xL},并且每個特征xi的維度為D,根據文獻[4]:

z=(I+TtΣ-1NT)-1TtΣ-1Ny

(1)

其中z就是i-vector,維度為K。Σ為CD×CD維的協方差對角陣。N是一個CD×CD維的對角陣,并且由C個子塊NcI構成,Nc為D×D維的對角陣,且所有元素都相同,它的值由下式確定:

(2)

其中,P(c|xt,λ)為xt在λc上的占有率。y是均值超矢量,它由C個分量構成:

(3)

于是y可以通過CD×K維的矩陣T映射到K維的空間上:

y→Tz

(4)

在通過式(1)得到i-vector之后,經過LDA并計算cosine距離即可實現分類。

2 有監督的TV系統

為了讓i-vector具有更好的區分性,文獻[5]中的有監督TV在基線TV的均值超矢量后面加上了一個語種標識向量,語種標識向量的維度M等于語種的類別數。假設第j條語音的語種標識向量為Lj=(Lj1,Lj2,…,LjM)T,則有:

(5)

如圖1所示,將M維的L拼接在CD維的均值超矢量后面,構成一條(CD+M)維的超矢量,同樣在T矩陣下方拼接一個M×K的W矩陣,構成一個(CD+M)×K的矩陣。這樣超矢量就代入了監督信息,并且參與了T矩陣的訓練,使最后得到的i-vector的區分性更強。

圖1 S-TV結構圖

類似于傳統TV系統,假設zj服從于標準正態分布,則有:

P(zj)=N(0,I)

(6)

(7)

(8)

結合式(7)、式(8),通過簡化操作得到優化函數,可以看出,EM算法的目標在于最小化J:

(9)

(10)

(11)

在M步驟,通過最小化上述函數J后可得W和T的更新公式:

(12)

(13)

式中,Tc是T矩陣在第c個高斯上的分量,ycj是yj在第c個高斯上的分量。

經過幾次EM迭代后,T和W矩陣的參數會得到很好的修正。后面的提取i-vector階段,利用修正的矩陣,采用傳統的TV方法進行i-vector估計即可。

3 改進的有監督TV系統

(14)

則最終的更新公式變為:

(15)

(16)

實驗證明,加入正則化項后,成功抑制住了W和T矩陣過大的增長趨勢,并且使得Supervised-TV的效果有了很大的提升。

4 實 驗

4.1數據和參數

圖2 LID測試流程

本次實驗選用了NIST LRE09的30s數據集合,該集合有24個語種。特征選用了PLP-SDC特征[6]和PNCC-SDC特征[7,8],UBM的維度為512,i-vector維度為300。在開發集上,對S-TV的一些參數進行了調優,正則化項系數λ的值取1000,初始的W矩陣為隨機生成,并且它的值服從均值為0,方差為1×10-6的高斯分布。后端采用LDA+cosine距離的組合,LDA矩陣的維度為300×23。整個測試系統如圖2所示。

4.2實驗結果與結論

首先看正則化項對優化函數J的影響。目標函數采用式(9),特征為PLP-SDC特征,我們取出迭代5次中的每一代結果,分別統計出相同的6條語音的目標函數J之和放在表1中。

表1 目標函數

從表1可以看出,帶正則化項后的S-TV對目標函數J的優化更好,理論上會得到更好的結果。實驗結果證明了我們的猜想,表2展示了正則化項對實驗結果的影響。

表2 不同配置下的S-TV系統結果

對比表2各項,正則化項對S-TV的提升很明顯,特別是在使用PNCC-SDC特征時。表3對比了基線和S-TV的單系統效果(S-TV系統均是帶正則化項的),圖3是它們的DET曲線。

表3 各單系統結果

圖3 單系統的DET曲線

從以上結果可以得出結論,單系統中,PNCC-SDC特征整體上優于PLP-SDC特征,并且在使用PNCC-SDC特征時,S-TV令基線系統的EER從5.40%下降到4.96%,效果相對提升達到了8.15%。

表4展示了各種融合系統的效果,可以看出,融合系統的效果有很顯著的提升,說明PNCC-SDC特征和 PLP-SDC特征以及S-TV和TV的互補性都較強。當四個單系統融合時,EER達到了3.86%的最小值。

表4 融合系統結果

在效率方面,文獻[5]給出了TV和S-TV的時間復雜度,分別為O(K3+K2C+KCD)和O(K3+K2C+K(CD+M))。在一般情況下,M<

表5 改進S-TV與傳統TV的效率對比

5 結 語

本文在GMM-TV系統以及已有的有監督訓練的TV系統下,提出了一種改進的有監督訓練TV系統,在原本訓練T矩陣的基礎上給訓練數據增加標識向量來增加T空間的區分性,同時在目標函數中引入正則化項,來控制空間訓練的自由度。實驗結果表明,此方法在不影響效率的情況下有效地提高了語種識別的效果,在NIST LRE09數據集合上,所提出的融合系統相比基線系統提升非常明顯。本文方法為模型域層面的改進,可以用于國際主流的Bottleneck特征[9]中。

[1] 付強.基于高斯混合模型的語種識別的研究[D].中國科學技術大學,2009.

[2] 郭武.復雜信道下的說話人識別[D].中國科學技術大學,2007.

[3] Dehak N,Kenny P,Dehak R,et al.Front-End Factor Analysis for Speaker Verification[J].Audio Speech & Language Processing IEEE Transactions on,2011,19(4):788-798.

[4] Kenny P.Joint factor analysis of speaker and session variability:Theory and algorithm[R].Technical report CRIM-06/08-13,CRIM,2006.

[5] Li ming,Shrikanth Narayanan.Simplified Supervised I-vector Modeling with Application to Robust and Efficient Language Identification and Speaker Verification[J].Computer Speech & Language,2014,28(4):940-958.

[6] Kohler M A,Kennedy M.Language identification using shifted delta cepstra[C]//Circuits and Systems,2002.MWSCAS-2002.The 2002 45th Midwest Symposium on.IEEE,2002:III-69-72.

[7] Kim C,Stern R M.Feature extraction for robust speech recognition using a power-law nonlinearity and power-bias subtraction[J].Interspeech,2009:28-31.

[8] Kim C,Stern R M.Power-Normalized Cepstral Coefficients (PNCC) for robust speech recognition[C]//2012 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),2012,22(10):4101-4104.

[9] Jiang Bing,Song yan,Wei si,et al.Deep Bottleneck Features for Spoken Language Identification[J].PLOS ONE,2014,9(7):e100795.

AN IMPROVED LANGUAGE IDENTIFICATION METHOD USING SUPERVISED TOTAL VARIABILITY

Zhang Yifei1,2Teng Xiaoqi3

1(School of Mechatronics Engineering and Automation,Shanghai University,Shanghai 200072,China)2(IflytekIntelligentSystemCo.,Ltd,Hefei230088,Anhui,China)3(TheOfficeofInternetInformation,Beijing100062,China)

Traditional GMM-TV (Gaussian mixture model-total variability) system is benefited from its good recognition effect and excellent recognition efficiency, and has been widely used in language identification (LID). However the training process of load matrix T is unsupervised, this leads to its classification space not being optimised the best. Existing supervised-TV (S-TV) algorithm, through stitching a vector with tag information on mean super vector, makes the training process of T matrix become a supervised process, but it only achieves a little performance gain while introduces the problem of load matrix’s freedom. In this paper we propose an improved S-TV method which puts a regularisation item into the objective function for solving the freedom problem and meanwhile greatly improves its classification effect. The improved system achieves excellent effect in the experiment on 30s dataset of NIST LRE2009, the equal error rate (EER) reduces to 4.96% from 5.40% and the fusion system’s EER has even reached 3.86%.

Language identificationTV systemSupervised trainingLoad matrix

2015-05-20。北京市科委項目(Z141100006014002)。張翼飛,碩士生,主研領域:聲紋語種識別。騰瀟琦,碩士生。

TP3

A

10.3969/j.issn.1000-386x.2016.09.038

猜你喜歡
監督特征效果
按摩效果確有理論依據
突出“四個注重” 預算監督顯實效
人大建設(2020年4期)2020-09-21 03:39:12
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
迅速制造慢門虛化效果
抓住“瞬間性”效果
中華詩詞(2018年11期)2018-03-26 06:41:34
抓住特征巧觀察
監督見成效 舊貌換新顏
人大建設(2017年2期)2017-07-21 10:59:25
夯實監督之基
人大建設(2017年9期)2017-02-03 02:53:31
模擬百種唇妝效果
Coco薇(2016年8期)2016-10-09 02:11:50
主站蜘蛛池模板: 亚洲高清无在码在线无弹窗| 91久久精品日日躁夜夜躁欧美| 日韩国产综合精选| 欧美亚洲激情| 国产精品护士| 国产97视频在线| 天天激情综合| 视频二区亚洲精品| 亚洲人人视频| 国产一级α片| 国产产在线精品亚洲aavv| 亚洲人成在线精品| 在线看免费无码av天堂的| 亚洲色精品国产一区二区三区| 亚洲女同一区二区| 乱人伦中文视频在线观看免费| 久久婷婷国产综合尤物精品| 91成人免费观看| 任我操在线视频| 国产微拍一区二区三区四区| 久久综合婷婷| 九九久久精品免费观看| 波多野结衣一区二区三区AV| 五月天久久综合国产一区二区| 最新国产成人剧情在线播放| 又爽又大又黄a级毛片在线视频| 免费看a级毛片| 国产精品视频观看裸模| 国产爽妇精品| 国产精品欧美亚洲韩国日本不卡| 国产麻豆福利av在线播放| 777午夜精品电影免费看| 国产精品污污在线观看网站| swag国产精品| 亚洲日本中文字幕乱码中文| 被公侵犯人妻少妇一区二区三区| 欧洲亚洲欧美国产日本高清| 日韩欧美成人高清在线观看| 欧美a√在线| 亚洲乱伦视频| 无码乱人伦一区二区亚洲一| 噜噜噜久久| 国产综合另类小说色区色噜噜| 一本大道香蕉久中文在线播放| 国产成人高清在线精品| 浮力影院国产第一页| 亚洲一区二区三区中文字幕5566| 亚洲精品自拍区在线观看| 乱色熟女综合一区二区| 国产一区二区三区精品欧美日韩| 婷婷伊人久久| 精品日韩亚洲欧美高清a| 99国产精品国产高清一区二区| 天天色天天综合| 日韩天堂视频| 九九久久精品免费观看| 国产麻豆精品在线观看| 国产一级无码不卡视频| 亚洲午夜福利在线| www亚洲天堂| 久久久受www免费人成| 久久国产精品娇妻素人| 国产精品所毛片视频| 午夜在线不卡| 又黄又湿又爽的视频| 69国产精品视频免费| 99伊人精品| 91精品国产福利| 毛片网站在线播放| 久久黄色毛片| 亚洲香蕉伊综合在人在线| 99精品国产自在现线观看| 亚洲91精品视频| 久草国产在线观看| 一级高清毛片免费a级高清毛片| 中国成人在线视频| 99中文字幕亚洲一区二区| 成人午夜天| 精品三级网站| 无码精油按摩潮喷在线播放| AV在线天堂进入| 亚洲成网站|