999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于DAE-RBM-PLDA的說話人確認信道補償技術(shù)*

2017-09-03 09:17:09尹主峰徐志京
關鍵詞:信息模型系統(tǒng)

尹主峰,徐志京

(上海海事大學 信息工程學院,上海 201306)

基于DAE-RBM-PLDA的說話人確認信道補償技術(shù)*

尹主峰,徐志京

(上海海事大學 信息工程學院,上海 201306)

在說話人識別系統(tǒng)中,一種結(jié)合深度神經(jīng)網(wǎng)路(DNN)、身份認證矢量(i-vector)和概率線性鑒別分析(PLDA)的模型被證明十分有效。為進一步提升PLDA模型信道補償?shù)男阅埽瑢⒔翟胱詣泳幋a器(DAE)和受限玻爾茲曼機(RBM)以及它們的組合(DAE-RBM)分別應用到信道補償PLDA模型端,降低說話人i-vector空間信道信息的影響。實驗表明相比標準PLDA系統(tǒng),基于DAE-PLDA和RBM-PLDA的識別系統(tǒng)的等錯誤率(EER)和檢測代價函數(shù)(DCF)都顯著降低,結(jié)合兩者優(yōu)勢的DAE-RBM-PLDA使系統(tǒng)識別性能得到了進一步提升。

說話人識別;i-vector;降噪自動編碼器;受限玻爾茲曼機

0 引言

說話人識別屬于生物特征識別技術(shù)的一種,是一項從說話人語音中提取有效特征信息進行說話人識別的技術(shù)。比較流行的說話人識別模型是建立在以混合高斯模型-通用背景模型(GMM-UBM)[1]的基礎上。隨后Patrick等人提出聯(lián)合因子分析(JFA)[2],Najim 等提出全局差異空間因子( i-vector)[3]等建模方法。當前i-vector已成為文本無關的說話人識別最有效的技術(shù),這個框架可以被分為3個步驟:(1)利用GMM-UBM把語音聲學特征序列表示成充分統(tǒng)計量;(2)轉(zhuǎn)換成低維的特征向量i-vector,提取i-vector;(3)使用PLDA模型進行信道補償并通過比較不同語音段的i-vector產(chǎn)生驗證分數(shù)得出判決結(jié)果。

近年來,深度神經(jīng)網(wǎng)路DNN被成功應用于語音識別領域[4]。在說話人識別領域,Lei等[5]利用DNN對語音特征根據(jù)音素分類到不同音素空間中,然后在每個空間中對特征降維提取出不同發(fā)音的聲學特征,提出基于DNN的i-vector。該模型把UBM中計算各類后驗概率的方法利用DNN輸出層Softmax的輸出來表示,為說話人確認帶來顯著的性能提升。

降噪自動編碼器(DAE)可通過訓練從損壞的數(shù)據(jù)重構(gòu)出原始數(shù)據(jù)。把說話人的特征表示i-vector受說話人信道信息的影響看成是受損的數(shù)據(jù)。因此通過DAE重構(gòu)的方法進行信道補償可以獲得更加魯棒的效果,產(chǎn)生抗噪能力,從而降低說話人的信道差異性。在文獻[6]中,基于RBM-PLDA的信道補償技術(shù)被證明性能優(yōu)于傳統(tǒng)PLDA。RBM通過分離出說話人信息和信道信息重構(gòu)i-vector,然后把包含說話人信息的因子應用于PLDA端進行比較。本文結(jié)合DAE和RBM各自的優(yōu)點提出基于DAE-RBM-PLDA的信道補償方法,從而進一步降低說話人信道多樣性的影響。

1 基于i-vector的說話人識別系統(tǒng)

1.1 GMM i-vector技術(shù)

i-vector因子分析模型將說話人差異空間與信道差異空間作為一個整體進行建模。模型建立在GMM-UBM所表示的均值超矢量之上。說話人的一段語音相對應的均值超矢量可以分解為下式:

M=m+Tω

(1)

其中,m為UBM的均值超矢量,T為低秩的全局差異空間矩陣,ω為全局差異空間因子,它的后驗均值即為i-vector矢量。

在i-vector的提取過程中需要使用EM算法估計全局差異空間矩陣T,提取Baum—Welch統(tǒng)計量,說話人s的語音段h在第j個GMM混合成分的零階統(tǒng)計量和一階統(tǒng)計量分別為:

(2)

(3)

(4)

然后進行如下計算即可得到對應的i-vector:

ωh=E[Wh]=I-1TT∑-1Fh

(5)

1.2 DNN i-vector技術(shù)

GMM具有強大的擬合能力,但它不能有效地對非線性或近似非線性的數(shù)據(jù)進行建模是它的不足之處。因此DNN被應用于聲學建模中,DNN的多層非線性結(jié)構(gòu)使其具有強大的表征能力,它使用無監(jiān)督生成式算法進行預訓練,然后使用反向傳播算法進行參數(shù)微調(diào)。

DNN由輸入層、多隱藏層和Softmax輸出層構(gòu)成。Softmax層給出的是綁定三因素狀態(tài)類在語音幀上的后驗概率P(j|xt) ,它被用作對應高斯上的占有率,代入式(2)和式(3)可以估計出DNN i-vector的零階統(tǒng)計量和一階統(tǒng)計量,然后根據(jù)式(5)提取i-vcetor。基于DNN的i-vector提取過程及判別過程如圖1所示。

圖1 基于DNN的說話人識別系統(tǒng)流程圖

2 后端PLDA技術(shù)分析

2.1 PLDA模型

PLDA是一種基于i-vector的信道補償算法,i-vector特征包含說話人信息和信道信息。要提取說話人信息,所以需要進行信道補償,去除信道的干擾。經(jīng)過簡化的PLDA被證明是信道補償?shù)挠行Х椒╗7]。簡化的PLDA模型如下式所示:

ωsh=μ+Vys+zsh

(6)

其中,ωsh表示第s個人第h段語音的i-vector,μ為所有訓練數(shù)據(jù)的均值,矩陣V描述說話人的子空間,表征說話人類間差異,ys為隱藏說話人因子,zsh為殘差噪聲。以上參數(shù)滿足如下分布:

ys~N(0,1)

(7)

zsh~N(0,D)

(8)

PLDA訓練階段的目的是根據(jù)一定樣本的說話人語音數(shù)據(jù)集用EM算法估計出模型需要的參數(shù)θ={μ,V,D}。模型訓練好之后進行識別打分,給定相同說話人注冊和測試的i-vector分別為ωe和ωs,采用下式計算似然比分數(shù):

(9)

其中H0表示ωe和ωs來自同一說話人,H1表示來自不同說話人。計算兩個高斯函數(shù)的似然比作為得分進行最終判決。

2.2 基于DAE和RBM的PLDA

降噪自編碼器(DAE)是一種通過特殊訓練得到的自編碼器。在輸入中接受受損數(shù)據(jù)作為輸入,并訓練來預測原始未損壞數(shù)據(jù)作為輸出的自動編碼器,使其產(chǎn)生抗噪能力,從而得到更加魯棒的數(shù)據(jù)重構(gòu)效果。DAE的訓練過程如圖2所示。引入一個損壞過程C(y|x),這個條件代表給定數(shù)據(jù)x產(chǎn)生損壞樣本y的概率。自動編碼器假設x是原始輸入,降噪自動編碼器利用C(y|x)引入損壞樣本y。然后把y當作帶噪聲的損壞輸入,把x當作輸出,對自編碼進行學習訓練。把DAE應用到說話人識別系統(tǒng)后端模型最早在文獻[8]中被提出,本文將在此基礎上繼續(xù)探討進一步提升系統(tǒng)性能。在本系統(tǒng)中把說話人的i-vector受說話人信道信息的影響看成受損的數(shù)據(jù),其訓練可簡化為如下過程。

圖2 DAE結(jié)構(gòu)原理圖

圖3 RBM預訓練

實驗中DAE的訓練過程是先按圖3進行RBM預訓練。隱含層神經(jīng)元取二進制值并服從伯努利分布,可見層神經(jīng)元連接兩個服從高斯分布的實數(shù)值向量i(s)和i(s,h)作為輸入。其中向量i(s)表示說話人s的所有語音段的平均i-vector,向量i(s,h)表示從說話人s的第h段語音提取的i-vector。RBM的訓練用CD算法[9],權(quán)重矩陣參數(shù)V、W用來初始化DAE模型。

預訓練之后把模型展開成如圖4所示,此模型可以看作標準DAE模型來重建i-vector。輸出端采用說話人平均i-vector降低說話人信道信息的差異性。之后采用反向傳播算法對網(wǎng)絡參數(shù)進行調(diào)優(yōu)。DAE的輸出經(jīng)白化和長度規(guī)整處理后可直接作為標準PLDA模型的輸入(DAE-PLDA)進行得分驗證并根據(jù)事先設定的閾值進行判決。

RBM是一種由隨機性的一層可見層神經(jīng)元和一層隱藏神經(jīng)元所構(gòu)成的無向圖模型。它可以作用于PLDA信道補償端,隱藏層被分解為說話人信息因子和信道信息因子,如圖5所示。采用文獻[6]類似的算法進行訓練,不同之處是為保持與前文DAE預訓練時隱藏層數(shù)值類型一致,這里隱藏層采用二進制數(shù)值并服從高斯伯努利分布。進入識別階段,可見層輸入說話人的i-vector,輸出端包含說話人信息的說話人因子作為PLDA模型(RBM-PLDA)的輸入來進行得分比較。

圖4 DAE

圖5 RBM-PLDA

由以上分析可知,基于DAE是無損轉(zhuǎn)換和RBM的有效特征提取原理。考慮使用DAE和RBM混合的方法,第一層為DAE,經(jīng)白化和長度規(guī)整技術(shù)處理后輸出作為RBM的輸入,RBM與標準PLDA結(jié)合后組成判別模型,記為DAE-RBM-PLDA。系統(tǒng)框圖如圖6所示。

圖6 PLDA、DAE-PLDA、RBM-PLDA、DAE-RBM-PLDA流程

3 實驗與結(jié)果

本文采用TIMIT語料庫作為實驗語音數(shù)據(jù)庫,采用等錯誤率(EER)和檢測代價函數(shù)(DCF)作為性能評價指標。

在UBM i-vector系統(tǒng)中使用MFCC加一維能量及其一、二階差分共39維MFCC特征。語音幀長25 ms,幀移10 ms。DNN i-vector系統(tǒng)中DNN說話人特征為40維Filter Bank特征以及一、二階差分共120維。DNN共5個隱藏層,每層2 048個結(jié)點。首先比較了標準PLDA模型在UBM i-vector和DNN i-vector系統(tǒng)下的性能,實驗證明DNN系統(tǒng)的識別性能比GMM-UBM系統(tǒng)顯著提高。之后以DNN i-vector的PLDA為基線系統(tǒng),性能對比如圖7和表1所示。

由表1實驗結(jié)果可以看到,相對于標準PLDA模型系統(tǒng),應用深度學習模型的DAE-PLDA和RBM-PLDA后端信道補償模型等錯誤率和檢測代價函數(shù)都顯著降低。將兩者結(jié)合后的DAE-RBM-PLDA模型,性能提升更加明顯,相對于基線系統(tǒng)性能提升了14.5%,體現(xiàn)了該信道補償方法的有效性。

圖7 模型性能柱狀圖

表1 PLDA、DAE-PLDA、RBM-PLDA、DAE-RBM-PLDA性能比較

4 結(jié)論

本文結(jié)合DAE和RBM的優(yōu)點提出了基于DAE-RBM-PLDA的說話人確認信道補償方法。該方法先把經(jīng)過白化和長度規(guī)整技術(shù)處理的i-vector進行RBM預訓練并初始化DAE模型,DAE的輸出為說話人所有語音段的平均i-vector,從而降低了說話人信道信息的影響。然后與RBM相結(jié)合,把DAE的輸出i-vector作為RBM的輸入,隱含層重構(gòu)分離出說話人信息和說話人信道信息,選擇實驗需要的說話人信息進行后端PLDA最終的似然比分數(shù),進一步降低了說話人的信道差異性。在TIMIT數(shù)據(jù)集上的說話人確認實驗表明結(jié)合了DAE和RBM兩者優(yōu)勢的DAE-RBM-PLDA模型,可有效提高識別率。

[1] REYNOLDS D A, QUATIERI T F, DUNN R B. Speaker verification using adapted Gaussian mixture models[J]. Digital Signal Processing, 2000, 10(1-3): 19-41.

[2] KENNY P,OUELLET P,DEHAK N,et al. A study of interspeakervariability in speaker verification[J]. IEEE Transaction on Audio,Speech, and Language Processing, 2008,16(5): 980-988.

[3] DEHAK N,KENNY P,DEHAK R,et al. Front-end factor analysis for speaker verification[J]. IEEE Transactions on Audio,Speech,and Language Processing,2011,19(4): 788-798.

[4] HINTON G, DENG L, YU D, et al. Deep neural networks for acoustic modeling in speech recognition: the shared views of four research groups[J]. IEEE Signal Processing Magazine, 2012, 29(6): 82-97.

[5] VARIANI E, LEI X, MCDERMOTT E, et al. Deep neural networks for small footprint text-dependent speaker verification[C]. 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2014: 4052-4056.

[6] STAFYLAKIS T, KENNY P, SENOUSSAOUI M, et al. PLDA using gaussian restricted boltzmann machines with application to speaker verification[C].Interspeech, 2012: 1692-1695.

[7] GARCIA-ROMERO D, ESPY-WILSON C Y. Analysis of i-vector length normalization in speaker recognition systems[C].Interspeech, 2011: 249-252.

[8] NOVOSELOV S, PEKHOVSKY T, KUDASHEV O, et al. Non-linear PLDA for i-vector speaker verification[C].Interspeech, 2015: 214-218.

[9] HINTON G E. A practical guide to training restricted boltzmann machines[M].Neural Networks: Tricks of the Trade. Springer Berlin Heidelberg, 2012: 599-619.

Technology of speaker verification channel compensation based on DAE-RBM-PLDA

Yin Zhufeng, Xu Zhijing

(College of Information Engineering, Shanghai Maritime University, Shanghai 201306, China)

A hybrid model combining the deep neural network (DNN), i-vector and probabilistic linear discriminant analysis (PLDA) has been shown effective in the system of speaker recognition. In order to improve the performance of PLDA recognition model, the denoising autoencoder (DAE) and restricted boltzmann machine(RBM) and the combination of them(DAE-RBM) are used to channel compensation on PLDA model to minimize the effect of the speaker i-vector space channel information. The experiment showed that the recognition system based on DAE-PLDA and RBM-PLDA is significantly decreased than the standard PLDA for the equal error rate(EER) and detection function(DCF). The DAE-RBM-PLDA which combined with the advantages of them makes the performance of the recognition system has been further improved.

speaker recognition; i-vector; denoising autoencoders; restricted boltzmann machine

國家自然科學基金項目(61404083)

TP391

A

10.19358/j.issn.1674- 7720.2017.15.018

尹主峰,徐志京.基于DAE-RBM-PLDA的說話人確認信道補償技術(shù)[J].微型機與應用,2017,36(15):62-64,72.

2017-03-02)

尹主峰(1986-),男,碩士研究生,主要研究方向:智能信息處理。

徐志京(1972-),男,工學博士,副教授,主要研究方向:無線通信和導航技術(shù)、人工智能、深度學習。

猜你喜歡
信息模型系統(tǒng)
一半模型
Smartflower POP 一體式光伏系統(tǒng)
WJ-700無人機系統(tǒng)
ZC系列無人機遙感系統(tǒng)
北京測繪(2020年12期)2020-12-29 01:33:58
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 久久人妻xunleige无码| 亚洲中文无码av永久伊人| 精品成人一区二区三区电影| 欧美啪啪一区| 91视频精品| 伊人久久婷婷| 国产女人水多毛片18| 欧美一区福利| 欧美亚洲欧美| 欧美日韩在线成人| 亚洲乱码在线视频| 免费jjzz在在线播放国产| 亚洲天堂精品在线观看| 亚洲swag精品自拍一区| 日韩毛片免费观看| 国产欧美视频在线| 久久99精品国产麻豆宅宅| 真实国产精品vr专区| 青草精品视频| 国产第二十一页| 亚洲91在线精品| 国产成人一区免费观看| 亚洲欧美精品在线| 九九香蕉视频| 91精品国产91欠久久久久| aⅴ免费在线观看| 欧美在线观看不卡| 色婷婷电影网| yjizz视频最新网站在线| 久久这里只有精品国产99| 乱码国产乱码精品精在线播放| 亚洲国产天堂久久综合226114| 91偷拍一区| 久久精品一品道久久精品| 91麻豆久久久| 夜夜操国产| 亚洲一区二区三区国产精华液| 精品无码人妻一区二区| 亚洲视频一区| 喷潮白浆直流在线播放| 免费人成又黄又爽的视频网站| 国产精品一老牛影视频| 不卡色老大久久综合网| 亚洲黄色成人| 97精品久久久大香线焦| 久久人人爽人人爽人人片aV东京热| 国产欧美日韩18| 欧美啪啪精品| 成人国产免费| 91在线播放国产| 国产麻豆精品久久一二三| 福利在线不卡| 欧美日本不卡| 亚洲AV无码久久天堂| 亚洲手机在线| 国产精品成| 韩日无码在线不卡| 好久久免费视频高清| 亚洲美女操| 曰AV在线无码| 亚洲一区二区三区在线视频| 欧美啪啪网| 国产美女叼嘿视频免费看| 精品伊人久久久久7777人| 久久久四虎成人永久免费网站| 性网站在线观看| 国产精品无码AV中文| 亚洲天堂高清| av无码一区二区三区在线| 依依成人精品无v国产| 国产无码高清视频不卡| 国产一区二区网站| 国产欧美成人不卡视频| 国产一区三区二区中文在线| 国产肉感大码AV无码| 在线观看国产精美视频| 精品久久久久久成人AV| 国产精品亚洲精品爽爽| 亚洲精品制服丝袜二区| 中文天堂在线视频| 欧美国产综合色视频| av一区二区三区高清久久|