999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

利用時長信息提高說話人確認系統的魯棒性

2016-09-26 08:39:08胡群威吳明輝
網絡安全與數據管理 2016年11期
關鍵詞:差異信息模型

胡群威,吳明輝,李 輝

(中國科學技術大學 電子科學與技術系,安徽 合肥 230027)

?

利用時長信息提高說話人確認系統的魯棒性

胡群威,吳明輝,李輝

(中國科學技術大學 電子科學與技術系,安徽 合肥 230027)

在文本無關說話人確認領域,基于總差異空間的說話人確認方法已成為主流方法,其中概率線性判別分析(Probabilistic Linear Discriminant Analysis, PLDA)因其優異的性能受到廣泛關注。然而傳統PLDA模型沒有考慮注冊語音與測試語音時長失配情況下的差異信息,不能很好地解決因時長失配帶來的說話人確認系統性能下降的問題。該文提出一種估計時長差異信息方法,并將此差異信息融入PLDA模型,從而提高PLDA模型對時長差異的魯棒性。在NIST數據庫上的實驗表明,所提出的方法可以較好地補償時長差異,性能上也優于PLDA方法。

說話人確認;I-Vector系統;概率線性判別分析;時長失配;時長差異信息

引用格式:胡群威,吳明輝,李輝. 利用時長信息提高說話人確認系統的魯棒性[J].微型機與應用,2016,35(11):51-55.

0 引言

說話人確認技術作為生物特征識別領域重要的研究熱點,在身份識別、人機交互和移動支付等領域具有廣闊的應用前景。近年來,在高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM)[1]基礎上,基于因子分析的方法因其優異的性能得到研究者的廣泛關注。

在GMM-UBM框架下,說話人信息主要包含在GMM的均值超矢量[2]中。由于均值超矢量也包含信道等擾動信息,KENNY P等人提出聯合因子分析(Joint Factor Analysis,JFA)[3]方法,將均值超矢量分解為說話人與信道兩部分之和,進而可以削弱信道的干擾。然而,均值超矢量維度過高,計算代價較高,不僅如此,JFA在進行信道補償時也損失了一部分說話人信息[4]。鑒于JFA的缺點,DEHAK N等人提出基于總差異空間的I-Vector[5]系統,此系統直接將均值超矢量壓縮成一個更加緊致的低維的矢量,同時盡可能地保留說話人信息。由于I-Vector中依然存在信道等擾動信息,參考文獻[6]提出概率線性判別分析(PLDA)應用于總差異空間,可以較好地削弱信道擾動的影響,取得優異的性能。

目前基于I-Vector的說話人確認多集中在長時語音(一般為幾分鐘),即使用長時語音注冊,長時語音測試。但實際應用中考慮到使用的便捷性,注冊語音往往使用長時語音,當進行測試時,測試語音只有幾十秒或者幾秒鐘。然而I-Vector作為極大后驗(MAP)的點估計[7],其提取依賴于充足的統計量,時長越短,統計樣本相對越少,估計得越不準確。參考文獻[8]指出,當語音時長足夠長(通常大于2 min),I-Vector的區分性已接近飽和,此時估計的I-Vector可認為是準確的。但是當語音時長較短(幾秒鐘),估計得相對不可靠,其區分性能會嚴重下降。I-Vector估計不準確將直接導致基于I-Vector的PLDA系統的性能下降。針對時長帶來的性能問題,國內外學者展開了一系列的研究。參考文獻[9]研究了時長失配情況下時長對系統性能的影響。參考文獻[10]研究了不同語音時長的I-Vector的分布,指出時長帶來的I-Vector的估計偏差,等價于加性噪聲。參考文獻[11]提出短時差異規整算法(Short Utterance Variance Normalization,SUVN),對短時語音的I-Vector進行補償,取得了一定的性能提升。

受到上述文獻啟發,本文針對實際應用中訓練測試時長失配的情況,同時考慮傳統的PLDA系統沒有考慮注冊語音與測試語音時長失配情況下的差異信息,提出估計短時語音I-Vector的時長差異信息的方法,并將此信息融入到PLDA系統進行補償。本文方法較好地利用時長信息,增加系統對時長差異的魯棒性,進而提高系統的整體性能。

1 基于I-Vector的說話人確認系統

1.1I-Vector基線系統

在傳統GMM-UBM中,說話人的區分信息主要集中在目標說話人GMM模型的均值超矢量中。GMM均值超矢量中既包含了說話人的信息,同時也包含了信道等干擾信息。JFA技術被用于對說話人與信道建模,然而研究表明[4],JFA中的信道因子中也包含了說話人信息。鑒于上述存在的缺點,參考文獻[5]提出總差異空間,將說話人與信道作為整體建模。給定目標說話人的一段語音,則基于總差異空間的目標說話人的GMM均值超矢量可以用式(1)表示:

M=m+Tω

(1)

其中,M為說話人的GMM均值超矢量;m為UBM均值超矢量;T為總差異空間矩陣,低秩的、矩陣的列組成總差異空間的基底;ω為總差異因子,先驗服從標準正態分布,對于每個說話人的語音段,對應的I-Vector的提取過程即為計算總差異因子ω的極大后驗點估計。總差異空間矩陣的訓練以及I-Vector計算參見參考文獻[12]。

通常,提取完I-Vector后,采用余弦評分,也就是將測試語音的I-Vector與事先注冊的說話人模型I-Vector進行余弦值計算,如式(2)所示。

(2)

其中,ωtar表示為說話人模型的I-Vector,ωtest表示測試語音的I-Vector。

1.2高斯概率線性判別分析

忽略I-Vector的提取機制,PLDA可看作是由生成型模型產生的聲學特征,其生成過程可以用說話人因子與信道因子描述,不同的因子先驗假設構成了不同的PLDA模型[6],若假設說話人因子以及信道因子均服從高斯分布,相應的模型稱為高斯線性判別分析(GaussianPLDA,GPLDA)[6,12]。

假定第i個說話人的第j個I-Vector表示為wij,標準的GPLDA模型假設如式(3)所示:

wij=μ+Φyi+Uxij+εij

(3)

yi~N(0,I)

(4)

xij~N(0,I)

(5)

εij~N(0,Σ)

(6)

其中,μ為所有說話人的I-Vector均值,矩陣Φ表示說話人子空間,矩陣U表示信道子空間,矢量yi和xij為對應的子空間因子,兩者統計獨立,并且均服從標準高斯分布,εij表示殘差,服從均值為零、協方差為對角陣Σ的高斯分布。

GPLDA模型最初用于人臉識別[12],由于其輸入特征維度較高,需要大數據樣本才能有效地估計出相應的參數,否則容易陷入過擬合。在說話人確認中,輸入特征為I-Vector矢量,維度一般為100~600,維度相對較小,考慮模型的復雜度,簡化GPLDA模型如下:

wij=μ+Φyi+εij

(7)

這里,只是將信道部分合并到殘差中,此時εij服從均值為零、協方差為全角矩陣的高斯分布,這樣,殘差便可以包含更多的擾動信息,以此彌補合并信道因子所帶來的損失。

由于GPLDA為線性高斯模型[13],因此邊緣分布、條件分布均為高斯分布,其中邊緣分布為:

wij~N(μ,ΦΦT+Σ)

(8)

相應的條件分布為:

wij|yi~N(μ+Φyi,Σ)

(9)

GPLDA模型參數{μ,Φ,Σ}可由EM算法訓練得到,詳細訓練過程參見參考文獻[12]。

使用GPLDA建模的前提是假設I-Vector先驗服從高斯分布。然而,由于I-Vector的行為并不是服從高斯分布,而是服從長尾分布(heavy tail)[6],考慮到高斯分布經過線性變化依然為高斯分布,所以必須對I-Vector進行非線性變化,以削弱I-Vector的非高斯的影響。參考文獻[14]指出對I-Vector進行長度規整與Whitening規整可以有效削弱其非高斯行為,從而提高GPLDA對I-Vector分布建模能力。

1.3GPLDA確認得分計算

說話人確認的問題可以看成一個二元假設檢驗問題,即給定兩個I-Vector:w1、w2,存在以下兩個假設:

Hs:假設w1、w2是由同一個說話人生成的,則它們共享同一個說話人因子y,即:

(10)

此時的協方差為:

(11)

所以:

(12)

Hd:假設w1、w2是由不同的說話人產生的,則它們具有不同的說話人因子y1、y2,即:

(13)

此時的協方差為:

(14)

所以:

(15)

對于上述二元假設檢驗可以使用兩個高斯函數的對數似然比作為最后的得分:

(16)

2 改進系統

使用GPLDA對說話人以及其他擾動進行建模,其中殘差項刻畫了擾動因子的行為。由式(16)可以看出,得分函數是對稱的,即注冊語音與測試語音是可以交換位置的,不會影響得分,主要原因為注冊語音與測試語音是在相同的擾動假設下而得出的[15]。然而,對于注冊語音為長時語音,測試為短時語音的時長失配的情況,顯然直接使用GPLDA評分是不夠精確的。考慮到I-Vector只是總差異因子的極大后驗點估計,估計的準確度取決于后驗分布的協方差。對于同一個說話人,其長時語音段的I-Vector估計得相對準確,也就是說,由時長引起的擾動較小,而短時語音段的I-Vector估計得相對不可靠,由時長引起的擾動較大,總之,對于同一個說話人,語音時長越短,對應I-Vector的GPLDA模型將趨向于產生越大的殘差協方差。

2.1融入時長差異信息的GPLDA

由于注冊語音為長時語音,其對應的I-Vector估計相對準確,而當測試語音為短時語音時,其估計的I-Vector存在相對較大的不確定度,假設服從如下分布:

(17)

=∫N(w,Σ′)N(w;μ+Φy,Σ)dw

=N(w;μ+Φy,Σ+Σ′)

(18)

假設長時注冊語音與短時測試語音對應的I-Vector分別為w1、w2,當它們是由同一個說話人生成的,則由式(11)和式(18)可得此時的協方差為:

(19)

當它們是由不同說話人生成的,則由式(13)和式(18)可得此時的協方差:

(20)

由式(19)和式(20)重寫對數似然比得分公式:

(21)

此時的得分公式(21)針對短時語音的I-Vector融入了時長差異信息,更加精確地刻畫了短時語音的行為,而且從式(21)可以看出,注冊語音與測試語音的I-Vector是不可交換的,這是因為刻畫兩者擾動行為的殘差項不再是同一假設。

2.2時長差異信息的估計

為了捕捉短時語音的時長差異信息,本文使用了大量開發集數據以及從中截短得到短時語音,將長時語音對應的I-Vector與短時語音對應的I-Vector的差異作為時長差異信息的度量,即式(22)所示:

(22)

其中,wfull為長時語音的I-Vector,wshort為從長時語音截短的短時語音的I-Vector,使用式(22)可以近似估計短時語音的時長差異信息,并將此信息融入GPLDA模型。

3 實驗結果與分析

本文分別構建了I-Vector余弦評分的基線系統、GPLDA系統以及改進的GPLDA系統。實驗所用到的語料均來自NIST[16]數據庫的電話信道語音。

3.1訓練數據及參數配置

實驗采用39維美爾倒譜系數(MFCC)作為特征參數。訓練UBM的數據取自NIST05和NIST06男性電話信道數據集,共5 200條5min時長的訓練語音,切過靜音后大約2min,UBM采用512個高斯混合,每個高斯的協方差矩陣為對角陣。使用相同的數據訓練總差異矩陣T,采用隨機初始化矩陣,迭代8次,最終得到19 968×200維的矩陣T。訓練PLDA的數據取自NIST08中共300個說話人,每人10段語音,訓練PLDA前,要對I-Vector進行Whiten規整以及長度規整,說話人因子數為100。使用NIST08中的300個說話人,并從中截短至30s、10s和5s三種情況以及全時長(full),用于估計對應的時長差異信息。

3.2系統性能評估標準

實驗的評測標準采用等誤識率(EqualErrorRate,EER)和NIST評測中檢測代價函數(DetectionCostFunction,DCF)。EER是錯誤拒絕率(FalseRejectionrate,FR)和錯誤接受率(FalseAcceptancerate,FA)相等的值。檢測代價函數定義為FA和FR的加權和:

DCF=Cfr×FR×Ptar+Cfa×FA×(1-Ptar)

(23)

其中Cfr和Cfa分別是錯誤拒絕和錯誤接受的代價,Ptar為真實說話人出現的先驗概率,在NIST的評測任務中的定義為Cfa=1,Cfr=10,Ptar=0.01,以最小檢測代價函數(minDCF)作為系統性能的評測標準。

3.3實驗結果

表1給出了基線系統在不同測試時長下的EER和MinDCF。從表1的數據可以發現,基線系統在測試時長為全時長時,性能最佳,隨著測試時長變短,性能會大幅下降。

表2給出了GPLDA在不同測試時長的EER和MinDCF。從表2的數據同樣可以看出,GPLDA系統性能隨著時長變短而下降,與表1的數據作對比,當測試時長為全時長時,GPLDA系統性能相對提高了57%,當測試時長變短,GPLDA系統的性能平均相對提升了40%,特別是當測試時長為5 s時,性能相對提升只有32%,遠小于全時長的性能提升。這表明GPLDA并不能很好地對時長信息進行建模。

表1 基線系統的EER和MinDCF時長/sEER/%MinDCF55.210.0159103.650.0115302.780.0089full2.240.0082表2 GPLDA系統[9]的EER和MinDCF時長/sEER/%MinDCF53.510.0141102.250.0093301.380.0055full0.960.0047

表3 改進系統的EER和MinDCF

表3給出了本文改進系統在不同測試時長下的EER和MinDCF。表3與表2作對比可以發現,當測試時長為全時長時,改進系統與傳統GPLDA系統的性能幾乎沒有發生變化,當測試語音時長變短,改進系統相對于傳統GPLDA系統,性能平均提升7.2%,這表明改進系統利用時長信息可以有效地對時長失配進行補償。

4 結論

本文考慮到注冊語音與測試語音時長失配情況下的差異信息,提出估計時長差異信息的方法,并將此差異信息融入PLDA模型,從而提高PLDA模型對時長差異的魯棒性。在NIST數據集上的實驗證實,本文的方法相對于基線系統性能平均提升47.5%,相對于PLDA模型系統也有平均7.2%的提升。

[1] REYNOLDS D A, QUATIERI T F, DUNN R B. Speaker verification using adapted Gaussian mixture models [J]. Digital Signal Processing, 2000, 10(1): 19-41.

[2] CAMPBELL W M, STURIM D E, REYNOLDS D A. Sup port vector machines using GMM supervectors for speaker verification[J]. Signal Processing Letters, IEEE, 2006, 13(5): 308-311.

[3] KENNY P, BOULIANNE G, OUELLET P, et al. Joint factor analysis versus eigenchannels in speaker recognition[J]. Audio, Speech, and Language Processing, IEEE Transactions on, 2007, 15(4): 1435-1447.

[4] DEHAK N. Discriminative and generative ap proaches for long-and short-term speaker characteristics modeling: application to speaker verification[D]. Canada: Ecole de Technologie Superieure, 2009.

[5] DEHAK N, KENNY P, DEHAK R, et al. Front-end factor analysis for speaker verification[J]. Audio, Speech, and Language Processing, IEEE Transactions on, 2011, 19(4): 788-798.

[6] KENNY P. Bayesian speaker verification with heavy-tailed priors[C].Odyssey Speaker and Language Recogntion Workshop, 2010: 14.

[7] CUMANI S, PLCHOT O, LAFACE P. On the use of i-vector posterior distributions in Probabilistic Linear Discriminant Analysis[J]. Audio, Speech, and Language Processing, IEEE/ACM Transactions on, 2014, 22(4): 846-857.

[8] RAO W, MAK M W. Boosting the performance of i-vector based speaker verification via utterance partitioning [J]. Audio, Speech, and Language Processing, IEEE Transactions on, 2013, 21(5): 1012-1022.

[9] SARKAR A K, MATROUF D, BOUSQUET P M, et al. Study of the effect of i-vector modeling on short and mismatch utterance duration for speaker verification[C].Interspeech, 2012: 2662-2665.

[10] HASAN T, SAEIDI R, HANSEN J H L, et al. Duration mismatch compensation for i-vector based speaker recognition systems[C].Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on. IEEE, 2013: 7663-7667.

[11] KANAGASUNDARAM A, DEAN D, SRIDHARAN S, et al. Improving short utterance i-vector speaker verification using utterance variance modelling and compensation techniques[J]. Speech Communication, 2014, 59: 69-82.

[12] PRINCE S J D, ELDER J H. Probabilistic linear dis criminant analysis for inferences about identity[C].Computer Vision, 2007. ICCV 2007. IEEE 11th International Conference on. IEEE, 2007: 1-8.

[13] BISHOP C M. Pattern recognition and machine learning [M]. springer, 2006.

[14] GARCIA-ROMERO D, ESPY-WILSON C Y. Analysis of i-vector length normalization in speaker recognition systems[C].Interspeech, 2011: 249-252.

[15] CHEN L, LEE K A, MA B, et al. Channel adaptation of plda for text-independent speaker verification[C].Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on. IEEE, 2015: 5251-5255.

[16] NIST. The NIST 2006 speaker recognition evaluation [EB/OL].(2006-xx-xx)[2016-01-04]http://www.itl.nist.gov/iad/mig/test/sre/2006/index.html,2006.

Utilizing duration information to improve the robustness of speaker verification system

Hu Qunwei,Wu Minghui,Li Hui

(Department of Electronic Science and Technology, University of Science and Technology of China, Hefei 230027, China)

The approaches based on total variability space have become popular in text-independent speaker verification, and the probabilistic linear discriminant analysis (PLDA) has attracted much attention because of its promising performance. However the traditional PLDA model don’t consider duration information between enrollment utterance and test utterance under the duration mismatch, thus it can’t solve the problem of system performance degradation incurred by duration mismatch. In this paper, a method is proposed to estimate duration variance information, where the duration variance information is integrated into the PLDA model, resulting in improving robustness to duration variability. Experiments on NIST database show that the proposed method is more effective to improve the performance of speaker verification system compared to the PLDA method.

speaker verification; I-Vector system; Probabilistic Linear Discriminant Analysis(PLDA); duration mismatch; duration variance information

TP391

A

10.19358/j.issn.1674- 7720.2016.11.017

2016-01-14)

胡群威(1989-),通信作者,男,碩士研究生,主要研究方向:說話人識別。E-mail:hqw2607@mail.ustc.edu.cn。

吳明輝(1990-),男,碩士研究生,主要研究方向:說話人識別。

李輝(1959-),男,博士,副教授,主要研究方向:語音信號處理,電子系統設計。

猜你喜歡
差異信息模型
一半模型
相似與差異
音樂探索(2022年2期)2022-05-30 21:01:37
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
找句子差異
生物為什么會有差異?
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
M1型、M2型巨噬細胞及腫瘤相關巨噬細胞中miR-146a表達的差異
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 538国产在线| 一本大道无码高清| 午夜日b视频| 永久在线播放| 久久国语对白| 久久这里只精品国产99热8| 成人午夜视频免费看欧美| 亚洲日本www| 亚洲精品国产自在现线最新| 国产成a人片在线播放| 视频二区亚洲精品| 亚洲精品你懂的| 国产欧美日韩综合一区在线播放| 天天做天天爱天天爽综合区| 精品国产美女福到在线不卡f| 国产精品视屏| 2020久久国产综合精品swag| 91免费观看视频| 中国国产A一级毛片| 亚洲区欧美区| 国产高颜值露脸在线观看| 国产成人禁片在线观看| 国产高清在线丝袜精品一区| 呦视频在线一区二区三区| 欧美伦理一区| 91青青草视频| 日韩精品成人在线| 亚洲性网站| 国产极品美女在线| 在线精品自拍| 国产1区2区在线观看| 91po国产在线精品免费观看| 午夜天堂视频| 伊人91在线| 国产欧美日韩va另类在线播放| 色综合国产| 成人久久精品一区二区三区| 久久99国产综合精品1| 欧美一级在线看| 国产综合色在线视频播放线视| 国产国模一区二区三区四区| 国产在线观看精品| 国产黄色片在线看| 尤物亚洲最大AV无码网站| 日韩福利视频导航| 欧美日韩第三页| 亚洲AV无码精品无码久久蜜桃| 亚洲中文字幕久久无码精品A| 亚洲欧美日韩精品专区| 亚洲人成网线在线播放va| 日韩在线影院| 亚洲人成网线在线播放va| 日日碰狠狠添天天爽| 狠狠色狠狠综合久久| 日韩欧美国产中文| aⅴ免费在线观看| 69av免费视频| 国产精品开放后亚洲| 激情综合网址| 青青操视频免费观看| 亚洲国产系列| 午夜精品影院| 午夜色综合| 熟女视频91| 国产第一福利影院| 亚洲天堂网2014| 五月激情综合网| 亚洲精品午夜无码电影网| 美女亚洲一区| 亚洲福利片无码最新在线播放| 国产女人18毛片水真多1| 扒开粉嫩的小缝隙喷白浆视频| 国产一区二区人大臿蕉香蕉| 美女无遮挡拍拍拍免费视频| 免费看a级毛片| 东京热一区二区三区无码视频| 亚洲国产成人精品青青草原| 香蕉网久久| 日日拍夜夜嗷嗷叫国产| 亚洲中文在线看视频一区| 毛片在线看网站| 国产香蕉在线视频|