楊 迪,戚銀城,劉明軍,張華芳子,武軍娜
(華北電力大學(xué)電子與通信工程系,河北保定 071003)
說(shuō)話(huà)人識(shí)別綜述
楊 迪,戚銀城,劉明軍,張華芳子,武軍娜
(華北電力大學(xué)電子與通信工程系,河北保定 071003)
在分析說(shuō)話(huà)人識(shí)別原理和方法的基礎(chǔ)上,對(duì)近年來(lái)說(shuō)話(huà)人識(shí)別技術(shù)的發(fā)展進(jìn)行了綜述。分析了當(dāng)前說(shuō)話(huà)人識(shí)別技術(shù)中使用的多種特征和模式識(shí)別方法,并對(duì)其今后的研究前景和發(fā)展方向進(jìn)行了展望。
說(shuō)話(huà)人識(shí)別;特征提取;模式識(shí)別
說(shuō)話(huà)人識(shí)別(Speaker Recognition,SR)又稱(chēng)話(huà)者識(shí)別[1],是指通過(guò)對(duì)說(shuō)話(huà)人語(yǔ)音信號(hào)的分析處理,自動(dòng)確認(rèn)說(shuō)話(huà)人的技術(shù)。其綜合了生理學(xué)、語(yǔ)音學(xué)、數(shù)字信號(hào)處理、模式識(shí)別、人工智能等學(xué)科知識(shí)的一個(gè)研究課題,以獨(dú)特的方便性、經(jīng)濟(jì)性和準(zhǔn)確性等優(yōu)勢(shì),在相關(guān)領(lǐng)域內(nèi)發(fā)揮著重要作用,并有著廣闊的市場(chǎng)應(yīng)用前景。
說(shuō)話(huà)人識(shí)別的基本原理,是利用說(shuō)話(huà)人的語(yǔ)音為每個(gè)說(shuō)話(huà)人建立一個(gè)能夠描述此說(shuō)話(huà)人特點(diǎn)的模型,作為此說(shuō)話(huà)人語(yǔ)音特征參數(shù)的標(biāo)準(zhǔn)模板,然后針對(duì)測(cè)試的語(yǔ)音信號(hào)進(jìn)行比對(duì),實(shí)現(xiàn)判別說(shuō)話(huà)人身份的目的。說(shuō)話(huà)人識(shí)別的原理框圖,如圖1所示。

圖1 說(shuō)話(huà)人識(shí)別原理框圖
人的發(fā)聲器官由3部分組成:(1)肺和氣管產(chǎn)生氣源。(2)喉和聲帶組成聲門(mén)。(3)由咽腔、口腔、鼻腔組成聲道??諝庥煞尾颗湃牒聿?,經(jīng)聲帶進(jìn)入聲道,最后由嘴輻射出聲波,這就形成了語(yǔ)音。當(dāng)發(fā)不同性質(zhì)的語(yǔ)音時(shí),激勵(lì)和聲道的情況不同,其對(duì)應(yīng)的模型也不同。根據(jù)提取的算法不同,將語(yǔ)音信號(hào)特征可分為聲門(mén)特征、聲道特征。語(yǔ)音信號(hào)是一維時(shí)域信號(hào),具有簡(jiǎn)單易懂、清晰直觀、便于計(jì)算等優(yōu)點(diǎn),基于聲門(mén)特征的分析是最早應(yīng)用于說(shuō)話(huà)人識(shí)別的方法之一,而基于聲道特征的分析是目前說(shuō)話(huà)人識(shí)別中識(shí)別效果較好的方法。
由于聲帶振動(dòng)的不同,對(duì)應(yīng)于聲帶之間切口形狀時(shí)變區(qū)域的變化,即為聲門(mén)。研究顯示[2],通過(guò)聲門(mén)聲帶流的差異反映了聲帶張開(kāi)閉合的速率、聲帶在通常情況下的形狀以及聲帶振動(dòng)時(shí)刻的寬度和速調(diào)范圍;與基于聲道性質(zhì)的倒譜特征一樣,說(shuō)話(huà)人生理上這些固有的特征也具有個(gè)體差異,因而可以在說(shuō)話(huà)人識(shí)別系統(tǒng)中用于區(qū)分說(shuō)話(huà)人?;诼曢T(mén)特性的基本說(shuō)話(huà)人識(shí)別特征主要包括:
(1)基頻[3]:濁音信號(hào)是一種準(zhǔn)周期性信號(hào),其周期稱(chēng)為基音周期。語(yǔ)音上的基音高低決定于聲帶的長(zhǎng)短、松緊、厚薄。長(zhǎng)、松、厚的,基音就低;短、緊、薄的,基音就高。鑒于對(duì)人生理特性的良好表現(xiàn)力,以及較傳統(tǒng)倒譜特征優(yōu)良的環(huán)境魯棒性,基音周期被廣泛應(yīng)用于說(shuō)話(huà)人識(shí)別中。目前基音周期的估計(jì)算法主要有自相關(guān)法、平均幅度差函數(shù)法、并行處理法、倒譜法、簡(jiǎn)化逆濾波法、小波變換法等。
(2)能量:語(yǔ)音的能量通常指的是語(yǔ)音的短時(shí)能量,它反映了語(yǔ)音信號(hào)的強(qiáng)度;同時(shí),語(yǔ)音能量的變化反映了語(yǔ)音信號(hào)停頓以及重音所在。
(3)語(yǔ)音速率:語(yǔ)音速率指單位時(shí)間內(nèi)發(fā)出音節(jié)的個(gè)數(shù),它反映了說(shuō)話(huà)人發(fā)音的快慢。由于音素的知識(shí)與語(yǔ)音識(shí)別緊密相關(guān),因而在文本無(wú)關(guān)的說(shuō)話(huà)人識(shí)別中,語(yǔ)音速率特征使用的并不多。
人在說(shuō)話(huà)的時(shí)候,聲門(mén)處氣流沖擊聲帶產(chǎn)生振動(dòng),然后通過(guò)聲道響應(yīng)變成語(yǔ)音。數(shù)字化的語(yǔ)音信號(hào)是聲道頻率特性和激勵(lì)信號(hào)源二者的共同結(jié)果,后者對(duì)于某幀而言常帶有一定的隨機(jī)性,而說(shuō)話(huà)人的個(gè)性特征一定程度上體現(xiàn)在說(shuō)話(huà)人的發(fā)音聲道變化上,即聲道特征可以更好地對(duì)說(shuō)話(huà)人進(jìn)行識(shí)別?;诼暤赖奶卣髦饕?
(1)美爾倒譜系數(shù)(Mel-frequency Cepstral Coefficients,MFCC),是基于聽(tīng)覺(jué)系統(tǒng)的臨界帶效應(yīng)、在Mel標(biāo)度頻率域提取出來(lái)的一種倒譜參數(shù),它能夠比較充分利用人耳這種特殊的感知特性,這種特征具有比較強(qiáng)的魯棒性,得到了廣泛應(yīng)用。近年來(lái),學(xué)者們?yōu)樘岣咦R(shí)別率,在MFCC特征的基礎(chǔ)上,提出了一些改進(jìn)參數(shù),如:△MFCC、DMFCC、MFSC、FMFCC 等。其中一階差分系數(shù)△MFCC[4]以其能夠擬合人發(fā)聲和人耳聽(tīng)覺(jué)的動(dòng)態(tài)特性的優(yōu)點(diǎn),和MFCC結(jié)合后能得到很好的應(yīng)用和識(shí)別效果。
(2)線(xiàn)性預(yù)測(cè)倒譜系數(shù)(Linear Prediction Cepstrum Coefficient,LPCC),1947年維納首次提出了線(xiàn)性預(yù)測(cè)這一術(shù)語(yǔ),而板倉(cāng)等人在1967年首先將線(xiàn)性預(yù)測(cè)技術(shù)應(yīng)用到了語(yǔ)音分析和合成中。LPCC是最早被應(yīng)用到語(yǔ)音識(shí)別中的一種倒譜參數(shù),其主要優(yōu)點(diǎn)是比較徹底地去掉了語(yǔ)音產(chǎn)生過(guò)程中的激勵(lì)信息,主要反映聲道響應(yīng),計(jì)算量小,并且對(duì)元音有較好地描述能力,而且往往只需要十幾個(gè)倒譜系數(shù)就能較好地描述語(yǔ)音的共振峰特性,因此在說(shuō)話(huà)人識(shí)別中得到了良好的應(yīng)用。
考慮到單獨(dú)使用某種特征所存在的問(wèn)題,越來(lái)越多的說(shuō)話(huà)人識(shí)別系統(tǒng)開(kāi)始將聲門(mén)特征與基于聲道特征的倒譜特征相結(jié)合,以進(jìn)一步提高說(shuō)話(huà)人系統(tǒng)性能,而如何將這兩種特征有效地結(jié)合起來(lái)成為目前的一個(gè)熱門(mén)話(huà)題。通常融合的方法是將聲門(mén)信息特征線(xiàn)性疊加到同一幀的倒譜特征,以形成維度更高的語(yǔ)音特征[5];或者分別在倒譜特征系統(tǒng)和聲門(mén)特征系統(tǒng)中進(jìn)行識(shí)別,然后將它們的得分進(jìn)行加權(quán)組合[6],利用聲門(mén)信息特征和倒譜特征在區(qū)分說(shuō)話(huà)人上的互補(bǔ)性,有利于提高系統(tǒng)性能,對(duì)說(shuō)話(huà)人識(shí)別技術(shù)是一個(gè)重大突破。
此外,研究者為提高說(shuō)話(huà)人識(shí)別系統(tǒng)的性能,提出對(duì)特征進(jìn)行變換的方法,以降低特征的維數(shù)和計(jì)算的復(fù)雜度。主要的特征變換方法有:主成份分析法(PCA)[7]、線(xiàn)性判別分析法(LDA)[8]、獨(dú)立分量分析法(ICA)[9]。主成份分析法利用其最優(yōu)的降維性質(zhì),在保證說(shuō)話(huà)人識(shí)別性能的前提下減少說(shuō)話(huà)人識(shí)別特征的維數(shù),進(jìn)而降低計(jì)算復(fù)雜度。相比主成份分析法,經(jīng)過(guò)線(xiàn)性判別分析法得到的特征有更好的噪聲魯棒性。獨(dú)立分量分析是解決盲源分離問(wèn)題的一個(gè)有效的方法,它能夠更好地去除噪聲,在提取MFCC特征時(shí),將ICA代替DCT對(duì)信號(hào)求取頻譜,得到的特征參數(shù)對(duì)非高斯噪聲信號(hào)有更好的識(shí)別率。
采用不同說(shuō)話(huà)人模型結(jié)構(gòu)對(duì)應(yīng)于說(shuō)話(huà)人識(shí)別的不同方法。隨著計(jì)算機(jī)和數(shù)字信號(hào)處理、人工智能等的不斷發(fā)展,說(shuō)話(huà)人識(shí)別已從單一的模板模型向非參數(shù)模型、參數(shù)模型、人工神經(jīng)網(wǎng)絡(luò)模型以及支持向量機(jī)模型方向發(fā)展,并且混合模型應(yīng)用于說(shuō)話(huà)人識(shí)別也成為熱點(diǎn)。
典型的非參數(shù)模型包括動(dòng)態(tài)時(shí)間規(guī)整法(Dynamic Time Warping,DTW)和矢量量化法(Vector Quantization,VQ)。
(1)動(dòng)態(tài)時(shí)間規(guī)整法:說(shuō)話(huà)人信息不僅有穩(wěn)定因素,而且有時(shí)變因素。將識(shí)別模板與參考模板進(jìn)行時(shí)間對(duì)比,按照某種距離測(cè)度得出兩模板間的相似程度。常用的方法是基于最近鄰原則的動(dòng)態(tài)時(shí)間規(guī)整(DTW)。
(2)矢量量化法:最早用于聚類(lèi)分析的數(shù)據(jù)壓縮編碼技術(shù)。Helms首次將其用于說(shuō)話(huà)人識(shí)別,它把每個(gè)人的特定文本訓(xùn)練成碼本,識(shí)別時(shí)將測(cè)試文本按此碼本進(jìn)行編碼,以量化產(chǎn)生的失真度作為判決標(biāo)準(zhǔn)。Bell實(shí)驗(yàn)室的Rosenberg和Soong用矢量量化進(jìn)行了孤立數(shù)字文本的說(shuō)話(huà)人識(shí)別研究,得到了較好的識(shí)別結(jié)果。利用矢量量化的說(shuō)話(huà)人識(shí)別方法的判斷速度快,而且識(shí)別精度較高。
參數(shù)模型是指采用某種概率密度函數(shù)來(lái)描述說(shuō)話(huà)人的語(yǔ)音特征空間的分布情況,并以該概率密度函數(shù)的一組參數(shù)作為說(shuō)話(huà)人模型。這些參數(shù)可以用從訓(xùn)練語(yǔ)音中提取的特征參量來(lái)估計(jì),說(shuō)話(huà)人識(shí)別系統(tǒng)中經(jīng)常采用的參數(shù)模型有:隱馬爾可夫模型(Hidden Markov Model,HMM)、高斯模型、高斯混合模型(Gaussian Mixture Model,GMM)等。
(1)隱馬爾可夫模型法:是一種基于轉(zhuǎn)移概率和輸出概率的隨機(jī)模型,最早CMU和IBM被用于語(yǔ)音識(shí)別。它把語(yǔ)音看成由可觀察到的符號(hào)序列組成的隨機(jī)過(guò)程,符號(hào)序列則是發(fā)聲系統(tǒng)狀態(tài)序列的輸出。在使用隱馬爾可夫模型識(shí)別時(shí),為每個(gè)說(shuō)話(huà)人建立發(fā)聲模型,通過(guò)訓(xùn)練得到狀態(tài)轉(zhuǎn)移概率矩陣和符號(hào)輸出概率矩陣。識(shí)別時(shí)計(jì)算未知語(yǔ)音在狀態(tài)轉(zhuǎn)移過(guò)程中的最大概率,根據(jù)最大概率對(duì)應(yīng)的模型進(jìn)行判決。對(duì)于與文本無(wú)關(guān)的說(shuō)話(huà)人識(shí)別一般采用各態(tài)歷經(jīng)型HMM;對(duì)于與文本有關(guān)的說(shuō)話(huà)人識(shí)別一般采用從左到右型HMM。HMM不需要時(shí)間規(guī)整,可節(jié)約判決時(shí)的計(jì)算時(shí)間和存儲(chǔ)量,在目前被廣泛應(yīng)用。缺點(diǎn)是訓(xùn)練時(shí)計(jì)算量較大。
(2)高斯混合模型法:GMM是一種統(tǒng)計(jì)模型,它能很好地刻畫(huà)參數(shù)空間中訓(xùn)練數(shù)據(jù)的空間分布及其特性,可以表示成為多個(gè)高斯概率密度函數(shù)的加權(quán)和的形式。GMM模型實(shí)際上是連續(xù)HMM模型的一種特例,即單個(gè)狀態(tài)的HMM。也就是說(shuō)GMM模型只有一個(gè)狀態(tài),它并不去刻畫(huà)語(yǔ)音的時(shí)序過(guò)程,因?yàn)樵谂c文本無(wú)關(guān)的話(huà)者識(shí)別中,用于訓(xùn)練的語(yǔ)音和用于測(cè)試的語(yǔ)音的語(yǔ)義完全可以不同,即時(shí)序過(guò)程在訓(xùn)練和測(cè)試時(shí)是不同的。所以,GMM模型只刻畫(huà)語(yǔ)音特征參數(shù)的靜態(tài)分布,也即通過(guò)高斯分布來(lái)描述不同的因素類(lèi),而不考慮時(shí)序信息。不同說(shuō)話(huà)人之間語(yǔ)音特征的靜態(tài)分布也是不同的。因此通過(guò)比較不同話(huà)者的GMM模型,就可以區(qū)分不同的說(shuō)話(huà)人。
人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN):在某種程度上模擬了生物的感知特性,是一種分布式并行處理結(jié)構(gòu)的網(wǎng)絡(luò)模型,具有自組織和自學(xué)習(xí)能力、很強(qiáng)的復(fù)雜分類(lèi)邊界區(qū)分能力以及對(duì)不完全信息的魯棒性,其性能近似理想的分類(lèi)器。其缺點(diǎn)是訓(xùn)練時(shí)間長(zhǎng),動(dòng)態(tài)時(shí)間規(guī)整能力弱,網(wǎng)絡(luò)規(guī)模隨說(shuō)話(huà)人數(shù)的增加,可能大到難以訓(xùn)練的程度。ANN由神經(jīng)元、網(wǎng)絡(luò)拓樸、學(xué)習(xí)算法3個(gè)基本要素構(gòu)成,訓(xùn)練過(guò)程中是將已知語(yǔ)音信號(hào)的特征參數(shù)作為學(xué)習(xí)樣本,并將其代入到神經(jīng)網(wǎng)絡(luò)中進(jìn)行多次循環(huán)網(wǎng)絡(luò)學(xué)習(xí),網(wǎng)絡(luò)通過(guò)對(duì)這些特征參數(shù)的學(xué)習(xí)將最終得到一組能代表說(shuō)話(huà)人特征的網(wǎng)絡(luò)連接權(quán)和偏置,說(shuō)話(huà)人識(shí)別測(cè)試過(guò)程就是將待測(cè)說(shuō)話(huà)人的語(yǔ)音特征參數(shù)代入到網(wǎng)絡(luò)中,通過(guò)網(wǎng)絡(luò)的相似計(jì)算準(zhǔn)測(cè)得出判決結(jié)果。
支持向量機(jī)(Support Vector Machine,SVM):是Vapnik提出的旨在改善傳統(tǒng)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)理論弱點(diǎn)的一種重要的學(xué)習(xí)方法,它是在統(tǒng)計(jì)學(xué)習(xí)理論(Statistical Learning Theory,SLT)基礎(chǔ)上發(fā)展起來(lái)的。SVM的基本思想是將輸入空間的向量映射到高維SVM擴(kuò)展空間,然后在高維的擴(kuò)展空間中采用分類(lèi)方法構(gòu)造最優(yōu)超平面分界面,以解決說(shuō)話(huà)人識(shí)別問(wèn)題。SVM致力于尋找一個(gè)既滿(mǎn)足分類(lèi)要求,并且使它距離最近的樣本分隔區(qū)域最大的超平面,這樣就能從最優(yōu)分類(lèi)超平面中得到?jīng)Q策函數(shù),也就是支持向量機(jī)。它是一種泛化能力很強(qiáng)的分類(lèi)器,在國(guó)際模式識(shí)別領(lǐng)域受到廣泛的關(guān)注。
近幾年,說(shuō)話(huà)人的識(shí)別方法已經(jīng)由單一的模式識(shí)別轉(zhuǎn)向?yàn)槎嗄J降淖R(shí)別,每種識(shí)別都有各自的優(yōu)缺點(diǎn),采用多種識(shí)別模式的組合不僅可以克服單一模式的缺點(diǎn)、彌補(bǔ)單一模式識(shí)別的不足,最主要的是可以提高說(shuō)話(huà)人的識(shí)別效率。鮑煥軍,鄭方[10]將GMM-UBM與SVM結(jié)合,利用GMM-UBM能突出說(shuō)話(huà)人個(gè)性特征,而SVM對(duì)信道的魯棒性較好,彌補(bǔ)了GMM-UBM受信道影響較大的缺點(diǎn),該融合方法提高了系統(tǒng)的性能,接著,郭武等人[11]也證實(shí)了相應(yīng)的結(jié)果;鄭建煒等人[12]利用GMM與RVM融合的方法,既有效地提取話(huà)者特征信息,解決大樣本數(shù)據(jù)下的RVM訓(xùn)練問(wèn)題,又結(jié)合統(tǒng)計(jì)模型魯棒性高和分辨模型辨別效果好的優(yōu)點(diǎn),比GMM/SVM系統(tǒng)具有更高的稀疏性。
從當(dāng)今的趨勢(shì)看來(lái),說(shuō)話(huà)人識(shí)別技術(shù)主要集中于如何將語(yǔ)音信息與說(shuō)話(huà)人個(gè)人特征信息有效地區(qū)分開(kāi)、如何提取出能很好地表征說(shuō)話(huà)人個(gè)性的特征參數(shù)、如何有效利用不同特征參數(shù)之間的互補(bǔ)性等方面,并在基于人耳聽(tīng)覺(jué)的基礎(chǔ)上也提出了一些有效參數(shù)。在識(shí)別模型上,人工神經(jīng)網(wǎng)絡(luò)模型、支持向量機(jī)模型、多模式組合的方法將逐漸深入到說(shuō)話(huà)人識(shí)別過(guò)程中。隨著各相關(guān)學(xué)科的迅速發(fā)展,說(shuō)話(huà)人識(shí)別技術(shù)將會(huì)有更多的理想算法出現(xiàn),也將會(huì)有更廣闊的前景。
[1]QUATIERI F T.離散時(shí)間語(yǔ)音信號(hào)處理—原理與應(yīng)用[M].趙勝輝,劉家康,謝湘,等,譯.北京:電子工業(yè)出版社,2004.
[2]PLUMPE M D,QUATIERI T F,REYNOLDS D A.Modeling of the glottal flow derivative waveform with application to speaker identification[J].IEEE Transactions on Speech and Audio Processing,1999,7(5):569 -586.
[3]GURUPRASAD S,YEGNANARAYANA B.Performance of an event-based instan-taneous fundamental frequency estimator for distant speech signals[J].IEEE Transactions on Audio,Speech,and Language Processing,2011,19(7):1853-1864.
[4]郭春霞.說(shuō)話(huà)人識(shí)別算法的研究[J].西安郵電學(xué)院學(xué)報(bào),2010,15(5):104 -106.
[5]ZHENG Rong,ZHANG Shuwu,XU Bo.Improvement of speaker identification by combining prosodic features with acoustic features[C].Guangzhou:5th Chinese Conference on Biometric Recognition(SINOBIOMETRICS 2004),2004,3338:569-576.
[6]葉寒生,陶進(jìn)緒,張東文,等.噪聲環(huán)境下基于特征信息融合的說(shuō)話(huà)人識(shí)別[J].計(jì)算機(jī)仿真,2009,26(3):325 -328.
[7]GAN Zhigang.An improved feature extraction method in speaker identification[C].Hangzhou:2011 Third International Conference on Intelligent Human-Machine Systems and Cybernetics,2011:218 -222.
[8]MITCHELL M L,DAVID V L.Source- normalised - and -weighted LDA for robust speaker recognition using i-vectors[C].Prague Congress Ctr:2011 IEEE International Conference on Acoustics,Speech and Signal Processing,2011:5456-5459.
[9]DU Jun,ZOU Xin,HAO Jie,et al.The efficiency of ICA -based representation analysis:application to speech feature extraction[J].Chinese Journal of Electronics,2011,20(2):287-292.
[10]鮑煥軍,鄭方.GMM-UBM和SVM說(shuō)話(huà)人辨認(rèn)系統(tǒng)及融合的分析[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2008(S1):100-105.
[11]郭武,戴禮榮,王仁華.采用高斯概率分布和支持向量機(jī)的說(shuō)話(huà)人確認(rèn)[J].模式識(shí)別與人工智能,2008,21(6):794-798.
[12]鄭建煒,王萬(wàn)良,鄭澤萍.GMM與RVM融合的話(huà)者辨識(shí)方法[J].計(jì)算機(jī)工程,2010,36(15):168-170.
Overview on Speaker Recognition
YANG Di,QI Yincheng,LIU Mingjun,ZHANG Huafangzi,WU Junna
(Department of Electronic and Communication Engineering,North China Electric Power University,Baoding 071003,China)
Based on the analysis of the principles and methods of speaker recognition,the development of speaker recognition in recent years is reviewed.Several features and pattern recognition methods in the mainstream speaker recognition technologies are summarized and analyzed.Finally,the research prospects and development trends in the future are given.
speaker recognition;feature extraction;pattern recognition
TP391.9
A
1007-7820(2012)06-162-04
2012-01-03
楊迪(1988—),女,碩士研究生。研究方向:說(shuō)話(huà)人識(shí)別。戚銀城(1968—),男,博士,教授。研究方向:信息系統(tǒng)與信息安全。劉明軍(1987—),男,碩士研究生。研究方向:視頻監(jiān)控。張華芳子(1988—),女,碩士研究生。研究方向:電力系統(tǒng)通信。武軍娜(1986—),女,碩士研究生。研究方向:智能信息處理。