999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于聽(tīng)皮層神經(jīng)元感受野的強(qiáng)噪聲環(huán)境下說(shuō)話人識(shí)別

2020-10-18 12:58:00牛曉可黃伊鑫徐華興蔣震陽(yáng)
計(jì)算機(jī)應(yīng)用 2020年10期
關(guān)鍵詞:特征信號(hào)模型

牛曉可,黃伊鑫,徐華興,2,蔣震陽(yáng)

(1.鄭州大學(xué)電氣工程學(xué)院,鄭州 450001;2.河南省腦科學(xué)與腦機(jī)接口技術(shù)重點(diǎn)實(shí)驗(yàn)室(鄭州大學(xué)),鄭州 450001)

(*通信作者電子郵箱niuxiaoke@zzu.edu.cn)

0 引言

生物識(shí)別技術(shù)在過(guò)去幾十年得到了廣泛研究與應(yīng)用,說(shuō)話人識(shí)別作為僅次于掌紋和指紋識(shí)別的第三大生物特征識(shí)別技術(shù),目前世界市場(chǎng)占有率為15.8%,并有逐年上升的趨勢(shì)。相較于指紋和掌紋這些生物特征識(shí)別技術(shù),聲紋識(shí)別技術(shù)發(fā)展較晚,但在應(yīng)用上因具備語(yǔ)音提取方便、適合遠(yuǎn)程身份確認(rèn)等特點(diǎn)而具有明顯優(yōu)勢(shì)。該技術(shù)的實(shí)現(xiàn)原理主要為聲紋特征的提取與匹配,即:首先,從與文本不相關(guān)的語(yǔ)音片段中提取出說(shuō)話人的聲紋特征;然后,建立對(duì)應(yīng)的說(shuō)話人模型即聲紋數(shù)據(jù)庫(kù),最后,在測(cè)試時(shí)采用相同特征提取方法與說(shuō)話人模型,獲取被測(cè)試說(shuō)話人的語(yǔ)音特征,并與聲紋數(shù)據(jù)庫(kù)中的特征進(jìn)行匹配,根據(jù)匹配結(jié)果判決說(shuō)話人的身份??偟膩?lái)講,說(shuō)話人識(shí)別技術(shù)的研究可概括為聲紋特征參數(shù)的提取與說(shuō)話人模型構(gòu)建(或稱為特征匹配/分類)。

在聲紋特征參數(shù)的提取方面,梅爾倒譜系數(shù)(Mel-Frequency Cepstral Coefficient,MFCC)是較為常用的,操作簡(jiǎn)單、樣本量小。MFCC 主要描述了聲道特征,在沒(méi)有噪聲時(shí)有很好的特征表達(dá),但在高噪聲存在時(shí)魯棒性會(huì)明顯降低[1]。針對(duì)噪聲環(huán)境下語(yǔ)音識(shí)別系統(tǒng)的魯棒性問(wèn)題,目前已經(jīng)有很多學(xué)者提出了不同的方法,典型的方法主要有:感知聽(tīng)覺(jué)場(chǎng)景分析、小波變換法、模型補(bǔ)償法的魯棒語(yǔ)音識(shí)別分析、信號(hào)空間的魯棒語(yǔ)音識(shí)別分析和模擬生物聽(tīng)覺(jué)感知特性法[2]。感知聽(tīng)覺(jué)場(chǎng)景分析能在多噪聲環(huán)境中清楚分離出目標(biāo)語(yǔ)音信號(hào),但是會(huì)出現(xiàn)一定的信號(hào)缺少。王凱龍等[3]基于計(jì)算聽(tīng)覺(jué)場(chǎng)景分析理論,對(duì)單通道多說(shuō)話人混合語(yǔ)音分離問(wèn)題進(jìn)行了研究,該方法在消除多種典型噪聲干擾方面能得到較好的效果。小波變換法具有多分辨率分析的特點(diǎn),能夠通過(guò)選擇不同的尺度以減小噪聲對(duì)信號(hào)的影響,從而提高對(duì)語(yǔ)音信號(hào)的特征提取的正確率。而模型補(bǔ)償法以及針對(duì)信號(hào)空間的方法中心思想即在信號(hào)空間消除噪聲的影響,以維納濾波、譜估計(jì)、語(yǔ)音增強(qiáng)為代表。張靖等[4]針對(duì)環(huán)境噪聲的多變性導(dǎo)致訓(xùn)練時(shí)無(wú)法預(yù)測(cè)實(shí)際應(yīng)用中的環(huán)境噪聲的問(wèn)題,引入環(huán)境自學(xué)習(xí)和自適應(yīng)思想,通過(guò)改進(jìn)的矢量泰勒級(jí)數(shù)(Vector Taylor Series,VTS)刻畫(huà)環(huán)境噪聲模型和說(shuō)話人語(yǔ)音模型之間的統(tǒng)計(jì)關(guān)系,于2020 年提出了一種具有環(huán)境自學(xué)習(xí)能力的魯棒說(shuō)話人識(shí)別算法,該算法在高信噪比(Signal-to-Noise Ratio,SNR)條件下的識(shí)別率以及對(duì)噪聲的魯棒性均有所提升,但低信噪比條件下的性能仍存在不足。近幾年,深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)逐漸成為學(xué)者們研究的重點(diǎn),主流的方法有深度信念網(wǎng)絡(luò)(Deep Belief Network,DBN)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)。顧婷[5]在2019 年利用CNN 構(gòu)造了一種CNN 融合特征,使識(shí)別率有明顯提升,但受網(wǎng)絡(luò)層數(shù)影響較大;同年,趙飛[6]提出了一種基于DNN的語(yǔ)音分離和說(shuō)話人確認(rèn)聯(lián)合訓(xùn)練框架,該框架將語(yǔ)音分離部分產(chǎn)生的對(duì)噪聲具有魯棒性的特征應(yīng)用在說(shuō)話人確認(rèn)網(wǎng)絡(luò),能夠顯著提高說(shuō)話人識(shí)別的正確率。但是深度學(xué)習(xí)的方法的缺陷也很明顯,即對(duì)樣本量依賴較大,給該技術(shù)在實(shí)際應(yīng)用領(lǐng)域帶來(lái)一些影響;并且,隨著信噪比的降低,識(shí)別率的下降較為嚴(yán)重,強(qiáng)噪聲環(huán)境下該技術(shù)的魯棒性明顯降低。但是生物的聽(tīng)覺(jué)系統(tǒng)對(duì)噪聲卻具有很強(qiáng)的魯棒性,即使在信噪比極低的條件下,依然有很高的識(shí)別率,因此近些年來(lái)模擬生物聽(tīng)覺(jué)特性進(jìn)行語(yǔ)音識(shí)別的方法越來(lái)越受到研究者的青睞。典型的代表是:Chi 等[7]于2005 年首次將生物聽(tīng)皮層神經(jīng)元頻譜-時(shí)間感受野(Spectra-Temporal Receptive Field,STRF)的概念引用到了簡(jiǎn)單的語(yǔ)音處理中,并提出了一套神經(jīng)計(jì)算模型,解釋了從外部輸入的聲音信號(hào)是如何轉(zhuǎn)換為大腦皮層傳遞的電信號(hào)。2012年,Patil等[8]利用該神經(jīng)計(jì)算框架,模擬了聽(tīng)覺(jué)皮層神經(jīng)元的活動(dòng),實(shí)現(xiàn)了在不考慮音高和演奏風(fēng)格的情況下進(jìn)行穩(wěn)健的樂(lè)器分類,正確率為98.7%。進(jìn)一步地,2015 年,Carlin 等[9]從聽(tīng)覺(jué)神經(jīng)生理學(xué)的角度出發(fā),構(gòu)建了一個(gè)任務(wù)驅(qū)動(dòng)下的STRF 在頻域的可塑性計(jì)算模型,展示了STRF 如何在抑制與各種非語(yǔ)音相關(guān)的聲音的同時(shí),通過(guò)調(diào)整其時(shí)頻感受野特性來(lái)提高對(duì)語(yǔ)音的識(shí)別性能,即皮層過(guò)濾器從一些“默認(rèn)”調(diào)整到任務(wù)最優(yōu)形狀,以增強(qiáng)任務(wù)相關(guān)特征的神經(jīng)響應(yīng),同時(shí)抑制干擾物的神經(jīng)響應(yīng)。同年Carlin 等[10]又提出了任務(wù)驅(qū)動(dòng)的STRF自適應(yīng)調(diào)整策略,可以改善特定語(yǔ)音事件的檢測(cè)性能,并設(shè)計(jì)了一個(gè)刺激重建任務(wù)。通過(guò)在干凈和加性噪聲條件下進(jìn)行測(cè)試對(duì)比的結(jié)果表明,任務(wù)驅(qū)動(dòng)下的STRF自適應(yīng)模型對(duì)語(yǔ)音的處理具備更高的保真度,顯著提升了噪聲環(huán)境下語(yǔ)音信號(hào)處理的魯棒性。另外在其他領(lǐng)域,針對(duì)不同的含噪語(yǔ)音信號(hào),該模型也體現(xiàn)出了良好的抗噪聲能力。2018年,Emmanouilidou 等[11]采用基于STRF 的模型,將含噪(包括環(huán)境聲、心臟雜音、哭聲等)的肺音信號(hào)投射到頻譜-時(shí)間特征空間中,對(duì)大于1 000 例兒童的肺音信號(hào)進(jìn)行識(shí)別的結(jié)果表明,該方法表現(xiàn)出了對(duì)噪聲的魯棒性,能夠有效識(shí)別病患與健康人之間的肺音信號(hào),正確率高達(dá)86.7%。

在說(shuō)話人建模和模式匹配方面,早在20世紀(jì)80年代就提出了動(dòng)態(tài)時(shí)間規(guī)整、矢量化、隱馬爾可夫以及人工神經(jīng)網(wǎng)絡(luò),并成功得到了應(yīng)用[12-15]。到了20 世紀(jì)90 年代,高斯混合模型(Gaussian Mixture Model,GMM)和支持向量機(jī)(Support Vector Machine,SVM)模型相繼被提出。2000年以來(lái),林肯實(shí)驗(yàn)室的Reynolds等[16]提出一種所需樣本較少且花費(fèi)時(shí)間更短的高斯混合模型通用背景模型,使說(shuō)話人識(shí)別向?qū)嵱妙I(lǐng)域邁進(jìn)了一大步。在此模型的基礎(chǔ)上,Campbell 等[17]于2006 年提出了高斯超向量(Supervector)的概念,并應(yīng)用在了GMM-UBM(GMM-Universal Background Model)和高斯超向量-支持向量機(jī)(Gaussian Super Vector-Support Vector Machine,GSV-SVM)的結(jié)合模型中。緊接著在2008 年,Kenny 等[18]在前人超矢量的基礎(chǔ)上提出了聯(lián)合因子分析(Joint Factor Analysis,JFA)方法,已有研究利用聯(lián)合因子分析算法去除信道干擾,得到與信道無(wú)關(guān)的說(shuō)話人因子,減少了多信道條件下對(duì)目標(biāo)語(yǔ)音的干擾。2011年Dehak等[19]又在此基礎(chǔ)上提出了I-Vector方法,使文本無(wú)關(guān)的說(shuō)話人識(shí)別系統(tǒng)的性能有了更大的提升。然而分類器對(duì)識(shí)別率的提高相對(duì)較為有限,說(shuō)話人識(shí)別性能提升的關(guān)鍵在于有效特征參數(shù)的提取,因此本文將側(cè)重點(diǎn)放在文本無(wú)關(guān)語(yǔ)音信號(hào)的特征提取上。

針對(duì)目前主流的說(shuō)話人識(shí)別算法所存在的問(wèn)題,即強(qiáng)噪聲環(huán)境下識(shí)別率下降較為嚴(yán)重,本文提出了一種基于STRF與MFCC 組合特征的聲紋特征提取方法,對(duì)噪聲環(huán)境下說(shuō)話人語(yǔ)音信號(hào)的識(shí)別具有較強(qiáng)的魯棒性。首先,采用對(duì)數(shù)頻譜幅度(Optimally Modified Log-Spectral Amplitude,OM-LSA)[20]語(yǔ)音估計(jì)與改進(jìn)的最小控制遞歸平均(Improved Minima Controlled Recursive Averaging,IMCRA)[21]噪聲估計(jì)結(jié)合的方法對(duì)說(shuō)話人語(yǔ)音進(jìn)行降噪等預(yù)處理;然后,利用STRF 模型將語(yǔ)音信號(hào)投射到特定的頻譜-時(shí)間空間,并進(jìn)一步提取聽(tīng)覺(jué)譜圖的二次特征與MFCC 系數(shù)進(jìn)行組合;最后,采用常規(guī)的支持向量機(jī)[22]對(duì)聲紋特征進(jìn)行分類與識(shí)別。對(duì)來(lái)自清華大學(xué)中文語(yǔ)音庫(kù)thchs30 的36 個(gè)說(shuō)話人(每人40 段語(yǔ)音)數(shù)據(jù)進(jìn)行測(cè)試,通過(guò)加入不同等級(jí)噪聲后的對(duì)比結(jié)果表明,本文方法在低信噪比條件(-10 dB)下仍然能夠得到較高的識(shí)別正確率(86.68%),從而驗(yàn)證了本文方法對(duì)強(qiáng)噪聲環(huán)境下說(shuō)話人識(shí)別的魯棒性[23]。

1 算法原理

當(dāng)外界聲音由外耳道傳到鼓膜,經(jīng)鼓膜震動(dòng)傳遞到聽(tīng)小骨,經(jīng)聽(tīng)小骨傳到耳蝸,這時(shí)聽(tīng)覺(jué)感受器接受刺激興奮,通過(guò)感受器官中的向心神經(jīng)元將神經(jīng)沖動(dòng)傳到聽(tīng)皮層,引起聽(tīng)皮層神經(jīng)元產(chǎn)生神經(jīng)沖動(dòng),進(jìn)而形成聽(tīng)覺(jué)感知。誘發(fā)聽(tīng)皮層神經(jīng)元產(chǎn)生神經(jīng)沖動(dòng)的刺激區(qū)域稱為聽(tīng)皮層神經(jīng)元的感受野。而聽(tīng)皮層神經(jīng)元的感受野具有一定的頻段和時(shí)間選擇性,因此又稱為頻譜-時(shí)間感受野(STRF),可看作是一個(gè)時(shí)間和頻率上的二維濾波核,反映了神經(jīng)元對(duì)特定頻帶和特定周期特征聲音信號(hào)的線性處理特性。一個(gè)典型的STRF 濾波核如圖1所示。

在哺乳動(dòng)物初級(jí)聽(tīng)覺(jué)皮層中,STRF對(duì)廣泛的聲學(xué)特征表現(xiàn)出詳細(xì)的敏感性,并對(duì)表征自然聲音的時(shí)域包絡(luò)和頻域特征緩慢變化的頻譜-時(shí)間能量調(diào)制具有選擇性,而對(duì)沒(méi)有特定統(tǒng)計(jì)特性的環(huán)境噪聲不敏感,因此經(jīng)STRF濾波后的聲音信號(hào)理論上對(duì)嘈雜的環(huán)境聲具有較高的容忍性。

此外,除了其固有的調(diào)諧到特定的聲音調(diào)制的信號(hào),皮層神經(jīng)元可以動(dòng)態(tài)調(diào)整其過(guò)濾性能。當(dāng)認(rèn)知資源指向一個(gè)感興趣的聲音時(shí),認(rèn)知反饋被認(rèn)為可以誘導(dǎo)STRF自適應(yīng)調(diào)制的能力,即皮層過(guò)濾器從一些“默認(rèn)”調(diào)整到任務(wù)最優(yōu)形狀,以增強(qiáng)任務(wù)相關(guān)特征的神經(jīng)響應(yīng)[6],同時(shí)抑制干擾物的神經(jīng)響應(yīng)。這種自適應(yīng)調(diào)制的模式在其他生理感覺(jué)模式(視覺(jué))中也觀察到類似的效應(yīng)。本文利用了STRF的以上特性,針對(duì)特定類型的噪聲,通過(guò)手動(dòng)調(diào)節(jié)STRF 模型的相關(guān)參數(shù),以獲得其對(duì)特定類型環(huán)境噪聲較高的容忍性。

圖1 二維STRF濾波器核范例(向下,Ω=1 cyc/oct,ω=16 Hz)Fig.1 Example of two dimensional STRF filter kernel(Downward,Ω=1 cyc/oct,ω=16 Hz)

2 本文方法

本文所提出的基于STRF 與MFCC 組合特征的說(shuō)話人識(shí)別方法主要包括語(yǔ)音信號(hào)的預(yù)處理、聲紋的特征提取與特征分類三個(gè)部分,每一部分的具體計(jì)算過(guò)程如下。

2.1 語(yǔ)音信號(hào)的預(yù)處理

本文采用OM-LSA與IMCRA噪聲估計(jì)結(jié)合的方法對(duì)含噪聲的語(yǔ)音信號(hào)進(jìn)行預(yù)處理,預(yù)流程如圖2所示。

圖2 OM-LSA與IMCRA結(jié)合的預(yù)處理流程Fig.2 Flowchart of pre-processing process combining OM-LSA and IMCRA

預(yù)處理過(guò)程可概括為:

首先,根據(jù)IMCRA 算法估計(jì)含噪語(yǔ)音的時(shí)變功率譜分布。

然后,根據(jù)估計(jì)的功率譜分布,結(jié)合OM-LSA 算法來(lái)增強(qiáng)瞬態(tài)噪聲和非瞬態(tài)噪聲成分的差異,并估計(jì)瞬態(tài)噪聲的功率譜分布。另一方面,采用IMCRA 算法,從瞬態(tài)噪聲和語(yǔ)音信號(hào)中估計(jì)背景噪聲的功率譜分布。

最后,將估計(jì)的瞬態(tài)噪聲和背景噪聲功率譜分布進(jìn)行合并,運(yùn)用OM-LSA 算法同時(shí)抑制瞬態(tài)噪聲和背景噪聲,得到增強(qiáng)后的語(yǔ)音信號(hào)。

2.2 聲紋特征提取

2.2.1 基于STRF的聲紋特征

基于STRF的聲紋特征提取包括三個(gè)階段的處理過(guò)程:第一個(gè)階段模擬了生物聽(tīng)覺(jué)系統(tǒng)的外周模型,即耳蝸核的處理過(guò)程,將輸入的語(yǔ)音信號(hào)轉(zhuǎn)化為聽(tīng)覺(jué)外周的頻譜圖;第二個(gè)階段是模擬了聽(tīng)皮層神經(jīng)元感受野的處理過(guò)程,將第一階段輸出的頻譜圖轉(zhuǎn)化為特定尺度的尺度-速率譜圖;第三個(gè)階段的處理就是對(duì)第二階段生成的尺度-速率譜圖進(jìn)一步做二次特征提取。

1)聽(tīng)覺(jué)外周模型的處理過(guò)程。

聽(tīng)覺(jué)外周系統(tǒng)的模型處理流程如圖3 所示。計(jì)算過(guò)程描述為:

首先,將音頻信號(hào)s(t)通過(guò)耳蝸濾波器組,采用式(1)對(duì)信號(hào)s(t)進(jìn)行仿射小波變換。耳蝸濾波器組的輸出用yC表示。

其中:h(t,f)為各濾波器的脈沖響應(yīng);*t為時(shí)域卷積運(yùn)算。

圖3 外周聽(tīng)覺(jué)系統(tǒng)的模型處理流程Fig.3 Model framework of peripheral auditory system

然后,耳蝸輸出yC經(jīng)過(guò)毛細(xì)胞的處理轉(zhuǎn)化成聽(tīng)覺(jué)神經(jīng)響應(yīng),表示為yA。毛細(xì)胞的處理主要包括高通濾波、非線性壓縮g(·)和低通濾波器w(t)。數(shù)學(xué)描述如下:

進(jìn)一步地,經(jīng)由耳蝸核的側(cè)抑制網(wǎng)絡(luò)作用,以模擬耳蝸核的頻率選擇性。表達(dá)式如下:

利用短窗口函數(shù)μ(t,τ)與yLIN(t,f)求卷積,得到第一階段的輸出y(t,f)。

其中:τ是微秒級(jí)別的時(shí)間常數(shù)。

任取一段語(yǔ)音信號(hào),加入不同信噪比噪聲(工廠車(chē)間噪聲,取自NoiseX92 數(shù)據(jù)庫(kù)),經(jīng)第一階段處理后的外周聽(tīng)覺(jué)譜圖如圖4所示。

2)聽(tīng)皮層神經(jīng)元感受野模型的處理過(guò)程。

該階段的處理是通過(guò)模擬聽(tīng)皮層神經(jīng)元的頻譜-時(shí)間感受野(STRF)特性來(lái)實(shí)現(xiàn),主要采用一組具備不同時(shí)頻域特征選擇性的濾波器模擬,這些特征包括時(shí)域中從緩慢變化到快速驟變的節(jié)律(rate)和頻率域從較窄到較寬的尺度(scale)信息。

該組濾波器的輸出是預(yù)處理后的聲音經(jīng)過(guò)第一階段處理得到的時(shí)頻譜圖與上述濾波器的卷積。因此,由第一階段輸出的時(shí)頻譜圖如果與某個(gè)濾波器所選擇的節(jié)律和尺度較為吻合,則會(huì)在相對(duì)應(yīng)的特征點(diǎn)處輸出較大值。由此得出,該階段的處理結(jié)果是經(jīng)一系列濾波器特征選擇后結(jié)果的組合。具體該階段數(shù)學(xué)描述如下:

首先,構(gòu)造STRF 濾波器。STRF 濾波器可看作是空間脈沖響應(yīng)hS與時(shí)間脈沖響應(yīng)hT的乘積。分別定義如下:

其中:Ω、ω分別表示濾波器的譜密度和速率參數(shù);φ、θ表示特征相位。表示希爾伯特變換,定義為:

分別采用二階高斯模型和伽馬方程模擬hscale和hrate,對(duì)應(yīng)的方程表示為:

不同頻率和尺度的脈沖響應(yīng)采用下述方式進(jìn)行擴(kuò)展。

然后,計(jì)算該階段輸出的響應(yīng),表示為:

其中:*tf為時(shí)域和頻域的卷積運(yùn)算。

圖5 為STRF 第二階段輸出的時(shí)間頻譜圖,即尺度-速率譜圖,橫軸代表速率參數(shù)ω,縱軸為尺度響應(yīng)(空間脈沖響應(yīng)和時(shí)間脈沖響應(yīng)的乘積)。隨著圖5 中響應(yīng)區(qū)域的不同及變化,對(duì)應(yīng)了感受野對(duì)該語(yǔ)音信號(hào)的興奮和抑制。所得結(jié)果反映了聽(tīng)覺(jué)皮層神經(jīng)元對(duì)特定頻率和尺度能量選擇后的結(jié)果,即顏色高亮深色的區(qū)域代表了皮層神經(jīng)元對(duì)特定頻率和尺度能量的選擇識(shí)別,極大程度減少隨機(jī)噪聲的影響,保留聲紋信號(hào)中較為穩(wěn)定的特征信息。圖4 所示經(jīng)第一階段輸出的聽(tīng)覺(jué)譜圖進(jìn)一步經(jīng)由皮質(zhì)階段的模型處理后的結(jié)果如圖5所示。

圖5 第二階段輸出的尺度-速率譜圖Fig.5 Scale-rate spectrum output at second stage

3)頻域-時(shí)間譜圖的二次特征提取。

本文進(jìn)一步地從第二階段聽(tīng)覺(jué)皮層模型生成的聽(tīng)皮層譜圖中提取了三種基于STRF的二次特征,包括每個(gè)尺度的能量S、對(duì)數(shù)尺度能量SL、對(duì)數(shù)尺度能量的離散余弦變換(Discrete Cosine Transform,DCT)系數(shù)SDL。其中,第一個(gè)特征S采用式(14)計(jì)算,即將第二階段輸出的時(shí)頻譜圖中所有尺度和速率對(duì)應(yīng)的結(jié)果直接疊加。

其中:Nω是比例數(shù)。注意,等式中的相位特征φ和θ都設(shè)置為零。

第二個(gè)特征是SL采用式(15)計(jì)算,即對(duì)第一個(gè)特征S進(jìn)行對(duì)數(shù)運(yùn)算。

第三個(gè)特征SDL是采用式(16),在第二個(gè)特征的基礎(chǔ)上進(jìn)行了離散余弦變換。

其中:Nk是第三特征SDL(t,k)的特征指數(shù),Nk≤Nω。

2.2.2 MFCC系數(shù)

MFCC 是基于人耳聽(tīng)覺(jué)感知特性的倒譜參數(shù),在頻域,人耳聽(tīng)到的聲音高低與頻率不成線性關(guān)系;但在Mel域,人耳感知與Mel頻率是成正比的。它與頻率的換算關(guān)系采用式(17)計(jì)算:

其中:f為頻率,單位Hz。

MFCC 系數(shù)的提取過(guò)程如圖6 所示,具體概括為:①對(duì)語(yǔ)音進(jìn)行預(yù)加重、分幀和加窗;②對(duì)每一個(gè)短時(shí)分析窗,通過(guò)快速傅里葉變換(Fast Fourier Transformation,F(xiàn)FT)得到對(duì)應(yīng)的頻譜;③將上面的頻譜通過(guò)Mel 濾波器組得到Mel 頻譜;④在Mel 頻譜上面進(jìn)行倒譜分析(即進(jìn)行取對(duì)數(shù)和離散余弦變換(Discrete Cosine Transform,DCT)運(yùn)算);⑤取DCT 后的第2 個(gè)到第13個(gè)系數(shù)作為MFCC系數(shù)。

圖6 MFCC系數(shù)的提取流程Fig.6 MFCC coefficient extraction process

2.2.3 基于MFCC 和STRF 組合特征

本文使用的兩種特征分別為MFCC 與基于STRF 提取的三個(gè)二次特征。這兩類特征都從不同的側(cè)面反映了不同的說(shuō)話人信息,通過(guò)有效的融合能更加全面地表征出說(shuō)話人特征,本文將提取的13 維MFCC 系數(shù)與基于STRF 的三個(gè)二次特征(分別為13維)分別組合,擴(kuò)展得到三組26維的組合特征。最后在純凈語(yǔ)音下,對(duì)比了基于MFCC 特征和基于STRF 提取的三個(gè)二次特征的識(shí)別正確率;并在加入不同信噪比等級(jí)噪聲下,對(duì)比了三種組合特征的識(shí)別正確率。

2.3 分類器的選取

支持向量機(jī)是20世紀(jì)80年代提出的一種特征分類方法,在解決小樣本、非線性及高維模式識(shí)別問(wèn)題中表現(xiàn)出許多特有的優(yōu)勢(shì),已經(jīng)在模式識(shí)別、函數(shù)逼近和概率密度估計(jì)等方面取得良好效果。

本文采用帶有徑向基函數(shù)內(nèi)核的多類支持向量機(jī)對(duì)說(shuō)話人數(shù)據(jù)進(jìn)行分類,徑向基函數(shù)內(nèi)核的γ值設(shè)置為2,其他參數(shù)選擇LIBSVM(LIBrary for Support Vector Machines)工具的默認(rèn)設(shè)置。

3 實(shí)驗(yàn)與結(jié)果分析

3.1 數(shù)據(jù)來(lái)源

本文采用清華大學(xué)thchs30中文語(yǔ)料庫(kù)作為數(shù)據(jù)庫(kù)來(lái)源,共選取了其中36 個(gè)說(shuō)話人每人40 段語(yǔ)音片段做樣本,共計(jì)1 440個(gè)語(yǔ)音片段。將所有語(yǔ)音片段分為8組,隨機(jī)選取1組,即180段語(yǔ)音片段(每個(gè)說(shuō)話人5段語(yǔ)音片段)作訓(xùn)練集,余下7 組語(yǔ)音數(shù)據(jù)分別加入SNR 為-10 dB、-5 dB、5 dB、10 dB、15 dB、20 dB 的Babble 噪聲作測(cè)試集,共交叉驗(yàn)證8 次,最終的識(shí)別正確率以“平均值±標(biāo)準(zhǔn)差”的形式給出。

在實(shí)驗(yàn)中,所有語(yǔ)音片段分為16 ms 的幀,重疊8 ms,并將漢明窗應(yīng)用于每個(gè)幀。STRF 的尺度參數(shù)設(shè)置為2n,n=-5,-4,-3,-2,-1,1,2,3,4,5共10個(gè)等級(jí)。

3.2 單一特征對(duì)識(shí)別結(jié)果的影響

本文共提取了四個(gè)特征,包括MFCC 系數(shù)特征和基于STRF 的三個(gè)二次特征(能量總和S、對(duì)數(shù)運(yùn)算后的能量SL和離散余弦變換后的SDL)。首先,對(duì)比了基于單一特征的干凈說(shuō)話人語(yǔ)音識(shí)別結(jié)果。多次交叉驗(yàn)證的統(tǒng)計(jì)結(jié)果匯總在表1中。

表1 基于單一特征的說(shuō)話人識(shí)別統(tǒng)計(jì)結(jié)果Tab.1 Statistical results of speaker recognition based on single feature

從表1 中可以看出,基于MFCC 系數(shù)特征的識(shí)別率最高,平均識(shí)別正確率達(dá)到94.12%;而基于STRF的二次特征中,經(jīng)離散余弦變換后的SDL的識(shí)別率最高,但是都顯著低于基于MFCC 系數(shù)特征。由此可以看出,對(duì)于純凈說(shuō)話人語(yǔ)音的識(shí)別,基于單一STRF的特征并不占優(yōu)勢(shì)。

3.3 組合特征對(duì)識(shí)別結(jié)果的影響

接下來(lái)嘗試將基于STRF 的單一特征與MFCC 系數(shù)特征進(jìn)行組合,對(duì)比STRF的特征是否有助于提升對(duì)說(shuō)話人的識(shí)別性能。基于不同組合特征的說(shuō)話人識(shí)別正確率統(tǒng)計(jì)結(jié)果匯總在表2中。

表2 基于不同組合特征的說(shuō)話人識(shí)別統(tǒng)計(jì)結(jié)果Tab.2 Statistics of speaker recognition based on different combinations of features

通過(guò)對(duì)比表1~2 的結(jié)果可以看出,對(duì)于純凈說(shuō)話人語(yǔ)音信號(hào),所有基于組合特征的識(shí)別率均顯著高于基于單一特征的識(shí)別率。其中,采用經(jīng)離散余弦變換后的SDL和MFCC 系數(shù)特征的組合形式取得了最高的識(shí)別正確率,高達(dá)97.85%。

3.4 不同特征對(duì)環(huán)境噪聲的魯棒性分析

進(jìn)一步分析了單一聲紋特征以及各種組合聲紋特征對(duì)環(huán)境噪聲的魯棒性。每種組合特征與單一特征的對(duì)比結(jié)果如圖7 所示。圖7 中每個(gè)信噪比識(shí)別結(jié)果為交叉驗(yàn)證識(shí)別結(jié)果的平均正確率±標(biāo)準(zhǔn)差形式。

圖7 基于不同特征的識(shí)別率隨信噪比的變化趨勢(shì)Fig.7 Trend of recognition rate varying with different SNRs based on different features

從圖7 可以看出,隨著信噪比下降,無(wú)論是單一特征還是組合特征,均影響說(shuō)話人識(shí)別性能,其正確率有不同程度下降。其中,對(duì)于單一特征而言,基于MFCC 的相對(duì)識(shí)別正確率較高,但是對(duì)于噪聲容忍性較差,下降較為迅速。

圖7 中的線條為采用線性函數(shù)擬合后的結(jié)果。每條擬合直線的斜率表示識(shí)別性能受噪聲影響的程度,斜率的絕對(duì)值越高表示對(duì)噪聲的魯棒性越差。不同特征識(shí)別率隨噪聲變化的斜率對(duì)比結(jié)果如表3所示。

表3 不同聲紋特征組合對(duì)噪聲的魯棒性對(duì)比Tab.3 Robustness comparison of different features to noise

從表3 可以看出,基于組合特征與STRF 的特征對(duì)噪聲魯棒性均優(yōu)于MFCC。因此,將基于STRF 特征與MFCC 特征進(jìn)行組合,既能提高總體識(shí)別正確率(普遍高于相同信噪比條件下基于單一聲紋特征的識(shí)別率),同時(shí)又能提升對(duì)噪聲的容忍性,在信噪比低至-10 dB 情況下,仍達(dá)到86.68%的平均正確率。同時(shí),在與文獻(xiàn)[4]中提出的具有環(huán)境自學(xué)習(xí)機(jī)制的魯棒說(shuō)話人識(shí)別算法相比,在低信噪比條件下(0 dB),本文提出的方法的識(shí)別率(89.47%)明顯高于前者(63.3%)。以上結(jié)果說(shuō)明了本文方法在強(qiáng)環(huán)境噪聲下的說(shuō)話人識(shí)別上具有一定優(yōu)勢(shì)。

4 結(jié)語(yǔ)

本文針對(duì)說(shuō)話人識(shí)別易受環(huán)境噪聲影響的問(wèn)題,提出了基于生物聽(tīng)覺(jué)感知機(jī)理的聲紋特征提取方法,用于說(shuō)話人識(shí)別中,提升了對(duì)環(huán)境噪聲的魯棒性。首先,采用對(duì)數(shù)頻譜幅度(OM-LSA)語(yǔ)音估計(jì)與最小控制遞歸平均(MCRA)噪聲估計(jì)結(jié)合的方法對(duì)說(shuō)話人語(yǔ)音進(jìn)行降噪等預(yù)處理,在模擬外周聽(tīng)覺(jué)系統(tǒng)耳蝸核處理過(guò)程的基礎(chǔ)上,進(jìn)一步模擬了STRF對(duì)特定頻率變化速率與尺度的特征選擇性,以獲取含噪語(yǔ)音信號(hào)中的穩(wěn)定特征,通過(guò)所提出的基于STRF 的聽(tīng)覺(jué)模型,輸出代表說(shuō)話人信息的頻譜圖,并通過(guò)頻譜圖進(jìn)一步提取二次特征;之后與傳統(tǒng)的MFCC 處理方式相結(jié)合,得出三種組合的二次特征,分別是MFCC+S、MFCC+SL、MFCC+SDL;最后采用支持向量機(jī)對(duì)聲紋特征進(jìn)行分類識(shí)別。本文從清華大學(xué)thchs30 中文語(yǔ)料庫(kù)里選取了其中36個(gè)說(shuō)話人每人40段語(yǔ)音片段做樣本,共計(jì)1 440 個(gè)語(yǔ)音片段。對(duì)其加入不同信噪比等級(jí)的噪聲進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)重點(diǎn)進(jìn)行了兩個(gè)方面的對(duì)比分析:一方面比較了單純基于STRF 的特征與MFCC 系數(shù)的識(shí)別正確率,發(fā)現(xiàn)前者普遍低于后者,但是前者對(duì)噪聲的魯棒性明顯優(yōu)于后者;另一方面,通過(guò)將二者進(jìn)行組合,并與每組單一特征的識(shí)別進(jìn)行比較發(fā)現(xiàn),組合特征的識(shí)別正確率普遍高于單一特征,且對(duì)噪聲的魯棒性也有顯著提高。以上實(shí)驗(yàn)結(jié)果表明,本文方法能夠用于強(qiáng)噪聲環(huán)境下的說(shuō)話人識(shí)別上,表現(xiàn)出了對(duì)環(huán)境噪聲的強(qiáng)魯棒性。

猜你喜歡
特征信號(hào)模型
一半模型
信號(hào)
鴨綠江(2021年35期)2021-04-19 12:24:18
重要模型『一線三等角』
完形填空二則
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
基于FPGA的多功能信號(hào)發(fā)生器的設(shè)計(jì)
電子制作(2018年11期)2018-08-04 03:25:42
抓住特征巧觀察
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产在线98福利播放视频免费| 亚洲精品无码久久毛片波多野吉| 久久精品91麻豆| 凹凸国产分类在线观看| 欧美午夜小视频| 久久综合伊人 六十路| 四虎国产在线观看| 国产精品毛片在线直播完整版| 国产乱人视频免费观看| 亚洲国产成人麻豆精品| 亚洲国产成人精品青青草原| 一级福利视频| 蜜臀av性久久久久蜜臀aⅴ麻豆 | 欧美精品亚洲精品日韩专区va| 国产免费福利网站| 欧美无遮挡国产欧美另类| 国产午夜精品鲁丝片| 制服丝袜 91视频| 亚洲第一极品精品无码| 亚洲国产日韩视频观看| 九九热在线视频| 日本手机在线视频| 国产成人高清亚洲一区久久| 中文无码毛片又爽又刺激| 永久免费av网站可以直接看的| 色综合天天娱乐综合网| 99在线观看精品视频| 国产精品.com| 久青草国产高清在线视频| 免费一级成人毛片| 亚洲精品无码久久毛片波多野吉| 国产毛片片精品天天看视频| 丝袜无码一区二区三区| 国产精品香蕉| 1769国产精品视频免费观看| 亚洲一级无毛片无码在线免费视频| 青青操视频在线| 亚洲欧美一区二区三区蜜芽| 国产新AV天堂| AV无码无在线观看免费| 91精品综合| 成人亚洲天堂| 一本久道热中字伊人| 日韩精品中文字幕一区三区| 欧美性猛交xxxx乱大交极品| 欧美a级在线| 不卡国产视频第一页| av一区二区人妻无码| 亚洲a级在线观看| 狠狠躁天天躁夜夜躁婷婷| 欧美丝袜高跟鞋一区二区| 日本亚洲最大的色成网站www| 亚洲中文字幕在线观看| 国产在线精品99一区不卡| aa级毛片毛片免费观看久| 亚洲精品黄| 欧美精品在线观看视频| 好久久免费视频高清| 亚洲国产精品一区二区第一页免 | 亚洲一级毛片免费看| 国产综合色在线视频播放线视| 国产福利2021最新在线观看| 精品国产91爱| 激情综合激情| 欧美一区二区精品久久久| 久久精品日日躁夜夜躁欧美| 亚洲娇小与黑人巨大交| 国产在线观看第二页| 综合色区亚洲熟妇在线| 亚洲国产成人久久精品软件| 真人高潮娇喘嗯啊在线观看| 永久毛片在线播| 热久久国产| 91久久青青草原精品国产| 鲁鲁鲁爽爽爽在线视频观看| 人妖无码第一页| 国产福利一区视频| 少妇精品久久久一区二区三区| 广东一级毛片| 精品福利网| 亚洲欧美人成电影在线观看 | 免费国产高清精品一区在线|