999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于特征加權與改進DCNN的說話人識別算法

2022-07-26 09:04:24倪美玉曹為剛
微型電腦應用 2022年6期
關鍵詞:特征提取深度特征

倪美玉, 曹為剛

(浙江科貿職業技術學院, 電子信息系, 浙江, 金華 321019)

0 引言

說話人識別通過聲紋等生物特征達到對說話人身份辯別的目的,目前已經取得較為顯著的成效,并成功應用于身份認證、語音喚醒、智能家居嵌入及司法鑒定等應用中[1]。目前,隨著說話人識別相關的特征提取技術和深度神經網絡技術等的不斷發展,干凈環境下的說話人識別模型具有較好的識別性能,但實際環境中往往存在各種復雜的干擾背景噪聲,嚴重影響了特征提取的有效性和魯棒性,導致實際環境中的模型存在失配現象而識別性能不理想,因此,如何提高模型提取的特征的環境適應性和魯棒性,成為近年來該領域的研究熱點[2-3]。

為降低模型特征與實際語音的失配度,提高特征的可分類性能,魯棒聲學特征以及將背景噪聲信息融入等方法被應用到識別模型的改進中,以增強識別系統對噪聲環境的抗干擾能力。典型的方法主要包括模擬生物的聽覺感知特性分析、小波多尺度變換、MFCC聯合特征提取、信號空間的模型補償法[4]等。聽覺感知特征可以在多背景噪聲干擾下較好的提取目標語音。牛曉可等[5]借鑒生物STRF的時空濾波機制,提取STRF二次特征,并聯合MFCC構建具有強噪聲容忍的聲紋感知特征,通過SVM實現強噪聲環境下的魯棒特征提取與說話人識別。張建偉等[6]采用最小統計優化的遞歸平均參數法改進語音信號中的噪聲譜估計,并通過一階遞歸改進最小功率譜平滑,從而提高語音識別特征的抗噪性能,提高語音質量;Bai等[7]對GMM-UBM模型進行了聯合估計優化作為說話人識別模型,模型有效提升了i-vector算法對背景噪聲的適應性[8]。

隨著深度學習技術的不斷發展進步,深度卷積神經網絡(DCNN)被逐漸應用到說話人識別模型中,并取得較好的識別準確性和魯棒性[9]。張玉來等[10]在傳統DCNN網絡模型中引入懲罰因子和套索算法,以降低特征冗余,提高DCNN網絡提取的特征的表征能力;Zhang等[11]在說話人識別模型中引入歐幾里得距離相似性度量,通過空間金字塔池化層替換放寬了定長輸入的約束,提高以性能增益,通過引入PLDA后端替換距離評分對通道和噪聲進行可變性補償來解決訓練數據與測試數據的欠匹配問題;Maghsoodi等[12]將HMM模型與i-vector相結合,以識別語音中含有的隨機數字,通過HMM狀態幀對齊提取Baum-Welch統計特征,通過i-vector建立單數字模型,并研究了執行信道和不確定性補償的方法,模型取得較好的識別效果[13]。

但傳統MFCC、PLP等特征大多基于語音信號的短時譜信息,但仍難以描述語音段深度信息,而深度神經網絡缺乏直觀的物理聲學特征描述[14],為此,提出基于MFCC加權與改進深度卷積神經網絡的說話人識別模型,模型首先提取信號的MFCC特征,并對特征進行分量凸顯和加權改進,以提高特征中對最終識別準確率貢獻大的分量的作用,然后通過改進深度卷積神經網絡的結構并增加深度殘差網絡,以進一步對準幀間信息,提高網絡對說話人識別需求的適應性。實驗結果驗證了算法的有效性。

1 改進模型說話人識別

說話人識別通常首先采用一定的語音數據處理方法對含噪信號進行分類特征提取,然后針對背景環境干擾情況,對特征進行優化增強,最后采用合適的分類器完成說話人的語音特征匹配,從而識別出說話人。文中說話人識別模型結構如圖1所示,算法融合了特征優化增強與深度神經網絡的優點,主要包括特征提取、特征優化計算和改進DCNN網絡三大部分。

圖1 基于改進深度神經網絡的說話人識別過程

1.1 特征提取

不同說話人,由于發聲器官物理上的特性差異,其產生的語音信號存在一定的特性。由于說話人所處環境的噪聲及各種干擾,直接對語音信號進行說話人識別,其特征不穩定魯棒性較差。MFCC特征基于人耳聽覺感知特性,是一種具有較好的抗噪性能和識別性能的常用聲紋特征,其不依賴于語音內容,較好的反應語音信號的聲學特征[10]。

設實測語音信號進行數字化處理并加窗分幀后,每帖信號可表示為xi(n),對xi(n)進行預加重和FFT變換,得到信號的頻譜表示X(k):

(1)

式中,N為變換點數。進而可提取頻譜的能量譜Pi(k),即

(2)

將Pi(k)作為基本特征輸入M階Mel三角濾波器組Hm(k)中,并對每個子濾波器的輸出取對數后,再進行DCT變換,從而得到一組MFCC系數,即

(3)

(4)

式中,m為Mel濾波器組的第m個子濾波器的序號,0≤m≤M。

MFCC系數的歸一化均值和方差有利于降低信號干擾影響,提高特征的噪聲適應性,但MFCC特征通常僅描述了語音信號的靜態特征,為此,引入MFCC系數的差分ΔfMFCC。ΔfMFCC特征描述了語音聲紋的動態特征,有利于提取語音信號的幀間相似性和連續性,為此,文中使用MFCC和ΔfMFCC的組合特征來準確反映說話人的行為特征及其聲道等生理特性。

從MFCC特征的計算過程可以看出,其分幀重疊和動態特征的引入,帶來MFCC特征的信息冗余,不利于模型的識別性能提高,為此,文中基于特征篩選和特征加權對MFCC系數進行二次特征提取。

特征篩選主要是為了凸顯系數中對說話人表征能力強的部分參與后續模型的訓練與識別過程,通常采用Fisher比值來描述,其計算式為

(5)

根據分量計算方法,MFCC各分量對識別結果的貢獻度計算式為

(6)

式中,p(i,j)為識別率,n為特征階數。圖2為TIMIT數據集中100人的話音中提取的13維MFCC及其ΔfMFCC的貢獻度值。從圖2可以看出,不同維數的特征對最終識別的貢獻度是不同的,則根據貢獻度不同對半正弦函數進行擬合修改后,各維數特征分量的權值rq的計算式為

(a) MFCC分量的識別貢獻度分布

(b) MFCC一階差分值分量貢獻度圖2 MFCC特征的各分量識別率貢獻度分布

rq=0.7-0.17cos(0.5q)+0.13sin(0.5q)

(7)

式中,q為縮放處理后的權重。

以擬合權重對MFCC各分量進行修正,則修正后的MFCC特征各分量可表示為

(8)

式中,i為當前處理的語音幀,Q為分量數。

1.2 DCNN網絡結構設計

語音產生過程具有明顯的深度多層次結構特性,因此,采用DCNN模型可以更好地獲取語音的局部特征和結構信息,為此,設計了基于改進DCNN和MFCC的說話人識別模型,其結構如圖3所示。

圖3 改進DCNN網絡模型的結構設置

文中改進DCNN網絡結構主要體現在全連接層設計上,傳統DCNN需要一個softmax層來統計全連接層輸出的結果,而文中改進DCNN結構直接計算目標向量。改進模型中卷積層包含一個7×7×64層和兩個3×3×128層,采用滑動過濾器,以使得卷積層可以在水平和垂直兩個輸入方向計算點積,并在最后增加偏置值。卷積過程中的padding參數由池化層的same函數進行設置,以維護經卷積層處理的數據的尺度不變,增加批量歸一化層以統一卷積層輸出,提高訓練效率和訓練穩定性。全連接層為1 024點,其網絡輸入層為13維加權改進的MFCC特征矩陣。模型參數采用Adam(Adaptive Moment Estimation)算法進行迭代更新,因為傳統隨機梯度下降算法(Stochastic Gradient Descent,SGD)在權重更新時僅采用單一學習率,而Adam算法則根據一階矩和二階矩自適應的為模型參數設置學習率,從而加快模型的收斂和噪聲的預測,提高模型的降噪增強效果。

DCNN網絡的層數增加,有利于在進行說話人識別過程中提取更多的語義信息,但同時會導致梯度弱化,在文中改進DCNN網絡模型中增加深度殘差網絡,以消除網絡層數增加導致的梯度消失,提高模型的說話人識別準確率。

隨著網絡深度的增加,網絡殘差可表示為

fLOSS=FN(XLN,WLN,bLN)

(9)

式中,W和b分別為網絡的遞歸權重和偏置項,而X的遞歸計算為

XL2=F1(XL1,WL1,bL1)

XLN=F1(XLN-1,WLN-1,bLN-1)

(10)

反向傳播過程中,當梯度到達第一層時,其偏導計算式為

(11)

式(11)描述了深度卷積網絡隨著深度的增加,梯度在傳統過程中逐漸變小,甚至消失,深度殘差網絡通過在網絡層間增加殘差連接避免梯度消失問題,其網絡設計如圖4所示。

圖4 用于文中改進DCNN的殘差網絡模塊

2 實驗驗證與分析

為驗證文中改進模型的說話人識別有效性,以TIMIT數據庫[10]中隨機選取的3 600條語音信號,為消除模型的過擬合情況,隨機截取語音信號時長,并隨機設置說話人性別與年齡。以Noisex92噪聲庫中的Factory和Café噪聲作為背景噪聲,數據的采樣率設置為8 kHz,幀長64 ms,幀間重疊32 ms。

將實驗噪聲與語音數據以分段信噪比為-10、-5、0、5、10、15進行混合作為實驗用含噪語音數據,以文獻中Ivector+PLDA識別框架結合MFCC和GFCC特征(記為IPMFCC、IPGFCC)、GMM-UBM[15]結合MFCC及其加權值(記為GUMFCC、GUGFCC)及文中改進DCNN結合MFCC及期加權值(記為IDMFCC、IDCMFCC)共6種模型進行識別性能比較實驗,多次實驗結果的平均值如圖5所示。

(a) Factory噪聲下識別率

(b) Café噪聲下的識別率圖5 不同噪聲下各算法的識別率

從圖5實驗結果可分析得到,總體上,在高信噪比環境下的各模型識別準確率都較高,而在低信噪比環境下,各模型的說話人識別正確率都顯著降低,說明實驗中各模型在低信噪比下對環境噪聲的抗干擾能力仍待提高,特征的魯棒性仍需要增強。但在相同條件下,文中模型的說話人識別準確率均較優,尤其在-10和-5的低信噪比下,優勢更加明顯,這主要因為一方面特征信息的改進,使得其分量中對識別貢獻度大的分量被加強,從而提高特征的抗干擾能力和識別性能,另一方面,對DCNN網絡的改進,平衡了網絡性能和訓練難度,從而整體上提高模型的識別準確率。

3 總結

針對DCNN網絡缺乏直觀的物理聲學特征描述等問題,提出基于MFCC加權與改進深度卷積神經網絡的說話人識別模型,模型首先提取信號的MFCC特征,并對特征進行分量凸顯和加權改進,以提高特征中對最終識別準確率貢獻大的分量的作用,然后通過改進深度卷積神經網絡的結構并增加深度殘差網絡,以進一步對準幀間信息,提高網絡對說話人識別需求的適應性。實驗結果表明,文中算法在不同的分段信噪比下均取得最優的識別準確率。

猜你喜歡
特征提取深度特征
深度理解一元一次方程
如何表達“特征”
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識別算法
基于MED和循環域解調的多故障特征提取
主站蜘蛛池模板: 国产一区二区精品福利| 日韩高清无码免费| 欧洲av毛片| 欧美特黄一免在线观看| 日本AⅤ精品一区二区三区日| 亚洲激情区| 欧洲一区二区三区无码| 国产精品19p| 999在线免费视频| 无码日韩视频| 亚洲精品无码在线播放网站| 99性视频| 欧美亚洲欧美| 国产精品美女免费视频大全| 特级毛片8级毛片免费观看| 日韩精品一区二区三区中文无码| 91青青视频| 国产精品美人久久久久久AV| 欧美日韩国产系列在线观看| 大香伊人久久| 免费A∨中文乱码专区| 色婷婷在线播放| 色天天综合| 国产亚洲男人的天堂在线观看| 日韩AV手机在线观看蜜芽| 欧美激情视频一区| 欧美日韩va| 亚洲永久视频| 98精品全国免费观看视频| 亚洲成人77777| 91视频区| 99久久国产综合精品2023| 六月婷婷综合| 国产精品视频3p| 日韩在线视频网站| 一级不卡毛片| 国产无码精品在线| 亚洲视频色图| 国产白浆一区二区三区视频在线| 日韩人妻精品一区| 亚洲成综合人影院在院播放| 国产一区二区精品高清在线观看| 亚洲精品免费网站| 538国产在线| 国产在线精彩视频论坛| 亚洲天堂久久新| 国产三级毛片| 国产精品浪潮Av| 成人毛片免费观看| 国产午夜人做人免费视频| 亚洲天堂自拍| 91福利免费| 毛片免费网址| 久久黄色小视频| 亚洲色图欧美激情| 在线不卡免费视频| 就去色综合| 日本www色视频| 免费国产高清视频| 91福利国产成人精品导航| 国产欧美日韩综合在线第一| 欧美成人亚洲综合精品欧美激情| 国产情侣一区| 精品久久久无码专区中文字幕| 在线免费观看a视频| 久久久久夜色精品波多野结衣| AV在线麻免费观看网站| 国产亚洲精品91| 国产色偷丝袜婷婷无码麻豆制服| 日韩精品成人网页视频在线| 国产97色在线| 精品成人一区二区三区电影 | 精品日韩亚洲欧美高清a| 任我操在线视频| 日韩成人在线视频| 国产乱子伦一区二区=| 伊人91在线| 国产91无毒不卡在线观看| 久久久久亚洲av成人网人人软件| 草逼视频国产| 久久伊人色| 亚洲欧美国产五月天综合|