999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

兩級特征聯合學習的情感說話人識別

2023-01-13 11:57:54劉金琳李冬冬蔡立志
計算機工程與應用 2023年1期
關鍵詞:特征情感實驗

劉金琳,李冬冬,王 喆,蔡立志

1.華東理工大學 信息科學與工程學院,上海 200237

2.蘇州大學 江蘇省計算機信息處理技術重點實驗室,江蘇 蘇州 215006

聲音是代表人類身份的重要特征之一,較指紋和人臉等特征而言,聲音特征難以偽造,相關應用都是以不接觸的方式得以實現,因此,基于聲音特征的說話人識別已經成為當下研究的熱點。現如今,這幾個研究分支在醫學和司法領域都發揮著重要作用[1]。常見的應用主要是基于語音的身份認證、移動設備中的語音助手以及智能家居等領域。

說話人識別(speaker identification,SI)是指判斷測試語音的說話人標簽,目前的說話人識別方法主要由三部分組成:語音信號采集、說話人特征提取、說話人識別[2]。在語音信號采集的過程中通常會選擇相對安靜的環境,并且說話人會保持更加平和的語態進行錄制,以保證采集到的語音信號期望更加穩定;在特征提取方面,目前的主流方法是通過深度神經網絡提取能夠更具說話人特性的高維特征;最后再通過判別器進行說話人標簽的判定。

然而,現實生活中說話人識別的應用場景下,信號采集階段可能無法達到理想狀態。人的發聲過程是非常復雜的生理過程,語音信號中包含的情感狀態、年齡、地域以及種族等信息非常豐富[3]。情感狀態相較其他的內在影響因素而言更加易變,是當下人機交互中語音特征的關鍵因素之一[4]。在進行說話人識別的過程中考慮情感的變化是非常有價值的。

在真實場景中,訓練階段的語音數據是在說話人保持一個穩定的狀態下進行錄制的,而對測試語音進行說話人的判別的過程中,采集到的測試語音則可能具有不同的情感,這樣的差異會對說話人識別的效果產生非常大的影響。

因此本文提出利用片段級別特征指導幀級別特征學習的方法,利用長短時記憶網絡(long short-term memory,LSTM)來對片段級特征中的情感信息進行增強,將得到的片段特征進行拆分,送入由全連接層構成的深度神經網絡(deep neutral network,DNN)中對單幀的特征進行學習,使得模型能夠更好表征情感語音的特點。同時,本文探究了不同幀數的特征在情感說話人識別中的性能效果,以及不同情感狀態對說話人特征表示的影響。

1 相關工作

在說話人識別方面的主流方法包括包括高斯混合模型通用背景模型(Gaussian mixture model-universal background model,GMM-UBM)[5],i-vector[6]和x-vector[7]等方法。盡管GMM-UBM早在二十年前就提出了,但是通過通用模型進行自適應訓練每個說話人的模型的思想至今仍在使用。i-vector定義了一個總的可變性空間來模擬說話人和信道的可變性。隨著深度學習的迅速發展,在提取DNN最后一個隱層的輸出作為說話人的特征表示的基礎之上,使用時延神經網絡(time delay neural network,TDNN)提取特征的x-vector方法來提取句子級別的說話人特征表示。迄今為止,x-vector是應用最廣泛的方法,許多最新的方法都是基于x-vector的改進[8]。

在帶有情感狀態的語音說話人識別領域,很多優秀的算法都是在說話人識別的算法上進行的改進。Bao等人[9]通過分析通道效應和情緒效應的相似性,提出了情緒投影方法(emotion attribute projection,EAP)來減輕說話人內部的情緒可變性。Kenny等人[10]提出基于規則對數據進行歸一,可以實現以小成本處理大量的會話可變性因素影響,以此來解決情感語音問題。Mackova等人[11]利用i-vector比較了說話人識別中梅爾頻率倒譜系數(Mel-frequency cepstral coefficients,MFCC)不同維度的混合和非混合情感模型。實驗結果表明,采用較多維度的MFCC特征和非混合模型的識別效果較好。隨后,通過比較MFCC、線性預測系數(linear prediction coefficients,LPC)、線性預測倒譜系數(linear prediction cepstral coefficients,LPCC)等不同種類的前端特征,證明了能量、增量、加速度和三階回歸系數的MFCC特征(22 MFCC_E_D_A_T)在情感說話人識別中具有最好的識別率[12]。Mansour等人[13]提出了一種利用MFCC特征提取i-vector的方法提取說話人特征,結合支持向量機(support vector machines,SVM)分類器來構建一個魯棒有效的情感說話人識別系統。隨后,他們進一步將i-vector建模技術與使用MFCC移位增量倒譜(MFCC-SDC)系數的SVM分類器相結合,改善了真實條件下的情感說話人識別[14]。文獻[15]利用帶有MFCC的高斯混合模型(GMM)開發了情感說話人識別模型,并取得不錯的結果。

無論是否考慮情感因素,目前主流的說話人識別方法主要是利用神經網絡將說話人的語音特征映射到更加復雜的特征空間,再進行說話人識別[16]。x-vector以及相關的改進方法主要由三個部分組成:幀級別特征處理、統計池化以及片段級別特征處理[17]。其中幀級別特征處理是利用深度神經網絡結合前后語音幀的信息來獲取長時的說話人特征,然后通過統計池化層對幀級別特征進行信息的整合獲得片段級別的特征最后通過全連接層學習說話人的特征[7]。目前很多的研究都是在此基礎之上改進幀級別特征的處理方式,使得統計池化之前的特征能夠更加具有表達說話人特征的能力[18]。同時也有方法提出使用幀級別的特征進行端到端的說話人識別[19],使用幀級別的特征在模型擬合的過程中降低了輸入維度,也就在一定程度上降低了模型的復雜度,減小訓練樣本量的同時達到足夠好的性能。

由此可見,對片段級別特征和幀級別特征的改進都能夠提升說話人識別的性能,因此,本文提出利用片段級別特征對幀級別特征的學習進行引導,首先使用LSTM網絡對片段級別特征進行學習,得到帶有情感的說話人特征后再對其中的特征幀進行學習,加強特征幀的表達能力,最后拼接幀級別特征和片段級別特征得到最終的說話人特征表示來進行標簽預測。

2 提出的方法

情感信息是影響說話人識別性能的重要因素之一,為了能夠更好地學習到語音特征中的情感信息,本文提出的幀級片段級聯合學習,在模型擬合的過程中,利用片段特征學習到的信息指導幀級別特征學習,從而使得網絡能夠在擬合時候進一步對特征中的信息進行整合。完整的情感說話人識別框架如圖1所示,首先是將提取到的語音特征送入LSTM網絡,通過對片段信息的提取,再將每一幀進行拆分,送入DNN網絡中進行幀級別特征的學習,最后將片段級別和幀級別提取到的特征進行拼接,送入softmax層進行說話人的分類。

圖1 片段幀級聯合學習框架圖Fig.1 Structure of segment level and frame level feature joint learning

2.1 特征提取

由于每一條語音的長度不一樣,因此在提取語音特征的時候會對語音進行分幀處理。分幀將語音劃分成相同大小的幀級別特征,但每一個句子的幀級別特征的數量也還是會不一樣,因此許多現有的工作會設置句子中語音幀的數量,當句子較長時,將多余的語音幀刪除,當句子較短時則會通過補零或者重復補充。但當模型訓練以句子級別特征作為輸入時,這樣的特征處理會對訓練樣本量進行刪減,因此目前大多工作會選擇片段級別特征作為輸入,以豐富樣本數量。

F-bank特征作為一種用于深度神經網絡訓練的聲學特征目前已經受到越來越多研究者的使用。F-bank特征較MFCC特征而言具有更多原始的語音信息,且由于本文使用了LSTM網絡,在網絡中就會對語音特征的時間依賴性進行學習,從而不需要在特征提取部分進行一階或二階求導。

2.2 片段級特征指導幀級特征的學習

語音信號對于時間的依賴性很強,尤其是帶有情感狀態的語音。語音中如果包含某種情感,這種情感狀態會持續存在于某一段語音中,因此如果網絡可以結合利用歷史信息進行進一步的特征凝練就可以使得特征中的情感信息更加準確,從而提高說話人識別的準確率。但是人的情感不會持續很長的時間,并且是在時刻轉變的,因此有時候網絡只需要結合最近的幾幀或者幾十幀的信息,而不是利用所有的歷史信息。

LSTM是一種特殊的循環神經網絡(RNN),解決了RNN將之前所有的歷史信息結合到當前任務在處理情感語音上的問題。LSTM在網絡單元中增加了3個門控結構,以實現對長時信息的依賴問題,因此取LSTM網絡的時序輸出作為片段級別特征,其中的情感信息會得到加強,還會保留相應的說話人特征。通過對加強后的片段特征進行單幀的訓練對語音中的信息進一步增強,從而實現對最終說話人識別的性能提升。

設U=[x1,x2,…,xN]T為輸入的f-bank特征,形狀為N×d0,其中N是片段級別特征中語音幀的數量,d0是輸入特征的維度。如圖2所示,特征送入LSTM網絡后經過每個網絡單元后取其序列輸出以得到具有更多信息的特征S∈RN×d1,其中d1表示經過LSTM網絡后的特征維度。

圖2 LSTM網絡提取片段級特征Fig.2 Segment level feature extraction from LSTM network

LSTM網絡中的每一個單元如圖3所示,3個門控結構對輸入數據進行歷史信息的遺忘和選擇,其中1<t<N表示當前特征幀,如公式(1)所示,ht是隱藏層輸出,也就是時序輸出的一部分,ct是記錄了歷史信息的控制細胞狀態。

圖3 LSTM網絡單元內部門控結構Fig.3 Internal gating structure of LSTM network unit

其中,?表示哈達瑪積(Hadamard product)即矩陣中對應元素相乘,⊕表示矩陣加法。如公式(2)所示,通過Sigmoid函數可以將輸入的數據控制在(0,1)之間以達到對數據的選擇。

通過對數據進行對應元素相乘的操作就可以保證遺忘門的輸出zf是網絡要遺忘的內容,輸入門的輸出zi是網絡要保留在歷史信息中的內容,輸出門的輸出z0是網絡最后要輸出的內容。

在計算zc和ht時使用的tanh激活函數如公式(3)所示,是對數據的非線性變換,將數據映射到( )-1,1空間,加速模型的收斂。

取時序輸出結果S∈RN×d1,進行拆分,如圖4所示,將拆分得到的N個幀級別特征ft∈R1×d1依次送入DNN網絡中,對經過了長短時記憶網絡增強信息的特征進行進一步的學習。

圖4 對片段級特征進行拆分送入DNN進一步學習Fig.4 Split and sent segment level features to DNN for further learning

拆分得出來的每一幀送入一個6層的DNN中擬合模型以進一步增強模型對特征的情感信息的表達。對DNN輸出的特征∈R1×d1進行拼接,如公式(4):

得到幀級別的特征片段F∈RN×d1,再將之前的到的片段級別特征S和幀級別特征片段F進行拼接得到最終的特征,再將最后的特征送入softmax中進行說話人識別。

3 實驗設置和結果分析

本章主要是對實驗使用的數據集和實驗過程中細節部分的描述,最后實驗結果分析則是針對不同實驗策略的實驗結果進行分析。

3.1 數據集介紹

為了驗證所提出方法的有效性,本文選用了普通話情感語音語料庫(MASC)[20]和多種情感的多模態演員語料庫(Crame-D)[21]來進行驗證。

MASC數據集是一個較大的中文情感說話人數據集,包含了68名說話人(男性45名、女性23名),5種情感狀態(中立、憤怒、興奮、傷心和驚恐)。每個說話人下有3種狀態的語音數據(段落、語句和短語),段落狀態只有中立情感的一段較長語音,語句狀態的語音每種情感狀態有60句,短語狀態的語音每種情感狀態有15句。考慮到情感狀態的豐富和語音長短,實驗中僅使用語句狀態的語音,總共68×60×5=20 400句。

Crame-D是一個包含了91個專業演員(48名男性、48名女性)和6中情感(快樂、悲傷、害怕、失望、中心和憤怒)的情感數據庫。對于每一個說話人的每種情感,都有12個預定的句子,其中第一個句子有3種情感強度。由于技術原因,部分數據丟失,目前數據庫中保留了7 442條語音數據。

3.2 實驗設置

實驗中使用的F-bank特征的特征維度為26,為了盡可能表現方法的有效性,本次實驗對N分別取10、20、40、60和70進行多次實驗選取最優值。LSTM層單元數設置為128,6層DNN的網絡節點數設置分別為128、256、512、1 024、512和128。模型中LSTM層和Dense層都是用了ReLU激活函數,為了防止過擬合添加了批量標準化層(batch normalization)和丟失層(dropout),且丟失層設置參數為0.3。訓練過程中反向傳播的損失函數為交叉熵,并使用Adam優化器進行優化,批大小(batch size)為64。

在實驗過程中,在數據劃分方面,本文采用了兩種實驗策略:為了證明方法的有效性,對于兩個數據集,每種情感的前70%用于訓練,后30%用于測試。為了能夠進一步證明所提出方法在情感信息提取中的有效性,由于Crame-D數據集的數據量較小,且每種情感的數據量不一致,而MASC數據集中每種情感的數據非常均勻且數量較多,故本文選擇在MASC數據集中進行進一步的實驗驗證,將MASC中單種情感的前70%用于訓練,所有情感后30%進行測試。

文中的方法驗證實驗都基于Python3.7,用于實驗數據運行的服務器系統為Windows Server 2012R2,CPU為E5-2620v4 2.10 GHz,內存大小為128 GB,GPU為Tesla K80,顯存大小為24 GB,CUDA版本為10.0。

3.3 實驗結果分析

實驗結果分析從三方面進行展開,首先是通過在所有情感數據共同訓練的情況下將所提出方法和其他工作進行比較驗證方法的有效性;然后是針對所提出的方法進行不同情感下的測試,以探究不同情感的識別效果;最后通過單種情感數據的訓練驗證所提出方法在情感說話人識別下的效果。

所有實驗的評價指標均為識別準確率(identification rate,IR),指測試樣本中預測準確的類別占所有測試樣本的比例。

3.3.1 方法的有效性

為了能夠驗證方法的有效性,本文將所提出的方法與LSTM、BLSTM、x-vector以及CNN進行了對比。對比算法中,LSTM方法使用單獨一層LSTM網絡將其時序輸出當成送入一個全連接層,激活函數為“ReLU”最后通過softmax層進行說話人識別;BLSTM與LSTM方法相對應,將數據的正向的時序信息和反向的時序信息結合,使用一個BLSTM層進行時序特征的提取;xvector使用了相同的TDNN網絡結構,對提取出來的特征向量直接通過softmax層進行說話人的分類;CNN使用了兩層CNN堆疊的網絡結構,每層CNN的節點數為32和64,激活函數為“ReLU”。

從表1的結果中可以看出,當N取20時各種方法的結果都達到峰值,這可能是因為對于MASC數據集而言,20幀的語音片段能夠更好地在帶有情感狀態的語音中表現說話人的特點。10幀的語音片段教短以至于特征中信息不足,導致性能下降;而當N取40、60和70時反而性能下降的原因可能是因為對于帶有情緒的語音而言,情感的狀態一直在發生細微的變化,即使是同一種情感也有強度的區分,當語音片段較長時可能導致片段中的情感狀態不一致,導致網絡在對說話人的特征進行擬合時受到情感因素的影響,使得性能降低。

表1 所提方法在MASC和Crema-D上與其他方法的比較Table 1 Comparison of proposed method with other methods on MASC and Crema-D 單位:%

根據兩個數據集的結果從整體上來說,與其他算法進行比較,所提出的方法在N取10、20、40、60和70時,都達到了最優的結果。CNN的效果最差是因為CNN在訓練過程中,同時結合時域和頻域的信息,導致信息的不完整,在情感說話人識別中效果不如其他算法。BLSTM效果比LSTM效果更好的原因是因為BLSTM進行了雙向的歷史信息選擇,對于情感說話人識別來說,可以更好地加強語音片段中情感信息的影響力。x-vector是目前非常主流的說話人識別方法,通過TDNN網絡結合當前幀的前后多幀信息,最后通過池化層得到句子級別的表征,在情感說話人識別上也有一定的優秀表現。x-vector方法和BLSTM方法的性能相當,原因是因為對于情感語音來說,情感信息可能不僅存在于固定的幾幀,而是有一定的范圍,因此雙向的長短時記憶網絡對情感的把控能力可能更強一些。本文所提的方法較之前的幾種方法都表現出了更加優秀的性能,是因為通過LSTM對情感進行了增強之后,對單幀的特征也進行了學習,從樣本數量和模型擬合的信息量兩個部分都進行了豐富。

整體上進行比較,MASC的結果普遍比Crema-D好,是因為Crema-D數據集中的數據量只有MASC的1/3,且人數比較多,情感類型比較豐富,單種情感的數據較少導致。

3.3.2 不同情感下的測試結果

為了分析情感因素對說話人識別的影響,在MASC數據集上對所提出來的方法將每種情感下的說話人識別性能單獨羅列進行分析。

當N取不同結果時,5種情感狀態下的實驗結果如圖5所示。從圖中可以看出,當測試語音為中立和悲傷時,模型的性能較好,這可能是因為中立語音中,說話人的特征受到情感因素的影響幾乎不計,而悲傷語音中,說話人特征受到的影響相對其他情緒狀態下的語音小一些。從圖中可以非常明顯看出,憤怒和驚恐兩種情感對于說話人特征的影響相對較大,這可能是因為當說話人憤怒和驚恐時,聲音會發生一定的變化比如聲音變尖銳,這在一定程度上會對說話人的特征提取產生影響,從而降低說話人識別的性能。

圖5 不同情感下的模型評估雷達圖Fig.5 Radar map of model evaluation under different emotions

3.3.3 單種情感數據訓練下的結果分析

為了進一步證明所提出方法對情感語音中的說話人特征擬合效果,在MASC數據集上,本文使用每種情感的前70%進行訓練,所有情感的后30%進行測試。

如圖6所示,圖(a)更貼合目前的實際應用場景,在使用聲音進行說話人身份的驗證時,訓練語句往往是說話人情緒狀態處于中立且保持穩定的時候錄制的,而說話人在進行身份認證時的語音中包含的情感狀態和情感信息則根據當時說話人所處的現實場景決定,因此使用中立語音訓練,多種情感測試的策略是非常有討論價值的。從圖中可以明顯看出,所提出的方法從總體上來說表現比其他方法都好,在驚恐和憤怒兩種情緒上比起其他方法的優越性更加明顯,這也在一定程度上減輕了驚恐和憤怒兩種情緒對說話人特征提取的影響。

圖6 單種情感訓練下的結果Fig.6 Results of single emotion training

從其他幾種情感數據單獨訓練的結果來看,提出的方法都表現出了優秀的性能,同時可以看出,中立與悲傷情感對說話人特征的影響較為相近,和其他3種情緒狀態差距則較大。從綜合結果來看,以憤怒、驚恐和興奮語音來訓練的結果較另外中立和悲傷語音訓練的結果更好一些,這是因為這3種語音對說話人特征的影響較為相似,而測試語音中這3種情感的語音數量比中立和悲傷語音的數量多一些,因此綜合結果更好。

4 結束語

本文提出了一種使用片段特征指導幀級別特征學習的方法,通過LSTM網絡對F-bank特征進行片段級別的特征增強,再將特征進行拆分,依次送入DNN網絡中對單幀特征進行增強,最后在說話人預測之前,將LSTM網絡得到的特征和進行了幀級別信息增強的特征進行了拼接,使得最終的說話人表示更具具有代表性。通過在情感說話人數據集MASC上進行實驗分析與討論,驗證了所提出方法對情感狀態的語音中說話人特征擬合的有效性。在實驗過程中發現,當片段特征取20幀時,實驗結果達到最佳。同時實驗結果證明,傷心和中立情感對說話人特征的影響較為接近,驚恐、憤怒和興奮的情感說話人特征也較為接近。在未來的工作中,會進一步考慮如何優化網絡結構,使得網絡能夠進一步減輕憤怒和驚恐情感對說話人特征的影響。

猜你喜歡
特征情感實驗
記一次有趣的實驗
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
如何表達“特征”
情感
做個怪怪長實驗
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
如何在情感中自我成長,保持獨立
抓住特征巧觀察
NO與NO2相互轉化實驗的改進
主站蜘蛛池模板: 国产丝袜无码一区二区视频| 中文字幕欧美日韩| 亚洲国产第一区二区香蕉| 色爽网免费视频| 中文字幕在线一区二区在线| 亚洲无卡视频| 国产精品无码作爱| 一本一道波多野结衣av黑人在线| 色噜噜综合网| 国产精品久久久久久搜索| 亚洲精品中文字幕无乱码| 91精品aⅴ无码中文字字幕蜜桃| 色精品视频| 青草视频在线观看国产| 国产精品毛片一区| 无码中字出轨中文人妻中文中| 亚洲天堂精品视频| 自偷自拍三级全三级视频| 欧美影院久久| 国产精品久线在线观看| 国产日韩精品欧美一区灰| 久久久久国产精品免费免费不卡| 欧美中文字幕无线码视频| 91免费国产在线观看尤物| 欧美一区二区福利视频| 亚洲国产成熟视频在线多多| 在线观看国产精品日本不卡网| 亚洲欧美日韩成人高清在线一区| 国产精品jizz在线观看软件| 中文纯内无码H| 亚洲精品午夜无码电影网| 亚洲男人的天堂网| 亚洲成人黄色在线观看| 在线观看精品自拍视频| 婷婷五月在线| 99视频在线观看免费| 中文字幕免费播放| 亚洲视频在线青青| 亚洲国产看片基地久久1024| 国产XXXX做受性欧美88| 极品国产在线| 亚洲天堂日本| 欧美在线国产| AV老司机AV天堂| 亚洲区欧美区| 人人91人人澡人人妻人人爽| 国产迷奸在线看| 她的性爱视频| 亚洲码一区二区三区| 亚洲无线一二三四区男男| 无码电影在线观看| 91无码视频在线观看| 亚洲视频三级| 国产一二视频| 亚洲AV免费一区二区三区| 国产日本欧美亚洲精品视| 欧美国产另类| 欧美国产日韩一区二区三区精品影视| 色老二精品视频在线观看| 又猛又黄又爽无遮挡的视频网站| 国产色婷婷| 毛片基地视频| 欧美日韩精品一区二区在线线| 亚洲91精品视频| 一级香蕉视频在线观看| 熟女日韩精品2区| 久久综合五月| 一级片一区| 青青久在线视频免费观看| 在线99视频| 丰满的少妇人妻无码区| 欧美特黄一免在线观看| 久久久久国产一区二区| 免费国产福利| 免费在线看黄网址| 欧美日韩动态图| 国产丝袜无码精品| 国产菊爆视频在线观看| 久久a级片| 日韩大乳视频中文字幕| 中国一级毛片免费观看| 无码一区18禁|