李曉坤,李洪亮
(曲阜師范大學,山東 曲阜 273165)
語音作為一種情感表達的方式,通過聲調的抑揚頓挫可以表達多種不同的情感。人類的情感表達具有共性。即使所使用的語言不同,情感的本質都是相同的,都具有生氣、快樂、憂傷以及厭惡等情緒。基于情感的本質屬性,本文想要通過對不同語言數據庫之間進行跨庫識別的探索,找到一種可行的方案,以提高跨庫語音情感識別的準確率。
目前,關于語音情感識別[1]的研究主要分為同庫語音情感識別和跨庫語音情感識別。關于同庫語音情感識別,多采用深度學習的方法。Keren等人[2]使用卷積+循環神經網絡(Convolutional-Recurrent Neural Network,C-RNN)的方式訓練語音庫,對性別、年齡、情感等進行識別。Ren等人[3]使用語譜圖在生成對抗網絡中對Demos數據庫中的語音情感進行識別。Xie等人[4]使用改進的長短時記憶網絡并加入注意力機制,在CASIA、eNTERFACE、GEMEP這3個語音庫中分別進行訓練和測試。陳長風[5]采用卷積+長短時記憶(Convolutional Neural Network-Long Short Time Memory,CNN-LSTM)的方法進行歌曲語音情感識別。這些方法都提升了同庫語音情感識別的準確率,平均識別率達到92%。
對于跨庫語音情感識別,多將一般遷移學習方法[6-10]和傳統的機器學習方法[11-13]進行融合。宋鵬等人[14]將TCA和s-LDA方法相結合進行特征遷移和有監督線性分布自適應的跨庫語音情感識別。Song等人[15]采用特征選擇和遷移子空間學習相結合進行跨庫識別。Song等人[16]使用有監督的遷移線性子空間學習和特征選擇融合進行跨庫識別。張昕然等人[17]提出了深度信念網絡(Deep Belief Nets,DBN),將其應用于跨庫語音情感識別。以上這些方法逐步提升了跨庫語音情感識別的準確率,但是平均識別率最高只有54.63%。
綜上所述,當前關于跨庫語音情感識別的研究主要集中于一般的遷移學習方法和傳統的機器學習方法相結合,且在識別率方面沒有較大突破。與此同時,同庫語音情感識別使用深度學習的方法大大提升了識別準確率。因此,本文提出了一個深度遷移網絡模型(Attention-based LSTM Dynamic Adversarial Adaptation Networks,LSTM-TF-at-DAAN),如圖1所示,采用深度遷移網絡進行跨庫語音情感識別。

圖1 LSTM-TF-at-DAAN模型
如圖1所示,深度遷移網絡模型——基于注意力機制的長短時動態對抗適配網絡(LSTM-TF-at-DAAN)由兩部分組成:一部分是遷移在源域上訓練好的深度網絡的部分層,另一部分是動態對抗適配網絡部分。關于此模型的詳細描述如下。
Xie等人[4]改進了門控循環神經網絡——長短期記憶(Long Short Time Memory,LSTM),將LSTM中的遺忘門(forget-gate)改為注意門(attention-gate),改后的LSTM記為LSTM-at。其中,遺忘門的輸出計算公式為:

式中,ft是遺忘門當前時刻的輸出,Wf是遺忘門的權重參數,×表示矩陣乘法,Ct-1是上一時刻記憶細胞的輸出,ht-1是上一時刻隱藏狀態的輸出,xt是當前時刻的輸入,bf是遺忘門的偏差,σ是sigmoid激活函數。
門的輸出計算為:

式中,ft′是注意門當前時刻的輸出,Vf是注意門的權重,tanh是激活函數,Wf是傳遞過來的上一時刻記憶細胞Ct-1的權重。
LSTM-TF-at網絡的另一個創新之處是在全連接層之前加入注意力機制。在時間維和特征維進行注意,其中注意時間維(改為中文表述)為:

sT為注意時間維的輸出權重,softmax是激活函數,omax_time是LSTM最后時刻的輸出,oall_time表示LSTM每一時刻的輸出,wt表示oall_time權重參數,H表示轉置,outputT是注意時間維的輸出。注意特征維為:

式中,sF是注意特征維的輸出權重,wF是oall_time的權重,vF是sF的權重,∑表示求和運算,·表示采用hadamard積計算。
動態對抗適配網絡(Dynamic Adversarial Adaptation Networks,DAAN)是支撐整個模型的框架,將前面訓練好的LSTM-TF-at網絡的前3層遷移到LSTMTF-at-DAAN模型中,作為模型的特征提取部分,與后面的動態對抗適配網絡(DAAN)相結合,進行LSTM-TF-at-DAAN模型的訓練和最終的測試。
Yu C等人[18]使用DAAN模型進行圖像識別,在特征提取部分使用的ResNET模型,并導入已訓練好的ResNET網絡中的參數,后接兩個全連接層,作為分類器的輸出。其中,分類器的損失Ly為:

式中,xi是源域的原始特征,Gf表示特征提取器,Gy表示分類器,log表示使用logsoftmax計算損失,Pxi→c是源域中的數據屬于某類的概率,C是源域的類別標簽,Ds表示源域,ns是源域數據量。
另外,DAAN模型比起一般的深度學習網絡多了一個判別器,使用此判別器進行源域和目標域的適配。判別器的損失分為邊緣分布損失Lg為:

式中,nt是目標域數據量;Dt表示目標域;Ld是源域和目標域中對應的域適應損失;di是偽標簽,假設源域是0,目標域是1。和條件分布損失Ll為:

將分類器和判別器的損失和作為DAAN模型的總損失L(θf,θy,θd):

式中,θf、θy、θd分別為特征提取器、分類器、判別器中的可訓練參數,λ是平衡參數。
基于注意力機制的長短時動態對抗適配網絡(LSTM-TF-at-DAAN)將前人提出的基于注意力機制的長短時記憶(LSTM-TF-at)網絡和動態對抗適配網絡(DAAN)進行結合,應用于跨庫語音情感識別。
實驗所使用的數據庫描述如表1所示。兩數據庫中只有5類情感一致,所以從兩數據庫中選擇相同的5種情感(生氣、厭惡、害怕、快樂、悲傷)進行跨庫識別。又因為深度學習時需要的訓練數據較多,而EMO-DB的數據量較少,所以實驗只進行eNTERFACE對EMO-DB的跨庫識別,而未進行反向識別。
實驗使用openSMILE[19]中的特征集The INTER SPEECH 2013 ComParE feature set[20]提取語音特征。提取其中的部分低階語音特征,見表2,共92維,使每一條語音都變成time×92維的,并將其保存為.csv文件。
將源域的數據放入LSTM-TF-at網絡模型中進行訓練,為后續將LSTM-TF-at模型的部分層遷移到DAAN模型中做準備。
eNTERFACE在LSTM-TF-at網絡訓練中最后的正確率達到92.8%。保存訓練好的模型參數,用于進行下一步DAAN模型的訓練。
將訓練好的LSTM-TF-at的模型的前3層(LSTM-at(2),注意時間維(1),注意特征維(1))放入DAAN,將訓練好的模型參數一同導入并固定此3層。然后,隨機初始化DAAN模型的網絡參數進行訓練。LSTM-TF-at-DAAN模型參數設置見表3。

表2 低階語音特征

表3 LSTM-TF-at-DAAN模型參數
最后,分類識別時如果目標域識別出的類別標簽少一類別,將目標域中識別為最多的一類進行二次標定,重新給定偽隨機標簽進行二分類。將此部分數據重新劃分為訓練集和測試集,按7:3的比例進行劃分,使用SVC[21]進行分類,重復分割數據集進行多次測試,并保留最好的結果。實驗流程如圖2所示。
將eNTERFACE作為源域、EMO-DB作為目標域,LSTM-TF-at-DAAN模型的測試結果和已發表的一般遷移學習[14-16]的測試結果進行比較,結果見表4。

圖2 實驗流程

表4 平均識別率比較
通過在eNTERFACE和EMO-DB語料庫上的識別率對比發現,在對類別不平衡的小樣本語音庫EMO-DB的識別中,LSTM-TF-at-DAAN模型較現有的基于一般遷移學習方法的跨庫識別,平均識別率提升了5.37%。
為了解決跨庫語音識別的識別率低的問題,本文提出了基于LSTM-TF-at-DAAN模型進行跨庫語音情感識別的方法,通過與已有的遷移學習方法的識別率進行對比,證明了此模型的有效性。本文的實驗僅在兩個語音庫上進行,為近一步驗證模型的有效性,下一步將使用更多的數據庫進行訓練和測試,以提升模型的性能。