基于自身注意力時空特征的語音情感識別算法

2022-01-21 15:20:12徐華南周曉彥李大鵬

聲學技術 2021年6期

徐華南，周曉彥，姜萬，李大鵬

（南京信息工程大學電子與信息工程學院，江蘇南京 210044）

0 引言

語音作為情感傳達的載體之一，包含說話者豐富的情感信息，語音情感識別的目的是讓計算機能剖析說話者語音中所帶情感的變化，對人類情感感知的過程進行模擬，從而使人機交互更加人性化[1]。

目前深度神經網絡（Deep Neural Networks,DNN）、卷積神經網絡（Convolutional Neural Networks,CNN）、循環神經網絡（Recurrent Neural Network,RNN）能自動學習有效表征說話者情緒的高級情感特征[2-5]，CNN網絡特別擅長捕捉空間領域的高級特征，Neumann等[2]從空間角度，采用基于多視圖的CNN模型學習音頻信號的特征，在（Interactive Emotional Dyadic Motion Capture Database,IEMOCAP）數據庫上識別率達到62.11%，Li等[3]提出一種基于注意力池化的CNN網絡，使用兩種不同卷積核的CNN網絡提取空間特征并融合；RNN網絡能考慮到語音幀之間的長時相關性，增強長時建模的能力，Ho等[4]提出一種多模態多組注意力機制和RNN網絡的語音情感識別方法，融合音頻-文本信息，利用RNN網絡捕捉上下文信息。然而文獻[2-4]只考慮了空間特征學習或時間依賴性構造，并沒有對關鍵的時空依賴關系進行建模。而語音信號是時序信號，本身就存在多樣性，且情感相關信號不僅包含某一時刻的空間成分，還包含時間片段之間的上下文相關性，僅僅使用CNN或者RNN網絡無法快速學習語音情感特征，為了更好地識別情感，必須對關鍵的時空依賴關系進行建模。于是Zhao等[5]利用全卷積網絡（Fully Convolutional Network,FCN）和長短期記憶網絡（Long Short-Term Memory,LSTM）提取時空特征表征，在IEMOCAP數據庫上的非加權平均識別率提高了4.2個百分點，但是無法消除說話者差異所帶來的影響，且在時間特征提取模塊，訓練單一的LSTM時會出現不穩定和梯度消失等現象。本文于是借鑒文獻[6-7]將語音信號轉變為語譜圖，計算對數梅爾特征和一階差分、二階差分特征的特征提取方法。結合文獻[5]和文獻[8]，在特征提取模塊，提取對數梅爾特征和一階差分、二階差分特征合成3-D log-Mel集來降低說話者差異所帶來的影響；在網絡部署模塊，從時間和空間兩個角度進行特征提取和融合的方法，利用對稱型雙線性卷積神經網絡（Bilinear Convolutional Neural Network,BCNN）在空間角度提取空間特征，CNN_BLSTM（Bi-directional Long Short-Term Memory,BLSTM）模型從時間角度提取相關時間序列信息。其中對稱型BCNN模型具有兩個相同的CNN分流，與CNN_BLSTM模型共享CNN網絡，降低了計算復雜度且減少了內存占用。

然而，對于上述提取到的時空特征，人類可以自動從大量時空特征中快速篩選情緒突出部分，忽略無關情緒，而CNN和LSTM卻不能考慮人類機制如何關注情感部分。自從注意力機制提出后，Peng等[9]提出一種結合三維卷積和基于注意力的滑動遞歸神經網絡（Attention-based Sliding Recurrent Neural Networks,ASRNNs）進行情緒識別，在IEMOCAP和MSP-IMPROV數據庫識別率分別為62.6%和55.7%，Li等[10]提取低級描述符（Low-Level descriptors，LLDs）聲學特征，利用擴張型殘差網絡（Dilated Residual Network,DRN）和多組注意力機制去捕獲特征信息，識別率提高了11.7～18.6個百分點。于是本文利用多組注意力對上述提取到的時空特征在多個子空間內部自動捕獲判別性強的情緒特征，從而增強突出信息的導入能力。

1 基于自身注意力時空特征框架

1.1 預處理

為了降低說話者年齡、性別以及說話者所處的文化和環境背景的影響，并考慮到靜態特征只描述了基于幀級語音的能譜包絡，但信號可能具有一定的動態信息。于是本文提取語音信號的log-Mel特征、一階差分和二階差分等動態特征，合并成 3D log-Mel特征集，同時一階差分和二階差分特性能夠反映情感的變化過程，保留有效的情感信息的同時減少情感無關的因素的影響。預處理過程圖2所示，具體操作如下：

（1）利用高通濾波器對語音信號預加重處理，并分幀、加窗，其中幀長為25 ms，幀移為10 ms；

（2）對加窗后的信號進行短時傅里葉變換（Short-Time Fourier Transform,STFT）得到各幀頻譜；

（3）對頻譜取模平方得到功率譜，將時域信號轉換為頻域上的能量分布；

圖1 基于自身注意力時空特征的語音情感識別框架Fig.1 Speech emotion recognition framework based on self-attention spatio-temporal features

圖2 3D log-Mel特征集提取過程Fig.2 Extraction process of 3D log-Mel feature set

1.2 BCNN和LSTM時空特征融合

1.2.1 BCNN模型提取空間特征

CNN結構一般采用平均池化或最大池化等一階池化方法，這些池化方法假設樣本服從單峰分布，限制了CNN的表達能力。假設利用二階池化（Second-order Pooling）對情感特征矩陣進行池化改進，將3D log-Mel特征集經過卷積操作得到的特征圖中每個情感特征向量與自身的轉置求外積來豐富特征信息。給定語音M0和包含L個局部情感特征的特征組，則二階平均池化表達式為[11]

其中，xi為局部特征向量，xiT是局部特征向量xi的轉置。二階池化能直接計算兩兩特征維度之間的相關性，更易實現與計算。

BCNN網絡優勢在于經過卷積操作后拋棄原始的平均、求和或最大池化，對來自預處理階段提取的3D log-Mel特征集，利用雙線性池化將卷積后得到的特征在某一特定位置進行矩陣外積，得到空間特征向量，然后對不同空間位置的特征向量平均匯合得到雙線性特征[12]。本文利用對稱的BCNN模型，即雙通道的CNN結構相同。故BCNN模型的函數表達式為[13]

其中，FA為雙線性卷積神經網絡中兩個CNN分支的特征提取函數，p是池化函數，q是分類函數。

由上式（4）、（6）可知：兩者是等價的，則對稱的雙線性池化也可被稱為二階池化。

這里，對稱型BCNN模型包括兩個相同CNN分支，包括四層卷積層、兩層池化層。卷積層中第一層卷積層有128個輸出通道，其他卷積層的輸出通道為256，卷積核大小為5×3，池化層大小為1×2，經過多層卷積之后，又經過雙線性池化，將CNN分支的輸出進行矩陣外積得到雙線性特征，大小為256×256。經過雙線性池化之后得到空間特征，將與下面討論的LSTM網絡提取的時間特征融合得到時空特征，取代原始的雙線性池化后輸入到分類函數進行分類，同時CNN分支與LSTM連接，避免訓練單一的LSTM時會出現不穩定和梯度消失等現象。

1.2.2 LSTM模型提取時間特征

輸入門主要對當前網絡的輸入xt有多少信息能保存到當前時刻的單元狀態Ct，輸入門的計算公式為

最后為輸出門，主要用來控制當前的單元狀態Ct有多少信息能保存輸出：

其中，xt為LSTM網絡的輸入，來自BCNN網絡分支CNN的輸出，ht為LSTM細胞單元的隱藏向量，it、ft、ot、Ct分別是輸入門、忘記門、輸出門和細胞狀態，Wi、bi分別為輸入門的權重和偏置，Wf、bf分別為忘記門的權重和偏置，Wo、bo分別為輸出門的權重和偏置，σ為Sigmoid函數。

1.3 基于多組注意力判別性時空特征提取

但是自身注意力機制探究特征矩陣內部聯系，會損失兩兩特征之間有用的信息，使得情感信息的交互有限，多組（multi-head）可以產生多組注意力權重，允許模型在不同的時空位置捕獲不同時空情感子空間的信息，從而對不同位置的元素之間的相對依賴關系進行序列建模，增強了情緒突出部分導入信息的能力[15]。

（1）首先對來自融合后的時空特征進行線性變換，得到Q、K、V權重矩陣組；

（3）最后將j次的縮放點積結果進行拼接，再進行1次線性變換，得到多組注意力的結果。

2 實驗設置與分析

2.1 情感數據庫

為了驗證基于自身注意力時空特征模型的有效性，本文采用IEMOCAP英語數據庫[16]和EMO-DB德語數據庫[17]。IEMOCAP數據庫由南加州大學的Sail實驗室錄制，10位專業表演者（5男、5女），數據庫包括5節（session），分別為session1、session2、session3、session4、session5，每一節包含兩位說話者（一男、一女），這里選用即興表演部分，包含中性、高興、生氣、悲傷四種情感，分別有1 099、284、289和608條語音。EMO-DB數據庫由柏林工業大學錄制，由10位專業表演者（5男、5女，標注序號分別為03、08、09、10、11、12、13、14、15、16，共10位說話者）對10句語句（5長、5短）進行7種情感（中性、生氣、害怕、高興、悲傷、厭惡、無聊）模擬得到，最后保留男性情感語句233條，女性情感語句302條，共535條。

2.2 參數設置

本文使用Tensorflow平臺部署實驗，網絡參數中，迭代次數（epoch）為500，單次訓練用的樣本數（batch_size）為40，學習率（learning_rate）10?4，權重衰減（decay_rate）為0.99，dropout為0.1，采用非加權平均召回率（Unweighted Average Recall，UAR）作為評價指標。采用“leave one subject out”協議[6-7]，將數據庫中10位表演者中的8位說話者的語音作為訓練集，一位作為驗證集，剩下最后一位作為測試集，以此類推重復10次實驗，然后將這10次實驗中識別率的平均值作為最終的預測結果。為了使實驗不具有偶然性，將每一位測試者分別重復三次求平均值作為這位測試者最后的識別率。

為了驗證基于自身注意力時空特征模型的有效性，分別進行了以下對比實驗：

（1）DCNN_DTPM[18]：提取三通道的梅爾頻譜圖作為深度卷積神經網絡（Deep Convolutional Neural Networks,DCNN）的輸入，使用預先訓練的DCNN模型去學習語音片段的高級特征表示，利用判別時間金字塔匹配（Discriminant Temporal Pyramid Matching,DTPM）策略對學習到的分段級特征進行聚類；

（2）state-of-the-art-1[19]：利用DRN網絡、LSTM網絡和注意力機制對增強語音特征的提取，并結合中心損失和softmax損失函數改善分類性能；

（3）state-of-the-art-2[10]：提取LLDs作為輸入，采用基于多組注意力的DRN網絡和LSTM網絡生成話語級表示向量，DNN網絡進行情感分類；

（4）CNN_base：提取語音的log-Mel特征，并計算其一階差分、二階差分得到三通道的梅爾頻譜圖，僅輸入到CNN網絡中進行情感分類；

（5）BCNN_base：在實驗（4）的基礎上，引入對稱型BCNN結構，將CNN的輸出進行雙線性池化，探究基于BCNN空間特征的情感識別；

（6）BCNN_BLSTM_base：在實驗（5）的基礎上，分別輸入到BCNN網絡和CNN_BLSTM網絡，探究基于時間-空間特征的情感識別；

（7）BCNN_BLSTM_attention：在實驗（6）的基礎上，加入注意力機制，探究基于注意力時空特征的語音情感識別。

2.3 實驗結果

本文選用“leave one subject out”協議，對基于自身注意力時空特征模型進行驗證，表1、2分別為在IEMOCAP和EMO-DB數據庫上每個人的識別率，圖3為在IEMOCAP和EMO-DB數據庫的混淆矩陣。表1中M表示男性（Male），F表示女性（Fmale）。

由實驗結果可知，首先，IEMOCAP數據庫的識別率為63.12%，EMO-DB數據庫的識別率為87.09%，由此可知，基于自身注意力時空特征網絡在語音情感識別系統中具有較好的識別性能。

其次，數據集的不平衡性導致每個人的測試結果相差很大，在IEMOCAP數據庫上，由表1可知，在將session1，3，4，5作為訓練集，session2中男性作驗證集，女性作測試集的實驗中，最高識別率能達到73.06%，而在將session5中男性作為測試集的實驗中，識別率只有56.94%，兩位說話者之間的識別率相差14.85%。在EMO-DB數據庫上，最好的識別率在10序號的說話者作為測試集時，為96.43%，而最低的識別率在 09序號的說話者作為測試集時，平均識別率為82.91%，相差12.92%。

表1 IEMOCAP數據庫中的每個人的識別率Table 1 Recognition rates of different speakers in IEMOCAP database

表2 EMO-DB數據庫中的每個人的識別率Table 2 Recognition rates of different speakers in EMO-DB database

圖3 IEMOCAP和EMO-DB數據庫上的混淆矩陣Fig.3 Confusion matrices of the IEMOCAP database and the EMO-DB database

最后，通過混淆矩陣可以看出，在IEMOCAP數據庫上，情感標簽為悲傷和生氣的識別率較高，分別為78.20%和74.01%。在EMO-DB數據庫上，悲傷、中性和無聊的情感識別率很高，分別為98.39%，94.94%和93.49%，其次生氣、恐懼和厭惡情感分別達到79.53%，86.96%和83.95%。而高興的情感相對其他情感較低，在IEMOCAP數據庫上，只有48.23%，其中有13.92%被誤判成生氣，19.92%被誤判成中性。在EMO-DB數據庫上，同樣也是在高興這類情感上識別率最低，只有71.83%，其中18.31%被誤判成生氣。這是因為從情緒的維度空間模型上看，在喚醒度上，生氣和高興的距離較近，而中性情感處于喚醒度/效價度空間的中心，離各種情感的距離都較近。因此會產生高興、生氣、中性情感誤判的情況。

2.4 與其他方案比較

不同方案下的語音情感識別率如表3所示。

表3 不同方案下的語音情感識別率Table 3 Speech emotion recognition rate under different schemes（%）

通過表3可知：

（1）本文提出的算法基于“leave one subject out”協議，圍繞說話者無關進行實驗，在IEMOCAP數據庫上識別率為63.12%，與state-of-the-art-2相比，識別率較低，但是state-of-the-art-2方案在十折交叉驗證協議下的實驗，是圍繞說話者相關進行討論，理論結果表明[19]，說話者相關的識別率會高于說話者無關。

（2）在“leave one subject out”協議下，與其他論文方案對比，本文提出的算法識別率有所提高。在EMO-DB數據庫上識別率為87.09%，與DCNN_DTPM方案和state-of-the-art-1方案相比，識別率分別提高了3.56個百分點和1.7個百分點，本方案在EMO-DB數據庫上識別率達到最高。

（3）不同方案對比，單獨的BCNN網絡用于語音情感識別時，在IEMOCAP和EMO-DB上識別率能分別達到53.29%和72.28%，比CNN_base的識別率分別提高了0.81個百分點和1.92個百分點，說明BCNN提取的空間特征能促進情感分類；加上BLSTM網絡，識別率分別達到58.46%和79.21%，說明BLSTM能促進網絡提取上下文的依賴特征，融合時空特征能促進情感分類；在BCNN_BLSTM_base的基礎上后連注意力機制，識別率分別達到62.14%和82.95%，說明在融合后的時空特征后加入注意力機制能更好地提取到判別性強的特征表示。最后本文提出的基于自身注意力時空特征的語音情感識別網絡，識別率在IEMOCAP和EMO-DB庫上分別達到了63.12%和87.09%，較BCNN_base分別提高了9.83和14.28個百分點，較BCNN_BLSTM_base分別提高了4.66和7.88個百分點，較BCNN_BLSTM_attention分別提高了0.98和4.14個百分點，通過比較說明，自身注意力機制能提高語音情感識別的分類性能。

3 結論

本文提出基于自身注意力時空特征的語音情感識別框架，提取3D log-Mel特征集降低說話者性別、年齡和所處環境的影響，從時間和空間兩個角度分析情感特征，將BCNN模型的空間信息和LSTM模型的時間信息融合，利用多組注意力提取判別性強的特征表示。本文將分類結果分別與在空間、時間特征、注意力機制上的分類結果進行了對比。結果表明，基于自身注意力時空特征模型提高了正確率，優于其他模型結構。在今后的研究探索中，可以適當增加神經網絡的深度、訓練的迭代次數來獲得更好的分類識別效果。