404 Not Found

nginx 404 Not Found

404 Not Found

nginx

多模態(tài)在情感識別中的研究與應(yīng)用

2024-02-25 14:11:56文培煜聶國豪王興梅吳沛然

應(yīng)用科技 2024年1期

關(guān)鍵詞：精確度模態(tài)特征

文培煜，聶國豪，王興梅,2，吳沛然

1. 哈爾濱工程大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，黑龍江哈爾濱 150001

2. 哈爾濱工程大學(xué) 水聲技術(shù)全國重點(diǎn)實(shí)驗(yàn)室，黑龍江哈爾濱 150001

情感識別技術(shù)的研究開始于20 世紀(jì)80 年代，但直到近年來才得到廣泛關(guān)注和應(yīng)用。情感識別技術(shù)對于了解社會輿情、預(yù)測用戶需求、改善服務(wù)質(zhì)量等方面具有重要意義。目前，情感識別已經(jīng)應(yīng)用到社交網(wǎng)絡(luò)、輿情分析等領(lǐng)域中，并取得了顯著的成果。例如，在輿情分析方面，情感識別技術(shù)可以幫助政府和媒體準(zhǔn)確了解公眾對某一事件或政策的態(tài)度和情緒，為輿論引導(dǎo)和政策制定提供參考。

情感識別存在不同粒度級別，包括篇章、詞、句子。本文著重于句子級別的情感識別。張悅[1]基于時延神經(jīng)網(wǎng)絡(luò)和雙向編碼器表示提出ECAPA-TDNN-LSTM(emphasized-channel-attention,propagation and aggregation in TDNN，LSTM)，并將其應(yīng)用于語音情感識別；鄭艷等[2]提出了一種結(jié)合一維卷積以及門控循環(huán)單元模型(convolution gated recurrent unit, CGRU)，緩解了模型過擬合問題；Wang 等[3]提出了一種斷開的遞歸神經(jīng)網(wǎng)絡(luò)(recursive neural network，RNN)，將信息流限制在固定的步長；Lin 等[4]在句子建模過程中運(yùn)用了自注意機(jī)制；Wang 等[5]采用了基于膠囊網(wǎng)絡(luò)的方法，利用一個積極和一個消極的膠囊來捕捉相應(yīng)的情感特征，許多外部資源，包括詞性標(biāo)注工具、情感詞典、句法等，通常可以為情感分類提供補(bǔ)充信息。由于情感詞匯包含情感詞的一般和準(zhǔn)確的情感得分，Teng 等[6]將它們與上下文敏感權(quán)重相結(jié)合，以確定最終的情感得分。與此不同的是，Tay 等[7]將情感詞匯作為詞級先驗(yàn)，利用對積極詞匯和消極詞匯的注意機(jī)制來改進(jìn)情感特征提取；Socher 等[8]在解析樹上應(yīng)用遞歸自編碼器和遞歸神經(jīng)張量網(wǎng)絡(luò)；Tai 等[9]和Zhu 等[10]用樹形拓?fù)鋵鹃L短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)進(jìn)行了擴(kuò)展。

然而，越來越多的網(wǎng)絡(luò)網(wǎng)站允許用戶上傳視頻和圖片來表達(dá)自己，這使得只關(guān)注文本的方法是不夠的。因此，人們提出和進(jìn)行了大量的研究工作來理解多模態(tài)數(shù)據(jù)中的情感。這些工作不僅為使用多模態(tài)數(shù)據(jù)可以獲得更好的性能提供了證據(jù)，而且還探索了如何有效地利用多模態(tài)數(shù)據(jù)，這仍然是多模態(tài)情感分析中需要解決的關(guān)鍵問題。

如何有效地融合多模態(tài)特征以充分利用多模態(tài)數(shù)據(jù)是目前研究的熱點(diǎn)。Chen 等[11]提出了帶時間注意的門控多模態(tài)嵌入長短期記憶網(wǎng)絡(luò)(gated multimodal embedded long and short-term memory networks with temporal attention, GMELSTM(A))，解決了話語級特征的融合會使詞級特征中包含的大量局部信息丟失這個問題。GMELSTM(A)采用門機(jī)制對多模態(tài)特征進(jìn)行細(xì)化，并在詞級上進(jìn)行融合。Zadeh 等[12]設(shè)計(jì)了記憶融合網(wǎng)絡(luò)(memory fusion network, MFN），該網(wǎng)絡(luò)捕獲了跨越不同模式和時間的相互作用。范習(xí)健等[13]提出一種融合聽覺模態(tài)和視覺模態(tài)信息的兩模態(tài)情感識別方法。 Xu 等[14]提出了包含2 個交互記憶網(wǎng)絡(luò)的多交互記憶網(wǎng)絡(luò)(multi-interaction memory network containing 2 interaction memory networks, MIMN)來監(jiān)督給定目標(biāo)的文本和視覺信息。這些工作都表明有效地融合圖像信息可以幫助模型獲得更好的性能。林子杰等[15]為了通過輔助任務(wù)學(xué)習(xí)更多情感傾向的視頻和語音表征，提高多模態(tài)融合的效果，提出了一種基于多任務(wù)學(xué)習(xí)的多模態(tài)情感識別方法。

上述方法存在計(jì)算量較大、僅限于時序數(shù)據(jù)的問題以及沒有考慮使用更多的模態(tài)數(shù)據(jù)，為了解決以上問題且同時利用文本、視頻、音頻3 種模態(tài)解決噪聲干擾，提升情感識別的精確度與魯棒性，本文提出一種基于模態(tài)融合的情感識別方法，融合文本、視頻、音頻3 種模態(tài)數(shù)據(jù)并挖掘其中的互補(bǔ)信息，然后利用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)以及注意力機(jī)制捕捉融合特征的上下文信息得到豐富的新的特征表示，解決單模態(tài)情感識別信息不全面、容易受噪聲干擾等問題，從而提高情感識別的精確度。

1 基于模態(tài)融合的情感識別網(wǎng)絡(luò)模型

本文提出了基于模態(tài)融合的情感識別網(wǎng)絡(luò)，其網(wǎng)絡(luò)結(jié)構(gòu)分為特征提取模塊、特征融合模塊、特征增強(qiáng)模塊和下游任務(wù)模塊4 個部分。特征提取模塊用于提取模態(tài)特征；特征融合模塊可以得到多模態(tài)融合特征；隨后，搭建了特征增強(qiáng)模塊獲得信息更加豐富的新的特征表示；最后，搭建了下游任務(wù)模塊，接受新的特征表示并輸出情感分類結(jié)果。

基于模態(tài)融合的情感識別網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

圖1 基于模態(tài)融合的情感識別網(wǎng)絡(luò)結(jié)構(gòu)

1.1 特征提取模塊

特征提取模塊分為3 個部分，分別是提取文本、視頻、音頻3 個不同模態(tài)的單模態(tài)特征。提取特征時，分別將單一模態(tài)數(shù)據(jù)輸入模型進(jìn)行提取。因?yàn)槲谋尽⒁纛l與視頻均是連續(xù)不斷的序列模態(tài)，所以本實(shí)驗(yàn)中采取的是雙向門控網(wǎng)絡(luò)(bidirectional gated recurrent unit, BiGRU)來分別提取單模態(tài)特征。BiGRU 和LSTM 或雙向長短期記憶網(wǎng)絡(luò)(bi-directiona long short-term memory, BiLSTM)是常見的深度學(xué)習(xí)模型。BiGRU 和LSTM/BiLSTM在情感識別方面的共同之處是它們能夠處理序列數(shù)據(jù)并捕捉上下文信息。它們具備記憶能力，能夠在輸入序列中保留并利用先前的信息。LSTM 是一種經(jīng)典的循環(huán)神經(jīng)網(wǎng)絡(luò)，通過遺忘門、輸入門和輸出門的機(jī)制來控制信息的傳播和遺忘，從而更好地處理長期依賴關(guān)系。在情感識別任務(wù)中，LSTM 能夠捕捉文本中的上下文信息，有助于對情感進(jìn)行分類。BiLSTM 是LSTM 的變種，它通過在模型中引入反向傳播來獲取更全面的上下文信息。BiLSTM 能夠同時利用過去和未來的信息，對文本語境進(jìn)行更好的建模。BiGRU 是另一種循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，與BiLSTM類似，能夠在模型中同時利用過去和未來的信息。與LSTM/BiLSTM 相比，BiGRU 具有更簡化的門控機(jī)制，使其計(jì)算效率更高，BiGRU 通常能夠提供更全面的上下文信息，有助于提高情感識別的性能。

由于文本、音頻與視頻均可看作是序列模態(tài)，所以模型主體仍采用BiGRU 網(wǎng)絡(luò)。BiGRU 是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)。具體來說，BiGRU 解決了傳統(tǒng)RNN 的梯度消失問題，同時對遠(yuǎn)程依賴關(guān)系進(jìn)行建模。目前的研究表明，在分類過程中使用這種網(wǎng)絡(luò)來整合上下文信息是有好處的。BiGRU 的優(yōu)點(diǎn)在于其具有較強(qiáng)的建模能力，能夠捕捉到長距離依賴關(guān)系，同時也比傳統(tǒng)的RNN 模型有更快的訓(xùn)練速度和更好的魯棒性。BiGRU 是由2 個方向不同的門控循環(huán)單元(gated recurrent unit, GRU)層組成的神經(jīng)網(wǎng)絡(luò)，其中一個從前向后讀取輸入序列，另一個從后向前讀取輸入序列。每個GRU 層包含了1 個重置門、1 個更新門和1 個隱藏狀態(tài)。重置門為網(wǎng)絡(luò)提供了從歷史信息中遺忘不重要信息的能力，而更新門則提供了從新信息中選擇需要保留的信息的能力。BiGRU 將正向和反向的輸出拼接在一起，形成最終的輸出向量表示，該表示捕獲了整個序列的上下文信息。BiGRU 中的每個時間步可以用如下公式計(jì)算:

前向GRU 單元：

后向GRU 單元計(jì)算公式與前向一致。

式中： σ為sigmoid函數(shù)，tanh為雙曲正切激活函數(shù)， ⊙為對應(yīng)位置相乘，xt為輸入序列的第t個時間步的向量表示，W和b為輸入的權(quán)重矩陣和偏置向量，U為隱藏狀態(tài)的權(quán)重矩陣。在BiGRU 中，前向和后向GRU 單元的參數(shù)是獨(dú)立的，所以它們各自擁有一組W、U和b。

進(jìn)行單模態(tài)特征提取時，首先分別將文本、音頻、視頻3 種單模態(tài)可訓(xùn)練數(shù)據(jù)輸入BiGRU 網(wǎng)絡(luò)；然后將BiGRU 網(wǎng)絡(luò)最終輸出的向量表示經(jīng)過一個大小為100 的全連接層；之后經(jīng)過tanh激活層，再乘以一個掩碼矩陣；最后將所得結(jié)果以一定概率進(jìn)行選擇性丟棄(dropout)，得到的結(jié)果作為文本、音頻、視頻的單模態(tài)特征。

經(jīng)過特征提取的3 種單模態(tài)特征的維度全部被調(diào)整一致。

1.2 特征融合模塊

特征融合模塊的作用是將特征提取模塊所提取的3 種單模態(tài)特征進(jìn)行多模態(tài)融合操作，將3 種單一模態(tài)特征轉(zhuǎn)換為一種比任何單一模態(tài)具有更加豐富信息的多模態(tài)融合特征。文中為了體現(xiàn)注意力融合的效果，采取2 種融合方法，分別是直接拼接與基于注意力的多模態(tài)融合。

對于輸入的3 種模態(tài)的特征數(shù)據(jù)，若采用直接拼接的融合方式，則是直接將3 種模態(tài)特征數(shù)據(jù)按列拼接在一起；若采用基于注意力的多模態(tài)融合方式，則是利用注意力機(jī)制進(jìn)行融合。首先將3 種模態(tài)按列拼接在一起，然后循環(huán)處理每一句話語的3 種模態(tài)特征（此時每句話語的3 種模態(tài)特征已被拼接在一起），將每句話語的拼接特征經(jīng)過一個大小為100 的全連接層，然后經(jīng)過一個tanh層激活，將激活值與一個服從標(biāo)準(zhǔn)差為0.01、正態(tài)分布的維度為（100，1）的矩陣進(jìn)行矩陣相乘，將相乘結(jié)果經(jīng)過softmax層得到注意力權(quán)重向量，將注意力權(quán)重向量與拼接特征進(jìn)行矩陣相乘得到的就是每句話語的多模態(tài)融合特征。

注意權(quán)重向量 α和融合后的多模態(tài)特征向量F的計(jì)算方法如下：

式中：B為3 種單模態(tài)特征按列拼接在一起得到的多模態(tài)特征，WF∈Rd×d為全連接層的權(quán)重矩陣,ωF∈Rd為服從正態(tài)分布的矩陣，α ∈R3，F(xiàn)∈Rd。

1.3 特征增強(qiáng)模塊

所有周圍的話語在目標(biāo)話語的情感分類中并不是具有相同相關(guān)性的。為了放大上下文豐富話語的貢獻(xiàn)，本模塊使用了注意力機(jī)制與雙向循環(huán)神經(jīng)網(wǎng)絡(luò)BiGRU。

本文將M個話語級特征序列（由上一模塊得到的融合特征F或單模態(tài)特征）輸入BiGRU。設(shè)x∈Rd×M輸入到BiGRU 網(wǎng)絡(luò)，其中M為視頻中的話語數(shù)。矩陣x可以表示為x=[x1,x2,···,xM]，其中xt∈Rd，t∈[1,M]，xt是每條話語的多模態(tài)融合特征。

該BiGRU 網(wǎng)絡(luò)的輸出表示為H∈R2d×M，即根據(jù)多模態(tài)融合特征得到語境感知的話語表示特征H，其中H=[h1,h2,···,hM]，ht∈R2d，ht是每條話語的融合特征經(jīng)過BiGRU 網(wǎng)絡(luò)得到的新的特征表示。

圖2 中第2、5 行的圓圈表示經(jīng)由BiGRU 網(wǎng)絡(luò)得到的話語表示特征ht，第4 行的圓圈表示注意權(quán)重向量 αt，第3 行的圓圈表示加權(quán)隱藏表示rt。rt是由話語表示特征H與注意權(quán)重向量 αt進(jìn)行對應(yīng)位置相乘操作所得到的，其目的是將計(jì)算得到的注意力權(quán)重賦予話語表示ht，得到的rt是結(jié)合了經(jīng)過注意力機(jī)制放大后的上下文信息的表示特征，上下文的相關(guān)性在rt上得到充分體現(xiàn)。為了不損失原本話語表示特征ht中包含的話語特征信息，將ht與rt分別乘以權(quán)重矩陣后進(jìn)行矩陣相加得到網(wǎng)絡(luò)最終的輸出h?t，h?t包含了原本話語的特征信息，同時又綜合了整個視頻中所有M條話語的上下文信息。具體網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。

圖2 基于注意力的雙向網(wǎng)絡(luò)結(jié)構(gòu)

設(shè)At表示以ht表示的話語的注意力網(wǎng)絡(luò)。At的注意力機(jī)制產(chǎn)生一個注意權(quán)重向量 αt和一個加權(quán)隱藏表示rt，其表達(dá)式如下：

式中：Pt∈R2d×M，αt∈RM,rt∈R2d。其中，Wh∈RM×2d×2d、ω ∈RM×2d是權(quán)重矩陣，Wh[t]和ω[t]被第t個注意力模型使用，t∈[1,M]。

最后，將該話語的BiGRU 表示ht修改為

式中：∈R2d和Wp，Wx∈RM×2d×2d為訓(xùn)練時需要學(xué)習(xí)的權(quán)重矩陣；t∈[1,M]。

1.4 下游任務(wù)模塊

下游任務(wù)模塊接收特征增強(qiáng)模塊中的每個輸出，進(jìn)行情感分類。分類網(wǎng)絡(luò)主體由3 個大小為200 的全連接層和1 個大小與數(shù)據(jù)集情感種類數(shù)相同的全連接層構(gòu)成，最后連接1 個Softmax層進(jìn)行分類，輸出預(yù)測結(jié)果。

1.5 損失函數(shù)

本文損失函數(shù)設(shè)計(jì)分為2 步。Softmax Cross Entropy 是一種常用的損失函數(shù)，用于多類別分類任務(wù)，Softmax Cross Entropy 損失函數(shù)適用于具有多個類別的分類問題。它通過將模型輸出的原始分?jǐn)?shù)轉(zhuǎn)換為概率分布，并計(jì)算模型預(yù)測值與真實(shí)標(biāo)簽之間的差異，從而對分類任務(wù)進(jìn)行優(yōu)化和訓(xùn)練。它對于模型參數(shù)的優(yōu)化提供了可導(dǎo)的梯度信息，這使得可以使用基于梯度的優(yōu)化算法（例如梯度下降）來迭代地調(diào)整參數(shù)值，逐漸減小損失函數(shù)的值，從而提高模型的性能。Softmax Cross Entropy 損失函數(shù)在優(yōu)化的過程中，通過最小化不同類別的預(yù)測概率與真實(shí)標(biāo)簽之間的差異，鼓勵模型在概率輸出上更好地區(qū)分不同的類別。這幫助模型更好地學(xué)習(xí)到類別之間的邊界和特征差異，提高分類的準(zhǔn)確度。此外，在計(jì)算損失時，Softmax Cross Entropy 損失函數(shù)自動考慮了多個類別之間的關(guān)系。通過Softmax 函數(shù)將原始分?jǐn)?shù)轉(zhuǎn)換為概率分布，確保所有類別的概率之和為1。這有助于解決分類問題中的多義性和不確定性，使模型輸出更加合理和可解釋。因此本實(shí)驗(yàn)采用Softmax Cross Entropy 方法為主體，計(jì)算損失。

將網(wǎng)絡(luò)最后一個全連接層的softmax 操作單獨(dú)提取出來，可得到針對一個batch 的預(yù)測值 (而非預(yù)測概率值)的Softmax Loss 為

式中 |C|為標(biāo)簽數(shù)量。

其次，利用L2范數(shù)計(jì)算每個可訓(xùn)練參數(shù)的誤差，防止過擬合，計(jì)算公式如下：

式中：t為張量，sum為求和函數(shù)，Aoutput為結(jié)果。

總的損失函數(shù)公式為

式中： λ為超參數(shù)，M為一個batch 內(nèi)的話語總數(shù)，K為可訓(xùn)練參數(shù)（張量）的總數(shù)。可以通過調(diào)整λ來防止過擬合。

2 實(shí)驗(yàn)結(jié)果分析

2.1 情感識別實(shí)驗(yàn)設(shè)置

2.1.1 實(shí)驗(yàn)數(shù)據(jù)集

本文所用到的數(shù)據(jù)集是3 個多模態(tài)公開數(shù)據(jù)集，分別是CMU-MOSI、CMU-MOSEI、IEMOCAP。

3 個數(shù)據(jù)集劃分如表1。

表1 實(shí)驗(yàn)數(shù)據(jù)集劃分

2.1.2 實(shí)驗(yàn)性能評價指標(biāo)

本文使用了3 個評估指標(biāo)，分別是分類精確度（accuracy）、F1 得分和損失收斂速度，從這3 個方面衡量實(shí)驗(yàn)效果的指標(biāo)。由于精確度僅取決于分類結(jié)果是否與標(biāo)簽一致，因此如果樣本分布不均衡，正確率不能很好地反映分類效果以及網(wǎng)絡(luò)的性能。

在樣本不均衡的情形下，精確度過高的意義是不大的，因此精確度指標(biāo)的參考意義可能會下降，因此，本文采用平均類型為macro 的F1 分?jǐn)?shù)，這是一種用于多分類問題的性能評價指標(biāo)，它綜合了對每個類別的預(yù)測準(zhǔn)確率和召回率，計(jì)算出一個在各個類別上的平均得分且更注重各個類別之間的平衡性。

2.2 情感識別實(shí)驗(yàn)結(jié)果與分析

2.2.1 消融實(shí)驗(yàn)

本文對文本、音頻、視頻3 個不同的單模態(tài)以及不同的多個模態(tài)組合在3 個數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。首先分別在3 個數(shù)據(jù)集的測試集上對3 個不同單模態(tài)和多模態(tài)組合進(jìn)行實(shí)驗(yàn)并記錄50 輪次的精確度，本文繪制了3 個單模態(tài)和多模態(tài)組合的每次實(shí)驗(yàn)的精確度曲線圖，如圖3 所示。

圖3 CMU-MOSI 數(shù)據(jù)集上精確度曲線

圖3 中，文本模態(tài)特征的精確度最終收斂約為75%，在各種模態(tài)之間，文本模態(tài)的表現(xiàn)優(yōu)于其他2 種模態(tài)，文本加其他模態(tài)的表現(xiàn)也較為突出，因此可以認(rèn)為文本模態(tài)為主要模態(tài)，同時視頻加音頻模態(tài)的表現(xiàn)不如文本模態(tài)，可能是特征提取的方式出現(xiàn)問題，需要改進(jìn)音頻和視頻模態(tài)的特征提取方法。多模態(tài)組合的精確度均優(yōu)于3 個單一模態(tài)的精確度。其中3 種模態(tài)的組合精確度最高，精確度最終收斂約為80%。

圖4 為IEMOCAP 數(shù)據(jù)集上精確度曲線圖，多模態(tài)組合的精確度均優(yōu)于3 個單一模態(tài)的精確度。文本模態(tài)特征的精確度約62.8%，音頻模態(tài)的精確度約55%，視頻模態(tài)的精確度約36.0%，而2 種多模態(tài)組合均可達(dá)到約63%的精確度，其中3 種模態(tài)的組合精確度最終收斂約為65%。

圖4 IEMOCAP 數(shù)據(jù)集上精確度曲線

圖5 中，多模態(tài)組合的精確度均優(yōu)于3 個單一模態(tài)的精確度。文本模態(tài)特征的精確度約69.0%，音頻模態(tài)的精確度約66.9%，視頻模態(tài)的精確度約65.3%，而多模態(tài)組合平均可達(dá)到約70%的精確度，其中3 種模態(tài)的組合精確度最終收斂約為76%。

圖5 CMU-MOSEI 數(shù)據(jù)集上精確度曲線

本文還以F1 得分為判斷標(biāo)準(zhǔn)，對比每組實(shí)驗(yàn)結(jié)果，來證明在本文的情感分析任務(wù)中使用多模態(tài)的效果優(yōu)于單模態(tài)（T 為文本、A 為音頻、V 為視頻）。表2～4 為3 個數(shù)據(jù)集上的F1 得分。

表2 CMU-MOSI 上拼接融合的F1 得分 %

表3 IEMOCAP 上拼接融合的F1 得分 %

由表2～4 可知，多個模態(tài)組合的F1 得分均優(yōu)于單一模態(tài)，其中3 種模態(tài)組合的得分最高。

綜上，結(jié)合精確度與F1 得分，本文利用實(shí)驗(yàn)證明了多個模態(tài)的表現(xiàn)比單一模態(tài)表現(xiàn)更好，識別的效果更高。同時也注意到采用了3 種模態(tài)融合方法后比采用單一文本模態(tài)識別的F1 得分高了約2 個百分點(diǎn)，在此給出分析。首先，模型的訓(xùn)練數(shù)據(jù)量和質(zhì)量對于融合模態(tài)的效果影響很大。如果融合模態(tài)的數(shù)據(jù)集規(guī)模較小，或者其中某些模態(tài)的數(shù)據(jù)質(zhì)量不高，可能限制了整體的效能提升。其次，3 種模態(tài)的信息是否互補(bǔ)也是影響融合效果的關(guān)鍵因素。如果音頻、視頻和文本中的信息存在大量冗余或相似性較高，那么融合的效果可能會受到限制。此外，文本模態(tài)更易于處理和分析、更具有可解釋性、更易于獲取和標(biāo)注，可能導(dǎo)致文本模態(tài)表現(xiàn)較好，成為主導(dǎo)模態(tài)。最后，融合多種模態(tài)的模型相對于單一文本模式的模型更為復(fù)雜。對于這個任務(wù)，參數(shù)配置對于效果提升較為重要，后續(xù)繼續(xù)調(diào)整參數(shù)可能對性能有一定提升。

2.2.2 融合方法對比實(shí)驗(yàn)

由于在上面的實(shí)驗(yàn)中的多個模態(tài)的融合方式都是直接拼接，因此本文將注意力機(jī)制加入模態(tài)融合，利用注意力機(jī)制的優(yōu)勢放大3 個模態(tài)中重要的信息，獲取具有更加豐富信息的融合特征，提升識別效果。

首先分別在3 個數(shù)據(jù)集的測試集上對3 個模態(tài)的不同融合方式進(jìn)行實(shí)驗(yàn)并記錄50 輪次的精確度，本文繪制了3 個模態(tài)2 種融合方式的每次實(shí)驗(yàn)的精確度曲線圖，如圖6～8 所示。

圖6 CMU-MOSI 數(shù)據(jù)集上拼接與注意力融合精確度曲線

圖7 IEMOCAP 數(shù)據(jù)集上拼接與注意力融合精確度曲線

圖8 CMU-MOSEI 數(shù)據(jù)集上拼接與注意力融合精確度曲線

由圖6～8 可以看出，將注意力機(jī)制應(yīng)用于融合，在一定程度上可以提高識別精確度，并且能夠縮短收斂時間。計(jì)算二者的F1 得分指標(biāo)，比較識別性能。表5～7 為模型在3 個數(shù)據(jù)集上的F1 得分。

表5 CMU-MOSI 上的F1 得分%

表6 IEMOCAP 上的F1 得分%

表7 CMU-MOSEI 上的F1 得分%

如表5～7 所示，通過計(jì)算得到的F1 得分也可以看出基于注意力融合相較拼接融合而言F1 得分指標(biāo)在3 個數(shù)據(jù)集上分別提升了0.9%、0.4%和0.8%，即情感識別效果優(yōu)于拼接融合特征。

本文繼續(xù)對2 種融合方式進(jìn)行實(shí)驗(yàn)，以loss 收斂速度作為評價指標(biāo)。當(dāng)訓(xùn)練模型的損失曲線收斂的越快，代表模型學(xué)習(xí)到了數(shù)據(jù)中更多的信息，從而在相同數(shù)量的迭代次數(shù)下，使模型的訓(xùn)練誤差更小。這也意味著模型可以更好地泛化到未見過的數(shù)據(jù)上，因?yàn)槟Ｐ鸵呀?jīng)學(xué)會了數(shù)據(jù)中的共性特征，而不是只學(xué)習(xí)了數(shù)據(jù)集本身的特定屬性。實(shí)驗(yàn)繪制了在拼接融合和基于注意力融合在訓(xùn)練學(xué)習(xí)時的loss 損失函數(shù)的前50 輪的損失函數(shù)曲線。圖9～11 為訓(xùn)練損失曲線。

圖9 CMU-MOSI 數(shù)據(jù)集上訓(xùn)練損失曲線

圖10 IEMOCAP 數(shù)據(jù)集上訓(xùn)練損失曲線

圖11 CMU-MOSEI 數(shù)據(jù)集上訓(xùn)練損失曲線

由圖9～11 可見，訓(xùn)練學(xué)習(xí)時本文所使用的方法都可以使模型收斂，然而，基于注意力融合的特征進(jìn)行訓(xùn)練的損失更小，且其收斂點(diǎn)出現(xiàn)的更早，說明對于同一個模型而言，基于注意力融合特征比直接拼接的特征有著更快的收斂速度，效果更好。

2.2.3 模型對比實(shí)驗(yàn)

本文還在CMU-MOSI 數(shù)據(jù)集上與支持向量機(jī)(support vector machines, SVM)、LSTM 進(jìn)行了對比實(shí)驗(yàn)。F1 得分結(jié)果如表8 所示。

LSTM 在對比實(shí)驗(yàn)中的表現(xiàn)均優(yōu)于SVM 的表現(xiàn)，這是因?yàn)镾VM 在對話語進(jìn)行分類時無法掌握話語的上下文信息，無法感知話語存在的語境信息。從表8 可以看出，基于注意力的BiGRU 在單模態(tài)與拼接模態(tài)的實(shí)驗(yàn)中總體優(yōu)于LSTM。這再次證實(shí)，盡管2 個網(wǎng)絡(luò)都可以訪問上下文信息，但基于注意力的BiGRU 較LSTM 能力更強(qiáng)，能夠捕獲上下文中的關(guān)鍵信息。表8 中還證明了不同融合方式對結(jié)果也存在影響，在同一模型下，基于注意力融合的表現(xiàn)強(qiáng)于拼接融合，可以得到更有效的融合特征。

表8 的數(shù)據(jù)還體現(xiàn)了多模態(tài)的表現(xiàn)是優(yōu)于單一模態(tài)的，不同模態(tài)通過互補(bǔ)信息，能夠得到效果更好的融合特征。

3 結(jié)論

本文對多模態(tài)在情感識別中的應(yīng)用進(jìn)行了研究，提出了一個基于模態(tài)融合的情感識別網(wǎng)絡(luò)模型，通過多模態(tài)融合構(gòu)建融合特征，從而獲得更好的分類效果。對模型進(jìn)行實(shí)驗(yàn)并得出結(jié)論如下：

1）將多模態(tài)學(xué)習(xí)應(yīng)用在情感識別鄰域，多模態(tài)效果均好于單一模態(tài)，其中同時利用3 個模態(tài)的效果最優(yōu)。

2）本文提出了一種基于模態(tài)融合的情感識別網(wǎng)絡(luò)框架。特征融合模塊中基于注意力融合能夠得到表現(xiàn)良好的多模態(tài)融合特征。在特征增強(qiáng)模塊中，將注意力機(jī)制與雙向循環(huán)網(wǎng)絡(luò)BiGRU 結(jié)合，充分地捕捉多模態(tài)融合特征的上下文信息，得到信息更加豐富且全面的新表示。

3）本文提出的網(wǎng)絡(luò)模型的F1 得分均高于SVM 和LSTM，達(dá)到了81.0%。

本文提出的基于模態(tài)融合的情感識別網(wǎng)絡(luò)在識別性能上有較好的表現(xiàn)，有一定的應(yīng)用價值。

404 Not Found

nginx