程子晨,李 彥,葛江煒,糾夢(mèng)菲,張敬偉
1.天津師范大學(xué) 電子與通信工程學(xué)院,天津 300387
2.天津市無(wú)線移動(dòng)通信與無(wú)線電能傳輸重點(diǎn)實(shí)驗(yàn)室,天津 300387
隨著社交媒體的發(fā)展,人們更加傾向于在各種社交媒體上通過(guò)視頻的形式來(lái)發(fā)表自己的意見(jiàn)與想法,這些視頻包含了大量的個(gè)人情感信息。通常情況下,一條視頻會(huì)包含三種模態(tài)的信息:文本、聽(tīng)覺(jué)、視覺(jué),因此將包含兩種或兩種以上模態(tài)的信息流稱為多模態(tài)數(shù)據(jù)。如何利用多模態(tài)數(shù)據(jù)來(lái)執(zhí)行下游任務(wù),建立新一代人機(jī)交互,已經(jīng)成為人工智能領(lǐng)域的研究熱點(diǎn)與難點(diǎn)[1]。其中,多模態(tài)情感分析就是其中一個(gè)主要的研究問(wèn)題。多模態(tài)情感分析(multimodal sentiment analysis,MSA)旨在利用多模態(tài)數(shù)據(jù),挖掘其中包含的情感狀態(tài),并利用神經(jīng)網(wǎng)絡(luò)來(lái)計(jì)算相應(yīng)的情感得分,一個(gè)簡(jiǎn)單的多模態(tài)情感分析框架如圖1所示。

圖1 多模態(tài)情感分析框架圖Fig.1 Multimodal sentiment analysis framework diagram
在之前的研究中,研究者們主要關(guān)注了如何將來(lái)自不同模態(tài)的信息進(jìn)行互補(bǔ)融合,探索模態(tài)之間的動(dòng)態(tài)交互[2],以達(dá)到充分利用不同模態(tài)有用信息,減小模態(tài)間差距的目的。主要就是通過(guò)神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征提取能力,將多模態(tài)數(shù)據(jù)映射到特征空間中,并在特征空間內(nèi)針對(duì)提取到的張量進(jìn)行建模。例如,使用RNN及其變體網(wǎng)絡(luò)針對(duì)多模態(tài)序列進(jìn)行建模[3-5],Zadeh等[6]提出了基于張量的融合方式,利用張量的外積生成多模態(tài)表示向量,Liu等[7]提出一種低秩分解的融合策略,降低了計(jì)算的復(fù)雜度。然而,這些融合方法雖然有效,但計(jì)算復(fù)雜度仍較高,并且生成的高緯度多模態(tài)表示向量中容易含有噪聲模態(tài)和冗余信息,會(huì)有較高的過(guò)擬合風(fēng)險(xiǎn),因此,如何對(duì)模型的學(xué)習(xí)進(jìn)行限制,使得最終生成的多模態(tài)表示向量中能夠包含盡可能多的與任務(wù)相關(guān)的有效信息,是目前需要解決的重要問(wèn)題。
先前的研究中,已經(jīng)證明了語(yǔ)言模態(tài)在多模態(tài)情感分析中占據(jù)主導(dǎo)地位[5,8-10],因此在將來(lái)自不同模態(tài)的數(shù)據(jù)進(jìn)行融合的過(guò)程中,最終生成的多模態(tài)表示向量會(huì)不可避免地?cái)y帶與任務(wù)無(wú)關(guān)的噪聲信息,并且這種噪聲在缺少后續(xù)操作的情況下并不能被濾除,很容易影響下游任務(wù)的執(zhí)行,并且這些多模態(tài)表示向量通常有較高的維度,不利于提高模型的泛化能力,會(huì)有較高的過(guò)擬合風(fēng)險(xiǎn)。當(dāng)訓(xùn)練數(shù)據(jù)有限時(shí),過(guò)擬合風(fēng)險(xiǎn)會(huì)進(jìn)一步提高[11]。
為了解決上述問(wèn)題,Mai等[12]提出了一種基于對(duì)抗性訓(xùn)練的方法來(lái)減小模態(tài)之間的差距,Yu等[13]提出一種利用自監(jiān)督策略動(dòng)態(tài)生成單模態(tài)標(biāo)簽?zāi)K,以達(dá)到更好學(xué)習(xí)多模態(tài)融合的目的。Mai等[11]提出一種利用對(duì)比學(xué)習(xí)的方法,拉近不同模態(tài)之間距離的方法,以達(dá)到減少冗余信息的目的。
雖然上述方法在不同程度上緩和了冗余信息與噪聲對(duì)最終結(jié)果的影響,但其方法僅限于小而不平衡的情感數(shù)據(jù)集[14],并且對(duì)于融合后生成的多模態(tài)表示向量并沒(méi)有更多的關(guān)注,導(dǎo)致融合后生成的表示向量具有較高的維度和復(fù)雜度,仍不利于下游任務(wù),并且針對(duì)不同的融合方式的可遷移性并不突出。
信息瓶頸理論[15-17]是一種基于信息論的方法,該理論指出,若表示向量丟棄了與下游任務(wù)無(wú)關(guān)的信息,則會(huì)增加下游任務(wù)的魯棒性[18]。因此,受Mai等[19]啟發(fā),本文提出跨模態(tài)融合與信息瓶頸模型(cross modal fusion and information bottleneck)。該模型首先利用模態(tài)子網(wǎng)絡(luò)對(duì)來(lái)自不同模態(tài)的數(shù)據(jù)提取特征。之后利用不同的融合方式對(duì)來(lái)自不同模態(tài)的數(shù)據(jù)進(jìn)行融合,以得到多模態(tài)表示向量。為了使得多模態(tài)表示向量中盡可能少地包含噪聲信息的同時(shí)盡可能地增加與真實(shí)標(biāo)簽之間的相關(guān)性,設(shè)計(jì)了一個(gè)包含了互信息上、下界估計(jì)器的互信息估計(jì)模塊。在該模塊中利用MINE[20]估計(jì)器,對(duì)表示向量與真實(shí)標(biāo)簽之間的互信息進(jìn)行下界估計(jì),利用神經(jīng)網(wǎng)絡(luò)對(duì)下界進(jìn)行優(yōu)化,使其變得緊致,以使得表示向量具有與真實(shí)標(biāo)簽更高的相關(guān)程度,利用CLUB[21]估計(jì)器,針對(duì)表示向量與輸入數(shù)據(jù)之間的互信息進(jìn)行上界估計(jì),并使其達(dá)到最小,以使得多模態(tài)表示向量中來(lái)自輸入數(shù)據(jù)的噪聲信息得以濾除。利用該互信息估計(jì)模塊,可以使得融合后的表示向量盡可能多地包含與下游任務(wù)相關(guān)的信息,盡可能少地包含與輸入數(shù)據(jù)中無(wú)關(guān)信息,以達(dá)到學(xué)習(xí)一種多模態(tài)簡(jiǎn)潔表示,降低學(xué)習(xí)復(fù)雜度與模型過(guò)擬合風(fēng)險(xiǎn)的目的。
多模態(tài)情感分析已經(jīng)成為自然語(yǔ)言處理和多模態(tài)學(xué)習(xí)領(lǐng)域的研究熱點(diǎn)。在多模態(tài)情感分析領(lǐng)域,先前的研究工作主要針對(duì)于多模態(tài)向量表示學(xué)習(xí)和多模態(tài)融合兩個(gè)方面開(kāi)展,并且均取得了較大的研究進(jìn)展。
對(duì)于多模態(tài)表示學(xué)習(xí)方面,其主要的思想在于如何減少單模態(tài)表示之間的距離差異,使得不同模態(tài)之間的差距得以縮小。Yu等[13]利用自監(jiān)督學(xué)習(xí)策略,設(shè)計(jì)了一個(gè)標(biāo)簽自動(dòng)生成模塊,并將其運(yùn)用在多模態(tài)和單模態(tài)訓(xùn)練任務(wù)上以達(dá)到減小模態(tài)差異的目的。Mai等[11]將對(duì)比學(xué)習(xí)的思路引入多模態(tài)情感分析中,使得模型可以動(dòng)態(tài)地探索類間的關(guān)系,實(shí)現(xiàn)跨模態(tài)交互的同時(shí)保持了不同類別的信息,以減小模態(tài)差距。Han等[9]將互信息的概念引入多模態(tài)情感分析中,提出了一種分層次最大化互信息學(xué)習(xí)框架,防止與任務(wù)相關(guān)信息丟失。Hazarika等[22]將模態(tài)向量投影至兩個(gè)不同的空間中,利用正則化組件進(jìn)行模態(tài)不變和模態(tài)特定的表示學(xué)習(xí)。Mai等[12]基于對(duì)抗性編碼器-解碼器-分類器框架,以減少不同模態(tài)間差異性的目的,基于此,Wang等[14]提出基于VAE的對(duì)抗性多模態(tài)域轉(zhuǎn)移算法,以獲得更具判斷力的多模態(tài)表示,并減小模態(tài)差異。
在多模態(tài)情感分析領(lǐng)域,更多的研究是針對(duì)多模態(tài)融合方面開(kāi)展。如何針對(duì)來(lái)自不同模態(tài)的數(shù)據(jù)進(jìn)行高效地融合,是該領(lǐng)域面臨的一個(gè)重點(diǎn)問(wèn)題。早期的研究主要關(guān)注于在向量空間中對(duì)張量的各種操作[6-7,18],由于Transformer[23]和BERT[24]擁有強(qiáng)大的特征提取能力,許多研究針對(duì)Transformer中自注意力模塊進(jìn)行改進(jìn),使得不同模態(tài)的向量可以動(dòng)態(tài)交互,達(dá)到跨模態(tài)融合、互補(bǔ)學(xué)習(xí)的目的[25-28]。Qi等[29]提出一種基于Transformer的多模態(tài)編解碼網(wǎng)絡(luò),以解決特定模態(tài)和多模態(tài)之間的長(zhǎng)期依賴性問(wèn)題。Yang等[30]基于BERT提出用于多模態(tài)情感分析的轉(zhuǎn)換框架。Sun等[31]創(chuàng)造性地提出了一種由多個(gè)基于MLP單元組成的多模態(tài)特征處理框架,可以對(duì)多模態(tài)數(shù)據(jù)在不同軸上進(jìn)行展開(kāi),并且降低了計(jì)算復(fù)雜度與計(jì)算成本。Rahman等[32]提出了多模態(tài)門(mén)控組件,使得BERT模型在不改變結(jié)構(gòu)的基礎(chǔ)上能夠動(dòng)態(tài)地接受多模態(tài)信息。Yang等[33]提出掩碼注意力機(jī)制,動(dòng)態(tài)地接收文本與音頻模態(tài)的交互。Luo等[34]提出一種多尺度融合和自監(jiān)督移位聚類損失來(lái)解決在未對(duì)齊的多模態(tài)序列中的情感分析問(wèn)題,該模型可以解決了單模態(tài)的模糊語(yǔ)義邊界問(wèn)題,并且提出的損失可以時(shí)刻保持融合特征的差異化。
與上述方法不同,本文探究了利用信息瓶頸理論來(lái)緩解基于復(fù)雜融合策略生成具有極高維度和計(jì)算復(fù)雜度多模態(tài)表示向量的有效性,使得生成的多模態(tài)表示向量能夠盡可能多地包含與下游任務(wù)相關(guān)的有效信息,并且盡可能“遺忘”來(lái)自輸入數(shù)據(jù)的噪聲信息,以獲取一種簡(jiǎn)潔表示。
信息瓶頸(information bottleneck,IB)最初是由Tishby等[15]提出,旨在尋找一種可以最大保留信號(hào)信息的較短的信號(hào)形式,之后引入深度學(xué)習(xí)領(lǐng)域,從互信息的角度為神經(jīng)網(wǎng)絡(luò)提供了可解釋性[16,35]。在深度學(xué)習(xí)中,IB旨在使神經(jīng)網(wǎng)絡(luò)在復(fù)雜的約束條件中找到良好的表示,使其具有強(qiáng)大的預(yù)測(cè)能力的同時(shí)盡可能少地含有與任務(wù)不相關(guān)的信息,即IB旨在最大化神經(jīng)網(wǎng)絡(luò)的中間表示和標(biāo)簽之間的互信息,最小化中間表示與輸入數(shù)據(jù)之間的互信息[19]。其目標(biāo)函數(shù)如公式(1)所示:
其中,Y為神經(jīng)網(wǎng)絡(luò)的真實(shí)標(biāo)簽,Z為輸入數(shù)據(jù)的中間編碼表示,X為輸入數(shù)據(jù)。一般地,在深度學(xué)習(xí)中,選擇最大化該目標(biāo)函數(shù),以尋找良好的數(shù)據(jù)編碼表示。在本文中選擇使用兩個(gè)互信息估計(jì)模塊,分別對(duì)目標(biāo)函數(shù)中的第一項(xiàng)和第二項(xiàng)進(jìn)行優(yōu)化估計(jì),并將其聯(lián)立作為最終的目標(biāo)函數(shù)。
Federici等[36]將信息瓶頸理論擴(kuò)展到無(wú)監(jiān)督多視圖領(lǐng)域,利用多個(gè)數(shù)據(jù)視圖為下游任務(wù)生成具有魯棒性表示的新方法;Lee等[37]基于IB提出一種不完全多視角觀測(cè)的深度變分信息瓶頸方法,拓展了IB在深度學(xué)習(xí)中的應(yīng)用;Wan等[18]提出一種全新的無(wú)監(jiān)督多視圖表示學(xué)習(xí)模型,可以平衡多個(gè)視圖之間的互補(bǔ)性和一致性;Mai等[19]將信息瓶頸理論引入多模態(tài)情感分析中,并且根據(jù)模態(tài)表示向量融合方式的不同,提出了三種多模態(tài)信息瓶頸框架,可以充分地限制模型的學(xué)習(xí),強(qiáng)迫其學(xué)習(xí)一種具有強(qiáng)大預(yù)測(cè)能力的中間編碼表示。
與上述方法不同,本文主要是將該目標(biāo)函數(shù)進(jìn)行拆分,并且利用不同的互信息估計(jì)器對(duì)其進(jìn)行拆分估計(jì),并且由于輸入數(shù)據(jù)較為稀疏,對(duì)于互信息的計(jì)算并不容易,因此采用神經(jīng)網(wǎng)絡(luò)來(lái)分別擬合互信息的下界與上界,并邊界達(dá)到極致,以此得到互信息的最大值與最小值。
在多模態(tài)情感分析中,網(wǎng)絡(luò)的輸入數(shù)據(jù)為一段話語(yǔ),其中包含了三種模態(tài)信息,分別為文本、聽(tīng)覺(jué)、視覺(jué),分別用表示,其中l(wèi)m,m∈{l,a,v}代表每個(gè)模態(tài)向量的序列長(zhǎng)度,dm,m∈{l,a,v}代表向量的維度。整個(gè)CMFIB網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

圖2 CMFIB網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Architecture of CMFIB
在CMFIB中,分別利用三個(gè)獨(dú)立的模態(tài)子網(wǎng)絡(luò)獲取文本、聽(tīng)覺(jué)、視覺(jué)三個(gè)模態(tài)的表示向量,以獲取模態(tài)特定信息。對(duì)于文本模態(tài),利用BERT模型提取特征,并且將最后一層的輸出作為文本模態(tài)的表示向量,并記為Fl,對(duì)于聽(tīng)覺(jué)和視覺(jué)模態(tài),分別利用一維卷積網(wǎng)絡(luò)來(lái)提取其表示向量,之后將得到的表示向量通過(guò)特定的線性層將其統(tǒng)一至相同的維度。表示過(guò)程如公式(2)、(3)、(4)所示:
其中,Wl、Wa、Wv為線性變換的參數(shù)矩陣,F(xiàn)un為非線性激活函數(shù),bl、ba、bv為線性變換的偏置系數(shù),θ為BERT模型和CNN網(wǎng)絡(luò)的參數(shù)。
之后,將得到的Fl、Fa、Fv輸入至融合網(wǎng)絡(luò)中,得到多模態(tài)聯(lián)合表示向量Fz。在本文中,使用了兩種基于Transformer的融合[8,26]、一種基于圖網(wǎng)絡(luò)的融合[12]、一種基于張量融合[6]、一種基于低秩張量的融合方式[7]、三種簡(jiǎn)單融合,使得網(wǎng)絡(luò)在此得到跨模態(tài)交互融合的目的,使來(lái)自不同模態(tài)的向量信息在此可以充分融合,學(xué)習(xí)到互補(bǔ)信息。充分探究在利用信息瓶頸理論條件下,各種融合方式效果的不同。在本文中,融合網(wǎng)絡(luò)使用?m表示。則融合過(guò)程如公式(5)所示:
其中,θm為融合網(wǎng)絡(luò)的參數(shù)。之后,將得到的聯(lián)合表示通過(guò)一個(gè)前饋神經(jīng)網(wǎng)絡(luò),得到多模態(tài)編碼表示向量(以下簡(jiǎn)稱表示向量),記為Z。為了滿足公式(1)中的目標(biāo)函數(shù),需要分別計(jì)算表示向量與真實(shí)標(biāo)簽、輸入數(shù)據(jù)之間的互信息。
在信息論中,互信息捕獲了不同變量之間的非性關(guān)系,可以用于變量之間相關(guān)性的度量。對(duì)于兩個(gè)隨機(jī)變量X、Y之間的互信息定義如公式(6)所示:
其中,KL(*)代表KL散度運(yùn)算。根據(jù)公式(6),在計(jì)算二者的互信息時(shí)需要知道兩者之間的聯(lián)合概率分布和各自的邊緣分布。然而,在MSA中,輸入數(shù)據(jù)往往都是具有較高的維度,并且數(shù)據(jù)集過(guò)于稀疏,無(wú)法準(zhǔn)確地知道其是如何分布的,而且只能通過(guò)神經(jīng)網(wǎng)絡(luò)的編碼器模型得到后驗(yàn)分布概率P(Y|Z),對(duì)于各自的邊緣分布和聯(lián)合分布都是難以估計(jì)的。因此,需要利用神經(jīng)網(wǎng)絡(luò)擬合其概率分布,不斷對(duì)下界進(jìn)行優(yōu)化,使得互信息下界能夠更加接近真實(shí)的互信息。
因此在本文中,利用MINE[20]作為表示向量與真實(shí)標(biāo)簽的互信息估計(jì)器,利用神經(jīng)網(wǎng)絡(luò)作為編碼器取近似的概率分布,最大化二者之間的互信息,使得表示向量可以最大程度上包含與任務(wù)相關(guān)的信息。MINE主要采用了KL散度的兩種表現(xiàn)形式,其中Donsker-Varadhan[38]表示會(huì)為MINE估計(jì)器產(chǎn)生更加緊致的邊界,而f-divergence[39-40]表示提供的邊界則會(huì)寬松一些。在本文中采用的是Donsker-Varadhan表示(DV表示)。DV表示如公式(7)所示:
其中,P、Q為兩種任意分布,T為從樣本空間Ω到實(shí)數(shù)R的任意函數(shù)映射。令F為一個(gè)包含任意滿足函數(shù)T的類,則可以得到該表示的下界,如公式(8)所示:
根據(jù)公式(6)可知,表示向量Z與真實(shí)標(biāo)簽Y之間的互信息定義如公式(9)所示:
將公式(9)帶入公式(8)中,可以推出表示向量與真實(shí)標(biāo)簽之間互信息的下界表示,記為公式(10):
然而在實(shí)際中,去尋找這樣一種T是極其困難的。由于神經(jīng)網(wǎng)絡(luò)可以被視為一種復(fù)雜的非線性網(wǎng)絡(luò),可以用于擬合各種復(fù)雜的非線性函數(shù),因此使用參數(shù)為θ∈Θ的神經(jīng)網(wǎng)絡(luò)族代替函數(shù)T來(lái)擬合該互信息下界,因此可以推出公式(11):
由于在輸入數(shù)據(jù)中,需要用經(jīng)驗(yàn)分布代替其整體分布,則最終的互信息下界表達(dá)式如公式(12)所示:
從公式(12)中可以看出,在訓(xùn)練過(guò)程中通過(guò)反向傳播,對(duì)其中的使用神經(jīng)網(wǎng)絡(luò)擬合的非線性函數(shù)進(jìn)行動(dòng)態(tài)調(diào)整,可以不斷地提高該互信息的下界,并使該下界變得更為緊致,最終實(shí)現(xiàn)互信息的最大化,以確保得到的表示向量能夠含有針對(duì)下游任務(wù)相關(guān)的更多信息。
由于經(jīng)過(guò)融合網(wǎng)絡(luò)之后,表示向量會(huì)不可避免地?cái)y帶一定量來(lái)自輸入數(shù)據(jù)的與任務(wù)不相關(guān)的冗余信息和噪聲,這些信息和噪聲會(huì)對(duì)下游任務(wù)的精確分類產(chǎn)生較強(qiáng)的影響,因此,需要減小表示向量與輸入向量之間的互信息,以達(dá)到濾除其中噪聲和冗余信息的目的。在本文中,利用CLUB[21]互信息估計(jì)器來(lái)計(jì)算表示向量與輸入數(shù)據(jù)之間的互信息上界,通過(guò)對(duì)上界的估計(jì)來(lái)限制表示向量對(duì)輸入數(shù)據(jù)中信息的包含,以增強(qiáng)模型的魯棒性。
為表示方便,在本節(jié)中x表示輸入數(shù)據(jù),z表示多模態(tài)表示向量。將輸入數(shù)據(jù)與表示向量之間互信息上界表示為ICLUB(Z,X),該上界具體表示如公式(13)所示:
由于在實(shí)際的任務(wù)中,條件概率p(z|x)與聯(lián)合概率分布p(z,x)是很難計(jì)算的,若將其直接視為標(biāo)準(zhǔn)高斯分布,則會(huì)導(dǎo)致互信息的估計(jì)出現(xiàn)較大的偏差,并且在后續(xù)對(duì)各項(xiàng)進(jìn)行蒙特卡洛采樣時(shí),該偏差會(huì)進(jìn)一步地增大[21]。因此,選擇使用參數(shù)為ω的神經(jīng)網(wǎng)絡(luò)對(duì)概率分布進(jìn)行擬合,通過(guò)反向傳播算法對(duì)其進(jìn)行動(dòng)態(tài)調(diào)整,優(yōu)化該上界表示。利用神經(jīng)網(wǎng)絡(luò)擬合后的表示如公式(14)所示:
其中,qω(z,x)為是用參數(shù)為ω的神經(jīng)網(wǎng)絡(luò)擬合后的概率分布。之后針對(duì)輸入數(shù)據(jù)和表示向量進(jìn)行采樣,可以得到兩個(gè)變量之間的無(wú)偏估計(jì)量,如公式(15)所示:
其中,N為樣本批量大小。
聯(lián)立公式(1)、(12)、(15),可以得到最終的目標(biāo)函數(shù)約束項(xiàng),記為:
在本文中,將多模態(tài)情感分析作為回歸任務(wù),將整個(gè)模型的最后輸出記為,真實(shí)標(biāo)簽記為yi,則任務(wù)損失記為。
最終,整個(gè)模型的損失定義為:
在本文中,使用CMU-MOSI[41]、CMU-MOSEI[42]和CH-SIMS[43]三個(gè)在多模態(tài)情感分析中常用的數(shù)據(jù)集對(duì)本文提出的模型進(jìn)行性能測(cè)試。
3.1.1 CMU-MOSI
CMU-MOSI數(shù)據(jù)集包含了從Youtube上收集到的93個(gè)視頻,并人工將其分割成為2 199條視頻片段,并且每條視頻片段都包含一種情感狀態(tài),每一種情感狀態(tài)使用情感分?jǐn)?shù)表示,取值范圍從-3(極負(fù)向)到+3(極正向)。在本次實(shí)驗(yàn)中,使用其中1 284條視頻片段用于訓(xùn)練,229條視頻片段用于驗(yàn)證,686條視頻片段用于測(cè)試。
3.1.2 CMU-MOSEI
CMU-MOSEI數(shù)據(jù)集是CMU-MOSI數(shù)據(jù)集的擴(kuò)展,其中包含了超過(guò)兩萬(wàn)條視頻片段,與CMU-MOSI數(shù)據(jù)集一樣,在MOSEI數(shù)據(jù)集中,所有的視頻片段都是用取值從-3到+3的情感分?jǐn)?shù)代表視頻所包含的情感極性。在該數(shù)據(jù)集中,使用16 265條視頻進(jìn)行訓(xùn)練,1 869條視頻進(jìn)行驗(yàn)證,4 643條視頻進(jìn)行測(cè)試。
3.1.3 CH-SIMS
CH-SIMS數(shù)據(jù)集是一個(gè)中文的多模態(tài)數(shù)據(jù)集。該數(shù)據(jù)集包含了2 281個(gè)視頻片段,并且每一條視頻片段都有一種情感極性狀態(tài),該狀態(tài)使用從-1到1的情感分?jǐn)?shù)對(duì)每個(gè)樣本進(jìn)行標(biāo)記。在文中使用1 368條樣本進(jìn)行訓(xùn)練、456條樣本進(jìn)行驗(yàn)證、457條樣本進(jìn)行測(cè)試。
3.1.4 特征提取
在本次實(shí)驗(yàn)中,對(duì)于視覺(jué)模態(tài),采用Facet來(lái)提取面部動(dòng)作單元、頭部姿態(tài)等特征信息,采樣頻率為30 Hz。聽(tīng)覺(jué)模態(tài)使用COVAREP[44]提取包括Mel倒譜系數(shù)、基音頻率、譜包絡(luò)等在內(nèi)的特征信息。對(duì)于文本,使用bertbase-uncased版本。利用P2FA將三種模態(tài)的特征在時(shí)間步級(jí)別對(duì)齊。對(duì)于聽(tīng)覺(jué)模態(tài)和文本模態(tài),兩個(gè)數(shù)據(jù)集的維度是一樣的,分別為74和768,對(duì)于MOSI數(shù)據(jù)集,視覺(jué)模態(tài)的特征為47,對(duì)于MOSEI數(shù)據(jù)集,視覺(jué)模態(tài)的特征為35,對(duì)于SIMS數(shù)據(jù)集,文本模態(tài)特征為768,聽(tīng)覺(jué)模態(tài)維度為33,視覺(jué)模態(tài)維度為709。
3.1.5 評(píng)價(jià)指標(biāo)
為了與之前的研究保持一致,在本次實(shí)驗(yàn)中采取了在多模態(tài)情感分析領(lǐng)域中常用的四種指標(biāo)[43,26],分別為:(1)MAE(平均絕對(duì)誤差),模型的預(yù)測(cè)值與真實(shí)標(biāo)簽之間的平均絕對(duì)差值,該指標(biāo)越低越好;(2)Corr(相關(guān)系數(shù)),代表了預(yù)測(cè)值與真實(shí)標(biāo)簽之間的相關(guān)程度。(3)二分類精度(Acc2)代表對(duì)正向、負(fù)向情感極性的分類精度;(4)F1 Score,代表了對(duì)二元精度的加權(quán)。
為了充分驗(yàn)證本文所提出的模型,在本節(jié)中選取若干種在多模態(tài)情感分析領(lǐng)域的經(jīng)典模型,利用上述四種指標(biāo)來(lái)討論性能表現(xiàn)。
MAG-BERT[32]:該模型提出了多模態(tài)適應(yīng)門(mén)的模塊,使得BERT和XLNet在微調(diào)階段也能接受多模態(tài)數(shù)據(jù)的輸入。
CubeMLP[31]:提出一種完全基于MLP的多模態(tài)特征處理框架,可以在三個(gè)維度軸上將特征混合,之后將其展平后進(jìn)行任務(wù)預(yù)測(cè)。
MISA[22]:提出一種多模態(tài)情感分析框架,可以針對(duì)不同模態(tài)學(xué)習(xí)模態(tài)不變和模態(tài)特定的特征表示,并針對(duì)不同種類的表示向量提出分布相似性損失、正交損失、重建損失以及預(yù)測(cè)損失。
MMIM[9]:將互信息概念引入多模態(tài)情感分析領(lǐng)域,最大化輸入級(jí)和融合級(jí)特征表示的互信息,以達(dá)到濾除噪聲信息以及冗余信息的目的。
MIB[19]:將信息瓶頸理論引入多模態(tài)情感分析領(lǐng)域,針對(duì)融合方式的不同,提出了三種多模態(tài)信息瓶頸模型,以達(dá)到尋找最小充分的多模態(tài)編碼表示,并濾除噪聲以及冗余信息,在本文中,取其在兩個(gè)數(shù)據(jù)集中表現(xiàn)最好的模型進(jìn)行對(duì)比實(shí)驗(yàn)。
Self_mm[13]:設(shè)計(jì)了一種基于自監(jiān)督學(xué)習(xí)策略的標(biāo)簽生成模塊,對(duì)多模態(tài)和單模態(tài)任務(wù)進(jìn)行聯(lián)合訓(xùn)練,在訓(xùn)練階段設(shè)計(jì)了一種動(dòng)態(tài)調(diào)整策略,能引導(dǎo)模型將重點(diǎn)放在模態(tài)差異較大的樣本之上[43]。
Hycon[11]:提出了一種同時(shí)進(jìn)行模態(tài)內(nèi)/模態(tài)間對(duì)比學(xué)習(xí)和半對(duì)比學(xué)習(xí)的混合對(duì)比學(xué)習(xí)框架,設(shè)計(jì)了一個(gè)細(xì)化項(xiàng),以達(dá)到防止模型陷入次優(yōu)解的目的,提高了模型的泛化能力。
ICDN[28]:為針對(duì)模態(tài)進(jìn)行動(dòng)態(tài)建模,提出了集成一致性和差異性的網(wǎng)絡(luò),并引入自監(jiān)督策略,動(dòng)態(tài)地生成單模態(tài)情感標(biāo)簽,以指導(dǎo)最終的情感分析結(jié)果。
在本次實(shí)驗(yàn)中,使用Adam作為優(yōu)化器,批量大小為32,學(xué)習(xí)率為1E-5,深度學(xué)習(xí)框架為Pytorch,實(shí)驗(yàn)基于一塊RTX5000GPU,在本次實(shí)驗(yàn)中,默認(rèn)使用的融合方式為CM5[8]。
經(jīng)過(guò)多次對(duì)比實(shí)驗(yàn),在三個(gè)數(shù)據(jù)集上的表現(xiàn)分別如表1、表2、表3所示。

表1 CMU-MOSI測(cè)試集實(shí)驗(yàn)結(jié)果Table 1 Results on test set of CMU-MOSI dataset

表2 CMU-MOSEI測(cè)試集實(shí)驗(yàn)結(jié)果Table 2 Results on test set of CMU-MOSEI dataset

表3 CH-SIMS測(cè)試集實(shí)驗(yàn)結(jié)果Table 3 Results on test set of CH-SIMS dataset
從表1、表2、表3中的數(shù)據(jù)可以得出,在本次實(shí)驗(yàn)所用的三個(gè)數(shù)據(jù)集上,本文提出的模型要比其余的算法表現(xiàn)更為出色,在表格中,最優(yōu)表現(xiàn)用加粗字體標(biāo)出。從表1中可以看出,對(duì)于CMU-MOSI數(shù)據(jù)集,除CMFIB之外,CubleMLP的性能是最優(yōu)的,但CMFIB取得了更優(yōu)的性能表現(xiàn),對(duì)于Acc2指標(biāo)來(lái)說(shuō),CMFIB要比CubleMLP高出0.009 6,對(duì)于F1指標(biāo)CMFIB要比其高出0.01,對(duì)于相關(guān)系數(shù),CMFIB要比其高出0.049 6,并且MAE達(dá)到了所有模型中的最低水平。從表2的數(shù)據(jù)可以看出,對(duì)于CMU-MOSEI數(shù)據(jù)集,除CMFIB外,Hycon達(dá)到了最優(yōu)水平。在Acc2指標(biāo)方面,CMFIB要比Hycon模型高出0.003 2,在Corr指標(biāo)方面,CMFIB要比其高出0.017 7,對(duì)于MAE指標(biāo),CubeMLP則表現(xiàn)得更為出色。從表3的數(shù)據(jù)中可以看出,對(duì)于CH-SIMS數(shù)據(jù)集,CMFIB在各項(xiàng)指標(biāo)方面都取得了更好的表現(xiàn),對(duì)于MAE,相對(duì)于Self_mm降低了0.001 3,對(duì)于Acc2,則提高了0.004 1。以上數(shù)據(jù)能夠很好地證明,本文提出的模型的表現(xiàn)更為優(yōu)異,也證明了學(xué)習(xí)簡(jiǎn)潔有效的多模態(tài)編碼表示是十分有效的。
為了進(jìn)一步驗(yàn)證本文提出的CMFIB模型中各個(gè)部分的作用,在本節(jié)從多個(gè)角度進(jìn)行消融實(shí)驗(yàn),觀測(cè)每個(gè)部分對(duì)于最終實(shí)驗(yàn)結(jié)果的影響。本節(jié)中,消融實(shí)驗(yàn)基于CMU-MOSI數(shù)據(jù)集,實(shí)驗(yàn)中的超參數(shù)等按照3.2節(jié)所示。
3.3.1 互信息下界估計(jì)消融實(shí)驗(yàn)
在本小節(jié)中,主要探討各種互信息估計(jì)器對(duì)最終結(jié)果的影響。在本文中,互信息估計(jì)器主要是在針對(duì)表示向量同真實(shí)標(biāo)簽以及輸入數(shù)據(jù)之間起作用,并且分為互信息上界估計(jì)與互信息下界估計(jì),因此首先探討關(guān)于使用InfoNCE[45]和NWJ[39]作為互信息下界估計(jì)器,同時(shí)也探究了不使用互信息下界估計(jì)對(duì)結(jié)果的影響。此時(shí)互信息上界估計(jì)仍然使用CLUB,融合方式為CM5。InfoNCE與NWJ估計(jì)器分別如公式(18)、(19)表示,其中Z為表示向量,Y為真實(shí)標(biāo)簽:
其中,在公式(18)、(19)中,N代表批量大小,在分母中,引入了在真實(shí)標(biāo)簽值所構(gòu)成的集合中不屬于該標(biāo)簽的負(fù)例集合,將其作為噪聲處理。并且,引入了基于能量的變分函數(shù)族f(*)[46],也稱為一個(gè)critic,該函數(shù)族包含了任意一種可以將樣本對(duì)映射為評(píng)價(jià)值的函數(shù)。在公式(18)中,若要使其達(dá)到最優(yōu),則需要f(x,y)=lgp(y|x)+c(y)。在公式(19)中,若要使其達(dá)到最優(yōu),則f(x)=1+lg(y|x)。
本節(jié)實(shí)驗(yàn)利用CMU-MOSI數(shù)據(jù)集,各種超參數(shù)的設(shè)定參照3.2節(jié)。結(jié)果如表4所示。

表4 互信息下界估計(jì)對(duì)比Table 4 Lower bound of mutual information estimation
可以從表4中看出,采用MINE來(lái)對(duì)互信息下界進(jìn)行估計(jì)效果要更加出色,在四種指標(biāo)上均優(yōu)于其他兩種互信息下界估計(jì)器。并且從第三行中可以看出,當(dāng)去除互信息下界估計(jì)后,實(shí)驗(yàn)?zāi)繕?biāo)變成了最小化表示向量與輸入數(shù)據(jù)之間的互信息,對(duì)于Acc2精度有較大幅度的下滑,這說(shuō)明在信息瓶頸理論中,最大化表示向量與真實(shí)標(biāo)簽之間的互信息具有重要作用,能夠提高表示向量與標(biāo)簽之間的相關(guān)程度,使得經(jīng)過(guò)融合后的表示向量具有與任務(wù)相關(guān)的重要信息,能夠生成高質(zhì)量的預(yù)測(cè)結(jié)果。
3.3.2 互信息上界估計(jì)消融實(shí)驗(yàn)
在本小節(jié)中,主要討論VUB[16]、L1Out[46]和不使用互信息上界估計(jì)三種情況下對(duì)最終結(jié)果的影響。其中,融合方式與超參數(shù)設(shè)置均與3.3.1小節(jié)中相同,使用MINE作為互信息下界估計(jì)器。VUB與L1Out互信息估計(jì)器計(jì)算過(guò)程如公式(20)、(21)所示,其中Z為表示向量,X為任意輸入數(shù)據(jù)的表示向量:
其中,在公式(20)中,qθ(*)為利用參數(shù)為θ的神經(jīng)網(wǎng)絡(luò)對(duì)概率密度函數(shù)的變分估計(jì),服從多元高斯分布,即qθ(z|x)~N(z|μθ1(x),σθ2(x)I),r(z)為一服從標(biāo)準(zhǔn)正態(tài)分布的變分近似值,即r(z)~(0,I);在公式(21)中,N為采樣的樣本數(shù)即批量大小。消融實(shí)驗(yàn)結(jié)果如表5所示。

表5 互信息上界估計(jì)對(duì)比Table 5 Upper bound of mutual information estimation
從表5中的數(shù)據(jù)可以看出,使用CLUB作為互信息上界估計(jì)時(shí),可以達(dá)到最好的效果。對(duì)于VUB,在公式(20)中,將表示向量Z的邊緣分布近似地看作標(biāo)準(zhǔn)正態(tài)分布,這會(huì)導(dǎo)致較大的偏差。對(duì)于L1Out,盡管該公式不需要引入過(guò)多的學(xué)習(xí)參數(shù),但高度依賴足夠多的樣本大小來(lái)實(shí)現(xiàn)令人滿意的蒙特卡洛采樣,因此在實(shí)踐中,L1Out的數(shù)值并不穩(wěn)定[21]。當(dāng)完全不采用上界估計(jì)時(shí),代表此時(shí)目標(biāo)最大化表示向量與真實(shí)標(biāo)簽之間互信息,而對(duì)于表示向量中來(lái)自輸入數(shù)據(jù)的噪聲信息并沒(méi)有處理,因此造成了模型的精度下降了0.004 5,并且也能看出,在信息瓶頸的目標(biāo)函數(shù)中,第二項(xiàng)實(shí)際上起的是一種輔助和約束作用,并不會(huì)主導(dǎo)模型的學(xué)習(xí)。
3.3.3 融合方式消融實(shí)驗(yàn)
在本小節(jié)中,主要探討關(guān)于不同種融合方式對(duì)最終實(shí)驗(yàn)結(jié)果的影響。在本文中,融合方式有八種,分為兩個(gè)方面。
(1)基于簡(jiǎn)單策略的融合方式:三種不同模態(tài)表示向量的拼接、對(duì)位相乘以及對(duì)位相加。
(2)基于張量操作的融合策略:張量融合[6]、低秩張量融合[7]、圖網(wǎng)絡(luò)融合[12]、Mult[26]和CM5[8]。
并且,為了更方便地看出本文中所提出的互信息上界/下界估計(jì)對(duì)融合后的表示向量的作用,在每一次融合方式之后,會(huì)跟隨一次不帶互信息估計(jì)模塊的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表6所示。

表6 融合方式消融實(shí)驗(yàn)結(jié)果Table 6 Ablation results of fusion method
從表中數(shù)據(jù)可以觀測(cè)到,對(duì)于Acc2和F1指標(biāo),幾乎所有的融合方式在添加了互信息估計(jì)模塊后都有一定的提升,這表明在本文中所提出的學(xué)習(xí)簡(jiǎn)潔充分的多模態(tài)編碼表示策略是極為有效的。并且,在融合方式中,CM5在整個(gè)消融實(shí)驗(yàn)中均取得了較好的成績(jī),在該模型中,來(lái)自不同模態(tài)的向量首先通過(guò)了跨模態(tài)調(diào)制融合模塊,充分地學(xué)習(xí)了互補(bǔ)信息,并且在之后的模態(tài)門(mén)控模塊中,可以充分地探尋模態(tài)之間的動(dòng)態(tài)交互,不僅保留了單模態(tài)的信息,同時(shí)也使不同模態(tài)接收到了其余模態(tài)的補(bǔ)充信息。盡管如此,在原始的CM5由于較為復(fù)雜的融合策略,表示向量中依然會(huì)有較多的、與下游任務(wù)無(wú)關(guān)的冗余信息,因此,在引入互信息估計(jì)模塊之后,通過(guò)對(duì)學(xué)習(xí)策略進(jìn)行限制,使得生成的表示向量中盡可能多地保留與下游任務(wù)相關(guān)的信息,并且盡可能多地“遺忘”在輸入數(shù)據(jù)中的噪聲與冗余信息,使得生成的表示向量具有較高的質(zhì)量,適合用于下游任務(wù)。在其余的融合方式中,對(duì)于三種模態(tài)的直接拼接表現(xiàn)更優(yōu),因?yàn)樵谥苯悠唇拥娜诤戏绞街校瑏?lái)自三種模態(tài)最原始的單模態(tài)信息得到了保留,并且直接拼接的方式也避免了生成較高緯度表示向量導(dǎo)致模型過(guò)擬合的風(fēng)險(xiǎn),但直接拼接的方式無(wú)法有效地針對(duì)模態(tài)的動(dòng)態(tài)融合進(jìn)行有效的建模。
3.3.4 超參數(shù)消融實(shí)驗(yàn)
在本小節(jié)中,主要探究在公式(1)和公式(17)中,不同的超參數(shù)對(duì)結(jié)果產(chǎn)生的影響。本小節(jié)的實(shí)驗(yàn)基于MOSI數(shù)據(jù)集。
在公式(1)中,超參數(shù)β控制了多模態(tài)表示向量與輸入數(shù)據(jù)之間互信息值,并且從表7中的數(shù)據(jù)可以看出,隨著β的減小,模型的性能逐漸提高,并且在1E-5時(shí)達(dá)到了最優(yōu),這代表了本文中引入的方法是合理有效的,在β為一較小值時(shí),該項(xiàng)不會(huì)主導(dǎo)模型的學(xué)習(xí),更多的是關(guān)注表示向量與真實(shí)標(biāo)簽之間的互信息最大化的過(guò)程,并且該項(xiàng)的存在防止了必要信息被過(guò)濾的同時(shí),保證了冗余噪聲的濾除。

表7 超參數(shù)β分析Table 7 Analysis on parameterβ
從表8中可以看出,當(dāng)超參數(shù)α設(shè)置為1時(shí),整個(gè)模型達(dá)到最優(yōu)的水準(zhǔn),對(duì)于Acc指標(biāo)分別提升了0.015 2、0.005 6、0.006 1,并且Corr指標(biāo)也均有明顯的優(yōu)化,當(dāng)超參數(shù)設(shè)置為0時(shí),這代表目標(biāo)此時(shí)目標(biāo)只是常規(guī)的情感分析任務(wù),結(jié)果在3.3.3小節(jié)有所說(shuō)明,這代表了本文提出的信息瓶頸理論是有效的,表明了基于信息瓶頸理論的互信息估計(jì)模塊的提出具有重要的作用。

表8 超參數(shù)α分析Table 8 Analysis on parameterα
在本文中,為了使得模型在融合后生成的多模態(tài)表示向量能夠具有強(qiáng)大的預(yù)測(cè)能力,并且降低模型過(guò)擬合的風(fēng)險(xiǎn)的同時(shí)能夠?qū)W習(xí)到來(lái)自不同模態(tài)的互補(bǔ)信息,引入了信息瓶頸理論,并根據(jù)其目標(biāo)函數(shù)構(gòu)建了互信息上界估計(jì)與互信息下界估計(jì),分別最大化表示向量與真實(shí)標(biāo)簽之間的互信息,最小化表示向量與輸入數(shù)據(jù)之間的互信息,以達(dá)到學(xué)習(xí)簡(jiǎn)潔有效的多模態(tài)表示的目的。在公開(kāi)的數(shù)據(jù)集上進(jìn)行了多次的對(duì)比實(shí)驗(yàn)和消融實(shí)驗(yàn),其中對(duì)比實(shí)驗(yàn)的結(jié)果證明了本文提出的方法是行之有效的,并且達(dá)到了多模態(tài)情感分析領(lǐng)域的先進(jìn)水平。在消融實(shí)驗(yàn)中探索了不同種類的融合方式和互信息估計(jì)方式對(duì)最終結(jié)果的影響,并針對(duì)最終的實(shí)驗(yàn)結(jié)果進(jìn)行分析,說(shuō)明了本文選取的互信息估計(jì)器和融合方式是合理且有效的。