蔡國(guó)永 呂光瑞 徐 智
(廣西可信軟件重點(diǎn)實(shí)驗(yàn)室(桂林電子科技大學(xué)) 廣西桂林 541004)
隨著移動(dòng)互聯(lián)網(wǎng)和智能終端的快速發(fā)展,社交媒體上的用戶生成內(nèi)容變得越來(lái)越多樣化,社交媒體數(shù)據(jù)已不再僅限于單一的文本形式,例如越來(lái)越多的社交用戶傾向于使用圖像和短文本這種多模態(tài)內(nèi)容的形式來(lái)表達(dá)他們的觀點(diǎn)和在社交媒體上相互交流.這些大量社交用戶分享的多模態(tài)數(shù)據(jù)為人們提供了探索眾多話題的情感和觀點(diǎn)的寶庫(kù),因此多模態(tài)情感分析已經(jīng)成為一個(gè)重要的研究熱點(diǎn)[1-9],但是大規(guī)模多模態(tài)社交媒體數(shù)據(jù)的情感分析還是一個(gè)充滿挑戰(zhàn)的任務(wù).
早期的情感研究較多關(guān)注單一的文本或圖像,且采用傳統(tǒng)的機(jī)器學(xué)習(xí)分類算法.近年來(lái),鑒于深度學(xué)習(xí)技術(shù)的優(yōu)異表現(xiàn),越來(lái)越多的研究人員傾向于使用深度神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)文本的分布式和穩(wěn)健的特征表示用于情感分類[10-13].與此同時(shí),卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)能夠自動(dòng)地從大規(guī)模圖像數(shù)據(jù)中學(xué)習(xí)穩(wěn)健的特征且展示了優(yōu)異的性能,一些研究者開始探索基于CNN的圖像情感分析[14-16].最近,在多模態(tài)情感分析的研究中[1-9],利用深度神經(jīng)網(wǎng)絡(luò)的方法在性能上也更優(yōu)異.多模態(tài)情感分析是融合多種模態(tài)的信息進(jìn)行統(tǒng)一的分類預(yù)測(cè)任務(wù),其關(guān)鍵的問(wèn)題是多模態(tài)樣本特征的融合.由于不同模態(tài)的異質(zhì)性,模態(tài)之間特征的融合是較困難的.盡管基于深度網(wǎng)絡(luò)相關(guān)的模型已經(jīng)取得了不錯(cuò)的進(jìn)展,但是基于深度網(wǎng)絡(luò)的融合模型仍需要進(jìn)一步深入研究.
為了克服已有的圖像-文本的多媒體情感分析研究中存在的異構(gòu)模態(tài)的特征融合方式相對(duì)簡(jiǎn)單以及單一圖像處理上僅從圖像自身提取特征等不足,本文的主要貢獻(xiàn)有4個(gè)方面:
1) 在圖像的處理上利用遷移學(xué)習(xí)策略和圖像中層語(yǔ)義特征相結(jié)合的方法來(lái)構(gòu)建具有一定語(yǔ)義的視覺情感特征表示.
2) 結(jié)合深度典型相關(guān)分析(deep canonical cor-relation analysis, DCCA)[17]和深度線性判別分析(deep linear discriminant analysis, DeepLDA)[18]的思想提出多模態(tài)深度多重判別性相關(guān)分析的聯(lián)合優(yōu)化目標(biāo),通過(guò)優(yōu)化生成最大相關(guān)的判別性視覺特征和判別性語(yǔ)義特征以構(gòu)建圖像和文本在特征層次上的語(yǔ)義相關(guān),且使特征具有判別性的能力,從而提升語(yǔ)義配準(zhǔn).
3) 提出基于多模態(tài)協(xié)同注意力網(wǎng)絡(luò)的融合方法,能進(jìn)一步序列化地交互圖像的視覺特征和文本的語(yǔ)義特征,從而更好地匹配融合多模態(tài)特征.
4) 在多個(gè)數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)表明,本文提出的層次化深度關(guān)聯(lián)融合的網(wǎng)絡(luò)模型在情感分類任務(wù)中能取得更好的分類效果.
多模態(tài)情感分析的研究尚且處于初期階段,大致可以分為2類.較早的研究以特征選擇模型為主,最近開始基于深度神經(jīng)網(wǎng)絡(luò)模型展開研究.
Wang等人[1]利用統(tǒng)一的跨媒體詞袋模型來(lái)表示文本特征和圖像特征,且利用機(jī)器學(xué)習(xí)的方法來(lái)預(yù)測(cè)融合后的情感,結(jié)果表明跨模態(tài)情感分類結(jié)果要略優(yōu)于單模態(tài)的情感分類結(jié)果.Cao等人[2]融合來(lái)自于形容詞名詞對(duì)(adjective noun pairs, ANPs)[19]的圖像中層視覺特征的預(yù)測(cè)結(jié)果和由情感詞、情感標(biāo)簽和句子結(jié)構(gòu)規(guī)則組成的文本特征的預(yù)測(cè)結(jié)果,其中圖像和文本的融合權(quán)重是通過(guò)參數(shù)來(lái)控制,最后用于微博的公共情感分析.Poria等人[3]通過(guò)使用特征級(jí)的和決策級(jí)的融合方法合并來(lái)自于多模態(tài)的情感信息.Katsurai等人[4]首先構(gòu)筑視覺特征、文本特征和情感特征,然后利用映射矩陣映射視覺、文本、情感這3個(gè)模態(tài)的數(shù)據(jù)到一個(gè)共同的潛在嵌入空間中,認(rèn)為潛在空間中的映射特征是來(lái)自于不同模態(tài)的互補(bǔ)信息從而被用于訓(xùn)練情感分類器.
最近深度學(xué)習(xí)方法應(yīng)用于多模態(tài)情感預(yù)測(cè)也備受關(guān)注.如Cai等人[5]利用2個(gè)單獨(dú)的CNN結(jié)構(gòu)分別學(xué)習(xí)文本特征表示和圖像特征表示,將其合并后輸入另外的CNN結(jié)構(gòu)以進(jìn)行多媒體的情感分析.Yu等人[6]也利用2個(gè)CNN結(jié)構(gòu)分別提取文本和圖像的特征表示,使用邏輯回歸對(duì)文本的和圖像的特征表示進(jìn)行情感預(yù)測(cè),最后使用平均策略和加權(quán)的方法融合概率結(jié)果.Baecchi等人[7]提出基于連續(xù)詞袋模型和降噪自動(dòng)編碼的多模態(tài)特征的學(xué)習(xí)模型以進(jìn)行Twitter數(shù)據(jù)情感分析,當(dāng)然該模型也可應(yīng)用到其他的社交媒體數(shù)據(jù)上.You等人[8]提出跨模態(tài)一致回歸的方法用于結(jié)合視覺和文本的情感分析,該方法利用深度視覺的和文本的特征構(gòu)建回歸模型.而Xu等人[9]利用卷積網(wǎng)絡(luò)的結(jié)構(gòu)來(lái)提取圖像和文本的特征表示,然后利用殘差的模型來(lái)合并圖像和文本的多模態(tài)特征用于情感分析.
盡管這些模型都是有效的,但是大多都獨(dú)立地使用視覺和文本的信息,且在融合過(guò)程中往往忽略了圖像和文本之間的內(nèi)在關(guān)聯(lián).通常,組合不同模態(tài)數(shù)據(jù)的多模態(tài)融合方法可以分為早融合、后融合、混合融合[20].其中,后融合涉及為每種模態(tài)數(shù)據(jù)構(gòu)建相應(yīng)的分類器,然后結(jié)合這些決策進(jìn)行預(yù)測(cè);而早融合需要將不同模態(tài)的特征融合到單個(gè)分類器中.本文的研究仍屬于特征層的融合,但是不同于已有的研究方法,本文工作的關(guān)注點(diǎn)有2個(gè)方面:1)同時(shí)處理圖像和與之共現(xiàn)的文本信息;2)在多模態(tài)深度網(wǎng)絡(luò)的結(jié)構(gòu)中,利用層次化深度關(guān)聯(lián)融合的方法來(lái)探究圖像和文本之間的語(yǔ)義關(guān)聯(lián).首先,本文整合DCCA[17]和DeepLDA[18]到一個(gè)統(tǒng)一的聯(lián)合多模態(tài)優(yōu)化目標(biāo)中,以此構(gòu)建圖像和與之共現(xiàn)的文本在特征層次上的語(yǔ)義關(guān)聯(lián),且使各自生成的特征具有較好的判別性.此外,最近注意力模塊已經(jīng)成為應(yīng)用于各種任務(wù)的現(xiàn)代神經(jīng)系統(tǒng)的組成部分,比如機(jī)器翻譯[21]、圖像問(wèn)答任務(wù)[22]和圖像標(biāo)題生成[23]等,然而很少的研究工作已經(jīng)利用注意力機(jī)制進(jìn)行融合,本文提出基于協(xié)同注意力(co-attention)機(jī)制的多模態(tài)融合策略,用于訓(xùn)練情感分類器.
本節(jié)介紹提出的用于多模態(tài)情感分析任務(wù)的層次化深度關(guān)聯(lián)融合的網(wǎng)絡(luò)模型,整體結(jié)構(gòu)如圖1所示,總共由5個(gè)部分構(gòu)成:①視覺模態(tài)特征提取網(wǎng)絡(luò);②文本模態(tài)特征提取網(wǎng)絡(luò);③多模態(tài)深度多重判別性相關(guān)分析;④co-attention網(wǎng)絡(luò)的多模態(tài)注意力融合模型;⑤分類網(wǎng)絡(luò).

Fig. 1 Framework of hierarchical deep correlative fusion network for multi-modal sentiment classification圖1 基于層次化深度關(guān)聯(lián)融合網(wǎng)絡(luò)的社交媒體多模態(tài)情感分類框架圖
基于層次化深度關(guān)聯(lián)融合網(wǎng)絡(luò)的多模態(tài)情感分類模型首先利用圖1中①②的多模態(tài)特征提取網(wǎng)絡(luò)逐層提取視覺模態(tài)和文本模態(tài)的特征,得到相對(duì)應(yīng)的頂層特征表示,然后通過(guò)圖1中③進(jìn)一步生成最大相關(guān)的判別性特征表示,最后使用圖1中④的co-attention網(wǎng)絡(luò)來(lái)交互合并這2種特征表示并傳遞到圖1中⑤的全連接神經(jīng)網(wǎng)絡(luò)(fully connected neural network, FCNN)中進(jìn)一步深層融合后再用于訓(xùn)練情感分類器.下面闡述模型的細(xì)節(jié).
盡管已有學(xué)者在情感分析相關(guān)研究上探測(cè)過(guò)圖像視覺特征[14-16,24]或者圖像中層語(yǔ)義特征[19,25-26],但是僅從單一視覺特征或中層語(yǔ)義特征的角度來(lái)構(gòu)筑視覺情感特征,并不能構(gòu)筑完整的且易于理解的圖像視覺特征.本文同時(shí)從圖像特征提取和圖像中層語(yǔ)義特征提取的角度來(lái)學(xué)習(xí)高層次的視覺情感表示,如圖2中①所示.
圖像的特征提取是基于VGG[27]展開的,其由5個(gè)卷積塊和3個(gè)全連接層組成,且已經(jīng)在1 000個(gè)目標(biāo)分類的ImageNet數(shù)據(jù)集上表現(xiàn)出了極好的性能.本文利用遷移學(xué)習(xí)的策略來(lái)克服ImageNet數(shù)據(jù)集和圖像情感數(shù)據(jù)集的不同差異.首先,VGG16模型在ImageNet的數(shù)據(jù)集上訓(xùn)練好,然后遷移已經(jīng)學(xué)習(xí)好的參數(shù)到情感分析的目標(biāo)中.在提出的模型中,修改最后用于目標(biāo)分類的全連接層為特征映射層,然后提取該全連接層的特征輸出,如圖2中①(a-1)所示.
為了提取更全面的圖像中層語(yǔ)義特征,首先劃分每一個(gè)圖像對(duì)應(yīng)的中層語(yǔ)義特征(ANP)為形容詞和名詞,然后通過(guò)CNN來(lái)分別提取圖像的形容詞描述性特征和名詞客觀性特征.針對(duì)形容詞和名詞的特征提取網(wǎng)絡(luò),CNN采用的是二維卷積,每一個(gè)形容詞或名詞的樣本像單通道圖像一樣被調(diào)整為50×50的大小,利用2個(gè)平行的子網(wǎng)絡(luò),即圖2中①(a-2)中A-net和N-net,其分別由同樣的卷積層和全連接層組成.

Fig. 2 Schematic sketch of deep multi-modal multi-discriminative correlation analysis to learn the visual and textual content圖2 視覺和文本的多模態(tài)深度多重判別性相關(guān)分析圖解
總之,在視覺模態(tài)特征提取上,本文提出聯(lián)合學(xué)習(xí)圖像ANP的形容詞和名詞以及圖像特征以構(gòu)筑具有一定語(yǔ)義的視覺情感特征表示,以此緩解圖像視覺特征和文本語(yǔ)義特征之間的語(yǔ)義鴻溝.后文中將稱視覺模態(tài)特征提取網(wǎng)絡(luò)為f.
文本模態(tài)特征提取網(wǎng)絡(luò)是由詞向量輸入層、卷積層、雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bi-LSTM)層和全連接層組成,如圖2中②所示.
假設(shè)xi∈Rk是句子中第i個(gè)詞對(duì)應(yīng)的k維詞向量,則一個(gè)長(zhǎng)度為n的句子表示為
x1:n=x1⊕x2⊕…⊕xn,
(1)
其中,⊕表示連接操作,在句子矩陣x1:n上利用一個(gè)單層的CNN[28],它的卷積層包含高度分別為h1,h2,h3的3個(gè)濾波器F1∈Rh1×k,F(xiàn)2∈Rh2×k,F(xiàn)3∈Rh3×k.每個(gè)濾波器Fi在輸入的句子序列上進(jìn)行滑動(dòng),當(dāng)Fi應(yīng)用到整個(gè)句子矩陣中每一個(gè)可能的hi窗口的詞上時(shí),就會(huì)產(chǎn)生一個(gè)特征映射ci∈Rn-hi+1,其中某一項(xiàng)窗口的詞的特征映射ci,j為
ci,j=δ(Fi*x[j:j+hi-1]+bi),
(2)
這里*是卷積操作,j=1,2,…,n-hi+1,bi∈R是一個(gè)偏置項(xiàng),δ(·)是一個(gè)非線性激活函數(shù).每一個(gè)濾波器Fi能夠生成M個(gè)這樣的特征映射,因此總共獲得了3M個(gè)特征映射.然后,在濾波器Fi的M個(gè)特征映射向量的每一個(gè)長(zhǎng)度上應(yīng)用最大池化操作,則結(jié)果輸出向量為oi∈RM,具體表示為
(3)
通過(guò)⊕連接每一個(gè)oi得到o=(o1⊕o2⊕o3)∈R3M.然后將o輸入Bi-LSTM網(wǎng)絡(luò),從正向和反向的角度來(lái)使用已提取的特征從而更好地學(xué)習(xí)輸入的文本序列.最后,經(jīng)過(guò)對(duì)文本的序列建模后,將Bi-LSTM的輸出傳遞給全連接的神經(jīng)網(wǎng)絡(luò)以更好地融合時(shí)序特征以形成更容易被區(qū)分的高層特征表示.后文中稱文本模態(tài)特征提取網(wǎng)絡(luò)為g.
本文提出的多模態(tài)深度多重判別性相關(guān)分析是基于典型相關(guān)分析(canonical correlation analysis, CCA)和線性判別分析(linear discriminant analysis, LDA)展開的.兩者都來(lái)自經(jīng)典的多元統(tǒng)計(jì),都依賴于各自輸入特征分布的協(xié)方差結(jié)構(gòu).不同之處在于,CCA是一種適用于多模態(tài)數(shù)據(jù)的分析方法,但是它既沒有考慮標(biāo)簽信息也不能對(duì)各自模態(tài)的內(nèi)部信息進(jìn)行分析;而LDA是一種利用標(biāo)簽信息的且適用于單模態(tài)數(shù)據(jù)的分析方法,但是它不能直接地應(yīng)用到多模態(tài)數(shù)據(jù)分析上,因此可將兩者結(jié)合起來(lái),以充分發(fā)掘各自模型的優(yōu)勢(shì),從而形成一個(gè)在多模態(tài)學(xué)習(xí)過(guò)程中既探究不同模態(tài)之間的最大相關(guān)性又兼顧各自模態(tài)最大判別性的多模態(tài)數(shù)據(jù)處理方法.
多模態(tài)的樣本數(shù)據(jù)往往來(lái)自于異構(gòu)特征空間,不同模態(tài)數(shù)據(jù)的特征分布差異較大,此時(shí)如果將異構(gòu)特征融合后再進(jìn)行LDA,較難取得好的效果.例如,那些來(lái)自于社交網(wǎng)站的圖像和文本,如果直接將圖像和文本的特征融合后再用于LDA,這既沒有考慮圖像和文本的對(duì)應(yīng)關(guān)聯(lián)也沒有考慮圖像和文本各自特征分布的差異.因此本文將在考慮不同模態(tài)之間相關(guān)性的同時(shí),也盡量考慮不同模態(tài)之間的特征分布的差異,即在尋求視覺模態(tài)和文本模態(tài)最大相關(guān)性的同時(shí),兼顧視覺模態(tài)和文本模態(tài)各自的線性判別性.多模態(tài)深度多重判別性相關(guān)分析方法包含2部分:相關(guān)性分析部分和判別性分析部分.
J(f(Xp),g(Xq))=C(f(Xp),g(Xq))+
[D(f(Xp))+D(g(Xq))],
(4)
其中,J(f(Xp),g(Xq))表示p,q模態(tài)間的多重判別性相關(guān)分析的目標(biāo)函數(shù),C(f(Xp),g(Xq))表示兩者模態(tài)間的相關(guān)性分析項(xiàng),D(f(Xp))和D(g(Xq))分別表示各自模態(tài)內(nèi)部的判別性分析項(xiàng).
本文以式(4)為基準(zhǔn)來(lái)設(shè)計(jì)模型,即從不同模態(tài)之間來(lái)考慮多重判別性的相關(guān)分析,下面分別對(duì)模型中的各項(xiàng)進(jìn)行闡述.
2.3.1 多模態(tài)深度相關(guān)性分析
Andrew等人[17]提出基于CCA的端到端的深度神經(jīng)網(wǎng)絡(luò)的解釋方法DCCA,其優(yōu)化目標(biāo)是推動(dòng)多模態(tài)網(wǎng)絡(luò)學(xué)習(xí)高度關(guān)聯(lián)的特征表示.受到DCCA方法的啟發(fā),本文在自定義的多模態(tài)深度網(wǎng)絡(luò)結(jié)構(gòu)f和g下來(lái)學(xué)習(xí)視覺模態(tài)和文本模態(tài)間的相關(guān)性,稱為Multi-DCCA.
在CCA中,首先通過(guò)預(yù)處理的操作,分別使f(Xp)和g(Xq)變成中心數(shù)據(jù)矩陣,表示為
(5)
(6)
其中,N表示數(shù)據(jù)的總數(shù),1∈RN×N表示元素全為1的矩陣.
視覺模態(tài)和文本模態(tài)的頂層特征表示的正則化自協(xié)方差矩陣,分別表示為
(7)
(8)
其中,rp,rq是正則化參數(shù),是為了確保協(xié)方差有積極的定義;I是單位矩陣.
除了領(lǐng)域自身的方差外,不同領(lǐng)域?qū)W習(xí)到的特征表示的交叉協(xié)方差矩陣為
(9)

(10)
2.3.2 多模態(tài)深度判別性分析
Dorfer等人[18]提出基于LDA的端到端的深度神經(jīng)網(wǎng)絡(luò)的解釋方法DeepLDA,其優(yōu)化目標(biāo)是推動(dòng)網(wǎng)絡(luò)在頂層表示上學(xué)習(xí)線性可分的潛在空間.受到 DeepLDA的啟發(fā),本文在視覺模態(tài)特征提取網(wǎng)絡(luò)f的頂層和文本模態(tài)特征提取網(wǎng)絡(luò)g的頂層同時(shí)學(xué)習(xí)可以最大化C個(gè)不同的多模態(tài)數(shù)據(jù)類別之間區(qū)分的潛在表示,稱為Multi-DeepLDA.
對(duì)于LDA而言,Σpp可作為視覺模態(tài)的總體離散度矩陣,同理Σqq可作為文本模態(tài)的總體離散度矩陣.此外,由于圖像-文本對(duì)的標(biāo)簽屬于C個(gè)不同的類c∈{k1,k2,…,kC},則LDA還需要C個(gè)不同類別中每個(gè)類別的視覺模態(tài)和文本模態(tài)的協(xié)方差矩陣Σpc,Σqc,以及視覺模態(tài)和文本模態(tài)中所有不同類協(xié)方差矩陣的均值Σpw,Σqw,即類內(nèi)離散度矩陣,分別表示為
(11)
(12)
(13)
(14)
其中,r是正則化參數(shù),是為了確保協(xié)方差有積極的定義.
最后,通過(guò)總體離散度矩陣Σpp,Σqq和類內(nèi)離散度矩陣Σpw,Σqw來(lái)定義視覺模態(tài)和文本模態(tài)的各自類間離散度矩陣Σpb,Σqb:
Σpb=Σpp-Σpw;Σqb=Σqq-Σqw,
(15)
則Multi-DeepLDA是通過(guò)找到視覺模態(tài)和文本模態(tài)內(nèi)部的映射矩陣A1和A2,使得在相同標(biāo)簽下各自模態(tài)內(nèi)的類間離散度矩陣和類內(nèi)離散度矩陣的比值最大化,具體表述為
(16)
(17)
其中,映射矩陣A1和A2分別轉(zhuǎn)化各自模態(tài)的數(shù)據(jù)到一個(gè)C-1維的空間中,在各自空間中的映射特征變得線性可區(qū)分.
總而言之,經(jīng)濟(jì)全球化的發(fā)展既加深了世界各國(guó)之間的依賴程度與依存程度,又縮小了各國(guó)之間的比較優(yōu)勢(shì),加劇了國(guó)家之間的競(jìng)爭(zhēng)與貿(mào)易摩擦。中國(guó)對(duì)外開放的深入與現(xiàn)代化進(jìn)程的發(fā)展使中國(guó)逐步進(jìn)入到了貿(mào)易摩擦的高發(fā)期,而中美貿(mào)易摩擦是其中最嚴(yán)重的貿(mào)易問(wèn)題。因此,我國(guó)應(yīng)該積極地采取相應(yīng)的措施,不斷加強(qiáng)自身的經(jīng)濟(jì)建設(shè),提高生產(chǎn)技術(shù)水平,調(diào)整企業(yè)的生產(chǎn)方式與出口策略,以減少中美貿(mào)易摩擦所帶來(lái)的負(fù)面影響,促進(jìn)中美經(jīng)濟(jì)互利共贏的發(fā)展。

(18)

2.3.3 相關(guān)分析與判別分析的融合
綜合2.3.1節(jié)和2.3.2節(jié)可看出,Multi-DCCA和Multi-DeepLDA都是基于相對(duì)應(yīng)的特征值問(wèn)題的特征結(jié)構(gòu)優(yōu)化的.其中,Multi-DCCA的優(yōu)化是把最大化視覺模態(tài)特征提取網(wǎng)絡(luò)f和文本模態(tài)特征提取網(wǎng)絡(luò)g的隱層輸出的相關(guān)性作為目標(biāo)來(lái)求解矩陣T的奇異值;而Multi-DeepLDA的優(yōu)化是在相同的多模態(tài)類別下最大化視覺的和文本的各自模態(tài)內(nèi)類別的區(qū)分,其由相對(duì)應(yīng)的廣義特征值問(wèn)題的特征值大小進(jìn)行量化.盡管兩者的優(yōu)化有差異,但是這2種方法有相同之處,即它們都反向傳播一個(gè)由特征值問(wèn)題引起的誤差來(lái)調(diào)整深度神經(jīng)網(wǎng)絡(luò)的參數(shù).
故多模態(tài)深度多重判別性相關(guān)分析是同時(shí)使用Multi-DCCA和Multi-DeepLDA的模型和優(yōu)化理論,即同時(shí)優(yōu)化2個(gè)不同模態(tài)之間隱層表示的相關(guān)性以及使各自模態(tài)學(xué)到表示具有判別性能力的聯(lián)合優(yōu)化目標(biāo)的形式化表示為
(19)
其中,第1項(xiàng)是為了優(yōu)化視覺模態(tài)和文本模態(tài)之間的相關(guān)性,其中用L來(lái)泛化典型相關(guān);而第2項(xiàng)和第3項(xiàng)分別是為了優(yōu)化視覺模態(tài)和文本模態(tài)的判別性.
多模態(tài)深度多重判別性的優(yōu)化目標(biāo)式(19)是個(gè)端到端的優(yōu)化過(guò)程,首先需要計(jì)算相關(guān)性的優(yōu)化目標(biāo)分別對(duì)f(Xp)和g(Xq)的梯度,以及各自判別性的優(yōu)化目標(biāo)對(duì)f(Xp)和g(Xq)的梯度,然后沿著多模態(tài)網(wǎng)絡(luò)的2個(gè)分支并通過(guò)標(biāo)準(zhǔn)的反向傳播的方法計(jì)算針對(duì)θp和θq的梯度.

(20)
其中,式(20)中的第1項(xiàng)是在無(wú)監(jiān)督的情況下,致力于使2個(gè)不同模態(tài)之間具有最大相關(guān)性,即兩者的距離最小;而第2項(xiàng)是在相同標(biāo)簽的有監(jiān)督情況下,致力于使2個(gè)模態(tài)能夠各自產(chǎn)生具有可區(qū)分性的特征表示.
那些來(lái)自于社交網(wǎng)站上的圖像-文本的共現(xiàn)數(shù)據(jù),在人類概念理解層面上兩者之間是存在語(yǔ)義相關(guān)性的,但是在特征層面上兩者之間并沒有關(guān)系,且屬于異構(gòu)模態(tài)特征,存在較大的語(yǔ)義鴻溝.經(jīng)過(guò)上述系列操作,將存在語(yǔ)義相關(guān)的成對(duì)的圖像-文本數(shù)據(jù)轉(zhuǎn)化成在具體特征形式上的最大相關(guān),即在特征層次上將圖像數(shù)據(jù)和對(duì)應(yīng)的文本數(shù)據(jù)建立起關(guān)聯(lián),從而使兩者之間差異更小,如式(20)所示,這一定程度上緩解了異構(gòu)模態(tài)特征之間的鴻溝,且使各個(gè)模態(tài)具有優(yōu)異的判別能力.
受人類視覺注意力啟發(fā)的注意力模塊提供了一種機(jī)制來(lái)推斷局部特征對(duì)于整體特征的相對(duì)重要性.鑒于它能夠提供完整的可微性和可解釋性來(lái)發(fā)掘網(wǎng)絡(luò)關(guān)注的重點(diǎn),目前已經(jīng)在許多神經(jīng)網(wǎng)絡(luò)的應(yīng)用中作為默認(rèn)的組成部分.注意力模塊可以是只關(guān)注整體特征中某一特定部分的硬性注意力機(jī)制,也可以是通過(guò)重要性的概率分布來(lái)分配給所有特征的軟性注意力機(jī)制.本文主要選擇軟性注意力機(jī)制來(lái)展開后續(xù)的研究.
hI=tanh(WvIfI(vI)⊙WvSfS(vS)),
(21)
α=softmax(WhIhI+bhI),
(22)
其中,WvI,WvS,WhI,bhI是參數(shù),使用⊙表示視覺特征表示和語(yǔ)義特征表示的結(jié)合,其中視覺特征fI(vI)∈Rd和語(yǔ)義特征fS(vS)∈Rd具有相同的特征維度d,通過(guò)對(duì)應(yīng)交互視覺特征fI(vI)和語(yǔ)義特征fS(vS)從而形成視覺語(yǔ)義特征fIS(v),為了更加頻繁地深入交互特征元素,繼續(xù)學(xué)習(xí)fIS(v)使其特征元素全部關(guān)聯(lián)到d維特征空間中,從而形成具有特征之間內(nèi)部關(guān)聯(lián)的新的視覺語(yǔ)義特征hI,因此可得對(duì)應(yīng)于hI中特征的注意力概率α∈Rd,是一個(gè)d維向量.
基于每一個(gè)特征i的視覺注意力概率αi,新的判別性視覺特征表示通過(guò)視覺特征的權(quán)重和來(lái)構(gòu)造,即:
(23)

Fig. 3 Schematic sketch of multi-modal attention fusion network for sentiment classification圖3 多模態(tài)注意力融合網(wǎng)絡(luò)的情感分類圖解

(24)
β=softmax(WhShS+bhS),
(25)
(26)
同理,式(24)~(26)中的參數(shù)設(shè)置與基于語(yǔ)義的視覺注意力的等式設(shè)置相同.
總之,基于語(yǔ)義的視覺注意力和基于視覺的語(yǔ)義注意力是一個(gè)交互影響的過(guò)程,通過(guò)交互來(lái)形成更好的有利于圖像和文本進(jìn)行深層融合的特征表示.為了探索圖像和文本之間更深層次的內(nèi)部關(guān)聯(lián),可以嘗試多次序列化地迭代交互視覺特征和語(yǔ)義特征,即形成嵌套的co-attention網(wǎng)絡(luò).


(27)
其中,⊕是連接操作.在網(wǎng)絡(luò)學(xué)習(xí)的過(guò)程中,隱藏層可以自動(dòng)地結(jié)合視覺的和文本的情感表示.
在獲得了融合特征vm之后,通過(guò)2層全連接神經(jīng)網(wǎng)絡(luò)fm進(jìn)一步捕獲更深層次的內(nèi)部關(guān)聯(lián),將最后一個(gè)全連接層的輸出通過(guò)softmax層產(chǎn)生分類標(biāo)簽的分布,如圖3中②所示,該過(guò)程簡(jiǎn)要描述為
(28)
其中,Wfm∈RC×d和bfm∈RC是參數(shù),C是標(biāo)簽的數(shù)量,在多模態(tài)注意力融合網(wǎng)絡(luò)模型的設(shè)置中,vI和vS的輸入到最后的分類是一個(gè)端到端的過(guò)程,該模型使用分類交叉熵計(jì)算基于反向傳播的訓(xùn)練的批量損失.
(29)

本節(jié)首先介紹實(shí)驗(yàn)中要用到的5個(gè)數(shù)據(jù)集,其中3個(gè)是根據(jù)ANP[19,25 ]從不同的社交網(wǎng)絡(luò)上爬取的,另外2個(gè)是來(lái)自于公開的數(shù)據(jù)集[4];然后介紹了本文實(shí)驗(yàn)中的一些設(shè)置;最后通過(guò)實(shí)驗(yàn)來(lái)評(píng)估本文提出方法的性能,大致包括2部分內(nèi)容:1)從整體情感分類性能的角度來(lái)比較本文提出方法和其他對(duì)比方法的實(shí)驗(yàn)結(jié)果的差異;2)從局部模型設(shè)置合理性的角度來(lái)確定整體模型中的2個(gè)關(guān)鍵部分對(duì)情感分類結(jié)果的影響.
在目前的多模態(tài)情感分析中,由于存在一些可以構(gòu)建的具有英文描述的圖像-文本對(duì)的多模態(tài)情感數(shù)據(jù)集,而缺乏公開的具有中文描述的多模態(tài)情感數(shù)據(jù)集,故在本文后續(xù)的實(shí)驗(yàn)中主要討論英文描述的圖文多媒體情感數(shù)據(jù)集.但是本文提出的模型同樣也適用于具有中文描述的多模態(tài)情感數(shù)據(jù)集,這是因?yàn)楸疚奶岢龅哪P椭饕P(guān)注的是構(gòu)建視覺語(yǔ)義和文本語(yǔ)義之間的深層關(guān)聯(lián)交互,與文本語(yǔ)言的表現(xiàn)形式關(guān)系不大.語(yǔ)言形式對(duì)模型的影響將在今后進(jìn)一步的工作中驗(yàn)證.
由此,首先利用不同的情感關(guān)鍵詞查詢視覺中國(guó)官網(wǎng)的搜索引擎來(lái)構(gòu)筑數(shù)據(jù)集.具體而言,利用視覺情感本體庫(kù)(VSO)中3 244個(gè)ANP[19]作為情感關(guān)鍵詞從視覺中國(guó)網(wǎng)站上的Getty專區(qū)爬取38 363條圖像-文本對(duì),稱其為VCGI數(shù)據(jù)集;此外,從3 244個(gè)ANP[19]中隨機(jī)選出300個(gè)ANP作為情感關(guān)鍵詞,又從相同的網(wǎng)站上爬取37 158條圖像-文本對(duì),稱其為VCGII數(shù)據(jù)集.
此外,多語(yǔ)言視覺情感本體庫(kù)MVSO是由來(lái)自于12種語(yǔ)言(例如中文、英文等)的15 600個(gè)概念構(gòu)成,這些概念和圖像中表達(dá)的情感和情緒密切相關(guān).類似于VSO數(shù)據(jù)集,這些概念也以ANP的形式定義.與VCG數(shù)據(jù)獲取的方式相同,利用MVSO[25]中提供的英文語(yǔ)言ANP,選取其中情感分?jǐn)?shù)絕對(duì)值大于1的ANP作為關(guān)鍵詞從社交網(wǎng)站Flickr上爬取75 516條圖像與其相對(duì)應(yīng)的標(biāo)題、標(biāo)簽、描述,稱其為MVSO-EN數(shù)據(jù)集.
文獻(xiàn)[4]中公開了帶有3個(gè)標(biāo)注(積極、中性、消極)的Flickr圖像ID,幸運(yùn)的是Flickr提供了API,其能通過(guò)提供的唯一ID獲得1張圖像的元數(shù)據(jù)(描述、上傳日期、標(biāo)簽(tags)等),因此利用公開的所有ID從Flickr網(wǎng)站上爬取了6萬(wàn)余張圖像以及相對(duì)應(yīng)的標(biāo)題、標(biāo)簽、描述,稱其為Flickr數(shù)據(jù)集.
對(duì)于來(lái)自于Getty圖像的2個(gè)數(shù)據(jù)集,由于存在極少量中文描述的數(shù)據(jù)集,則刪除那些描述是中文的圖像-文本對(duì),同時(shí)為了獲得更豐富的文本語(yǔ)義信息,則刪除那些英文描述少于20個(gè)字符的圖像-文本對(duì);對(duì)于MVSO-EN數(shù)據(jù)集和Flickr數(shù)據(jù)集,選擇那些標(biāo)簽和描述至少有1個(gè)存在的數(shù)據(jù),將篩選過(guò)后的數(shù)據(jù)集中存在的標(biāo)簽、描述、標(biāo)題組合成文本信息(這里并不是所有的數(shù)據(jù)都是三者都有,但至少有1個(gè)).由于文本中存在一些不是詞匯的內(nèi)容,而是以鏈接、符號(hào)等明顯不含語(yǔ)義信息的內(nèi)容形式展示,則利用wordnet刪除文本信息中不在wordnet中的詞匯以生成最終的文本.
VCG數(shù)據(jù)集和MVSO-EN數(shù)據(jù)集中圖像的情感極性標(biāo)簽來(lái)自于ANP的情感分?jǐn)?shù)值,而Flickr數(shù)據(jù)集中圖像的情感標(biāo)簽來(lái)自于人工標(biāo)注,將至少2個(gè)人標(biāo)注為積極的圖像的極性標(biāo)簽認(rèn)為是積極,至少2個(gè)人標(biāo)注為中性的圖像的極性標(biāo)簽認(rèn)為是中性,至少2個(gè)人標(biāo)注為消極的圖像的極性標(biāo)簽認(rèn)為是消極.此外,處理后的Flickr數(shù)據(jù)集有3萬(wàn)多張積極標(biāo)簽的圖像,明顯高于消極的和中性的數(shù)量.為了人工構(gòu)造一個(gè)較平衡的數(shù)據(jù)集,從積極的圖像中隨機(jī)取樣一些與消極或中性大致數(shù)量相等的數(shù)據(jù).因此得到了本文在實(shí)驗(yàn)中使用的5個(gè)數(shù)據(jù)集,分別為VCGI,VCGII,MVSO-EN,F(xiàn)lickr-2,F(xiàn)lickr-3,其具體信息統(tǒng)計(jì)如表1所示:

Table 1 Statistic of The Datasets表1 實(shí)驗(yàn)使用數(shù)據(jù)集統(tǒng)計(jì)
VCG數(shù)據(jù)來(lái)自于視覺中國(guó)網(wǎng)站的Getty專區(qū),其圖像的文本描述相對(duì)正式和簡(jiǎn)潔.由于其文本長(zhǎng)度普遍較短且長(zhǎng)短不一,則選取所用訓(xùn)練集中最長(zhǎng)的文本長(zhǎng)度為最大長(zhǎng)度,不足最大長(zhǎng)度的文本用零向量填充.MVSO-EN數(shù)據(jù)集和Flickr數(shù)據(jù)集均來(lái)自社交網(wǎng)站Flickr,不同的是獲取數(shù)據(jù)的方式以及圖像標(biāo)簽(label)的方法不同.由于不是所有的圖像共現(xiàn)的文本信息中都含有標(biāo)簽(tags)、描述和標(biāo)題,則文本長(zhǎng)度長(zhǎng)短不一且差別較大,故截取最大文本長(zhǎng)度為300,不足最大長(zhǎng)度的文本以零向量填充.
每一個(gè)詞向量的維度設(shè)置為300,在訓(xùn)練過(guò)程中微調(diào)詞向量來(lái)適應(yīng)本文使用的情感數(shù)據(jù)集.文本模態(tài)特征提取網(wǎng)絡(luò)的卷積核在實(shí)驗(yàn)中使用了3個(gè)不同的卷積核尺寸,分別為3,4,5,且針對(duì)每一個(gè)卷積核尺寸采用了20個(gè)濾波器.此外,針對(duì)所有的圖像都調(diào)整其為相同的大小224×224.在實(shí)驗(yàn)中總共有2個(gè)端到端的優(yōu)化過(guò)程:1)多模態(tài)深度多重判別性相關(guān)分析的優(yōu)化,除了在最后關(guān)聯(lián)層上采用線性(linear)激活函數(shù),其他網(wǎng)絡(luò)層的輸出均連接到ReLU激活函數(shù);2)多模態(tài)注意力融合網(wǎng)絡(luò)的分類交叉熵的優(yōu)化,每一個(gè)全連接層(除最后一個(gè))的輸出均連接到ReLU激活函數(shù),最后一個(gè)全連接層的輸出采用softmax進(jìn)行分類.但是這2個(gè)優(yōu)化的過(guò)程均使用小批量的RMSprop方法[29]來(lái)優(yōu)化網(wǎng)絡(luò).為了防止過(guò)擬合,實(shí)驗(yàn)中整體模型上均采用Dropout策略,具體設(shè)定Dropout的值為0.5.
本文實(shí)驗(yàn)主要評(píng)估提出的方法在二分類(積極、消極)目標(biāo)和三分類(積極、消極、中性)目標(biāo)上的效果.針對(duì)情感分類準(zhǔn)確性評(píng)估和局部模型效用評(píng)估的所有實(shí)驗(yàn)中,每個(gè)實(shí)驗(yàn)均從各自對(duì)應(yīng)數(shù)據(jù)集中隨機(jī)選取80%用于訓(xùn)練,20%用于測(cè)試.
3.3.1 對(duì)比方法
為了證明提出方法的有效性,首先比較其與僅用圖像和僅用文本進(jìn)行情感分析的方法,然后進(jìn)一步比較其與其他相關(guān)的圖文融合情感分類方法的性能.對(duì)比方法說(shuō)明有4種:
1) S -Visual. 利用文獻(xiàn)[30]中提出的基于遷移學(xué)習(xí)的視覺情感分析方法,不同的是本文實(shí)驗(yàn)利用VGG-16net網(wǎng)絡(luò)模型.
2) S -Text. 利用本文提出的文本模態(tài)特征提取網(wǎng)絡(luò),并通過(guò)softmax層對(duì)文本進(jìn)行情感分類.
3) CNN-Multi. 由3個(gè)CNN組成.預(yù)訓(xùn)練的文本CNN和圖像CNN分別抽取文本和圖像的特征表示,然后拼接2個(gè)特征向量輸入到另一個(gè)僅有4個(gè)全連接層的multi-CNN結(jié)構(gòu).文本CNN中的卷積層用的是二維卷積,每一個(gè)文本樣本的維度像單通道圖像一樣被調(diào)整為50×50的大小[5].
4) DNN-Multi. 方法同CNN-Multi,不同的是利用本文提出的視覺模態(tài)特征提取網(wǎng)絡(luò)和文本模態(tài)特征提取網(wǎng)絡(luò)分別抽取圖像和文本的特征表示,然后拼接2個(gè)特征向量輸入到另一個(gè)有4個(gè)全連接層的結(jié)構(gòu)中.
3.3.2 結(jié)果與討論
表2展示了本文方法和對(duì)比方法在2個(gè)VCG數(shù)據(jù)集上的比較結(jié)果.如表2所示,本文提出的層次化深度關(guān)聯(lián)融合網(wǎng)絡(luò)的方法DDC+co-attention和DANDC+co-attention的分類效果明顯優(yōu)于單模態(tài)圖像S -Visual和單模態(tài)文本S -Text的分類效果,說(shuō)明學(xué)習(xí)圖文多媒體內(nèi)容的特征能更好地理解用戶的情感.此外,盡管CNN-Multi在多模態(tài)情感分析的任務(wù)上取得了一定的效果,然而其特征提取的網(wǎng)絡(luò)模型比較簡(jiǎn)單,故修改CNN-Multi網(wǎng)絡(luò)結(jié)構(gòu)的DNN-Multi方法取得了更優(yōu)異的效果,這一定程度上說(shuō)明設(shè)計(jì)合適的網(wǎng)絡(luò)結(jié)構(gòu)有益于學(xué)習(xí)好的特征表示以更好地服務(wù)于情感分類.
Table 2Accuracy of Different Methods on VCGI andVCGII Dataset
表2 在VCGI和VCGII數(shù)據(jù)集上不同方法的準(zhǔn)確率%

Notes: The bold values are the accuracy obtained by our method.
然而CNN-Multi和DNN-Multi都是首先分別提取圖像和文本的特征然后再進(jìn)行融合,不是共同地學(xué)習(xí)成對(duì)的圖像-文本數(shù)據(jù),而社交媒體上共現(xiàn)的圖像-文本數(shù)據(jù)往往是存在語(yǔ)義概念相關(guān)的,若分別提取圖像特征和文本特征后再進(jìn)行特征融合,這會(huì)割裂圖像與文本之間對(duì)應(yīng)的語(yǔ)義關(guān)聯(lián).本文提出的方法是同時(shí)共同地學(xué)習(xí)圖像-文本的共現(xiàn)數(shù)據(jù),且效果也優(yōu)于CNN-Multi和DNN-Multi,這表明在多模態(tài)情感分析任務(wù)上同時(shí)處理成對(duì)的圖像-文本的共現(xiàn)數(shù)據(jù)是必要的.如表2所示,提出的方法在VCGI和VCGII數(shù)據(jù)集上相較對(duì)比方法均展示出更好的性能,說(shuō)明提出的方法在相同領(lǐng)域不同背景的數(shù)據(jù)集下具有領(lǐng)域適應(yīng)能力.
表3分別展示了本文方法和對(duì)比方法在MVSO-EN數(shù)據(jù)集和Flickr數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果.盡管MVSO-EN數(shù)據(jù)集和Flickr數(shù)據(jù)集都是來(lái)自于Flickr社交網(wǎng)站,但是它們數(shù)據(jù)集的構(gòu)造方式略有不同,其中MVSO-EN數(shù)據(jù)集和VCG數(shù)據(jù)集的構(gòu)造方式相同,則針對(duì)MVSO-EN數(shù)據(jù)集的實(shí)驗(yàn)評(píng)估,采取了與表2中VCG數(shù)據(jù)集同樣的對(duì)比方式,且本文的方法DDC+co-attention和DANDC+co-attention都展示了優(yōu)異的性能.
Table 3Accuracy of Different Methods on MVSO-EN andFlickr Dataset
表3 在MVSO-EN和Flickr數(shù)據(jù)集上不同方法的準(zhǔn)確率%

Notes: The bold values are the accuracy obtained by our method.
此外,由于Flickr數(shù)據(jù)集的標(biāo)簽來(lái)自于人工標(biāo)注,故沒有圖像的ANP信息,則在Flickr數(shù)據(jù)集上不能評(píng)估DANDC+co-attention的性能,表3中空白表示無(wú)實(shí)驗(yàn)數(shù)據(jù).但是由于本文使用的Flickr數(shù)據(jù)集來(lái)自于人工標(biāo)注,其標(biāo)簽相比更準(zhǔn)確,同時(shí)為了證明本文提出的DDC+co-attention同樣適用于三分類的目標(biāo),故針對(duì)Flickr數(shù)據(jù)集,在二分類目標(biāo)和三分類目標(biāo)上都進(jìn)行了分類性能評(píng)估,其中在Flickr-2數(shù)據(jù)集上是為了評(píng)估二分類目標(biāo),而在Flickr-3數(shù)據(jù)集上是為了評(píng)估三分類目標(biāo),且在Flickr-2和Flickr-3這2個(gè)數(shù)據(jù)集上DDC+co-attention均較對(duì)比方法展示了更好的性能.
盡管表2和表3的實(shí)驗(yàn)已經(jīng)展示了本文提出的方法可以達(dá)到更好的情感分類效果,但是在本文提出的層次化深度關(guān)聯(lián)融合網(wǎng)絡(luò)的模型中,不僅考慮了經(jīng)過(guò)多模態(tài)深度多重判別性相關(guān)分析的優(yōu)化而生成的最大相關(guān)的判別性視覺特征表示和判別性語(yǔ)義特征表示,還在多模態(tài)注意力的融合網(wǎng)絡(luò)中序列化地研究了圖像視覺特征和文本語(yǔ)義特征之間的協(xié)同關(guān)注(co-attention).為了探討這2部分模型的設(shè)置對(duì)圖像和文本融合的情感分類結(jié)果的貢獻(xiàn)度以及合理性,則分別做實(shí)驗(yàn)來(lái)評(píng)估這2個(gè)部分的性能.
3.4.1 對(duì)比方法
首先,通過(guò)設(shè)定實(shí)驗(yàn)來(lái)評(píng)估多模態(tài)深度多重判別性相關(guān)分析的合理性.對(duì)比方法設(shè)置為:
1) DNN-S.利用DNN-Multi方法中的DNN網(wǎng)絡(luò)結(jié)構(gòu)分別提取圖像和文本的特征,然后拼接特征向量輸入softmax層進(jìn)行情感分類.
2) DC-S.利用文獻(xiàn)[17]中提出的深度相關(guān)性分析的方法,不同于文獻(xiàn)[17]中的網(wǎng)絡(luò)結(jié)構(gòu),而是利用本文提出的視覺模態(tài)特征提取網(wǎng)絡(luò)和文本模態(tài)特征提取網(wǎng)絡(luò)來(lái)共同提取圖像和文本的最大相關(guān)的視覺和語(yǔ)義的映射特征,將圖文映射特征融合后通過(guò)softmax層進(jìn)行情感分類.
3) DDC-S.利用本文DDC的方法共同地提取圖像和文本的最大相關(guān)的判別性視覺和語(yǔ)義的映射特征,將視覺和語(yǔ)義映射特征融合后通過(guò)softmax層進(jìn)行情感分類.
4) DANDC-S.利用本文DANDC的方法共同地提取圖像和文本的最大相關(guān)的判別性視覺和語(yǔ)義的映射特征,將視覺和語(yǔ)義映射特征融合后通過(guò)softmax層進(jìn)行情感分類.
總之,前3組實(shí)驗(yàn)設(shè)置是為了評(píng)估簡(jiǎn)單的特征融合(DNN-S)、具有深度相關(guān)分析的特征映射(DC-S)、具有深度多重判別性相關(guān)分析的特征映射(DDC-S)這三者在情感分類上的性能差異,而DANDC-S是為了評(píng)估在深度多重判別性相關(guān)分析階段,融入圖像中層語(yǔ)義特征對(duì)分類結(jié)果的影響.
其次,通過(guò)設(shè)定實(shí)驗(yàn)來(lái)評(píng)估多模態(tài)協(xié)同注意力(co-attention)設(shè)置的合理性,對(duì)比方法設(shè)置為:


3.4.2 結(jié)果與討論

Fig. 4 Evaluate the performance of deep and discriminative correlation analysis on five datasets圖4 在5個(gè)數(shù)據(jù)集上評(píng)估深度判別性相關(guān)分析的性能
圖4的實(shí)驗(yàn)結(jié)果展示了在5個(gè)數(shù)據(jù)集上利用多模態(tài)深度多重判別性相關(guān)分析(DDC-S和DANDC-S)的分類性能均優(yōu)于DNN-S和DC-S,這說(shuō)明利用多重深度判別性相關(guān)分析來(lái)學(xué)習(xí)最大相關(guān)的判別性特征表示是可行且必要的.此外,在視覺模態(tài)上共同學(xué)習(xí)圖像視覺特征和圖像中層語(yǔ)義特征的DANDC-S在除了VCGI數(shù)據(jù)集外的所有數(shù)據(jù)集上的分類結(jié)果上均優(yōu)于僅利用視覺特征的DDC-S.然而,在VCGI數(shù)據(jù)集上DANDC+co-attention的情感分類性能要優(yōu)于DDC+co-attention,如表2所示.此外,在表3中的MVSO-EN數(shù)據(jù)集上,DANDC+co-attention的性能次優(yōu)于DDC+co-attention,但是在多重深度判別性相關(guān)分析階段DANDC-S的分類性能要優(yōu)于DDC-S,如圖4所示.這表明融入圖像的中層語(yǔ)義特征(ANP)在一定程度上對(duì)多模態(tài)情感分類的性能是起積極作用的.
然后,進(jìn)一步評(píng)估co-attention方法設(shè)置的合理性,本實(shí)驗(yàn)僅利用提出的DDC模型生成的最大相關(guān)的判別性視覺特征和判別性語(yǔ)義特征做基準(zhǔn),比較其與same-co-attention和co-attention-2的性能差異.如圖5所示,在5個(gè)數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)均顯示序列化的co-attention相比于非序列化的same-co-attention都取得了略好的情感分類效果,這說(shuō)明先后序列化生成視覺的注意力和語(yǔ)義的注意力的設(shè)置有益于探測(cè)圖像視覺和文本語(yǔ)義之間的深層內(nèi)部關(guān)聯(lián).另外,為了探討嵌套co-attention網(wǎng)絡(luò)的性能,在5個(gè)數(shù)據(jù)集上也相應(yīng)做了實(shí)驗(yàn)評(píng)估.如圖5所示,在Flickr-2和Flickr-3數(shù)據(jù)集上的分類結(jié)果co-attention-2略優(yōu)于co-attention,但在其他數(shù)據(jù)集上效果反而不如co-attention的性能.由于增加co-attention網(wǎng)絡(luò)的迭代交互的次數(shù),不僅會(huì)使模型變得更復(fù)雜,而且在實(shí)驗(yàn)中需要更多的訓(xùn)練時(shí)間.很顯然,嵌套序列交互后的效果沒有明顯的提升甚至在幾個(gè)數(shù)據(jù)集上反而下降,因此,實(shí)驗(yàn)設(shè)置中沒有必要去設(shè)置更多嵌套co-attention層的模型.

Fig. 5 Evaluate the performance of co-attention settings on five datasets圖5 在5個(gè)數(shù)據(jù)集上評(píng)估co-attention設(shè)置的性能
近年來(lái),多模態(tài)情感分析已經(jīng)成為一個(gè)日益重要的研究熱點(diǎn),尤其在社交媒體大數(shù)據(jù)的環(huán)境下.本文提出一個(gè)新穎的層次化深度關(guān)聯(lián)融合網(wǎng)絡(luò)結(jié)構(gòu)用于多模態(tài)情感分析.在提出的方法中,首先依賴提出的多模態(tài)深度多重判別性相關(guān)分析的模型共同學(xué)習(xí)最大相關(guān)的判別性視覺特征表示和判別性語(yǔ)義特征表示.基于這2種特征表示,進(jìn)一步提出多模態(tài)注意力融合網(wǎng)絡(luò)的情感分類模型,首先,序列化地生成語(yǔ)義的視覺注意力和視覺的語(yǔ)義注意力來(lái)交互視覺和語(yǔ)義,從而獲得圖像的和文本的更深層和更判別性的特征表示;然后,合并最新的圖像視覺特征和文本語(yǔ)義特征后并通過(guò)全連接神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)后再用于訓(xùn)練情感分類器.在5個(gè)真實(shí)數(shù)據(jù)集上已經(jīng)評(píng)估了提出方法的有效性,且實(shí)驗(yàn)結(jié)果表明本文提出的層次化深度關(guān)聯(lián)融合網(wǎng)絡(luò)的圖文媒體情感分析方法要優(yōu)于其他相關(guān)的方法.
在未來(lái)的工作中將考慮不同的文本語(yǔ)言類型、圖像的區(qū)域化語(yǔ)義,設(shè)計(jì)更好的多模態(tài)網(wǎng)絡(luò)提取結(jié)構(gòu)以及更合理的注意力網(wǎng)絡(luò)模型用于情感分析,此外,還將研究更好的特征融合策略以進(jìn)一步提高異構(gòu)多模態(tài)特征融合的性能.