999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于交互圖神經網絡的方面級多模態情感分析

2023-02-21 04:50:40李麗李平
計算機應用研究 2023年12期

李麗 李平

摘 要:多模態情感表征的關鍵是有效地從多模態數據中提取和融合特征。盡管,交叉注意力機制的方法能夠增強多模態數據的特征融合;但是,交叉注意力僅建立單一模態的全局語義與另一模態局部特征的關聯,不足以反映多模態在局部特征上的對齊關系。為了獲取多模態間的深度交互信息,提出一種模態交互圖神經網絡,借助于方面詞,將不同模態的語義單元進行連接,形成多模態交互圖;然后,利用圖注意力網絡中的消息傳遞機制進行特征融合。在兩個基準數據集上的實驗結果表明,相比于當前先進的注意力模型,模態交互圖神經網絡在實現局部信息間的特征交互方面更加有效,且具有更小的時間復雜度。

關鍵詞:方面級多模態情感分析; 模態交互圖神經網絡; 圖注意力網絡

中圖分類號:TP391?? 文獻標志碼:A?? 文章編號:1001-3695(2023)12-025-3683-07

doi:10.19734/j.issn.1001-3695.2022.10.0532

Aspectlevel multimodal sentiment analysis based on interaction graph neural network

Abstract:The key to multimodal sentiment representation is to effectively extract and fuse features from multimodal data. Although the method of crossattention mechanism can enhance the feature fusion of multimodal data. However, crossattention only establishes the association between the global semantics of a single modality and the local features of another modality, which is not enough to reflect the alignment relationship of multimodalities on local features. In order to obtain indepth interaction information between multiple modalities, this paper proposed a modal interaction graph neural network, which connected semantic units of different modalities by means of aspect words to form a multimodal interaction graph. Then, it used the message passing mechanism in the graph attention network to carry out feature fusion. Experimental results on two benchmark datasets show that compared with the current advanced attention models, the modal interaction graph neural network is more effective in realizing the feature interaction between local information, and has a smaller time complexity.

Key words:aspectlevel multimodal sentiment analysis; modal interaction graph neural network; graph attention network

0 引言

情感分析的目的是利用自然語言處理技術挖掘文本中的主觀信息(如觀點、態度、情感傾向等)。在過去的幾十年中,識別文本中的情感極性被廣泛研究,并應用于金融市場預測[1]、商業評論分析[2]、政治活動[3]、犯罪預測[4]等。根據不同的粒度,情感分析可分為文檔級、句子級和方面級。文檔級和句子級情感分析為預測一段文本的整體情感極性,不同之處在于文檔級情感分析需要對更長的文本進行建模。相對于文檔/句子級情感分析,方面級情感分析側重于預測特定目標方面的情感極性。例如,在“我對這部電影的題材很感興趣,但是演員我不是特別喜歡。”這句話中提到了電影的“題材”和“演員”兩個方面,并且表達了相反的態度。近年來,隨著深度學習技術的發展,面向方面的情感分析任務也取得了巨大的成功。例如:Chen等人[5]提出的記憶循環注意網絡(recurrent attention network on memory,RAM)、Sun等人[6]提出的依存樹上的卷積模型(convolution over dependency tree,CDT)、Wang等人[7]提出的關系圖注意力網絡(relational graph attention network,RGAT),這些模型都取得了不錯的效果。然而,上述模型都只利用了文本模態的信息。由于社交媒體的快速發展,用戶在社交平臺上發表觀點的方式變得越來越多樣化。除了純文本的評論和留言之外,用戶還可以上傳各種各樣的圖片和視頻。俗話說:“有圖有真相”。用戶上傳的這些視覺材料包含了主觀態度的補充信息,用于豐富文本的表述。例如,在評論一款手機的“外觀”時,購買者往往會在評論中添加正面情感的文字和手機的漂亮照片以表示對“外觀”的喜歡;或者使用消極的文字和丑陋的手機照片來表達對“外觀”的不滿意。因此,結合不同模態的數據有助于提升情緒預測的效果。圖1展示了實驗數據集中的幾個代表性例子,每個數據樣本包括一段文本和一張圖片,其中加粗部分為方面短語,下標為該方面的情感極性。例如:在“RT@NYRangers:OFFICIAL:martin St.Louis announces retirement from the National Hockey League.”中,方面為“martin”,情感極性為消極,對應圖像中人物揮手告別的動作及沮喪的表情均可以增強負面情緒的表達。

在方面級多模態任務中,如何有效地進行多模態特征融合是其關鍵所在。一般的多模態融合可以通過拼接、元素求和、哈達瑪積等方法實現。近年來,注意力機制在改善多模態融合方面表現出較好的效果。率先研究方面級多模態情感分析任務的工作是Xu等人[8]在2019年提出的一種多交互記憶網絡模型(multiinteractive memory network,MIMN),該模型通過兩個記憶網絡使文本和視覺特征更專注于給定方面相關的信息。隨后,Yu等人[9]提出實體敏感注意力和融合網絡(entitysensitive attention and fusion network,ESAFN)。它利用注意力機制生成實體敏感的文本表示和實體敏感的視覺表示,并通過門控機制去除視覺上下文中的噪聲。以上基于注意力機制的方法均利用單一模態的全局信息去提取與之相關的另一模態的局部信息。然而,由于各模態中可能包含較為復雜的信息,將模態的整體特征表示用于語義對齊會產生較大噪聲。例如圖1所示的第一個數據樣本,文本講述一個球員宣布從國家冰球聯盟退役,圖像中顯示其悲傷情緒的是揮手的動作和沮喪的表情,背景觀眾和球員的其他身體部分沒有明顯的情感表達。因此,用圖像的整體表征去查詢文本的局部信息容易引入噪聲。此外,基于注意力機制的方法還有另一個弊端,這類方法通常需要精心設計注意力方式,如多層/多次的交互注意力,多層注意力將會引入較多參數,從而增加模型的復雜性。

為了解決交互注意力帶來的以上問題,本文提出了一種模態交互圖神經網絡(interaction graph neural network,IGNN)。IGNN提出的依據是,任意單一模態的語義信息均可以在不同粒度上進行分析,在細粒度上進行模態交互能夠有效減少噪聲信息,例如文本中的無關上下文或圖像中的無關背景。IGNN將各模態的數據分解為細粒度的語義單元,利用方面詞與各個模態之間的關聯性,建立多模態細粒度語義單元之間的聯系,從而使多模態特征融合直接在細粒度語義單元之間進行,即采用局部對齊局部的方式為各模態的表征信息建立映射關系,用于充分融合文本的語義信息和圖像的局部信息。 IGNN對多模態的初始數據進行交互建模,在文本的詞粒度和圖像的局部視覺塊之間建立連接,同時利用文本模態中詞與詞之間的語法依賴關系和圖像中視覺塊之間的空間位置信息在模態內形成聯系,從而構造了一個多模態交互圖。在此基礎上,運用圖神經網絡學習各節點的表示。經過多層卷積后,各模態的語義單元將聚合其他模態節點的特征,從而實現多模態特征的融合。IGNN與MIMN不同的是,IGNN將圖像劃分成不同的視覺塊,有利于模型獲得圖像中與情感和方面有關的局部信息,進而減少無關背景對視覺中情感特征的負面影響。與ESAFN相比,IGNN對多模態的細粒度語義單元進行構圖和建模,反映了多模態在局部特征上的對齊關系。此外,IGNN通過依存樹進行構圖,有效地利用了文本中復雜的語法依賴信息。在兩個基準數據集上的實驗結果表明,該模型能夠有效地完成面向方面的多模態情感分析任務。

本文工作的主要貢獻歸納如下:a)本文提出一種多模態交互的圖模型,將文本詞和視覺塊形成一個多模態交互圖,利用了文本的語法信息及圖像的空間位置信息;b)利用圖注意力神經網絡的消息傳遞機制實現模態間的特征融合;c)在兩個基準數據集上的實驗表明,與一些強基線模型相比,本文模型在方面級情感分析任務中具有一定的競爭性。

1 相關工作

方面級多模態情感分析任務源于方面級情感分析和多模態情感分析兩方面研究的結合。

1.1 方面級情感分析

方面級情感分析是情感分類領域的一個重要分支。目前,主要分為傳統方法和深度學習方法兩大類。傳統方法主要包含基于特征的機器學習方法和基于情感字典的方法,如支持向量機(support vector machine,SVM)[10]等。但這些傳統方法在很大程度上取決于特征工程,工作量較大。

為了應對傳統方法存在的問題,基于深度學習的模型在該研究領域被大量設計。其中,大部分模型利用長短期記憶網絡(long shortterm memory network,LSTM)[11]或注意力機制建模,還有部分模型基于依存樹通過圖卷積網絡建模。例如,Tang等人[12]建立了兩個方面相關的LSTM模型,分別對其左上下文和右上下文進行建模。雖然通過LSTM可以對文本中存在的序列關系進行建模,但是沒有對重要詞和不重要詞進行區分。因此,后來的研究工作將注意力機制運用到該研究領域,用于對不同的詞分配不一樣的權重。例如,Chen等人[5]使用多層注意力機制,捕捉遠距離情感依賴。雖然可以綜合復雜文本的特征,但是注意力機制的層數在不同的情況下應該不同,所以需要一個自適應機制。Yang等人[13]采用交互式注意力機制,交替關注方面和文本中的重要信息。然而,注意力機制無法學習文本中豐富的語法關系。因此,后來的研究工作嘗試基于依存樹進行建模,利用神經網絡學習文本中復雜的語法依賴信息。例如,Sun等人[6]提出基于依存樹通過圖卷積網絡建立模型,從而利用文本的句法信息和語法依賴。Zhang等人[14]擴展了圖卷積網絡的思想,通過給邊分配不同的權值,并且使用卷積層和記憶融合來學習和利用多詞關系。這些基于依存樹的模型在一定程度上利用了文本中的語法依賴關系,但是沒有考慮依賴關系的差異,不同的依賴關系應該具有不同的重要性。

1.2 多模態情感分析

隨著社交媒體的快速發展,情感分析不再局限于傳統的基于純文本的研究,而是利用不同來源的模態信息補充文本信息的情感表達。雖然多模態數據包含更豐富的信息,但是如何有效地融合來自不同信息源的多模態數據是當前多模態情感分析任務的一個關鍵問題。

現有的一些基于深度學習的模型已經取得了不錯的進展。例如,Poria等人[15]提出了一種基于LSTM的模型,使話語能夠在同一視頻中從其周圍環境中捕捉上下文信息。但是不同模態之間可能沒有順序關系,在一段視頻樣本中,各模態之間是并列和互補關系,采用LSTM進行多模態融合并不合理。Ghosal等人[16]提出了一種基于門控循環單元的多模態注意力模型,通過注意力機制學習模態之間的相似信息,融合文本、視頻和語音模態信息進行情感分析。Truong等人[17]利用視覺信息指導文本,決定文檔中不同句子對文檔情感分析的重要程度,該方法將圖片作為文檔中各句子重要性的對齊手段。Yadav等人[18]通過在多個層次上引入注意力機制,利用圖像和文本之間的相關性來提高多模態學習,從視覺和文本中產生有區別的特征,進而豐富多模態表示。Yu等人[19]基于自監督學習策略的標簽生成模塊,獲取獨立的單模態監督。然后,聯合訓練多模態和單模態任務,分別學習一致性和差異性。該方法在一定程度上改善了現有方法在捕捉差異性信息方面的限制,但是,額外的單模態標注耗費的時間和人力成本較高。宋云峰等人[20]提出了一種基于注意力的多層次混合融合的多任務多模態情感分析模型。該模型利用卷積神經網絡和雙向門控循環單元來實現單模態內部特征的提取,通過跨模態注意力機制實現模態間的兩兩特征融合;最后,在不同層次使用自注意力機制實現模態貢獻度選擇。包廣斌等人[21]通過分析相鄰話語之間的依賴關系和文本、語音和視頻模態之間的交互作用,建立了一種融合上下文和雙模態交互注意力的多模態情感分析模型。采用雙向門控循環單元捕獲各模態中話語之間的相互依賴關系,利用一種雙模態交互注意力機制來融合兩種模態的信息,并將其作為條件向量來區分各模態信息對于情感分類的重要程度。

以上模型中,注意力機制考慮的是全局與局部之間的對齊,由于各模態都會存在一定的無用信息,這將導致全局信息中存在與局部特征無關的噪聲。因此,本文提出了一種基于局部特征關聯的模態交互圖神經網絡,用于更加準確地捕獲模態間的相關性和融合多模態信息,獲取多模態間的深度交互。

2 方法

方面級多模態情感分析任務可以定義為:給定一段文本T={w1,w2,…,wn},與文本相關的圖片I,以及文本中提及的特定方面短語A={a1,a2,…,am}。其中,n為文本的長度,m為方面短語的長度,方面級多模態情感分析任務的目的是預測三元組(T,I,A)的情感極性。為了獲取文本信息與圖像信息之間的相關性,本文設計了一種多模態的深度交互圖神經網絡模型。該模型借助于方面短語,將不同模態的細粒度語義單元連接,形成多模態交互圖。從而利用圖神經網絡的消息傳遞機制,實現多模態信息在局部特征上的有效融合。模型的具體框架如圖2所示,該模型主要包括三個部分:a)單模態特征編碼層,分別用相應的預訓練模型獲得文本、方面短語和圖像的初始表示,利用雙向長短期記憶網絡(bidirectional long shortterm memory network,BiLSTM)對文本和方面短語進行編碼,并對圖像的初始表示通過線性變換進行降維。b)交互圖神經網絡層,構造多模態交互圖,并通過圖神經網絡的方法進行消息傳遞,融合來自不同數據源的信息。多模態交互圖的節點為各模態數據的細粒度語義單元,如文本詞、視覺塊和方面短語。其中,文本詞之間的連邊為語法依賴關系,視覺塊之間的連邊為空間位置關系,方面短語與多模態語義單元進行全連接。c)分類層,從上一層的輸出中選擇方面節點的表示,通過多層感知機(multilayer perceptron,MLP)映射到分類空間。

2.1 單模態特征編碼層

在這一層中,將文本、圖像和方面短語作為輸入送到相應的預訓練模型中初始化模態嵌入。然后,通過BiLSTM捕獲文本和方面短語的上下文依賴信息,利用線性變換對圖像特征進行降維。

2.1.1 文本表示

對于文本輸入,可以選擇常用的預訓練模型GloVe[22]、BERT[23]等將單詞映射到一個連續的向量空間。為了避免訓練參數過多,該算法中選擇在預訓練的GloVe中查找單詞的向量表示,將每個單詞表示為一個低維向量,文本嵌入矩陣表示為Ec={ec1,ec2,…,ecn}∈Euclid Math TwoRApde×n。然后,為了將更多的上下文信息整合到詞嵌入中,采用BiLSTM進行上下文語義依賴學習。每個方向的LSTM有三個門控機制(即輸入門、輸出門和遺忘門)和記憶細胞,計算步驟如式(1)~(6)所示。

其中:ft為遺忘門、it為輸入門、ot為輸出門;Wf、Wi、Wo、Wc和bf、bi、bo、bc為可學習的參數;de為詞嵌入空間的維度。

2.1.2 方面表示

方面表示的學習與文本表示學習相似,采用BiLSTM將方面短語的詞嵌入映射到一個高階抽象的表示空間。隨后,通過平均池化進一步獲得方面表示。

ha=Avg(ha1,ha2,…,ham)(8)

2.1.3 圖像表示

對于圖像模態,通過預訓練模型初始化其特征表示。本文使用常用的殘差神經網絡(residual neural network,ResNet)[24]模型之一進行圖像特征提取。給定一個輸入圖像I,首先將其調整為固定像素大小,然后通過ResNet提取不同視覺塊的特征表示,獲得特征矩陣Ei={v1,v2,…,vl2}∈Euclid Math TwoRApdv×l2。由于視覺特征維度與文本特征編碼的維度不同,為了方便特征融合的實現,利用線性變換對圖像的初始表示進行降維。

Hi=WvEi+bv(9)

其中:Wv和bv為可學習的參數;dv為初始視覺特征的維度;l2為劃分的視覺塊個數。

2.2 交互圖神經網絡層

交互圖神經網絡層主要分為兩部分:a)構造多模態交互圖;b)基于多模態圖,通過圖神經網絡的方法進行特征融合。具體框架如圖3所示。首先,進行多模態交互圖的構造。對于文本模態,由于單詞之間存在語法依賴關系,且建模語法依賴有助于文本信息的學習,所以通過依存樹來描述文本模態中的節點及邊。其中,節點為文本中的每一個詞,連邊表示詞與詞間的語法依賴關系。對于圖像模態,將一張圖片劃分成許多視覺塊,視覺塊的劃分借鑒了Yu等人[9]在ESAFN中采用的方法。視覺塊即為模態交互圖中的節點,然后依據視覺塊之間的空間位置關系定義視覺塊之間的連邊,即相鄰視覺塊之間有連邊。由于文本和圖像是對提及的方面短語的描述,所以大部分多模態都與方面詞有關,可以通過全連接并采用GAT賦予不同邊不同的權重來有效地融合相關信息和去除無關信息。因此,對于方面短語構造一個超級節點來表示,將方面節點與其他所有節點進行全連接,構成了一個多模態圖G。

然后,在多模態圖的基礎上,該模型允許使用各種圖神經網絡模型實現消息傳遞。但是,由于不同詞和不同視覺塊的重要性程度不同,該模型選擇圖注意力網絡(graph attention network,GAT)[25]來進行多模態的特征融合。首先,將文本、圖像和方面短語的特征編碼表示進行拼接,獲得特征融合模塊的輸入H1=[Hc,Hi,ha]∈Euclid Math TwoRAp2dh×(n+l2+1)。并且,在融合過程中,將上一層GAT的輸出與輸入拼接之后作為下一層GAT輸入,具體操作如式(10)所示。此外,注意力權重的計算方式如式(11)所示,圖中各節點的表示通過式(12)進行更新。

其中:Watt、Ws和a為可學習的參數;Ni為第i個節點鄰居節點的集合;s表示第幾層GAT;da表示GAT的輸出維度。

2.3 分類層

上一層中,在多模態圖上通過GAT進行了特征融合,來自文本和圖像的信息通過各節點之間的連邊聚合到了方面節點的表示當中。因此,將最后一層GAT輸出中的方面節點表示am用于情感分析。在分類層中,am通過一個MLP映射到分類空間,并使用softmax函數進行分類。

其中:Wa、ba、W和b為可學習參數;σ為激活函數softmax。

在模型訓練過程中,標準交叉熵損失函數加上一個正則項作為訓練目標。

2.4 時間復雜度

由于本文方法采用與基線模型相同的數據預處理方式,所以模型的復雜度主要來自圖學習模塊。考慮到GAT注意力層的操作可以在所有的邊上并行,輸出特征的計算可以在所有頂點上并行,所以基于GAT的多模態融合過程時間復雜度可以表示為O(|V|FF′+|E|F′)。其中,F是輸入的特征數,F′是輸出的特征數,|V|和|E|是圖中頂點數和連邊數。而當前多模態方面級情感分析最優的ESAFN模型主要包括三部分注意力模塊和三部分特征融合模塊,其時間復雜度為O(d2nl+d2nr+(d2+ddv)nl+d2+d2+d2)。其中,d是文本的特征數,dv是圖像的特征數,nl是左上下文長度,nr是右上下文長度,l是視覺塊個數。因此,本文方法相比ESAFN具有更低的時間復雜度。

3 實驗

3.1 數據集和實驗設置

1)數據集 本實驗在兩個多模態基準數據集(Twitter15、Twitter17)上進行,它們由兩個公開可用的多模態命名實體識別(NER)數據集構建,分別包含了2014—2015年和2016—2017年在Twitter上發布的多模式用戶帖子,每個帖子包含一段文本及其相關圖像。在實驗中,每個數據集被劃分為訓練集、驗證集和測試集三個部分,Twitter15包含3 259個訓練樣本、1 148個驗證樣本、1 059個測試樣本,在Twitter17中的對應數字為3 856、1 240、1 331。表1總結了兩個數據集的詳細統計信息。

2)實驗設置 本文所有實驗均通過深度學習框架PyTorch實現。實驗中的文本輸入最大序列長度Twitter15數據集設置為36、Twitter17數據集設置為31,并通過GloVe獲得文本詞嵌入向量,維度為300;然后將嵌入向量輸入到編碼層中,編碼層中BiLSTM網絡隱藏層維度設置值均為50,dropout值設置為0.1;實驗中的圖像數據先切割成固定大小(即224×224),然后將圖像劃分成7×7個視覺塊(即在兩個數據集上的視覺塊參數均設置為7),再通過預訓練模型ResNet152對各視覺塊進行編碼,維度為2 048;最后將視覺塊編碼通過線性變換進行降維,線性變換的輸出維度為100。接下來,通過spaCy自然語言文本處理庫中的依存解析器在文本數據內部進行構圖,通過視覺塊之間的位置相鄰關系在圖像數據內部進行構圖,然后將方面短語超級節點與文本詞和視覺塊進行全連接。接下來,基于多模態交互圖通過GAT進行模態交互和信息融合,GAT的輸出維度為50,兩個數據集上的GAT層數均設置為3,dropout值設置為0.1。最后,通過MLP進行分類,MLP中間層維度為50、輸出維度為3(即情感類別數)。模型訓練過程中采用 Adam優化器進行參數優化,學習率值為0.001,批處理大小為10。為了緩解過擬合問題,訓練過程中還添加了L2正則機制,其參數值為0.000 1。模型的具體參數設置如表2所示。

3.2 基線方法

對比實驗部分,將IGNN與典型的基于文本的方面級情感分析模型和最近的方面級多模態情感分析模型進行比較。

a)LSTM[11]:通過標準LSTM對文本進行建模,并利用隱藏狀態求均值進行情感分析。值得注意的是,此方法不針對特定的方面。

b)MemNet[26]:一個深度內存網絡,其中在詞嵌入和位置嵌入的基礎上應用多層注意機制。

c)AELSTM[27]:通過注意力機制擴展LSTM以捕獲與方面短語相關的重要文本信息。

d)IAN[28]:一種交互式注意力模型,可以對交互信息進行建模以學習文本和方面的表示。然后,將兩者的表示向量拼接在一起以進行最終的方面級情感分析。

e)RAM[5]:在文本BiLSTM的輸出上構建多層注意力框架,并使用BiLSTM進行方面表示學習。該框架中每一層的注意力輸出使用遞歸神經網絡進行非線性組合。

f)MIMN[8]:實現了雙模態方面級情感預測,通過兩個交互式記憶網絡獲取與方面相關的文本信息和視覺信息,并在最后一層對輸出進行連接。

g)ESAFN[9]:一種面向多模態的方法,將方面短語的左右上下文分別建模,并使用注意力機制生成方面級別的文本表示和方面級別的視覺表示。此外,添加了門控機制以消除視覺模態的噪聲。最后,多模態特征通過低秩雙線性方法進行融合。

3.3 對比實驗

實驗部分使用情感分析中常用的準確率和F1值作為指標對所提模型的有效性進行評價,并與3.2節中所介紹的幾種基線方法進行對比。為了實驗的公平性,所有實驗結果都是報告5次訓練的平均值,表3報告了基線模型和IGNN在兩個基準數據集上的性能。

從實驗結果來看,一個重要的結論是,LSTM只建模文本之間的序列特征,這表明文本的整體情感傾向沒有嵌入方面信息,性能會受到明顯的限制。相比之下,特征表示中包含方面信息時,這些方法(如MemNet、AELSTM、IAN和RAM)的性能都優于LSTM。另一個重要的結論是,與單一模態相比,多模態相較于單一模態引入了更豐富的信息,增強了情感極性的表征。其中,ESAFN和IGNN模型都優于基于文本模態的方法(即LSTM、MemNet、AELSTM、IAN和RAM),基于多模態的MIMN方法優于大部分單模態模型。值得注意的是,與ESAFN相比,本文模型不需要區分有關方面的左上下文和右上下文,并且沒有用單一模態的整體表示去查詢另一模態重要信息的方式,降低了噪聲影響,獲取了多模態之間的深度交互信息。本文的IGNN模型在Twitter15和Twitter17數據集上優于所有基線模型,結果表明該方法是一種有效的模態交互圖神經網絡。

通過模型在訓練過程中花費的總時間和訓練參數的總數量進一步評估模型的效率。為了結果的可信度,展示了每種方法訓練5次的時間均值。如表4所示,與ESAFN相比,擬議的IGNN將時間成本降低了超過66%,將參數數量減少30.9%。換言之,與ESAFN相比,IGNN模型以高效率和低計算資源實現了不錯的性能改進。

3.4 消融實驗

針對IGNN模型,消融實驗分析了各個組件對模型性能的貢獻,并分析了這些組件產生效果的具體原因。本文在兩個基準實驗數據集上評估各個模塊的貢獻,并在表4中記錄其結果。其中,“W/O MGNN”表示去除整個構圖和圖學習部分,直接將文本、方面和圖像的整體表示進行拼接;“W/O DT+VG”表示去除依存樹和視覺塊構圖,直接將文本和圖像的整體表示作為節點與方面節點連接;“W/O DT”表示去除依存樹部分,將文本整體表示作為一個圖節點與方面節點進行連接;“W/O VG”表示去除視覺塊構圖部分,將圖像的整體表示作為一個圖節點與方面節點進行連接。從表5可以看出,一方面,當去除整個構圖部分的時候,模型的效果大大下降,說明局部的融合方式提高了模態融合的效果。另一方面,當單獨去掉依存樹或者視覺塊構圖的情況下,模型效果都高于“W/O DT+VG”且低于完整的IGNN模型,這說明通過依存樹建模文本中的語法信息,采用視覺塊的空間位置構圖的方式避免背景視覺部分的噪聲影響,以及對多模態數據進行局部與局部之間的融合方式都對模型效果有一定的貢獻。此外,去掉依存樹和視覺塊構圖的“W/O DT+VG”效果要比去除整個構圖部分的效果好,可能是后者通過GAT的方式從文本和圖像模態聚合有用信息更能排除兩者中的噪聲。

綜上所述,IGNN模型中的各部分組件對模態的效果都有一定的貢獻。

3.5 GAT層數的影響

多模態特征融合層包含L層的GAT,這是一個可調節的參數。為了研究GAT層數對IGNN性能的影響,本節在兩個實驗數據集上執行了這個實驗,L的值在集合[1,10]中選取整數,對應的精度值如圖4所示。

實驗結果顯示,在兩個數據集中均為3層GAT的精度值最高。GAT層數小于3時,模型性能比較低;GAT層數大于3時,模型的性能呈下降趨勢。這是由于,當GAT層數過小時,模型的學習能力不足,就會造成欠擬合的情況;當GAT層數過大時,參數過多,模型很容易陷入過擬合,在圖神經網絡當中,層數過多也會出現常見的過平滑現象,導致性能下降。

3.6 視覺塊參數的影響

在數據集中,一張圖片可以劃分成不同數目的視覺塊。因此,該實驗衡量不同l值是否會影響IGNN的有效性,l的取值集合為{1,2,3,4,5,6,7,8,9,10}。

從圖5可以看出,當視覺塊參數設置為7(即將圖像劃分成7×7個視覺塊)時,在兩個實驗數據集上的性能最好。還可以觀察到,視覺塊參數設置成不同值時,對模型性能有不小的影響。這是由于,當參數值設置過小,每個視覺塊過大,包含重要信息的視覺塊可能就會附帶更多的無用信息,在學習過程中很難將這些噪聲選擇性地去除;當視覺塊參數過大,重要信息被劃分到很多個視覺塊中,因此就需要通過更多層的信息聚合操作才能將這些視覺塊的信息凝聚到一起,這樣不論是視覺塊的增多,還是卷積層數的增多,都會造成參數劇增,不僅擴大了對計算資源的需求,還有可能加劇過擬合的程度。綜上所述,找到一個合適的視覺塊參數值,對提高模型性能十分重要。

3.7 案例研究

為了進一步分析IGNN相較于其他強基線方法的優勢,本文選擇了三個測試樣本進行比較。表6顯示了強基線方法和IGNN模型對三個樣本預測的比較。

從表6可以看出,對于樣本A,相關圖像中的三個紅隊選手都面帶微笑,而文本中沒有明顯的情感詞。MIMN和ESAFN將該樣本分類為中性情感 ,而本文方法給出了正確分類。其原因在于,MIMN是通過對整個圖像進行特征學習,忽略了與情感關聯的圖像局部特征;而ESAN雖然劃分了視覺塊語義單元,但沒有對文本和視覺塊的細粒度語義單元進行特征對齊。相比而言,IGNN將圖像劃分成許多的視覺塊,有助于提取圖像中人物微笑所表達出的正面情緒,基于多模態交互圖進行信息融合,實現了文本和視覺在細粒度語義單元層面的直接交互,實現了多模態的深度融合。在樣本B中,文本僅提到了兩個人物,沒有任何與情感相關的上下文,只有圖像中人物的微笑表情表達了積極的情感傾向。MIMN將該樣本分類為中性情感,ESAFN的IGNN能夠對該樣本分類正確。其原因在于,MIMN沒有對圖像進行視覺塊劃分,模型中也沒有圖像局部特征提取的模塊;相比之下,ESAFN和IGNN將圖像劃分成不同的部分,提升了模型獲取局部特征的能力。這兩個樣本案例證實了本文方法的兩個優勢:a)可以有效地識別局部的語義信息;b)能夠在細粒度層面實現語義的對齊,這些優勢在圖像背景復雜或文本中不存在明顯情感詞的情況下非常有用。

此外,文本的語法關系通常較為復雜,僅通過注意力機制去查詢文本,會忽略情感詞與情感主體之間的語法關系。樣本C案例中,“Bob Marley”只是說這句話的人,文本當中帶有消極情感的詞“hurt”并不是對應“Bob Marley”。MIMN將該樣本分類為消極情感,ESAN將其分類為積極情感,而本文方法將樣本正確分類為中性。其原因在于,MIMN和ESAFN都沒有利用文本中復雜的語法依賴關系,導致將“Bob Marley”與上下文進行錯誤對應;而IGNN利用語法樹對文本建模,能有效捕獲詞與詞之間的語法信息。

4 結束語

針對方面級多模態情感分析中的特征融合問題,本文提出了一種模態交互圖神經網絡。現有基于注意力機制的研究大多采用全局與局部的注意力對齊方式,這樣可能是一種比較多余的做法。因此,本文借助方面短語將來自不同模態的細粒度語義單元進行連接,并利用圖神經網絡中的消息傳遞機制進行特征融合,實現了多模態之間的深度交互。在兩個實驗數據集上的實驗結果表明了IGNN的有效性。值得注意的是,方面節點與其他節點之間采用全連接的方式,探索更加有效的連接方式是未來研究的一個重要課題。另外,多模態交互圖本質上是一種異質結構,本文將其處理為同質圖,忽略了模態間的區別。在異質模態交互圖上的情感表征學習也是未來工作的一個方向。

參考文獻:

[1]Napitu F, Bijaksana M A, Trisetyarso A, et al. Twitter opinion mining predicts broadband Internets customer churn rate[C]//Proc of IEEE International Conference on Cybernetics and Computational Intelligence. Piscataway,NJ:IEEE Press,2017:141-146.

[2]Zvarevashe K, Olugbara O O. A framework for sentiment analysis with opinion mining of hotel reviews[C]//Proc of Conference on Information Communications Technology and Society. Piscataway,NJ:IEEE Press, 2018: 1-4.

[3]Haselmayer M, Jenny M. Sentiment analysis of political communication: combining a dictionary approach with crowdcoding[J].Quality & Quantity,2017,51(6):2623-2646.

[4]Gerber M S. Predicting crime using Twitter and kernel density estimation[J].Decision Support Systems,2014,61:115-125.

[5]Chen Peng, Sun Zhongqian, Bing Lidong, et al. Recurrent attention network on memory for aspect sentiment analysis[C]//Proc of Conference on Empirical Methods in Natural Language Processing. 2017: 452-461.

[6]Sun Kai, Zhang Richong, Mensah S, et al. Aspectlevel sentiment analysis via convolution over dependency tree[C]//Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International joint Conference on Natural Language Processing. 2019: 5679-5688.

[7]Wang Kai, Shen Weizhou, Yang Yunyi, et al. Relational graph attention network for aspectbased sentiment analysis[EB/OL]. (2020). https://arxiv.org/abs/2004.12362.

[8]Xu Nan, Mao Wenji, Chen Guandan. Multiinteractive memory network for aspect based multimodal sentiment analysis[C]//Proc of AAAI Conference on Artificial Intelligence. 2019: 371-378.

[9]Yu Jianfei, Jiang Jing, Xia Rui. Entitysensitive attention and fusion network for entitylevel multimodal sentiment classification[J].IEEE/ACM Trans on Audio, Speech, and Language Processing,2019,28:429-439.

[10]Kiritchenko S, Zhu Xiaodan, Cherry C, et al. NRCCanada-2014: detecting aspects and sentiment in customer reviews[C]//Proc of the 8th International Workshop on Semantic Evaluation. 2014: 437-442.

[11]Hochreiter S, Schmidhuber J. Long shortterm memory[J].Neural Computation,1997,9(8):1735-1780.

[12]Tang Duyu, Qin Bing, Feng Xiaocheng, et al. Effective LSTMs for targetdependent sentiment classification[EB/OL]. (2015). https://arxiv.org/abs/1512.01100.

[13]Yang Chao, Zhang Hefeng, Jiang Bin, et al. Aspectbased sentiment analysis with alternating coattention networks[J].Information Processing & Management,2019,56(3):463-478.

[14]Zhang Mi, Qian Tieyun. Convolution over hierarchical syntactic and lexical graphs for aspect level sentiment analysis[C]//Proc of Conference on Empirical Methods in Natural Language Processing. 2020:3540-3549.

[15]Poria S, Cambria E, Hazarika D, et al. Contextdependent sentiment analysis in usergenerated videos[C]//Proc of the 55th Annual Meeting of the Association for Computational Linguistics.2017:873-883.

[16]Ghosal D, Akhtar M S, Chauhan D, et al. Contextual intermodal attention for multimodal sentiment analysis[C]//Proc of Conference on Empirical Methods in Natural Language Processing. 2018: 3454-3466.

[17]Truong Q T, Lauw H W. VistaNet: visual aspect attention network for multimodal sentiment analysis[C]//Proc of AAAI Conference on Artificial Intelligence. 2019: 305-312.

[18]Yadav A, Vishwakarma D K. A deep multi-level attentive network for multimodal sentiment analysis[J].ACM Trans on Multimidia Computing Communications and Applications,2020,19(1):article No.15.

[19]Yu Wenmeng, Xu Hua, Yuan Ziqi, et al. Learning modalityspecific representations with selfsupervised multitask learning for multimodal sentiment analysis[C]//Proc of AAAI Conference on Artificial Intelligence. 2021: 10790-10797.

[20]宋云峰,任鴿,楊勇,等.基于注意力的多層次混合融合的多任務多模態情感分析[J].計算機應用研究,2022,39(3):716-720.(Song Yunfeng, Ren Ge, Yang Yong, et al. Multitask multimodal emotion analysis based on multilevel mixed fusion of attention[J].Application Research of Computers,2022,39(3):716-720.)

[21]包廣斌,李港樂,王國雄.面向多模態情感分析的雙模態交互注意力[J].計算機科學與探索,2022,16(4):909-916.(Bao Guangbin, Li Gangle, Wang Guoxiong. Bimodal interactive attention for multimodal emotion analysis[J].Journal of Frontiers of Computer Science & Technology,2022,16(4):909-916.)

[22]Pennington J, Socher R, Manning C D. GloVe: global vectors for word representation[C]//Proc of Conference on Empirical Methods in Natural Language Processing. 2014: 1532-1543.

[23]Devlin J, Chang Mingwei, Lee K, et al. BERT: pretraining of deep bidirectional transformers for language understanding[EB/OL]. (2018). https://arxiv.org/abs/1810.04805.

[24]He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press, 2016: 770-778.

[25]Velickovic P, Cucurull G, Casanova A, et al. Graph attention networks[EB/OL]. (2017-10-30). https://arxiv.org/abs/1710.10903.

[26]Tang Duyu, Qin Bing, Liu Ting. Aspect level sentiment classification with deep memory network[EB/OL]. (2016). https://arxiv.org/abs/ 1605.08900.

[27]Wang Yequan, Huang Minlie, Zhao Li, et al. Attentionbased LSTM for aspectlevel sentiment classification[C]//Proc of Conference on Empirical Methods in Natural Language Processing. 2016: 606-615.

[28]Ma Dehong, Li Sujian, Zhang Xiaodong, et al. Interactive attention networks for aspectlevel sentiment classification[EB/OL]. (2017). https://arxiv.org/abs/1709.00893.

主站蜘蛛池模板: 亚洲专区一区二区在线观看| 国产成人在线无码免费视频| 欧美日本在线观看| 老司机久久精品视频| 最新亚洲人成无码网站欣赏网 | 国产91高跟丝袜| 亚洲无线观看| 国产一区二区丝袜高跟鞋| 国产成人高清亚洲一区久久| 国产精品不卡片视频免费观看| 欧洲成人免费视频| 狠狠色香婷婷久久亚洲精品| 免费欧美一级| 欧美亚洲国产精品第一页| 亚洲视频四区| 992tv国产人成在线观看| 伊在人亚洲香蕉精品播放| 无码日韩精品91超碰| 91精品最新国内在线播放| 国产在线观看成人91| 国产成人三级| 天天色天天综合网| 国内99精品激情视频精品| 久久人妻xunleige无码| 国产视频大全| 国产亚洲男人的天堂在线观看| 一区二区在线视频免费观看| 国产无码精品在线播放 | 亚洲天堂视频在线观看| 国产成人久久综合777777麻豆| 色综合天天综合| 婷婷色婷婷| 亚洲另类色| 日韩第一页在线| 一级片一区| 久久精品国产91久久综合麻豆自制| 一本久道久久综合多人| 国产精品一区二区无码免费看片| 欧美性色综合网| 日韩久草视频| 中文字幕在线视频免费| 亚洲日韩高清在线亚洲专区| 国产精品偷伦视频免费观看国产| 91成人在线观看视频| 美女被操黄色视频网站| 99久久精品免费看国产免费软件 | 成年人久久黄色网站| 久久免费成人| 亚洲一级毛片在线播放| 久久久成年黄色视频| 精品无码国产自产野外拍在线| 欧美激情视频二区三区| 国产人碰人摸人爱免费视频| 欧美一区国产| 色婷婷电影网| 亚洲视频无码| 特级aaaaaaaaa毛片免费视频 | 久久综合色天堂av| 日本三级黄在线观看| 亚洲精品男人天堂| 福利一区三区| 97影院午夜在线观看视频| 手机永久AV在线播放| 粗大猛烈进出高潮视频无码| 午夜激情婷婷| 国产jizzjizz视频| 久久香蕉国产线看观看精品蕉| 精品中文字幕一区在线| 精品久久久久成人码免费动漫| 亚洲娇小与黑人巨大交| 日韩精品高清自在线| 亚洲国产综合精品一区| 岛国精品一区免费视频在线观看 | 国产凹凸视频在线观看| 国产精品亚洲αv天堂无码| 免费激情网站| 精品一区二区三区自慰喷水| 国产精品第一区在线观看| av天堂最新版在线| 爱色欧美亚洲综合图区| 久久精品人人做人人爽| 中文字幕2区|