范義飛 張貫虹 薛之芹


關鍵詞:方面級情感分析;多模態;雙向長短期記憶網絡;交互注意力機制
0 引言
方面級情感分析是情感分析的基本任務,旨在識別文本中特定方面的情感極性,其在商業、公共管理、社會保障等領域具有廣泛的實際應用價值。先前方面級情感分析工作大多是面向文本的。隨著互聯網以及智能手機的不斷普及,人們逐漸進入一個參與式的網絡時代,由于手機往往是手頭唯一的攝像機,因此網絡上的文檔(如商品評論、推文等)在性質上越來越具有多模態,即除了文本內容,還有圖片。在圖文融合方面級多模態情感分析任務中,圖片信息往往和文本信息一樣具有指示性,兩者又可以相互加強和補充,共同傳達用戶生成內容的情感態度。在多模態數據中,文本和圖像信息常與方面情緒聯系密切。例如,對于拍照效果這一方面,用戶可以發表一些用來描述拍照效果的積極詞匯和高質量圖片,來表達其對手機的拍照效果這一方面的滿意,或是一些負面詞匯和低質量圖片樣本(例如低光照片中的紅色/紫色噪聲)來表達其對拍照效果的不滿。因此,與傳統的基于文本或圖像的單模態數據相比,多模態數據存在著各種的相關性,能夠更加全面地揭示用戶對某一方面的真實情感。
1 相關工作
目前,對于基于圖文的方面級情感分析任務研究較少,Xu等人[1]提出了MIMN模型,該模型首先采用注意力機制獲得基于方面詞的文本表示和圖片表示,然后通過多跳機制獲得兩個模態的交互表示。該工作首次將圖像模態數據引入傳統的基于文本的方面級情感分析任務中,填補了在方面層面和多模態情感分析任務交叉點上的研究空白。
2 模型概述
為了更好地捕捉方面詞和上下文句子及各模態間的交互作用,本文采用基于交互注意力機制與AOA(Attention-Over-Attention)[2]神經網絡相結合的方法來構建方面級多模態情感分析模型。本文提出模型的整體結構如圖1所示。給定一個樣本,假定多模態數據的輸入包括文本內容T={W1,W2,...,WM}和一個圖像集合I={I1,I2,...,IK},模型的目標是預測一個給定方面短語A={A1,A2,...,AN}的情感標簽,其中L為文本上下文的長度,K為圖片的數量,N為方面短語的長度。
2.1 特征提取
2.1.1 方面詞特征提取
本文利用從百度百科語料庫上預訓練的word2vec[3]生成詞向量,作為模型的輸入。本文采用雙向LSTM來獲取方面詞的上下文表示。
2.1.2 文本上下文特征提取
對于文本上下文特征提取,本文采用與方面詞特征提取相同的方式,使用雙向LSTM 來學習上下文信息。
2.1.3 圖片特征提取
由于多模態數據中的圖像通常是按順序排列的,為了對這種普遍的圖像序列信息進行建模,本文也采用雙向LSTM模型。給定一個圖像集I={I1,I2,...,IK},首先將它們的大小統一調整為224×224,然后將它們輸入預訓練的卷積神經網絡ResNet50[4]中,并去除頂部的全連接層。
2.2 注意-過度注意網絡AOA
為了更好地捕捉方面和文本上下文之間的交互,筆者引入AOA神經網絡,其可以共同學習方面和文本的表示,并自動關注文本中的重要部分。具體來說,將方面上下文詞表示V和文本上下文表示C作為輸入傳入AOA神經網絡中,輸出最終句子表示γ。
2.3 交互注意力機制
由于在融合了圖文的多模態數據中,圖片和文本往往具有一定的相關性,為了捕獲這種相關性,本文采用交互注意力機制[5]將文本和圖片進行交互式地建模。利用文本的隱藏狀態和圖片的隱藏狀態的平均值來監督注意向量的生成,并采用注意力機制捕獲文本和圖片中的重要信息。通過這種設計,文本和圖片可以交互式地生成它們的表示。
2.4 情感分類
最終將通過交互注意力機制得到的文本和圖片表示與先前通過AOA神經網絡得到的最終句子表示γ 進行拼接,并傳入Softmax 層預測該方面的情感得分。
3 實驗分析
3.1 數據集
本文選取從ZOL網站上爬取的手機領域基于方面的圖文評論數據集Multi-ZOL進行實驗。在Multi-ZOL數據集中一共有5 288條多模態評論。每一條多模態評論中包含一個文本內容,一個圖像集以及至少一個但不超過6個方面。這6個方面分別是性價比、性能配置、電池續航、外觀手感、拍照效果以及屏幕效果。整個數據集中有28 429個方面-評論樣本對,對于每個方面,數據集的情感標注是一個從1到10的情感得分。訓練集、驗證集和測試集按照8:1:1的比例劃分。
3.2 模型設置
本文利用word2vec中的skip-gram模型訓練詞向量,詞向量的維度Dw設置為300,LSTM隱藏表示的維度Dh設置為100,圖片輸入的大小為224×224。本文利用預訓練過的ResNet50模型去除頂部的全連接層,以提取2 048維的視覺特征向量。文本長度M設置為300,方面長度N設置為2,如果實際長度超過設定的長度,那么截斷;反之,則補零。一條多模態評論中的圖片的最大填充數K設置為5。
本文以模型在測試集上的準確率和f1值為評價指標。在模型訓練過程中,使用Adam[6]優化算法來最小化交叉熵損失函數,學習率設置為0.001。訓練的批處理大小為16,訓練輪數設置為100。本文采用了早停機制,檢測參數為驗證集的F1值,當F1值連續10個訓練輪數不上升時,則停止訓練。本文所有模型的訓練都是在GPU(NVIDIAGeforceGTX 1080) 上進行的。
3.3 基線模型
為了驗證本文提出的多模態方面級情感分類模型的分類性能。將該模型與幾種基線模型進行比較。實驗中的對比模型如下:
1) MemNet[7]:MemNet 是一個用于方面級情感分類的深度記憶網絡,它將方面嵌入作為查詢向量,在由輸入詞嵌入疊加的記憶上使用多重注意力機制來生成深度記憶。將最后一層注意力層的輸出傳入Softmax 層用于方面級情感預測。
2) Co-Memory[8]+Aspect:是共記憶網絡的一種變體。除了利用共記憶注意力機制去交互性地建模文本和視覺記憶的相互影響之外,它引入了方面嵌入的平均值作為文本和視覺記憶網絡的輸入。
3) MIMN:MIMN通過一種多交互式記憶網絡來捕獲多模態數據中的多重相關性來用于方面級情感分析,其中包括方面對文本和圖像的影響,以及文本和圖像兩種模態數據之間的交互。
3.4 實驗結果及分析
實驗結果如表1所示,MemNet使用深度記憶網絡有效地捕捉了上下文詞的重要性,并且提取到了更深層次的注意力特征。但由于其僅融入了一個模態的數據,表現并沒有其他模型突出。附加了方面嵌入的共記憶網絡與MemNet模型類似,但是其引用了另一種模態數據,即圖像,并充分考慮了文本和圖像之間的交互作用,因而取得了比MemNet模型更好的效果。對于MIMN模型,由于其使用的多交互注意力機制不僅學習了跨模態數據引起的交互影響,還學習了單模態數據引起的自我影響。因此,它的性能優于上述所有基線方法。但是,MIMN模型并沒有充分考慮到方面詞和文本上下文之間的關聯性,而本文提出的模型將AOA神經網絡與交互注意力機制相結合,在捕捉到方面詞和上下文之間的相關性的同時,也捕捉到了文本和圖片兩種模態數據之間的相關性。因此,本文提出的模型在所有的基線方法中獲得了最好的性能。
4 總結與展望
針對當前對于方面級多模態情感分析的研究甚少,本文引入了一種基于交互注意力機制的圖文方面級情感分析方法,并嵌入了AOA神經網絡來更好地捕捉方面和上下文句子之間的交互作用。最終將AOA神經網絡學習到的聯合特征和通過雙模態交互注意力機制得到的文本及圖像特征進行拼接,經過一層全連接層送至Softmax進行情感分類。本文所提出的模型在真實數據集Multi-ZOL中進行了實證研究,并與不同的基線模型進行對比分析,實驗結果表明,本文提出的模型具有一定的優勢。
同時,本文也存在一些不足。本文對于模型的改進主要體現在對上下文和方面之間的融合策略上進行改進,對于不同模態表征之間的交互并沒有進行過多研究。如何更好地捕捉不同模態間的關聯和交互將是未來研究的重點。