999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于圖文融合的情感分析研究綜述

2021-03-07 05:15:58孟祥瑞楊文忠
計算機應用 2021年2期
關鍵詞:模態特征文本

孟祥瑞,楊文忠*,王 婷

(1.新疆大學信息科學與工程學院,烏魯木齊 830046;2.新疆大學軟件學院,烏魯木齊 830046)

(*通信作者電子郵箱ywz_xy@163.com)

0 引言

社交媒體的飛速發展導致用戶信息逐漸增加,用戶所發表的內容也逐漸呈現多元化的趨勢,數據已經不再是單一的文本形式,而是轉化為圖片與短文本這種多模態形式,例如:Twitter中的圖文博客、貼吧中的圖文信息、淘寶評論中的圖文信息等。這些圖文結合的多模態數據為情感分析方面的研究提供了新角度,挖掘用戶所發圖文的情感成為新的研究重點。同時,由于圖文情感分析研究時間較短、數據集較少等問題,也使得圖文情感分析存在一定的困難與挑戰。

在早期的情感研究中,主要研究的是較為單一的文本或者圖像,采用的方法主要是傳統的機器學習分類算法[1],例如:K近鄰算法、支持向量機、最大熵分類器和貝葉斯分類器等。然而近年來,深度學習體現出較為優異的學習表現,越來越多的研究人員開始傾向使用深度神經網絡來學習文本或者圖像的特征表示,用于情感分類[2-5];但是具有單一模態信息量不足,并且容易受到其他因素干擾的問題,例如:圖片含義或文字語義模糊等情況。鑒于社交平臺中圖片與文本存在一定的互補性,圖片與文本融合的研究逐漸成為當前的研究熱點。蔡國永等[6]采用了基于卷積神經網絡的情感分析方法,分別進行文本、圖片、圖文融合的情感分析,比較圖文單獨模態與圖文多模態的實驗效果,實驗證明圖像特征與文本特征具有聯系,文本與圖像也具有一定的互補作用。

圖文融合的情感分析是多模態情感分析的子領域,針對多模態情感分析,最早研究可以追溯至2011 年。陽鋒等[7]提出了一種觀點挖掘原型系統(MicroblogItem Crawling and Analyzing,MICA),這是一個面向微博數據流的觀點挖掘原型系統,利用微博數據爬取模塊對數據(文本、圖片、共享視頻等)進行下載,構建新的情感詞典,其中圖片特征提取主要采用尺度不變特征轉換(Scale-Invariant Feature Transform,SIFT)算法。Morency 等[8]首次提出三模態情感分析任務,自動提取文本、視頻、語音的特征,集成特征后得出任務結果。

要對圖文融合的內容進行情感分析,首要的任務就是提取文本特征與圖像特征,然后依據圖文融合策略及方法,判斷情感類型,而情感類型一般會分為積極、中性和消極三類。目前,在情感計算領域中的圖文融合情感分析研究主要是集中于圖文信息融合與圖文相關性的融合[9]。常見的融合策略可以劃分為三種:特征層融合策略、決策層融合策略和一致性回歸融合策略。

情感主要包括圖片、文本、語音、視頻、面部表情等多種模態,鑒于當前主流社交平臺主要集中于文本與圖片的發布,所以本文重點介紹這兩者的特征提取方法與融合方法,并從以下四個方面進行綜述:圖文分析數據庫、圖文情感特征提取技術、圖文特征融合方式以及總結與展望。

1 圖文情感分析數據庫

在國內外基于圖文的多模態情感數據集一般是來源于網絡爬蟲或者人為制作,對于科研方面仍是半公開或者不公開,導致研究人員使用的數據庫一般為自己爬取建立的,創建過程耗費時間。本章主要介紹當前應用的幾個基于圖文的情感分析數據庫。

1.1 Flickr數據集

文獻[10]中公開了帶有標注的Flickr 圖像ID,標注為積極、消極、中性三種詞性,Flickr 提供了應用程序接口(Application Programming Interface,API),通過ID 可以獲得相應的元數據,例如:圖像的描述、上傳日期、標簽等。同時,文獻[10]中還提出了Instagram 數據集,使用SentiWordNET 中的每一個情感詞作為查詢關鍵字,可以抓取一組圖像,圖像總數為12 萬張,該數據集更多地包含了用戶的日常生活圖像,其中最常用的詞為:“love”“like”“life”“day”等。文獻[11]使用公開的ID 在Flickr 網站中可以爬取6 萬余張圖像及其對應的描述、上傳日期、標簽等。

1.2 VCGⅠ及VCGⅡ數據集

VCGⅠ及VCGⅡ數據集[12]主要是利用不同的情感關鍵詞在中國視覺網站上建造的數據集。VCGⅠ數據集是利用視覺情感本體庫(Visual Sentiment Ontology,VSO)中的形容詞-名詞對(Adjective Noun Pairs,ANP)作為情感的關鍵詞爬取數據,其中,ANP 的數量為3 244,爬取了38 363 條圖像-文本對。VCGⅡ數據集是從3 244 個ANP 中隨機選擇300 個ANP 作為情感關鍵詞爬取數據,爬取了37 158條圖像-文本對。

1.3 MVSO數據集

文獻[13]主要收集當前流行的社交多媒體平臺Yahoo 數據,構成多語言視覺情感本體(Multilingual Visual Sentiment Ontology,MVSO),類似于VSO 數據集,收集2014 年11 月至2015 年2 月的公共數據。主要選擇12 種語言,分別為:阿拉伯語、漢語、荷蘭語、英語、法語、德語、意大利語、波斯語、波蘭語、俄語、西班牙語和土耳其語。MVSO 主要由15 600 個概念構成,這些概念同圖像中表達的情感息息相關。這些概念主要是以ANP 的形式進行定義,利用MVSO 所提供的情感分數大于1 的ANP 作為關鍵詞,社交網站中爬取了75 516 條圖像及其所對應的標題、描述與標簽,其中英文數據集稱為MVSOEN數據集。

1.4 MVSA數據集

文獻[14]引入了多視圖情感分析數據集(Multi-View Sentiment Analysis,MVSA),采用了一個公共的流媒體Twitter API(Twitter4J),為了收集具有代表性的推文,研究人員使用了406 個情感詞匯對這些推文進行了過濾。MVSA 數據集主要包括一組從Twitter中收集的帶有手動注釋的圖像-文本對,可以作為單視圖情感分析與多視圖情感分析的有效基準。MVSA 數據集中有兩種獨立的Twitter 數據:一種為MVSASingle,包含5 129 條Twitter 圖像-文本數據對,每條數據對都有對應的情感標注,標注主要分為積極、消極、中立三類;另一種為MVSA-Multi,包含19 600 條圖像-文本數據對,每條數據有3 個互相獨立的情感標注,來自三名不同的標注者。在文獻[15]中,采用投票方式綜合MVSA-Multi 中每條Twitter 的三條標注,每條得出一個總標注。

1.5 Yelp數據集

文獻[16]使用來自Yelp.com 中關于食品和餐館的在線評論數據集,主要涵蓋美國的5 個主要城市,包括:波士頓(Boston,BO)、芝加哥(Chicago,CH)、洛杉磯(Los Angeles,LA)、紐約(New York,NY)和舊金山(San Francisco,SF)。統計數據如表1 所示,其中:洛杉磯評論數是最多的,有最多的文件和圖像;波士頓評論數是最少的。然而,就句子數量(#s)和單詞數量(#w)而言,這5 個城市的文檔長度非常相似。該數據集總共有超過4.4萬條評論,其中包括24.4萬張圖片,每條數據至少有3幅圖像。

1.6 Multi-ZOL數據集

Multi-ZOL 數據集[17]收集整理了IT 信息和商業門戶網站ZOL.com 上的關于手機的評論。原始數據有12 587 條評論(7 359 條單模態評論,5 288 條多模態評論),覆蓋114 個品牌和1 318 種手機。其中的5 288 多模態評論構成了Multi-ZOL數據集。在這個數據集中,每條多模態數據包含1 個文本內容、1個圖像集,以及至少1個但不超過6個評價方面。這6個方面分別是性價比、性能配置、電池壽命、外觀與感覺、拍攝效果、屏幕。總共得到28 469 個方面,對于每個方面,都有一個從1 到10 的情感得分。Twitter-15 和Twitter-17 是包含文本和文本對應圖片的多模態數據集,數據集標注了目標實體及對其圖文中表達的情感傾向。整個的數據規模是Twitter-15 有5 338條帶圖片推文,Twitter-17有5 972條帶圖片推文,情感標注為三分類。

1.7 基于文本與表情的Twitter數據集

文獻[18]中使用標記數據主要來自Prettenhofer 和Stein創建的Amazon review 數據集。該數據集具有代表性,包含四種語言:英語、日語、法語、德語。對于每種語言和領域,該數據集包含1 000 條正面評論與1 000 條負面評論。同時,提取帶有表情符號的推文[19],用來學習基于表情符號的句子表示。對于每種語言,提取包含該語言中使用的前64 個表情符號的推文,為每個獨特的表情符號創建單獨的標簽,使得表情符號預測成為一個單標簽的分類任務。

1.8 Task-4數據集

文獻[20]中創建了Task-4 數據集,收集時間為2015 年10月至12 月的推文。主要使用公共流媒體Twitter API 來下載推特數據,然后手動篩選產生的數據,以獲得一組200 個有意義的主題,每個主題至少包含100 條數據。數據處理過程主要是排除了一些難以理解、含糊不清的話題(比如巴塞羅那,它既是一個城市的名字,也是一個運動隊的名字),或者過于籠統的話題(比如巴黎,它是一個大城市的名字);然后,丟棄那些僅僅提及某個主題但實際上與該主題無關的數據。Task-4 數據集主要包括四個部分:TRAIN(用于培訓模型)、DEV(用于調優模型)、DEVTEST(用于開發時間評估)和TEST(用于官方評估)。前三個數據集使用Amazon 的Mechanical Turk進行注釋,而測試數據集則在CrowdFlower上進行注釋。

2 文本及圖片的情感分析

2.1 文本情感分析

傳統的提取情感特征的方法是應用情感詞典,基于情感知識構建情感詞典,對文本的情感極性進行判斷,其中,大部分情感詞典是人為構建的。Whissell[21]要求148名人員用5個附加單詞對相應術語進行描述,如:數學、電視等,然后同情感詞典中的情感詞進行匹配。Whissell[22]對原本構建的情感詞典進行更新,加入第三等級維度(圖像),增加了情感詞典的適用范圍。李壽山等[23]利用英文情感詞典,借助翻譯系統構建了中文情感詞典。王志濤[24]等提出了基于詞典及規則集的微博情感分析方法,使用40 余萬條的微博數據構建情感詞典,對于基礎情感詞典資源進行擴展,將表情符號添加為語義信息,為情感分析提供幫助。Cai等[25]提出了一個三層的情感詞典,可以將情感詞同其對應的實體聯系在一起,減少情感詞的多重含義,主要使用一個疊加混合模型支持向量機(Support Vector Machine,SVM)與梯度提升樹(Gradient Boosting Decision Tree,GBDT)相結合,克服二者自身的缺點,通過實驗發現,混合模型的效果優于單模型效果。栗雨晴等[26]使用微博及現有的知識庫構建了雙語情感詞典,提高分類器的性能,主要提出了基于半監督高斯混合模型以及K近鄰算法的情感分類;實驗結果表明,提出的分類方法準確率高于傳統的分類方法。Xu等[27]構建了一個擴展的情感詞典,該詞典主要包含基本情感詞、領域情感詞及多義情感詞,提高了情感分析的準確性;使用樸素貝葉斯(Na?ve Bayesian,NB)分類器確定一詞多義的位置,得出對應的情感值;利用擴展的情感詞典與情感評分規則,實現文本的情感分類。

基于機器學習的文本情感分析[28]主要是人工提取文本特征,然后由計算機按照特定的算法進行文本處理與情感分類。這種方法具有兩個方面的優勢:第一,能夠減少研究人員的工作負擔、減少非理性的判斷;第二,能夠根據數據庫的變化對詞庫不斷進行更新。楊爽等[29]提出了一種基于SVM 多特征融合的情感五級分類方法,從詞性特征、情感特征、句式特征、語義特征四個方面,提取動詞、名詞、情感詞、否定詞等14 個特征,實現非常正面、正面、中立、負面、非常負面五級的分類。Pang等[30]以電影評論為數據,使用三種機器學習方法(NB、最大熵分類、SVM)對其進行情感分類,采用一元模型進行特征的構建,進行篇章級的情感分類判定,實驗結果表示SVM 和NB具有較好的情感分類效果。Kamal等[31]提出了一個基于特征的意見挖掘與情感分析系統,豐富了自然語言處理的特征集,并將這些特征進行有效組合,生成了一個詞級的情感分析系統,實現了對不同電子產品中用戶評價的情感極性的劃分。Rong 等[32]基于文本文檔的高維特性,采用自編碼器進行降維與特征提取,提出了一種基于自編碼器的bagging 預測體系結構,在數據集實驗中具有性能的提升。Dai等[33]通過增加權重突出情感特征,使用bagging來構造不同特征空間上的分類器,將分類器組合成為一個聚合分類器,提高了情感分類的性能。

基于深度學習的文本情感分析主要是通過構建網絡模擬人腦神經系統,對文本進行特征提取、自動化學習與模型優化,最后進行情感分析,能提升文本情感分析的準確性。神經網絡的模型主要使用詞嵌入技術,例如:使用Word2Vec 將人類語言轉化成機器語言[34]。Tang 等[35]提出學習情感特定詞嵌入模型解決詞表示只模擬句法環境而忽略文本感情的問題,開發了三種神經網絡,有效地將文本的情感極性納入到損失函數中。為了獲得大規模的訓練語料庫,從大量正向情感和負向情感中收集遠距離監督的推文,從推文中學習情感特定詞嵌入模型。將情感特定詞嵌入(Sentiment-Specific Word Embedding,SSWE)應用到Twitter 情感分析數據集中,實驗結果表明,在性能最好的系統中,SSWE 功能與手工特征的功能具有可比性;將SSWE 同現有的特征集進行連接,能夠進一步提升性能。Kim[36]提出了一系列使用卷積神經網絡(Convolutional Neural Network,CNN)在預先訓練的詞向量上訓練句子級分類任務的方法,使用簡單CNN、靜態CNN、非靜態CNN 和多通道CNN 在數據集上進行實驗,其中使用靜態CNN、非靜態CNN 和多通道CNN 在部分數據集上能夠取得很好的實驗結果。Shin等[37]提出了幾種有效地將詞嵌入和注意力機制整合到CNN 中進行情感分析的方法,這些方法可以提高傳統CNN 模型的準確率、穩定性和效率,是具有健壯性的集成學習方法。Li 等[38]為了實現文本情感的多分類,提出了一種基于長短時記憶(Long Short-Term Memory,LSTM)的循環神經網絡(Recurrent Neural Network,RNN)語言模型,該模型能有效地獲取完整的序列信息,能夠更好地分析長句的情感;實驗結果表明,該方法相較傳統的RNN 具有更高的準確率和召回率。羅帆等[39]提出一種結合RNN 和CNN 的層次化網絡(Hierarchical RNN-CNN,H-RNN-CNN)模型,將文本的句子作為中間層,改善了文本過長帶來的信息丟失問題。周泳東等[40]為解決在文本情感分析的任務中傳統CNN 沒有考慮句子結構和過度依賴所輸入的詞向量的問題,提出了一種基于特征融合的分段CNN(Piecewise Features-CNN,PF-CNN)模型。同傳統的文本CNN 相比,PF-CNN 模型在情感分析任務上的準確率、召回率和F1 值等指標都有顯著提升。Graves等[41]提出雙向長短期記憶(Bi-Long Short-Term Memory,Bi-LSTM)網絡以及一個改進的LSTM學習算法的全梯度版本,主要發現雙向網絡優于單向網絡,且LSTM 網絡比標準RNN 和有時間窗的多層感知機(Multi-Layer Perceptron,MLP)網絡更快、更準確,實驗表明Bi-LSTM 網絡是一種有效利用上下文信息的體系結構。Hyun 等[42]提出了針對目標層次情感分析(Target-Level Sentiment Analysis,TLSA)任務相關的一種依賴于目標的容量神經網絡(Target-dependent Convolutional Neural Network,TCNN)。TCNN 主要是利用目標詞與鄰近詞之間的距離信息來了解每個詞對目標詞的重要性,能在單目標數據集和多目標數據集上都獲得較好的性能。

2.2 圖片情感分析

在圖片情感分析中,一般是基于圖片整體的視覺特征,從底層視覺特征到高級語義的映射,大致可以分為三種:基于傳統分析方法、基于圖片中層語義的表達以及基于深度學習技術。

早期圖片情感分析主要關注圖片的底層客觀視覺特征,使用機器學習技術對圖片情感進行分類,其中,底層特征主要包括:顏色特征、紋理特征以及形狀輪廓特征。Machajdik等[43]提出了一些方法提取和組合代表圖像情感內容的底層特征,并將其用于圖像的情感分類,這些方法主要利用心理學和藝術理論中的理論和經驗概念來提取具有情感表達的藝術作品領域特有的圖像特征,將Tamura 紋理特征、基于小波變換的紋理特征以及灰度共生矩陣應用到了情感分類中,實驗結果表明在國際情感圖片系統(International Affective Picture System,IAPS)上,與現有的藝術作品相比,分類結果得到了改善。Jia 等[44]對顏色的基本屬性進行衡量,例如:飽和度、色調、顏色、明亮度等,利用圖像的基礎特征,使用半監督學習框架自動預測藝術作品的情感。Yanulevskaya 等[45]將顏色空間量化為343種不同的顏色,將每個顏色通道均勻地劃分為7個不同的級別,進而將色彩模型描述映射到可視單詞,表達藝術化作品的情感;同時,也使用SIFT 描述符捕獲圖像中的輪廓、紋理及邊緣,并使用K-means 聚類創建可視化詞匯表。李娉婷等[46]提出了一種基于顏色特征的家居設計圖情感分類方法,通過人們對于顏色的理解與感知,建立設計圖顏色特征同語義的關系模型,基于徑向基函數(Radial Basis Function,RBF)網絡分類器對家居設計圖進行情感分類。王上飛等[47]抽取圖像的顏色與形狀作為圖像的感性特征,采用RBF 神經網絡,由特征空間映射到情感空間,在情感空間內實現圖像的感性檢索。Yanulevskaya 等[48]利用傳統的場景描述符Wiccest、Gabor特征,使用具有RBF的SVM 的框架用于情感類別的監督學習。Lu 等[49]研究了自然圖像的形狀特征對人類情感的影響,例如:線條的圓度、棱角、簡單性、復雜性等特征都被認為是影響人類情感反應的重要因素。該方法能夠對視覺形狀與情感間的相關性進行系統分析,強烈或簡單的圓或角可以預測圖像的情感極性。

由于圖片底層特征與高層情感語義之間具有較大的距離,所以很多研究人員開始逐漸嘗試構建中層語義來表達圖片情感[50]。Borth 等[12]提出將形容詞-名詞對(Adjective Noun Pairs,ANP)作為情感中層語義。同時,文獻[12]中也提出了一種新的視覺概念檢測器庫SentiBank,利用彩色直方圖、局部二值模式(Local Binary Pattern,LBP)描述符、場景特征描述符等特征來進行視覺情感分類,可用于檢測圖像中存在的1 200 個ANP;實驗表明,該方法在檢測的精度與準確度方面均有較大的提升。Zhao 等[51]使用特征描述符、方向梯度直方圖并結合手工特征,將多個圖合并在一個正則化框架中,學習每個圖的最優權值,使不同特征互補,進而更好地應用在情感圖像檢索中。Chen 等[52]提出了基于對象的視覺建模,從圖片中提取情感相關信息;該方法使用ANP 的方式進行圖像標記,將抽象的情感表達具體化。

隨著深度學習技術的發展與進步,在圖片分類、圖片識別[53]以及圖片檢索[54]等方面均有了重大進展。2006 年,Hinton 教授[55]提出了深度信念網絡(Deep Belief Network,DBN),使用多個隱層神經網絡訓練原始數據,將數據中不易理解的高維數據轉化為容易理解的低維數據,對于數據特征能夠更好地理解,進而應用在數字識別分類任務中。Keyvanrad 等[56]在DBN的基礎上對受限玻爾茲曼機(Restricted Boltzmann Machine,RBM)的采樣方法進行改進,利用數據集創建了一個強大的生成模型,能獲取數據中的精英樣本,更準確地計算訓練數據的對數概率梯度,減小分類的錯誤率。Zhou 等[57]基于DBN 提出了判別深度信念網絡(Discriminative Deep Belief Network,DDBN),該方法通過貪婪逐層無監督學習,利用標記數據和大量的未標記數據,初步確定了深層體系結構的參數空間,然后通過基于梯度下降的監督學習,利用指數損失函數對整個深度網絡進行微調,以最大限度地提高標記數據的可分離性。實驗結果表明,尤其在困難的分類任務中,DDBN 的性能較好。Krizhevsky 等[58]使用CNN 處理圖像數據,也取得了較好實驗效果。CNN 通過反向傳播(Back Propagation,BP)算法,能夠自動從大量的強標記數據中學習到同任務有關的特征,比手工標記特征更具有魯棒性。Chen 等[59]提出了一種基于CNN 的視覺情感概念分類法,從網絡照片標簽中發現ANP,再對圖像情感進行有效統計,并使用基于深度學習框架Caffe 訓練的深度卷積神經網絡模型,實驗結果表示該方法在標注精度和檢索性能上都有顯著提高。You 等[60]提出了一種逐步訓練及域轉移的深度神經網絡,稱為脈沖耦合神經網絡(Pulse Coupled Neural Network,PCNN),使用兩層卷積層與四個全連接層,實驗結果也驗證了PCNN 模型的有效性。Mittal 等[61]介紹了在圖像情感分析中的DNN、CNN、基于區域的CNN(Regional CNN,R-CNN)和Fast R-CNN,并研究了它們的適應性與局限性。曹建芳等[62]以自然圖像為例,提出了一種基于Adaboost-BP的圖像情感分析方法,通過幾何模型(OpenCasCade,OCC)對圖片的情感進行描述,使用Adaboost算法,結合BP 神經網絡的弱分類器,構成了一個強分類器,也取得了良好的實驗效果。蔡國永等[63]提出一種圖像整體與局部區域嵌入的圖像情感分析方法,利用對象探測模型對包含對象的區域進行定位,通過深度神經網絡對定位區域的情感特征進行表示,最后使用整體特征與局部特征對情感分類器進行訓練,并預測圖像的情感極性;實驗結果表明,基于圖像整體與局部區域嵌入的情感分析方法優于基于圖像整體或局部區域嵌入的情感分析方法。

3 圖文特征融合

在社交媒體中,文本與圖像共同出現的情況和數據逐漸增加,文本與圖像的組合成為情感分析又一重要數據源。但是,當前關于社交媒體情感分析主要是基于圖片或者文本,尤其文本情感分析,研究人員較多,這就導致圖片與文本的融合分析必要性逐漸增強。在基于圖文的情感分析領域,圖片與文本需要進行融合,融合方式主要分為特征層融合、決策層融合和一致性回歸融合三種,如圖1所示。

3.1 特征層融合

特征層融合主要是指對多源傳感器不同的信息(文本、表情、圖像等)進行特征提取,得到i個特征,分別表示為特征v1,v2,…,vi,然后對多個傳感器的信息特征直接連接或者加權連接,對特征進行結合。特征層融合屬于圖文特征融合的中間層,對信息進行有效壓縮,為最后的情感特征分類做準備。

在特征層融合中,首先,Wang 等[64]提出了一種新的跨媒體詞袋模型(Cross-media Bag-of-words Model,CBM),使用一個統一的詞包對將微博的文本與圖像進行表示,使用邏輯回歸對微博情感進行分析。實驗結果顯示,基于圖文方法的準確率相較于基于文本方法的準確率提高了4 個百分點。Zhang等[65]使用Bi-gram方法采集文本特征,使用互信息、信息增益等方法進行選擇特征,圖像特征選擇主要是基于圖像的顏色與紋理特征。基于文本和圖像特征的融合,提出了一種新的基于相似度的鄰域分類器,對文本-圖像的情感進行二分類。同樣為二分類,Cai 等[66]提出了一種基于CNN 的多媒體情感分析方法,使用兩個獨立的CNN 分別學習文本特征與圖像特征,將學習到的特征作為Multi-CNN 架構的輸入,挖掘文本與圖像之間的內在聯系。Niu 等[67]將不同類型的數據轉換成特征向量,采用詞袋模型(Bag-of-Words,BOW)訓練文本特征,采用SIFT 訓練圖像特征,采用深度玻爾茲曼機(Deep Boltzmann Machine,DBM)訓練融合特征,最后使用SVM 將文本、圖像、融合的特征進行融合與學習,進而進行情感分析。然后,基于BOW、連續詞袋模型(Continuous-Bag-Of-Words,CBOW),Baecchi 等[68]對CBOW 模型加以擴展,提出了一種新的連續詞袋學習表示模型CBOW-LR(CBOW-Learning Representation),不僅可以學習向量表示,還可以學習情感極性分類器。與CBOW 模型相比,CBOW-LR模型具有更高的極性分類精度與準確性,在處理句法和語義的相似性時有很好的表現。CBOW-LR 模型是具有魯棒視覺特征的非監督學習(具有神經網絡),視覺特征可從部分觀察中恢復,這些觀察可能是由于遮擋或噪聲或大量修改圖像造成的。同時,CBOWLR 模型已經擴展到使用去噪的自動編碼器來處理視覺信息。連續詞袋去噪自動編碼器學習表示模型(CBOW-Denoising Autoencoder-Learning Representation,CBOW-DA-LR)以無監督和半監督的方式工作,學習文本和圖像表示,以及包含圖像的Tweet 情緒極性分類器,具有很好的實驗效果。Ortis 等[69]提取和使用一個客觀的文字描述圖像自動提取的視覺內容,該方法基于視覺特征和文本特征的貢獻,定義了多模態嵌入空間;然后,在得到的嵌入空間的表象上訓練一個監督SVM來推斷情緒極性,所提出的客觀文本的開發有助于超越主觀的情緒極性估計。

金志剛等[70]提出了一種基于CNN 的多維特征微博情感分析模型,使用詞向量計算文本的語義特征,集合表情符號所具有的情感特征,利用CNN 挖掘文本特征與情感特征的深層關聯,訓練相應的情感分類器,提升了情感分類器的性能。該模型使用了BP算法進行訓練,采用隨機梯度下降算法計算梯度,使用批標準化(Batch Normalization,BN)算法進行正則化處理與歸一化處理。劉星[15]提出了一種融合局部語義信息的多模態輿情分析模型,能解決忽略圖像局部的高維語義信息等問題。圖像特征方面首先使用CNN 進行卷積,采用多示例學習(Multiple Instance Learning,MIL)方法以及目標檢測方法(Single Shot MultiBox Detector,SSD)對圖像的全局特征與語義特征進行提取,最后將特征輸入到Bi-LSTM 以及注意力模型中對圖像特征進行提取,文本特征提取方面主要使用CNN與最大池化操作;模型融合過程主要是將圖像特征與文本特征進行拼接,輸入到全連接層進行決策,最后使用Softmax 得出情感結果。繆裕青等[71]提出了一種圖文融合的情感分析方法,該方法主要通過訓練詞向量模型將文本表示為包含豐富語義信息的詞向量,并將其輸入到Bi-LSTM 中,訓練文本情感分類模型(Word-embedding Bidirectional LSTM,WBLSTM),該方法對大規模數據集上預訓練CNN 模型的參數進行遷移,使用全卷積神經網絡(Fully Convolutional Neural Network,FCNN)得到訓練圖片情感分類;最后,根據late fusion 對兩個模型進行融合,進行圖文情感分析。

Xu等[72]提出一種新的共記憶網絡(Co-Memory Network),在情感分析中,模擬視覺信息與文本信息的相互影響,捕捉圖像內容與文本詞語之間的相互作用,通過迭代的方式提供文本信息尋找圖像關鍵詞,通過圖像信息來定位文本詞語。其中,在圖片特征與文本特征提取的過程中,加入了注意力權重,得出文本表示向量與圖像表示向量,最后使用softmax 得出情感極性。Truong等[16]提出了利用視覺信息進行情感分析的方法——視覺方面注意網絡(Visual aspect attention Network,VistaNet)。該方法具有三層架構,分別是從單詞到句子,再到特定圖像的文檔表示,最后進行綜合文檔表示,得出情感分析的結果。Nemati[73]等提出了一種混合多通道數據融合方法,采用線性映射,研究結果顯示,使用邊際Fisher 分析(Marginal Fisher Analysis,MFA)進行特征級視聽融合的效果優于交叉模態因素分析(Cross-modal Factor Analysis,CFA)和典型相關分析(Canonical Correlation Analysis,CCA)。

Zhang 等[74]為了獲取圖像和字幕之間的語義聯系,提出了一種同時考慮圖像和文字的交叉模態圖像情感極性分類方法。該方法將文本內容之間的相關性轉換為圖像:首先,將圖像及其對應的標題發送到一個映射模型中,將其轉換為空間中的向量,通過計算最大平均偏差(Maximum Mean Discrepancy,MMD)得到其標簽;然后,使用基于類感知注意的門控循環單元(Gated Recurrent Unit,GRU)將分布的表示分配給標簽;最后,使用LSTM 對情緒極性進行分類。在Getty Images 數據集和Twitter 1 269 數據集上進行的實驗證明了此模型優于基線解決方案。

綜上所述,特征層融合中,使用CNN 及注意力機制對于圖片的分析會較為精準,能夠對圖片與文本的信息進行綜合考慮;但是,在圖片與文本所具有的特征差異問題上,實驗效果不夠好。這種方法優點是在初期就可以進行融合,后期只需要進行學習與分類即可;缺點則是圖文兩種模態來自不同的語義空間,在時間維度上和語義維度上具有差異,不能直接合并,難度較大。表2 列舉了特征層融合不同模型策略的實驗結果。

表2 特征層融合方法的實驗結果Tab.2 Experimental results of feature layer fusion methods

3.2 決策層融合

決策層融合主要是提取文本與圖像的情感特征vi(i∈N)和vg(g∈N),將每個情感特征分別輸入到各自的情感分類器中進行情感分類,得到文本情感分析結果si和圖片情感分析結果sg,最后選擇合適的融合規則進行決策與融合。

2013 年,Borth 等[12]引入了APN 的概念,引入概念檢測庫,提供中級的可視化表示。這種基于感知庫的情感預測方法在檢測精度方面有顯著的提升。該研究也為研究者提供一個大型的公共資源,包括一個視覺情感本體以及一個大型檢測庫。2016 年,Yu 等[75]將訓練好的詞向量在CNN 上進行文本情感分析,使用DNN 和廣義的Dropout 進行圖像情感分析,最后將預測的概率進行加權平均取得情感二分類與三分類的結果。蔡國永等[6]提出了一種基于CNN的圖文融合媒體的情感分析方法,該方法融合了三個不同文本特征(詞語級、短語級、句子級)與圖像特征所構建的CNN 模型,將不同的分類結果相加求和,采用多數投票規則得出輸出結果,并分析不同表征能力所帶來不同的效果,最后實驗結果顯示,融合三種分類結果的集成分類器分類效果最好。

基于相關數據集,Saini 等[76]設計一個情感識別系統,采用雙峰方法,將用戶的情緒分為高興、悲傷與中性,系統可以用來銷售用戶所喜歡的產品,推薦合適的服務,甚至檢測心理健康問題。鄧佩等[77]針對傳統微博情感分析方法對圖片、特殊符號以及上下文信息的忽略而導致的問題,提出了一種基于轉移變量的圖文融合微博情感分析方法。首先,構建基于轉移變量的無監督情感分析模型(Unsupervised Sentiment Analysis Model based on Transition Variable,USAMTV),主要使用分層貝葉斯模型,由微博、情感、主題、詞組組成;然后,在該模型中融入了表情符號,引入了主題與上下文信息,能獲取文本的情感分布,考慮圖片情感濃度對于文本情感分布所產生的影響;最后,對微博整體情感進行計算。

基于多模態注意模型,Huang 等[78]提出一種新的圖像-文本情感分析模型,稱為深度多模態注意融合模型(Deep Multimodal Attentive Fusion,DMAF)。DMAF 主要利用混合融合框架挖掘圖片內容與文本內容的區別與聯系,進而進行情感分析。該模型中具有兩種獨立的單模態注意模型對文本情感與圖片情感進行分類;同時提出了一種基于中間融合的多模態注意模型,利用圖像與文本之間的特征進行聯合并進行情緒分類;最后將文本、圖像、文本-圖像融合三種注意力模型進行結合,進行情感預測。Xu等[17]提出一種多交互記憶網絡(Multi-Interactive Memory Network,MIMN)模型,該模型主要包括兩個交互式的模型網絡,不僅學習了交叉模態數據所造成的交互影響,還學習了單模態數據所造成的自我影響。該模型利用遞歸神經網絡建立多模態記憶,以掌握文本和圖像中的短語類特征;同時,遞歸記憶網絡還可以增強全局記憶抽象的記憶屬性。Kumar等[79]提出了一種混合深度學習模型用于實時多模態數據的細粒度情緒預測,模型分別對文本與圖像數據進行處理,然后使用決策級多模態融合的方法。Kumar 等[79]使用的CNN-SVM 模型中有四個模塊,分別是離散化模塊、文本分析模塊、圖像分析模塊和決策模塊,實驗結果分為非常積極、積極、中性、消極、非常消極五種,模型準確率也得到了提升。

綜上所述,決策層融合具有捕獲多重相關性的能力。在決策層融合策略中,雖然避免了圖文兩種模態特征由于本質的不同而對結果帶來的干擾,但是對于特征之間的互補關系,無法進行學習。相較于特征層融合,決策層融合更加簡單,針對情感結果進行融合即可,具有最優的局部決策結果。但是,可能需要學習所有模態的分類器,提高分析成本。表3 列舉了決策層融合不同模型策略的實驗結果。

3.3 一致性回歸融合

一致性回歸融合主要是對圖文兩種模態的進行相關性分析,輸入特征分布的協方差結構,考慮不同模態之間的相關性及其特征分布的差異,以文本vi(i∈N)及圖像vg(g∈N)為基礎構成文本-圖像對。提取圖文兩種模態的情感特征,將提取的特征輸入到構建的回歸模型中,模型中一般會加入相關性算法,學習圖片與文本的相關性權重,最后進行情感分析。

表3 決策層融合方法的實驗結果Tab.3 Experimental results of decision layer fusion methods

首先,由Chen 等[80]提出使用超圖結構來組合文本、視覺和表情信息來進行情感預測。他構造的超圖捕捉了不同模式下推文的相似性,其中每個頂點代表一個推文,超邊由每個模式上的“質心”頂點及其k個最近鄰組成;然后學習推文之間的關聯得分,用于情感預測。這樣,在情感預測中既考慮了模內依賴,也考慮了模間依賴。

基于一致性回歸模型與卷積模型,You 等[81]提出了一種跨模態一致性回歸(Cross-modality Consistent Regression,CCR)模型,利用大型社交多媒體內容進行情感分析的需要,對CNN 視覺情緒分析模型進行微調,提取圖像的視覺特征;然后,訓練了一個分布式的段落向量模型來學習圖像的相關標題和描述,從而學習文本的特征;最后,對提出的跨模態一致性回歸模型進行視覺和文本特征訓練,學習最終的情感分類器,進行圖文情感分析。Zhang 等[82]采用語義嵌入、情感嵌入以及詞匯嵌入三種不同的注意力機制進行文本編碼,并將注意向量、LSTM注意力機制與注意力池化三種不同的注意力方式同CNN 模型相結合。該方法研究了詞語及其上下文的聯系,消除歧義,豐富段落表示。為了提高三種不同注意力CNN 模型的性能,使用CCR 模型和轉移學習方法,使用于篇章級的情感分析中,相較于傳統的一致性回歸模型,提升了圖文情感分析的準確性。Chen 等[83]提出了一種弱監督的多模態深度學習(Weakly Supervised Multi-modal Deep Learning,WS-MDL)的魯棒可伸縮情感預測方案。這種情感預測方案對于CNN 的學習是迭代的,有選擇地從低成本的具有噪聲的情感標簽特征中學習。該方案首先從預訓練的CNN 和DCNN模型中計算情感概率分布和多模態語句的一致性;然后,訓練一個概率圖形模型來區分噪聲標簽的貢獻權值,這些貢獻權值被進一步發送回來分別更新CNN和DCNN模型的參數。實驗結果顯示,該方案在情感預測方面具有較好的效果。

基于多層深度融合,Ji 等[84]提出了一種新的雙層多模態超圖學習(Bi-layer Multimodal HyperGraph learning,Bi-MHG)算法對模態之間的依賴性問題進行解決。在Bi-MHG 模型中,具有一個兩層的結構:第一層結構為推文級超圖學習,對推文特征的相關性與推文相關性進行學習,預測推文情緒;第二層結構為特征級超圖學習,利用多模態情感詞典學習多個模態之間的相關性。該模型突出一種用于Bi-MHG 參數學習的嵌套交替優化方法,實驗中證明該模型具有較好的性能。蔡國永等[11]為了解決圖文之間語義匹配的問題,提出了一種基于層次化深度關聯融合網絡模型,能夠利用圖像的中層語義特征,采用VCG 提取特征、CNN 提取圖像中的ANP,使用Bi-LSTM 提取文本特征;最后,兩個特征融合主要是基于典型相關分析(CCA)和線性判別分析(Linear Discriminant Analysis,LDA)展開的,使用Multi-DCCA 和Multi-DeepLDA 進行相關性分析與判別性分析,將兩個分析結果進行融合,得出情感分析結果。Xu 等[85]提出了一種新的層次深度融合模型來對文本、圖像以及社會鏈接之間的相關性進行探索,該模型可以全面且互補地學習文本、圖像與社會鏈接之間的特征,進而進行有效的情感分析。該模型將文本特征與圖像特征輸入到一個分層的長短期記憶(Hierarchical LSTM,H-LSTM)神經網絡中,將圖片與文本不同的語義片段進行結合,學習文本與圖像之間的相關性。同時,該模型利用鏈接信息,將社會圖像之間的聯系使用加權關系網絡進行建模,將每個節點嵌入到一個分布向量中,利用多層感知器MLP 對圖像文本特征與節點進行融合,捕獲情感預測過程中的模態關聯。該模型同CCR、T-LSTM等模型相比,準確性得到了提升。

綜上所述,在一致性回歸融合模型中,雖然考慮文本與圖像情感特征所具有的一致性、圖文語義特征,也融合了特種層融合與決策層融合的優點,但是不能夠考慮到文本與情感特征之間存在的異性。表4 列舉了一致性回歸融合不同模型策略的實驗結果。

表4 一致性融合方法的實驗結果Tab.4 Experimental results of consistent fusion methods

4 總結與展望

隨著人工智能的發展與應用,圖文情感分析逐漸受到越來越多研究人員的關注,近些年來也取得較大的進展,本文通過對文本情感、圖片情感以及圖文情感研究現狀的認識,總結出當前圖文情感分析還存在以下幾個問題:1)由于部分數據集是小數據集,雖然考慮了圖文信息的差異,但是由于數據集數量不足,對于一些隱藏信息無法進行分析;2)不同用戶表述情感的方式不同,在研究過程中,忽略了用戶之間存在的差異;3)不同模態之間的交互信息較少,無法充分發揮模式間的互補關系;4)社交媒體的隨意性與主觀性,會導致圖文之間出現互斥問題。總結出其面臨的挑戰與發展趨勢如下:

1)當前圖文融合方面的數據集數量較少,數據不完整,數據內容涵蓋范圍單一,需要更大規模的數據集,提升實驗的準確性。

2)對圖文數據集進行標注也是當前研究的重要工作之一,但是標注會耗費一定的時間且需要一定的技巧,這就限制了圖文情感數據集的建立。因此,使用半監督或者無監督學習來進行情感預測是下一步研究要點。

3)圖文特征一般是通過不同的模型獲取的,圖文特征存在不一致性,如何將兩個模態信息互相補充、互為印證,進而建立更完善的圖文融合情感分析模型,是當前具有挑戰的一個問題。

4)當前研究中,文本語言類型一般為單一的,可以考慮不同的文本語言類型,面向更加廣泛的媒體數據。

5)通過圖文融合的情感分析數據可見,三分類甚至多分類的情感分析模型實驗效果一般,需要進一步研究圖片與文本二者的相關性與異性,提升情感分析的準確率。

6)在圖文融合的過程中,考慮得更多的是圖片與文字,對于信息發布的時間、地點、用戶關系并未進行充分考慮,這些信息發布特性對于提升分析的進度具有一定的作用,是圖文情感分析的研究方向。

5 結語

本文對圖文融合的情感分析進行了綜述,包括圖文數據集的介紹,文本、圖片情感分析的研究現狀和圖文融合情感分析的研究現狀。其中,圖文融合情感分析的研究現狀主要從三個模塊進行展開,分別為特征層融合、決策層融合和一致性回歸融合,并將各種方法進行數據對比與分析。當前,多模態融合的情感分析逐漸成為情感分析研究者的主要研究方面,具有十分重要的意義。在研究的過程中,許多相關領域的研究都值得借鑒,如:文本挖掘、圖像處理、自然語言處理等方法與技術。由于部分技術與方法不夠成熟,通過對于相關文獻展開的研究與分析,提出了當前圖文情感分析存在的問題。針對現有工作的不足,探討進一步的研究方向:1)更大的數據集與高質量的注釋能夠有助于提高實驗性能;2)使用半監督或者無監督的學習來進行情感分析,減少人工標注的壓力;3)建立更完善的圖文融合模型,尤其是考慮圖文的相關性、異性、一致性;4)能夠分析更多不同文本語言類型的情感,可以面向更多的圖文數據;5)在進行圖文情感分析的同時,考慮用戶發布內容的時間、地點、用戶關系等信息狀態。

猜你喜歡
模態特征文本
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
國內多模態教學研究回顧與展望
基于HHT和Prony算法的電力系統低頻振蕩模態識別
由單個模態構造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 国产成年女人特黄特色大片免费| 久草网视频在线| 玖玖精品在线| 国产91全国探花系列在线播放| 精品视频一区二区三区在线播| 国产精品永久在线| 国产成人AV男人的天堂| 五月婷婷亚洲综合| 中文字幕乱码二三区免费| 亚洲高清在线天堂精品| 在线看片中文字幕| 国产尤物jk自慰制服喷水| 91www在线观看| 国产精品福利在线观看无码卡| 91麻豆精品国产高清在线| 欧洲av毛片| 超清无码熟妇人妻AV在线绿巨人| 在线国产91| 伊人久久精品无码麻豆精品| 久久精品人人做人人爽97| 亚洲综合片| 久久伊人久久亚洲综合| 婷婷丁香在线观看| 91精品专区国产盗摄| 亚洲无码视频喷水| 日本人又色又爽的视频| 国产97区一区二区三区无码| 伊人91视频| 欧美中文一区| 亚洲专区一区二区在线观看| 狠狠色成人综合首页| 91外围女在线观看| 国产亚洲男人的天堂在线观看| 国产熟睡乱子伦视频网站| 91美女视频在线| 老司国产精品视频| 麻豆国产精品| 91免费精品国偷自产在线在线| 伊人久久婷婷| 99视频免费观看| 国产色伊人| 国产性猛交XXXX免费看| 久久香蕉国产线看观看亚洲片| 国产麻豆aⅴ精品无码| 欧美国产日韩另类| 欧美精品啪啪| 高清免费毛片| 国产噜噜噜| 丝袜国产一区| 极品国产一区二区三区| 九色在线观看视频| 亚洲国产中文精品va在线播放| h视频在线播放| 凹凸国产分类在线观看| 国产精品制服| 思思99热精品在线| 91精品aⅴ无码中文字字幕蜜桃| 亚洲色图在线观看| 精品国产自在现线看久久| 国产成人综合日韩精品无码首页| 国产成人亚洲综合a∨婷婷| 无码日韩精品91超碰| 国产精品手机视频| 国产综合精品一区二区| 2019年国产精品自拍不卡| 日本成人精品视频| 波多野结衣的av一区二区三区| 女人av社区男人的天堂| 成人中文在线| аⅴ资源中文在线天堂| 久久九九热视频| 1024你懂的国产精品| 久久精品aⅴ无码中文字幕| 免费国产无遮挡又黄又爽| 丝袜美女被出水视频一区| 亚洲国产亚综合在线区| 人妻无码一区二区视频| 91精选国产大片| 久久永久免费人妻精品| 成人字幕网视频在线观看| 国产成人凹凸视频在线| 国产日韩丝袜一二三区|