999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多任務學習的時序多模態情感分析模型

2021-07-02 08:54:30尹春勇
計算機應用 2021年6期
關鍵詞:模態特征文本

章 蓀,尹春勇

(南京信息工程大學計算機與軟件學院,南京 210044)

(?通信作者電子郵箱yinchunyong@hotmail.com)

0 引言

情感分析主要涉及檢測、分析和評估用戶面對不同事件、問題、服務時所產生的心理狀態,它是實現智能化人機交互的必要條件[1]。社交網絡作為新興的信息媒體,允許用戶上傳和分享日常的生活經歷和觀點看法。這些自用戶端發布的數據含有豐富的情感信息,能夠為情感分析提供重要的數據支持[2]。因此情感分析相關的工作大多以社交網絡為背景,利用用戶生成數據訓練情感分析模型。

現有的情感分析研究主要集中于單一的文本模態,它伴隨著統計學習和人工智能技術的發展得到了不斷的完善。文本情感分析的關鍵在于構建有效的文本特征表示。早期方法通?;谠~匯的情感信息,提取詞語統計特征作為文本表示,利用機器學習方法實現進一步的分類和預測。而自深度學習興起后,研究者提出利用卷積神經網絡(Convolution Neural Network,CNN)或循環神經網絡(Recurrent Neural Network,RNN)端到端提取文本的空間和時序信息,或是利用預訓練的語言模型將高維的稀疏特征映射到低維的語義空間,學習文本的嵌入表示。深度學習解決了傳統統計方法中存在的維度爆炸和特征稀疏問題,但是這些方法通常只關注于單一的模態信息,不能適應多模態的社交網絡環境。

每一種信息的來源或形式都可以看作是一種模態,社交網絡正是由文本、圖像、語音等多種模態構成的復雜環境[3]。例如在博客和商品評論場景中,用戶上傳的信息通常包括文字和圖像兩部分內容,兩種模態之間具有一定的語義和情感相關性。圖像內容的信息能夠輔助增強文本內容的情感表達,有效緩解可能出現的詞語歧義、語義模糊等問題。Truong等[4]關注于圖文模態之間的特征融合問題,并指出多模態情感分析能夠利用不同模態信息的一致性和互補性實現精準的情感預測。而Verma 等[5]則進一步指出模態內部自身的獨有特征也不能被忽略。因此,多模態場景下的情感分析工作需要解決模態的異質性和異構性問題,挖掘模態內部自身獨有的特征信息以及模態之間的交互信息。

在以油管、抖音為代表的視頻流媒體中,用戶上傳的視頻可以看作是文字、圖像、語音三種模態信息混合的時序數據。不同于靜態的圖文混合場景,模態之間的交互發生在時間尺度上,并且模態內部具有時序特征[6]。因此,時序多模態情感分析需要解決兩點問題:單模態的時序特征表示問題和跨模態的時序特征融合問題。Pham 等[7]基于機器翻譯的序列到序列(Sequence to Sequence,Seq2Seq)模型,利用循環神經網絡提取各模態的時序特征,再利用編碼-解碼過程學習模態之間的關聯性,以編碼訓練后的上下文特征作為跨模態的融合特征表示。Mai 等[8]提出的模態轉換方法同樣基于機器翻譯模型,借助對抗訓練提供編碼器的推斷能力,學習更好的單模態特征表示,再利用圖融合網絡分級融合不同模態的信息。此類基于機器翻譯和編碼-解碼結構的方法,能夠解決模態缺失和噪聲干擾的問題,但是在各模態信息較為完整時,情感分類準確度通常略有較低。

Tsai 等[9]利用多頭注意力機制計算兩兩模態組合之間的關聯程度,提出多模態Transformer(Multimodal Transformer,MulT)模型,能夠直接處理未對齊的模態序列,但是該方法未充分挖掘模態自身的時序信息,并且在預測時僅使用融合后的特征,忽略了模態內部所獨有的特征。因此,為了提取單模態內部的時序信息,本文提出了集成卷積神經網絡、雙向門控循環(Bidirectional Gated Recurrent Unit,BiGRU)神經網絡和多頭自注意力(Multi-Head Self-Attention,MHSA)的時序特征表示方法。Kim 等[10]最早提出了基于卷積神經網絡的文本時序特征提取方法,TextCNN(Text Convolution Neural Network)模型能夠實現類似于N-Gram 模型的效果,利用多個一維卷積核提取短語級的特征信息。在時序特征提取過程中,本文還利用卷積網絡實現了模態特征維度的統一,方便后續特征融合階段的注意力計算。雙向循環神經網絡能夠發現序列數據前向和后向的關聯性,而多頭自注意力利用注意力機制提取上下文信息,二者都被廣泛地應用于序列建模問題中,用于提取時序特征。二者的區別在于前者公平地對待每一個序列位置上的數據,而后者則為每個位置上的數據分配不同的注意力權重。循環神經網絡因為隱藏神經元的遺忘門機制和維度的有限,無法儲存長期的記憶信息,不適用于過長的序列數據。而注意力機制與所有的序列輸入建立連接,能夠獲得全局的上下文信息。將注意力機制引入循環神經網絡能夠克服其存在的局限性,更好地提取序列數據的時序特征。此外,為了挖掘模態之間的交互關系,本文基于多頭注意力機制提出了跨模態時序特征融合方法,發現模態組合之間雙向的對應關系,實現了跨模態信息的融合。

在獲得單模態特征表示及跨模態的融合特征后,本文基于多任務學習(Multi-Task Learning,MTL)設計下游任務框架,以情感評分回歸作為主任務,額外添加情感極性分類和情感強度回歸作為輔助任務,幫助上游模型提取更具區分度和泛化性的特征。Tian等[11]最早將多任務學習機制應用于多模態情感分析問題,依據情感評分回歸主任務,設計情感極性和強度分類作為輔助任務。Akhtar等[12]同樣基于多任務學習的思想,提出CIM-MTL(Multi-Task Learning for Contextual Inter-Modal)模型,設計情感極性二分類任務輔助實現細粒度的情感分類主任務??紤]到每種模態信息在不同任務中具有不同的貢獻度和重要性,本文為下游模型添加任務專屬的獨立評分模塊,按照任務需要計算每個共享特征的重要性,構建任務專屬的融合特征表示。

本文主要工作如下:1)提出單模態時序特征表示方法,通過集成卷積網絡、雙向門控神經網絡和多頭自注意力機制,充分挖掘序列數據的內部時序信息;2)提出跨模態特征融合方法,基于多頭注意力機制,在時間尺度上挖掘模態之間的交互關系,融合雙向注意力加權結果;3)提出任務專屬特征融合方法,為下游多任務學習模型添加獨立的評分模塊,根據具體任務目標,為共享特征表示自適應分配權重系數,構建任務專屬的融合特征。

1 相關工作

1.1 情感分析

“情感”一詞不僅指代人類具體的一種情感狀態,更是泛指一切感官、機體、心理以及精神的感受,能夠借由語言進行傳遞和表達。分析和理解用戶的情感狀態是實現人工智能、情感計算和人機交互的必要條件。在不同的情感分析問題中,研究者通常使用“sentiment”或“emotion”這兩個術語來表示情感,前者通常與情感極性分類或回歸任務相關,將情感粗略地劃分為積極和消極兩種狀態(部分研究中會添加中性狀態),分析用戶主觀感覺的傾向性,或是以實數情感評分度量用戶的情感狀態。而后者則一般涉及到細粒度具體的情感類別分類,通?;谛睦韺W和認知學的情感表示模型,將情感狀態歸納到不同的類別[13]。常用的情感表示模型如表1所示。

表1 情感表示模型Tab.1 Emotion representation models

在Hovy 等[14]的研究工作中,情感分析被定義為判斷說話者或寫作者對某個特定主題或文檔全部內容的態度,而這種態度包含人的主觀判斷、情感狀態或某種情感交流,他們認為情感分析包含了觀點挖掘、情感分類、極性分類等一系列問題,“sentiment”和“emotion”可以統一為主體對特定主題產生的主觀感覺。而Munezero等[15]則認為“sentiment”比“emotion”更加穩定且具有更強的傾向性,是針對特定對象產生的。實際上,在具體的應用中二者的邊界是很模糊的,本文根據任務目標的不同對二者進行區分。本文在情感極性二分類任務中,使用“sentiment”表示粗粒度的情感傾向,將情感極性粗略的劃分為積極和消極兩種狀態。在七分類任務中,則使用“emotion”表示具體的細粒度情感,采用七級李克特量表作為情感表示模型。

1.2 多模態情感分析

早期的情感分析主要面向單一的文本數據,利用自然語言處理、統計分析、計算語言學等技術,對攜帶情感信息的文本內容進行處理、分析、歸納和推理。

文本情感分析方法得益于文本分類技術的發展得到了不斷的完善和改進。在面向單模態的情感分析研究中,文本內容通常被認為能夠更好地表達情感和態度,因為詞語本身包含了大量情感相關的信息,而圖像和語音在情感表達上存在著語義混淆的可能。文本分類與文本情感分析都需要提取文本的語義信息,因此二者在技術上具有一定的相似性,而圖像情感分析與圖像分類有著本質的不同,圖像分類模型中提取的紋理視覺特征不能表示圖像的情感信息,它需要更高等級的抽象來發現潛在的語義信息。Borth 等[16]首次提出了利用形容詞-名詞對組合作為中級特征表達圖像的語義信息,再利用分類器預測情感類別與詞語組合之間的關聯性。Guillaumin 等[17]發現結合與圖像對應的文本內容能夠幫助理解圖像傳達的語義信息,實現更精準的圖像分類效果,這啟發了更多的研究者嘗試引入更多的模態信息,也使得多模態學習得到了持續的關注。

多模態學習能夠將聲覺和視覺內容與相應的文本信息進行關聯,使得非文本信息能夠被更好地理解。而非文本信息也能夠從不同的視角賦予文本更多的含義,強化文本的情感表達。與傳統靜態的圖文情感分析不同,視頻數據可以分解成文本、語音、圖像三種模態信息,每種模態都是一個時間序列,這種由多個時間序列混合而成的數據可以稱為時序多模態。人類的語言同樣是一個多模態的時序過程,在面對面交談時,聲音變化、面部動作和談話內容都是時變的,這些信息都能夠傳遞說話者的情感和態度。時序多模態情感分析存在著表示、轉換、對齊和融合問題[18],但一般而言,后三種問題可以總結為對跨模態交互關系的挖掘。因此,時序多模態情感分析面臨的主要問題有兩點,即單模態的時序特征表示和跨模態的時序特征融合問題。

首先,時序模態的特征表示方法需要發現模態內部不同時刻數據之間的關聯性。常見的方法通常是利用卷積神經網絡[19]或雙向循環神經網絡[20-21]提取時序特征。TextCNN 模型中提出了使用高度不同、寬度與序列數據維度相同的一組卷積核來提取序列的局部特征,如圖1(a)所示。這些高度不同的卷積核能夠發現相鄰時刻數據的關聯性,用于文本序列時可以實現類似于N-Gram 模型的效果,提取到短語級的特征。循環神經網絡則通過模擬大腦的記憶、遺忘和更新,按照輸入數據的順序提取隱藏特征,作為序列新的特征表示。如圖1(b)所示,雙向循環神經網絡則可以進一步發現前向和后向的序列特征,被廣泛應用于序列建模問題。

圖1 序列特征提取方法Fig.1 Sequential feature extraction methods

跨模態的特征融合需要整合多種模態的信息,發現模態之間存在的交互關系,而時序模態的交互是發生在時間尺度上的,即模態之間在每個時刻上都存在著一定的關聯。常用的模態融合方法按照融合的階段不同可以劃分為兩種:早期表示融合與晚期決策融合。決策融合通常是在獲得每種模態的特征表示后,利用每種模態信息進行獨立的預測,再經由加權、多數投票等處理獲得最終的決策結果[22]。這種方法與集成學習相似,能夠充分利用每種模態所獨有的特征,具有較好的泛化性,但忽略了模態之間的關聯性。

早期表示融合則是當前多模態學習關注的重點,一種常用的方法[23]則是直接拼接每種模態的特征,構建統一的聯合表示進行預測。這種方法簡單有效,但是只能獲得淺層的信息,無法深度挖掘模態的交互關系,提取更抽象的特征。Zadeh 等[24]首次提出了張量融合方法,利用向量的笛卡兒內積作為融合特征表示,這種方法能夠同時捕獲模態內部和模態之間的交互關系,提取單模態、雙模態和三模態的特征,但是具有較高的計算復雜度;隨后,Liu 等[25]基于矩陣的低秩分解提出了高效的張量融合方法,Liang等[26]則將該方法推廣到時序多模態融合問題上。在注意力機制被提出后,基于注意力加權的表示融合方法得到了快速的發展。CIM-MTL模型利用點乘注意力計算兩個模態之間的相似性,再利用門控機制混合原始信息與融合信息。Yu 等[27]提出了基于多頭注意力機制的單向特征融合方法,利用多個注意力頭在不同子空間和位置上發現模態之間的關聯性,而MulT 模型則是多頭注意力在時序多模態數據上的拓展。門控機制[28]可以看作是一種特殊的注意力機制,二者同樣是利用神經網絡學習權重系數,再經由加權求和獲得融合的特征表示。

1.3 多任務學習

廣義而言,在學習過程中同時優化多個損失函數都可以被認為是多任務學習,它的形式多樣,聯合學習、自主學習、輔助任務學習都可以被納入其中。Caruana 等[29]最先定義了多任務學習的目標,即多任務學習利用包含在相關任務訓練信號中的特定領域的信息來改進泛化能力。多任務學習具有一定的理論和實際意義,從人類學習的角度而言,人類通常會利用從相關任務學習到的知識幫助學習新的技能。從教育學的角度來看,人類通過學習相關任務來獲得必要的技能,以支持掌握更加復雜的技術。

在深度神經網絡中,多任務學習的實現通常采用兩種參數共享機制:硬參數共享和軟參數共享,如圖2 所示。硬參數共享是多任務學習中最常用的方法,它在所有的任務之間共享全部的隱藏層及其參數,僅保留最后幾個任務專屬的特定層。這種方法能夠有效地降低過擬合的風險,因為在硬參數共享方法中,模型學習到適合所有任務的特征表示是困難的,這也能夠降低在原始任務上過擬合的風險。后者則為每項任務都設置完整的模型和參數,但是會對任務模型的參數添加正則化約束,提高參數之間的相似性。

圖2 多任務學習的參數共享機制Fig.2 Parameter sharing mechanisms in MTL

多任務學習在某種程度上實現了數據增強的效果,因為所有的任務都含有一定的噪聲,在單個任務上訓練模型時,期望的目標是能夠學習到與該任務相關、并去除噪聲干擾的特征表示。由于不同的任務具有不同的噪聲模式,所以當一個模型同時學習多個任務時,就能夠獲得忽略多種噪聲模式,學習到更具泛化性的特征表示。當一個任務含有大量的噪聲或數據量有限并且維度過高,模型將難以提取到有效的信息,學習到相關的特征表示。而多任務學習則可以幫助模型將注意力集中在重要的特征上,因為其他相關的任務能夠為這些特征的重要性提供額外的證據。此外,不同的特征在不同的任務上的學習難易程度不同。一些重要的特征可能在特定的任務上更容易被模型學習,而在其他的任務上可能由于復雜的交互方式或其他特征的干擾阻礙了模型的學習,多任務學習則可以利用多任務訓練的優勢提高模型的學習能力。

現有的多模態情感分析工作中,集成多任務學習的方法大多采用硬參數共享方法,即在主任務和輔助任務之間共享上游的多模態融合網絡和特征表示,并為每項任務設置專屬的輸出層及激活函數。本文同樣基于硬參數共享機制,利用多任務學習的優點,學習更具泛化性的共享特征。

2 基于多任務學習的時序多模態情感分析

本文的研究目標是實現對時序多模態數據的情感分析,所有的工作都是在Zadeh 等[30-31]提出的CMU-MOSI(CMU Multimodal Opinion level Sentiment Intensity)和CMU-MOSEI(CMU Multimodal Opinion Sentiment and Emotion Intensity)數據集上開展的。數據集中的每個樣本X={x1,x2,…,xL}都是一個長度為L的時間序列,它可以分解為文本(T)、語音(A)、圖像(V)三種序列模態X=(XT,XA,XV)。每個樣本對應一個表示情感狀態的實數評分y∈[-3,3],情感分析的目標是利用已有的數據樣本訓練一個模型,正確預測未知樣本對應的評分。本文提出的多模態情感分析模型分為上游特征表示和下游多任務學習兩部分,其中上游特征表示模型結構如圖3 所示,包含單模態時序特征表示和跨模態時序特征融合。

圖3 上游特征表示模型結構Fig.3 Architecture of upstream feature representation model

2.1 時序單模態特征表示

首先為了挖掘模態內部所獨有的特征,并提取序列模態的時序信息,本文提出集成卷積神經網絡、雙向門控循環神經網絡、多頭自注意力機制的單模態時序特征表示方法。

CNN 被證明能夠提取序列的局部信息,具有滑動窗口和N-Gram 模型相似的功能。在MulT 模型中,CNN 還被用于統一各種模態的維度。本文使用一組固定高度、寬度與序列維度dk(k∈{T,A,V})相同的卷積核提取局部信息。如圖4所示,經過CNN 處理后的數據依然是一個時間序列,但維度被統一為卷積核的數量d=#channel。在設置卷積核步長為1 且不使用填充時,原始的時間序列長度會被縮短,這也有助于加速后續循環神經網絡的訓練,縮小注意力矩陣的形狀。

圖4 卷積神經網絡提取局部時序信息Fig.4 Local sequential information extracted by CNN

CNN 處理后的數據將繼續輸入到BiGRU 中,通過不斷地更新隱藏狀態,提取時間序列的高階時間特征。設置隱藏狀態的維度為dh,提取每個時刻對應的雙向隱藏狀態作為新的特征,因此BiGRU處理后的數據形狀為2dh×(L-H+1)。

多頭自注意力機制利用多個注意力頭在不同的子空間內計算查詢和索引向量之間的相似度,提取更加豐富的上下文信息。每個注意力頭的計算式如下所示:

其中:M為注意力頭的數量,WQ、WK和WV分別是對應的查詢(Q)、關鍵字(K)、取值(V)映射矩陣,將原始數據映射到不同的低維空間。拼接所有注意力頭的輸出獲得完整的輸出結果:

多頭自注意力輸出的數據與查詢矩陣逐元素累加,利用層歸一化處理(Layer Normalization,LN),避免數值過大而引起梯度爆炸問題SAk=LN(Hk+MATT(Hk))。在經過全連接網絡(Fully Connected network,FC)映射和逐元素累加進行調整后,可以得到最終序列單模態的特征表示為:

2.2 跨模態時序特征融合

特征融合是多模態學習的核心,因此在獲得單模態特征表示后,本文基于多頭注意力機制,挖掘兩兩模態組合之間雙向的交互關系。傳統的圖文情感分析研究中,通常只會考慮從文本到圖像的交互關系,將圖像的信息附加到文本特征上,這是因為文本內容可以提供較為完整的信息,而視覺特征僅起到輔助增強情感表達效果。但對于本文的研究問題,三種模態的信息都是完整的,并且它們互為補充,共同傳遞演講者的情感和態度,因此時序多模態的特征融合需要在時間尺度上發現雙向的交互關系。

MulT 模型將基于多頭注意力的特征融合方法推廣到時序多模態問題上,利用模態A每個時刻的數據作為索引向量,計算與另一種模態B所有時刻數據的相似度,從而將模態B的信息附加到模態A中,實現了從模態A到模態B(記作A→B)單方向的特征融合。這種特征融合方法能夠處理不同長度的序列,在非對齊序列上也保留了較好的效果。本文同樣是基于多頭注意力機制,以文本UT和語音UA的跨模態融合為例,計算從文本到語音的融合時每個注意力頭為:

拼接所有注意力頭輸出的結果后,經過如式(4)和式(5)的前向映射和層歸一化處理,得到單向融合結果CAT→A∈。按照同樣的方法可以獲得從語音到文本的融合特征CAA→T∈,拼接雙向的融合結果獲得完整的跨模態融合結果:

跨模態融合的特征依然保持時序特征,使用多頭自注意力進一步地提取特征,發現序列自身的上下文信息,最終文本與語音信息融合后的結果記作此時三種單模態特征表示UT、UA、UV和三種跨模態融合特征FTA、FTV、FAV都是二維矩陣,為了方便下游任務模型的計算,本文使用平均池化整合所有時刻上的數據,并使用線性映射將單模態特征投影到與跨模態特征相同維度的空間。最終上游模型提取的六種特征表示共同拼接為完整的共享特征表示SF=[SFT,SFA,SFV,SFTA,SFTV,SFAV]∈,輸入到下游多任務學習模型中學習任務專屬的融合特征。

2.3 多任務學習和任務專屬特征融合

本文在下游模型中,添加情感極性分類和強度回歸作為輔助任務,利用多任務學習的特點,幫助上游特征表示模型學習更具區分度和泛化性的特征,如圖5所示。在2.2節中提取的特征表示SF在主任務和兩項輔助任務之間共享,上游模型接受來自三項任務的梯度進行參數更新。三項任務之間使用硬參數共享機制,除輸出層神經元數量和激活函數不同,其余結構全部統一。

圖5 下游多任務學習框架Fig.5 Framework of downstream MTL

Tian等[11]從心理學和認知學角度設計的輔助任務具有可解釋性,但是考慮到情感評分主任務是回歸問題,而情感的強度通常是一個連續的實數值,不能簡單地作為多分類問題。因此,根據情感評分回歸主任務的樣本標簽y∈[-3,3],設置二分類任務檢測情感極性yP∈{positive,negative},同時設置回歸任務預測情感強度yI=abs(y)∈[0,3]。

文本、語音、圖像這三種模態都能夠傳遞一定的情感信息,但是在表現不同的情感時,它們的貢獻度是變化的。此外,對于不同的任務目標,每種模態或特征的重要性也是不同的。將多任務學習集成到多模態情感分析中,需要根據任務的目標,衡量每種模態信息的重要性。

本文提出的任務專屬特征融合方法如圖6 所示,在每項下游任務中設置獨立的評分模塊,根據任務目標學習每種特征表示的注意力權重。上游特征表示模型學習的共享特征由6 種融合特征組成SF=[SFT,SFA,SFV,SFTA,SFTV,SFAV],利用前向神經網絡學習每種特征表示的注意力權重:

圖6 任務專屬特征融合Fig.6 Task-specific feature fusion

其中,α、β和γ為超參數,用于調節三項任務的訓練程度。較大的參數值能夠指導模型優先學習該項任務,加快該任務上的收斂。

3 實驗與結果分析

本章將通過定性和定量的實驗驗證改進模型的效果,實驗使用Python 3.6.9 語言編寫,基于深度學習框架PyTorch 1.4.0 實現神經網絡結構。實驗環境為Ubuntu18.04系統,硬件設置為Intel Core i9-9900K@3.6 GHz×16 處理器和GeForce RTX 2080顯卡。

本文使用兩個公開的多模態基準數據集CMU-MOSI 和CMU-MOSEI 對改進的模型進行評估。兩個數據集中的樣本都是由油管視頻片段中分解出的文本、語音、圖像三種時序模態構成,每個樣本對應的情感標簽為y∈[-3.0,3.0]的實數值,即為情感評分。對于情感評分回歸主任務,直接使用樣本對應的情感評分作為回歸目標。對于情感極性二分類任務,則將y≥0 的數據標記為積極狀態,y<0 則標記為消極狀態。對于情感強度回歸任務,則以情感評分的絕對值作為對應的預測目標。在計算七分類準確度時,則基于七級李克特量表情感表示模型,通過四舍五入將實數的情感評分映射為七個類別標簽作為七分類的目標。

數據集中的文本部分使用預訓練的BERT(Bidirectional Encoder Representation from Transformers)模型進行編碼,獲得對應的嵌入表示作為文本特征。語音和圖像部分則直接使用多模態開發工具包(CMU Multimodal SDK)[32]提供的特征。在對齊三種模態序列后,為了方便實驗測試,本文通過截斷和填充統一所有樣本的序列長度,并按照指定編號劃分數據集,相關統計信息如表2所示。

表2 多模態基準數據集統計信息Tab.2 Statistics of multimodal benchmark datasets

3.1 定量實驗

模型訓練過程中選用Adam 優化器,設置學習率為5E-4,批訓練樣本數量為128。上游特征表示模型中,使用100個高度為3的卷積核,BiGRU隱藏神經元數量設置為100。下游多任務學習模型中,設置CMU-MOSEI數據集上的超參數α、β和γ均為1,設置CMU-MOSI 數據集上的超參數全為1。為了比較和評估本文所提出的改進模型,選用以下幾種多模態情感分析方法作為對比,實驗結果如表3~表4所示,對比方法的結果全部引用自相應的原文獻。

表3 CMU-MOSEI數據集上實驗結果Tab.3 Experimental results on CMU-MOSEI dataset

表4 CMU-MOSI數據集上實驗結果Tab.4 Experimental results on CMU-MOSI dataset

RMFN(Recurrent Multistage Fusion Network)[33]:該模型將跨模態的融合過程分解為多個階段進行,并使用循環神經網絡捕獲時序模態內部的信息。

MFM(Multimodal Factorization Model):Tsai等[34]提出了一種全新的視角來學習多模態特征表示,它能夠將每種模態信息分解為共享的判別因子和獨有的生成因子。

RAVEN(Recurrent Attended Variation Embedding Network)[35]:該方法基于注意力模型,使用非文本模態信息來調整詞語的嵌入表示,它指出說話者的意圖與非文本模態信息具有一定的關聯,在理解人類語言時也需要考慮非文本的模態信息。

MCTN(Multimodal Cyclic Translation Network)[36]:該方法基于編碼器和解碼器結構,學習模態之間的轉換關系,并利用循環一致性損失構建多模態特征表示。

MulT:該模型基于多頭注意力機制和Transformer 結構,學習模態兩兩之間的轉換關系,能夠捕捉跨模態的交互關系。

CIM-MTL:該方法是經典的基于多任務學習的多模態情感分析模型,它利用情感細粒度的多標簽分類任務,輔助提升主任務的性能。

考慮到主任務是情感評分回歸任務,因此選用MAE 和皮爾森相關系數(Pearson Correlation,Corr)為評價指標。此外,本文使用二分類準確度(Acc-2),七分類準確度(Acc-7)和F1值作為分類性能的評價指標。根據表3~4 中的結果顯示,本文的方法在CMU-MOSEI 數據集上取得了最好的結果,而MulT 模型在CMU-MOSI 數據集上效果更好。MulT 模型在CMU-MOSI 數據集上的結果優于在CMU-MOSEI 數據集上的結果,而結合表2 所示的統計信息可以發現,CMU-MOSEI 數據集的訓練樣本總量高于CMU-MOSI 數據集。因此,可以得出MulT 模型雖然在CMU-MOSI 數據集上效果更好,但它在該數據集上過擬合,不能推廣到CMU-MOSEI數據集上。而本文的方法在提供更多的訓練樣本后,其分類和回歸表現均獲得了提升,這也表明多任務學習能夠有效地降低過擬合的風險,提升了模型的泛化性。

為了進一步驗證模型各部分模塊的必要性和有效性,分別移除每一個模塊,比較其對模型整體的影響。在CMUMOSEI 數據集上的實驗結果如表5 所示。根據二分類準確度和七分類準確度指標,可以衡量各部分模塊對模型整體的影響??梢园l現,當移除單模態特征表示部分的自注意力模塊后,二分類準確度存在明顯的降低。同樣的,移除單模態共享特征也會影響到二分類準確度。而移除單模態和跨模態共享特征,都會造成七分類準確度的降低,也表明了多模態學習中,發現模態內部和模態之間信息的必要性。此外,在下游任務模型中,移除情感極性分類任務和情感強度回歸任務,分別會對二分類和七分類準確度產生顯著的影響,這個結果符合本文對情感極性和強度任務的定義,也驗證了主任務能夠通過相關任務的輔助而獲得提升。

表5 CMU-MOSEI數據集上的消融實驗結果Tab.5 Ablation experimental results on CMU-MOSEI dataset

3.2 定性實驗

本文在下游多任務學習部分中提出了任務專屬特征融合方法,并在每個任務中添加專屬的評分模塊,按照特定的任務目標,計算相應的共享特征權重。為了理解不同任務目標與共享特征之間的對應關系,本文使用箱線圖可視化每種共享特征表示對應的注意力權重,如圖7所示。

圖7 權重系數可視化Fig.7 Visualization of weight coefficients

箱線圖能夠展示一組數據的分布情況,從圖7 中的權重系數分布可以得出結論,對于不同的任務目標,每種共享特征對應的重要性也是不同的,這也驗證了任務專屬評分模塊的必要性。如圖7(a)所示,情感評分回歸主任務的權重主要集中于文本-圖像和文本-語音融合特征,以及文本單模態特征,這表明了情感評分任務對文本信息的依賴性。主任務對融合特征分配了較高的注意力權重,這也驗證了利用相關的非文本信息,能夠輔助增強文本的情感表達。而在圖7(c)所展示的情感強度回歸任務中,對文本-語音和文本-圖像融合特征的依賴也證明了挖掘模態關聯性的必要。在圖7(b)中,情感極性分類任務的注意力權重則分散在三種融合特征和語音特征上。最后,通過可視化三種情感分析任務與六種共享特征的注意力權重,可以總結出以下三點結論,也進一步驗證了1.2節中相關研究工作的結果:

1)相較于語音和圖像模態,文本模態通常蘊含更加豐富的情感信息,這也解釋了早期情感分析工作大多集中于文本內容的原因。

2)利用非文本模態信息,能夠更好地提取文本中的情感內容,增強情感表達能力,這表明了跨模態融合對情感分析工作的必要性和重要性。

3)不同的模態信息(包括單模態和跨模態)具有不同的重要性,并且會伴隨具體的任務目標而變化,這表明多模態模型不能只關注于學習單模態和跨模態特征,也需要進一步考慮所提取的每種信息的重要性。

4 結語

多模態情感分析是情感計算領域新興的研究重點,它不僅要求模型能夠發現模態內部獨有的特征,還要求能夠正確捕捉模態之間的相互作用。而本文的研究對象是以油管視頻為代表的多模態序列,這為多模態情感分析帶來了新的問題。模態的時序特性要求模型能夠充分挖掘單模態潛在的序列和上下文信息,并且序列模態的相互作用是發生在時間尺度上。本文首先提出集成了卷積神經網絡、雙向門控循環神經網絡和多頭自注意力機制的單模態特征表示方法。卷積神經網絡能夠提取序列的局部特征,同時縮短序列長度并統一多模態序列的維度。雙向門控網絡能夠挖掘前向和后向的序列信息,而多頭自注意力則能夠有效地提取上下文信息。其次,本文提出了基于多頭注意力的跨模態表征融合方法,挖掘兩兩模態之間、雙向的交互關系,構建模態融合特征表示。最后,本文基于多任務學習思想,在下游模型中添加兩項額外的輔助任務,利用任務之間的依賴關系,指導上游模型學習更具判別性和泛化性的特征表示。通過在兩個經典多模態情感分析數據集上的實驗,可以驗證本文方法的有效性。

本文的方法依賴于多頭注意力機制捕獲模態自身與模態之間的信息,這種方法具有較高的計算復雜度和空間開銷,而MFM 模型給多模態學習指出了新的研究方向。共存的多模態之間具有共同的成分,也具有每種模態所獨有的成分。通過對模態進行分解,能夠更好地捕獲模態的獨有特征和共有信息,這種方法也具有更好的可解釋性。因此,在未來的工作中,將針對模態分解方法展開進一步的深入研究。

猜你喜歡
模態特征文本
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
國內多模態教學研究回顧與展望
基于HHT和Prony算法的電力系統低頻振蕩模態識別
由單個模態構造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 日韩一区精品视频一区二区| 色婷婷丁香| 久久免费视频播放| 99re热精品视频国产免费| 国产精品2| 亚洲中文无码av永久伊人| 极品国产一区二区三区| 九月婷婷亚洲综合在线| 超碰精品无码一区二区| 999福利激情视频| 久久久噜噜噜久久中文字幕色伊伊| 福利在线一区| 黄色a一级视频| 国产欧美视频在线观看| 粗大猛烈进出高潮视频无码| 国产午夜一级淫片| 黄色在线网| 国产精品短篇二区| 国产chinese男男gay视频网| 亚洲中文字幕97久久精品少妇| 91区国产福利在线观看午夜| 亚洲福利视频一区二区| 国产乱子伦视频在线播放| 国产亚洲精品自在久久不卡| 国模视频一区二区| 尤物特级无码毛片免费| 四虎在线观看视频高清无码| yy6080理论大片一级久久| 噜噜噜久久| 国产高清在线观看| 精品剧情v国产在线观看| 99热这里只有精品国产99| 在线观看国产精品第一区免费| 久久精品人人做人人综合试看| 亚洲国产中文精品va在线播放| 4虎影视国产在线观看精品| 亚洲欧美日韩动漫| 一本大道香蕉高清久久| 中文字幕调教一区二区视频| 免费国产一级 片内射老| 人人爽人人爽人人片| 日韩A∨精品日韩精品无码| 国产a在视频线精品视频下载| 国产玖玖玖精品视频| 久久精品视频一| 免费一级毛片| 99久久精品久久久久久婷婷| 日韩视频福利| 亚洲一区二区日韩欧美gif| 在线日韩日本国产亚洲| 午夜久久影院| 99草精品视频| 巨熟乳波霸若妻中文观看免费| 国产乱肥老妇精品视频| 99久久精品免费看国产电影| 日本不卡在线| 无遮挡国产高潮视频免费观看 | 四虎综合网| 国产香蕉在线| 成人福利免费在线观看| 国产精品永久免费嫩草研究院| 99视频在线看| a亚洲天堂| 欧洲欧美人成免费全部视频| 一本大道无码日韩精品影视| а∨天堂一区中文字幕| 自拍偷拍欧美| 国产丝袜第一页| 香蕉久久国产超碰青草| 在线国产综合一区二区三区| 国产丝袜91| 丁香五月激情图片| 成人av专区精品无码国产| 2021国产乱人伦在线播放| 99久久无色码中文字幕| 亚洲小视频网站| 亚洲一级色| 九色综合伊人久久富二代| 九九这里只有精品视频| 国产制服丝袜无码视频| 一级做a爰片久久免费| 欧美在线黄|