999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于跨模態注意力機制的多模態情感分析方法探究

2025-03-02 00:00:00郭繼偉魯慧哲許杰
電腦知識與技術 2025年1期

摘要:多模態情感分析旨在融合文本、視覺和聽覺等模態的信息,以提升情感識別的準確性。現有工作常忽視模態數據元素間存在的長距離依賴關系,未能充分融合來自不同模態的情感信息。為此,文章提出一種基于跨模態注意力機制的情感分析模型。該模型無須對多模態序列進行預對齊處理,能夠在整個時間尺度范圍內尋找各模態元素間的最佳映射關系,從而充分融合多模態數據。相較于基線模型,該模型在CMU-MOSI數據集上取得了1.0%至2.2%的性能提升,優于現有模型,有效驗證了該方法在情感分析任務中的優越性。

關鍵詞:自然語言處理;多模態情感分析;多模態融合;跨模態注意力機制;長距離依賴關系

中圖分類號:TP391 文獻標識碼:A

文章編號:1009-3044(2025)01-0001-04 開放科學(資源服務) 標識碼(OSID) :

0 引言

伴隨著在線視頻網站的興起,包含文本、視覺及聽覺模態的多模態數據呈現出爆發式增長[1]。挖掘和理解多模態數據中蘊含的情感元素[2],即多模態情感分析(Multimodal Sentiment Analysis,MSA) 已成為一個熱門的研究方向[3]。多模態情感分析通過整合來自不同模態的信息,利用各個模態之間存在的協同性和互補性,提高模型在復雜場景下識別情感的魯棒性。然而,現有方法往往忽視模態間存在的長距離依賴關系,未能充分融合來自不同模態的情感信息,從而影響模型的預測精度。此外,傳統方法通常需要對多模態數據進行時間維度上的手動對齊[4],且在設計融合方案時未考慮到多模態數據之間的互補性。

為解決上述多模態情感分析領域存在的問題,本文提出基于跨模態注意力機制的多模態情感分析模型(Multimodal Sentiment Analysis Based on CrossmodalityAttention Mechanism,MCA) 。該模型利用跨模態注意力機制,使其能夠有效關注到模態自身內部以及其他模態所在位置的輸入信息,賦予多模態序列不同位置相應的注意力權重系數,從而更好地捕捉潛在的多模態長距離依賴關系,對多模態信息進行充分融合。由于各個模態的采樣率不同,先前的工作需要手動地將各個模態的數據在時間維度上做對齊處理,以尋找各個模態元素之間的對應關系。這種手動的對齊方式不僅耗時耗力,而且也無法獲取跨模態情感元素之間的最佳映射關系。利用跨模態注意力機制可以有效地建立各個模態元素之間的最佳映射,挖掘和利用模態間存在的長距離依賴關系。此外,先前的工作在設計多模態融合方案時,模態輸入的數量是受限的,即一次只考慮對兩個模態信息融合,當模態數量超過兩個時,需要執行多次融合才能實現對多個模態信息的融合。這種融合設計方案不僅會使模型保留大量冗余參數,增加計算的復雜性,而且還將多個模態之間的交互割裂開來,未能充分挖掘利用模態之間的互補性,導致模型的效率和性能下降[5]。為此,本文在執行多模態融合的過程中,將考慮到所有輸入的模態信息,充分考慮模態信息之間的互補性,理解并挖掘多模態數據背后所蘊含的情感信息。本文在公開的多模態情感分析數據集CMU-MOSI[6]上進行實驗,將模型的表現與所選取具有代表性的基線在分類和回歸兩項任務的四個評價指標上進行對比,性能提升范圍從1% 到2.2%,優于現有模型。具體的貢獻總結如下:

1) 提出一種新的跨模態注意力機制,用于捕獲模態自身以及跨模態元素之間存在的長距離依賴關系,實現對多模態數據的有效融合。

2) 在未對齊的多模態序列數據上完成情感分析任務,無須手動將各個模態在時間維度上強制對齊,從而節省人力物力和時間成本。

3) 在對多模態數據進行融合時,考慮到所有輸入的模態信息,使模態之間的互補性得到充分利用和挖掘。

1 模型概述

本小節首先闡述多模態情感分析任務的定義,然后詳細介紹本文所提出的基于跨模態注意力機制的多模態情感分析模型,如圖1所示。該模型主要包括三個部分:模態特征提取、多模態融合和情感分類器。模態特征提取用于將原始輸入的數據轉換為計算機可處理的數字序列向量;多模態融合旨在整合匯聚來自多個模態數據中與識別情感有關的信息,從而得到一個緊湊的多模態表示;情感分類器將獲取到的多模態表示進行識別預測,從而完成情感分析任務。

1.1 任務定義

多模態情感分析任務通過分析從數據集中獲得的多個模態序列數據來精確判斷其背后的情感強度或者為其分配對應的情感標簽。基于跨模態注意力機制多模態情感分析模型輸入的是未對齊的多模態序列數據Xm ∈ RTm × dm ,其中m ∈ { t,v,a },Tm 和dm 分別代表模態m 的序列長度(例如,文本模態中單詞的數量,視覺模態視頻幀的數量) ,以及模態特征向量維度。模型最終輸出的y? ∈ R 作為最終預測結果,用于完成下游的多模態情感分析任務。

1.2 模態特征提取

模態特征提取的作用是將原始模態信號經過特征提取后轉化成計算機可以處理的數字向量。對于文本模態,本文使用基于Transformers架構的預訓練模型(Bert) [7]提取文本模態的特征,將原始文本模態中的單詞轉換為詞向量表示。在模型輸入文本模態的首部和尾部分別添加[ cls ]和[ sep ]兩個標簽得到預訓練模型的輸入,s = { w0,w1,w2,...,wn,wn + 1 }。將s 送入預訓練模型,獲得文本模態的詞向量表示。Bert有多個不同版本,本文選取的是在多模態情感分析領域主流的版本Bert-base-uncased,該預訓練模型是由12個編碼器層組成。具體計算公式描述如下:

Ft = Bert(s,θBerts ) ∈ RTt × dt (1)

式中:Tt代表文本模態的序列長度,dt代表特征向量維度,θBerts 代表Bert模型的參數,s 代表模型輸入原始的文本模態信息。

對于視覺和聽覺模態信息,遵循前人的工作,分別使用Facet和COVAREP工具從原始的數據信號提取初級特征向量表示(無可訓練的參數) 。然后使用單向的長短期記憶神經網絡[8]捕捉模態的時間特征。具體計算公式描述如下:

Fv = sLSTM (Xv ; θLSTMv ) ∈ RTv × dv (2)

Fa = sLSTM (Xa ; θLSTMa ) ∈ RTa × da (3)

式中:Tv 和Ta 分別代表視覺和聽覺模態的時間序列長度,dv 和da 分別代表視覺和聽覺模態的特征維度,θLSTM 代表長短期記憶神經網絡參數,Xv 和Xa 分別代表模型輸入的視覺和聽覺模態。

1.3 多模態融合

多模態融合模塊是由跨模態注意力機制、層標準化、殘差以及平均化組成(如圖2所示) ,其主要作用是融合來自不同模態的信息,送入下游的情感分類器模塊。首先將提取到的文本、視覺以及聽覺模態的特征信息拼接在一起得到一個簡單的多模態聯合表示Xm,送入多模態融合模塊。在多模態融合模塊中,利用跨模態注意力機制對每個模態元素進行計算模態自身內部以及其他模態元素之間的注意力系數,對多模態數據中存在的長距離依賴關系進行建模。跨模態注意力機制操作如下:定義查詢矩陣Qm = XmWQm,鍵矩陣Km = XmWKm 以及值矩陣Vm = XmWVm。其中,WQm,WKm以及WVm 分別是神經網絡中的權重矩陣。計算公式如下:

式中: 根號下dk 代表縮放系數,T 代表轉置操作,soft max函數代表歸一化操作,Xf 表示跨模態注意力機制輸出。

然后對跨模態注意力機制模塊輸出的Xf 在特征維度上進行層標準化操作,目的是加快模型收斂速度以及提升模型的泛化能力。殘差網絡的使用是為了避免在訓練模型的過程中,出現梯度消失或爆炸問題。最后將高維度的多模態表示進行降維操作,提取全局特征,用于下個階段對多模態情感進行預測任務。具體計算公式描述如下:

X'm= Mean(LayerNorm(X ) f + Xm ) (5)

式中:Xm 代表簡單多模態表示,Xf 代表跨模態注意力機制輸出,LayerNorm(?) 代表層標準化操作,Mean(?)代表對多模態表示降維操作,X'm代表多模態融合模塊輸出。

1.4 情感分類器

情感分類器模塊接收多模態融合模塊輸出的多模態表示,實現對情感結果的最終預測功能。該模塊主要由多個前饋神經網絡和激活函數組成。具體計算公式簡述如下:

式中:y?代表輸出的情感預測結果,f (?)代表激活函數,Wm 代表可學習的權重矩陣,X'm 代表多模態融合模塊輸出的多模態表示信息,bm 代表偏置。訓練期間,多個批次的多模態原始數據送入模型后,經過前向傳播輸出對情感的預測,然后利用反向傳播函數更新模型參數,使得模型預測情感標簽更加貼近真實值,本文選取的損失函數是L1Loss,計算模型值和樣本值之間差的平均絕對值。具體計算公式描述如下:

式中:y?i 代表模型輸出第i 個樣本的預測值,yi 代表第i 個樣本人工標注真實情感標簽,n 代表樣本總容量。

2 實驗設置

本小節首先介紹多模態情感分析領域受歡迎的數據集CMU-MOSI,實驗設置以及模型的評價指標,緊接著對實驗結果進行詳細分析,最后探索模態數量對多模態情感分析模型性能的影響。

2.1 數據集介紹

CMU-MOSI是多模態情感分析研究領域常用的數據集,包含文本、視覺及聽覺模態信息。該數據集由來自YouTube平臺的93個視頻組成,每個視頻持續時間為2至5分鐘。經過拆分后得到2 199個視頻片段,每個視頻片段經由人工標注其情感值,情感強度范圍為-3至+3,這種標注將情感劃分為7種類別:強消極、消極、弱消極、中立、弱積極、積極、強積極。該數據集提供3個子集:訓練集、驗證集及測試集,訓練集樣本個數為1 284,驗證集樣本個數為292,測試集樣本個數為686。

2.2 實驗設置

實驗環境:Ubuntu 22.04 64位操作系統,Python版本3.12,Pytorch版本2.2.2。

訓練最優參數設置:隱藏層維度為768,批次大小為32,優化器為Adam,主模型參數學習率為1e-3,Bert-base-uncased預訓練模型學習率為1e-5,情感分類器中Dropout設置為0.1,訓練輪數設置為20。本文提出的模型通過使用網格搜索方法,當且僅當模型在驗證集上的損失函數取得最佳結果時,確定網絡模型中超參數組合為最佳超參數。具體步驟描述:確定需要調優的超參數取值范圍,例如批次大小取值為[8,16,32,64],學習率取值為[1e-5,3e-5,1e-3,3e-3,1e-2] 等;將超參數可能取值進行排列組合,模型根據選擇的超參數組合進行訓練,計算超參數組合在驗證集上的表現,以此來確定最優的超參數組合。

2.3 實驗評價指標

本文從分類及回歸兩個角度共4個指標評價模型的表現。分類任務評價指標包括二分類(Binary Accu?racy, Acc-2) 和F1分數(F1-Score) ,回歸任務評價指標包括皮爾遜相關系數(Pearson Correlation, Corr) 和平均絕對誤差(Mean Absolute Error, MAE) 。在樣本分布均衡時,二分類能夠很好地反映模型的分類能力;面對樣本分布不均衡時或需要綜合考慮精準率和召回率時,F1分數則更具參考價值。皮爾遜相關系數在多模態情感分析任務中有助于評估模型預測的情感與真實情感之間的線性關系強度,平均絕對誤差則有助于評估模型預測情感強度的準確性。對于分類任務和皮爾遜相關系數,較高的值表示模型表現更好;對于平均絕對誤差(MAE) ,較低的誤差則表示模型預測結果更接近真實標簽。

2.4 實驗結果分析

本文所提出的基于跨模態注意力機制的模型在多模態情感分析CMU-MOSI數據集上進行了大量實驗,并與典型代表性的多模態情感分析工作進行詳細對比。具體的對比工作包括:張量融合網絡模型(Ten?sor Fusion Network,TFN) [9]、記憶融合網絡模型(Memory Fusion Network,MFN) [10]、多模態轉換融合網絡(Multimodal Transformers,MulT) [11]、學習模態不變性及特性表示的情感分析模型(Modality-Invariant and-Specific Representations for Multimodal SentimentAnalysis,MISA) [12]以及將多模態信息整合到大型預訓練Transformers 中的模型(Integrating Multimodal Infor?mation in Large Pretrained Transformers,MAG) [13]。

本文所提出的基于跨模態注意力機制多模態情感分析模型(MCA) 與選取的其他基線模型的實驗結果對比如表1、表2所示。從兩個表中可以觀察到,在分類和回歸兩項任務的4個評價指標上都顯著優于所選取的模型,模型表現性能提升范圍為1%至2.2%。相較于多模態轉換融合網絡(MulT) [11],本文提出的模型在整合匯聚多模態特征信息時,沒有打破多模態交互的完整性,一次性考慮到所有輸入的模態信息,充分挖掘多模態元素之間的交互信息。與將多模態信息整合到大型預訓練Transformers中的模型(MAG) [13]不同之處在于,MAG執行多模態融合時,假定多模態數據在時間維度上已經被手工處理,即多個模態數據在時間尺度上是相等的,僅考慮對相同時間尺度內的模態數據進行融合。由于模態采樣率的不同,情感的表達是一個隨時間動態變化的過程。例如,沮喪的面部表情與之前說過的一句悲觀話語密切相關,單一時間尺度內的交互無法理解情感表達的本質。本文所提出的模型針對未對齊的多模態序列數據,利用跨模態注意力機制捕獲多模態數據存在的長距離依賴關系,不受時間尺度的限制,從而更加準確地捕捉到多模態數據背后所蘊含的情感信息。實驗結果驗證了本文提出的基于跨模態注意力機制的多模態情感分析模型在情感分析領域的優越性。

2.5 消融實驗

為驗證模態數量對多模態情感分析模型性能的影響,本文通過控制模型輸入模態的種類,設計三組不同的實驗進行對比研究。具體包括:將基于單個文本模態的模型(T) 、基于視覺和文本雙模態的模型(Tamp;V) 以及基于聽覺和文本雙模態的模型(Tamp;A) 與本文提出的模型(Tamp;Aamp;V) 的實驗結果進行對比。

本文提出的模型接受不同數量的模態信息在分類任務(Acc-2和F1分數評價指標) 上的對比如圖3所示。可以觀察到,模型接受三種模態信息(Tamp;Aamp;V) 輸入的表現性能顯著優于接受兩種模態(Tamp;V和Tamp;A) 輸入以及單模態(T) 輸入的表現性能,有力地證明伴隨著模態數量的增加,情感分析模型的魯棒性也得到提升。值得注意的是,基于文本模態的情感分析模型(T) 在情感分析任務中表現結果最差。這是因為單純的文本模態在反語、諷刺等場景下,文本字面表達的情感信息與闡述者真實表達的信息完全相反,因此導致模型性能表現較差。人類情感的傳遞方式是多元化的,不僅局限于文本模態,還通過語調、面部姿勢等多種形式傳達。伴隨著模態數量的增加,模型能夠捕捉到更多的情感信息。在面對個別模態信息缺失、模態信息被噪聲干擾等復雜場景下,情感信息之間可以起到相互驗證和補充的積極作用,從而有助于提高模型的魯棒性。

3 總結與展望

針對多模態情感分析領域存在的忽視長距離依賴以及需要手動將多模態數據在時間維度對齊等問題,本文提出基于跨模態注意力機制的多模態情感分析模型。該模型可以在未對齊的多模態序列數據上關注到模態內部以及模態間任意位置的輸入信息,從而將多個模態信息整合到一個緊湊的多模態表示中,完成多模態情感預測任務。在公開的CMU-MOSI數據集上進行大量實驗,并與具有代表性的多模態基線模型進行對比分析,驗證本文所提出方法在多模態情感分析任務上的優越性。

盡管本文所提出的模型在多模態情感分析任務中取得優異的性能,但也存在一些不足之處,主要體現在未能實現端到端的方式完成情感分析任務。未來工作的重點方向是設計新的模態特征提取范式,不再借助Facet和COVAREP外部工具將原始的模態信號轉換成數字向量,使模型可以自適應學習更有效的特征表示,實現端到端的多模態情感分析模型方案,便于推廣和普及多模態情感分析在真實社會場景下的應用。

參考文獻:

[1] 劉繼明,張培翔,劉穎,等.多模態的情感分析技術綜述[J].計算機科學與探索,2021,15(7):1077-1095.

[2] hHiAerNar cWhi,cCaHl EmNu tHua,Pl OinRfoIArm Sa.tIiomnp rmovaixnigm mizautlitoimn ofdoarl mfuuslitoinm owditahl sEemntpiimriecnatl Maneatlhyosdiss[ Cin]/ /NParotucreaeld Linagnsg uoaf gteh eP r2o0ce2s1s iCngon.Ofenrleinncee a nond tPiounn tfao rC Canoam,Dpuotmatiinoincaaln L Rinegpuuibstliiccs.S,2tr0o2u1d:s9b1u8r0g-,P9A19,U2S. A:Associa?

[3] 吳友政,李浩然,姚霆,等.多模態信息處理前沿綜述:應用、融合和預訓練[J].中文信息學報,2022,36(5):1-20.

【通聯編輯:謝媛媛】

主站蜘蛛池模板: 亚洲人成人无码www| 欧美日韩一区二区三区在线视频| 国产欧美视频综合二区| 一级片免费网站| 国产在线欧美| 国产av剧情无码精品色午夜| 黄片在线永久| 丰满少妇αⅴ无码区| 波多野结衣一区二区三区四区视频| 国产一级毛片网站| 国产区精品高清在线观看| 国产午夜人做人免费视频中文| 日韩福利在线视频| 久久精品中文字幕免费| 美女啪啪无遮挡| 午夜福利无码一区二区| 国内自拍久第一页| 国产精品美女自慰喷水| 欧美中文字幕一区| 国产黄在线免费观看| 高清亚洲欧美在线看| 另类综合视频| 亚洲精品视频免费| 欧美日韩va| www.亚洲天堂| 广东一级毛片| 国产成人精品无码一区二| 免费无码AV片在线观看国产 | 夜夜爽免费视频| 国产毛片高清一级国语 | 天堂久久久久久中文字幕| 国产手机在线观看| 精品久久久久久中文字幕女| 热99re99首页精品亚洲五月天| 国产成人精品一区二区不卡| 中文字幕免费在线视频| 日韩不卡免费视频| 国产精品久久精品| 欧美黑人欧美精品刺激| 亚洲国产欧美国产综合久久 | 四虎永久在线| 国国产a国产片免费麻豆| 久精品色妇丰满人妻| 黄网站欧美内射| 国产精品人成在线播放| 69精品在线观看| 一区二区三区在线不卡免费| 国产成人精品男人的天堂下载| 亚洲人成网站色7799在线播放 | 国产免费福利网站| 亚洲欧美日韩高清综合678| 欧美成在线视频| 激情综合婷婷丁香五月尤物| 中文字幕资源站| 亚洲色图综合在线| 亚洲成人动漫在线观看| 美女一区二区在线观看| 亚洲精品成人7777在线观看| 精品福利网| 欧日韩在线不卡视频| 国产鲁鲁视频在线观看| 91丝袜美腿高跟国产极品老师| 夜精品a一区二区三区| 97视频免费在线观看| 国产黄色免费看| 亚洲日本韩在线观看| 一级毛片在线免费视频| 四虎影院国产| 国产无码制服丝袜| 亚洲欧美精品日韩欧美| 精品伊人久久久香线蕉 | 91精品国产丝袜| 国产在线视频自拍| 热久久综合这里只有精品电影| 亚洲无线视频| 最新国产精品鲁鲁免费视频| 最新精品久久精品| 亚洲系列无码专区偷窥无码| 日韩午夜福利在线观看| 中文字幕在线欧美| 九九这里只有精品视频| 久久婷婷人人澡人人爱91|