999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于注意力的多層次混合融合的多任務(wù)多模態(tài)情感分析

2022-01-01 00:00:00宋云峰任鴿楊勇樊小超

摘 要:針對(duì)多模態(tài)情感分析中的模態(tài)內(nèi)部特征表示和模態(tài)間的特征融合問(wèn)題,結(jié)合注意力機(jī)制和多任務(wù)學(xué)習(xí),提出了一種基于注意力的多層次混合融合的多任務(wù)多模態(tài)情感分析模型MAM(multi-level attention and multi-task)。首先,利用卷積神經(jīng)網(wǎng)絡(luò)和雙向門(mén)控循環(huán)單元來(lái)實(shí)現(xiàn)單模態(tài)內(nèi)部特征的提取;其次,利用跨模態(tài)注意力機(jī)制實(shí)現(xiàn)模態(tài)間的兩兩特征融合;再次,在不同層次使用自注意力機(jī)制實(shí)現(xiàn)模態(tài)貢獻(xiàn)度選擇;最后,結(jié)合多任務(wù)學(xué)習(xí)獲得情感和情緒的分類(lèi)結(jié)果。在公開(kāi)的CMU-MOSEI數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,情感和情緒分類(lèi)的準(zhǔn)確率和F1值均有所提升。

關(guān)鍵詞:多模態(tài);情感分析;注意力機(jī)制;多任務(wù)學(xué)習(xí)

中圖分類(lèi)號(hào):TP391.1 文獻(xiàn)標(biāo)志碼:A

文章編號(hào):1001-3695(2022)03-012-0716-05

doi:10.19734/j.issn.1001-3695.2021.08.0357

基金項(xiàng)目:新疆維吾爾自治區(qū)自然科學(xué)基金資助項(xiàng)目(2021D01B72);國(guó)家自然科學(xué)基金資助項(xiàng)目(62066044)

作者簡(jiǎn)介:宋云峰(1995-),男,安徽六安人,碩士研究生,主要研究方向?yàn)槎嗄B(tài)情感分析、自然語(yǔ)言處理;任鴿(1986-),女,河南蘭考人,講師,碩士,主要研究方向?yàn)閿?shù)據(jù)挖掘、自然語(yǔ)言處理;楊勇(1979-),男,陜西漢中人,教授,博士,主要研究方向?yàn)樽匀徽Z(yǔ)言處理、軟件工程;樊小超(1982-),男(錫伯族)(通信作者),新疆塔城人,講師,博士,主要研究方向?yàn)槲谋厩楦蟹治觯?7769630@qq.com).

Multimodal sentiment analysis based on hybrid feature fusion of multi-level

attention mechanism and multi-task learning

Song Yunfeng,Ren Ge,Yang Yong,F(xiàn)an Xiaochao?

(School of Computer Science amp; Technology,Xinjiang Normal University,Urumqi 830054,China)

Abstract:Aiming at the problem of intra-modality feature representation and inter modality feature fusion in multimodal sentiment analysis,this paper proposed a multi-level hybrid fusion multi-modal sentiment analysis model based on attention mechanism and multi-task learning.Firstly,the model used convolution neural network and bi-directional gated unit to extract the single-modality internal feature.Secondly,it used the cross-modality attention mechanism to realize the pairwise feature fusion between modalities.Thirdly,it used the self-attention mechanism to select the modality contribution at different levels.Finally,combining with multi-task learning,the model obtained both sentiment and emotion classification results.The experimental results on CMU-MOSEI dataset show that this method can improve the accuracy and F1-score of sentiment and emotion classification.

Key words:multimodal;sentiment analysis;attention mechanism;multi-task learning

0 引言

情感分析是對(duì)帶有情感色彩的主觀性數(shù)據(jù)進(jìn)行分析、處理、歸納和推理的過(guò)程,在傳統(tǒng)的情感分析研究中針對(duì)的主要媒介是文本。雖然單模態(tài)情感分析在輿情監(jiān)控、產(chǎn)品分析等多方面取得了成功,但隨著近年來(lái)社交媒體的快速發(fā)展,網(wǎng)絡(luò)上涌現(xiàn)出大量的多模態(tài)數(shù)據(jù),基于文本的單模態(tài)情感分析已經(jīng)不能滿足處理多模態(tài)數(shù)據(jù)的要求。因此,基于多模態(tài)數(shù)據(jù)的情感分析應(yīng)運(yùn)而生,并且有著重要的現(xiàn)實(shí)意義和應(yīng)用價(jià)值[1

人類(lèi)認(rèn)識(shí)世界的方式是多模態(tài)的,每一種信息載體都可以被稱之為一種模態(tài)。多模態(tài)情感分析是指對(duì)包含情感信息的多模態(tài)數(shù)據(jù)進(jìn)行情感分析的過(guò)程[2,3。社交媒體是多模態(tài)數(shù)據(jù)的海量來(lái)源,以視頻為例,視頻中包含了文本、音頻和圖像這三種信息載體,文本能攜帶語(yǔ)義信息,音頻能攜帶語(yǔ)氣、音調(diào)等信息,圖像能攜帶表情、手勢(shì)等信息。三種模態(tài)的關(guān)系是相互補(bǔ)充、相互解釋的,單從一種模態(tài)上來(lái)分析其情感色彩是不全面的,因此相較于傳統(tǒng)的情感分析方法,利用多模態(tài)數(shù)據(jù)來(lái)解決情感分析任務(wù)有著很大的優(yōu)勢(shì)。

在多模態(tài)情感分析領(lǐng)域,已經(jīng)提出了大量的深度學(xué)習(xí)模型。Poria等人[4提出了BC-LSTM(bi-directional contextual long short-term memory),利用雙向LSTM網(wǎng)絡(luò)結(jié)構(gòu)捕捉上下文信息;Zadeh等人[5提出了張量融合網(wǎng)絡(luò),使用多視圖門(mén)控記憶模塊來(lái)同步多模態(tài)序列;同時(shí)提出了記憶融合網(wǎng)絡(luò)6,在時(shí)間尺度上建模視圖內(nèi)和視圖間的交互。雖然研究者對(duì)多模態(tài)情感分析模型提出了許多改進(jìn)方法,但仍然存在許多不足。在多模態(tài)特征表示中,既需要考慮單模態(tài)內(nèi)部特征的表示,也要考慮到模態(tài)之間的交互,以前的方法大多不能很好地兼顧模態(tài)內(nèi)部特征的表示和模態(tài)之間的交互;此外,多種模態(tài)信息的引入會(huì)引起信息冗余的問(wèn)題,使模型無(wú)法有效地辨別對(duì)分類(lèi)任務(wù)來(lái)說(shuō)最重要的特征信息。因此,識(shí)別模態(tài)貢獻(xiàn)度對(duì)多模態(tài)情感分類(lèi)也是一個(gè)重要的問(wèn)題。

針對(duì)以上的問(wèn)題,本文提出一種基于注意力的多層次混合融合的多任務(wù)多模態(tài)情感分析模型MAM。主要的貢獻(xiàn)有如下幾點(diǎn):a)跨模態(tài)層次注意力機(jī)制,通過(guò)跨模態(tài)注意力機(jī)制得到各模態(tài)之間的交互信息,再通過(guò)自注意力機(jī)制層層篩選出對(duì)分類(lèi)任務(wù)最重要的跨模態(tài)特征,賦予不同模態(tài)貢獻(xiàn)度權(quán)重,減少了模態(tài)噪聲的干擾;b)多任務(wù)學(xué)習(xí)框架,將預(yù)測(cè)目標(biāo)納入多任務(wù)學(xué)習(xí)框架中,在底層共享參數(shù),進(jìn)行情感和情緒的雙重識(shí)別,使網(wǎng)絡(luò)學(xué)習(xí)到更泛化的模態(tài)特征表示。

1 相關(guān)工作

1.1 多模態(tài)情感分析

根據(jù)所使用的融合方法可以將多模態(tài)情感分析模型大體分為兩類(lèi):

a)用于建模單模態(tài)序列數(shù)據(jù)的模型,如隱馬爾可夫模型、RNN(recurrent neural network)和LSTM,使用的融合方式主要為早期融合、晚期融合和混合融合。早期融合是將得到的不同模態(tài)特征簡(jiǎn)單地拼接,并將其視為單模態(tài),這類(lèi)模型不能很好地學(xué)習(xí)到模態(tài)內(nèi)的關(guān)系;與早期融合相反,晚期融合在每個(gè)子模型的輸出結(jié)果之后進(jìn)行投票,由于該方法的融合過(guò)程與特征無(wú)關(guān),子模型的誤差通常也是無(wú)關(guān)的[7,8;混合融合結(jié)合了早期和晚期融合方法,雖然結(jié)合了兩種方法的優(yōu)點(diǎn),但是增加了模型的結(jié)構(gòu)復(fù)雜度和訓(xùn)練難度9,10。Poria等人[4提出了BC-LSTM模型,該模型使用雙向的LSTM來(lái)捕獲全局上下文信息;Chen 等人[11提出了GME-LSTM(gated multimodal embedding long short-term memory),將加入了門(mén)控機(jī)制的LSTM結(jié)合注意力機(jī)制在單詞級(jí)別上進(jìn)行模態(tài)融合。但是以上研究方法均忽視了單模態(tài)內(nèi)部信息的建模。

b)用于處理多模態(tài)信息的模型。文獻(xiàn)[5]提出了TFN(tensor fusion network)模型,使用多視圖門(mén)控記憶模塊來(lái)同步多模態(tài)序列,該多視圖門(mén)控記憶模塊記錄隨時(shí)間變化的模態(tài)內(nèi)部視圖和模態(tài)間的視圖交互;Zadeh等人[6提出MFN(memory fusion network),在多視圖的序列建模中有視圖內(nèi)的交互和視圖間的交互,MFN在時(shí)間尺度上持續(xù)建模這兩種交互;Graph-MFN(graph memory fusion network)[12是建立在MFN上的一種動(dòng)態(tài)融合圖,它是一種用來(lái)解決多模態(tài)語(yǔ)言中的跨模態(tài)交互的融合方式,其對(duì)每個(gè)模態(tài)進(jìn)行建模,根據(jù)每個(gè)模態(tài)的重要性來(lái)更改其結(jié)構(gòu)以選擇合適的融合圖;Cai等人[13提出了層次融合模型,將文本、圖像和圖像的屬性視為三種不同類(lèi)型的模態(tài),在不同層次上進(jìn)行表征融合和模態(tài)融合,充分利用模態(tài)之間的關(guān)系。

1.2 多任務(wù)學(xué)習(xí)

多任務(wù)學(xué)習(xí)[14是從人類(lèi)歸納學(xué)習(xí)到的知識(shí)來(lái)認(rèn)識(shí)新事物的方式受到的啟發(fā),是指同時(shí)學(xué)習(xí)包含在多個(gè)相關(guān)聯(lián)的任務(wù)中的信息,實(shí)現(xiàn)信息共享,從而提升了模型的總體泛化性能。深度學(xué)習(xí)模型通常都需要大量的訓(xùn)練樣本以達(dá)到很高的分類(lèi)精確度,但是收集大量的訓(xùn)練樣本通常耗時(shí)耗力,因此在有限的樣本數(shù)量的情況下,多任務(wù)學(xué)習(xí)是學(xué)習(xí)多個(gè)相關(guān)聯(lián)的任務(wù)很好的解決方法[15,16

He等人[17提出交互式的多任務(wù)學(xué)習(xí)模型IMN(interactive multi-task learning network),能夠在標(biāo)記層和文檔層同時(shí)學(xué)習(xí)多個(gè)相關(guān)任務(wù),它不依賴于學(xué)習(xí)不同任務(wù)的共同特征,而是通過(guò)一組共享的隱變量迭代地傳遞給不同的任務(wù)。多模態(tài)數(shù)據(jù)在決策過(guò)程中通常具有不同的貢獻(xiàn)度,Akhtar等人[18提出了一個(gè)深度多任務(wù)學(xué)習(xí)框架,同時(shí)進(jìn)行情感和情緒分析,利用GRU來(lái)捕捉對(duì)話的全局上下文信息,利用注意力機(jī)制實(shí)現(xiàn)模態(tài)間的交互,結(jié)合多任務(wù)學(xué)習(xí)同時(shí)預(yù)測(cè)情感和情緒。

2 多層次混合融合的多任務(wù)多模態(tài)情感分析

圖1為本文提出的基于注意力的多層次混合融合的多任務(wù)多模態(tài)情感分析模型MAM的模型結(jié)構(gòu)圖,模型結(jié)構(gòu)主要由以下五個(gè)部分組成:

a)單模態(tài)特征提取層。每段對(duì)話是由一系列的句子組成的,它們之間有相互依賴的語(yǔ)義關(guān)系。因此,利用CNN(convolutional neural network)和雙向的GRU(gated recurrent unit)獲得全局的上下文特征信息,實(shí)現(xiàn)單模態(tài)內(nèi)部特征的提取。

b)跨模態(tài)特征融合層(第一層次)。通過(guò)跨模態(tài)注意力機(jī)制將步驟a)中所獲得的文本、音頻和視頻三種模態(tài)的特征兩兩進(jìn)行模態(tài)交互。

c)模態(tài)內(nèi)的自注意力(第二層次)。將步驟b)所得跨模態(tài)注意力矩陣拼接后,通過(guò)自注意力機(jī)制捕捉模態(tài)特征的內(nèi)部相關(guān)性。

d)模態(tài)間的自注意力(第三層次)。將步驟c)所得的模態(tài)特征矩陣拼接后,經(jīng)過(guò)第二次的自注意力機(jī)制進(jìn)行二次融合,捕捉三種模態(tài)特征間的相關(guān)性,識(shí)別任務(wù)貢獻(xiàn)度高的模態(tài)信息。

e)多任務(wù)學(xué)習(xí)。將步驟d)所得的特征矩陣,通過(guò)兩個(gè)不同的全連接子網(wǎng)絡(luò)同時(shí)進(jìn)行情感和情緒的分類(lèi)。

2.1 單模態(tài)特征提取

對(duì)于具有n段對(duì)話組成的視頻Ui=Ui1,Ui2,…,Uin,使用CMU-Multi-modal Data SDK 來(lái)下載和提取特征。文本、音頻和視頻分別通過(guò)GloVe、 CovaRep以及Facet提取對(duì)應(yīng)的特征,將得到的特征按詞的維度取均值,最終得到句子級(jí)別的特征表示為

其中:m∈{L,A,V}。多模態(tài)序列通常涉及語(yǔ)言(L)、音頻(A)和視頻(V)三種主要形式。

不同的模態(tài)特征是以不同的采樣率獲得的,其序列長(zhǎng)度T∈{L,A,V}和維度特征d∈{L,A,V}均不相同。在多模態(tài)情感分析中常用CNN作為序列對(duì)齊工具,具有與全連接層類(lèi)似的效果,將輸入序列傳遞給一維卷積層:

其中:k{L,V,A}是模態(tài)的卷積核大小;T是一個(gè)一致的序列長(zhǎng)度。

GRU模型由重置門(mén)和更新門(mén)組成,結(jié)構(gòu)簡(jiǎn)單,能有效緩解梯度爆炸和梯度彌散問(wèn)題。可表示為

其中:xit為視頻i中第t個(gè)元素的輸入特征值;ht為模態(tài)序列t時(shí)刻的隱藏層狀態(tài);U、W和b分別為權(quán)重和偏置系數(shù)。雙向的GRU相比于單向的GRU不僅能記住前向的序列依賴關(guān)系,也能記住后向的依賴關(guān)系,因此具有更好的捕獲上下文的優(yōu)勢(shì)。將CNN處理過(guò)后輸入序列傳遞到雙向GRU中,表示為

2.2 多層次模態(tài)特征融合

多模態(tài)特征融合一直是多模態(tài)研究領(lǐng)域的核心問(wèn)題,早期研究提出了早期融合、晚期融合和混合融合等融合方式。在多模態(tài)情感分類(lèi)任務(wù)中,針對(duì)不同的任務(wù),每種模態(tài)的重要性并不是相同的,有時(shí)是通過(guò)面部表情,有時(shí)則是語(yǔ)言表達(dá)。所以,每種模態(tài)的貢獻(xiàn)度對(duì)最終的分類(lèi)結(jié)果起著很重要的作用。注意力機(jī)制借鑒了人類(lèi)的思維方式,被廣泛應(yīng)用于深度學(xué)習(xí)的各個(gè)領(lǐng)域。跨模態(tài)注意力擅長(zhǎng)捕獲模態(tài)間的相關(guān)性,可以實(shí)現(xiàn)模態(tài)間的動(dòng)態(tài)交互,自注意力機(jī)制減少了對(duì)外部信息的依賴,擅長(zhǎng)捕捉數(shù)據(jù)或特征的內(nèi)部相關(guān)性。因此,本文結(jié)合跨模態(tài)注意力和自注意力的優(yōu)勢(shì),提出了一種多層次跨模態(tài)特征融合方式。當(dāng)有兩種模態(tài)α和β,表示為Xα∈?Tα×dα、Xβ∈?Tβ×dβ;將查詢向量表示為Qα=XαWQα,鍵向量表示為Kβ=XβWKβ,值向量表示為Vβ=XβWVβ。其中,WQα∈?dα×dk,WKβ∈?dβ×dk,WVβ∈?dβ×dk。β到α的跨模態(tài)注意力可以表示為

通過(guò)跨模態(tài)注意力獲得語(yǔ)言對(duì)音頻、視頻,音頻對(duì)語(yǔ)言、視頻,視頻對(duì)語(yǔ)言、音頻六組模態(tài)交互特征,如下所示:

為了獲取單模態(tài)的完整表示,將六組跨模態(tài)交互特征矩陣拼接,表示為

其中:[⊕]表示拼接操作。

transformer[19中最基礎(chǔ)的模塊單元是放縮的點(diǎn)積注意力(scaled dot product),又被稱為自注意力機(jī)制,可以表示為

其中:查詢矩陣Q、鍵矩陣K以及值矩陣V均從輸入矩陣映射而來(lái);dk是一個(gè)用來(lái)放縮的比例因子;操作QKT會(huì)得到一個(gè)注意力權(quán)重矩陣。為了獲取跨模態(tài)特征矩陣數(shù)據(jù)的內(nèi)部相關(guān)性,確定模態(tài)內(nèi)的貢獻(xiàn)度,通過(guò)自注意力機(jī)制進(jìn)行第一次的自注意力融合,可以表示為

為了進(jìn)一步獲得不同模態(tài)間的相關(guān)性和貢獻(xiàn)度分配,再次拼接L、A和V,通過(guò)自注意力機(jī)制進(jìn)行第二次的融合,可以表示為

其中:[⊕]表示拼接操作;ZI為模態(tài)的最終融合總特征。

2.3 情感和情緒多分類(lèi)

多任務(wù)學(xué)習(xí)能通過(guò)共享表示層參數(shù)實(shí)現(xiàn)信息共享,從而同時(shí)提高多個(gè)任務(wù)的性能。本文采用硬參數(shù)共享將模型中絕大部分的隱藏層參數(shù)共享,只保留相應(yīng)任務(wù)層的隱層參數(shù)獨(dú)立。分類(lèi)結(jié)果如下所示:

其中:Si為情感分類(lèi)的最終結(jié)果;Ei為情緒分類(lèi)的最終結(jié)果;Wt和bt分別為全連接層的權(quán)重和偏置矩陣;Wsi、bsi和Wso、bso分別為sigmoid和softmax層的權(quán)重和偏置。

3 實(shí)驗(yàn)及分析

3.1 數(shù)據(jù)集

CMU-MOSEI(CMU multi-modal opinion sentiment and emotion intensity)數(shù)據(jù)集是由Zadeh等人[12提出的,該數(shù)據(jù)集從YouTube收集了1 000多條視頻,從中提取出了23 000多段對(duì)話。訓(xùn)練集、驗(yàn)證集和測(cè)試集分別包含了16 216、1 835、4 625條對(duì)話,表1列出了CMU-MOSEI數(shù)據(jù)集的基本信息。在粗粒度上每段對(duì)話的情感極性被標(biāo)記為一個(gè)從-3~+3的值,同時(shí)在細(xì)粒度上每段對(duì)話又被分成六個(gè)情緒標(biāo)簽,分別是憤怒、厭惡、恐懼、快樂(lè)、悲傷、驚喜。實(shí)驗(yàn)中,將情感極性值lt;0作為負(fù)向情感,≥0時(shí)作為正向情感。此外,對(duì)于該數(shù)據(jù)集中無(wú)情緒標(biāo)簽的對(duì)話,將無(wú)情緒作為一個(gè)額外的標(biāo)簽加入到六種情緒中,組成了七種情緒標(biāo)簽。

3.2 參數(shù)設(shè)置和評(píng)價(jià)指標(biāo)

本實(shí)驗(yàn)使用Python 3.7編寫(xiě),使用的深度學(xué)習(xí)框架為PyTorch 1.2.0,使用顯卡為T(mén)elsa K80。在深度學(xué)習(xí)中,超參數(shù)的設(shè)置十分重要,本文模型的主要超參數(shù)如表2所示。對(duì)于情感二分類(lèi)問(wèn)題使用F1值和準(zhǔn)確率作為評(píng)估矩陣。對(duì)于情緒分類(lèi),與文獻(xiàn)[18,20]保持一致,使用F1值和加權(quán)準(zhǔn)確率作為評(píng)估矩陣,情緒的閾值分別設(shè)置為0.4和0.2。由于數(shù)據(jù)集中各情緒的比例是不平衡的,加權(quán)準(zhǔn)確率能更好地衡量模型的實(shí)際表現(xiàn)效果。

3.3 實(shí)驗(yàn)結(jié)果

本文選用以下幾種經(jīng)典的多模態(tài)分析模型作為基準(zhǔn)模型:a)EF-LSTM(early fusion LSTM),通過(guò)早期融合將不同模態(tài)特征拼接后,用LSTM來(lái)捕捉上下文信息;b)LF-DNN(later fusion DNN),通過(guò)晚期融合將不同子網(wǎng)絡(luò)訓(xùn)練得到的特征進(jìn)行拼接,進(jìn)行投票分類(lèi);c)MFN(memory fusion network)[6,在多視圖的序列建模中有視圖內(nèi)的交互和視圖之間的交互,記憶融合網(wǎng)絡(luò)在時(shí)間尺度上持續(xù)建模這兩種交互;d)Graph-MFN(graph memory fusion network)[12,將MFN模型中的注意網(wǎng)絡(luò)轉(zhuǎn)換成動(dòng)態(tài)的融合圖來(lái)實(shí)現(xiàn)模態(tài)之前的交互;e)CIM(contextual inter-modal attention)[18,利用雙向GRU和注意力機(jī)制分別建模模態(tài)內(nèi)和模態(tài)間的動(dòng)態(tài)交互。

表3給出了本文模型在CMU-MOSEI數(shù)據(jù)集上的F1值、準(zhǔn)確率以及加權(quán)準(zhǔn)確率的對(duì)比。在情感分類(lèi)上,與基準(zhǔn)模型相比,F(xiàn)1值提升了0.1%~19.2%,準(zhǔn)確率提升了0.5%~22.9%。在情緒分類(lèi)上,與基準(zhǔn)模型相比,憤怒的加權(quán)準(zhǔn)確率提升了3%~19.5%;厭惡的F1值和加權(quán)準(zhǔn)確率分別提升了0.7%~60.3%和1%~23.1%;快樂(lè)的F1值提升了2.3%~30.4%,悲傷的F1值和加權(quán)準(zhǔn)確率分別提升了0.3%~61.5%和3.1%~14.4%;驚訝的F1值提升了0.1%~55.7%,情緒的平均F1值和加權(quán)準(zhǔn)確率分別提升了0.4%~45.5%和0.8%~10.9%。其中,在憤怒、快樂(lè)和悲傷三種情緒的識(shí)別準(zhǔn)確度上提升較大。

從實(shí)驗(yàn)結(jié)果可知,EF_LSTM和LF_DNN在情感和情緒的分類(lèi)性能上都較差,在情感分類(lèi)任務(wù)上與其他模型的差距達(dá)到了10%以上。這說(shuō)明基于早期融合和晚期融合的模型均有很明顯的缺陷,不能兼顧模態(tài)內(nèi)的特征建模和模態(tài)間的特征建模。MFN、Graph-MFN和CIM-Att的性能相對(duì)較優(yōu),與本文模型差距較小,MFN在驚喜的加權(quán)準(zhǔn)確率仍表現(xiàn)最優(yōu),Graph-MFN在恐懼的F1值和快樂(lè)的加權(quán)準(zhǔn)確率上表現(xiàn)最好,CIM-Att在憤怒的F1值和恐懼的加權(quán)準(zhǔn)確率上表現(xiàn)最優(yōu)。本文基于注意力的多層次混合融合的多任務(wù)多模態(tài)情感分析模型MAM不僅在情感分類(lèi)上取得了最好的實(shí)驗(yàn)結(jié)果,而且在厭惡、快樂(lè)、悲傷和驚訝的情緒分類(lèi)任務(wù)中的表現(xiàn)都優(yōu)于對(duì)比方法,充分驗(yàn)證了本文MAM模型的有效性。

3.4 消融實(shí)驗(yàn)

為了驗(yàn)證模型中每個(gè)模塊的有效性,分別移除多任務(wù)學(xué)習(xí)模塊和多層次自注意力模塊來(lái)確定其對(duì)模型整體效果的影響。實(shí)驗(yàn)結(jié)果如表4所示,移除了多任務(wù)學(xué)習(xí)模塊后,情感分類(lèi)的F1值和準(zhǔn)確率分別下降了2.6%和 3.3%,情緒分類(lèi)的平均F1值下降了1.4%。可以看到,情感分類(lèi)和情緒分類(lèi)的F1值和準(zhǔn)確率均有一定幅度的下降,這說(shuō)明加入了多任務(wù)學(xué)習(xí)框架能有效地提高模型分類(lèi)的性能。在移除了第一層自注意力后,情感分類(lèi)的F1值和準(zhǔn)確率分別下降了1.8%和3.4%,情緒分類(lèi)的平均F1值和準(zhǔn)確率分別下降了0.3%和0.2%;移除二層自注意力,情感分類(lèi)的F1值和準(zhǔn)確率下降了1.6%和2.9%,情緒分類(lèi)的平均F1值和準(zhǔn)確率分別下降了0.5%和0.4%。移除一層和二層的自注意力層均會(huì)使模型的性能下降,說(shuō)明加入自注意力可以幫助模型更好地識(shí)別模態(tài)間的相關(guān)性和模態(tài)貢獻(xiàn)度,提升模型性能。由以上實(shí)驗(yàn)結(jié)果可知,移除模型中任意一個(gè)模塊都會(huì)降低模型的性能,充分驗(yàn)證了本文模型為達(dá)到最好的分類(lèi)效果每個(gè)模塊的必要性。

3.5 實(shí)例分析

為了體現(xiàn)模態(tài)貢獻(xiàn)度的重要性和本文模型的泛化性能,從Mustard數(shù)據(jù)集[21上選取一些樣例進(jìn)行測(cè)試。如表5所示,分別列出了每個(gè)實(shí)例的文本、音頻和視頻的信息,使用單模態(tài)和多模態(tài)數(shù)據(jù)的預(yù)測(cè)結(jié)果以及實(shí)例的真實(shí)標(biāo)簽。例1中,僅使用文本或音頻信息模型會(huì)將其情感極性推斷為積極的,但從視頻畫(huà)面中可以看到人物的面部表情是輕蔑的,其真實(shí)情感標(biāo)簽是消極的,綜合使用三種模態(tài)信息的MAM模型能預(yù)測(cè)出其真實(shí)情感標(biāo)簽為消極。對(duì)于模態(tài)之間相互矛盾的樣本,跨模態(tài)注意力機(jī)制將會(huì)為矛盾的模態(tài)之間建立較弱的相關(guān)性,而自注意力機(jī)制將會(huì)為能反映真實(shí)情感的模態(tài)特征分配更高的權(quán)重。因此,MAM相比于其他模型有能動(dòng)態(tài)挖掘模態(tài)間關(guān)系的優(yōu)勢(shì)。例2中,同樣是模態(tài)間出現(xiàn)矛盾,文本中“Great”一詞以及人物說(shuō)話語(yǔ)氣強(qiáng)烈、興奮都顯示出積極的情感傾向,但人物的面部表情猙獰,其真實(shí)情感是消極的,MAM也能預(yù)測(cè)出其真實(shí)情感標(biāo)簽。例3和4中,對(duì)模態(tài)間關(guān)系一致的樣本,其預(yù)測(cè)結(jié)果也是正確的。通過(guò)以上實(shí)例分析,本文模型能有效結(jié)合文本、音頻和視頻的多模態(tài)的信息,發(fā)掘出其中的矛盾并識(shí)別出貢獻(xiàn)度最大的以及決定性的模態(tài)特征,從而準(zhǔn)確預(yù)測(cè)出真實(shí)的情感極性。

4 結(jié)束語(yǔ)

多模態(tài)情感分析是計(jì)算機(jī)領(lǐng)域近年來(lái)的一個(gè)新興熱點(diǎn),給傳統(tǒng)基于文本的情感分析研究帶來(lái)了新的機(jī)遇和挑戰(zhàn),它不僅要求能理解不同模態(tài)之間的交互關(guān)系,還要能正確找出與任務(wù)貢獻(xiàn)度最高的模態(tài)特征表示。本文提出了一種基于注意力的多層次混合融合的多任務(wù)多模態(tài)情感分析模型MAM,首先使用卷積神經(jīng)網(wǎng)絡(luò)和雙向門(mén)控循環(huán)單元來(lái)獲取單模態(tài)序列數(shù)據(jù)的局部信息和上下文信息;其次,使用跨模態(tài)注意力機(jī)制實(shí)現(xiàn)模態(tài)融合;再次,通過(guò)多層次的自注意力機(jī)制識(shí)別出模態(tài)間的相關(guān)性和任務(wù)貢獻(xiàn)度最高的模態(tài);最后,通過(guò)多任務(wù)學(xué)習(xí)共享任務(wù)信息實(shí)現(xiàn)情感和情緒的多分類(lèi)。通過(guò)在CMU-MOSEI數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,模型在情感分類(lèi)和情緒分類(lèi)問(wèn)題上,性能都有所提升,但模型在恐懼的識(shí)別精度上表現(xiàn)不佳。未來(lái)的工作將會(huì)繼續(xù)研究提高情緒分類(lèi)的準(zhǔn)確率。

參考文獻(xiàn):

[1]何俊,劉躍,何忠文.多模態(tài)情感識(shí)別研究進(jìn)展[J].計(jì)算機(jī)應(yīng)用研究,2018,35(11):3201-3205.(He Jun,Liu Yue,He Zhongwen.Research progress of multimodal emotion recognition[J].Application Research of Computers,2018,35(11):3201-3205.)

[2]劉建偉,丁熙浩,羅雄麟.多模態(tài)深度學(xué)習(xí)綜述[J].計(jì)算機(jī)應(yīng)用研究,2020,37(6):1601-1614.(Liu Jianwei,Ding Xihao,Luo Xionglin.Survey of multimodal deep learning[J].Application Research of Computers,2020,37(6):1601-1614.)

[3]Huddar M G,Sannakki S S,Rajpurohit V S.A survey of computational approaches and challenges in multimodal sentiment analysis[J].International Journal of Computer Sciences and Engineering,2019,7(1):876-883.

[4]Poria S,Cambria E,Hazarika D,et al.Context-dependent sentiment analysis in user-generated videos[C]//Proc of the 55th Annual Mee-ting of the Association For Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2017:873-883.

[5]Zadeh A,Chen Minghai,Poria S,et al.Tensor fusion network for multimodal sentiment analysis[C]//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2017:1103-1114.

[6]Zadeh A,Liang P P,Mazumder N,et al.Memory fusion network for multi-view sequential learning[C]//Proc of the 32nd AAAI Confe-rence on Artificial Intelligence.Palo Alto,CA:AAAI Press,2018:5634-5641.

[7]Snoek C G M,Worring M,Smeulders A W M.Early versus late fusion in semantic video analysis[C]//Proc of the 13th Annual ACM International Conference on Multimedia.New York:ACM Press,2005:399-402.

[8]Vielzeuf V,Pateux S,Jurie F.Temporal multimodal fusion for video emotion classification in the wild[C]//Proc of the 19th ACM International Conference on Multimodal Interaction.New York:ACM Press,2017:569-576.

[9]Wu Hao,Mao Jiayuan,Zhang Yufeng,et al.Unified visual-semantic embeddings:bridging vision and language with structured meaning representations[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:6609-6618.

[10]Andreas J,Rohrbach M,Darrell T,et al.Learning to compose neural networks for question answering[EB/OL].(2016-06-07).https://arxiv.org/pdf/1601.01705.pdf.

[11]Chen Minghai,Wang Sen,Liang P P,et al.Multimodal sentiment ana-lysis with word-level fusion and reinforcement learning[C]//Proc of the 19th ACM International Conference on Multimodal Interaction.New York:ACM Press,2017:163-171.

[12]Zadeh A A B,Liang P P,Poria S,et al.Multimodal language analysis in the wild:CMU-MOSEI dataset and interpretable dynamic fusion graph[C]//Proc of the 56th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2018:2236-2246.

[13]Cai Yitao,Cai Huiyu,Wan Xiaojun.Multi-modal sarcasm detection in Twitter with hierarchical fusion model[C]//Proc of the 57th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2019:2506-2515.

[14]Caruana R.Multitask learning[J].Machine Learning,1997,28(7):41-75.

[15]Yu Zhang,Qiang Yang.A survey on multi-task learning[J/OL].IEEE Trans on Knowledge and Data Engineering.(2021).https://doi.org/10.1109/TKDE.2021.3070203.

[16]Ruder S.An overview of multi-task learning in deep neural networks[EB/OL].(2017-06-15).https://arxiv.org/pdf/1706.05098v1.pdf.

[17]He Ruidan,Lee W S,Ng H T,et al.An interactive multi-task learning network for end-to-end aspect-based sentiment analysis[C]//Proc of the 57th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2019:504-515.

[18]Akhtar M S,Chauhan D S,Ghosal D, et al.Multi-task learning for multi-modal emotion recognition and sentiment analysis[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.Stroudsburg,PA:Association for Computational Linguistics,2019:370-379.

[19]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017:6000-6010.

[20]Tong E,Zadeh A,Jones C,et al.Combating human trafficking with multimodal deep models[C]//Proc of the 55th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2017:1547-1556.

[21]Castro S,Hazarika D,Pérez-Rosas V,et al.Towards multimodal sarcasm detection(an_obviously_perfect paper)[EB/OL].(2019-06-05).https://arxiv.org/pdf/1906.01815.pdf.

主站蜘蛛池模板: AV网站中文| 日韩123欧美字幕| 中文字幕人成乱码熟女免费| 成人免费网站久久久| 国内精品久久久久鸭| 亚洲激情区| 国产粉嫩粉嫩的18在线播放91| av一区二区三区在线观看| a亚洲视频| 女同国产精品一区二区| 亚洲国产精品日韩av专区| 久草视频一区| 免费中文字幕一级毛片| 国产精品成人一区二区| 亚洲视频黄| 亚洲AⅤ综合在线欧美一区| 日本高清免费不卡视频| 玖玖免费视频在线观看| 97视频精品全国在线观看| 亚洲国产精品VA在线看黑人| 欧美日韩激情在线| 国产高清不卡| 东京热av无码电影一区二区| 亚洲日产2021三区在线| 久久国产精品麻豆系列| 亚洲第一中文字幕| 伊人无码视屏| 亚洲综合国产一区二区三区| 国产成人一区| 日本一区二区三区精品视频| 欧日韩在线不卡视频| 色香蕉影院| 国产爽爽视频| 国产国产人在线成免费视频狼人色| 国产成人凹凸视频在线| 成人久久精品一区二区三区| 欧美性精品| 四虎永久免费网站| 女同国产精品一区二区| 性网站在线观看| 77777亚洲午夜久久多人| 免费aa毛片| 茄子视频毛片免费观看| 午夜欧美在线| 无码免费的亚洲视频| 中文字幕乱妇无码AV在线| 美女扒开下面流白浆在线试听| 黄片一区二区三区| 亚洲av无码专区久久蜜芽| 国产99久久亚洲综合精品西瓜tv| 欧美在线视频a| 亚洲毛片网站| 日韩精品亚洲精品第一页| 日韩 欧美 国产 精品 综合| 久久亚洲精少妇毛片午夜无码 | 91美女视频在线| 在线精品视频成人网| 在线看片中文字幕| 91精品伊人久久大香线蕉| 亚洲人成人伊人成综合网无码| 五月综合色婷婷| 伊人精品成人久久综合| 国产日韩久久久久无码精品| 欧美成人看片一区二区三区| 色网在线视频| 91亚洲免费视频| 制服丝袜国产精品| 久久精品人妻中文系列| 无码精油按摩潮喷在线播放| 亚洲h视频在线| 亚洲欧美国产五月天综合| 97在线公开视频| 亚洲精品动漫| 91极品美女高潮叫床在线观看| 国产尤物视频网址导航| 精品久久国产综合精麻豆| 久久精品中文字幕少妇| 亚洲天堂免费在线视频| 青青草综合网| 极品性荡少妇一区二区色欲| 国产精品第页| 亚洲中文字幕久久无码精品A|