999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向視覺(jué)問(wèn)答的跨模態(tài)交叉融合注意網(wǎng)絡(luò)

2022-04-12 09:24:46彭亞雄陸安江
計(jì)算機(jī)應(yīng)用 2022年3期
關(guān)鍵詞:模態(tài)特征融合

王 茂,彭亞雄,陸安江

(貴州大學(xué)大數(shù)據(jù)與信息工程學(xué)院,貴陽(yáng) 550025)

0 引言

視覺(jué)問(wèn)答(Visual Question Answering,VQA)用于自動(dòng)回答與圖像內(nèi)容相關(guān)的自然語(yǔ)言問(wèn)題,是結(jié)合自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)和人工智能領(lǐng)域的多模態(tài)學(xué)習(xí)任務(wù),用來(lái)處理圖像、自然語(yǔ)言和綜合推理等多個(gè)領(lǐng)域的問(wèn)題,因此VQA 任務(wù)使人工智能的研究超越了單一任務(wù),需要視覺(jué)和語(yǔ)言的綜合推理,VQA 模型如圖1 所示。VQA 技術(shù)可以應(yīng)用于交互式機(jī)器人系統(tǒng)、追蹤自動(dòng)量化評(píng)估任務(wù)進(jìn)度、兒童早教和醫(yī)療援助等,研究VQA 可以進(jìn)一步推動(dòng)人工智能的發(fā)展,對(duì)實(shí)現(xiàn)人工智能化社會(huì)具有重要意義。

圖1 VQA模型Fig.1 VQA model

隨著深度學(xué)習(xí)(Deep Learning,DL)領(lǐng)域注意機(jī)制的發(fā)展,已經(jīng)成功應(yīng)用于VQA 任務(wù)。基于視覺(jué)注意的方法已經(jīng)成為精確理解VQA 模型的一個(gè)重要組成部分,除了視覺(jué)注意方法之外,共同注意方法也取得了巨大成功[1-3],共同注意方法關(guān)注圖像的重要區(qū)域和問(wèn)題的關(guān)鍵詞,以學(xué)習(xí)視覺(jué)注意和文本注意。目前圖像的特征提取逐漸由VGG 網(wǎng)絡(luò)轉(zhuǎn)為使用He 等[4]提出的ResNet,問(wèn)題的特征提取則利用長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò),多模態(tài)特征表示在提高VQA 性能方面起著重要作用。Yu 等[5]提出了多模態(tài)雙線性矩陣分解池化(Multi-modal Factorized Bilinear pooling,MFB)模型,先將不同模態(tài)特征擴(kuò)展到高維空間用點(diǎn)乘方法進(jìn)行融合,之后進(jìn)入池化層和歸一層,以將高維特征擠壓成緊湊輸出特征;Fukui 等[6]提出了一種聯(lián)合嵌入視覺(jué)和文本特征的方法,通過(guò)將圖像和文本特征隨機(jī)投影到更高維空間,然后將這兩個(gè)向量在傅里葉空間中進(jìn)行卷積執(zhí)行多模態(tài)緊湊雙線性池(Multi-modal Compact Bilinear pooling,MCB)操作,以提高效率;趙宏等[7]提出了一種圖像特征注意力與自適應(yīng)注意力融合的圖像內(nèi)容中文描述模型;陳龍杰等[8]針對(duì)圖像描述生成中對(duì)圖像細(xì)節(jié)表述質(zhì)量不高、對(duì)圖像特征利用不充分、循環(huán)神經(jīng)網(wǎng)絡(luò)層次單一等問(wèn)題,提出基于多注意力、多尺度特征融合的圖像描述生成算法。目前的視覺(jué)問(wèn)答通過(guò)自適應(yīng)學(xué)習(xí)問(wèn)題局部細(xì)粒度圖像特征,在視覺(jué)問(wèn)答任務(wù)中引入了注意力機(jī)制。Chen 等[9]提出了一種新的多模態(tài)編解碼注意網(wǎng)絡(luò),通過(guò)將關(guān)鍵字查詢與重要的對(duì)象區(qū)域最小化相關(guān)聯(lián)來(lái)捕獲豐富且合理的問(wèn)題特征和圖像特征;Yang等[10]提出了一種堆疊注意力網(wǎng)絡(luò)來(lái)迭代學(xué)習(xí)注意力,然而問(wèn)題信息僅通過(guò)系數(shù)p進(jìn)行表達(dá),限制了學(xué)習(xí)聯(lián)合表示的能力;Nguyen 等[11]提出了密集聯(lián)合注意模型來(lái)模擬每個(gè)問(wèn)題和每個(gè)圖像區(qū)域之間的完整交互;Gao 等[12]和Yu 等[13]提出了幾種基于深度聯(lián)合注意的新模型,在VQA 任務(wù)上取得了較好的性能。

上述算法在VQA 方面取得一定的效果,但在特征提取融合、注意力機(jī)制等方面仍存在局限性,提取特征不完全以及圖像注意力信息的缺失,都會(huì)制約模型的學(xué)習(xí)能力,影響視覺(jué)問(wèn)答效果。此外,上述聯(lián)合注意模型因?yàn)楹雎粤藘烧咧g的密集交互不能推斷任何疑問(wèn)詞和任何圖像區(qū)域之間的相關(guān)性。為了解決上述問(wèn)題,本文提出了面向視覺(jué)問(wèn)答的跨模態(tài)交叉融合注意網(wǎng)絡(luò)(Cross-modal Chiastopic-fusion Attention Network,CCAN),利用改進(jìn)的殘差網(wǎng)絡(luò)對(duì)圖像進(jìn)行注意,提高圖像注意的準(zhǔn)確性,并提出新的聯(lián)合注意力機(jī)制,對(duì)問(wèn)題和圖像特征進(jìn)行聯(lián)合表示,提高兩者的交互性,同時(shí)采用交叉融合的方法,提高了模型的分類精度,實(shí)驗(yàn)結(jié)果說(shuō)明了CCAN 的有效性。

1 面向視覺(jué)問(wèn)答的跨模態(tài)交叉融合注意模型

本章主要介紹了面向視覺(jué)問(wèn)答的跨模態(tài)交叉融合注意模型,該模型主要包括三個(gè)模塊:?jiǎn)栴}嵌入提取、圖像特征提取、特征融合與分類。CCAN 模型的整體架構(gòu)如圖2 所示。

圖2 CCAN模型框架Fig.2 Framework of CCAN model

1.1 問(wèn)題詞注意特征提取

句子嵌入有兩個(gè)作用:1)引導(dǎo)圖像自上而下的注意力學(xué)習(xí);2)作為多模態(tài)學(xué)習(xí)的輸入之一,在輸入分類器之前與圖像特征融合。將問(wèn)題Q 中的每個(gè)單詞映射為一個(gè)向量,依照從前往后的次序進(jìn)行處理,即從第一個(gè)單詞到第i個(gè)單詞的次序進(jìn)行運(yùn)算,問(wèn)題編碼部分主要是對(duì)問(wèn)題進(jìn)行編碼獲得特征向量,[q1,q2,…,qN]是問(wèn)題的單詞序列,其中qi∈Rdw×1是第i個(gè)單詞的one-hot 表示,dw是單詞詞匯表的大小,N是問(wèn)題中的單詞數(shù),由嵌入矩陣We∈Rdx×dw,即可以得到中間表示xi=Wewi之后將xi送入LSTM 模型以生成新的表示qi∈Rdq×1,公式如下:

其中:dq是LSTM 單元的輸出尺寸,dx是中間表示xi的尺寸。

為了獲得更具有語(yǔ)義關(guān)系的問(wèn)題表示,對(duì)問(wèn)題進(jìn)行自注意,關(guān)注重要詞與詞之間隱含語(yǔ)義關(guān)系。在進(jìn)行注意時(shí),問(wèn)題的每個(gè)詞根據(jù)其在問(wèn)題中的重要性計(jì)算出一個(gè)權(quán)重值,問(wèn)題表示向量vw∈Rdq×1是通過(guò)計(jì)算從LSTM 生成的所有單詞表示加權(quán)和獲得,即:

1.2 基于改進(jìn)的殘差通道自注意提取圖像特征

圖像特征的提取主要分為兩個(gè)部分:1)利用目標(biāo)檢測(cè)模型ResNet-152 學(xué)習(xí)圖像的硬注意;2)利用改進(jìn)的殘差通道注意增強(qiáng)特征。首先,在殘差網(wǎng)絡(luò)的基礎(chǔ)上利用了特征通道之間的相互依賴性,讓網(wǎng)絡(luò)注意到更多信息,其中每個(gè)通道積的特征生成不一樣的權(quán)重;其次,引入最小閾值化處理,旨在根據(jù)圖片對(duì)每個(gè)區(qū)域進(jìn)行評(píng)分,減少不重要圖像區(qū)域的影響。

ResNet-152 提取圖像特征 如式(4)所示,本文使用ResNet-152 進(jìn)行特征提取,為了獲得圖像I不同區(qū)域的特征向量,將圖像輸入到ResNet-152 模型進(jìn)行特征提取,經(jīng)過(guò)ResNet-152 的最后一個(gè)池化層res5c 后輸出圖像的特征表示V∈Rk×2048,其中k∈[10,100]為物體區(qū)域數(shù),Rk×2048是對(duì)應(yīng)于第N個(gè)區(qū)域的2 048 維特征向量。

改進(jìn)的殘差通道注意模型提取特征 受殘差學(xué)習(xí)的啟發(fā),本文引入殘差通道自注意模塊,使網(wǎng)絡(luò)集中于更有信息量的特征。本文利用特征通道之間的相互依賴性,產(chǎn)生通道注意機(jī)制,并且引入最小閾值化以消除不重要的特征,有效地學(xué)習(xí)了視覺(jué)和語(yǔ)言信息的聯(lián)合表示,進(jìn)一步增強(qiáng)圖像特征。原始?xì)埐罹W(wǎng)絡(luò),其內(nèi)部殘差塊使用跳過(guò)連接,網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示,通過(guò)跳躍連接將輸入x和x的非線性變換F(x)相加,從而可以減輕深度神經(jīng)網(wǎng)絡(luò)中由于增加深度而導(dǎo)致梯度消失的問(wèn)題,公式如下:

圖3 原始的殘差網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Original residual network structure

其中F(x)是基于殘差模塊的框架上,引入通道注意和最小閾值化,其網(wǎng)絡(luò)結(jié)構(gòu)圖如圖4 所示。

圖4 殘差通道自注意網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Structure of residual channel self-attention network

本文將圖像的注意權(quán)重轉(zhuǎn)化為期望,圖像I的期望可以表示為:

其中v是ResNet-152 最后一個(gè)rec 層輸出的圖片特征,ci是對(duì)圖片進(jìn)行通道注意的特征表示,通道注意對(duì)v進(jìn)行Squeeze、Excitation 和特征重標(biāo)定,°表示點(diǎn)乘,conv(?)是由線性整流單元(Rectified Linear Unit,ReLU)和卷積層組成的卷積學(xué)習(xí)運(yùn)算,圖片引導(dǎo)的區(qū)域注意可以表示為:

提取到通道注意特征vˉ后,將它的注意力權(quán)值加入到圖像特征中,即利用殘差自注意進(jìn)一步增強(qiáng)圖像特征。對(duì)殘差網(wǎng)絡(luò)進(jìn)行改進(jìn),首先對(duì)輸入特征求絕對(duì)值和全均值池化,之后輸入到一個(gè)小型全連接網(wǎng)絡(luò),全連接層由卷積層、批標(biāo)準(zhǔn)化、激活函數(shù)、全局均值池化以及全連接輸出層構(gòu)成,并以sigmoid 為最后一層得到一個(gè)權(quán)重系數(shù)α,最后利用殘差自注意增強(qiáng)圖像,公式如下:

1.3 跨模態(tài)交叉融合注意模型

跨模態(tài)交叉融合注意模型利用殘差通道自注意增強(qiáng)圖像特征,為了充分利用自然語(yǔ)言問(wèn)題消除圖像特征冗余,采用問(wèn)題引導(dǎo)雙頭注意進(jìn)一步提取與問(wèn)題相關(guān)的圖像特征。根據(jù)自然語(yǔ)言問(wèn)題,利用自上而下的注意力計(jì)算問(wèn)題與36個(gè)目標(biāo)圖像特征中每個(gè)目標(biāo)之間的概率,從而獲得注意力權(quán)重,注意力權(quán)重乘以圖像特征產(chǎn)生最終的圖像表示。

與單向、堆疊或多頭注意力不同,本文使用不共享參數(shù)的雙頭軟注意力結(jié)構(gòu),公式如下:

其中:f表示全連接神經(jīng)網(wǎng)絡(luò),vˉi表示通過(guò)殘差通道自注意增強(qiáng)的圖像特征,q表示問(wèn)題特征,q_Attw表示通過(guò)詞注意自我關(guān)注的問(wèn)題特征。將兩個(gè)注意力權(quán)重通過(guò)softmax 函數(shù)歸一化,并進(jìn)行相加得到最終的注意力權(quán)重β,公式如下:

注意力權(quán)重用于對(duì)所有圖像特征進(jìn)行加權(quán)求和,得到最后的圖像特征,融合問(wèn)題嵌入進(jìn)行最終分類,公式如下:

本文使用的跨模態(tài)交叉融合注意是雙頭軟注意,由于原來(lái)的單注意模型不適合VQA 任務(wù)的特點(diǎn),原有的單一注意力模型使用softmax 函數(shù)對(duì)注意力權(quán)重進(jìn)行歸一化,使得注意力模型只根據(jù)輸入選擇最感興趣的鍵值對(duì),不符合VQA任務(wù)中問(wèn)題可能有多個(gè)正確答案的情況。

最后,將問(wèn)題嵌入和圖像特征分別通過(guò)相應(yīng)的非線性層,利用兩個(gè)交叉融合注意對(duì)兩個(gè)特征進(jìn)行表示,使用逐元素相乘的方法融合兩個(gè)特征,問(wèn)題和圖像的聯(lián)合表示如下:

其中:h是圖像和問(wèn)題的聯(lián)合嵌入,⊙代表逐元素相乘。fq(q)和()代表非線性層。

1.4 答案預(yù)測(cè)和損失函數(shù)

本節(jié)設(shè)計(jì)了一個(gè)由兩個(gè)全連接層組成的多層感知器(Multi-Layer Perceptron,MLP)層來(lái)轉(zhuǎn)換問(wèn)題特征和圖片特征,然后通過(guò)softmax 函數(shù)計(jì)算問(wèn)題詞特征的注意權(quán)重,最終關(guān)注的問(wèn)題特征可以通過(guò)匯總關(guān)注權(quán)重和相關(guān)問(wèn)題詞特征的乘積表示,關(guān)注特征式子如下:

其中,MLP 表示線性變換操作,本文選擇概率最大的候選答案作為最終答案。為了訓(xùn)練本文模型,使用KL 散度(Kullback-Leibler Divergence,KLD)損失函數(shù)來(lái)預(yù)測(cè)∝E:

其中yi∈[0,1]是時(shí)第i個(gè)真實(shí)答案的出現(xiàn)概率。

2 實(shí)驗(yàn)

本章對(duì)所提模型在VQA 任務(wù)中的性能進(jìn)行評(píng)估,并使用VQA v1.0 數(shù)據(jù)集進(jìn)行驗(yàn)證。首先對(duì)CCAN 模型與之前研究的模型進(jìn)行對(duì)比實(shí)驗(yàn),以驗(yàn)證本文模型的有效性;然后為本文模塊提出最優(yōu)參數(shù),與現(xiàn)有研究方法進(jìn)行比較分析。

2.1 視覺(jué)問(wèn)答數(shù)據(jù)集

實(shí)驗(yàn)使用的VQA v1.0 數(shù)據(jù)集[3]由常見(jiàn)物體圖像識(shí)別(MicroSoft Common Objects in COntext,MSCOCO)數(shù)據(jù)集提供的204 721 幅圖像組成,有248 349 道訓(xùn)練題、121 512 道驗(yàn)證題、60 864 道測(cè)試題和244 302 道標(biāo)準(zhǔn)試題。VQA1.0 中的問(wèn)題可以分為3 個(gè)子類別:是/否、數(shù)字和其他,每個(gè)圖像有3 個(gè)問(wèn)題,每個(gè)問(wèn)題有10 個(gè)來(lái)自10 個(gè)不同注釋者的基本答案。此外,v1.0 包括兩個(gè)任務(wù):開(kāi)放式任務(wù)和多項(xiàng)選擇任務(wù)(每個(gè)問(wèn)題18 個(gè)答案選項(xiàng))。

2.2 參數(shù)設(shè)置

本文利用ResNet-152 提取圖像區(qū)域特征,每個(gè)區(qū)域由2 048 個(gè)維度特征表示,使用LSTM 對(duì)問(wèn)題進(jìn)行編碼,每個(gè)問(wèn)題中單詞特征向量的維數(shù)為2 048,在每個(gè)LSTM 層(正則率p=0.3)和模塊(p=0.1)之后使用dropout。

模型訓(xùn)練時(shí),使用β1=0.9 和β2=0.99 的Adam 解算器,基本學(xué)習(xí)率設(shè)置為0.000 1,并以0.5 的指數(shù)速率每40 000 次迭代衰減一次,本文在50 000 次迭代時(shí)終止訓(xùn)練。在訓(xùn)練中,整個(gè)網(wǎng)絡(luò)使用ReLU 激活函數(shù),mini_batch=100。本文實(shí)驗(yàn)基于PyTorch 0.3.0 深度學(xué)習(xí)框架進(jìn)行編碼,并在帶有GTX 2060GPU 處理器的工作站上進(jìn)行。對(duì)于所有實(shí)驗(yàn),本文在訓(xùn)練集上訓(xùn)練,在驗(yàn)證集上進(jìn)行驗(yàn)證。

3 結(jié)果

3.1 與已有研究比較分析

將CCAN 模型與已有模型在VQA v1.0 數(shù)據(jù)集上進(jìn)行比較,即在VQA v1.0 數(shù)據(jù)集上的訓(xùn)練集和驗(yàn)證集上訓(xùn)練CCAN模型,在Test-dev和Test-std兩個(gè)測(cè)試集上評(píng)估CCAN模型。

表1 為CCAN 模型在VQA v1.0 數(shù)據(jù)集上與其他模型比較的結(jié)果,可以分為三類:1)不使用注意機(jī)制的方法;2)僅基于視覺(jué)注意的方法;3)整合視覺(jué)注意和文本注意的方法。

表1 VQA v1.0數(shù)據(jù)集上CCAN與已有模型性能比較 單位:%Tab.1 Performance comparison between CCAN and existing models on VQA v1.0 dataset unit:%

從表1 可以觀察到整合視覺(jué)注意和文本注意模型的結(jié)果優(yōu)于其他兩類模型,CCAN 模型在Test-dev(67.57%)和Test-std(67.54%)上獲得最佳的總體準(zhǔn)確性。本文模型是基于視覺(jué)和文本注意力的方法,與MLAN(Multi-level Attention Network)[21]、CAQT(Co-Attention network with Question Type)[22]和 v-VRANET(Visual Reasoning and Attention NETwork)相比,在Test-dev 上分別提高2.97、1.20 和0.37 個(gè)百分點(diǎn),在Test-std 上分別提高2.74、1.01 和0.20 個(gè)百分點(diǎn)。MLAN 模型除了視覺(jué)注意之外,還使用語(yǔ)義注意來(lái)挖掘圖像的重要內(nèi)容,CAQT 模型通過(guò)自我注意模型實(shí)現(xiàn)的文本注意以減少無(wú)關(guān)的信息,進(jìn)而用于引導(dǎo)視覺(jué)注意;v-VRANE 模型使用視覺(jué)推理和注意網(wǎng)絡(luò);相比之下,本文提出跨模態(tài)交叉融合注意模型(CCAN),明顯更深層次地加強(qiáng)文本和視覺(jué)的交互,以捕獲豐富的視覺(jué)語(yǔ)義并幫助增強(qiáng)視覺(jué)表示。與第一類方法(沒(méi)有使用注意機(jī)制的方法)相比,本文模型優(yōu)于FDA(Focused Dynamic Attention)模型,在Test-dev 總體準(zhǔn)確性方面提高了8.33 個(gè)百分點(diǎn)。此外,與涉及視覺(jué)注意的第二類方法相比,本文模型的準(zhǔn)確率最高。

3.2 消融實(shí)驗(yàn)

為了分析CCAN 模型中每個(gè)模塊,并證明面向視覺(jué)問(wèn)答的跨模態(tài)交叉融合注意模型的性能效果,本文利用消融實(shí)驗(yàn)證明模型的有效性。為了公平比較,所有評(píng)估模型提供完全相同的特征,在訓(xùn)練集上訓(xùn)練并在驗(yàn)證集上測(cè)試。

模型一 以LSTM 提取問(wèn)題特征與ResNet-152 提取的圖片特征作為輸入;

模型二 以提取的問(wèn)題特征進(jìn)行詞注意和圖片特征作為輸入利用逐元素相乘的方法進(jìn)行融合;

模型三 對(duì)利用ResNet-152 提取的圖片進(jìn)行殘差通道自注意,然后用逐元素相乘的方法對(duì)注意后的圖片特征和文本特征進(jìn)行融合;

模型四 整體結(jié)構(gòu)框架與本文模塊一致,但在此模塊中是利用加法進(jìn)行聯(lián)合表征;

模型五 圖片特征的處理在模塊二的基礎(chǔ)上,引入跨模態(tài)交叉融合注意的方法。

表2 中的模型一和模型二為簡(jiǎn)單基準(zhǔn)模型和使用視覺(jué)注意機(jī)制的模型,當(dāng)對(duì)文本進(jìn)行詞注意之后與圖像進(jìn)行融合時(shí)能夠獲得性能提升,表明詞注意可以提取出更有用的問(wèn)題特征,并可以從中發(fā)現(xiàn)更重要的語(yǔ)義信息,去除與問(wèn)題無(wú)關(guān)的噪聲信息,使得問(wèn)題與圖片之間的交互性進(jìn)一步提升。模型三利用殘差通道自注意加強(qiáng)圖像特征,可以發(fā)現(xiàn)對(duì)于圖像特征,可以從相關(guān)圖像區(qū)域獲得信息,推斷問(wèn)題的正確答案,結(jié)果比模型二有0.84 個(gè)百分點(diǎn)的提升。模型四中,利用元素加法對(duì)多模態(tài)進(jìn)行聯(lián)合表征,比使用元素乘法的準(zhǔn)確率低,表明在視覺(jué)問(wèn)答任務(wù)中,元素乘法是一種比加法更好的多模態(tài)融合方法。模型五使用跨模態(tài)融合注意網(wǎng)絡(luò)將動(dòng)態(tài)信息整合在一起,與任何單一層次的注意力模型相比,取得了顯著的改進(jìn),相較于其他四種模型分別提升了2.12、1.37、0.53 和0.15 個(gè)百分點(diǎn)的準(zhǔn)確率。

表2 消融實(shí)驗(yàn)結(jié)果 單位:%Tab.2 Results of ablation experiments unit:%

為了選擇最佳的損失函數(shù)來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò),表3中比較了三種常用的損失函數(shù),即KLD損失函數(shù)、二分類交叉熵(Binary Cross Entropy loss,BCE)損失函數(shù)和交叉熵?fù)p失函數(shù)。如表3所示KLD函數(shù)獲得了最好的性能,并且收斂速度最快。

表3 三種常用的損失函數(shù)比較 單位:%Tab.3 Comparison of three commonly used loss functions unit:%

3.3 可視化結(jié)果分析

在圖5 中展示了視覺(jué)注意和文本注意的可視化結(jié)果。在自注意力中,把重點(diǎn)放在重要的單詞以及單詞之間潛在的語(yǔ)義關(guān)系上,以便全面理解問(wèn)題。模型中的文本注意準(zhǔn)確檢測(cè)出“donuts”和“boy”之間的關(guān)系,并有效協(xié)調(diào)了關(guān)系特征和視覺(jué)特征。此外,提出的殘差通道自注意能準(zhǔn)確檢測(cè)出圖像各個(gè)區(qū)域之間的關(guān)系,結(jié)合兩者注意力機(jī)制來(lái)回答“Is the boy eating donuts?”,本文模型發(fā)現(xiàn)問(wèn)題所提到的3 個(gè)對(duì)象區(qū)域之間的密切聯(lián)系,并成功推理出正確答案。

圖5 視覺(jué)注意和文本注意的可視化結(jié)果Fig.5 Visualization results of visual attention and textual attention

4 結(jié)語(yǔ)

本文針對(duì)VQA 任務(wù)提出了面向視覺(jué)問(wèn)答的跨模態(tài)交叉融合注意網(wǎng)絡(luò)(CCAN),該網(wǎng)絡(luò)包括文本注意、視覺(jué)注意,其中利用詞注意和改進(jìn)的殘差通道自注意對(duì)圖片進(jìn)行注意,得到一個(gè)增強(qiáng)的圖片特征,以此獲得更重要的圖像信息。此外,引入了跨模態(tài)交叉融合注意模型對(duì)多模態(tài)進(jìn)行聯(lián)合表征,每一個(gè)交叉融合都會(huì)產(chǎn)生一個(gè)有效的信息流,從而提升模型性能。本文模型在VQA1.0 數(shù)據(jù)集上達(dá)到了67.57%的總體準(zhǔn)確率,與當(dāng)前的一些主流模型相比,本文提出的模型性能有所改進(jìn),實(shí)驗(yàn)結(jié)果表明了本文提出的CCAN 模型在VQA 任務(wù)中的有效性。未來(lái)的工作將研究如何通過(guò)集成模型來(lái)提高開(kāi)放問(wèn)題回答的準(zhǔn)確率。

猜你喜歡
模態(tài)特征融合
村企黨建聯(lián)建融合共贏
融合菜
從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
《融合》
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀察
國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
由單個(gè)模態(tài)構(gòu)造對(duì)稱簡(jiǎn)支梁的抗彎剛度
主站蜘蛛池模板: 手机精品福利在线观看| 91青青草视频在线观看的| 丁香综合在线| 亚洲一区二区三区在线视频| 国产精品漂亮美女在线观看| 欧美怡红院视频一区二区三区| 国产麻豆精品在线观看| av一区二区三区在线观看| a在线亚洲男人的天堂试看| 成人精品亚洲| 亚洲天堂日本| 成人国产精品网站在线看| 国产女人18毛片水真多1| 精品国产免费人成在线观看| 中文字幕在线视频免费| 欧美特黄一级大黄录像| 国产一区二区三区在线观看视频 | 亚洲欧美精品在线| 亚洲精品无码日韩国产不卡| 天天摸夜夜操| 国产精品午夜福利麻豆| 成人国产小视频| 国产人妖视频一区在线观看| 伦精品一区二区三区视频| 国产精品美女网站| 亚洲AV成人一区二区三区AV| 欧美日本在线一区二区三区| 国产综合无码一区二区色蜜蜜| 99免费视频观看| 在线免费a视频| AⅤ色综合久久天堂AV色综合| 亚洲色欲色欲www在线观看| 午夜a视频| 在线无码av一区二区三区| 久草视频精品| 亚洲区欧美区| 亚洲VA中文字幕| 久久黄色一级片| 欧美日韩午夜视频在线观看| 老司机aⅴ在线精品导航| 久久性妇女精品免费| 五月激情婷婷综合| 欧美精品在线视频观看| 中文字幕波多野不卡一区| 四虎在线观看视频高清无码| 美女视频黄又黄又免费高清| 亚洲日本精品一区二区| 一区二区三区国产精品视频| 亚洲综合日韩精品| 欧美午夜在线视频| 亚洲色图另类| 高h视频在线| 精品剧情v国产在线观看| 91丨九色丨首页在线播放 | 国产a网站| 毛片久久网站小视频| 欧美怡红院视频一区二区三区| 亚洲成a人片7777| 亚洲aⅴ天堂| 无码人中文字幕| 国模极品一区二区三区| 亚洲无线国产观看| аv天堂最新中文在线| 国产av色站网站| 成人伊人色一区二区三区| 国产女人喷水视频| 亚洲中文字幕国产av| 一级黄色欧美| 国产在线视频二区| 日韩黄色大片免费看| 久久视精品| 久久鸭综合久久国产| 91视频青青草| 亚洲电影天堂在线国语对白| 国产成人乱无码视频| 亚洲天堂精品视频| 久久人搡人人玩人妻精品一| 亚洲精品大秀视频| 欧美激情视频二区三区| 国产国产人成免费视频77777 | 欧美午夜在线播放| 日韩中文无码av超清|