999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

圖像與問(wèn)題雙引導(dǎo)注意力機(jī)制視覺(jué)問(wèn)答算法*

2022-02-27 05:54:06王玉德任志偉高張弛
通信技術(shù) 2022年1期
關(guān)鍵詞:模態(tài)機(jī)制特征

陳 婷,王玉德,任志偉,楊 昊,高張弛

(曲阜師范大學(xué),山東 曲阜 273165)

0 引言

視覺(jué)問(wèn)答是把圖像和關(guān)于圖像的自然語(yǔ)言問(wèn)題作為輸入,針對(duì)問(wèn)題生成自然語(yǔ)言答案作為輸出[1]。視覺(jué)問(wèn)答任務(wù)主要分為問(wèn)題特征的提取、圖像特征的提取、結(jié)合圖像和問(wèn)題特征生成答案3 個(gè)步驟。視覺(jué)問(wèn)答任務(wù)的關(guān)鍵在于如何把圖像和問(wèn)題特征有效結(jié)合起來(lái)。

引入視覺(jué)注意力機(jī)制是優(yōu)化視覺(jué)問(wèn)答任務(wù)的一種有效方法。注意力機(jī)制(Attention)由Bahdanau等人[2]提出,用于改進(jìn)神經(jīng)機(jī)器翻譯,并擴(kuò)展到計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理任務(wù)中[3-6]。視覺(jué)問(wèn)答(Visual Question Answering,VQA)任務(wù)的早期注意多為自上而下的視覺(jué)注意,主要實(shí)現(xiàn)對(duì)圖像區(qū)域的問(wèn)題引導(dǎo)注意[7-10]。針對(duì)單一注意力不足以定位正確答案的關(guān)注區(qū)域的問(wèn)題,Lu 等人[11]提出了協(xié)同注意力機(jī)制(Hierarchical question-image Co-Attention,HieCoAtt)來(lái)交替學(xué)習(xí)視覺(jué)注意和文本注意,Yang 等人[12]提出了一種堆疊注意力機(jī)制(Stacked Attention Networks,SAN);但是這種交互學(xué)習(xí)還是較為粗糙的交互。為了建立更密集的交互,Kim 等人[13]提出了雙線性注意網(wǎng)絡(luò)(Bilinear Attention Networks,BAN),通過(guò)建立每個(gè)區(qū)域和每個(gè)圖像之間的關(guān)聯(lián)提高模型性能;Yu 等人[14]提出了深度模塊化協(xié)同注意網(wǎng)絡(luò)(Deep Modular Co-Attention Networks,MCAN)對(duì)圖像和問(wèn)題分別進(jìn)行自注意,加強(qiáng)問(wèn)題和圖像的內(nèi)部依賴關(guān)系;Gao 等人[15]提出了一種深度堆疊的多模態(tài)特征融合(Dynamic Fusion with Intra-and Inter-modality Attention Flow,DFAF)模型,該模型模擬了模態(tài)內(nèi)部和模態(tài)間的信息交互;Yu 等人[16]提出了一種多峰因子化高階池化(Multimodal Factorized Highorder pooling,MFH)方法。這些方法雖然在一定程度上提高了VQA 的性能,但沒(méi)有充分利用問(wèn)題與圖像之間的相互引導(dǎo)關(guān)系,導(dǎo)致模型性能不理想。

鑒于現(xiàn)有方法多缺乏圖像和問(wèn)題之間的相互引導(dǎo)關(guān)系,本文提出了圖像引導(dǎo)問(wèn)題與問(wèn)題引導(dǎo)圖像相結(jié)合的雙引導(dǎo)注意力機(jī)制視覺(jué)問(wèn)答算法,從而加強(qiáng)圖像與問(wèn)題之間的推理關(guān)系,提高視覺(jué)問(wèn)答整體的準(zhǔn)確率。

1 視覺(jué)問(wèn)答系統(tǒng)

1.1 問(wèn)題特征提取

問(wèn)題特征一般使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)提取,其常用的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long-Short Term Memory,LSTM)[17-18]結(jié)構(gòu)如圖1 所示。

圖1 LSTM 結(jié)構(gòu)

圖1 中,ft,it,ot分別表示遺忘門(mén)、輸入門(mén)、輸出門(mén)。xt代表當(dāng)前的輸入,ht-1代表上一時(shí)刻隱含層的輸出,ht表示當(dāng)前輸出,ct-1表示上一時(shí)刻的細(xì)胞狀態(tài),ct表示新的細(xì)胞狀態(tài)。

遺忘門(mén)、輸入門(mén)、輸出門(mén)的輸出由前一時(shí)刻的輸出和當(dāng)前時(shí)刻的輸入決定,計(jì)算原理為:

式中:Wf、Wi、Wo為訓(xùn)練的權(quán)重矩陣;bf、bi、bo為偏置參數(shù);σ為Sigmoid 函數(shù)。

ct和ht的更新公式為:

式中:Wc為訓(xùn)練的權(quán)重矩陣;bc為偏置參數(shù)。

1.2 圖像特征提取

圖像特征提取一般使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN),CNN 包括輸入層、卷積層、池化層、全連接層、分類(lèi)輸出層5 部分。CNN 基礎(chǔ)結(jié)構(gòu)如圖2 所示。

圖2 CNN 基礎(chǔ)結(jié)構(gòu)

常用的CNN 網(wǎng)絡(luò)包括vgg16/vgg19 網(wǎng)絡(luò),resnet-152/resnet-101 網(wǎng)絡(luò),F(xiàn)aster R-CNN[19]網(wǎng)絡(luò)等。

1.3 特征融合

多數(shù)的特征融合方法是把VQA視為分類(lèi)任務(wù)。將圖片特征和問(wèn)題特征結(jié)合生成答案。常用的方法是矩陣元素點(diǎn)乘、矩陣元素對(duì)應(yīng)相加或連接,并使用線性分類(lèi)器或者神經(jīng)網(wǎng)絡(luò)分類(lèi)器分類(lèi)。以將矩陣元素對(duì)應(yīng)相加為例,對(duì)于兩個(gè)特征x、y,相加融合后經(jīng)前饋網(wǎng)絡(luò)輸出,計(jì)算方式為:

式中:f為融合后的特征輸出;,為線性投影矩陣的轉(zhuǎn)置;FFN為前饋網(wǎng)絡(luò)。

1.4 評(píng)估標(biāo)準(zhǔn)

視覺(jué)問(wèn)答任務(wù)常用準(zhǔn)確度指標(biāo)對(duì)模型進(jìn)行評(píng)估,計(jì)算方式為:

式中:∑a為數(shù)據(jù)集中人類(lèi)投票標(biāo)注的答案,當(dāng)預(yù)測(cè)的答案在標(biāo)注答案中出現(xiàn)3 次及3 次以上時(shí),認(rèn)為預(yù)測(cè)答案正確。

2 問(wèn)題引導(dǎo)圖像注意力機(jī)制

為了彌補(bǔ)傳統(tǒng)的視覺(jué)問(wèn)答算法中問(wèn)題特征和圖像特征缺乏依賴的問(wèn)題,在MCAN 網(wǎng)絡(luò)[14]中引入問(wèn)題引導(dǎo)圖像注意力機(jī)制,對(duì)問(wèn)題和圖像特征的提取加入自注意力機(jī)制。

2.1 自注意力機(jī)制

自注意力(Self-Attention,SA)[20]的特點(diǎn)在于無(wú)視詞之間的距離直接計(jì)算依賴關(guān)系,從而能夠?qū)W習(xí)一個(gè)句子的內(nèi)部結(jié)構(gòu)。SA 內(nèi)部結(jié)構(gòu)圖如圖3。Attention 的本質(zhì)可以被描述為一個(gè)查詢(Query)到一系列(鍵Key -值Value)對(duì)的映射。這3 個(gè)向量是用嵌入向量與一個(gè)矩陣相乘得到的結(jié)果,SA即3 個(gè)向量Query、Key、Value 相等K=V=Q。首先將Q和每個(gè)K進(jìn)行點(diǎn)積運(yùn)算,計(jì)算相似度得到權(quán)重,為了防止內(nèi)積過(guò)大,除以K的維度;其次使用一個(gè)softmax 函數(shù)對(duì)這些權(quán)重進(jìn)行歸一化;最后將權(quán)重和相應(yīng)的鍵值V進(jìn)行加權(quán)求和得到最后的attention。具體的表達(dá)式為:

圖3 SA 內(nèi)部結(jié)構(gòu)

式中:dK為K的維度。

為了使模型在不同的表示子空間里學(xué)習(xí)到相關(guān)信息,將多頭自注意力機(jī)制(Multi-headed selfattention)應(yīng)用于視覺(jué)問(wèn)答任務(wù)中[5],通過(guò)多次計(jì)算來(lái)捕獲不同子空間上的相關(guān)信息。Multi-head 的結(jié)構(gòu)如圖4 所示,將Q、K、V進(jìn)行線性變換,然后輸入Self-attention,進(jìn)行h次計(jì)算,而且每次Q,K,V進(jìn)行線性變換的參數(shù)W都不同。最后將h次的Self-attention 結(jié)果進(jìn)行拼接,并進(jìn)行線性變換,得到多頭attention 的結(jié)果。計(jì)算方式為:

圖4 Multi-head 結(jié)構(gòu)

2.2 問(wèn)題引導(dǎo)圖像注意力機(jī)制

問(wèn)題引導(dǎo)圖像注意力機(jī)制結(jié)構(gòu)如圖5 所示。

圖5 問(wèn)題引導(dǎo)圖像注意力機(jī)制結(jié)構(gòu)

首先,利用自注意后的問(wèn)題特征來(lái)建立引導(dǎo)(Guide Attention,GA)模塊,其結(jié)構(gòu)如圖6,算法和自注意力機(jī)制相似,不同的地方在于使用問(wèn)題X和圖像Y兩種特征,Q為X特征,K=V為Y特征。

圖6 GA 結(jié)構(gòu)

其次,采用編碼器/解碼器的方式,將X特征自注意后進(jìn)行級(jí)聯(lián),輸出具有多模態(tài)的問(wèn)題特征FX,利用FX對(duì)進(jìn)行自注意后的Y特征進(jìn)行多次引導(dǎo),得到具有多模態(tài)的特征FY,計(jì)算方式為:

為了簡(jiǎn)化模型,將模態(tài)特征經(jīng)過(guò)多層感知機(jī)(Multilayer Perception,MLP)模型(FC-Relu-Drop-FC),以X特征為例,計(jì)算方法為:

式中:a為權(quán)重矩陣。

將fx,fy經(jīng)過(guò)線性函數(shù)進(jìn)行融合,得到融合后的特征f1:

3 圖像與問(wèn)題雙引導(dǎo)注意力網(wǎng)絡(luò)

為了更充分地建立圖像和問(wèn)題之間的推理關(guān)系,在問(wèn)題引導(dǎo)圖像注意力機(jī)制的基礎(chǔ)上設(shè)計(jì)圖像與問(wèn)題雙引導(dǎo)注意力機(jī)制(Dual-Guided Attention,DGA),結(jié)構(gòu)如圖7 所示。雙引導(dǎo)注意力機(jī)制不僅可以根據(jù)問(wèn)題中的關(guān)鍵詞定位圖像特征,也可以根據(jù)圖像的目標(biāo)特征尋找問(wèn)題中的關(guān)鍵詞。

圖7 圖像與問(wèn)題雙引導(dǎo)注意力機(jī)制結(jié)構(gòu)

經(jīng)過(guò)自注意后的模態(tài)問(wèn)題特征FX包含較為豐富的文字信息,引導(dǎo)后的模態(tài)圖像特征FY也可以精準(zhǔn)定位到目標(biāo)對(duì)象。為加強(qiáng)圖像和問(wèn)題之間的交互引導(dǎo),豐富兩者之間的依賴關(guān)系,用FY對(duì)FX進(jìn)行引導(dǎo),實(shí)現(xiàn)圖像對(duì)問(wèn)題的引導(dǎo),得到更加豐富的加強(qiáng)模態(tài)特征FZ,計(jì)算方式為:

類(lèi)似的,將FZ進(jìn)行簡(jiǎn)化運(yùn)算得到fz,將問(wèn)題模態(tài)特征fx與fy求和,并將融合后的特征與fz進(jìn)行concat 運(yùn)算得到注意后的特征f,計(jì)算方法為:

將特征f分類(lèi)輸出,圖像與問(wèn)題雙引導(dǎo)注意力模型結(jié)構(gòu)如圖8。

圖8 模型結(jié)構(gòu)

4 實(shí)驗(yàn)結(jié)果與分析

實(shí)驗(yàn)采用Windows 操作系統(tǒng),顯卡為NVIDIA GeForce GTX 1080Ti,顯存為11 GB,版本為CUDA11.1,基于Anconda3(64-bit)的Python3.6 環(huán)境、Pytorch1.0 的深度學(xué)習(xí)庫(kù)。實(shí)驗(yàn)在VQA v2.0 訓(xùn)練集和驗(yàn)證集上進(jìn)行訓(xùn)練,在test-dev 集上進(jìn)行測(cè)試。

VQA v2.0 數(shù)據(jù)集包括82 783 張訓(xùn)練圖像、40 504張驗(yàn)證圖像、81 434 張測(cè)試圖像,每幅圖像有3 個(gè)問(wèn)題,每個(gè)問(wèn)題有10 個(gè)答案。數(shù)據(jù)集中包括是/否、數(shù)字、其他3 種回答類(lèi)型。

輸入圖像經(jīng)過(guò)Faster R-CNN 網(wǎng)絡(luò)以bottomup[21]的方式提取圖像的目標(biāo)區(qū)域特征,目標(biāo)區(qū)域數(shù)量記為m∈[10,100]。輸入問(wèn)題首先被處理成單詞,并最多截取14 個(gè)單詞,使用300-D GloVe 詞嵌入將每個(gè)單詞轉(zhuǎn)換為向量,并通過(guò)單層LSTM 網(wǎng)絡(luò)獲取問(wèn)題特征。

輸入圖像特征維度2 048,輸入問(wèn)題特征維度1 024 以及融合后特征維度1 024;實(shí)驗(yàn)設(shè)置候選答案長(zhǎng)度為3 129;使用Adam 優(yōu)化策略,其中一階矩衰減系數(shù)β1=0.9,二階矩衰減系數(shù)β2=0.98;按階段設(shè)置學(xué)習(xí)率,基礎(chǔ)學(xué)習(xí)率設(shè)為min(2.5te-5,e-4),10 個(gè)周期后,學(xué)習(xí)率每2 個(gè)周期衰減0.2;批大小設(shè)置為64,最大迭代周期設(shè)置為13 epochs。實(shí)驗(yàn)結(jié)果取同條件下10 次實(shí)驗(yàn)結(jié)果的平均值,評(píng)價(jià)指標(biāo)采用VQA 的準(zhǔn)確度指標(biāo)。

為驗(yàn)證模型的有效性,將本文DGA 模型結(jié)果與Bottom-up 模型[21]、MFH 模型[16]、BAN 模型[13]、DFAF 模型[15]、MCAN 模型[14]結(jié)果進(jìn)行對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表1 所示。

從表1 中可以看出,本文提出的模型得到的實(shí)驗(yàn)結(jié)果較其他模型有較明顯的提升,總評(píng)分比Bottom-up 等模型高出0.35%~5.66%,Yes/No 類(lèi)提升了0.42%~5.42%,other 類(lèi)提升了0.39%~5.09%。由于雙引導(dǎo)模型主要針對(duì)圖像和問(wèn)題相對(duì)應(yīng)的問(wèn)題,因此Number 類(lèi)型的問(wèn)題沒(méi)有明顯提升。

表1 DGA 模型與其他模型在VQA v2.0 數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果的比較 %

此外,將注意力部分可視化,針對(duì)圖9(a),提出問(wèn)題“What is the food item?”,即“圖片中的食物是什么?”,加入問(wèn)題引導(dǎo)注意力機(jī)制后,模型可以根據(jù)提出的問(wèn)題準(zhǔn)確定位圖片中的物體——披薩(Pizza),從而作出正確回答。

圖9 部分可視化結(jié)果

5 結(jié)語(yǔ)

本文針對(duì)視覺(jué)問(wèn)答任務(wù)中圖像與問(wèn)題之間交互性不強(qiáng)的問(wèn)題,提出了一種圖像與問(wèn)題雙引導(dǎo)注意力機(jī)制視覺(jué)問(wèn)答算法。本文算法通過(guò)問(wèn)題引導(dǎo)圖像和圖像引導(dǎo)問(wèn)題構(gòu)建多模態(tài)的圖像特征和問(wèn)題特征,這種交互引導(dǎo)加強(qiáng)了問(wèn)題和圖像之間的依賴關(guān)系。本文模型在VQA V2.0 數(shù)據(jù)集的Test-dev 上準(zhǔn)確率達(dá)到70.98%。此外,與其他VQA 方法相比,本文提出的模型在VQA 任務(wù)中具有更好的性能。

猜你喜歡
模態(tài)機(jī)制特征
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
自制力是一種很好的篩選機(jī)制
文苑(2018年21期)2018-11-09 01:23:06
抓住特征巧觀察
國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
破除舊機(jī)制要分步推進(jìn)
基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
注重機(jī)制的相互配合
打基礎(chǔ) 抓機(jī)制 顯成效
由單個(gè)模態(tài)構(gòu)造對(duì)稱簡(jiǎn)支梁的抗彎剛度
主站蜘蛛池模板: 日韩毛片在线视频| 欧美一级专区免费大片| 亚洲综合极品香蕉久久网| 鲁鲁鲁爽爽爽在线视频观看 | 久久精品人人做人人综合试看| 久久久久亚洲Av片无码观看| 久久久久青草大香线综合精品| 亚洲无码高清一区二区| 麻豆精品国产自产在线| 国产呦精品一区二区三区下载| 亚洲午夜国产精品无卡| a免费毛片在线播放| 日本午夜在线视频| 亚洲女同欧美在线| 四虎成人免费毛片| 韩国v欧美v亚洲v日本v| 2020国产在线视精品在| 一级毛片不卡片免费观看| 99精品久久精品| 国产欧美精品午夜在线播放| 午夜视频日本| 欧美乱妇高清无乱码免费| 丁香婷婷激情综合激情| 国产自在线播放| 亚洲中文字幕手机在线第一页| 亚洲日韩国产精品综合在线观看| 蜜桃臀无码内射一区二区三区| 园内精品自拍视频在线播放| 欧美日韩国产高清一区二区三区| 国产在线一区二区视频| 国产第一页免费浮力影院| 少妇露出福利视频| 久久天天躁狠狠躁夜夜躁| 国产欧美日韩另类精彩视频| 国产成人资源| 国产成人精品免费av| 亚洲av日韩av制服丝袜| 国产欧美亚洲精品第3页在线| 亚洲视频一区在线| 思思热精品在线8| 国产高清不卡| 91在线播放免费不卡无毒| 欧美伦理一区| 国产乱子伦视频在线播放| 亚洲人妖在线| 国产区福利小视频在线观看尤物| 国产日本欧美亚洲精品视| 一本无码在线观看| 蜜桃视频一区二区| 制服丝袜 91视频| 国产91视频观看| 色婷婷电影网| 国产精品熟女亚洲AV麻豆| 美美女高清毛片视频免费观看| 日本免费一区视频| 亚洲AV成人一区国产精品| 制服丝袜国产精品| 久久综合结合久久狠狠狠97色| 亚洲中久无码永久在线观看软件 | 亚洲三级a| 国产在线视频导航| 成人夜夜嗨| 国产精选自拍| 毛片大全免费观看| 凹凸国产分类在线观看| 欧美乱妇高清无乱码免费| 日韩视频免费| 99久久精品国产麻豆婷婷| 日韩高清一区 | 日韩国产黄色网站| 亚洲精品第一页不卡| 欧美黄色a| 午夜激情福利视频| 国产迷奸在线看| 欧美.成人.综合在线| 成人午夜免费视频| 国产av一码二码三码无码| 91无码人妻精品一区二区蜜桃| 久久中文电影| 日韩欧美91| 国产精品视频第一专区| 综合色88|