999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Transformer 的多方面特征編碼圖像描述生成算法

2023-02-20 09:39:00衡紅軍范昱辰王家亮
計(jì)算機(jī)工程 2023年2期
關(guān)鍵詞:方法模型

衡紅軍,范昱辰,王家亮

(中國(guó)民航大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津 300300)

0 概述

圖像描述是將圖像的視覺(jué)內(nèi)容轉(zhuǎn)換為符合人類(lèi)描述習(xí)慣的自然語(yǔ)言語(yǔ)句的任務(wù),是一項(xiàng)結(jié)合計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理的多模態(tài)任務(wù)。圖像描述的挑戰(zhàn)不僅存在于識(shí)別圖像中目標(biāo)與目標(biāo)之間的關(guān)系,而且還存在于不同模態(tài)下實(shí)現(xiàn)相同語(yǔ)義的轉(zhuǎn)換以及生成人類(lèi)描述習(xí)慣的句子。

現(xiàn)有的圖像描述生成方法有基于模板的方法[1-2]、基于檢索的方法[3]和基于編碼-解碼的方法。目前主流圖像描述方法傾向于采用基于神經(jīng)網(wǎng)絡(luò)的編碼器-解碼器結(jié)構(gòu)[4-7]。早期圖像描述的編碼器-解碼器結(jié)構(gòu)使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)作為編碼器對(duì)輸入圖像進(jìn)行編碼,使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)作為解碼器對(duì)編碼器產(chǎn)生的結(jié)果進(jìn)行解碼。這些方法模型都由一個(gè)圖像I作為模型的輸入,每個(gè)時(shí)間戳產(chǎn)生的單詞的概率P(S|I)作為模型的輸出,最終生成的句子S={W1,W2,…,Wn}為圖像描述語(yǔ)句。

現(xiàn)有的圖像描述模型多采用原始圖像或?qū)υ紙D像進(jìn)行目標(biāo)檢測(cè)得到的目標(biāo)特征向量作為模型輸入,這2 種方案均致力于更加準(zhǔn)確地描述圖像內(nèi)的關(guān)鍵目標(biāo),但卻造成了對(duì)圖像內(nèi)部其余信息(圖像背景信息、目標(biāo)之間的關(guān)系信息等)的獲取缺失,導(dǎo)致生成的圖像描述存在誤差和局限性。

為了在準(zhǔn)確描述圖像內(nèi)部目標(biāo)的同時(shí)對(duì)圖像內(nèi)部目標(biāo)之間的關(guān)系進(jìn)行合理表達(dá),本文提出一種結(jié)合目標(biāo)Transformer 和轉(zhuǎn)換窗口Transformer 的聯(lián)合編碼模型。對(duì)于給定圖像,采用本文提出的目標(biāo)Transformer編碼器編碼目標(biāo)視覺(jué)特征,同時(shí)使用轉(zhuǎn)換窗口Transformer編碼器編碼圖像內(nèi)部關(guān)系特征。本文采用拼接方法將視覺(jué)特征與編碼后的圖像內(nèi)部關(guān)系特征進(jìn)行融合,并對(duì)融合后的編碼向量使用Transformer 解碼器解碼,最終生成對(duì)應(yīng)圖像內(nèi)容的描述。

1 相關(guān)工作

2014年,谷歌提出了Neural Image Caption Generator[5],這是一個(gè)使用CNN 作為編碼器、RNN 作為解碼器的神經(jīng)網(wǎng)絡(luò)模型,展現(xiàn)出了良好的性能。隨著研究的深入,研究者發(fā)現(xiàn)人類(lèi)觀察圖像中的內(nèi)容時(shí),會(huì)從復(fù)雜的圖像內(nèi)容中找出關(guān)鍵點(diǎn),并將注意力集中于此,因此,研究者基于人類(lèi)注意力機(jī)制啟發(fā),設(shè)計(jì)了加入視覺(jué)注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型[8]用于圖像描述。注意力的加入使模型可以選擇性地關(guān)注圖像的特定區(qū)域,而不是無(wú)偏好地關(guān)注整個(gè)圖像。JIASEN等[9]注意到在生成描述過(guò)程中并非每個(gè)單詞均來(lái)源于圖像,也有可能來(lái)源于已生成的描述本身(如一些介詞、連詞的生成),因此設(shè)計(jì)了自適應(yīng)注意力(adaptive attention),讓模型自行選擇應(yīng)關(guān)注于圖像還是描述語(yǔ)句。隨著目標(biāo)檢測(cè)精度的提升,ANDERSON等[10]提出了一種目標(biāo)檢測(cè)引導(dǎo)的注意力機(jī)制,它被證明可以提高圖像描述的準(zhǔn)確率。

綜上所述,圖像描述任務(wù)的研究由剛開(kāi)始對(duì)圖像的無(wú)偏關(guān)注,到加入注意力機(jī)制的輔助,再到目標(biāo)檢測(cè)方法的加入,研究者一直致力于對(duì)圖像內(nèi)目標(biāo)內(nèi)容的精確識(shí)別。但對(duì)于圖像描述任務(wù),不僅僅需要準(zhǔn)確描述目標(biāo),更需要對(duì)目標(biāo)之間的互動(dòng)關(guān)系進(jìn)行準(zhǔn)確表達(dá),如果目標(biāo)之間的互動(dòng)關(guān)系表達(dá)錯(cuò)誤,則會(huì)造成描述與圖像內(nèi)容嚴(yán)重不符。

2017年,谷歌提出了Transformer 模型[11],用于解決Seq2Seq(Sequence to Sequence)問(wèn)題。Transformer模型也遵循編碼器-解碼器架構(gòu),但模型中編碼器和解碼器沒(méi)有使用卷積、池化等網(wǎng)絡(luò)架構(gòu),而是完全依靠自注意機(jī)制的并行化架構(gòu)來(lái)捕捉序列依賴(lài)。Transformer在自然語(yǔ)言處理(Neural Language Processing,NLP)任務(wù)中取得了優(yōu)異的成績(jī),但在計(jì)算機(jī)視覺(jué)領(lǐng)域的表現(xiàn)卻不盡如人意。研究者一度認(rèn)為T(mén)ransformer模型并不適用于計(jì)算機(jī)視覺(jué)任務(wù),直至ViT(Vision Transformer)[12]模型的出現(xiàn),才使研究者重新聚焦于Transformer 相關(guān)模型。經(jīng)過(guò)長(zhǎng)期實(shí)踐證明,Transformer 在計(jì)算機(jī)視覺(jué)領(lǐng)域也能取得比傳統(tǒng)CNN 模型更強(qiáng)的性能。2021年,微軟亞洲研究院提出了Swin Transformer[13],其結(jié)果比ViT 更好,并明顯優(yōu)于CNN 模型,這進(jìn)一步提升了Transformer在計(jì)算機(jī)視覺(jué)領(lǐng)域的應(yīng)用。通過(guò)實(shí)驗(yàn)研究發(fā)現(xiàn),Swin Transformer 不僅在圖像分類(lèi)任務(wù)中表現(xiàn)出色,而且在計(jì)算圖像內(nèi)部的關(guān)系方面也有良好的效果。

得益于Transformer近幾年在自然語(yǔ)言處理領(lǐng)域和計(jì)算機(jī)視覺(jué)領(lǐng)域的突出表現(xiàn),本文借鑒Swin Transformer和基于編碼器-解碼器框架的ViT 的原理,使用與Transformer 相關(guān)的多頭注意力機(jī)制來(lái)處理圖像特征并生成與圖像對(duì)應(yīng)的描述。本文模型總體架構(gòu)如圖1所示,其具有如下特點(diǎn):1)使用目標(biāo)Transformer 對(duì)目標(biāo)檢測(cè)得到的局部目標(biāo)特征進(jìn)行編碼;2)使用轉(zhuǎn)換窗口Transformer 對(duì)整張圖像內(nèi)容進(jìn)行編碼,用于編碼圖像內(nèi)部潛在的關(guān)系信息;3)在解碼過(guò)程中,使用Transformer 解碼器代替?zhèn)鹘y(tǒng)的RNN 解碼器。

圖1 本文模型簡(jiǎn)要結(jié)構(gòu)Fig.1 Brief structure of the proposed model

2 多方面特征編碼

為了提高圖像描述的準(zhǔn)確性,本文從融合不同方面特征表示的角度出發(fā),重新設(shè)計(jì)了網(wǎng)絡(luò)結(jié)構(gòu),如圖2所示。2.1 節(jié)介紹了目標(biāo)Transformer 編碼器對(duì)目標(biāo)特征進(jìn)行編碼的方法;2.2 節(jié)介紹了轉(zhuǎn)換窗口Transformer對(duì)圖像內(nèi)部關(guān)系特征進(jìn)行編碼的方法,2.3 節(jié)介紹了特征融合以及Transformer 解碼器的解碼方法。

圖2 本文模型詳細(xì)結(jié)構(gòu)Fig.2 Detailed structure of the proposed model

2.1 目標(biāo)Transformer 編碼器

首先使用Faster R-CNN[14]對(duì)圖像I進(jìn)行檢測(cè)得到圖像的k個(gè)區(qū)域特征{r1,r2,…,rk},每個(gè)圖像特征向量首先通過(guò)一個(gè)嵌入層進(jìn)行處理,該層通過(guò)一個(gè)全連接層將特征向量的尺寸從2 048 維降至512維,然后通過(guò)一個(gè)ReLU 激活函數(shù)和Dropout 層處理后生成的向量作為目標(biāo)Transformer 編碼器的輸入向量。

目標(biāo)Transformer 編碼器共有6層,每層由一個(gè)多頭注意力層和一個(gè)前饋神經(jīng)網(wǎng)絡(luò)組成。集合{x1,x2,…,xN}為經(jīng)過(guò)目標(biāo)檢測(cè)并嵌入后的N個(gè)目標(biāo)特征向量的集合,xn表示為經(jīng)過(guò)目標(biāo)檢測(cè)并嵌入得到的第n個(gè)目標(biāo)所對(duì)應(yīng)的特征向量。所有經(jīng)過(guò)目標(biāo)檢測(cè)并嵌入得到的特征向量所拼接成的矩陣作為第1 個(gè)編碼層的輸入,第2~6 個(gè)編碼層均使用前一層編碼層的輸出作為輸入。對(duì)編碼層中的每個(gè)多頭注意力層,每一層中“頭”的數(shù)量設(shè)為8,為N個(gè)特征向量分別計(jì)算查詢(xún)向量Qo、鍵向量Ko和值向量Vo,計(jì)算方法如式(1)所示:

其中:X為包含所有的輸入{x1,x2,…,xN}所拼接成的矩陣;WQo、WKo、WVo為可學(xué)習(xí)的權(quán)重矩陣。

不同的2 個(gè)目標(biāo)區(qū)域之間的相關(guān)性分?jǐn)?shù)計(jì)算方法如式(2)所示:

Ωo為形狀為N×N的權(quán)重矩陣,其中的元素ωmn表示為第m個(gè)特征區(qū)域和第n個(gè)特征區(qū)域之間的相關(guān)性得分。本文對(duì)dk的設(shè)定與文獻(xiàn)[11]中相同,設(shè)為64,代表查詢(xún)向量、鍵向量和值向量的維度。

多頭注意力的計(jì)算方法如式(3)所示:

由于本節(jié)將多頭注意力中“頭”的數(shù)量設(shè)置為8,因此需要通過(guò)式(1)~式(3)重復(fù)計(jì)算8 次來(lái)分別表示8 個(gè)“頭”。計(jì)算完成后,將各個(gè)“頭”矩陣拼接后與可學(xué)習(xí)的參數(shù)矩陣Wo相乘。多頭注意力計(jì)算方法如式(4)所示:

殘差結(jié)構(gòu)和層歸一化方法均被應(yīng)用在多頭注意力層和前饋神經(jīng)網(wǎng)絡(luò)層中,如式(5)~式(7)所示:

式(5)中的參數(shù)X為當(dāng)前層的輸入數(shù)據(jù)X,最終得到的X作為當(dāng)前編碼層的輸出。式(6)和式(7)表示將多頭注意力層的輸出X輸入至前饋神經(jīng)網(wǎng)絡(luò)進(jìn)行計(jì)算的計(jì)算方法,其中W1、W2和b1、b2分別為可學(xué)習(xí)的權(quán)重和偏置量。

2.2 轉(zhuǎn)換窗口Transformer 編碼器

由于Swin Transformer[13]在目標(biāo)檢測(cè)及語(yǔ)義分割任務(wù)中均有出色的表現(xiàn),其中Shift Window 操作可以實(shí)現(xiàn)不同窗口內(nèi)信息的交互,因此本文基于Swin Transformer 的Shift Window思想,設(shè)計(jì)轉(zhuǎn)換窗口Transformer 編碼器。

如圖3 所示(彩色效果見(jiàn)《計(jì)算機(jī)工程》官網(wǎng)Html版),在轉(zhuǎn)換窗口Transformer 編碼器中,每個(gè)轉(zhuǎn)換窗口Transformer 模塊中含有2 個(gè)子模塊,分別為窗口多頭注意力模塊和轉(zhuǎn)換窗口多頭注意力模塊,與目標(biāo)Transformer 的設(shè)定相同,為減小訓(xùn)練訓(xùn)練誤差并消除奇異樣本數(shù)據(jù),殘差結(jié)構(gòu)和層歸一化方法均被應(yīng)用與多頭注意力模塊和轉(zhuǎn)換窗口多頭注意力模塊。

圖3 Shift Window 方法示意圖Fig.3 Schematic diagram of Shift Window method

為提高計(jì)算效率,本文以不重疊的方式將輸入圖像均勻地分割為多個(gè)窗口,只在局部窗口內(nèi)計(jì)算自注意力。這樣就導(dǎo)致了窗口之間缺乏信息交互,因此,本文將Swin Transformer 模型中的Shift Window 的思想引入轉(zhuǎn)換窗口Transformer 編碼器。

如圖3 所示,基于窗口的多頭注意力模塊采用正常的窗口劃分策略,將一個(gè)大小為8×8 的圖像均勻地分為2×2 個(gè)大小為4×4(M=4)的窗口。為了實(shí)現(xiàn)窗口之間信息的交互,本文使用了Shift Window的方法,將像素從規(guī)則劃分的窗口中循環(huán)替換,實(shí)現(xiàn)窗口間內(nèi)容的交互。在這種轉(zhuǎn)換之后,一個(gè)局部窗口內(nèi)可能有圖像中的圖連續(xù)像素塊組成,因此采用了遮蓋機(jī)制,將自注意力的計(jì)算限制在每個(gè)子窗口內(nèi)。

在轉(zhuǎn)換窗口Transformer中,以圖像矩陣作為輸入,首先通過(guò)圖像分割層進(jìn)行處理,窗口集合{y1,y2,…,yM}為輸入圖像中均勻劃分的M個(gè)子區(qū)域而構(gòu)成的集合,ym代表第m個(gè)劃分的子區(qū)域?qū)?yīng)的特征向量。為M個(gè)窗口子區(qū)域分別計(jì)算查詢(xún)向量Qsw、鍵向量Ksw和值向量Vsw,計(jì)算方法如式(8)所示:

其中:Y為包含所有的輸入窗口子區(qū)域特征向量{y1,y2,…,yM}所拼接成的矩陣;WQsw、WKsw、WVsw為可學(xué)習(xí)的權(quán)重矩陣。

2 個(gè)窗口子區(qū)域之間的相關(guān)性分?jǐn)?shù)計(jì)算方法如式(9)所示:

Ωsw是一個(gè)形狀為M×M的權(quán)重矩陣,其中的元素ωmn表示第m個(gè)窗口子區(qū)域和第n個(gè)窗口子區(qū)域之間的關(guān)系得分。d的值為查詢(xún)向量與鍵向量之間的維度比,表示為dim(Qsw)/dim(Ksw)。

計(jì)算自注意力的方法與目標(biāo)Transformer 不同,如式(10)所示:

其中:參數(shù)B的含義為窗口子區(qū)域之間的相對(duì)位置偏置量。本文中對(duì)B的設(shè)定與文獻(xiàn)[13]中相同,存在一個(gè)偏差矩陣,B的值取自。

如圖2 所示,轉(zhuǎn)換窗口Transformer 存在2 個(gè)子轉(zhuǎn)換窗口Transformer 模塊,本文將2 個(gè)子轉(zhuǎn)換窗口Transformer 模塊的“頭”的數(shù)量分別設(shè)定為6 和12 并進(jìn)行計(jì)算,多頭注意力計(jì)算方法如式(11)所示:

其中:N為“頭”的數(shù)量;Wsw為可學(xué)習(xí)的權(quán)重矩陣。

轉(zhuǎn)換窗口Transformer 也使用了殘差結(jié)構(gòu)和層歸一化方法,其方法與2.1 節(jié)目標(biāo)Transformer 所介紹的方法相同,因此不再贅述。

2.3 Transformer 解碼器

對(duì)于目標(biāo)Transformer 編碼器編碼的目標(biāo)特征向量X和轉(zhuǎn)換窗口Transformer 編碼器編碼的關(guān)系特征向量Y,本文采用向量拼接的方式將2 個(gè)特征向量進(jìn)行融合,如式(12)所示:

如圖4 所示解碼器結(jié)構(gòu),編碼結(jié)果F作為解碼器的一部分輸入用于計(jì)算解碼器中的鍵向量KD和值向量VD,計(jì)算方法如式(13)所示:

圖4 Transformer 解碼器結(jié)構(gòu)Fig.4 Transformer decoder structure

其中:WKD、WVD為可學(xué)習(xí)的權(quán)重矩陣,而查詢(xún)向量QD需要將之前時(shí)間戳生成的單詞經(jīng)過(guò)嵌入后計(jì)算多頭注意力得到。在此基礎(chǔ)上,將得到的解碼器查詢(xún)向量QD、鍵向量KD和值向量VD計(jì)算多頭注意力后送入前饋神經(jīng)網(wǎng)絡(luò)產(chǎn)生輸出,計(jì)算多頭注意力的方法與2.1 節(jié)中目標(biāo)Transformer 的多頭注意力計(jì)算方法完全相同,因此不再贅述。值得注意的是,解碼器在訓(xùn)練過(guò)程中對(duì)輸入單詞采用遮蓋方法計(jì)算多頭注意力,這是因?yàn)槭褂昧薌round Truth 中包含即將生成的未來(lái)信息,而在實(shí)際生成文本描述語(yǔ)句過(guò)程中是無(wú)法預(yù)知的,因此使用遮蓋機(jī)制保證訓(xùn)練與測(cè)試過(guò)程的一致性。

對(duì)于解碼器的輸出,經(jīng)過(guò)一個(gè)線性層擴(kuò)展至詞匯表長(zhǎng)度后輸入Softmax 分類(lèi)層進(jìn)行分類(lèi)得到當(dāng)前時(shí)間戳的輸出單詞,計(jì)算方法如式(14)所示:

其中:Woutput表示解碼器解碼結(jié)果;Wnew為當(dāng)前時(shí)間戳生成的單詞。接下來(lái)會(huì)一直重復(fù)解碼過(guò)程,直至解碼結(jié)果與單詞表中結(jié)束符一致,代表該模型對(duì)當(dāng)前圖像的文本描述語(yǔ)句生成完畢。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 數(shù)據(jù)集與實(shí)驗(yàn)環(huán)境

為了評(píng)估本文所提方法的有效性,采用MSCOCO 2014(Common Objects in COntext 2014)[15]數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。MSCOCO 數(shù)據(jù)集可以用于圖像分類(lèi)、目標(biāo)檢測(cè)、語(yǔ)義分割、圖像描述等任務(wù)。數(shù)據(jù)集中包含91 類(lèi)目標(biāo)、328 000 余張圖像和2 500 000 余個(gè)標(biāo)簽。本文采用文獻(xiàn)[6]中對(duì)數(shù)據(jù)集的劃分方法將數(shù)據(jù)集分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,其中包含11 300余張訓(xùn)練圖像、5 000張驗(yàn)證圖像和5 000 張測(cè)試圖像,每張圖像對(duì)應(yīng)5 句英文描述性語(yǔ)句。

實(shí)驗(yàn)環(huán)境使用Ubuntu 18.04 64 位系統(tǒng),采用PyTorch深度學(xué)習(xí)框架進(jìn)行訓(xùn)練和測(cè)試,硬件配置為Intel i9-9900k CPU,Nvidia RTX 2080TI 顯卡(11 GB 顯存)。

3.2 評(píng)價(jià)指標(biāo)

為了對(duì)本文算法模型的有效性和先進(jìn)性做出合理評(píng)估,實(shí)驗(yàn)采用被廣泛應(yīng)用于圖像描述的4 個(gè)客觀量化評(píng)分方法:BLEU-4(BiLingual Evaluation Understudy 4-gram)[16],CIDEr(Consensus-based Image Description Evaluation)[17],METEOR(Metric for Evaluation of Translation with Explicit ORdering)[18],ROUGE-L(Recall-Oriented Understudy for Gisting Evaluation-Longest common subsequence)[19]。

3.3 模型主要參數(shù)設(shè)置

在實(shí)驗(yàn)中,首先對(duì)圖像數(shù)據(jù)進(jìn)行預(yù)處理,按照RGB格式讀取圖片,將圖片調(diào)整大小為224×224 像素,使用Imagenet[20]上預(yù)訓(xùn)練的ResNet-101[21]作為基礎(chǔ)的CNN進(jìn)行圖像的特征提取,使用Faster R-CNN[14]進(jìn)行目標(biāo)檢測(cè)。使用ResNet-101 的中間特征作為Faster R-CNN的輸入,RPN(Region Proposal Network)為識(shí)別的目標(biāo)生成邊界框,使用非最大抑制法丟棄IoU(Intersectionover-Union)超過(guò)閾值0.7 的重疊邊界框,然后使用Rol(Region-of-Interest)池化層將所有的邊界框特征向量轉(zhuǎn)換為相同維度,剩余的CNN 層被用于預(yù)測(cè)標(biāo)簽和細(xì)化每個(gè)邊界框,最終將所有預(yù)測(cè)概率值低于閾值0.2 的邊界框丟棄,使用平均池化的方法為剩余的每一個(gè)邊界框生成一個(gè)2 048 維的向量作為目標(biāo)Transformer 編碼器的輸入。將調(diào)整大小后的圖像作為轉(zhuǎn)換窗口Transformer 編碼器的輸入,并將轉(zhuǎn)換窗口Transformer中劃分窗口的長(zhǎng)寬值大小設(shè)定為4 個(gè)像素。

實(shí)驗(yàn)將語(yǔ)料庫(kù)規(guī)模設(shè)為出現(xiàn)頻次超過(guò)5 次的單詞并對(duì)語(yǔ)料庫(kù)中的單詞進(jìn)行獨(dú)熱(one-hot)編碼。分批處理圖像時(shí),單次輸入圖像batch size 數(shù)量設(shè)為10。使用Dropout舍棄單元來(lái)提高模型在數(shù)據(jù)集上的泛化能力,并將Dropout值設(shè)為0.1。在模型訓(xùn)練過(guò)程中使用集束搜索的方法,將beam 的值設(shè)為3,同時(shí)使用交叉熵?fù)p失和文獻(xiàn)[22]中提出的CIDEr-D 優(yōu)化強(qiáng)化學(xué)習(xí)方法,定義訓(xùn)練輪次數(shù)為50輪,前30 輪使用交叉熵?fù)p失進(jìn)行訓(xùn)練,后20輪使用CIDEr-D優(yōu)化強(qiáng)化學(xué)習(xí)方法進(jìn)行訓(xùn)練。本文使用PyTorch 自帶的Adma(Adaptive Moment Estimation)網(wǎng)絡(luò)優(yōu)化算法,其中將β1和β2的值分別設(shè)置為0.9 和0.999。

3.4 消融實(shí)驗(yàn)

3.4.1 Transformer 結(jié)構(gòu)有效性分析

為驗(yàn)證本文采用的Transformer 結(jié)構(gòu)相較于CNN、RNN相關(guān)結(jié)構(gòu)的先進(jìn)性,將本文方法與經(jīng)典的Up-Down算法[10]進(jìn)行比較。使用控制變量的思想設(shè)計(jì)以下消融實(shí)驗(yàn):1)將編碼器替換為目標(biāo)Transformer;2)目標(biāo)Transformer 與ViT 的組合和目標(biāo)Transformer 和轉(zhuǎn)換窗口Transformer 的組合,將LSTM 解碼器替換為T(mén)ransformer解碼器;3)本文方法,即使用目標(biāo)Tranformer以及轉(zhuǎn)換窗口Transformer 聯(lián)合編碼結(jié)構(gòu);4)在本文方法基礎(chǔ)上使用beam size 為3 的波束搜索。在相同數(shù)據(jù)集、相同訓(xùn)練條件下,使用交叉熵?fù)p失對(duì)模型訓(xùn)練30輪,結(jié)果如表1 所示。可以看出,將編碼器和解碼器分別替換為T(mén)ransformer 結(jié)構(gòu)之后,各項(xiàng)指標(biāo)均有所提升。

表1 使用不同編碼器和解碼器的消融實(shí)驗(yàn)結(jié)果對(duì)比 Table 1 Comparison of ablation experiment results by using different encoders and decoders %

3.4.2 轉(zhuǎn)換窗口Transformer 有效性分析

為驗(yàn)證轉(zhuǎn)換窗口Transformer提取關(guān)系信息的有效性,在實(shí)驗(yàn)中使用無(wú)位置編碼的方法和按照目標(biāo)邊界框由大到小進(jìn)行位置編碼的方法與轉(zhuǎn)換Transformer編碼器進(jìn)行比較。在相同數(shù)據(jù)集、相同訓(xùn)練條件下,使用交叉熵?fù)p失對(duì)模型訓(xùn)練30輪,結(jié)果如表2 所示。可以看出,通過(guò)轉(zhuǎn)換窗口Transformer獲取全局特征的方法,最終的到評(píng)價(jià)指標(biāo)CIDEr 的值明顯高于無(wú)位置編碼和按邊界框由大到小進(jìn)行編碼的方法。

表2 不同位置嵌入方式與轉(zhuǎn)換窗口Transformer 編碼方式消融實(shí)驗(yàn)結(jié)果對(duì)比 Table 2 Comparison of ablation experiment results between different embedding methods and shift window Transformer encoding method %

3.5 實(shí)驗(yàn)結(jié)果對(duì)比與分析

3.5.1 定量分析

本文算法與Google NIC(Google Neural Image Caption)[5]、Soft-Atten[8]、Hard-Atten[8]、Deep VS(Deep Visual-Semantic alignments)[6]、MSM(Multimodal Similarity Model)[23]、AFAR(attention feature adaptive recalibration)[24]、ASIA(Attention-guided image captioning)[25]、GO-AMN(Gated Object-Attribute Matching Network)[26]算法的對(duì)比結(jié)果如表3 所示。可以看出:本文算法的CIDEr達(dá)到127.4%,BLUE-4 達(dá)到38.6%。METEOR 達(dá)到28.7%,ROUGEL 達(dá)到58.2%。在相同的數(shù)據(jù)集、相同的訓(xùn)練條件下,本文算法的性能指標(biāo)得分最高。

表3 不同圖像描述算法的實(shí)驗(yàn)結(jié)果 Table 3 Experimental results of different image description algorithms %

3.5.2 定性分析

在模型訓(xùn)練完成后,選取測(cè)試集中的圖像結(jié)果與基線模型Up-Down 模型的實(shí)驗(yàn)結(jié)果以及數(shù)據(jù)集中給出的標(biāo)準(zhǔn)描述語(yǔ)句作比較,如圖5 所示。可以看出,Up-Down 模型生成的描述和圖像內(nèi)容具有一定的關(guān)聯(lián)性,在邏輯上是正確的,而本文提出的模型得到的結(jié)果對(duì)于圖像細(xì)節(jié)和圖像內(nèi)目標(biāo)之間的關(guān)系描述更加準(zhǔn)確生動(dòng)。例如,在第3 幅圖中Up-Down模型生成的“holding a tennis ball”內(nèi)容與圖像內(nèi)的視覺(jué)信息并不一致,而本文模型生成的“swinging a tennis racket at a tennis ball”對(duì)圖像內(nèi)的視覺(jué)信息的描述更加準(zhǔn)確,把圖像內(nèi)目標(biāo)之間的關(guān)系描述得更加生動(dòng),再次證明了本文提出的算法捕捉圖像內(nèi)目標(biāo)之間關(guān)系的有效性。

圖5 生成結(jié)果定性對(duì)比Fig.5 Qualitative comparison of generation results

4 結(jié)束語(yǔ)

本文設(shè)計(jì)了基于轉(zhuǎn)換窗口Transformer的圖像描述生成算法。該算法使用目標(biāo)Transformer 和轉(zhuǎn)換窗口Transformer 2 個(gè)編碼器,分別對(duì)Faster R-CNN 目標(biāo)檢測(cè)提取的圖像和整張圖像編碼后進(jìn)行特征融合,以Transformer 解碼器代替?zhèn)鹘y(tǒng)RNN 模型。本文算法的圖像描述效果以及BLEU-4、CIDEr、METEOR、ROUGEL等評(píng)價(jià)指標(biāo),相較于基線模型都取得了較高的得分,其中BLEU-4 和CIDEr 得分達(dá)到了38.6%和127.4%。實(shí)驗(yàn)結(jié)果表明,本文提出的轉(zhuǎn)換窗口Transformer 方法提高了模型的圖像內(nèi)部關(guān)系識(shí)別能力,提升了描述的準(zhǔn)確性,提高了模型的泛化能力。下一步工作是利用Shift Window 方法的優(yōu)良性能顯式地提取圖像的內(nèi)部關(guān)系,明確圖像內(nèi)所含關(guān)系的具體信息,進(jìn)一步提高圖像描述模型的內(nèi)部關(guān)系表達(dá)能力。

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
學(xué)習(xí)方法
3D打印中的模型分割與打包
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢(qián)方法
捕魚(yú)
主站蜘蛛池模板: 欧美天堂久久| 国产欧美亚洲精品第3页在线| 亚洲精品欧美日本中文字幕| 亚洲一欧洲中文字幕在线| 在线播放国产99re| 国产亚洲欧美另类一区二区| 亚洲欧洲AV一区二区三区| a级免费视频| 免费看一级毛片波多结衣| 91外围女在线观看| 久久亚洲美女精品国产精品| 996免费视频国产在线播放| 91小视频版在线观看www| 91小视频在线观看免费版高清| 91在线播放免费不卡无毒| a在线观看免费| 97国产在线播放| 婷婷午夜天| 99免费视频观看| 欧美亚洲一二三区| 亚洲综合极品香蕉久久网| 久久国产精品夜色| 国产精品自在拍首页视频8| 国产成人精品亚洲77美色| 九色国产在线| 国产精品9| 国产在线无码av完整版在线观看| 国产交换配偶在线视频| 国产成人亚洲无码淙合青草| 在线无码九区| 亚洲人免费视频| 亚洲热线99精品视频| 亚洲色中色| 欧美一级片在线| a毛片基地免费大全| 亚洲系列无码专区偷窥无码| 看国产一级毛片| 国产国产人免费视频成18| 久久中文字幕av不卡一区二区| 午夜视频在线观看免费网站| 2020极品精品国产 | 国产成人喷潮在线观看| 国产精品尤物铁牛tv| 伊人成人在线| 精品偷拍一区二区| 四虎成人精品| 97青青青国产在线播放| 亚洲IV视频免费在线光看| 成人国产三级在线播放| 中文字幕人成人乱码亚洲电影| a级毛片一区二区免费视频| 亚洲区一区| 在线中文字幕网| 91福利国产成人精品导航| 国产福利影院在线观看| 2020国产精品视频| 国产福利免费在线观看| 亚洲天堂日韩av电影| 亚洲手机在线| 一级一级一片免费| 久久天天躁夜夜躁狠狠| 欧美精品伊人久久| 欧美色丁香| 91视频精品| 麻豆精品在线视频| 熟女成人国产精品视频| 91在线国内在线播放老师| 中文字幕在线播放不卡| 伊人久久大香线蕉影院| 91久久天天躁狠狠躁夜夜| 国产一区二区人大臿蕉香蕉| 91网在线| 免费jjzz在在线播放国产| 尤物视频一区| 久久青草免费91观看| 五月婷婷导航| 2021天堂在线亚洲精品专区| 91九色国产porny| 激情在线网| 丁香六月激情综合| 无码电影在线观看| 亚洲国产成人自拍|