999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多尺度特征的圖像描述生成模型

2020-05-30 03:32:58周星光靳華中徐雨東李晴晴
湖北工業(yè)大學學報 2020年2期
關鍵詞:特征融合信息

周星光, 靳華中, 徐雨東, 李晴晴, 胡 滿

(湖北工業(yè)大學計算機學院, 湖北 武漢 430068)

隨著深度學習的出現(xiàn),計算能力的提升,人工智能技術得到了飛速發(fā)展。圖像描述生成涉及計算機視覺和自然語言翻譯技術,目的是將圖像視覺信息和語言文字信息聯(lián)系起來,經過對圖像視覺信息的特征提取,自動生成關于圖像內容的語言描述。圖像描述生成對于計算機實現(xiàn)快速檢索和分析圖像數(shù)據(jù)具有非常重要的意義。自動生成準確的圖像描述文字存在著諸多挑戰(zhàn)和困難,是目前人工智能領域研究的難點和熱點。

現(xiàn)有主流的圖像描述生成模型通常采用編碼器--解碼器結構,其中編碼器用來提取圖像特征,解碼器作為語言模型用來生成描述性語言。近年來,依靠深度學習的快速發(fā)展,特別是卷積神經網(wǎng)絡[1](Convolution Neural Network,CNN)計算機視覺領域已經取得了諸多顛覆性成果,其中發(fā)展迅猛的目標檢測與識別技術在ImageNet,MSCOCO等公開的數(shù)據(jù)集上面都取得了突破性的進展。計算機視覺利用CNN提取圖像特征特性。相對于傳統(tǒng)的圖像特征提取方法,CNN可以更好地提取圖像特征。

自然語言處理是研究如何使機器“讀”和“說”,是實現(xiàn)人和機器之間用人類使用的自然語言進行更加有效溝通的關鍵技術。自然語言的飛速發(fā)展帶來了人機交互形式的改革與創(chuàng)新。近年來,自然語言處理領域也在進行著飛速的發(fā)展。例如,在斯坦福大學發(fā)起的文本理解挑戰(zhàn)賽(Stanford Question Answering Dataset,SquAD)中,微軟亞洲研究院提交的模型在精準匹配指標上首次超越人類的水平,IBM在自然對話環(huán)境中的語言識別錯誤率達到了接近人類的水平,基于神經網(wǎng)絡的機器翻譯的準確率和速度都實現(xiàn)顯著的提升。

圖像描述生成技術具有非常廣闊的實際應用場景。圖像描述生成可以應用到圖像檢索、機器人問答、輔助兒童教育及導盲等多個方面,對圖像描述生成的研究具有重要的現(xiàn)實意義。圖像描述生成對于人工智能的發(fā)展同樣具有重要的作用,相當于建立了計算機視覺和自然語言處理的橋梁。

1 相關工作

對于一張圖片,圖像描述生成方法能夠讓計算機自動地生成描述圖片內容的語句。根據(jù)圖像描述生成模型的不同,圖像描述的方法主要分為三類:第一類是基于模板[2]方法,首先對圖片中的物體、場景等信息進行識別,然后將對應的詞匯填入到句子模板中。該方法生成的句子較為呆板,形式較為單一,準確率不高;第二類是基于檢索[3-4]的方法,首先在訓練數(shù)據(jù)庫中檢索和測試樣本相似的圖像,在將檢索到的圖像描述轉移到待測試圖像上,進而生成圖像描述。該方法嚴重依賴訓練數(shù)據(jù)庫中的圖像,無法生成比較新穎的圖像描述內容。第三類是基于深度學習的方法,卷積神經網(wǎng)絡作為編碼器提取圖像特征,循環(huán)神經網(wǎng)絡(Recurrent Neural Network,RNN[5])作為解碼器生成圖像描述。通過將二者優(yōu)勢結合形成端對端的方法,共同指導圖像的描述生成。該方法能夠生成描述更加準確的句子?;谏疃葘W習的圖像描述生成研究以來,Mao等在文獻[6]中提出的多模態(tài)循環(huán)神經網(wǎng)絡( multimodal RNN,m-RNN)的方法廣泛應用。m-RNN將圖像描述的工作分成兩個任務:利用CNN提取圖像特征,RNN建立語言生成模型將圖像特征轉化成文本信息。m-RNN中CNN使用AlexNet[7]網(wǎng)絡結構,RNN使用兩層嵌入層將文本信息編碼成One-hot向量表示,然后輸入到循環(huán)層中,最后通過Softmax層得到輸出。雖然m-RNN將CNN作為編碼器引入到圖像描述任務中,但因RNN網(wǎng)絡結構限制,對于較長的網(wǎng)絡系列易出現(xiàn)梯度消息的問題。Vinvals等[8]使用長短期記憶網(wǎng)絡LSTM代替一般的RNN,并且使用帶有批標準層的CNN提取圖像特征,圖像描述準確率和速度均有提升。

從注意力模型命名方式看,很明顯借鑒了人類的注意力機制。視覺注意力機制是人類視覺所特有的大腦信號處理機制。人類視覺通過快速掃描全局圖像,獲得需要關注的目標區(qū)域,也就是注意力焦點,然后對注意力焦點區(qū)域投入更多注意力資源,以獲得更多所需要關注目標的細節(jié)信息,而抑制其他無用信息。這是人類利用有限的注意力資源從大量信息中快速篩選出高質量信息的方法,是人類在長期進化中形成的一種生存機制,人類視覺注意力機制極大地提高了視覺信息處理的效率和準確性。深度學習中的注意力機制從本質上和人類的選擇性視覺注意力機制類似,核心目標也是從眾多信息中選取出對當前任務目標更關鍵的信息。文獻[9]將文獻[10]注意力機制引入到圖像描述生成,提出hard-attention與soft-attention模型,提高了模型的性能。文獻[11]使用基于注意力的翻譯模型,可以并行訓練模型,提升了翻譯性能。文獻[12]提出了一種自上而下和自下而上相結合的注意力機制,提升了模型在視覺問答和圖像描述生成的性能。

尺度是計算機視覺與圖像處理領域的一個非常重要概念。任何一個視覺問題的答案都依賴于其所在的尺度。Lin等[13]將多尺度圖像作為輸入,產生了不同尺度的特征圖,提高了語義分割的精度。文獻[14-15]的圖像表示方法可以在突出對象內容的同時刻畫對象特征之間的空間關系,但是都沒有考慮到不同尺度下物體的意義。文獻[16-17]提出的空間金字塔池化方法,此方法通過不同尺度bin的采樣,將局部特征進行聚合,bin越大采樣的范圍越廣,因此可以為圖像表示提供不同尺度的空間信息。

生成圖像描述句子的準確率主要受以下兩個方面的影響:一是對圖片中的物體及場景特征提取能力;二是對物體間相互關系等信息的提取。以上的文獻都是基于CNN提取圖像特征,但是CNN決定了提取特征尺度單一,提取的圖像特征處理較為單一,沒有考慮到提取的圖像特征利用不充分的問題。本文提出在圖像編碼階段,編碼器隨著網(wǎng)絡的深度不斷加深,圖像特征層的尺度在不斷減小,提取不同層的特征作為多尺度特征,融合不同層的特征得到多尺度特征,獲得更豐富的圖像特征。將多尺度融合特征和CNN最后一層的特征輸入到循環(huán)神經網(wǎng)絡中;在圖像解碼階段,利用自適應注意力機制LSTM語言模型生成描述語句。

2 基于多尺度特征的圖像描述生成模型

2.1 本文模型結構

本文采用編碼器-解碼器的圖像描述生成模型結構,其中編碼器利用卷積神經網(wǎng)絡(VGG19)來提取圖像特征信息,解碼器利用循環(huán)神經網(wǎng)絡(LSTM)生成描述性語言。本文提出改進后的模型總體結構見圖1。

圖 1 總體結構

2.2 基于多尺度圖像特征提取的編碼器

一幅圖像中,只有在一定的尺度范圍內,一個物體才有意義。例如,要觀察一棵樹,所選取的尺度應該是“米”級,重點關注樹的形狀而忽略樹葉;如果要觀察樹葉,所選取的尺度應該是“厘米”,重點關注樹葉而忽略樹的形狀;如果需要觀察樹葉的細胞結構,恐怕就需要“毫米”甚至“微米”級是必須的。圖像中存在不同尺寸大小的對象目標,需要不同的尺度來提取圖像特征。

本文基于VGG19提取不同層的特征圖,從而提取到不同尺度的圖像特征圖進行特征融合,以增強對圖像中不同尺度信息的提取。隨著層數(shù)的增加,CNN提取的圖像特征具有更好的高層語義信息,因而選擇提取靠近最后層的特征層。提取Block5_conv2層的14X14X512的特征向量和Block5-pool層的7X7X512特征向量,將這兩層提取到的特征向量進行Concat,得到不同尺度融合特征向量。最后提取FC1層的1X1X4096特征向量?;赩GG19的不同層特征圖提取的結構見圖2。將已訓練好的包含4096維的特征和205X512不同層融合的特征作為圖像描述模型的輸入,導入到循環(huán)神經網(wǎng)絡進行解碼。

本文的模型關注圖像的全局信息和多尺度融合信息,因而將卷積神經網(wǎng)絡提取的4096維向量作為圖像的全局特征,但是4096維的高維數(shù)據(jù)構成的特征在向量空間中表示,易造成數(shù)據(jù)稀疏的風險,因而對4096維向量進行降維處理。在模型的卷積神經網(wǎng)絡輸出階段分別將4096維向量和205x512維向量映射到和文本相同的256維空間中。

圖 2 基于VGG19多尺度特征提取

2.3 基于自適應注意力LSTM的圖像描述生成的解碼階段

使用CNN+LSTM網(wǎng)絡進行圖像內容描述的過程是一種編碼-解碼的過程。編碼是使用CNN將圖像映射為向量表示的過程,而解碼是根據(jù)圖像的特征,使用LSTM將特征轉換為描述性語句的過程。

給定圖像I和其對應的圖像描述語句X。首先使用CNN提取圖像特征v(I)。圖像描述語句X={x1,x2,…,xL},xt是語句中單詞的表達形式,表示為1-of-V(one-hot),其中,V是訓練字典庫大小。在模型訓練過程中,訓練的目的是使圖像特征與描述語義句子之間的映射關系最大化,即

(1)

其中,θ為模型參數(shù),該參數(shù)是網(wǎng)絡自學習的。由于每個圖像的語義描述語句是由一系列單詞組成,因此可以使用鏈式法則將其分解為

(2)

可以使用LSTM求得t1時刻生成單詞的概率分布,即

pt+1=s(ht)

(3)

ht=L(Wxt,Uht-1,μCv)

(4)

其中,s(·)為softmax函數(shù);L(·)表示為LSTM網(wǎng)絡;ht為LSTM的隱藏層狀態(tài);W,U,C為模型自學習的參數(shù)矩陣;xt,ht-1分別為LSTM當前時刻的輸入和上一時刻的隱藏層狀態(tài)。

自適應注意力機制的主要功能是模型在生成句子描述時,模型可以自動選擇關注圖像的全局特征(4096)還是關注圖像多尺度融合特征。自適應注意力在原有的LSTM基礎上增加了兩個公式:

gt=σ(Wxxt+Whht-1)

(5)

st=gt⊙tanh(mt)

(6)

其中xt是LSTM的輸入,mt是memory cell。這里的gt叫‘哨兵’門,公式形式類似于LSTM中的輸入門、遺忘門、輸出門,決定了模型到底關注圖像還是 visual sentinel;而st公式的構造與LSTM中的ht=ot⊙tanh(ct)類似。

(7)

(8)

(9)

本文選擇VGG19最后一層卷積層的特征(1x1x4096)與word embedding拼接在一起成為LSTM的輸入,多尺度的融合特征作為attention部分。

3 實驗結果與分析

3.1 數(shù)據(jù)集與實驗環(huán)境

本文數(shù)據(jù)集采用MSCOCO2014019數(shù)據(jù)集。數(shù)據(jù)集中包含了圖像中所包含物體的類別、物體的輪廓坐標、邊界框坐標以及對該圖像內容的描述,其中每張圖像的描述均至少有5種。本文的訓練集、驗證集、測試集,分別包含113287、5000和5000張圖像。

實驗環(huán)境為Win10環(huán)境下安裝tensorflow 1.60深度學習框架,配置32 G內存 AMD Ryzen 5 2600X Six-Core Processor 3.6GHz CPU,NVIDIA2070 GPU,NVIDIACUDA9.0和cuDNN7.5深度學習庫加速模型訓練和測試,Python環(huán)境為Python3.7。

本文在圖像編碼階段使用VGG19提取最后一層的全局信息(1×1×4096),將提取后Block5_conv2與Block5-pool的特征進行融合得到多尺度圖像特征。在編碼階段,采用自適應注意力機制LSTM網(wǎng)絡生成自然語言。在模型訓練階段,采用Adam優(yōu)化算法和Dropout方法,將LSTM中的單元按照一定的概率進行屏蔽來防止過擬合,實驗中Dropout設置為0.5,學習率為0.01,batch大小為128。

3.2 評價指標與實驗結果

現(xiàn)有的圖像描述生成的評測標準包括人工主觀抽檢評價和客觀量化評分。主觀評價即人工觀測輸出圖像,評定圖像描述的質量。目前最普遍的客觀量化評分方法包括:BLEU[18]、ROUGE_L、METEOR[19]、CIDEr[20]。本文實驗也采用BLEU, METEOR,CIDEr進行評價。

針對上面的三個評價標準,在MSCOCO數(shù)據(jù)集上分別評估BLEU,METEOR,CIDEr,評估結果見表1。

表1 不同模型在MSCOCO數(shù)據(jù)集上的得分

從評價結果來看,本文模型的各個指標均優(yōu)于Google NIC , mRNN, Hard-Attentiom和VGG-LSTM模型。

3.3 結果分析

在測試結果中,圖3a、3b和圖3d中,本文模型相對于Google NIC、mRNN和VGG-LSTM,模型更好的提取到目標特征信息;在圖3c中,本文模型更好提取到圖像背景信息,生成較為完整、準確的圖像描述語句。從評價結果和測試結果來看,本文模型在各個評價指標上都有一定的提高,表明本文提出的模型對圖像描述生成任務的有效性,同樣表明本文多尺度融合特征更好的提取到圖像信息。在圖像編碼階段使用VGG19提取不同層的特征,得到不同尺度下圖像中物體圖像特征,融合得到多尺度融合特征,獲取更豐富的圖像信息以增強循環(huán)神經網(wǎng)絡輸入端的信息量。在圖像描述生成階段,語言描述模型自適應選擇關注多尺度融合特征還是全局特征,從而生成更加完整、準確的句子。本文模型增加多尺度融合信息,可以更好地識別圖中的對象,但是比較復雜的場景還沒法達到較為準確的結果。

(a)(Google NIC) a motorcy parked on the ground(our model) a motorcycle is parked on the ground

(b)(mRNN) Man is throwing frisbee in grassy(our model) a man is throwing a frisbee in a grassy

(c)(Hard attention) man playing frisbee in a field(our model) a man playing frisbbee in a field at night

(d)(VGG-LSTM) dock tower in front of a building(our model) a dock tower in front of a building圖 3 測試結果

4 結束語

本文采用編碼器—解碼器結構的圖像描述生成方法。針對現(xiàn)有圖像描述生成中卷積神經網(wǎng)絡提取單一尺度圖像特征的不足,圖像信息利用不充分,造成文字對圖片內容描述的不夠準確、語義較模糊。本文改進現(xiàn)有模型對圖像特征的編碼形式,提出了基于VGG19網(wǎng)絡提取不同層的特征進行融合得到多尺度特征,獲取更豐富的圖像信息。在解碼器階段,基于自適應注意力機制LSTM網(wǎng)絡生成圖像描述語句。本文提出的模型在MSCOCO數(shù)據(jù)集上進行模型訓練和測試,實驗結果表明:本文模型很好融合了CNN不同層的特征,獲取更豐富的圖像信息,增強了語言模型輸入的信息,自適應注意力LSTM網(wǎng)絡模型生成更準確完整,更有意義的圖像描述語句。

猜你喜歡
特征融合信息
村企黨建聯(lián)建融合共贏
融合菜
從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
《融合》
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
線性代數(shù)的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 国产综合精品日本亚洲777| 久久国产精品无码hdav| 97国产在线播放| 精品欧美视频| 一级毛片免费高清视频| 欧美在线视频不卡第一页| 午夜精品影院| 全部免费毛片免费播放| 亚洲人成日本在线观看| 久久久久亚洲Av片无码观看| 国产精品欧美激情| 亚洲嫩模喷白浆| 国产午夜小视频| 国产人人射| 国产精品网拍在线| 久久久久青草大香线综合精品| 97视频免费在线观看| 国产日本一线在线观看免费| 在线亚洲小视频| 美女无遮挡拍拍拍免费视频| 欧美在线一二区| 日韩福利在线观看| 18禁黄无遮挡免费动漫网站| 极品尤物av美乳在线观看| 尤物成AV人片在线观看| 亚洲成av人无码综合在线观看| 大乳丰满人妻中文字幕日本| 97青草最新免费精品视频| 国产福利微拍精品一区二区| 玖玖精品在线| 欧美伦理一区| 人妻精品久久无码区| 精品精品国产高清A毛片| 人妻丰满熟妇av五码区| 国产h视频在线观看视频| 亚洲男女在线| 国产精品lululu在线观看| 中文字幕资源站| 97亚洲色综久久精品| 免费在线色| 亚洲综合18p| 欧美日韩高清在线| 亚洲中文字幕无码爆乳| 99人妻碰碰碰久久久久禁片| 国产小视频免费观看| 婷婷六月综合网| 中文字幕久久波多野结衣| 国产毛片基地| av一区二区三区在线观看| 97影院午夜在线观看视频| 亚洲天堂.com| 天堂在线www网亚洲| 亚洲国产91人成在线| 丝袜亚洲综合| 成AV人片一区二区三区久久| 亚洲精品在线观看91| 无码aaa视频| 国产00高中生在线播放| 亚洲成人在线网| 一级成人欧美一区在线观看| 蜜桃视频一区二区三区| 欧美中文一区| 国产精品永久在线| 黑人巨大精品欧美一区二区区| 久夜色精品国产噜噜| 亚洲精品无码人妻无码| 天天综合亚洲| 欧美日本二区| 99久久精品国产自免费| 欧美不卡视频在线| 亚洲高清免费在线观看| 亚洲国产精品久久久久秋霞影院| 国产尤物视频在线| 亚洲大学生视频在线播放| 91亚瑟视频| 午夜视频免费试看| 久久人体视频| 综合色在线| 91麻豆国产视频| 欧美日韩亚洲国产| 成人在线不卡视频| 亚洲AV无码乱码在线观看代蜜桃|