999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度殘差注意力的圖像事件描述

2021-04-13 20:07:30張欣怡李永剛季興隆孫紅蓮
電腦知識與技術 2021年5期
關鍵詞:深度學習

張欣怡 李永剛 季興隆 孫紅蓮

摘要:圖像事件描述是根據圖像特征數據再結合自然語言處理技術,輸出圖像事件的語句描述的技術。圖像事件的描述,對圖片分類、查詢等有著極高效率,為了達到更精確的描述效果,本文提出基于深度殘差注意力的圖像事件描述方法。該方法以ResNet的網絡結構為基礎,聯合分離出的全局注意力與局部注意力,關注圖像事件中心事件,生成圖像事件描述。在COCO數據集上的實驗表明,本文提出的方法能更好關注事件發生區域,對抽象事件描述更為準確。

關鍵詞:圖像事件描述;深度學習;注意力機制

Abstract: Image event description is a technology that outputs sentence descriptions of image events based on image feature data combined with natural language processing technology. The description of image events has extremely high efficiency for image classification and query. In order to achieve a more accurate description effect, this paper proposes an image event description method based on deep residual attention. Based on the network structure of ResNet, this method combines the separated global attention and local attention, focuses on the central event of the image event, and generates the image event description. Experiments on the COCO data set show that the method proposed in this paper can better focus on the event occurrence area and describe abstract events more accurately.

Key words: image event description; deep learning; attention mechanism

在過去圖像描述研究中,主要采用傳統產生式模型,把圖像與文本作為輸入輸出數據,通過尋找底層特征與標簽之間的相關性轉換成相關語義信息。本文在前人圖像描述研究的基礎上,將基于產生式模型的深度學習方法應用到圖像邏輯語義描述問題上。

Faster-RCNN模型是在CNN模型[1]的基礎上,能夠更加快速更加高效地獲取圖像對象的候選區域,速度更快,準確率更高,能有效解決因為網絡疊加許多層厚帶來的性能快速下降問題[5]。早期的人工語義分析缺點多,耗時、費力、不能成批分析。雖然現有的圖像描述模型可以使用神經網絡(RNNs)來達到預期的結果,但難以保證我們關心的對象包含在生成的描述中,例如在圖像中模糊不明顯的對象。一旦在我們關注的對象在訓練中被忽略時,問題就會愈發復雜。因此我們采用在較大規模的數據集上訓練聯合的全局注意力和局部注意力[2],通過注意力機制來關注不同類型的圖像細節,能更好描述抽象事件以及多義性事件,使得圖像描述具有更好的邏輯性,在遇到事件較不明顯的圖像時,能更方便快速地查詢。

1 基于深度學習與聯合注意力的事件描述模型

圖像事件描述模型是一種深度神經網絡模型,主要是由編碼器和解碼器聯合組成,其框架結構圖如圖1所示。在編碼器端采用了Faster R-CNN的RPN網絡和ResNet[4]來提取圖像的視覺特征,解碼器部分利用RNN的LSTM來負責關鍵字提取到句子生成。它們融合了聯合注意力機制來關注局部信息特征,能更好地描述總體圖像信息。

2 圖像事件描述關鍵技術分析

2.1 特征提取模型

在計算機視覺領域,卷積神經網絡被廣泛應用,如圖像分類、目標對象檢測與跟蹤等。CNN由多個卷積層、池化層和全連接層構成,其強大的視覺表達能力可以學習到更高級的視覺特征。視覺特征逐層傳遞在不同的網絡層間,主要學習紋理、顏色和輪廓等低層視覺特征以及由低層視覺特征再組合而成的高層視覺特征。雖然普通的R-CNN在視覺特征表達能力上有了質的飛躍,但對于目前龐大的數據集,其訓練步驟、測試速度依然較慢,且極占空間。在此基礎上,如圖2模型所示,本文采用Faster R-CNN算法[7],同樣用CNN提取圖像的特征得到特征圖,利用RPN網絡得到候選區域,通過ROI pooling得到同等大小的特征后,再送入多分類器,并采用損失函數對位置進行精修調整,從而提高了模型的檢測的速度與準確度。

2.2 基于深度殘差網絡的注意力機制

當網絡層數較低時,不斷加深網絡,有著更好的非線性表達能力,可以學習更加復雜的變換,能更好地擬合特征,更深的網絡層也能學習到更加復雜的表達。但在人們嘗試了將網絡不斷加深后發現,一味地堆疊網絡也可能會導致模型性能更差,即退化問題。深層網絡帶來的梯度不穩定、網絡退化的問題始終都是存在的且無法完全消除,因此引入殘差網絡ResNet,來加快計算速度,減少計算消耗。深度殘差網絡是由殘差模塊共同串聯而成,以殘差深度網絡ResNet 的網絡結構為基礎,在較大規模的數據集上訓練深度更深的網絡,使得深度模型在處理圖像描述任務中的泛化能力更強、魯棒性更好。

注意力機制通過一個小型網絡學習得到一組權值系數,該權值用來評估各個特征通道的重要程度,然后再賦予合適的權重。

基于深度殘差網絡的注意力機制,是將SENet與殘差模塊集成在一起,因跨層恒等路徑的存在,SENet能更加容易得到訓練,且每個樣本都可以有自己獨特的一組權值系數。圖3為殘差模塊與注意力機制結合得到的模型結構。

LSTM[6]屬于特殊的一種遞歸神經網絡(RNNs),RNNs是當前時刻的輸出,與當前時刻輸入和上一刻輸入都相關。在LSTM模型中,對應于一句話中的每個單詞都是平等的,且其中包含遺忘門,會更加傾向記住后輸入的詞匯。全局注意力的目的是在生成一個句向量時能將所有的隱藏狀態也考慮進來,全局注意力機制通過學習來得到一句話中每個單詞的權重。LSTM聯合注意力機制能使生成的描述性語句更具有邏輯性。

在數據集中,基本上都含有噪聲或者冗余信息。廣而言之,在一個樣本中,任何與當前目標檢測任務無關的信息,都可以看作是噪聲或者冗余信息,他們都會對當前識別任務造成不利的影響。而局部注意力機制能讓特征提取出我們所需要的區域,過濾掉其他冗余信息。全局注意力機制是在提取相應的局部特征后,根據權重對所有的“patch”進行學習映射再整合推斷整個圖片的信息。注意力機制使圖片能夠在低解析度或低辨識度的復雜背景下,關注高解析特征的特定候選區域,再逐漸調整焦點,移動到其他特定區域,最后組合進行推斷整張圖片的信息。

3 實驗結果集分析

如圖4所示,圖片由CNN編碼后,帶入到基于注意力機制的Faster R-CNN網絡中,先關注圖片各個局部特征并輸出每個詞的映射關系,再關注圖片整體特征將其整合成句向量。

圖4的圖像素材得到了如圖5所示的具有邏輯性的描述語句,從中可看出,本文方法生成的圖像時間描述較為合理和完備地顯示了圖片信息的動作事件,相較于普通圖像描述,更具準確性,具有明顯優勢。

4 結束語

本文在深度學習與注意力機制的基礎上,在圖像描述中更多的加入抽象的圖像中各物體之間的關系,來達到將一幅或多幅信息較大的圖像壓縮描述為一句話。在CNN和LSTM神經網絡結合的基礎上,通過注意力模型,對計算機獲取的區域紋理、運動方向、圖像色塊等圖像特征進行自動語義描述。總體來說,它是一個基于卷積神經網絡編碼的語言描述系統,便于對圖像或視頻的分享和查找,能在監控、醫學、體育、新聞以及影片視頻片段的語義分析中發揮重要作用。綜上,圖像事件描述方法的研究成果可批量化生產,且具有較大的市場需求,能實現很高的商業價值與社會價值。

參考文獻:

[1] Anderson P, He X, Buehler C, et al. Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2018:6077–6086.

[2] Ranjay K, Kenji H, Frederic R, et al. Dense-Captioning Events in Videos[C]//IEEE International Conference on Computer Vision (ICCV). 2017:706–715.

[3] Xu K, Ba J, Kiros R, et al. Show, Attend and Tell: Neural Image Caption Generation with Visual Attention[C]//International Conference on Machine Learning(ICML). 2015:2048–2057.

[4] Kaiming He,Xiangyu Zhang,Shaoqing Ren. Deep Residual Learning for Image Recognition. 10.1109/CVPR.2016.90.

[5] BoDai SanjaFidler DahuaLin? A Neural Compositional Paradigm for Image Captioning.

[6] 湯華東. 基于LSTM融合多CNN的事件圖像分類研究[D]. 北京交通大學, 2018.

[7] Wu Xiaofeng,Zhang Jiangxin, and Xu Xinchen,Hand Gesture Recognition Algorithm Based on Faster R-CNN, Journal of Computer-Aided Design & Computer Graphics,Vol.30 No.3,Mar. 2018.

【通聯編輯:唐一東】

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構建
面向大數據遠程開放實驗平臺構建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
現代情報(2016年10期)2016-12-15 11:50:53
利用網絡技術促進學生深度學習的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
主站蜘蛛池模板: 91人妻在线视频| 亚洲三级片在线看| 国产精品无码作爱| 好吊色妇女免费视频免费| 夜色爽爽影院18禁妓女影院| 天堂网亚洲系列亚洲系列| 无码'专区第一页| 国产超薄肉色丝袜网站| 精品一区二区无码av| 久久精品国产精品青草app| 久久精品91麻豆| 拍国产真实乱人偷精品| 中文字幕调教一区二区视频| 久久激情影院| 亚洲国产成人自拍| 成人在线第一页| 欧美在线网| 精久久久久无码区中文字幕| 国产主播福利在线观看| 久久天天躁狠狠躁夜夜2020一| 岛国精品一区免费视频在线观看 | 国产成人a在线观看视频| 亚洲国产成人超福利久久精品| 99久久99视频| 性视频一区| 久久综合伊人77777| 99精品高清在线播放| 久久精品无码专区免费| 日本欧美午夜| www.亚洲色图.com| 国产日韩欧美在线播放| 熟妇丰满人妻| 婷婷成人综合| 毛片免费观看视频| 成人在线亚洲| 国产白浆一区二区三区视频在线| 婷婷午夜影院| 波多野结衣视频网站| 性做久久久久久久免费看| 国禁国产you女视频网站| 婷婷六月激情综合一区| 国产本道久久一区二区三区| 日韩高清一区 | 日本a级免费| 美女潮喷出白浆在线观看视频| 久久天天躁狠狠躁夜夜躁| 色综合中文| 久久鸭综合久久国产| 久久精品中文字幕免费| 欧亚日韩Av| 欧美一级特黄aaaaaa在线看片| 欧美日韩另类国产| 国产精品国产三级国产专业不| 亚洲欧美成人综合| 欧美综合在线观看| yy6080理论大片一级久久| 亚洲精品国产综合99久久夜夜嗨| 亚洲区一区| 人妻无码一区二区视频| 国产毛片片精品天天看视频| 久久婷婷五月综合97色| 久久精品中文无码资源站| 国产微拍精品| 免费看a级毛片| 国产国语一级毛片| 午夜电影在线观看国产1区| 午夜成人在线视频| 999在线免费视频| 日本午夜三级| 亚洲精品欧美重口| 久久综合九色综合97网| 无码专区第一页| 67194在线午夜亚洲| 91久久夜色精品国产网站| 亚洲av成人无码网站在线观看| 午夜视频www| 国产国产人成免费视频77777| 久久亚洲国产一区二区| 国产成人h在线观看网站站| 野花国产精品入口| av一区二区无码在线| 日韩a在线观看免费观看|