999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度殘差注意力的圖像事件描述

2021-04-13 20:07:30張欣怡李永剛季興隆孫紅蓮
電腦知識與技術 2021年5期
關鍵詞:深度學習

張欣怡 李永剛 季興隆 孫紅蓮

摘要:圖像事件描述是根據圖像特征數據再結合自然語言處理技術,輸出圖像事件的語句描述的技術。圖像事件的描述,對圖片分類、查詢等有著極高效率,為了達到更精確的描述效果,本文提出基于深度殘差注意力的圖像事件描述方法。該方法以ResNet的網絡結構為基礎,聯合分離出的全局注意力與局部注意力,關注圖像事件中心事件,生成圖像事件描述。在COCO數據集上的實驗表明,本文提出的方法能更好關注事件發生區域,對抽象事件描述更為準確。

關鍵詞:圖像事件描述;深度學習;注意力機制

Abstract: Image event description is a technology that outputs sentence descriptions of image events based on image feature data combined with natural language processing technology. The description of image events has extremely high efficiency for image classification and query. In order to achieve a more accurate description effect, this paper proposes an image event description method based on deep residual attention. Based on the network structure of ResNet, this method combines the separated global attention and local attention, focuses on the central event of the image event, and generates the image event description. Experiments on the COCO data set show that the method proposed in this paper can better focus on the event occurrence area and describe abstract events more accurately.

Key words: image event description; deep learning; attention mechanism

在過去圖像描述研究中,主要采用傳統產生式模型,把圖像與文本作為輸入輸出數據,通過尋找底層特征與標簽之間的相關性轉換成相關語義信息。本文在前人圖像描述研究的基礎上,將基于產生式模型的深度學習方法應用到圖像邏輯語義描述問題上。

Faster-RCNN模型是在CNN模型[1]的基礎上,能夠更加快速更加高效地獲取圖像對象的候選區域,速度更快,準確率更高,能有效解決因為網絡疊加許多層厚帶來的性能快速下降問題[5]。早期的人工語義分析缺點多,耗時、費力、不能成批分析。雖然現有的圖像描述模型可以使用神經網絡(RNNs)來達到預期的結果,但難以保證我們關心的對象包含在生成的描述中,例如在圖像中模糊不明顯的對象。一旦在我們關注的對象在訓練中被忽略時,問題就會愈發復雜。因此我們采用在較大規模的數據集上訓練聯合的全局注意力和局部注意力[2],通過注意力機制來關注不同類型的圖像細節,能更好描述抽象事件以及多義性事件,使得圖像描述具有更好的邏輯性,在遇到事件較不明顯的圖像時,能更方便快速地查詢。

1 基于深度學習與聯合注意力的事件描述模型

圖像事件描述模型是一種深度神經網絡模型,主要是由編碼器和解碼器聯合組成,其框架結構圖如圖1所示。在編碼器端采用了Faster R-CNN的RPN網絡和ResNet[4]來提取圖像的視覺特征,解碼器部分利用RNN的LSTM來負責關鍵字提取到句子生成。它們融合了聯合注意力機制來關注局部信息特征,能更好地描述總體圖像信息。

2 圖像事件描述關鍵技術分析

2.1 特征提取模型

在計算機視覺領域,卷積神經網絡被廣泛應用,如圖像分類、目標對象檢測與跟蹤等。CNN由多個卷積層、池化層和全連接層構成,其強大的視覺表達能力可以學習到更高級的視覺特征。視覺特征逐層傳遞在不同的網絡層間,主要學習紋理、顏色和輪廓等低層視覺特征以及由低層視覺特征再組合而成的高層視覺特征。雖然普通的R-CNN在視覺特征表達能力上有了質的飛躍,但對于目前龐大的數據集,其訓練步驟、測試速度依然較慢,且極占空間。在此基礎上,如圖2模型所示,本文采用Faster R-CNN算法[7],同樣用CNN提取圖像的特征得到特征圖,利用RPN網絡得到候選區域,通過ROI pooling得到同等大小的特征后,再送入多分類器,并采用損失函數對位置進行精修調整,從而提高了模型的檢測的速度與準確度。

2.2 基于深度殘差網絡的注意力機制

當網絡層數較低時,不斷加深網絡,有著更好的非線性表達能力,可以學習更加復雜的變換,能更好地擬合特征,更深的網絡層也能學習到更加復雜的表達。但在人們嘗試了將網絡不斷加深后發現,一味地堆疊網絡也可能會導致模型性能更差,即退化問題。深層網絡帶來的梯度不穩定、網絡退化的問題始終都是存在的且無法完全消除,因此引入殘差網絡ResNet,來加快計算速度,減少計算消耗。深度殘差網絡是由殘差模塊共同串聯而成,以殘差深度網絡ResNet 的網絡結構為基礎,在較大規模的數據集上訓練深度更深的網絡,使得深度模型在處理圖像描述任務中的泛化能力更強、魯棒性更好。

注意力機制通過一個小型網絡學習得到一組權值系數,該權值用來評估各個特征通道的重要程度,然后再賦予合適的權重。

基于深度殘差網絡的注意力機制,是將SENet與殘差模塊集成在一起,因跨層恒等路徑的存在,SENet能更加容易得到訓練,且每個樣本都可以有自己獨特的一組權值系數。圖3為殘差模塊與注意力機制結合得到的模型結構。

LSTM[6]屬于特殊的一種遞歸神經網絡(RNNs),RNNs是當前時刻的輸出,與當前時刻輸入和上一刻輸入都相關。在LSTM模型中,對應于一句話中的每個單詞都是平等的,且其中包含遺忘門,會更加傾向記住后輸入的詞匯。全局注意力的目的是在生成一個句向量時能將所有的隱藏狀態也考慮進來,全局注意力機制通過學習來得到一句話中每個單詞的權重。LSTM聯合注意力機制能使生成的描述性語句更具有邏輯性。

在數據集中,基本上都含有噪聲或者冗余信息。廣而言之,在一個樣本中,任何與當前目標檢測任務無關的信息,都可以看作是噪聲或者冗余信息,他們都會對當前識別任務造成不利的影響。而局部注意力機制能讓特征提取出我們所需要的區域,過濾掉其他冗余信息。全局注意力機制是在提取相應的局部特征后,根據權重對所有的“patch”進行學習映射再整合推斷整個圖片的信息。注意力機制使圖片能夠在低解析度或低辨識度的復雜背景下,關注高解析特征的特定候選區域,再逐漸調整焦點,移動到其他特定區域,最后組合進行推斷整張圖片的信息。

3 實驗結果集分析

如圖4所示,圖片由CNN編碼后,帶入到基于注意力機制的Faster R-CNN網絡中,先關注圖片各個局部特征并輸出每個詞的映射關系,再關注圖片整體特征將其整合成句向量。

圖4的圖像素材得到了如圖5所示的具有邏輯性的描述語句,從中可看出,本文方法生成的圖像時間描述較為合理和完備地顯示了圖片信息的動作事件,相較于普通圖像描述,更具準確性,具有明顯優勢。

4 結束語

本文在深度學習與注意力機制的基礎上,在圖像描述中更多的加入抽象的圖像中各物體之間的關系,來達到將一幅或多幅信息較大的圖像壓縮描述為一句話。在CNN和LSTM神經網絡結合的基礎上,通過注意力模型,對計算機獲取的區域紋理、運動方向、圖像色塊等圖像特征進行自動語義描述。總體來說,它是一個基于卷積神經網絡編碼的語言描述系統,便于對圖像或視頻的分享和查找,能在監控、醫學、體育、新聞以及影片視頻片段的語義分析中發揮重要作用。綜上,圖像事件描述方法的研究成果可批量化生產,且具有較大的市場需求,能實現很高的商業價值與社會價值。

參考文獻:

[1] Anderson P, He X, Buehler C, et al. Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2018:6077–6086.

[2] Ranjay K, Kenji H, Frederic R, et al. Dense-Captioning Events in Videos[C]//IEEE International Conference on Computer Vision (ICCV). 2017:706–715.

[3] Xu K, Ba J, Kiros R, et al. Show, Attend and Tell: Neural Image Caption Generation with Visual Attention[C]//International Conference on Machine Learning(ICML). 2015:2048–2057.

[4] Kaiming He,Xiangyu Zhang,Shaoqing Ren. Deep Residual Learning for Image Recognition. 10.1109/CVPR.2016.90.

[5] BoDai SanjaFidler DahuaLin? A Neural Compositional Paradigm for Image Captioning.

[6] 湯華東. 基于LSTM融合多CNN的事件圖像分類研究[D]. 北京交通大學, 2018.

[7] Wu Xiaofeng,Zhang Jiangxin, and Xu Xinchen,Hand Gesture Recognition Algorithm Based on Faster R-CNN, Journal of Computer-Aided Design & Computer Graphics,Vol.30 No.3,Mar. 2018.

【通聯編輯:唐一東】

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構建
面向大數據遠程開放實驗平臺構建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
現代情報(2016年10期)2016-12-15 11:50:53
利用網絡技術促進學生深度學習的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
主站蜘蛛池模板: 无码日韩人妻精品久久蜜桃| 欧美亚洲国产一区| 久久亚洲国产视频| 蜜臀av性久久久久蜜臀aⅴ麻豆| 99久久精品久久久久久婷婷| 国产天天色| 欧美精品成人| 国产大片喷水在线在线视频| 黄色网页在线播放| 毛片免费在线视频| 亚洲无码高清免费视频亚洲| 欧美成在线视频| 激情网址在线观看| 99视频在线免费看| 国产毛片高清一级国语 | 亚洲区第一页| 热思思久久免费视频| 热九九精品| 亚洲v日韩v欧美在线观看| 亚洲一区二区无码视频| 欧美性爱精品一区二区三区| 欧美高清三区| 久久情精品国产品免费| 国模在线视频一区二区三区| 亚洲国产精品一区二区高清无码久久| 欧美专区在线观看| 在线国产欧美| 97免费在线观看视频| 欧洲成人在线观看| 国产精品亚欧美一区二区三区| 亚洲精品人成网线在线| 亚洲欧美日韩精品专区| 四虎影视8848永久精品| 91视频首页| 国产免费久久精品44| 国产香蕉一区二区在线网站| 麻豆a级片| 人妖无码第一页| 成人国产小视频| 国产精品一区二区久久精品无码| 亚洲欧美在线综合图区| 日本91视频| 亚洲精品视频免费| 日韩小视频在线播放| 欧洲高清无码在线| 国产成人无码播放| 青青青视频免费一区二区| 日韩欧美色综合| 色婷婷电影网| 国产自产视频一区二区三区| 色综合天天娱乐综合网| 国产在线精彩视频二区| 亚洲AV无码一区二区三区牲色| 精品少妇三级亚洲| 99这里只有精品在线| 三上悠亚在线精品二区| 精品三级网站| 毛片大全免费观看| 精品国产成人三级在线观看| 热久久综合这里只有精品电影| 毛片网站免费在线观看| 亚洲欧州色色免费AV| 久无码久无码av无码| 欧美日韩国产高清一区二区三区| 欲色天天综合网| 玩两个丰满老熟女久久网| 91青青视频| 日韩免费毛片| 久久中文电影| 亚洲成a人片在线观看88| 天天色天天操综合网| 亚洲男人的天堂久久精品| 成人综合久久综合| 国产va视频| 亚洲第一福利视频导航| 午夜一区二区三区| 一本久道热中字伊人| 成人噜噜噜视频在线观看| 二级特黄绝大片免费视频大片| 亚洲美女久久| 亚洲第一网站男人都懂| 欧美日韩福利|