999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

圖像描述生成方法研究文獻綜述

2019-12-05 08:35:54張姣楊振宇
智能計算機與應用 2019年5期
關(guān)鍵詞:特征提取

張姣 楊振宇

摘 要:隨著人工智能技術(shù)的興起,圖像特征提取技術(shù)和文本自動生成技術(shù)都得到了長足的進步,將兩者結(jié)合的圖像描述生成技術(shù)也越來越受到學術(shù)界和工業(yè)界的重視。圖像到文本生成是一個綜合性問題,涉及自然語言處理和計算機視覺等領(lǐng)域。本文介紹了圖像描述生成技術(shù)的研究背景及國內(nèi)外研究現(xiàn)狀,概述了目前研究者評估生成圖像描述質(zhì)量的圖像數(shù)據(jù)集,對現(xiàn)有模型進行了詳細的分類概括:基于模板的圖像描述生成方法、基于檢索的圖像描述生成方法、基于深度學習的圖像描述生成方法。與此同時一并總結(jié)闡述了該領(lǐng)域面臨的問題和挑戰(zhàn)。

關(guān)鍵詞: 圖像描述;文本生成;特征提取;計算機視覺

【Abstract】 Image caption generation technology is used in many fields such as news communication, smart transportation, smart home and smart medical. Therefore, this technology has important academic and practical value. Image-to-text generation is a comprehensive problem involving areas such as natural language processing and computer vision. This paper introduces the research background of image caption generation technology and the research status at home and abroad, and summarizes the current image datasets that researchers evaluate to generate quality of the image caption. The existing models are classified and summarized in detail: template-based image caption generation method, retrieval-based image caption generation method and deep-learning-based image caption generation method. It also summarizes the problems and challenges which the field is facing.

【Key words】 ?image caption; text generation; feature extraction; computer vision

0 引 言

0.1 研究背景

大數(shù)據(jù)時代的到來使人工智能產(chǎn)品不斷進入人們的視野。圖像描述生成技術(shù)的產(chǎn)生為計算機從圖像中快速獲取信息帶來了新的發(fā)展和應用前景。

圖像描述生成技術(shù)與圖像語義分析、圖像標注和圖像高級語義提取等技術(shù)緊密相關(guān)。圖像描述生成技術(shù)是計算機自動為圖像生成一個完整、通順的描述語句。大數(shù)據(jù)背景下的圖像描述生成技術(shù)在商業(yè)領(lǐng)域有著廣泛的應用。如購物軟件中用戶輸入關(guān)鍵字快速地搜索出符合要求的商品;用戶在搜索引擎中進行的圖片搜索;視頻中多事物目標的識別、醫(yī)學圖像專業(yè)的自動語義標注以及自動駕駛中目標物體的識別等。如何在計算機中更有效、準確、快速地實現(xiàn)這一過程即是本文的研發(fā)課題。

從圖像描述生成的發(fā)展過程[1]來看,可以分為3個主要發(fā)展階段:基于模板的圖像描述生成方法;基于檢索的圖像描述生成方法;基于深度學習的圖像描述生成方法。

0.2 國內(nèi)外研究現(xiàn)狀

結(jié)合國內(nèi)外研究人員對圖像描述生成方法的研究以及各個階段所采用的不同關(guān)鍵技術(shù),可將圖像描述的方法分為3類。對此可做分析闡述如下。

(1)基于模板的圖像描述生成方法。該方法[2]利用圖像標注技術(shù)為物體、物體場景以及組成部分進行標注[3]。選擇與圖像內(nèi)容描述場景相關(guān)的句子作為表達模板,將提取的圖像特征填入模板,繼而得到圖像的描述句子。概率圖模型方法[4]對文本信息和圖像信息建立模型,可從文本數(shù)據(jù)集中挑選合適的關(guān)鍵詞,將其作為體現(xiàn)圖像描述內(nèi)容的關(guān)鍵詞,利用語言模型技術(shù)[5-7]將選取的內(nèi)容關(guān)鍵詞組合為合乎語法規(guī)則習慣的英文句子。該方法的研究雖然能夠描述圖像內(nèi)容,但是在一定程度上限制了描述語句的多樣性,使生成的描述不夠靈活、新穎。

(2)基于檢索的圖像描述生成方法。該方法探尋文本與圖像之間的關(guān)聯(lián)[8-9],把文本和圖像映射到一個共同語義空間。結(jié)合相似度[10-11]的計算方法,對圖像內(nèi)容和文本意義的關(guān)系程度進行排名,檢索出和測試圖像關(guān)系最接近的文本作為測試圖像的最終文本描述。該方法把生成圖像描述看作是一種檢索任務,但檢索前都需要調(diào)整和泛化過程,這無疑給描述任務又增加了處理過程和復雜度。

(3)基于深度學習的圖像描述生成方法。目前主流的深度學習模型是端到端的訓練方法。一方面采用多層深度卷積神經(jīng)網(wǎng)絡(luò)技術(shù)對圖像中的物體特征概念建立模型;另一方面采用循環(huán)神經(jīng)網(wǎng)絡(luò)對文本建立模型。運用循環(huán)神經(jīng)網(wǎng)絡(luò)[12-15]進行建模,將文本信息與圖像信息映射在同一個循環(huán)神經(jīng)網(wǎng)絡(luò)中,利用圖像信息指導文本句子的生成。隨著深度學習的研究進展,基于注意力機制和強化學習改進的研究方法[16-20]相繼涌現(xiàn),并不斷推動圖像描述生成模型的發(fā)展。該方法沒有任何模板、規(guī)則的約束,能自動推斷出測試圖像和其相應的文本,自動地從大量的訓練集中去學習圖像和文本信息,生成更靈活、更新穎的文本描述,還能描述從未見過的圖像內(nèi)容特征。

1 數(shù)據(jù)集

大量免費公開的數(shù)據(jù)集用于圖像描述研究,這些數(shù)據(jù)集中的圖像與文本描述相關(guān)聯(lián),某些方面彼此不同,例如大小、描述的格式和描述詞的長短。多種數(shù)據(jù)集信息匯總見表1。

表1中,F(xiàn)lickr8K數(shù)據(jù)集及其擴展版本Flickr30K數(shù)據(jù)集包含來自Flickr的圖像,分別包含約8 000和30 000幅圖像。這2個數(shù)據(jù)集中的圖像是針對特定對象和動作的。這些數(shù)據(jù)集包含5個描述句子,每個圖像是工作人員采用類似于Pascal1K數(shù)據(jù)集的策略收集的。

MSCOCO數(shù)據(jù)集包括123 287幅圖像,每幅圖像均可給出5個不同的描述。此數(shù)據(jù)集中的圖像包括80個對象類別,所有圖像都可以使用這些類別中的所有實例。該數(shù)據(jù)集已被廣泛用于圖像描述,目前有研究者正在開發(fā)MSCOCO的擴展,包括增加問題和答案。

Flickr30K和MSCOCO數(shù)據(jù)集舉例如圖1所示。

基于強化學習的研究方法是近期智能控制領(lǐng)域應用最廣的方法。Liu等人提出的基于強化學習的策略梯度的圖像描述方法,根據(jù)值函數(shù)對策略進行改進,選取最優(yōu)策略。經(jīng)過實驗證明該方法生成的描述質(zhì)量優(yōu)于傳統(tǒng)方法。深度強化學習[24-26]的融合極大地推動了圖像描述生成的效果。將強化學習的獎懲機制[27]引入圖像字幕任務中,可以通過抽取字幕來優(yōu)化句子級評價標準,利用“策略網(wǎng)絡(luò)”和“價值網(wǎng)絡(luò)”[28]來共同預測每個時間步中的下一個單詞。

基于深度學習的圖像描述生成的主流是端到端的訓練方法,生成的描述語句具有多樣性,不依賴于單一的語言模板。不僅結(jié)構(gòu)清晰明確、容易理解,而且訓練速度和生成效果相當突出。

3 圖像描述的挑戰(zhàn)與難點

圖像描述生成技術(shù)的研究經(jīng)歷了多個發(fā)展階段并漸趨成熟,而且也已取得突破性的進步。深度學習技術(shù)的發(fā)展為圖像描述領(lǐng)域打開一個新的局面。雖然圖像描述生成技術(shù)表現(xiàn)出了強大的研發(fā)能力,但仍存在一定問題亟待解決,對此可做分述如下。

(1)描述文本信息的不完整。視覺特征的提取是生成圖像文本描述的重要基礎(chǔ),包括圖像類別、場景、對象及對象關(guān)系等。這些都依賴于目前還不成熟的計算機視覺技術(shù)。所以圖像的視覺特征提取關(guān)鍵技術(shù)的提高是有待解決的關(guān)鍵問題和難點。

(2)復雜圖像關(guān)注點的選取。圖像中常存在多義和不確定的事物、隱式和顯式的信息,如何充分利用圖像特征和文本信息的融合特征,有效進行圖像關(guān)注點的選取是圖像描述中仍待解決的關(guān)鍵問題和難點。

(3)圖像描述的泛化能力較低。從以往的研究中可以看出,對于同一個圖像數(shù)據(jù)集中的圖片進行測試時,效果往往是令人滿意的。但是當采用隨機的圖片進行測試時,效果并不盡如人意。所以圖像描述的泛化能力的提高是尚待解決的難題。

4 結(jié)束語

圖像描述生成技術(shù)已廣泛應用于新聞傳播、智慧交通、智能家居、智能醫(yī)療等眾多領(lǐng)域,現(xiàn)已成為各大頂尖科研機構(gòu)綜合研究實力的較量方式之一。

本文簡述了圖像描述生成任務的研究背景以及國內(nèi)外研究現(xiàn)狀;討論了基于模板的圖像描述生成方法、基于檢索的圖像描述生成方法和基于深度學習的圖像描述生成方法。綜前論述可以發(fā)現(xiàn),圖像描述生成技術(shù)正在向著更復雜、更靈活、更智能的方向發(fā)展。

針對圖像描述面臨的挑戰(zhàn)與問題,未來可考慮結(jié)合更復雜的多任務或注意力機制,充分融合圖像特征和語言特征向量。在圖像描述文本信息不完整的問題上可考慮3D建模的方式對原2D數(shù)據(jù)進行映射處理,圖像描述技術(shù)還可融入深度強化學習,使用無監(jiān)督自主學習模型,在減少耗費資源的情況下,提升圖像描述的性能。

參考文獻

[1]HELMUT H. Building natural language generation systems[J]. Artificial Intelligence in Medicine,2001,22(3):277-280.

[2]YAO B Z, YANG Xiong, LIN Liang, et al. Image2text: Image parsing to text description[J]. Proceedings of the IEEE,2010,98(8): 1485-1508.

[3]郭喬進,丁軼,李寧. 基于關(guān)鍵詞的圖像標注綜述[J].計算機工程與應用,2011,47(30):155-158.

[4]FENG Yansong, LAPATA M. How many words is a picture worth? Automatic caption generation for news images [C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Uppsala, Sweden:ACL, 2010: 1239-1249.

[5]康瑩瑩.新聞圖像內(nèi)容與字幕文本協(xié)同識別與檢索方法研究[D].哈爾濱:哈爾濱工業(yè)大學,2012.

[6]LIT L, PELICAN E. A low-rank tensor-based algorithm for face recognition[J]. Applied Mathematical Modelling, 2015, 39(3):1266-1274.

[7]KULKARNI G, PREMRAJ V, DHAR S, et al. Babytalk: Understanding and generating simple image descriptions[C]//2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Colorado Springs, Co, USA:IEEE,2011,35(12):1601-1608.

[8]MITCHELL M, HAN Xufeng, DODGE J, et al. Midge: Generating image descriptions from computer vision detections [C]//Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics. Avignon,F(xiàn)rance:ACL, 2012:747-756.

[9]ELLIOTT D, KELLER F. Image description using visual dependency representations [C]//Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. Seattle, Washington, USA:ACL, 2013:1292-1302.

[10]HODOSH M, YOUNG P, HOCKENMAIER J. Framing image description as a ranking task: Data, models and evaluation metrics [J]. Journal of Artificial Intelligence Research, 2013,47(1): 853-899.

[11]KARPATHY A, LI Feifei.Deep visual-semantic alignments for generating image descriptions [C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, MA, USA:IEEE,2015:3128-3137.

[12]SOCHER R, KARPATHY A, LE Q V,et al. Grounded compositional semantics for finding and describing images with sentences[J]. Transactions of the Association for Computational Linguistics (TACL) , 2014,2:207-218.

[13]CHEN X, ZITNICK C L. Minds eye: A recurrent visual representation for image caption generation [C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston,MA, USA:IEEE, 2015:2422-2431.

[14]MAO Junhua, XU Wei, YANG Yi, et al. Deep captioning with multimodal recurrent neural networks (m-RNN)[J]. arXiv preprint arXiv:1412.6632, 2014.

[15]XU Hongteng, WANG Wenlin, LIU Wei, et al. Distilled Wasserstein learning for word embedding and topic modeling [C]// 32nd Conference on Neural Information Processing Systems (NIPS) 31. Montréal, Canada:[s.n.], 2018:1-10.

[16]XU K, BA J, KIROS R, et al. Show, attend and tell: Neural image caption generation with visual attention[C]//32nd International Conference on Machine Learning. Lille, France:dblp,2015:2048-2057.

[17]陳強普.面向圖像描述的深度神經(jīng)網(wǎng)絡(luò)模型研究[D].重慶:重慶大學,2017.

[18]申永飛. 圖像描述文本自動生成方法研究[D].重慶:重慶大學,2017.

[19]陳龍杰,張鈺,張玉梅,等.基于多注意力多尺度特征融合的圖像描述生成算法[J].計算機應用,2017,39(2):354-359.

[20]陳晨.基于深度學習及知識挖掘的零樣本圖像分類[D].北京:中國礦業(yè)大學,2016.

[21]SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of Go with deep neural networks and tree search[J].Nature,2016,529(7587):484-489.

[22]XU K, BA J, COURVILLE R, et al. Show, attend and tell: Neural image caption generation with visual attention[J]. arXiv preprint arXiv:1502.03044v1,2015.

[23]VINYALS O, TOSHEV A, BENGIO S, et al. Show and tell: A neural image caption generator[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR),Boston, MA, USA:IEEE,2015,1: 3156-3164.

[24]LEIBFRIED F, TUTUNOV R, VRANCX P, et al. Model-based stabilisation of deep reinforcement learning[J]. arXiv preprint arXiv:1809.01906v1,2018.

[25]WANG Pin, CHAN C Y, LI Hanhan. Maneuver control based on reinforcement learning for automated vehicles in an interactive environment[J].arXiv preprint arXiv:1803.09200,2018.

[26]WANG Jing, FU Jianlong, TANG Jinhui, et al. Show, reward and tell: Automatic generation of narrative paragraph from photo stream by adversarial training[C]// Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence. New Orleans,Louisiana,USA:AAAI,2018:7396-7403.

[27]LIU Xihui, LI Hongsheng, SHAO Jing, et al. Show, tell and discriminate: Image captioning by self-retrieval with partially Labeled data[M]//FERRARI V, HEBERT M, SMININCHISESCU C, et al. Computer Vision-ECCV 2018. Lecture Notes in Computer Science. Cham:Springer, 2018,11219:353-369.

[28]REN Zhou, WANG Xiaoyu, ZHANG Ning, et al. Deep reinforcement learning-based image captioning with embedding reward[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu, HI, USA:IEEE,2017:1151-1159.

猜你喜歡
特征提取
特征提取和最小二乘支持向量機的水下目標識別
基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
基于DNN的低資源語音識別特征提取技術(shù)
自動化學報(2017年7期)2017-04-18 13:41:09
Bagging RCSP腦電特征提取算法
一種基于LBP 特征提取和稀疏表示的肝病識別算法
基于DSP的直線特征提取算法
基于改進WLD的紋理特征提取方法
計算機工程(2015年4期)2015-07-05 08:28:02
淺析零件圖像的特征提取和識別方法
機電信息(2015年3期)2015-02-27 15:54:46
基于CATIA的橡皮囊成形零件的特征提取
主站蜘蛛池模板: 亚洲视频在线网| 婷婷色狠狠干| 欧美不卡视频一区发布| 伊人蕉久影院| 成人福利在线免费观看| 欧美一级一级做性视频| 欧美专区日韩专区| 免费可以看的无遮挡av无码| 色偷偷一区| 久久精品中文字幕少妇| 天天做天天爱天天爽综合区| 波多野结衣中文字幕一区二区| 中文字幕1区2区| 欧美特黄一级大黄录像| 亚洲中文字幕在线精品一区| 国产精品高清国产三级囯产AV| 午夜精品国产自在| 无码网站免费观看| 毛片在线看网站| 人妻精品全国免费视频| 国产成人三级| 亚洲欧美在线看片AI| a在线观看免费| 久久国产V一级毛多内射| 国产精品亚洲天堂| 三级视频中文字幕| 亚洲一区免费看| 亚洲男人的天堂在线观看| 亚洲欧美一区二区三区图片 | 国产精品免费久久久久影院无码| 人妻出轨无码中文一区二区| 伊大人香蕉久久网欧美| 欧美无专区| 成人综合网址| 亚洲毛片在线看| 亚洲国产精品日韩专区AV| 亚洲有码在线播放| 国产成人你懂的在线观看| 四虎成人免费毛片| 国产在线精品99一区不卡| 亚洲欧美另类视频| 极品国产在线| 成人免费午夜视频| 国产成人无码AV在线播放动漫| 91久久天天躁狠狠躁夜夜| 午夜在线不卡| 五月天香蕉视频国产亚| 欧美日韩国产高清一区二区三区| 久久无码高潮喷水| 亚洲欧美日韩精品专区| 五月天天天色| 97久久精品人人| 成年网址网站在线观看| 91无码视频在线观看| 中文字幕在线欧美| 国产永久免费视频m3u8| 中文字幕自拍偷拍| 她的性爱视频| 亚洲国产av无码综合原创国产| 丰满人妻被猛烈进入无码| 欧美日本在线观看| 欧美综合在线观看| 亚洲一区毛片| 亚洲中文字幕23页在线| 亚洲综合婷婷激情| 国产成人久视频免费| 狠狠躁天天躁夜夜躁婷婷| 国产一在线| 久久久久久久蜜桃| 不卡视频国产| 国产精品自在拍首页视频8| 19国产精品麻豆免费观看| 成人91在线| 五月婷婷精品| 国产毛片不卡| 91午夜福利在线观看| 一级不卡毛片| 欧洲在线免费视频| 欧美成人综合在线| 久久香蕉国产线| 国产www网站| 久一在线视频|