999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于ResNet和LSTM的圖像描述生成效果優(yōu)化研究

2020-08-04 20:30:40岳毅然李霆鋒陳鑫銳李煜
數(shù)碼世界 2020年7期

岳毅然 李霆鋒 陳鑫銳 李煜

摘要:本文基于殘差網(wǎng)絡(luò)和長(zhǎng)短期記憶網(wǎng)絡(luò),利用AI Challenger圖像中文描述挑戰(zhàn)賽的數(shù)據(jù)集,借助前人的研究基礎(chǔ),對(duì)圖像描述模型的網(wǎng)絡(luò)結(jié)構(gòu)及參數(shù)進(jìn)行優(yōu)化和改進(jìn),并加以對(duì)比試驗(yàn),通過恰當(dāng)?shù)脑u(píng)價(jià)指標(biāo)探究模型網(wǎng)絡(luò)結(jié)構(gòu)對(duì)圖像語義信息處理和描述匹配生成效果的影響,為提升標(biāo)注準(zhǔn)確度、流暢度提供參考依據(jù)。

關(guān)鍵詞:圖像描述? 深度殘差網(wǎng)絡(luò)? 長(zhǎng)短期記憶網(wǎng)絡(luò)

前言

近年來,隨著深度學(xué)習(xí)在CV(Computer Vision,計(jì)算機(jī)視覺)和NLP(Natural Language Processing,自然語言處理)領(lǐng)域的發(fā)展和智能科學(xué)技術(shù)的突破,深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)成為了人工智能領(lǐng)域的熱點(diǎn)話題。其中,深度殘差網(wǎng)絡(luò)(Deep Residual Networks,ResNet)是卷積神經(jīng)網(wǎng)絡(luò)模型算法中最典型、最成功的算法之一,它是應(yīng)用最為廣泛的特征提取網(wǎng)絡(luò),具有權(quán)值共享、稀疏連接、網(wǎng)絡(luò)結(jié)構(gòu)更類似于生物神經(jīng)網(wǎng)絡(luò)等特點(diǎn)。

圖像描述——看圖說話(Image Caption)任務(wù)是結(jié)合計(jì)算機(jī)視覺CV和自然語言處理NLP兩個(gè)領(lǐng)域的一種比較綜合的任務(wù),Image Caption模型的輸入是一幅圖像,輸出是對(duì)該幅圖像進(jìn)行描述的一段文字。這項(xiàng)任務(wù)要求模型可以識(shí)別圖片中的物體、理解物體間的關(guān)系,并用一句自然語言表達(dá)出來。圖像描述在搜索引擎優(yōu)化、自動(dòng)配字、視障輔助閱讀等廣泛領(lǐng)域有著較高的應(yīng)用價(jià)值。

AI Challenger圖像中文描述挑戰(zhàn)賽數(shù)據(jù)集是目前規(guī)模最大、語言使用和場(chǎng)景最為豐富的圖片中文描述數(shù)據(jù)集,涵蓋了超過100種復(fù)雜生活場(chǎng)景的含有人物的二十萬張帶有標(biāo)注處理的圖片,其場(chǎng)景復(fù)雜度、人物動(dòng)作復(fù)雜度、身體遮擋情況都高于現(xiàn)有的其他數(shù)據(jù)集;而且,此數(shù)據(jù)集的語言描述標(biāo)注更符合中文語言使用習(xí)慣。相對(duì)于Flickr8k-CN等傳統(tǒng)數(shù)據(jù)集,該數(shù)據(jù)集創(chuàng)新性的引入了中文成語,用以修飾圖片中的主要人物及背景事件,大大提升了描述語句的豐富度。

本文基于深度殘差網(wǎng)絡(luò)和長(zhǎng)短期記憶網(wǎng)絡(luò)在圖像描述算法模型的應(yīng)用研究,對(duì)傳統(tǒng)的ResNet與LSTM模型進(jìn)行優(yōu)化,改進(jìn)圖片語義信息特征提取、描述語義數(shù)據(jù)的預(yù)處理效果,在AI Challenger圖像中文描述挑戰(zhàn)賽數(shù)據(jù)集上驗(yàn)證準(zhǔn)確率和有效性。本文主要從圖像信息處理、描述數(shù)據(jù)處理、語句生成三個(gè)部分進(jìn)行參數(shù)優(yōu)化和網(wǎng)絡(luò)結(jié)構(gòu)研究。對(duì)整體網(wǎng)絡(luò)的卷積核、層數(shù)、批大小、學(xué)習(xí)率、分詞模型等參數(shù)或結(jié)構(gòu)進(jìn)行優(yōu)化,并針對(duì)全連接層傳遞效率較低、干擾到卷積層提取出的局部特征、收斂速率較低等問題,對(duì)傳統(tǒng)的ResNet模型進(jìn)行改進(jìn)。

1 模型介紹

本研究的模型基于文獻(xiàn)[1]的研究結(jié)果,輸入分為圖像和描述兩部分,圖片經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)提取全連接層的輸入(2048維的向量)然后利用全連接層轉(zhuǎn)化成256維的向量。由此將圖像的語意空間轉(zhuǎn)化到了詞向量的語意空間。描述經(jīng)過嵌入層(Embedding)轉(zhuǎn)化成256維的向量。而后將上述得到的256維向量拼接在一起,輸入LSTM中,計(jì)算每個(gè)詞的輸出,根據(jù)輸出進(jìn)行分類,預(yù)測(cè)下一個(gè)詞。完整的流程框架如圖1-1所示。

數(shù)據(jù)的預(yù)處理主要分為圖像預(yù)處理和描述預(yù)處理兩部分。圖像預(yù)處理即提取圖像特征,將圖片輸入ResNet網(wǎng)絡(luò),將最后一層替換成一個(gè)恒等映射,獲得在池化層的輸出(即全連接層的輸入,2048維的向量)。

2 實(shí)驗(yàn)過程與效果

2.1圖片語義信息

圖片語義信息部分中,我們分別使用三種層數(shù)的深度殘差網(wǎng)絡(luò):ResNet 50、ResNet 101、ResNet 150。其三者的基本結(jié)構(gòu)如圖2-1所示。

在修改與調(diào)整中,控制變量訓(xùn)練批次大小(epoch)為20,更改采用的模型以及對(duì)應(yīng)的參數(shù)和維度量等,其他保持不變,樣例如圖2-2所示。實(shí)驗(yàn)表明,本文使用深度殘差網(wǎng)絡(luò)解決了增加深度而帶來的退化問題,從而使增加網(wǎng)絡(luò)深度后的網(wǎng)絡(luò)性能顯著提高。隨著層數(shù)的增加,圖片特征提取效果逐漸上升,語句生成更加順暢、貼合實(shí)際。

2.2描述數(shù)據(jù)處理

在描述數(shù)據(jù)的預(yù)處理部分,本文通過優(yōu)化描述數(shù)據(jù)處理步驟中的參數(shù),優(yōu)化得到的caption.pth,減少模型訓(xùn)練時(shí)間和不必要的計(jì)算。主要方式有以下幾種:

(1)丟棄低頻詞(如圖2-3所示):估算得到高頻詞與低頻詞分界公式,將min_appear定為10,減小word2ix,減少訓(xùn)練時(shí)間。

(2)詞語長(zhǎng)度限制:為保證整體效率,本文選擇丟棄長(zhǎng)度過長(zhǎng)的詞組。

(3)padding平均化句長(zhǎng):將不同長(zhǎng)度的句子變成同樣長(zhǎng)度,設(shè)置max_length為30,更加貼合實(shí)際需要。

(4)用pack padded sequence函數(shù)對(duì)padding后的序列進(jìn)行操作(如圖2-4所示):經(jīng)過padding操作序列中與許多空白填充值,在計(jì)算RNN隱藏元時(shí)也會(huì)進(jìn)行不必要的計(jì)算,更可能會(huì)影響隱藏元的取值。于是針對(duì)不同長(zhǎng)度的句子,我們按長(zhǎng)度進(jìn)行排序并記錄每個(gè)句子長(zhǎng)短。對(duì)不同的句子,padding成一樣的長(zhǎng)度。將上一步的Variable和樣本長(zhǎng)度輸入pack padded sequence函數(shù),會(huì)輸出一個(gè)Packed Sequence對(duì)象,這個(gè)對(duì)象即可輸入到LSTM模型中。

經(jīng)過實(shí)驗(yàn),我們發(fā)現(xiàn)描述數(shù)據(jù)處理的優(yōu)化對(duì)實(shí)驗(yàn)結(jié)果沒有顯著的影響,但是減少了不必要的計(jì)算,減少了大量模型的訓(xùn)練時(shí)間。

2.3模型訓(xùn)練與描述生成

描述語句的生成部分本文選取了一個(gè)RNN網(wǎng)絡(luò),模型中的組成成分有兩個(gè)全連接(linear)層:一個(gè)嵌入(embedding)層和一個(gè)LSTM(RNN)層。其中,LSTM層是Image Caption問題中典型的decoder,用于解碼和生成詞序列。本文在保證收斂性的情況下,保持最佳學(xué)習(xí)率,調(diào)節(jié)了優(yōu)化器的種類,以獲取正確的語句生成效果和更快的訓(xùn)練速度。樣例如圖2-5所示。

3 結(jié)論

通過對(duì)上述實(shí)驗(yàn)數(shù)據(jù)的整理分析,結(jié)合相關(guān)文獻(xiàn)材料,我們以圖像描述為主體,探索了包括卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、深度殘差網(wǎng)絡(luò)、長(zhǎng)短期記憶網(wǎng)絡(luò)等多種模型的結(jié)構(gòu)及其參數(shù)調(diào)整,對(duì)圖像描述生成的圖像信息預(yù)處理、描述數(shù)據(jù)預(yù)處理和訓(xùn)練模型等方面進(jìn)行了簡(jiǎn)單優(yōu)化。同時(shí),本文僅僅是針對(duì)網(wǎng)絡(luò)中的部分簡(jiǎn)單參數(shù)和結(jié)構(gòu)進(jìn)行了小范圍調(diào)整,由于作者水平有限資歷尚淺,本項(xiàng)目的研究時(shí)間較短,諸如局部最優(yōu)、多模型效果對(duì)比、優(yōu)化收斂、深度降維等各方面尚未涉獵到,相信能夠在日后的研究中進(jìn)一步探索深度學(xué)習(xí)的奧秘。

參考文獻(xiàn)

[1]劉國(guó)鈞,陳紹業(yè). 深度學(xué)習(xí)框架PyTorch:入門與實(shí)踐[M].北京:電子工業(yè)出版社,2018:260-281.

[2] Mao J , Xu W . Explain Images with Multimodal Recurrent Neural Networks[J]. Computer Science, 2014.

[3] Karpathy A , Li F F . Deep visual-semantic alignments for generating image descriptions[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2015.

[4] Vinyals O , Toshev A , Bengio S , et al. Show and Tell: A Neural Image Caption Generator[J]. 2014.

[5] Vinyals O , Toshev A , Bengio S , et al. Show and Tell: Lessons learned from the 2015 MSCOCO Image Captioning Challenge[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2016.

作者簡(jiǎn)介

岳毅然(2000年8月-),男,中山大學(xué)智能工程學(xué)院智能科學(xué)與技術(shù)專業(yè)2018級(jí)學(xué)生,研究方向:智能科學(xué)與技術(shù)、數(shù)據(jù)科學(xué)。李霆鋒(2000年3月-),男,中山大學(xué)智能工程學(xué)院智能科學(xué)與技術(shù)專業(yè)2018級(jí)學(xué)生,研究方向:智能科學(xué)與技術(shù)。陳鑫銳(2000年7月-),男,中山大學(xué)智能工程學(xué)院智能科學(xué)與技術(shù)專業(yè)2018級(jí)學(xué)生,研究方向:智能科學(xué)與技術(shù)。李煜(2000年3月-),男,中山大學(xué)智能工程學(xué)院智能科學(xué)與技術(shù)專業(yè)2018級(jí)學(xué)生,研究方向:智能科學(xué)與技術(shù)。

主站蜘蛛池模板: 91免费国产在线观看尤物| 久久性视频| 在线观看亚洲国产| 国产欧美日韩在线在线不卡视频| 日韩人妻少妇一区二区| yjizz视频最新网站在线| 欧美啪啪一区| 国产一区成人| 亚洲欧美在线精品一区二区| 欧美一区二区啪啪| 青青国产视频| 九九九国产| 免费国产小视频在线观看| 精品视频第一页| 久久精品这里只有国产中文精品 | 久久国产成人精品国产成人亚洲 | 国产无码性爱一区二区三区| 午夜国产大片免费观看| 99这里只有精品6| 国产亚洲欧美另类一区二区| 国产成人禁片在线观看| 久久视精品| 9999在线视频| 在线综合亚洲欧美网站| 国产精品午夜福利麻豆| 欧美α片免费观看| 亚洲日本一本dvd高清| 久久人搡人人玩人妻精品一| 午夜一区二区三区| 久久综合丝袜长腿丝袜| 欧美亚洲国产精品久久蜜芽| 亚洲人成影院在线观看| 欧美成人影院亚洲综合图| 午夜日本永久乱码免费播放片| 久久久久夜色精品波多野结衣| 国外欧美一区另类中文字幕| 中美日韩在线网免费毛片视频| 免费在线色| 99精品国产电影| 欧美丝袜高跟鞋一区二区 | 日韩欧美国产区| 国产一级二级三级毛片| a欧美在线| 国产精品欧美激情| 91国内外精品自在线播放| 麻豆国产精品一二三在线观看| 欧美啪啪网| 亚洲综合精品香蕉久久网| 综合社区亚洲熟妇p| 欧美精品在线免费| 国产女人18毛片水真多1| 国产欧美精品午夜在线播放| 99热这里都是国产精品| 国产区免费精品视频| 欧美成人精品在线| 凹凸国产分类在线观看| 丁香婷婷综合激情| 日韩视频免费| 99久久精品国产麻豆婷婷| 91精品最新国内在线播放| 日韩国产黄色网站| 黄色网址手机国内免费在线观看| 国产综合精品一区二区| 天堂成人在线| 中文字幕自拍偷拍| 伊人91视频| 色妞永久免费视频| 亚洲自偷自拍另类小说| 国产嫩草在线观看| 欧美精品色视频| 国产精品密蕾丝视频| 亚洲日韩国产精品无码专区| 久久大香伊蕉在人线观看热2| 第九色区aⅴ天堂久久香| 97综合久久| 国产福利影院在线观看| 啪啪国产视频| 国产成人高清在线精品| 亚洲视频二| 亚洲黄色网站视频| 日本国产在线| 国产精品网拍在线|