999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的圖像檢索研究概述

2022-05-30 15:43:24謝亦才易云
電腦知識與技術(shù) 2022年10期

謝亦才 易云

摘要:隨著數(shù)字技術(shù)的發(fā)展,各領(lǐng)域產(chǎn)生并共享了大量的視覺內(nèi)容。如何搜索到所需要的圖像成為一個挑戰(zhàn),特別是在數(shù)據(jù)庫中搜索相似的內(nèi)容,即基于內(nèi)容的圖像檢索(CBIR) ,是一個由來已久的研究領(lǐng)域,實時檢索需要更高效、更準確的方法。人工智能在基于內(nèi)容的檢索方面取得了進展,極大地促進了智能搜索的進程。文中,回顧了最近基于深度學習算法和技術(shù)開發(fā)的CBIR工作;介紹了常用基準和評估方法;指出面臨的挑戰(zhàn),并提出有希望的未來方向。文中關(guān)注使用深度學習進行圖像檢索,并根據(jù)深度網(wǎng)絡(luò)結(jié)構(gòu)、深度特征、特征增強方法和網(wǎng)絡(luò)微調(diào)策略的類型組織最先進的方法。文中調(diào)查考慮了各種最新方法,旨在展示基于實例的CBIR領(lǐng)域的全局視圖。

關(guān)鍵詞:Transformer;架構(gòu)修改;預(yù)訓(xùn)練

中圖分類號:TP311? ? ?文獻標識碼:A

文章編號:1009-3044(2022)10-0084-03

1 引言

基于內(nèi)容的圖像檢索(CBIR) 是通過分析圖像的視覺內(nèi)容,在一個大型圖像庫中搜索語義匹配或相似的圖像,給定一個描述用戶需求的查詢圖像。CBIR一直是計算機視覺和多媒體領(lǐng)域的一個長期研究課題[1]。隨著目前圖像和視頻數(shù)據(jù)量呈指數(shù)級增長,圖像搜索是最不可或缺的技術(shù)之一。因此,基于內(nèi)容的圖像檢索(CBIR) 的應(yīng)用幾乎有無限的潛力,如人員重新識別、遙感、醫(yī)學圖像搜索[2]、在線市場購物推薦等。

要準確檢索到相應(yīng)圖像,必須準確提取圖像特征,而提取特征的方法有傳統(tǒng)的手工特征和現(xiàn)在廣泛使用的深度特征學習方法。

自2012年,深度學習已經(jīng)在各研究領(lǐng)域有了廣泛應(yīng)用,因為深度神經(jīng)網(wǎng)絡(luò)可以直接從數(shù)據(jù)中進行多級抽象,提取深度特征。深度學習在圖像檢索[3]等計算機視覺領(lǐng)域取得了重大突破。在圖像檢索中有四種主要用作特征提取的深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN) 模型,分別是AlexNet、VGG、GoogLeNet和ResNet。關(guān)于圖像檢索的主要綜述與比較主要如表1所示。

2 基于深度學習圖像檢索分類

基于深度學習圖像檢索的基本框架如圖1所示,首先通過深度神經(jīng)網(wǎng)絡(luò)(例如VGG) 提取圖像特征,再通過全連接層映射到所設(shè)定維度特征空間,然后通過損失函數(shù)訓(xùn)練網(wǎng)絡(luò),最終訓(xùn)練好的網(wǎng)絡(luò)把圖像映射到低維特征空間,并進行相似度計算、排序,從而檢索出最相似的圖像。

基于深度學習圖像檢索方法可以分為基于已訓(xùn)練好的深度預(yù)訓(xùn)練模型和基于深度表征學習兩大類。

2.1 基于預(yù)訓(xùn)練模型圖像檢索方法

這種方法有一些局限性,比如深度特征可能無法超越經(jīng)典手工制作的特征。最基本的是,存在模型轉(zhuǎn)移或域轉(zhuǎn)移任務(wù)之間的問題,這意味著模型經(jīng)過了訓(xùn)練對于分類,不一定要提取適合的特征進行圖像檢索。特別是,分類決策可以是只要特征仍在分類范圍內(nèi),就可以進行分類邊界,因此此類模型中的層可能會顯示在特征匹配比最終分類概率更重要的情況下,在檢索任務(wù)中能力不足。

此類方法可以進一步分為基于深度特征提取和基于深度特征融合的方法。

2.1.1 基于深度特征提取方法

(1) 前饋預(yù)訓(xùn)練模型。單前饋傳遞神經(jīng)網(wǎng)絡(luò)將整個圖像送入現(xiàn)成的模型中提取特征。該方法相對有效,因為輸入圖像只饋送一次。對于這些方法,全連接層和最后一個卷積層都可以用作特征提取器。全連接層有一個全局感受野。經(jīng)過歸一化和降維后,這些特征是用于直接相似性度量,無須進一步處理,也不需要有效的搜索策略。但使用全連接層缺乏幾何不變性和空間信息。

與單前饋傳遞神經(jīng)網(wǎng)絡(luò)相比,多前饋傳遞神經(jīng)網(wǎng)絡(luò)更耗時,因為從輸入圖像生成多個面片,并在編碼為最終全局特征之前將兩個面片送入網(wǎng)絡(luò)。由于特征表示分為兩個階段:圖像塊檢測和圖像塊描述,因此多通道策略可以提高檢索精度。可以使用滑動窗口或空間金字塔模型獲得多尺度圖像塊。

(2) 深度特征選擇

深度特征提取可以從全連接層和卷積層提取。

選擇一個全連接層作為特征提取器非常簡單。通過PCA降維和歸一化,可以測量圖像的相似性。只有全連接層可能會限制整體檢索精度,Jun等人[5]將多個全連接層的特征連接起來,Song等人[6]指出,在第一個完全連接的層和最后一個層之間直接連接可以實現(xiàn)從粗到精的改進。

來自卷積層(通常是最后一層) 的特征保留更多特別有益的結(jié)構(gòu)細節(jié)。卷積神經(jīng)元圖層僅連接到輸入要素地圖的局部區(qū)域。較小的感受野確保生成的特征保留更多的局部結(jié)構(gòu)信息,并且對圖像變換(如截斷和遮擋) 更為魯棒。通常,池化卷積特征后的魯棒性會得到提高。

(3) 特征融合

不同網(wǎng)絡(luò)層之間的融合。融合不同層的特征的目的是在特征提取器中組合不同的特征屬性。在深度網(wǎng)絡(luò)中融合多個全連接層是可能的:例如,Yu等人[7]探索了融合網(wǎng)絡(luò)的不同方法從不同的全連接層激活并引入性能最佳的Pi-融合策略,使用不同的權(quán)重用于聚合特征,Jun等人[5]構(gòu)造多個全連接層串聯(lián)在ResNet頂部,然后連接這些層的全局特征,以獲得組合的全局特征。

在測量語義相似度時,來自全連接層(全局特征) 和來自卷積層(局部特征) 的特征可以相互補充,并在一定程度上保證檢索性能。

模型之間的融合。可以將不同網(wǎng)絡(luò)模型的功能組合在一起;這樣的融合側(cè)重于模型互補,以實現(xiàn)更好的性能,分為模型內(nèi)和模型間。

通常,模型內(nèi)融合指的是具有相似或高度兼容結(jié)構(gòu)的多個深層模型,而模型間融合指的是具有更多不同結(jié)構(gòu)的模型。例如,AlexNet中廣泛使用的退出策略可以被視為模型內(nèi)融合:在兩個全連接的層之間,不同神經(jīng)元的隨機連接,每個訓(xùn)練階段可以被視為不同模型的組合。作為第二個例子,Simonyan等人[4]介紹了一種ConvNet融合策略,以提高VGG的特征學習能力,其中VGG-16和VGG-19被融合。與單個對等網(wǎng)絡(luò)相比,該模型內(nèi)融合策略將圖像分類中的前5位誤差降低了2.7%。類似地,Liu等人[8]混合了不同的VGG變體,以加強對細粒度車輛檢索的學習。Ding等人[13]提出了一個選擇性深度集成框架,將ResNet-26和ResNet-50結(jié)合起來,以提高細粒度實例檢索的準確性。為了關(guān)注圖像中物體的不同部分,Kim等人[9]訓(xùn)練了三個注意力模塊的集合,以學習具有不同多樣性的特征。每個模塊都基于GoogLeNet中的不同初始塊。

2.1.2 基于深度特征增強的檢索方法

(1) 特征聚合

特征增強方法將特征聚合或嵌入到提高深層特征的識別能力。在特征聚合方面,和/平均池化和最大池化是兩種常用的卷積特征聚合方法地圖。特別是,和/平均池化的區(qū)分性較低,因為它考慮了來自卷積層的所有激活輸出,因此削弱了高度激活特征的影響。相反,最大池化特別適合概率較低的稀疏特征積極主動。如果輸出特征映射不再稀疏,最大池化可能劣于和/平均值池化。

(2) 特征嵌入

除了直接池化或區(qū)域池化外,還可以將卷積特征映射嵌入到高維圖像中空間,以獲得緊湊的特征。廣泛使用的嵌入方法包括BoW、VLAD和FV。使用PCA可以降低“嵌入式特征”的維數(shù)。注意,BoW和VLAD可以通過使用其他度量來擴展,如漢明距離。

(3) 注意力機制

注意力機制的核心思想是突出最重要的部分相關(guān)特征和避免無關(guān)激活函數(shù)的影響,通過計算注意力圖來實現(xiàn)。獲得注意力圖的方法可分為兩組:非參數(shù)和基于參數(shù)的,這兩種方法的主要區(qū)別在于重要性權(quán)重是否可以學習獲得。

(4) 深度哈希嵌入

由深度網(wǎng)絡(luò)提取的實值特征通常是高維,因此檢索效率不太滿意。因此,很有必要將深層特征轉(zhuǎn)換為更緊湊的編碼。哈希算法由于其計算和存儲效率高而被廣泛用于大規(guī)模圖像搜索。哈希碼由哈希函數(shù)生成,而哈希函數(shù)可以作為一個層插入到深度網(wǎng)絡(luò)中,這樣可以同時使用深度網(wǎng)絡(luò)訓(xùn)練和優(yōu)化哈希碼。在哈希函數(shù)訓(xùn)練過程中,將原始相似圖像的哈希碼嵌入到盡可能接近的位置,將不相似圖像的哈希碼盡可能分離。

2.2 基于深度特征學習的圖像檢索方法

在2.1節(jié)中,介紹了特征融合和增強現(xiàn)成的DCNN,僅作為獲取特征的提取器。然而,在大多數(shù)情況下特征可能不足以進行高精度檢索。為了模型具有更高的可擴展性和更有效的檢索,常見的做法是網(wǎng)絡(luò)微調(diào),即更新預(yù)先存儲的參數(shù)[10]。然而,微調(diào)并不是否定第2.1節(jié)中特征處理方法;事實上,這些策略是互補的,可以相互補充作為網(wǎng)絡(luò)微調(diào)的一部分進行合作。

本節(jié)重點介紹更新網(wǎng)絡(luò)參數(shù)的有監(jiān)督和無監(jiān)督微調(diào)方法。

2.2.1 有監(jiān)督微調(diào)方法

(1) 基于分類的微調(diào)方法

如果新數(shù)據(jù)集的類標簽可用,則可首先取在單獨的數(shù)據(jù)集上先前訓(xùn)練好的諸如AlexNet、VGG、GoogLeNet或ResNet等主干網(wǎng)絡(luò)的特征。然后,通過基于交叉熵損失優(yōu)化其參數(shù),可以對DCNN進行微調(diào)。交叉熵損失如公式1所示:

[LCE(pi,yi)=-i,j=1cyilogpi] (1)

其中,yi和pi分別是真實標簽和預(yù)測概率值,c是類別總數(shù)。這種微調(diào)的里程碑工作是文獻[11],其中AlexNet在具有672個預(yù)定義類別的Landmarks數(shù)據(jù)集上重新訓(xùn)練。經(jīng)過微調(diào)的網(wǎng)絡(luò)在與真實相關(guān)的數(shù)據(jù)集(如Holidays、Oxford-5k和Oxford-105k) 上生成了卓越的特征。新更新的圖層用作圖像檢索的全局或局部特征檢測器。

(2) 基于驗證的微調(diào)方法

利用表示相似和不相似對的相似性信息,基于驗證的微調(diào)方法學習一個最佳度量,該度量最小化或最大化數(shù)據(jù)對的距離,以驗證和保持它們的相似性。與基于分類的學習相比,基于驗證的學習側(cè)重于類間和類內(nèi)樣本。

2.2.2 無監(jiān)督微調(diào)方法

因為此類信息的收集成本很高或不可用,有監(jiān)督網(wǎng)絡(luò)微調(diào)的方法可行性變得較差。鑒于這些局限性,使用無監(jiān)督的圖像檢索微調(diào)方法非常必要,但研究較少。

對于無監(jiān)督微調(diào),兩個廣泛的方向是通過流形學習挖掘特征之間的相關(guān)性以獲得排名信息,以及設(shè)計新穎的無監(jiān)督框架(例如自動編碼器) ,每個框架將在下文中討論。

(1) 基于流形學習的樣本挖掘

流形學習側(cè)重于捕捉數(shù)據(jù)集內(nèi)在關(guān)聯(lián)或推斷。與原始的流形相似之處是提取的特征用于構(gòu)造關(guān)聯(lián)矩陣,然后使用流形學習對其進行重新評估和更新[12]。根據(jù)更新的關(guān)聯(lián)矩陣中的流形相似性,基于驗證的損失函數(shù)(如對損失、三重態(tài)損失或N對損失) ,選擇正樣本和硬負樣本進行度量學習。這不同于上述基于驗證的微調(diào)方法,其中硬正樣本和負樣本根據(jù)給定的關(guān)聯(lián)信息從有序數(shù)據(jù)集中顯式選擇。

(2) 基于自動編碼器的框架

自動編碼器是一種神經(jīng)網(wǎng)絡(luò),其目的是重建其輸出盡可能接近其輸入。原則上,將輸入圖像作為特征編碼輸入到潛在空間中,然后使用解碼器將這些特征重構(gòu)為原始輸入圖像。編碼器和解碼器都可以是卷積神經(jīng)網(wǎng)絡(luò)。

在自動編碼器中,存在不同的重建級別(例如像素級別或?qū)嵗墑e) 。這些不同的重建會影響自動編碼器的有效性,因為像素級重建可能會通過關(guān)注重建圖像中的微小變化來降低編碼器的學習特征,因為自然圖像通常包含許多位置、顏色和姿勢的細節(jié)因素。

3 結(jié)論和未來展望

在這篇綜述中,回顧了圖像檢索的深度學習方法,并根據(jù)深度神經(jīng)網(wǎng)絡(luò)的參數(shù)更新方式將其分為預(yù)訓(xùn)練模型的深度圖像檢索和微調(diào)模型。具體地說,基于預(yù)訓(xùn)練模型方法涉及通過凍結(jié)預(yù)先存儲的參數(shù)來獲得高質(zhì)量的特征,其中提出了網(wǎng)絡(luò)前饋方案、層選擇和特征融合方法。而基于微調(diào)的方法在有監(jiān)督和無監(jiān)督兩種方法中都具有用于特征學習的網(wǎng)絡(luò)參數(shù)更新操作。

基于深度學習圖像檢索方法未來發(fā)展方向主要有如下幾個方面:

(1) 圖像檢索中的零樣本學習;

(2) 端到端無監(jiān)督圖像檢索;

(3) 增量圖像檢索。

參考文獻:

[1] Smeulders A W M,Worring M,Santini S,et al.Content-based image retrieval at the end of the early years[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2000,22(12):1349-1380.

[2] Nair L R,Subramaniam K,Prasannavenkatesan G K D.A review on multiple approaches to medical image retrieval system[C]//Intelligent Computing in Engineering,2020:501-509.

[3] Kalantidis Y,Mellina C,Osindero S.Cross-dimensional weighting for aggregated deep convolutional features[C]//Computer Vision-ECCV 2016 Workshops,2016:685-701.

[4] K. Simonyan and A. Zisserman.Very deep convolutional networks for large-scale image recognition[J].arXiv preprint arXiv:1409.1556, 2014.

[5] H. Jun, B. Ko, Kim I. Kim, Kim J.Combination of multiple global descriptors for image retrieval[J].arXiv preprint arXiv:1903.10663, 2019.

[6] Song J F,Yu Q,Song Y Z,et al.Deep spatial-semantic attention for fine-grained sketch-based image retrieval[C]//2017 IEEE International Conference on Computer Vision.October 22-29,2017,Venice,Italy.IEEE,2017:5552-5561.

[7] Yu D,Liu Y J,Pang Y P,et al.A multi-layer deep fusion convolutional neural network for sketch based image retrieval[J].Neurocomputing,2018,296:23-32.

[8] Liu H Y,Tian Y H,Wang Y W,et al.Deep relative distance learning:tell the difference between similar vehicles[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition.June 27-30,2016,Las Vegas,NV,USA.IEEE,2016:2167-2175.

[9] Kim W,Goyal B,Chawla K,et al.Attention-based ensemble for deep metric learning[C]//Computer Vision – ECCV 2018,2018:736-751.

[10] Oquab M,Bottou L,Laptev I,et al.Learning and transferring mid-level image representations using convolutional neural networks[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition.June 23-28,2014,Columbus,OH,USA.IEEE,2014:1717-1724.

[11] A. Babenko, A. Slesarev, A. Chigorin, and V. Lempitsky.Neural codes for image retrieval[C]//in ECCV,2014:584–599.

[12] Donoser M,Bischof H.Diffusion processes for retrieval revisited[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition.June 23-28,2013,Portland,OR,USA.IEEE,2013:1320-1327.

[13] Ding Z Y,Song L,Zhang X T,et al.Selective deep ensemble for instance retrieval[J].Multimedia Tools and Applications,2019,78(5):5751-5767.

【通聯(lián)編輯:梁書】

收稿日期:2021-12-06

基金項目:本文受江西省自然科學基金(面上項目,20202BAB202017,面向監(jiān)控視頻的高效行為檢測方法研究) 資助

作者簡介:謝亦才(1981—) ,男,碩士研究生,主要研究方向為深度學習、圖像分析與檢索。

主站蜘蛛池模板: 亚洲国产欧美目韩成人综合| 999国内精品视频免费| 亚洲精品少妇熟女| 亚洲国模精品一区| 亚洲午夜片| 极品国产一区二区三区| 丝袜国产一区| 国产91丝袜| 国产精品网拍在线| 亚洲综合第一页| 在线观看欧美精品二区| 人人看人人鲁狠狠高清| 国产一级毛片网站| 波多野结衣一区二区三区88| 国内熟女少妇一线天| 精品久久久久成人码免费动漫| 青青热久免费精品视频6| 一级毛片免费的| 久久久精品久久久久三级| 91啪在线| 日韩精品无码免费一区二区三区 | 亚洲大学生视频在线播放| 久久青草热| aa级毛片毛片免费观看久| 无码一区二区三区视频在线播放| 成人精品免费视频| 色综合狠狠操| 日本国产在线| 国产va在线| 久久五月天综合| 凹凸国产分类在线观看| 国产精品男人的天堂| 亚洲三级网站| 国产人人乐人人爱| 91久久国产热精品免费| 国产精品丝袜视频| 国产精品白浆无码流出在线看| 色婷婷色丁香| 免费全部高H视频无码无遮掩| 红杏AV在线无码| 亚洲最新地址| 国产精品无码翘臀在线看纯欲| 亚洲天堂视频在线观看免费| 亚洲精品无码不卡在线播放| 成人毛片免费在线观看| 国产精品综合久久久| 国产免费a级片| 婷婷综合在线观看丁香| 国产小视频a在线观看| 99视频精品在线观看| 亚洲精品在线影院| 精品国产一区91在线| 亚洲不卡无码av中文字幕| 精品国产网| 国产精品香蕉| 精品国产美女福到在线不卡f| 国产啪在线| 亚洲综合久久成人AV| 97se亚洲综合不卡 | 亚洲欧洲一区二区三区| 玖玖精品在线| 中文字幕无码制服中字| 一区二区三区四区日韩| 在线综合亚洲欧美网站| 91青青在线视频| 四虎在线观看视频高清无码| 国产精品人莉莉成在线播放| 亚洲综合婷婷激情| 日韩小视频在线播放| 亚洲无码在线午夜电影| 亚洲精品自拍区在线观看| 伊人色在线视频| 四虎永久在线精品国产免费| 精品久久人人爽人人玩人人妻| 国产交换配偶在线视频| 污污网站在线观看| 欧美福利在线播放| 五月婷婷综合在线视频| 麻豆精品在线| 欧类av怡春院| 97精品伊人久久大香线蕉| 又粗又大又爽又紧免费视频|