999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度特征的無監督圖像檢索研究綜述

2018-09-21 03:25:18吳建鑫
計算機研究與發展 2018年9期
關鍵詞:深度特征區域

張 皓 吳建鑫

(計算機軟件新技術國家重點實驗室(南京大學) 南京 210023)(wujx2001@nju.edu.cn)

基于內容的圖像檢索(content-based image retrieval, CBIR)是一項極具挑戰的計算機任務,并且得到了長期的研究關注[1-4].給定一個包含特定實例(例如特定目標、場景、建筑等)的查詢圖像,圖像檢索旨在從數據庫圖像中找到包含相同實例的圖像[5].但由于不同圖像的拍攝視角、光照或遮擋情況不同,如何設計出能應對這些類內差異的有效且高效的圖像檢索算法仍是一項研究難題.

一個典型的圖像檢索流程包括2步:設法從圖像中提取一個合適的圖像的表示向量,和對這些表示向量用歐氏距離或余弦距離進行最近鄰搜索以找到相似的圖像.可以看出,決定一個圖像檢索算法性能的關鍵在于提取的圖像表示的好壞.

對圖像檢索的研究至今已有約20年的時間.圖像檢索中使用的圖像表示經歷了基于手工特征和基于深度特征兩大時期,每個時期又有全局特征和局部特征2個階段.由于手工特征的表示能力有限,近年來圖像檢索的研究主要集中在如何利用深度特征.一些早期工作直接提取深度全連接特征作為圖像的表示向量,這實質是對圖像整體語義信息進行描述的深度全局特征.然而,由于全局特征缺乏對圖像細節的描述,后來研究關注點集中到深度局部特征.基于深度局部特征的圖像檢索可以分為3類:基于局部表示聚合、基于深度卷積特征聚合和基于多層融合的方法.本文將以提取圖像表示的不同思路為線索,介紹無監督圖像檢索領域的一些代表性算法,并探討未來可能的研究方向.

本文首先對無監督圖像檢索做一概述,介紹一些比較常用的數據集,對一些基于手工特征的早期算法作一簡要回顧,并分別介紹一些基于深度全局特征和深度局部特征的代表算法.之后,我們給出一些能提升圖像檢索性能的實現細節,并比較各算法在圖像檢索常用數據集上的性能.最后,我們對圖像檢索領域未來可能的發展方向及其挑戰進行展望.

1 無監督圖像檢索概述

圖像檢索旨在從數據庫圖像中找到包含相同實例的圖像[5].其中圖像表示的好壞對一個圖像檢索算法的性能起決定性影響.回顧整個發展歷程,圖像檢索中使用的圖像表示經歷了基于手工特征和基于深度特征兩大時期,每個時期又有全局特征和局部特征2個階段,如圖1所示.最初圖像檢索主要基于一些手工全局圖像特征,如顏色[6]、邊緣[6]、紋理[7]、GIST[8-9]等.但由于這些全局圖像特征容易受圖像中的光照條件、位移、遮擋、截斷等因素影響,后來研究焦點逐漸轉向以SIFT[10]特征結合BoW聚合[11]為代表的基于手工局部特征的圖像表示提取方法.然而,由于特征的表示能力有限, 檢索性能也往往面臨很大的局限性.

Fig.1 Four developing stages of unsupervised image retrieval and representative approaches圖1 無監督圖像檢索的4個發展階段及其代表方法

深度學習利用多層非線性變換的堆疊來對數據的高層次表示進行建模.由于從大規模數據集如ImageNet[24]上預訓練好的深度卷積神經網絡中可以提取通用的圖像表示,并用于其他視覺任務,包括圖像檢索[25-27].因此,近年來圖像檢索的研究主要集中在如何利用深度卷積神經網絡的圖像表示.

由于圖像檢索經常需要面對大量動態變化或流式數據庫圖像,對這些圖像進行標注代價十分昂貴.因此,從零訓練或者微調一個預訓練網絡既不高效也不具備可擴展性.本文旨在對不借助其他監督信息,只利用ImageNet預訓練模型作為固定的特征提取器來提取圖像表示的研究方法進行綜述.

由于深度全連接特征提供了對圖像內容高層級的描述且是“天然”的向量形式,一些早期工作直接提取深度全連接特征作為圖像的表示向量.這種深度全連接特征實質是對圖像整體語義信息進行描述的深度全局特征.但由于全局特征旨在進行圖像分類,缺乏對圖像細節的描述,后來,研究關注集中到深度局部特征.

基于深度局部特征的圖像檢索研究可大致分為3類:局部表示聚合、深度卷積特征聚合和多層融合.基于局部表示聚合的方法先設法從輸入圖像中提取一系列的局部區域,之后分別將這些局部區域前饋網絡生成對應的局部表示,最后通過特定編碼方法將這些局部表示聚合為最終表示.這類方法的弊端在于需要前饋網絡多次.深度卷積特征可以看作是對圖像局部區域的描述,基于深度卷積特征聚合的方法只前饋網絡一次生成深度卷積特征,并對其聚合為圖像最終表示.此外,由于不同層的特征包含不同層級的語義信息,基于多層融合的方法旨在使不同層特征互補.

2 常用數據集

本節簡要介紹圖像檢索領域若干常用數據集及評價指標.

Oxford5k數據集[28]是從Flickr獲得的哈佛大學11個地標建筑的5 063張圖像,每個地標建筑包含5張查詢圖像,即共有55張查詢圖像.每個查詢圖像有一個手工標注的邊界框.對每個查詢圖像,數據庫圖像被分成了4類:good,ok,junk和bad.前兩者被認為是匹配的圖像,而后兩者被認為是無關圖像.這些建筑風格十分接近,所以Oxford5k是一個比較具有挑戰性的數據集.

Paris6k數據集[29]是從Flickr獲得的巴黎11個地標建筑的6 412張圖像,每個地標建筑包含5張查詢圖像,即共有55張查詢圖像.和Oxford5k數據集標注方法相同,每個查詢圖像有一個手工標注的邊界框,且對每個查詢圖像,數據庫圖像被分成了4類:good,ok,junk和bad.該數據集建筑物風格比Oxford5k更多樣.

此外,從Flickr中爬取的屬于145個常見類別的99 782張無關圖像可以加入Oxford5k和Paris6k,這樣分別構成了Oxford105k和Paris106k數據集.這2個數據集圖像規模大、種類多,通常用于檢測算法在存在大量無關圖像情況下的檢索效果.

Holidays數據集[30]是從個人相冊中收集的1 491張風景圖,并根據內容場景分為500組.每組包含1張查詢圖像,即共有500張查詢圖像.由于其中有些圖像并不是自然的朝向,即被旋轉了90°,許多方法會手工將這些圖像旋轉為正常的朝向[17].這通常會帶來2%~3%的性能提升.該數據集包含了不同風景、場景和遺跡等,多樣性較Oxford5k, Paris6k數據集更大.

目前在圖像檢索中最常用的評價指標是平均準確率均值(mean average precision,mAP),其計算方法如下:對每張查詢圖像,我們根據查詢圖像和數據庫圖像的表示向量間的距離,可以對數據庫圖像產生一個排序.進而,我們可以畫出對該查詢圖像的查準率-查全率(P-R)曲線,平均準確率(average precision,AP)對應于P-R曲線下的面積.對所有查詢圖像的AP做平均,即可得到mAP,取值為0%~100%.

此外,Ukbench數據集[13]有時也會被使用.Ukbench包含了10 200張室內照片,并根據內容分成2 550組.和上文介紹的數據集不同,Ukbench沒有專門留出查詢圖像,實踐中通常是讓10 200張圖像輪流作為查詢圖像.并且,評價指標一般不用mAP,而是計算對每個查詢圖像最接近的4張數據庫圖像中有幾張屬于相同類別,取值為0~4,即前4檢索結果的查準率乘以4.

3 基于手工特征的早期算法簡述

對圖像檢索的研究至今已有約20年的時間.從20世紀90年代到本世紀初,圖像檢索主要基于一些手工全局圖像特征,如顏色[6]、邊緣[6]、紋理[7]、GIST[8-9]等.然而,這些全局圖像特征容易受圖像中的光照條件、位移、遮擋、截斷等因素影響.

圖像檢索是最早采納BoW編碼的領域[21].在2003年BoW聚合得到計算機視覺領域的廣泛關注[11],而SIFT特征在2004年被發明[10].隨即,研究焦點逐漸由直接使用手工全局特征轉向以SIFT特征結合BoW聚合為代表的基于手工局部特征的圖像表示提取方法.

相比經典手工全局特征,SIFT特征受圖像旋轉、 尺度變換、光照條件改變等影響較小.此外,SURF[31]特征也比較常用.另一方面,在有了圖像局部特征之后,我們需要某種聚合方法將這些局部特征匯總為圖像表示.BoW受文本處理的啟發,其動機是相似的文本中應包含相似的詞[32].BoW將圖像的局部特征作為一個個視覺詞,其忽略各視覺詞之間的關系,將一幅圖像表示為包含了若干視覺詞的“袋子”.“袋子”中包含的視覺詞可以通過詞典映射構成圖像的表示向量,其中每維記錄了該“袋子”中特定視覺詞的出現頻數.

除BoW聚合外,后來產生了VLAD[16],FV[14-15]和Triangulation embedding[33]聚合技術,并取得了比經典BoW聚合更好的性能.VLAD先對局部圖像特性進行k-均值聚類,之后將每個局部特征根據其與最近聚類中心的距離進行編碼.FV和VLAD類似,但FV使用高斯混合模型[34]將局部圖像特性對應到視覺詞中.此外,FV還使用了二階信息.Triangulation embedding同樣先進行聚類,而之后的編碼是依據每個局部特征與所有聚類中心的歸一化距離.

4 基于深度全局特征的圖像檢索研究

深度卷積神經網絡通過多層非線性變換的嵌套來對圖像的高層級特征進行建模.深度卷積神經網絡在2012年ILSVRC競賽取得巨大突破后[35],得到了計算機視覺領域的廣泛關注.從大規模數據集如ImageNet[18]上預訓練好的深度卷積神經網絡中可以提取通用的圖像表示,并用于其他視覺任務,包括圖像檢索[25-27].因此,近年來,雖然基于手工特征的方法仍在發展[36-37],圖像檢索的研究焦點逐漸由經典手工特征過渡到利用深度卷積神經網絡的中間層特征,并取得了比經典手工特征更優異的性能.

深度神經網絡的全連接層特征提供了對圖像內容高層級的描述.此外,由于全連接層特征是“天然”的向量形式,一些早期工作直接將整張圖像輸入預訓練好的網絡,并提取深度全連接特征作為圖像的表示向量,如圖2所示.這種深度全連接特征實質是對圖像整體語義信息進行描述的深度全局特征.

Fig.2 Pipeline of image retrieval using deep global features圖2 使用深度全局特征進行圖像檢索的流程圖

文獻[17]發現即使用于預訓練的數據集(如ImageNet)和用于圖像檢索的數據集有很大差異,由于深度卷積神經網絡學得的特征有很強的泛化能力,用ImageNet預訓練模型提取的深度全連接特征仍能取得很好的圖像檢索效果.此外,為了得到更精簡的圖像表示,我們可以用PCA對從深度全連接特征提取的圖像表示進行降維.即使圖像表示從4 096維降到128維,仍然能取得超過經典手工特征的檢索性能[17].

另一方面,由于預訓練數據集和用于圖像檢索的數據集差異的存在,文獻[17,38]發現使用fc7特征會比fc8特征有更好的檢索效果.這是因為非常高層的深度特征旨在進行預訓練數據集的分類任務,而略低層的深度特征有更好的對其他數據集的泛化能力.

使用深度全局特征作為圖像表示十分簡單直接,然而,全局特征旨在進行圖像分類,缺乏對圖像細節的描述.此外,深度全局特征對圖像平移、旋轉和尺度縮放比較敏感[18].綜上,使用全局特征并不是一個理想的選擇.后來,研究關注集中到深度局部特征.

5 基于深度局部特征的圖像檢索研究

本節將對有代表性的基于深度局部特征的圖像檢索工作做一簡要回顧.根據圖像表示提取流程的不同,這些方法可以分為3類:局部表示聚合、深度卷積特征聚合和多層融合.

5.1 局部表示聚合

受經典SIFT特征和BoW聚合思路的啟發,一些工作用深度特征代替經典SIFT特征,并對經典編碼技術如BoW,VLAD,FV等加以改進.這類方法先設法從輸入圖像中提取一系列的局部區域,之后分別將這些圖像局部區域前饋網絡,并生成對應的局部圖像表示.最后,通過特定聚合方法將這些局部圖像表示聚合為最終圖像表示,如圖3所示.

Fig.3 Pipeline of image retrieval using deep local representation aggregation圖3 使用深度局部表示聚合進行圖像檢索的流程圖

這類方法的關鍵是如何從輸入圖像中提取局部區域,以及如何對局部表示進行聚合.根據提取局部區域方法不同,我們進一步將這類方法分為3類:基于滑動窗的局部區域提取、興趣區域檢測和基于候選區域(region proposal)的局部區域提取.

1) 基于滑動窗的局部區域提取.這類方法使用某一特定的滑動窗在輸入圖像上滑動,并提取滑動窗口在輸入圖像不同位置的對應圖像局部區域.此外,由于圖像中的目標可能會有多種大小,這類方法通常會用一系列不同大小的滑動窗分別在輸入圖像上進行滑動以生成局部區域.

文獻[39]使用了4種不同大小的滑動窗并使用fc7特征作為圖像的局部表示.并且文獻[30]沒有將局部表示聚合為全局表示,而直接用局部表示來進行圖像匹配.對查詢圖像的某一局部區域和一張數據庫圖像,文獻[39]計算該查詢圖像局部表示向量對數據庫圖像所有局部表示向量的歐氏距離,并定義其最小值作為查詢圖像局部區域到數據庫圖像的距離.進而,文獻[39]定義查詢圖像所有局部區域到數據庫圖像距離的平均值作為查詢圖像到數據庫圖像的距離.然而,與將局部表示聚合為全局表示并利用全局表示進行相似度度量相比,基于局部表示的圖像匹配需要較大的計算和存儲開銷.

MOP-CNN[18]使用了3種大小的滑動窗.此外,MOP-CNN把對應3種滑動窗的fc7局部表示分別進行VLAD聚合,并級聯(concatenate)得到最終的圖像表示.MOP-CNN可以看作是SPM[40]利用深度特征的改進.SPM綜合了從全局到局部不同尺度圖像區域信息,而MOP-CNN通過滑動窗提取3種尺度圖像局部表示,其中最大尺度是從原圖提取深度全局特征.MOP-CNN同時利用了深度局部特征和深度全局特征,并取得比只用深度全局特征更好的性能.

2) 興趣區域檢測.這類方法利用某種特定的興趣區域檢測算法提取圖像中的興趣區域,再將興趣區域逐一前饋網絡生成圖像的局部表示.興趣點檢測器能夠檢測出圖像中對特定變換不敏感的圖像區域[41].這使得即使在不同視角或光照條件下,對相同目標拍攝的2張圖像有相似的興趣區域.

Patch-CKN[42]使用Hessian-affine檢測器[43]提取圖像中的興趣區域.Hessian-affine檢測器可以在圖像中提取對仿射變換不敏感的興趣區域.之后,興趣區域中每個點的近鄰通過仿射和朝向規范化構成網絡的輸入.最后,Patch-CKN使用深度卷積核網絡[44]生成深度局部表示,并使用VLAD聚合得到圖像表示.

3) 基于候選區域的局部區域提取.受目標檢測啟發,這類方法利用某種特定的無監督候選區域生成算法得到可能包含目標的局部候選區域,再將這些局部區域前饋經過網絡提取圖像局部表示.

文獻[45]使用了selective search[46]提取圖像2 000個局部區域并前饋網絡,并對生成的fc7特征每維進行最大匯合(max-pooling)[47]得到圖像表示.文獻[45]發現,最少只使用100個候選區域就可以達到相當有競爭力的效果.

CCS[48]使用EdgeBox[49]提取圖像100個局部區域并前饋網絡,再用VLAD對深度卷積特征進行聚合.此外,CCS同時結合了經典SIFT特征和深度特征,以達到不同尺度(場景級別、目標級別、和點級別)特征互補的目的.

縱觀這3類方法,為了精確找到有價值的局部區域,基于滑動窗的方法需要用一系列不同大小的滑動窗口,這需要消耗不小的計算開銷.而基于興趣區域檢測和基于候選區域的方法由于只需提取一部分局部區域前饋網絡,因此效率相比較高.基于興趣區域檢測的方法沿用了經典圖像檢索/計算機視覺的特征提取思路,而基于候選區域的方法受到目標檢測任務做法的啟發.但這些方法都需要多次前饋網絡.

5.2 深度卷積特征聚合

基于局部表示聚合的方法通常需要對多個圖像局部區域分別前饋網絡以生成深度局部特征,所以算法效率成為其瓶頸.另一方面,由于深度卷積特征可以被看作是對圖像局部區域的描述,其局部區域大小為該深度卷積特征的感受野[50].因此,這類方法只前饋網絡一次生成深度卷積特征,并對其進行聚合以得到圖像的最終表示,如圖4所示.圖4中灰色的部分代表這類方法對預訓練模型沒有用到的部分(即全連接層部分).

Fig.4 Pipeline of image retrieval using aggregation of deep convolutional feature圖4 使用深度卷積特征聚合進行圖像檢索的流程圖

相比深度全局特征,深度卷積特征對圖像的平移、裁剪、遮擋等更不敏感,并且保留了更多的圖像細節信息[46].相比基于局部表示聚合的方法,基于深度卷積特征聚合的方法共享深度特征提取部分,只需前饋網絡一次.此外,使用深度卷積特征的另一個好處是可以處理任意大小的圖像輸入.因此,這類方法逐漸成為近年來深度圖像檢索的主流方法.

這類方法的關鍵是如何對深度卷積特征進行聚合.根據聚合時是否加權,我們可以將這類方法分為直接聚合和加權聚合2類.下面我們對這2類方法分別予以綜述.

本節使用如下符號.給定輸入圖像I,深度卷積特征表示為A∈D×H×W.其可以理解為一系列二維的特征圖{F1,F2,…,FD},也可以理解為包含H×W個網格區域,每個區域是一個D維的深度描述向量,記為{x11,x12,…,xH W}.最終的圖像表示向量記為φ(I).

1) 直接聚合.這類方法采用特定聚合方法對深度卷積特征進行聚合,以得到最終的圖像表示.聚合可以采用經典的BoW,VLAD,FV等,也可以使用(全局)最大匯合(max-pooling)或求和匯合(sum-pooling).

R-MAC[20]對深度卷積特征進行滑動窗采樣,并用最大匯合從這些采樣得到的區域中提取圖像的局部表示:

其中,Ω代表局部卷積區域.和MOP-CNN相比,R-MAC也使用了3種不同大小的滑動窗.不同之處在于,MOP-CNN在輸入圖像上采樣而R-MAC在深度卷積特征上采樣,這使得R-MAC只需前饋網絡一次提取深度特征,比MOP-CNN更加高效.

文獻[50]使用空間最大匯合以提取固定大小的深度特征.這樣,即使輸入圖像的尺寸不一,提取得到的深度特征維數是一致的.文獻[50]采用了1×1和2×2兩種尺度的空間最大匯合,并發現用再大的尺寸會損失性能.文獻[50]用4種圖像尺寸的深度局部表示來進行圖像匹配.和文獻[30]使用的距離度量相同,文獻[50]定義查詢圖像局部區域到數據庫圖像的距離為最小查詢圖像局部表示向量和數據庫圖像局部表示的距離,及定義所有查詢圖像局部區域到數據庫圖像的距離的平均值作為查詢圖像到數據庫圖像的距離.這適用于圖像中目標可以任意大小、出現在任意位置的情形.

文獻[52]提取深度卷積層的特征,并用VLAD進行編碼得到圖像的表示向量.文獻[52]發現隨著提取的特征由淺層特征逐漸到深層特征,檢索性能先上升后下降.這是因為,越深層次的特征提取的語義信息越豐富,但是過深層次的特征包含的細節信息不足,對檢索的判別能力下降.并且,對不同數據集,最適合用于提取特征的卷積層也會不同.總體來說,VGG-16中conv5-1特征更適合用于圖像檢索.

BLCF[53]提取深度卷積層的特征,并用BoW進行編碼得到圖像的表示向量.使用BoW編碼得到的表示向量更加稀疏,在實際中可以利用倒排索引,以達到比VLAD更快的檢索速度.BLCF使用25 000個均值聚類中心.此外,BLCF對深度卷積特征進行雙線性差值上采樣,以獲得更大的深度卷積特征,并避免大尺寸圖像輸入帶來的計算負擔.但是,當數據集中有大量無關圖像存在時,使用BoW編碼的局限逐漸顯露.

SPoC[19]發現深度卷積特征和SIFT特征雖然都是局部特征,但是有不同的性質.經典的編碼方法如VLAD,FV和Triangulation embedding旨在提升經典局部特征如SIFT的判別能力.另一方面,由于深度卷積特征有比經典手工局部特征更高的判別能力,因此,適用于SIFT特征的編碼方式不能簡單移植到深度卷積特征.SPoC發現,直接對深度卷積特征做求和匯合

簡單有效,并可取得比其他常用聚合方法更好的性能.文獻[51]發現,當圖像中目標比較大時,使用求和匯合比最大匯合更好,而當目標比較小時,其背景噪聲會干擾求和匯合的結果.

2) 加權聚合.這類方法延續了直接聚合對深度卷積特征進行編碼的策略,并且在匯合時根據不同位置特征的重要性對深度卷積特征進行加權.我們使用α∈H×W表示空間權重,β∈D表示通道權重,則圖像表示為

其中,⊙代表矩陣的Hadamard乘法,即矩陣對應元素相乘.

SPoC[19]認為圖像中的目標傾向于集中在圖像的幾何中心,因此SPoC在求和匯合時使用了一個高斯權重:

其中,σ設定為圖像中心到圖像最短邊界距離的13.當特征接近圖像中心時,其對應權重較高.和直接求和匯合相比,使用高斯權重能顯著提升性能.SPoC中使用的權重依賴于先驗知識,和數據無關,而下述方法旨在從深度卷積特征中得到用于匯合的權重.

SCDA[54]利用深度卷積特征分布式表示的特性來得到空間權重.SIFT特征結合BoW編碼得到的圖像表示向量每維對應一個明確的概念.與之不同的是,卷積特征中的神經元和概念之間是一個多對多的映射,即每個語義概念由不同神經元表示,而每個神經元又參與到許多不同概念的表示中去[55-56].SCDA認為,雖然一個神經元的響應值對判斷對應區域是否包含目標用處不大,但如果多個神經元同時有很大的響應值,那么該區域很有可能包含目標.

因此,SCDA把特征圖沿通道(channel)方向相加,得到一張2維的“聚合圖”:

之后,根據聚合圖元素是否超過聚合圖的均值

αi j=(Si j≥μ),

CroW[21]同時用了空間和通道方向的加權.空間權重用于凸顯高度活躍的響應值,空間方向的權重是歸一化并根號規范化后的聚合圖:

如果在某個空間位置有多個通道的神經元都有比較大的響應,則該位置包含目標的可能性更大,其對應空間權重αi j也更大.在實驗中發現,大的空間權重αi j對應于圖像中的顯著視覺區域,

CroW的通道權重用于應對“視覺爆發”[57]現象,即圖像中多處出現幾乎相同的局部特征,而這些特征將主導相似度度量.通道權重根據特征圖的稀疏性定義,其類似于自然語言處理中TF-IDF特征中的IDF特征,用于提升不常出現但具有判別能力的特征.CroW首先計算每個特征圖非零元素個數:

之后通道權重定義為

其中,為了表述簡潔,略去了提升數值穩定性的項.

Fig.5 Pipeline of image retrieval using multi-layer fusion圖5 使用多層融合進行圖像檢索的流程圖

并將排序超過N的權重置零.

PWA[23]發現,深度卷積特征的不同通道對應于目標不同部分的響應.因此,PWA選取一系列有判別能力的特征圖,將其歸一化之后的結果作為權重分別進行匯合,并將其結果級聯起來作為最終圖像表示:

PWA根據各特征圖在數據庫圖像上的方差選擇若干特征圖來計算空間權重.PWA首先將深度卷積特征進行求和匯合,之后分別計算各維在數據庫圖像上的方差,并選擇方差最大的若干維對應的特征圖計算空間權重.PWA認為,這些方差最大的特征圖在不同目標上有不同的相應,因此具有很強的判別能力.

上述方法的權重均與類別信息無關,而文獻[22]試圖結合網絡的類別預測信息來使空間權重更具判別能力.具體來說,文獻[22]利用了CAM[59]來獲取預訓練網絡中對應各類別的對具代表性區域的語義信息.對于給定類別k,其CAM結果是特征圖對后續全連接層參數的線性組合:

其中,wk d是對應于第k個類、第d個特征圖的全連接層參數.而文獻[22]使用歸一化的CAM結果作為空間權重:

而通道權重采用和CroW相同的做法.

此外,根據選哪些類別進行CAM的方式不同,文獻[22]進一步可分為OnA和OfA兩種策略.在OnA中,使用對查詢圖像預測概率最高的幾個類別提取CAM,進而對深度卷積特征進行加權.然而,這會影響查詢速度,并且OnA需要事先將數據庫圖像對應所有類別的CAM計算并保存到硬盤,這是很大的計算和存儲開銷.另一方面,在OfA中,使用對數據庫圖像各自預測概率最高的幾個類別提取CAM.OfA比OnA有更強的可擴展性,但OfA的檢索性能不如OnA.

5.3 多層融合

深度特征具有層次性,即從低層到高層是由紋理特征到高層語義特征的轉變.隨著深度的增加,神經元的感受野隨之擴大,更傾向于捕獲全局的語義信息.這類方法旨在使深度神經網絡中不同層特征的信息互補,以綜合不同層特征的不變性和判別能力.由于不同層特征的感受野不同,多層特征融合可以同時捕獲不同尺度下的圖像語義信息[60-61],如圖5所示.圖5中灰色的部分代表這類方法對預訓練模型沒有用到的部分(即全連接層部分).

然而,文獻[17]發現簡單將深度全連接特征級聯起來性能不如只使用單一全連接特征.文獻[51]認為這是因為我們不能給予所有層特征相同的重要性.

文獻[51]采用了在線收集和選擇[62]的方式自適應構造各層特征的權重,該文發現,單獨使用低層特征性能不如單獨使用高層特征,這是因為低層的紋理信息不具有足夠強的判別能力.而多層特征融合取得了比單獨使用特定層特征更好的性能.

SCDA同時使用了VGG-16的relu5-2和pool5特征.SCDA分別提取了relu5-2和pool5的圖像表示向量,并將這兩者加權級聯作為最終表示向量.其中pool5表示的權重為1,而relu5-2的權重為0.5.SCDA發現,relu5-2特征的語義信息不如pool5特征豐富,但relu5-2特征對目標的檢測比pool5更準.融合更低層的層,如pool4,會對性能有些許的損失.此外,SCDA同時使用了原圖輸入和原圖水平翻轉后的輸入來提取深度特征,并級聯為最終圖像表示.

MS-RMAC[63]對VGG-16的relu1-2,relu2-2,relu3-3,relu4-3和relu5-3分別提取R-MAC特征,并將結果加權級聯成最終圖像表示.其中,各層權重是由免參hedge算法[64]得出,其基于各層的檢索精度迭代調整各層權重.MS-RMAC在實驗中發現,relu1-2和relu2-2對應權重為0,relu3-3對應權重不到0.05,relu4-3對應權重接近0.2,而relu5-3對應權重接近0.8.

6 實現細節

為了提高圖像檢索的性能,除了設計出更好的算法流程框架外,本節將簡要介紹一些實現細節.通常情況下,將這些細節結合第5節介紹的算法流程,能提升圖像檢索性能,近年主流的無監督圖像檢索算法如CroW*CroW:https://github.com/yahoo/crow/,Class weightied*Class-weighted convolutional features:https://github.com/imatge-upc/retrieval-2017-cam/,PWA*PWA:https://github.com/XJhaoren/PWA/等均不同程度采用了9種實現細節:

1) 使用ImageNet數據集進行預訓練.ImageNet是一個經常被用于預訓練模型的大規模數據集.ImageNet利用AMT眾包收集,其包含120萬張訓練圖像和5萬張驗證圖像以及1 000個類別.

2) VGGNet[65]是預訓練模型的一個合適選擇.VGGNet是ILSVRC競賽2014年目標競賽任務的冠軍和圖像分類競賽的亞軍.由于VGGNet有良好的泛化性能,其在ImageNet上的預訓練模型被廣泛遷移到其他任務,包括圖像檢索.根據網絡深度的不同,常用VGGNet模型有VGG-16和VGG-19兩種,分別包含16和19個可學習參數的層(即卷積層或全連接層).

3) 使用原圖大小輸入.固定大小圖像輸入有時需要對圖像做下采樣,這會帶來圖像中的一些信息損失,而使用原圖輸入會保留更多的細節信息[51].我們也可以對圖像做上采樣,但要考慮后續特征提取過程中增加的計算開銷.此外,保持原圖長寬比也會帶來更好的性能,這避免了使用固定長寬比帶來的圖像扭曲.

4) 使用經過ReLU激活函數之后的深度特征[18].pool5特征是一個廣泛使用的深度卷積特征,而fc7特征是一個廣泛使用的深度全連接特征.

5) 使用求和匯合.當需要對深度特征進行聚合時,實踐中發現,使用求和匯合通常比BoW,VLAD,FV等經典聚合方法更簡單有效,也會取得比最大匯合及更好的性能[19,21].

當u和v經過2規范化后,即此時:

7) 從另一個獨立的數據集學習PCA的參數.由于深度圖像表示相比經典圖像表示的維數通常更低,學習PCA參數的過擬合風險更高[18-19].因此,實際應用中通常使用另一個相似數據集學習其PCA參數.通常做法是,使用Oxford數據集學習Paris的PCA參數,反之亦然,并使用Flickr100k學習Holidays的參數.

8) 冪律規范化[30,57]有時會提升性能.冪律規范化的提出是為了解決圖像中的“視覺爆發”現象.常見處理方法是對圖像表示做帶符號開根號:

之后再對y做2規范化.

9) 對檢索得到的排序進行后處理.在查詢圖像表示對數據庫圖像表示進行最近鄰搜索之后,將得到一個對數據庫圖像從最相似到最不相似的排序.我們可以進行后處理,對排序結果進行微調.例如查詢展開(query expansion)[68]是將排序最前的幾個(如10個)結果的表示向量求和匯合并2規范化,將其作為新的查詢向量重新進行檢索.這通常會得到2%~3%的mAP提升.此外,空間重排(spatial re-ranking)[28]也是常用的后處理技術,其旨在對圖像局部進行更細的匹配.

7 各算法性能比較

不同圖像檢索算法在Oxford5k,Paris6k,Oxford105k,Paris106k和Holidays數據集上的性能比較見表1.為公平比較,這些結果均沒有使用后處理技術.由于Ukbench數據集近年來使用相對較少,所以在表 1中沒有列出.

Table 1 Comparisons of Different Image Retrieval Approaches表1 不同圖像檢索算法性能比較

Note: The state-of-the-art results are indicated in boldface.

表1由上至下分為5個部分:基于手工特征、基于深度全局特征、基于局部表示聚合、基于深度卷積特征聚合和基于多層融合的圖像檢索算法.可以看出,目前的研究熱點是基于深度局部特征的圖像檢索,尤其在于基于深度卷積特征聚合的圖像檢索算法.這類算法也取得了目前最好的效果.

8 未來研究方向

深度圖像檢索的研究方興未艾,亟待后續研究的進行.本節對圖像檢索的未來研究方向進行展望.

1) 更有效地利用深度卷積特征.影響圖像檢索性能的關鍵是提取得到的圖像表示的質量,而深度卷積特征十分高維且稀疏,具有判別能力的信息隱藏在深度卷積特征中.如何更有效地利用這些深度卷積特征,將成為未來研究的一大突破點.

2) 多層融合.局部特征相比全局特征對圖像的平移、遮擋等更不敏感,通常會取得更好的性能.而另一方面,由于局部特征不包含圖像的全局信息,因此,基于局部特征的檢索將可能返回局部相似的無關圖像.

使用全局特征抑或是局部特征不應是互斥的關系.由于深度卷積神經網絡不同層特征具有層次性,不同層特征的語義信息可以相互補充.此外,多層融合也可以看作是一種集成學習.并且和經典的多模型集成方法相比,這種集成只需要網絡前饋一次,十分高效.

然而,目前在深度特征多層融合方面的研究還較少,其中一個原因是對多層融合應該選擇哪些層、如何做融合這些方面缺乏合適的指導.而且,并不是融合的層越多效果越好,有時甚至會起到相反作用.

3) 特定應用場景下的圖像檢索.本文所介紹的算法均屬于通用圖像檢索算法,即算法不對圖像中目標的內容和性質做出假設.另一方面,我們可以利用圖像中目標的性質以設計針對特定應用場景下的圖像檢索算法,例如多標記圖像檢索[69]、基于草圖的圖像檢索[70]、醫學CT圖像檢索[71]、細粒度圖像檢索[54,72]、場景檢索[73]、行人檢索[74]、車輛檢索[75]、圖標檢索[76]、商品檢索[77]、人臉檢索[78]等.

通用圖像檢索算法的應用范圍更廣,但通用圖像檢索研究和特定應用下的圖像檢索研究兩者不應該是獨立的.通用圖像檢索算法中的設計思想也可以被應用于特定應用下圖像檢索.

4) 檢索效率.由于圖像檢索要面臨非常龐大的數據庫圖像,因此圖像檢索算法效率對該算法能否實際應用至關重要.這包括提取圖像表示的效率和對查詢圖像進行檢索的效率.

目前,基于深度卷積特征聚合的方法比基于局部表示聚合的方法有更廣的應用,其中一個原因即是基于深度卷積特征聚合的方法更加高效.另一方面,乘積量化(product quantization)[79]和Hash[34]是常用的快速檢索算法.

雖然目前的研究工作對檢索性能更加看重,但檢索效率仍是不容忽視的重要方面.基于深度特征的方法近年來取得了突出進展,然而,深度學習模型需要占用大量的與計算相關的資源.因此目前深度學習領域的一個熱點是研究資源受限的深度學習[80].

5) 更大更高質量更通用的標準數據集.目前圖像檢索研究中主流使用的標準數據集,盡管可供選擇的余地不小,但都存在一個共同的不足之處:規模還比較小,檢索內容也比較單一(如集中在建筑物、風景、室內物體中).而圖像檢索是一個與實際應用密切相關的研究領域,若想使圖像檢索在實際場景中得到廣泛應用,就不得不考慮諸如光照、模糊、遮擋、低分辨率、物體干擾等復雜場景下的圖像檢索問題.因此,構建更大、更高質量、更通用的標準數據集成為了未來亟需解決的一大問題.

9 總 結

圖像檢索是計算機視覺領域一個重要的研究方向,而深度特征的出現為其帶來了新的發展機遇.本文對基于經典手工特征的圖像檢索方法做簡要回顧,并從深度全局特征和深度局部特征2個角度,對近年來基于深度特征的圖像檢索的代表算法予以綜述.并介紹了常用數據集和對該領域未來可能的發展機遇進行展望.

猜你喜歡
深度特征區域
深度理解一元一次方程
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
關于四色猜想
分區域
基于嚴重區域的多PCC點暫降頻次估計
電測與儀表(2015年5期)2015-04-09 11:30:52
主站蜘蛛池模板: 日韩无码视频专区| 国产精品流白浆在线观看| 色婷婷狠狠干| 精品無碼一區在線觀看 | 国产精品极品美女自在线网站| 在线观看国产精美视频| 国产h视频免费观看| 在线日韩日本国产亚洲| 精品久久蜜桃| 久久婷婷六月| 第九色区aⅴ天堂久久香| 青青草国产免费国产| 免费在线a视频| 四虎永久免费地址| 日本黄色a视频| 欧洲av毛片| 免费看黄片一区二区三区| 国产成人精品视频一区视频二区| 伊人久久大香线蕉aⅴ色| 亚洲欧美日韩久久精品| 性色一区| 无码精品国产dvd在线观看9久| 亚洲三级片在线看| 国产成人夜色91| 中文字幕亚洲第一| 亚洲成a∧人片在线观看无码| 国产在线精彩视频二区| 视频二区中文无码| 国产成人亚洲精品蜜芽影院| 亚洲欧洲日韩久久狠狠爱| 天堂网国产| 99热在线只有精品| 国产精品香蕉| 真实国产乱子伦高清| 国产爽妇精品| 不卡色老大久久综合网| 国产网友愉拍精品| 最新精品久久精品| 日韩高清成人| 国产美女丝袜高潮| 91在线高清视频| 久久久久久久久久国产精品| 九九精品在线观看| 国产午夜福利亚洲第一| 香蕉国产精品视频| 亚洲成人在线免费| 狠狠躁天天躁夜夜躁婷婷| 国产午夜看片| 国产特级毛片| 免费女人18毛片a级毛片视频| 国产精品区视频中文字幕| 久久亚洲国产最新网站| 欧美一区二区自偷自拍视频| 亚洲另类第一页| 欧美性爱精品一区二区三区| 亚洲欧洲日本在线| 日本AⅤ精品一区二区三区日| 成人国产精品一级毛片天堂| 精品一区二区无码av| 国产一区二区影院| 一级毛片在线播放| 欧洲熟妇精品视频| 毛片免费高清免费| 国产一二三区视频| 伊人久久婷婷五月综合97色 | 久久窝窝国产精品午夜看片| 日本91在线| 亚洲国产综合自在线另类| 精品一区二区三区视频免费观看| 成人av专区精品无码国产| 久久国产精品娇妻素人| 国产精品香蕉在线观看不卡| 久久午夜夜伦鲁鲁片不卡| 亚瑟天堂久久一区二区影院| 国产麻豆另类AV| 日韩视频福利| 老司机aⅴ在线精品导航| 国产欧美高清| 无码AV动漫| 天天摸夜夜操| 免费人成视频在线观看网站| 老司机久久99久久精品播放|