












摘 要:針對基于深度哈希的圖像檢索中卷積神經(jīng)網(wǎng)絡(luò)(CNN)特征提取效率較低和特征相關(guān)性利用不充分的問題,提出一種融合稀疏差分網(wǎng)絡(luò)和多監(jiān)督哈希的新方法SDNMSH(sparse difference networks and multi-supervised hashing),并將其用于高效圖像檢索。SDNMSH以成對的圖像作為訓(xùn)練輸入,通過精心設(shè)計(jì)的稀疏差分卷積神經(jīng)網(wǎng)絡(luò)和一個(gè)監(jiān)督哈希函數(shù)來指導(dǎo)哈希碼學(xué)習(xí)。稀疏差分卷積神經(jīng)網(wǎng)絡(luò)由稀疏差分卷積層和普通卷積層組成。稀疏差分卷積層能夠快速提取豐富的特征信息,從而實(shí)現(xiàn)整個(gè)網(wǎng)絡(luò)的高效特征提取。同時(shí),為了更加充分地利用語義信息和特征的成對相關(guān)性,以促進(jìn)網(wǎng)絡(luò)提取的特征信息能夠更加有效地轉(zhuǎn)換為具有區(qū)分性的哈希碼、進(jìn)而實(shí)現(xiàn)SDNMSH的高效圖像檢索,采用一種多監(jiān)督哈希(MSH)函數(shù),并為此設(shè)計(jì)了一個(gè)目標(biāo)函數(shù)。在MNIST、CIFAR-10和NUS-WIDE三個(gè)廣泛使用的數(shù)據(jù)集上進(jìn)行了大量的對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,與其他先進(jìn)的深度哈希方法相比,SDNMSH取得了較好的檢索性能。
關(guān)鍵詞:圖像檢索;特征提取;特征相關(guān)性;稀疏差分網(wǎng)絡(luò);多監(jiān)督哈希
中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A
文章編號:1001-3695(2022)07-048-2217-07
doi:10.19734/j.issn.1001-3695.2021.11.0602
基金項(xiàng)目:國家自然科學(xué)基金資助項(xiàng)目(62003191);山東省自然科學(xué)基金資助項(xiàng)目(ZR2014FM016)
作者簡介:張志升(1995-),男,河南蘭考人,碩士研究生,主要研究方向?yàn)槟J阶R(shí)別、基于深度學(xué)習(xí)的圖像檢索;曲懷敬(1965-),男(通信作者),山東煙臺(tái)人,教授,碩導(dǎo),博士,主要研究方向?yàn)槟J阶R(shí)別、基于多尺度變換和深度學(xué)習(xí)的圖像處理(quhuaijing@sdjzu.edu.cn);徐佳(1995-),男,山東菏澤人,碩士,主要研究方向?yàn)槟J阶R(shí)別、紋理圖像檢索;王紀(jì)委(1993-),男,河南周口人,碩士,主要研究方向?yàn)槟J阶R(shí)別、圖像融合;魏亞南(1995-),女,山東濟(jì)寧人,碩士研究生,主要研究方向?yàn)槟J阶R(shí)別、圖像融合;謝明(1997-),男,河南周口人,碩士,主要研究方向?yàn)槟J阶R(shí)別、基于深度學(xué)習(xí)的圖像融合;張漢元(1991-),男,山東濟(jì)寧人,副教授,碩導(dǎo),博士,主要研究方向?yàn)榻ㄖO(shè)備智能化與能效管理.
Sparse difference network and multi-supervised hashing for efficient image retrieval
Zhang Zhisheng,Qu Huaijing?,Xu Jia,Wang Jiwei,Wei Yanan,Xie Ming,Zhang Hanyuan
(School of Information amp; Electric Engineering,Shandong Jianzhu University,Jinan 250101,China)
Abstract:In image retrieval based on deep hashing,to solve the problems of low feature extraction efficiency in convolutional neural networks(CNN) and underutilization of feature correlation,this paper proposed a novel method combining sparse diffe-rence network and multi-supervised hashing(SDNMSH),and used it for efficient image retrieval.SDNMSH took pairs of images as training inputs,and guided hash codes learning through an elaborately designed sparse difference convolutional neural network and a supervised hash function.The sparse difference convolutional layer and the vanilla convolutional layer composed the sparse difference convolutional neural network.The sparse difference convolutional layer could quickly extract rich feature information,to achieve efficient feature extraction of the entire network.At the same time,in order to make full use of the pairwise correlation of semantic information and features,so as to promote the feature information extracted by the network to be more effectively transformed into discriminative hash codes,and then to achieve efficient image retrieval by using SDNMSH,this paper adopted a multi-supervised hash(MSH) function and designed an objective function for this purpose.Extensive experimental results on three widely used datasets MNIST,CIFAR-10 and NUS-WIDE show that SDNMSH achieves better retrieval perfor-mance,compared with the state-of-the-arts.
Key words:image retrieval;feature extraction;feature correlation;sparse difference network;multi-supervised hashing
0 引言
在數(shù)字圖像數(shù)量高速增長的時(shí)代,如何從浩如煙海的圖像數(shù)據(jù)中高效檢索到感興趣的目標(biāo)是計(jì)算機(jī)視覺研究領(lǐng)域的熱點(diǎn)之一,并且在日常生活、工農(nóng)業(yè)、國防、軍事等方面,圖像檢索也有著廣泛的應(yīng)用價(jià)值。然而,對于大型數(shù)據(jù)庫,圖像檢索通常存在著存儲(chǔ)空間大、檢索時(shí)間長、特征提取效率低以及特征相關(guān)性利用不充分等一系列問題。為此,研究者提出了近似最近鄰(approximate nearest neighbor,ANN)的搜索方法,它能夠在保持較好檢索效果的同時(shí),極大地降低對存儲(chǔ)空間和檢索時(shí)間的需求,在大規(guī)模數(shù)據(jù)檢索中得到廣泛的應(yīng)用[1]。在基于ANN的圖像檢索中,哈希檢索是具有代表性的一種方法。在傳統(tǒng)手工設(shè)計(jì)的哈希方法中,最具有代表性的是局部敏感哈希(locality sensitive hashing,LSH)[2]和核局部敏感哈希(kerne-lized locality sensitive hashing,KLSH)[3],它們均屬于數(shù)據(jù)獨(dú)立的哈希方法。與此相對應(yīng)的是數(shù)據(jù)相關(guān)的哈希方法,且根據(jù)其使用數(shù)據(jù)標(biāo)簽情況的不同,主要分為有監(jiān)督和無監(jiān)督的哈希。具有代表性的無監(jiān)督哈希有譜哈希(spectral hashing,SH)[4]和迭代量化(iterative quantization,ITQ)[5]。而典型的有監(jiān)督方法包括最小損失哈希(minimal loss hashing,MLH)[6]、基于內(nèi)核的監(jiān)督哈希(kernel-based supervised hashing,KSH)[7]和二元重建嵌入(binary reconstructive embedding,BRE)[8]等。
傳統(tǒng)的哈希方法通常表現(xiàn)出了較好的性能,但其在提取更加復(fù)雜的語義信息方面表現(xiàn)較差,并且難以勝任大規(guī)模的圖像檢索任務(wù)。近年來,隨著基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)越來越復(fù)雜,由這種網(wǎng)絡(luò)提取的特征信息更加豐富和抽象。與此相關(guān)地,各種基于深度哈希的圖像檢索性能也表現(xiàn)優(yōu)異,具有代表性的有Xia等人[9]提出的一種與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的哈希方法CNNH(conventional neural network hashing)。但是,這種方法的哈希碼更新的信息不能反饋到特征學(xué)習(xí)過程。為此,Lai等人[10]提出了一個(gè)端到端學(xué)習(xí)的哈希方法NINH(network in network hashing)。為了減少哈希碼比特冗余,Yao等人[11]利用正交約束提出了一種具有深度語義保持和基于排序哈希的方法DSRH(deep semantic preserving and ranking-based ha-shing)。最近,研究者更為關(guān)注如何提高檢索的效率和哈希碼的區(qū)分能力。Zhang等人[12]提出了一種碼位可擴(kuò)展的深度哈希方法DRSCH(
deep regularized similarity comparison hashing),它使用一個(gè)加權(quán)方法來生成長度可伸縮的哈希碼。Lin等人[13]提出一種深度判別哈希方法DDH(discriminative deep hashing),采用了一個(gè)分塊編碼模塊以提高哈希碼的區(qū)分性。為了充分利用語義的相似性,Liu等人[14]通過利用成對語義相似性來生成緊湊的哈希碼而提出一種有監(jiān)督的深度哈希方法DSH(deep supervised hashing),它最大的特點(diǎn)就是訓(xùn)練與檢索的快速性。而文獻(xiàn)[15]是在文獻(xiàn)[14]的基礎(chǔ)之上使用了微調(diào)等多種方法的改進(jìn)版,因發(fā)表于2019年,為了區(qū)分,記為DSH-19。雖然文獻(xiàn)[14,15]使用了成對語義相似性來保持哈希碼的相似性學(xué)習(xí),但是這些方法并未充分利用成對特征的相關(guān)性。為此,Chen等人[16]提出了一種新的成對相關(guān)離散哈希方法,它利用特征和語義監(jiān)督信息來學(xué)習(xí)一個(gè)哈希函數(shù),但是該方法由于使用了兩個(gè)tanh激活函數(shù),導(dǎo)致其訓(xùn)練速度較慢。
在基于深度哈希的圖像檢索系統(tǒng)中,通常是通過學(xué)習(xí)一個(gè)哈希函數(shù)來得到哈希碼表示,這需要深度哈希網(wǎng)絡(luò)能夠提取有效的特征信息。目前,大多數(shù)研究者都是從哈希函數(shù)和網(wǎng)絡(luò)結(jié)構(gòu)等入手來提升圖像檢索性能。然而,很少有通過改進(jìn)網(wǎng)絡(luò)卷積層來提高特征提取能力、促進(jìn)網(wǎng)絡(luò)整體性能的改善,進(jìn)而達(dá)到改善系統(tǒng)檢索性能的目的。近年來,在計(jì)算機(jī)視覺領(lǐng)域中,差分卷積因其能夠有效地促進(jìn)特征信息的提取、適用性強(qiáng),而得到廣泛應(yīng)用。例如,將局部二值模式[17]應(yīng)用到CNN中的局部二值卷積神經(jīng)網(wǎng)絡(luò)[18],應(yīng)用于人臉活體檢測中的中心差分卷積[19],在手勢和動(dòng)作識(shí)別中應(yīng)用的時(shí)空差分卷積[20],在邊緣檢測中應(yīng)用的像素差分網(wǎng)絡(luò)[21]等。
針對上述基于深度哈希的圖像檢索中CNN特征提取效率較低和特征相關(guān)性利用不充分等問題,同時(shí)受文獻(xiàn)[16,18,19]的啟發(fā),本文提出一種將稀疏差分網(wǎng)絡(luò)和多監(jiān)督哈希結(jié)合的新方法(簡稱為SDNMSH方法),并用于高效圖像檢索。首先,設(shè)計(jì)了一種稀疏差分卷積層,以快速提取豐富的特征信息,它有兩種類型,其中一種類型是只能提取梯度特征信息,記為SDC層;另一種類型可以同時(shí)提取強(qiáng)度特征信息和梯度特征信息[19],記為SDC+層。此外,由稀疏差分卷積層參與組成的網(wǎng)絡(luò)結(jié)構(gòu)稱為稀疏差分卷積神經(jīng)網(wǎng)絡(luò),簡稱稀疏差分網(wǎng)絡(luò)(sparse difference network,SDN)。然后,針對提出的稀疏差分網(wǎng)絡(luò)結(jié)構(gòu)特點(diǎn),采用一種多監(jiān)督哈希函數(shù),簡稱為MSH,它具有哈希層的監(jiān)督、特征層(本文將所使用的網(wǎng)絡(luò)中第一個(gè)全連接層稱為特征層)的監(jiān)督和分類層的監(jiān)督三種監(jiān)督形式。這三種監(jiān)督能夠充分地利用語義信息和特征的成對相關(guān)性,以促進(jìn)哈希層輸出近似離散的哈希碼。同時(shí),為了更好地驗(yàn)證所提方法,在文獻(xiàn)[15]提出哈希框架的基礎(chǔ)上對其進(jìn)行改進(jìn),以提升其整體性能。最后,利用三種廣泛使用的數(shù)據(jù)集,將本文方法用于圖像檢索、并進(jìn)行檢索性能的評估實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果驗(yàn)證了其有效性。
本文主要的貢獻(xiàn)如下:
a) 設(shè)計(jì)了一種稀疏差分卷積層,它可以同時(shí)提取強(qiáng)度特征信息和梯度特征信息,由其組成的網(wǎng)絡(luò)結(jié)構(gòu)不僅提取的特征更豐富,而且在訓(xùn)練階段更節(jié)省時(shí)間。據(jù)了解,這是第一次將差分卷積引入到圖像檢索系統(tǒng)中。
b) 針對提出的網(wǎng)絡(luò)結(jié)構(gòu)特點(diǎn),設(shè)計(jì)了一種多監(jiān)督哈希函數(shù),它能充分地利用語義信息和特征的成對相關(guān)性,并嚴(yán)格監(jiān)督網(wǎng)絡(luò)的輸出,從而保證得到緊湊且具有區(qū)分性的哈希碼。
c) 所提SDNMSH方法不僅在淺層網(wǎng)絡(luò)中表現(xiàn)突出,而且在深層網(wǎng)絡(luò)中也有著很好的適用性。此外,它還大幅度提升了文獻(xiàn)[15]的整體性能。
d) 在三種廣泛使用的數(shù)據(jù)集上進(jìn)行的圖像檢索性能評估實(shí)驗(yàn)結(jié)果表明,SDNMSH方法優(yōu)于其他先進(jìn)的哈希方法。
1 本文方法
在現(xiàn)有基于深度哈希圖像檢索方法中存在普通CNN的特征提取效率較低和特征相關(guān)性利用不充分兩個(gè)問題。為此,本文提出一種新的深度哈希方法SDNMSH,該方法主要由用于有效提取特征信息的稀疏差分網(wǎng)絡(luò)SDN和將特征信息映射為離散哈希碼的多監(jiān)督哈希MSH兩大部分組成。
1.1 稀疏差分網(wǎng)絡(luò)
眾所周知,普通卷積層的權(quán)重系數(shù)在訓(xùn)練開始時(shí)由初始化方式得來(如文獻(xiàn)[14]使用的“Xavier”初始化方法[22]等),因此其學(xué)習(xí)需要較長的時(shí)間。另一方面,普通卷積神經(jīng)網(wǎng)絡(luò)在訓(xùn)練初期權(quán)重學(xué)習(xí)相對較慢,其提取的僅是強(qiáng)度特征信息,因此網(wǎng)絡(luò)整體性能提升緩慢,這些在文獻(xiàn)[18,19]中也均有表現(xiàn)。具體地,對于普通卷積,若設(shè)x表示輸入特征圖,yc表示輸出特征圖,則有
其中:R為特征圖x的局部采樣區(qū)域;e0表示輸入和輸出特征圖的當(dāng)前位置,yc(e0)表示yc在e0位置的值;ei表示e0和其鄰域位置,以3×3大小的濾波器為例,其9個(gè)位置如圖1所示,則ei∈R={e0,e1,e2,e3,e4,e5,e6,e7,e8};x(ei)表示x在ei位置的值;wc表示濾波器的權(quán)重,wc(ei)表示濾波器在ei位置的值。
為了加快卷積層的學(xué)習(xí),并豐富其提取的特征信息,受文獻(xiàn)[18]的啟發(fā),設(shè)計(jì)了一組稀疏差分卷積濾波器,它具有八個(gè)互異的、大小均為3×3的卷積濾波器,這些濾波器可以提取不同方向的梯度信息。其中,每個(gè)卷積濾波器都是一個(gè)2-稀疏差分濾波器,即其中心位置e0的元素值為-1,八個(gè)鄰域的元素中只有一個(gè)非零元素,其值為1。與文獻(xiàn)[18]不同的是,考慮到這組權(quán)值固定(不可學(xué)習(xí))的卷積濾波器提取到的特征圖僅有八種類型,為了使得提取的特征信息更加豐富,本文為每組卷積濾波器設(shè)計(jì)了一個(gè)可學(xué)習(xí)的尺度參數(shù)λ,這樣提取到的特征圖也更加多樣化。為了和前述的稀疏差分卷積層類型(即SDC層)相對應(yīng),這種特征提取方法記為SDC方法。具體地,若設(shè)u表示固定權(quán)值的稀疏差分卷積濾波器,則本文提出的可學(xué)習(xí)權(quán)重ws可表示為式(2),特征圖ys由式(3)計(jì)算得到。
其中:ys(e0)表示ys在e0位置的值;x(e0)表示x在e0位置的值;ws(ei)表示ws在ei位置的值;u(ei)表示濾波器u在ei位置的值;Lu(ei)=1表示權(quán)重u中值為1的元素對應(yīng)的位置,x(Lu(ei)=1)表示x在Lu(ei)=1位置的值。由式(2)和(3)可見,對一個(gè)32通道的卷積層,可學(xué)習(xí)的參數(shù)λ使得稀疏差分卷積濾波器具有四組、共32個(gè)不同尺度大小的卷積濾波器,從而保證提取的梯度信息更加豐富,同時(shí)又不改變差分的性質(zhì)。顯然,這種稀疏差分卷積相較于普通卷積,由于權(quán)重系數(shù)為固定的2-稀疏差分形式,所以它具有特征提取速度快、學(xué)習(xí)時(shí)間短等優(yōu)點(diǎn),并且在初始訓(xùn)練階段就可以快速提取豐富的梯度信息。另外,SDC層的可學(xué)習(xí)參數(shù)數(shù)量也顯著減少,具體地,以一個(gè)輸入通道數(shù)為a,輸出通道數(shù)為b、濾波器大小為c×d的卷積層為例,則普通卷積層可學(xué)習(xí)參數(shù)數(shù)量為a×c×d×b,而稀疏差分卷積層可學(xué)習(xí)參數(shù)數(shù)量為a×b,其可學(xué)習(xí)參數(shù)數(shù)量降低了c×d倍。
為了充分利用梯度特征信息和強(qiáng)度特征信息,以豐富特征信息的多樣性,同文獻(xiàn)[19]類似,本文將稀疏差分卷積與普通卷積相結(jié)合。同樣地,為了和前述的稀疏差分卷積層類型(即SDC+層)相對應(yīng),這種特征提取方法記為SDC+方法。具體地,其輸出特征圖y可由式(1)和(3)計(jì)算得到,即
其中:y(e0)表示y在e0位置的值。由式(4)可見,與普通卷積層相比,SDC+層可學(xué)習(xí)參數(shù)僅有少量增加。同樣以一個(gè)輸入通道為a,輸出通道為b的濾波器為c×d大小的卷積層為例,SDC+層的可學(xué)習(xí)參數(shù)數(shù)量為a×(c×d+1)×b,僅是普通卷積層可學(xué)習(xí)參數(shù)數(shù)量的(c×d+1)/(c×d)倍。
為了便于區(qū)分,將有SDC層和SDC+層參與組成的稀疏差分網(wǎng)絡(luò)結(jié)構(gòu)分別記為SDCNN和SDCNN+。同理,將SDCNN和SDCNN+與多監(jiān)督哈希MSH分別結(jié)合的哈希方法記為SDNMSH和SDNMSH+。圖2為SDNMSH的網(wǎng)絡(luò)框架,它以文獻(xiàn)[15]的網(wǎng)絡(luò)框架為基礎(chǔ),包含三個(gè)卷積層、三個(gè)池化層和三個(gè)全連接層。其中,稀疏差分卷積層使用32個(gè)3×3大小的卷積核,普通卷積層分別使用32和64個(gè)5×5大小的卷積核,三個(gè)卷積層步長均為1,且均使用ReLU激活函數(shù);池化層采用3×3大小的濾波器,步長均為2;對于三個(gè)全連接層,其中特征層有500單元且使用tanh激活函數(shù)(與文獻(xiàn)[15]不同),哈希層和分類層分別具有K和C個(gè)單元。
1.2 多監(jiān)督哈希
為了充分利用成對語義信息和特征相關(guān)性,針對上述網(wǎng)絡(luò)的特點(diǎn)設(shè)計(jì)了一種哈希函數(shù),它由哈希層、特征層和分類層的監(jiān)督三部分組成,將這三者結(jié)合在同一模型中進(jìn)行學(xué)習(xí),實(shí)現(xiàn)輸入圖像到離散哈希碼的有效映射。同時(shí),這三種監(jiān)督分別對應(yīng)各自的目標(biāo)損失函數(shù),最終構(gòu)成用于優(yōu)化的總目標(biāo)損失函數(shù)。
1.2.1 哈希層監(jiān)督
對于給定的訓(xùn)練樣本集中的N幅圖像X={x1,x2,…,xN},其對應(yīng)的標(biāo)簽為Y={y1,y2,…,yN}。本文以最小批次訓(xùn)練樣本構(gòu)成圖像對xi、xj和標(biāo)簽對yi、yj作為輸入。則成對的圖像對應(yīng)相似語義標(biāo)簽為S={sij},其中sij∈{0,1},其中,若輸入圖像對xi和xj相似,則語義標(biāo)簽sij=1,否則sij=0。本文的最終目標(biāo)是得到離散的二進(jìn)制碼,即通過學(xué)習(xí)一個(gè)非線性映射函數(shù)F,使X中的每幅圖像xi的RGB空間特征信息均被映射到K-bit二進(jìn)制碼bi∈{-1,1}K,即F:X={x1,x2,…,xN}→{-1,1}N×K,從而達(dá)到使用簡單而又具有區(qū)分性的K-bit哈希碼來有效地表征原圖像特征信息的目的。
對于成對圖像xi和xj,在非線性映射函數(shù)F下,有F:xi,xj→bi,bj。為了使語義相似的圖像對所對應(yīng)的哈希碼互相靠近,而語義不相似的圖像對所對應(yīng)的哈希碼互相遠(yuǎn)離,可使用對比損失[23]定義哈希層對應(yīng)的目標(biāo)損失函數(shù)。
其中:DH(bi,bj)為哈希碼bi和bj之間的漢明距離; max(·)是最大值運(yùn)算函數(shù);m為邊界閾值參數(shù)。在式(5)中,前一項(xiàng)促使語義相似的圖像對所對應(yīng)哈希碼間的漢明距離縮小;當(dāng)漢明距離小于m時(shí),后一項(xiàng)使不相似圖像對所對應(yīng)哈希碼間的漢明距離增大。另外,式(5)中采用對比損失的形式是為了防止崩潰情況的發(fā)生[14,23]。
然而,由于式(5)中的漢明距離DH是離散函數(shù),故在最小化損失過程中,它是不可導(dǎo)的,這就造成了漢明距離難以直接被優(yōu)化,所以,可使用歐氏距離來替代漢明距離,相應(yīng)地,將式(5)替換為
其中:‖·‖2表示向量的l2范數(shù);bhi和bhj是由哈希層輸出圖像對xi和xj分別對應(yīng)的類哈希碼,它們經(jīng)sign(·)函數(shù)量化,可得到式(5)中的哈希碼bi和bj,即
另一方面,如果僅僅使用歐氏距離代替漢明距離,就會(huì)出現(xiàn)次優(yōu)哈希碼的問題。對此,一般有使用tanh或sigmoid函數(shù)和正則化項(xiàng)兩種解決途徑。通常,前者使哈希層輸出特征向量的值逼近閾值,但是,易出現(xiàn)更新梯度緩慢,甚至消失等問題;而后者可以使哈希層輸出特征向量的值逼近理想值(+1或-1)[14]。因此,為節(jié)省訓(xùn)練時(shí)間,本文選擇后者。相應(yīng)地,在式(6)中增加一個(gè)正則化項(xiàng)[14],即
其中:‖·‖1表示向量的l1范數(shù);α為正則化項(xiàng)的懲罰因子;1為K維全為1的特征向量。
1.2.2 特征層監(jiān)督
研究表明,如果加入特征層的監(jiān)督信息,則非常有助于哈希層輸出近似離散的哈希碼,這一點(diǎn)也在本文實(shí)驗(yàn)中得到了驗(yàn)證。定義特征層監(jiān)督對應(yīng)的目標(biāo)損失函數(shù)為[16]
其中:fi、fj分別是圖像對xi和xj對應(yīng)于特征層輸出的特征向量。與哈希層類似,式(10)的前一項(xiàng)使語義相同圖像對所對應(yīng)的特征向量被拉近,而后一項(xiàng)使歐氏距離小于閾值m的不同語義圖像對所對應(yīng)的特征向量彼此遠(yuǎn)離。
1.2.3 分類層監(jiān)督
眾所周知,在分類任務(wù)中,分類層的標(biāo)簽信息起著至關(guān)重要的作用。標(biāo)簽信息在分類層中嚴(yán)格監(jiān)督著每一個(gè)類別概率的生成,這樣,被充分利用的語義信息既是對哈希層監(jiān)督和特征層監(jiān)督的有效補(bǔ)充,也有利于哈希層的學(xué)習(xí)[24,25]。因此,本文將交叉熵?fù)p失函數(shù)選做分類層監(jiān)督對應(yīng)的損失函數(shù),即
其中:i和j分別對應(yīng)圖像對xi和xj在分類層輸出的特征向量,即xi和xj的預(yù)測標(biāo)簽。
由上述分析可知,特征層監(jiān)督、哈希層監(jiān)督和分類層監(jiān)督三者對應(yīng)的三個(gè)目標(biāo)損失函數(shù)相互融合、相互補(bǔ)充。如果將這些損失函數(shù)有機(jī)地結(jié)合在一起,預(yù)計(jì)會(huì)得到一個(gè)功能強(qiáng)大的監(jiān)督哈希函數(shù),為此,本文將式(9)~(11)相結(jié)合組成一個(gè)總的目標(biāo)損失函數(shù),即
其中:γ和η分別為控制Lf和Lc權(quán)重的參數(shù)。同時(shí),為了保證所提出的深度哈希性能最優(yōu),并使用Adam[26]優(yōu)化器最小化式(12),即
綜上所述,對于輸入的查詢圖像和待檢索圖像,由稀疏差分卷積神經(jīng)網(wǎng)絡(luò)提取它們豐富的特征信息,從而得到輸入圖像的有效特征表示;然后由多監(jiān)督哈希MSH函數(shù)將其映射為具有區(qū)分性的哈希碼;最后,計(jì)算查詢圖像和待檢索圖像所對應(yīng)哈希碼的漢明距離并對其進(jìn)行排序,根據(jù)排序信息便可檢索到與查詢圖像相似的圖像。為了實(shí)現(xiàn)高效的圖像檢索,SDNMSH方法將稀疏差分網(wǎng)絡(luò)和多監(jiān)督哈希結(jié)合在同一個(gè)模型框架中進(jìn)行端到端學(xué)習(xí)(圖2),即同時(shí)進(jìn)行特征學(xué)習(xí)和哈希碼學(xué)習(xí)。通過Adam優(yōu)化器對式(13)的優(yōu)化,促進(jìn)了整個(gè)網(wǎng)絡(luò)的權(quán)重更新,從而使網(wǎng)絡(luò)可以學(xué)習(xí)到更加有效的特征表示,而有效的特征表示將更加有助于哈希函數(shù)的學(xué)習(xí),最終將促進(jìn)模型學(xué)習(xí)到輸入圖像對應(yīng)的哈希碼表示。
SDNMSH方法的哈希碼學(xué)習(xí)過程可概括為算法1。
算法1 SDNMSH的算法
輸入:N幅圖像X={x1,x2,…,xN} ;標(biāo)簽Y={y1,y2,…,yN}。
輸出:哈希碼bi和bj。
初始化網(wǎng)絡(luò)各層的權(quán)重參數(shù);
循環(huán):
以最小批次的訓(xùn)練樣本分別構(gòu)成圖像對xi、xj,標(biāo)簽對yi、yj和成對標(biāo)簽S;
將xi、xj、yi、yj和S分別輸入到所提出的網(wǎng)絡(luò)中,得到bhi、bhj、fi、fj、i和j;
將bhi、bhj、fi、fj、i和j代入式(12)計(jì)算總損失;
由優(yōu)化器Adam優(yōu)化式(13),并更新網(wǎng)絡(luò)各層權(quán)重參數(shù);
直到訓(xùn)練次數(shù)達(dá)到設(shè)定的epoch;
據(jù)式(7)和(8),將bhi和bhj轉(zhuǎn)換為哈希碼bi和bj。
2 實(shí)驗(yàn)與討論
2.1 實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)分為預(yù)訓(xùn)練和微調(diào)兩個(gè)部分。對于每一個(gè)數(shù)據(jù)集,首先預(yù)訓(xùn)練一個(gè)可輸出12-bit哈希碼的基礎(chǔ)模型,然后對該模型進(jìn)行微調(diào)。在微調(diào)實(shí)驗(yàn)中,模型采用長度分別為16-bit、24-bit、32-bit和48-bit的哈希碼。
1)數(shù)據(jù)集 為了有效地驗(yàn)證本文方法在不同數(shù)據(jù)集中的有效性、可行性和先進(jìn)性,以及為了方便與其他方法進(jìn)行對比,同文獻(xiàn)[9,27],本文實(shí)驗(yàn)在MNIST、CIFAR-10和NUS-WIDE三個(gè)已被該領(lǐng)域研究者們廣泛使用的數(shù)據(jù)集中進(jìn)行。另一方面,所選擇的數(shù)據(jù)集既有灰度圖像數(shù)據(jù)集、彩色圖像數(shù)據(jù)集,又有單標(biāo)簽數(shù)據(jù)集、多標(biāo)簽數(shù)據(jù)集,而且數(shù)據(jù)集規(guī)模均不相同,這些都有利于測試本文方法在不同類型數(shù)據(jù)集中的性能表現(xiàn)。
MNIST是一個(gè)包含10個(gè)類別、7萬幅28×28大小、單標(biāo)簽、灰色圖像數(shù)據(jù)集。它有1萬幅圖像組成測試集和6萬幅圖像組成訓(xùn)練集。本文使用原訓(xùn)練集和測試集作為實(shí)驗(yàn)的訓(xùn)練集和測試集。
CIFAR-10是一個(gè)包含有10個(gè)類別、6萬幅32×32大小、單標(biāo)簽、彩色圖像數(shù)據(jù)集。其中,1萬幅圖像組成測試集,5萬幅圖像組成訓(xùn)練集。本文使用原訓(xùn)練集和測試集作為實(shí)驗(yàn)的訓(xùn)練集和測試集。
NUS-WIDE包含81個(gè)類別、269 648幅圖像、多標(biāo)簽、彩色圖像數(shù)據(jù)集,本文選取最常用的21個(gè)類別,每個(gè)類別均超過5 000幅圖像,共計(jì)195 834幅圖像。其中:隨機(jī)選取10 000幅圖像用做測試集和查詢集,其余用做訓(xùn)練集和數(shù)據(jù)庫。
在實(shí)驗(yàn)過程中,對于深度哈希方法,MNIST和CIFAR-10數(shù)據(jù)集使用原圖像作為輸入,NUS-WIDE數(shù)據(jù)集使用將原圖像縮小為64×64像素大小的圖像作為輸入;對于傳統(tǒng)哈希方法,參照文獻(xiàn)[27],本文利用512維GIST特征作為CIFAR-10、MNIST和NUS-WIDE數(shù)據(jù)集的輸入;對于利用深度特征的非深度哈希方法(如MLH-CNN[6]、KSH-CNN[7]和BRE-CNN[8]方法),采用從AlexNet[28]中提取的4 096維深度特征來表征CIFAR-10、MNIST和NUS-WIDE數(shù)據(jù)集中的每幅圖像。
2)評價(jià)指標(biāo) 采用不同哈希碼碼長對應(yīng)的平均準(zhǔn)確率均值(mAP)、哈希碼碼長12 bit對應(yīng)的準(zhǔn)確率與召回率(precision-recall,P-R)曲線來評估算法的性能。其中:對于mAP分?jǐn)?shù),NUS-WIDE數(shù)據(jù)集返回前5 000幅圖像用于計(jì)算,其他數(shù)據(jù)集則返回全部圖像用于計(jì)算。
3)參數(shù)設(shè)置 所有實(shí)驗(yàn)均是在一臺(tái)配置為GeForce GTX 1060 6 GB GPU、Intel Core i7-8700 CPU、16 GB RAM的計(jì)算機(jī)中實(shí)現(xiàn)的。對于單標(biāo)簽數(shù)據(jù)集,預(yù)訓(xùn)練初期的學(xué)習(xí)率設(shè)為0.001,100個(gè)epoch(訓(xùn)練集的訓(xùn)練輪數(shù))后降到0.000 1,總共訓(xùn)練110個(gè)epoch;微調(diào)時(shí)學(xué)習(xí)率設(shè)為0.000 1,總共訓(xùn)練50個(gè)epoch。對于多標(biāo)簽數(shù)據(jù)集,考慮到數(shù)據(jù)集較大,預(yù)訓(xùn)練學(xué)習(xí)率設(shè)為0.001,150個(gè)epoch后降到0.000 1,再訓(xùn)練50個(gè)epoch;微調(diào)時(shí)學(xué)習(xí)率設(shè)為0.000 1,總共訓(xùn)練100個(gè)epoch。網(wǎng)絡(luò)結(jié)構(gòu)替換為ResNet18時(shí)的學(xué)習(xí)率設(shè)為0.000 2,并訓(xùn)練100個(gè)epoch。此外,每批次的大小為200。在總目標(biāo)損失函數(shù)中,m和α參數(shù)的設(shè)置遵循文獻(xiàn)[13],分別取值為2K(K為哈希碼的長度)和0.01;γ和η通過交叉驗(yàn)證的方法均取值為1。
2.2 稀疏差分網(wǎng)絡(luò)性能的評估
首先,評估稀疏差分網(wǎng)絡(luò)用于圖像檢索的性能,為此采用四種網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行比較。其中:除了本文提出的SDCNN和SDCNN+兩種網(wǎng)絡(luò)結(jié)構(gòu)之外,將SDN的第一層替換為普通卷積層,這種網(wǎng)絡(luò)結(jié)構(gòu)記為CNN;而將SDCNN中稀疏差分層的可學(xué)習(xí)尺度參數(shù)λ去掉,僅含有固定的權(quán)重,這種網(wǎng)絡(luò)結(jié)構(gòu)記為SDCNN-。圖3比較了這四種網(wǎng)絡(luò)結(jié)構(gòu)在CIFAR-10數(shù)據(jù)集上不同哈希碼碼長對應(yīng)的mAP值。由圖3可見,對于不同哈希碼碼長,提出的兩種網(wǎng)絡(luò)結(jié)構(gòu)所得到的mAP值均好于另外兩種網(wǎng)絡(luò)結(jié)構(gòu),而SDCNN-較CNN更差。這表明,所提出的稀疏差分網(wǎng)絡(luò)在特征學(xué)習(xí)的能力上較普通卷積網(wǎng)絡(luò)強(qiáng),這也說明差分卷積所提取的特征信息比普通卷積提取的更有效,而其中的可學(xué)習(xí)尺度參數(shù)λ對其性能提升有著重要貢獻(xiàn);同時(shí),通過將梯度特征信息與強(qiáng)度特征信息相結(jié)合,可使得SDCNN+提取到的特征信息更加豐富,并在MSH的監(jiān)督下,有效地將這些特征信息映射為具有區(qū)分性的哈希碼。
然后,驗(yàn)證所提出的稀疏差分網(wǎng)絡(luò)(SDN)對訓(xùn)練過程的影響。圖4對比了哈希碼碼長為48-bit時(shí)上述四種網(wǎng)絡(luò)結(jié)構(gòu)在CIFAR-10數(shù)據(jù)集中的損失曲線和正確率曲線。由圖4(a)可見,在測試集損失曲線的前六個(gè)epoch,SDCNN-的損失曲線下降慢于CNN,而CNN與所提出的兩種網(wǎng)絡(luò)結(jié)構(gòu)的損失曲線對比并不是很明顯。然而,在圖4(b)中,從測試集上的正確率曲線可以很明顯地看出,所提出的兩種網(wǎng)絡(luò)的正確率曲線上升速度快于普通卷積方法。這表明,所提出的網(wǎng)絡(luò)學(xué)習(xí)能力更強(qiáng),在特征提取能力方面更勝一籌。這也驗(yàn)證了1.1節(jié)中的設(shè)計(jì)目的,即差分網(wǎng)絡(luò)在少量的訓(xùn)練次數(shù)下便能提取有效特征。綜上分析可知,得益于所提出的稀疏差分濾波器,使得所提出網(wǎng)絡(luò)的學(xué)習(xí)速度較快,并可以快速地達(dá)到一個(gè)最佳性能。然而,由圖4(a)還可見,所提出的網(wǎng)絡(luò)結(jié)構(gòu)在第20個(gè)epoch后便開始出現(xiàn)過擬合的跡象,但即使這樣,它也仍然優(yōu)于普通卷積方法。
另一方面,為了更直觀地分析和評估所提出的稀疏差分網(wǎng)絡(luò)性能,以圖2中的第一幅輸入圖像“馬”為例,在哈希碼碼長為48-bit時(shí),分別對由上述四個(gè)網(wǎng)絡(luò)結(jié)構(gòu)中的第一個(gè)卷積層所得到的特征矩陣,以熱度圖的方式進(jìn)行可視化表示,如圖5所示。在圖5(a)中, CNN的部分卷積核提取到的特征圖比較模糊,有些甚至看不出馬的輪廓;而在圖5(b)~(d)中,三種稀疏差分網(wǎng)絡(luò)提取到的梯度圖所顯示馬的輪廓都更為清晰,其中,SDCNN+的32個(gè)特征圖都不盡相同,而且所含特征信息豐富,SDCNN的特征圖則有部分相似,而SDCNN-的特征圖則只有八種類型,這些現(xiàn)象不僅符合1.1節(jié)中的設(shè)計(jì)初衷,也直觀地解釋了在圖3和圖4中由本文提出的稀疏差分網(wǎng)絡(luò)所提取的特征比CNN更有效的原因。綜上,在稀疏差分層所提取到的強(qiáng)度特征和梯度特征信息的幫助下,加速了整個(gè)稀疏差分網(wǎng)絡(luò)的訓(xùn)練;并且在相同的訓(xùn)練時(shí)間內(nèi),稀疏差分網(wǎng)絡(luò)比普通CNN方法提取的特征信息更加豐富。
最后,驗(yàn)證提出稀疏差分網(wǎng)絡(luò)在更加深層網(wǎng)絡(luò)結(jié)構(gòu)中的適用性,為此,將SDCNN和SDCNN+中的普通卷積層替換為更深層的ResNet18中的殘差結(jié)構(gòu),以在CIFAR-10數(shù)據(jù)集上進(jìn)行的檢索實(shí)驗(yàn)為例,并記錄哈希碼碼長為12-bit時(shí)的mAP值,實(shí)驗(yàn)結(jié)果如圖6所示。由圖6可見,所提網(wǎng)絡(luò)在殘差網(wǎng)絡(luò)的幫助下檢索性能(mAP)較原始有很大的提升(其中CNN、SDNMSH和SDNMSH+分別提升了3.35%、3.80%和3.85%)。這表明,所提網(wǎng)絡(luò)不僅適用于淺層網(wǎng)絡(luò)結(jié)構(gòu),也可應(yīng)用于深層網(wǎng)絡(luò)結(jié)構(gòu),并且通過使用更深層的網(wǎng)絡(luò)結(jié)構(gòu)可進(jìn)一步提升其在圖像檢索應(yīng)用中的性能。
2.3 消融實(shí)驗(yàn)
所提方法的消融實(shí)驗(yàn)在CIFAR-10數(shù)據(jù)集上進(jìn)行,表1顯示了不同哈希碼碼長對應(yīng)的mAP值。其中:Lf、Lc和SDC+分別表示特征層監(jiān)督部分、分類層監(jiān)督部分和稀疏差分卷積層部分;×號表示所提網(wǎng)絡(luò)模型未使用這一部分,否則表示使用。由表1中的數(shù)據(jù)可見,就單個(gè)部分分析,這三個(gè)部分對提出方法的性能有著不同大小的影響。以哈希碼碼長48-bit對應(yīng)的mAP值為例,三者中,首先,Lc的影響最小,mAP值僅下降了0.1%,這也表明特征層和哈希層的語義信息得到的較充分的利用;其次是SDC+,其性能已經(jīng)在2.2節(jié)分析,這里不再贅述;影響最大的是Lf,mAP值下降了5.24%,這說明特征層監(jiān)督對哈希層的輸出起著重要的作用。從綜合各部分的角度來分析,當(dāng)不使用Lc和Lf時(shí),mAP值下降得更多,為7.30%,進(jìn)一步表明這兩種監(jiān)督組合對所提方法性能的改善有著很大貢獻(xiàn);最為明顯的是,當(dāng)這三個(gè)部分均不使用時(shí),mAP值下降10.51%,這驗(yàn)證了本文方法的有效性。總之,通過分析表1數(shù)據(jù)可以發(fā)現(xiàn),本文方法對檢索性能有顯著的提升,其中特征層監(jiān)督的貢獻(xiàn)最大。
為了直觀地了解各部分對提出方法性能的影響,本文還從CIFAR-10測試集中隨機(jī)選取圖像進(jìn)行查詢測試實(shí)驗(yàn),并對檢索返回與測試圖像相似的前10幅圖像進(jìn)行可視化,圖7展示了碼長為48-bit時(shí)的實(shí)驗(yàn)結(jié)果。為了簡明,SDNMSH+1表示提出方法SDNMSH+中未使用Lf和Lc的方法;SDNMSH+2則表示未使用SDC+的方法;有實(shí)線邊框表示檢索返回的圖像與查詢圖像不同類,否則表示同類。由圖7可以明顯地看出,SDNMSH+1方法返回的相似圖像數(shù)量多于SDNMSH+2方法,而本文方法返回的相似圖像數(shù)量明顯多于前兩種方法。
2.4 不同方法性能的對比與分析
本文方法對比了當(dāng)前最先進(jìn)的相關(guān)圖像檢索方法,并加入傳統(tǒng)哈希方法和深度哈希方法以豐富可對比性,表2給出了不同方法在不同數(shù)據(jù)集上不同哈希碼碼長對應(yīng)的mAP值。其中,相關(guān)方法的數(shù)據(jù)主要來源于原文獻(xiàn),部分方法的實(shí)驗(yàn)數(shù)據(jù)參考于文獻(xiàn)[27] ,-表示原文獻(xiàn)未提供相應(yīng)的結(jié)果。參與對比的傳統(tǒng)哈希方法有LSH[2]、SH[4]、ITQ[5]、MLH[6]、KSH[7]、BRE[8];深度哈希方法有CNNH[9]、NINH[10]、DSRH[11]、DRSCH[12]、DSH[14]、DDH[13]、DSH-19[15]、MLSH[27]和DBDH[28]。為不失公平性,也將CNN特征用于傳統(tǒng)哈希方法MLH、KSH和BRE的輸入,并記為MLH-CNN[6]、KSH-CNN[7]、BRE-CNN[8]。
根據(jù)表2中的數(shù)據(jù),通過對比不同的哈希方法,有以下三點(diǎn)發(fā)現(xiàn):
a)應(yīng)用了CNN特征的三種傳統(tǒng)哈希方法較其原始方法,在三個(gè)數(shù)據(jù)集上均有了很大的檢索性能(mAP)提升。這表明,使用了CNN特征的傳統(tǒng)哈希方法對提升其整體的檢索性能有很大的幫助,由此可見,結(jié)合了深度學(xué)習(xí)的傳統(tǒng)哈希方法對檢索性能有著重要的影響。
b)所提方法在單標(biāo)簽數(shù)據(jù)集上表現(xiàn)突出。由表2數(shù)據(jù)可見,在所對比的其他方法中,表現(xiàn)最優(yōu)的是MLSH方法,該方法采用多哈希表機(jī)制,檢索性能更好,但多個(gè)哈希表會(huì)占用過多的內(nèi)存。它在MNIST數(shù)據(jù)集上、哈希碼碼長為48-bit時(shí)對應(yīng)的mAP值達(dá)到了99.55%,而SDNMSH+方法的mAP值仍比MLSH方法提升了0.02%。這說明了所提方法在灰度圖像數(shù)據(jù)集中的有效性。上述同樣條件下,在CIFAR-10數(shù)據(jù)集上SDNMSH和 SDNMSH+方法的mAP值提升得較為明顯,分別比MLSH方法提升了5.36%和5.55%。這表明,所提方法無論是在檢索性能再提升已經(jīng)非常困難的灰度圖像數(shù)據(jù)集上,還是在最為常用的彩色圖像數(shù)據(jù)集中均表現(xiàn)出色,從而也驗(yàn)證了所提方法的有效性。
c)在表2中,由NUS-WIDE多標(biāo)簽數(shù)據(jù)集對應(yīng)的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),由于所提方法主要是針對單標(biāo)簽數(shù)據(jù)集而設(shè)計(jì)的,所以對于多標(biāo)簽數(shù)據(jù)集性能的提升并沒有那么突出。
這一現(xiàn)象在DSH、DDH、DSH-19等方法中也均有體現(xiàn)。盡管如此,所提出的方法也優(yōu)于DSH、DDH、DSH-19以及傳統(tǒng)手工方法。例如,與典型的DSH-19方法相比,在碼長為48-bit時(shí),所提出的方法將其mAP值提升了4.33%;需要指出的是,在此數(shù)據(jù)集上檢索性能較好的DSRH和MLSH兩種方法是分別在使用更深層網(wǎng)絡(luò)結(jié)構(gòu)和哈希碼占用內(nèi)存更多的情況下而優(yōu)于本文方法的。此外,就SDNMSH和SDNMSH+方法比較而言,后者較前者在多標(biāo)簽數(shù)據(jù)集上的性能提升略高,這表明提出的方法在多標(biāo)簽數(shù)據(jù)集中將會(huì)有很大的提升潛力。
2.5 與典型方法的深入比較和分析
為了進(jìn)一步驗(yàn)證所提方法的有效性和可行性,考慮到DSH-19方法是表2列出的其他先進(jìn)方法中檢索性能較好且較為典型的一種方法,本文方法又是基于它進(jìn)行改進(jìn)的,因此將本文提出的稀疏差分卷積SDC+層和多監(jiān)督哈希MSH兩個(gè)部分應(yīng)用其中,然后進(jìn)行檢索性能的深入比較。表3記錄了應(yīng)用這兩個(gè)部分對應(yīng)的標(biāo)記,其中:√號表示DSH-19模型使用了這一部分,否則,表示沒有使用。實(shí)驗(yàn)在CIFAR-10數(shù)據(jù)集上進(jìn)行,并使用碼長為12-bit對應(yīng)的P-R曲線作對比,實(shí)驗(yàn)結(jié)果如圖8所示。
從圖8中觀察到,DSH-19方法所采用的網(wǎng)絡(luò)結(jié)構(gòu)在應(yīng)用了所提出的SDC+層之后(即DSH-SDC+),其性能得到了很大的改善。同樣地,由于DSH-19方法僅使用了哈希層監(jiān)督,在額外加入了語義監(jiān)督和特征監(jiān)督之后的DSH-MSH方法相比于DSH-19方法的P-R曲線得到了較大的提升。此外, DSH-SDC-MSH方法的檢索性能也優(yōu)于DSH-19、DSH-MSH和DSH-SDC+三種方法,這體現(xiàn)了本文方法的可行性。
然而, DSH-SDC-MSH方法的性能仍然略低于所提方法SDNMSH+。兩者的區(qū)別在于前者的特征層使用ReLU激活函數(shù),而非tanh激活函數(shù),這表明此類哈希方法中采用tanh激活函數(shù)的檢索性能要優(yōu)于ReLU。對此,可能的解釋是tanh激活函數(shù)使輸出更加接近1或-1,ReLU激活函數(shù)輸出則在0~1,而要求哈希層的輸出也是近似1或-1,故前者則更有助于哈希層的學(xué)習(xí)。但是,這種選擇的不足是tanh激活函數(shù)會(huì)使梯度下降緩慢,這一點(diǎn)如圖9所示。由圖9可見,在訓(xùn)練期間的前六個(gè)epoch,SDNMSH+方法在測試集上的損失曲線位于DSH-SDC-MSH方法之上,這說明后者的損失曲線下降更快;然而,在第六輪之后,后者便開始出現(xiàn)過擬合現(xiàn)象,而本文方法的損失曲線也開始低于后者。
需要指出的是就單標(biāo)簽數(shù)據(jù)集而言,DSH-19方法[15]訓(xùn)練期間共進(jìn)行7萬次迭代,即約280個(gè)epoch,而微調(diào)期間共進(jìn)行3萬次迭代,即約120個(gè)epoch,這些數(shù)據(jù)均是所提方法的兩倍以上。這說明所提的方法在單標(biāo)簽數(shù)據(jù)集的訓(xùn)練方面,不僅具有更高的檢索性能,還能節(jié)省更多的訓(xùn)練時(shí)間,從而有助于實(shí)現(xiàn)高效的圖像檢索。
3 結(jié)束語
本文提出了一種融合稀疏差分網(wǎng)絡(luò)和多監(jiān)督哈希的新方法,并在三個(gè)典型數(shù)據(jù)集上實(shí)現(xiàn)了高效的圖像檢索。它具有特征提取快速、提取的特征信息豐富、學(xué)習(xí)到的哈希碼更具有區(qū)分性以及訓(xùn)練階段更加節(jié)省時(shí)間等優(yōu)點(diǎn)(尤其是對于單標(biāo)簽數(shù)據(jù)集)。通過采取不同的方案進(jìn)行對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果驗(yàn)證了所提方法的有效性和可行性。本文方法取得良好檢索性能的主要原因可歸結(jié)為以下三個(gè)方面:a)所提出的方法是在文獻(xiàn)[15]的成對哈希結(jié)構(gòu)的基礎(chǔ)上改進(jìn)的,使用微調(diào)方法加速了訓(xùn)練過程,并利用正則化技術(shù)提高了哈希碼的學(xué)習(xí)效率;b)得益于所設(shè)計(jì)的稀疏差分卷積層,它可以有效地提取豐富的特征信息,從而實(shí)現(xiàn)了整個(gè)網(wǎng)絡(luò)的高效特征提取;c)歸功于所提出的多監(jiān)督哈希函數(shù),使得語義信息和特征的成對相關(guān)性被充分地利用,并嚴(yán)格地監(jiān)督著離散哈希碼的生成。今后的工作可進(jìn)一步研究如何在多標(biāo)簽數(shù)據(jù)集中提高圖像檢索的性能。此外,若稀疏差分層不限于差分形式的濾波器,它對網(wǎng)絡(luò)性能的影響也可進(jìn)一步研究。
參考文獻(xiàn):
[1]許勝,陳盛雙,謝良.面向Web圖像檢索的基于語義遷移的無監(jiān)督深度哈希[J].計(jì)算機(jī)應(yīng)用研究,2019,37(8):2866-2871.(Xu Sheng,Chen Shengshuang,Xie Liang.Unsupervised deep hashing based on semantic transfer for Web image retrieval[J].Application Research of Computers,2019,37(8):2866-2871.)
[2]Gionis A,Indyk P,Motwani R.Similarity search in high dimensions via hashing[C]//Proc of the 25th International Conference on Very Large Data Bases.1999:518-529.
[3]Kulis B,Grauman K.Kernelized locality-sensitive hashing for scalable image search[C]//Proc of the 12th IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,1999:253-262.
[4]Weiss Y,Torralba A,F(xiàn)ergus R.Spectral hashing[J].Advances in Neural Information Processing Systems,2009,282(3):1753-1760.
[5]Gong Yunchao,Lazebnik S.Iterative quantization:a procrustean approach to learning binary codes[C]//Proc of CVPR.Piscataway,NJ:IEEE Press,2011:817-824.
[6]Norouzi M,F(xiàn)leet D J.Minimal loss hashing for compact binary codes[C]//Proc of the 28th International Conference on Machine Lear-ning.2011:353-360.
[7]Liu Wei,Wang Jun,Ji Rongrong,et al.Supervised hashing with kernels[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2012:2074-2081.
[8]Kulis B,Darrell T.Learning to hash with binary reconstructive embeddings[C]//Proc of the 22nd International Conference on Neural Information Processing Systems.2009:1042-1050.
[9]Xia Rongkai,Pan Yan,Lai Hanjiang,et al.Supervised hashing for image retrieval via image representation learning[C]//Proc of the 28th AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2014:2156-2162.
[10]Lai Hanjiang,Pan Yan,Ye Liu,et al.Simultaneous feature learning and hash coding with deep neural networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:3270-3278.
[11]Yao Ting,Long Fuchen,Mei Tao,et al.Deep semantic-preserving and ranking-based hashing for image retrieval[C]//Proc of the 25th International Joint Conference on Artificial Intelligence.2016:3931-3937.
[12]Zhang Ruimao,Lin Liang,Zhang Rui,et al.Bit-scalable deep hashing with regularized similarity learning for image retrieval and person re-identification[J].IEEE Trans on Image Processing,2015,24(12):4766-4779.
[13]Lin Jie,Li Zechao,Tang Jinhui.Discriminative deep hashing for scalable face image retrieval[C]//Proc of the 26th International Joint Conference on Artificial Intelligence Main track.2017:2266-2272.
[14]Liu Haomiao,Wang Ruiping,Shan Shiguang,et al.Deep supervised hashing for fast image retrieval[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:2064-2072.
[15]Liu Haomiao,Wang Ruiping,Shan Shiguang,et al.Deep supervised hashing for fast image retrieval[J].International Journal of Computer Vision,2019,127(9):1217-1234.
[16]Chen Yaxiong,Lu Xiaoqiang.Deep discrete hashing with pairwise correlation learning[J].Neurocomputing,2020,385:111-121.
[17]Ojala T,Pietikainen M,Maenpaa T.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2002,24(7):971-987.
[18]Juefei-Xu F,Boddeti V N,Savvides M.Local binary convolutional neural networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:4284-4293.
[19]Yu Zitong,Zhao Chenxu,Wang Zezheng,et al.Searching central difference convolutional networks for face anti-spoofing[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:5294-5304.
[20]Yu Zitong,Zhou Benjia,Wan Jun,et al.Searching multi-rate and multi-modal temporal enhanced networks for gesture recognition[J].IEEE Trans on Image Processing,2021,30:5626-5640.
[21]Su Zhuo,Liu Wenzhe,Yu Zitong,et al.Pixel difference networks for ef-ficient edge detection[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:5097-5107.
[22]Glorot X,Bengio Y.Understanding the difficulty of training deep feedforward neural networks[C]//Proc of the 13th International Confe-rence on Artificial Intelligence and Statistics.2010:249-256.
[23]Hadsell R,Chopra S,Lecun Y.Dimensionality reduction by learning an invariant mapping[C]//Proc of IEEE Computer Society Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2006:1735-1742.
[24]Li Ning,Li Chao,Deng Cheng,et al.Deep joint semantic-embedding hashing[C]//Proc of the 27th International Joint Conference on Artificial Intelligence.2018:2397-2403.
[25]Yang H F,Lin K,Chen C S.Supervised learning of semantics-preserving hash via deep convolutional neural networks[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2018,40(2):437-451.
[26]Kingma D P,Ba J.Adam:a method for stochastic optimization[EB/OL].(2017-01-30).https://arxiv.org/abs/1412.6980.
[27]Ng W W Y,Li Jiayong,Tian Xing,et al.Multi-level supervised ha-shing with deep features for efficient image retrieval[J].Neuro-computing,2020,399:171-182.
[28]Zheng Xiangtao,Zhang Yichao,Lu Xiaoqiang.Deep balanced discrete hashing for image retrieval[J].Neurocomputing,2020,403:224-236.
[29]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[J].Communications of the ACM,2017,60(6):84-90.