韓亞茹,閆連山,姚濤
基于元學習的深度哈希檢索算法
韓亞茹1,閆連山2*,姚濤1
(1.魯東大學 信息與電氣工程學院, 山東 煙臺 264025; 2.西南交通大學 信息科學與技術學院,成都 611756)( ? 通信作者電子郵箱 lsyan@home.swjtu.edu.cn)
隨著移動互聯網技術的發展,圖像數據的規模越來越大,大規模圖像檢索任務已經成為了一個緊要的問題。由于檢索速度快和存儲消耗低,哈希算法受到了研究者的廣泛關注。基于深度學習的哈希算法要達到較好的檢索性能,需要一定數量的高質量訓練數據來訓練模型。然而現存的哈希方法通常忽視了數據集存在數據類別非平衡的問題,而這可能會降低檢索性能。針對上述問題,提出了一種基于元學習網絡的深度哈希檢索算法。所提算法可以直接從數據中自動學習加權函數。該加權函數是只有一個隱含層的多層感知機(MLP),在少量無偏差元數據的指導下,加權函數的參數可以和模型訓練過程中的參數同時進行優化更新。元學習網絡參數的更新方程可以解釋為:較符合元學習數據的樣本權重將被提高,而不符合元學習數據的樣本權重將被減小。基于元學習網絡的深度哈希檢索算法可以有效減少非平衡數據對圖像檢索的影響,并可以提高模型的魯棒性。在CIFAR-10等廣泛使用的基準數據集上進行的大量實驗表明,在非平衡比率較大時,所提算法的平均準確率均值(mAP)最佳;在非平均比率為200的條件下,所提算法的mAP比中心相似度量化算法、非對稱深度監督哈希(ADSH)算法和快速可擴展監督哈希(FSSH)算法分別提高0.54個百分點,30.93個百分點和48.43個百分點。
深度學習;哈希算法;非平衡數據;元學習;圖像檢索
在過去的二十年里,互聯網的快速發展為人類開創了一個全新的時代。特別是移動互聯網的迅速發展,越來越多的用戶開始用手機或筆記本上網,這也表明了移動互聯網正逐漸滲透到人們生活、工作的各個領域。數據的來源有很多種,如天氣感應器、社交媒體網站、網上銀行和手機信號。微信、支付寶、位置服務等豐富多彩的移動互聯網應用迅猛發展,正在深刻改變信息時代的社會生活。近幾年,更是實現了3G經4G到5G的跨越式發展。隨著互聯網行業的快速發展,各行各業積累的數據都呈現出爆炸式增長趨勢,這些數據中不僅有文本,還有圖像、音頻、視頻。據統計,每天網友在互聯網上傳超過10億張圖片;淘寶網的會員每天上傳的圖片數量超過1億;Facebook注冊用戶超過10億,每月上傳超過10億的圖片。上述例子都充分證實各行各業產生了大量數據,人類進入了“大數據”時代。在這個時代里,用戶如何在海量、高維的數據中高效而精確地檢索到需要的信息,成為研究的一個重點問題。

近幾年深度學習也被應用于大規模圖像哈希算法中,基于深度的哈希算法要達到較好的檢索性能,需要有一個龐大且質量好的數據集來訓練模型;但是現實生活中大部分數據集會存在數據偏差。最為典型的三種偏差為:1)類別非平衡,即極少數類別很容易被采集到,但大多數類很難被采集到;2)數據噪聲,數據本身會帶有噪聲;3)標簽噪聲,由于獲取標簽的代價太高而進行簡單的網絡搜索來標注數據,所以會存在很多錯誤的標簽,也會造成訓練上的困難。
其中,非平衡數據在現實生活中普遍存在,如癌癥患者診斷、破產預測[4]和信用卡欺詐檢測[5]等。如果數據集中的類別分布極不均衡,達到了一個或多個數據類別的樣本數量遠遠多于另一個或多個數據類別的樣本數量,這樣的數據就叫作類別非平衡數據。例如在醫療圖像分析中,出于診斷目的搜索相似的圖像(就相似的解剖結構而言)可充當“虛擬同行評審”[6]。從過去病例的檔案中檢索相似圖像對診斷圖像非常有益,但是大部分現有的真實數據集都存在數量大、數據類別非平衡等特點。當面對非平衡數據集,模型在訓練過程中會更傾向于關注多數類樣本,忽略少數類樣本,很容易將少數類樣本劃分為多數類,這樣會導致最終模型的效果下降。一般少數類樣本往往才是研究的重點對象,這意味著模型正確預測少數類樣本的類別標簽的能力比多數類樣本更為重要。所以如何有效處理非平衡數據在圖像檢索中的產生的影響對相關研究者是一個具有挑戰的課題。
元學習(meta-learning),又叫learning to learn,即學習如何學習。良好的機器學習模型通常需要使用大量樣本進行訓練。相比之下,人類能夠更快、更有效地學習新的概念和技能。元學習旨在通過訓練一些少量樣本來學習新技能。元學習的誕生促使機器學習向另一側面突進,用更接近人類和更具有效率的方式來實現人工智能。
受元學習[7-8]發展的啟發,近年來人們提出了一些從數據中學習自適應加權方法的方法,使學習更加自動化和可靠[9-10]。針對數據集類別非平衡問題,本文提出了一種基于元學習(meta-learning)的深度哈希檢索算法,該算法可以直接從數據中自動學習加權函數。該加權函數是只有一個隱含層的多層感知機(Multi-Layer Perceptron, MLP),在少量無偏差元數據的指導下,加權函數的參數可以和模型訓練過程中的參數同時進行優化更新。它可以有效地改善模型的魯棒性,減小非平衡數據對圖像檢索效率的影響。
本文的主要工作如下:
1) 提出了一種基于元學習的哈希檢索算法,利用元學習從數據中自動學習一個權重損失函數,由于該權重網的通用逼近能力,它可以很好地擬合權重函數。
2) 所提算法分為兩路并行網絡。一路是元學習網絡模型,一路是圖像檢索網絡模型。在少量無差別的元數據的指導下,加權函數的參數可以和模型訓練的參數同時進行優化更新。通過該算法可以有效降低類別非平衡對圖像檢索準確率的影響。
3) 實驗結果表明,所提算法在基準數據集上的性能優于大部分現有的圖像檢索算法,證明了所提算法的有效性。
近年來,哈希算法以其在存儲空間和計算時間上的優勢引起了眾多研究者的關注。目前,研究者們已經提出許多圖像檢索哈希算法,這些算法可以分為兩大類,無監督哈希算法和監督哈希算法。
正文內容無監督哈希方法主要通過保持原始數據的幾何機構學習哈希函數,在訓練過程中不適用任何監督信息。Weiss等[11]在2008年提出的譜哈希(Spectral Hashing, SH)是經典的簡潔哈希碼之一。譜哈希對圖像特征向量的編碼過程可看做是圖分割問題,首先它借助對相似圖的拉普拉斯矩陣特征值和特征向量的分析對圖分割問題提供一個松弛解,然后通過對特征向量進行閾值化產生二進制哈希碼。Gong等[12]在2011年提出的迭代量化(ITerative Quantization, ITQ)哈希[12]利用主成分分析(Principal Component Analysis, PCA)降維后,通過最小化量化誤差,學習一個旋轉矩陣,得到性能更好的哈希函數。最近,一些基于深度學習的無監督哈希被相繼提出。Shen等[13]在2018年提出了相似性自適應離散優化哈希(Similarity-Adaptive and Discrete optimization Hashing, SADH)。該方法交替地保留數據相似性并加強哈希碼和深度哈希函數的兼容性。Greedy Hash設計了一個哈希編碼層,使特征從歐幾里得空間編碼到漢明空間編碼時的余弦距離差最小。它采用貪心原則解決優化問題。結合深度表示和哈希學習,無監督深度哈希方法可以提高圖像哈希碼的表示能力。然而,目前的非監督深度哈希學習的二值哈希碼仍存在判別語義不足的問題。
對于超參數的選擇,一般監督哈希算法通過利用監督信息(例如類標簽、成對相似性或數據點的相對相似性)來學習二進制哈希碼。傳統學習中為了處理線性不可分的問題,Kulis等[14]提出了二進制重建嵌入(Binary Reconstructive Embeddings, BRE)。有內核的監督哈希(Supervised Hashing with Kernels, KSH)[15]的設計理念是讓相似的數據對應的哈希碼之間的漢明距離盡可能地小。在優化的時候,KSH采用一次優化哈希碼的一位的按位優化策略,最終生成簡短而有效的哈希碼。監督離散哈希(Supervised Discrete Hashing, SDH)[16]通過設計新的目標函數,并使用循環坐標下降法來離散地求解哈希碼。傳統方法中特征提取主要依賴人工設計的提取器,需要有專業知識及復雜的調參過程,同時每個方法都是針對具體應用,泛化能力及魯棒性較差,因此研究者提出了基于深度學習的跨媒體哈希方法。深層語義排列哈希(Deep Semantic-preserving and Ranking-based Hashing, DSRH)[17]提出了深度多標簽圖像檢索任務中的語義排序問題,設計了一個采用三元排序損失函數進行訓練的深度哈希方法。深度監督哈希(Deep Supervised Hashing, DSH)[18]設計了一種卷積神經網絡架構。采用成對的圖像作為模型訓練的輸入,同時對實值輸出進行正則化以逼近所需的離散值。深度監督離散哈希(Deep Supervised Discrete Hashing, DSDH)[19]設計了一種同時利用分類信息和相似關系作為監督信息進行哈希學習的深度哈希算法。在這些方法中,在明確語義標簽的監督下,學習到的哈希碼可以獲得識別能力。雖然這些有監督信息的哈希算法已經在檢索方面取得了較好的效果,但是它們并未考慮到圖像檢索中的非平衡數據的問題,在檢索任務中出現非平衡數據集時有可能會降低圖像檢索的性能。本文針對圖像檢索中的非平衡問題展開研究,利用元學習算法來減小非平衡數據在圖像檢索中產生的影響。
面對非平衡數據集,常用的辦法是對樣本進行重加權[7,20]。該方法是給每一個樣本誤差前面加上一個權重,權重的作用就是放大或縮小樣本發揮的作用。其次還可以對樣本進行重采樣[21],對樣本數量較少的類別進行過采樣,但容易擬合到少數類別的樣本,無法學到更魯棒易泛化的特征,往往在非常不平衡數據集上表現更差。對樣本數量較多的類別進行欠采樣,但這樣會造成該類別的信息損失嚴重,導致欠擬合的發生。單類學習的主要思想是只訓練多數類樣本,進而形成一個對該類別的數據模型,最后從測試樣本中識別出多數類樣本。單類支持向量機(One-class Support Vector Machine, One-class SVM)[22]在高維特征空間中得到一個最優超平面實現多數類別與坐標原點的最大分離,僅需要多數類別數據集作為訓練樣本,在一定程度上可以減少時耗,但容易引起對訓練集中少數類樣本的過擬合而導致泛化能力下降。
非平衡數據在現實生活中是常見的,在分類領域中有許多工作關注這個問題[23-24],但據作者所知,在檢索領域很少有人關注。以下章節會詳細介紹我們關于非平衡數據問題所做的工作。
為了解決圖像檢索中的非平衡數據集問題,本文提出了一種基于元學習網絡的深度哈希檢索算法。通過設計一個從訓練損失到樣本權值的加權函數,該方法不需要手動預先指定權重函數及額外的超參數,可以直接從數據中自適應地學習顯式加權函數。

本文算法的目標是在元學習過程中自動學習超參數。為了實現這一目標,本文算法將當作一個只有一層隱藏層的多層感知機,該多層感知機包含100個節點,如圖1所示。
本文稱這個權重網絡為元學習權重網絡,其中每一個隱藏節點使用ReLU(Rectified Linear Unit)激活函數,輸出使用Sigmoid激活函數,保證輸出位于[0,1]區間。盡管簡單,這個網絡被認為是幾乎任何連續函數的通用逼近器,因此可以適應廣泛的權重函數,包括傳統研究中使用的權重函數。






其中是步長。

圖像檢索生成哈希碼過程 文獻[25-26]中的研究表明,輸入圖像的全連接層的6~8層的特征激活可以作為視覺特征,該特征在小規模的圖像檢索、類別中取得不錯的性能。當面對大規模數據時,由于該特征是高維向量,會大幅度影響檢索的效率和性能。研究者提出將特征向量轉化為二進制編碼的方法,可以降低計算代價,減少存儲空間。轉化為二進制編碼后,可以利用漢明距離或哈希進行快速比較。

代表檢索數據集。每幅圖像對應的二進制編碼,。
Fig .3Image retrieval process
在本章中,首先介紹3個常見的圖像數據集,然后在公共數據集CIFAR-10、CIFAR-100和STL-10上展示了本文算法的實驗結果,并與幾種方法作比較。

CIFAR-100數據集與CIFAR-10數據集相似,不同的是它有100類圖像。CIFAR-100中的100個類被分成20個超類。每個圖像都帶有一個“精細”標簽(它所屬的類)和一個“粗糙”標簽(它所屬的超類)。

依據鄰域內相關工作,本文采用廣泛使用的評價標準:平均準確率均值(mean Average Precision, mAP),現已廣泛應用在哈希檢索研究中[27]。準確率(Precision)僅考慮返回樣本中正確的樣本數量,并沒有考慮正確樣本的順序。準確率的定義如下:

對于一個檢索系統來說,返回的樣本是有先后順序的,而且越相似的樣本排序越靠前越好。因此學者們提出了平均查準率(Average Precision, AP)的概念,AP的定義如下:

本文選取幾種較為先進的方法進行對比實驗。這些方法包括快速可擴展監督哈希(Fast Scalable Supervised Hashing, FSSH)算法[28]、非對稱深度監督哈希(Asymmetric Deep Supervised Hashing, ADSH)算法[29]、中心相似度量化(Central Similarity Quantization for efficient image and video retrieval, CSQ)算法[30]等。對于上述方法,本文使用原作者提供的代碼。所有方法的參數均按照其論文中的建議設置。對于CIFAR-10和CIFAR-100數據集,本文及對比方法均使用50 000幅訓練圖像和10 000幅測試圖像。對于STL-10數據集使用5 000幅訓練圖像和8 000幅測試圖像。所有實驗均進行多次,最終的實驗結果是在多次實驗的基礎上取平均得到。
實驗環境是一臺服務器,該機器的相關信息如下:Intel Xeno CPU E5-2609 v4@1.70 GHz,32 GB內存。
由于本文基于元學習網絡的深度哈希算法主要針對圖像檢索中的非平衡問題,在3個常用數據集(CIFAR-10、STL-10和CIFAR-100)上,先在平衡數據分布下測試4種碼長(16 bit,32 bit,48 bit,64 bit)的碼的mAP@all;其次在非平衡數據分布下將哈希碼位數設置為32位,數據數量設置為5種情況,非平衡比率分別為200、100、50、20、10。非平衡比率指的是數據量最大的類別和數據量最小的類別的比率,實驗設置完畢后再測試32 bit的mAP@all。
為了證明所提出的深度哈希算法的有效性,本文在平衡數據集上測試4種碼長(16 bit,32 bit,48 bit,64 bit)的碼的mAP@all。實驗結果如表1所示。
從表1的實驗結果可以觀察到如下的現象:
1) 本文提出的基于元學習的深度哈希算法在大部分情況下取得最佳的檢索效果,這證明了本文算法是有效的。
2) 在對比算法中FSSH的代碼是Matlab版本,ADSH、CSQ及本文算法的代碼是Python版本。在訓練時間方面,FSSH需要最少的時間就可以完成訓練,但是在CIFAR-10和STL-10(類別數是10)數據集上的檢索效果比其他算法差很多,在分類數較多的CIFAR-100數據集(類別數是100)上的檢索效果比ADSH的效果好。
3)盡管ADSH、FSSH和CSQ的訓練時間比本文提出的算法短,但是它們的檢索結果遠差于基于元學習的深度哈希算法。因此,在犧牲一點額外時間的代價下,本文算法可以更好地完成在3個基準數據集上的檢索任務。
表1平衡數據集上4種碼長的碼的mAP@all 單位:%

Tab.1 mAP@all of four hash codes with different lengths on balanced datasets unit:%
在非平衡數據集上進行了對比,實驗結果如表2所示。
從表2的實驗結果可以觀察到如下的現象:
1) 在CIFAR-10和STL-10數據集上,ADSH在非平衡率為10的情況下的檢索結果優于其他3種算法,但是隨著非平衡比率的增大,可以清晰看出本文算法的檢索結果明顯優于其他3種對比方法。
2) 在CIFAR-100數據集上,ADSH、FSSH、CSQ以及本文算法的檢索數據結果都比較低,造成這種結果的原因可能是CIFAR-100分類數較多,該數據集有100個類別。在這種情況下,本文算法的實驗結果依然優于其他對比算法,可以說明基于元學習的深度哈希算法可以有效減小非平衡數據在圖像檢索中產生的影響。
互聯網的快速發展帶來了大規模的圖像數據,如何從海量的數據中搜索到用戶需要的圖像成為一個迫切需要解決的問題。近年來,基于深度學習的哈希算法被廣泛應用于圖像檢索。基于深度學習的哈希算法要想達到較好的檢索性能,需要一定數量的高質量訓練數據來訓練模型。但是大部分真實數據集存在數據類別非平衡問題,即樣本數量較少的類別容易被忽略。為減小非平衡數據在圖像檢索中產生的影響,本文提出了一種基于元學習網絡的深度哈希算法,該算法可以直接從數據中自動學習加權函數,該權重函數是只有一個隱含層的多層感知機,在少量無偏差元數據的指導下,加權函數的參數可以和模型訓練過程的參數同時進行優化更新。在算法的理論基礎上,本文進行了大量的實驗證明,并與多種對比算法進行比較。實驗結果表明,基于元學習網絡的深度哈希檢索算法能夠有效減少長尾數據對圖像檢索的影響,并提高模型的魯棒性。未來,在此基礎上還可對該算法進行深入探討,改善網絡模型,爭取更有效地減小長尾數據在圖像檢索任務中的影響。
[1] 張楚涵,張家僑,馮劍琳. AKNN-Qalsh: PostgreSQL系統高維空間近似最近鄰檢索插件[J]. 中山大學學報(自然科學版), 2019, 58(3): 79-85.(ZHANG C H, ZHANG J Q, FENG J L. AKNN-Qalsh: an approximate KNN search extension for high-dimensional data in PostgreSQL[J]. Acta Scientiarum Naturalium Universitatis Sunyatseni, 2019, 58(3):79-85.)
[2] 陳誠,鄒煥新,邵寧遠,等. 面向遙感影像的深度語義哈希檢索[J]. 中國圖象圖形學報, 2018, 24(4): 655-663.(CHEN C, ZOU H X, SHAO N Y, et al. Deep semantic Hashing retrieval of remote sensing images[J]. Journal of Image and Graphics, 2019, 24(4): 655-663.)
[3] DATAR M, IMMORLICA N, INDYK P, et al. Locality-sensitive hashing scheme based on-stable distributions[C]// Proceedings of the 20th Annual Symposium on Computational Geometry. New York: ACM, 2004: 253-262.
[4] 康松林,劉楚楚,樊曉平,等. WOS-ELM算法在入侵檢測中的研究[J]. 小型微型計算機系統, 2015, 36(8): 1779-1783.(KANG S L, LIU C C, FAN X P, et al. Research on intrusion detection based on WOS-ELM algorithm[J]. Journal of Chinese Computer Systems, 2015, 36(8): 1779-1783.)
[5] ZI?BA M, TOMCZAK S K, TOMCZAK J M. Ensemble boosted trees with synthetic features generation in application to bankruptcy prediction[J]. Expert Systems with Applications, 2016, 58: 93-101.
[6] KHATAMI A, BABAIE M, KHOSRAVI A, et al. Parallel deep solutions for image retrieval from imbalanced medical imaging archives[J]. Applied Soft Computing, 2018, 63: 197-205.
[7] LAKE B M, SALAKHUTDINOV R, TENENBAUM J B. Human-level concept learning through probabilistic program induction[J]. Science, 2015, 350(6266): 1332-1338.
[8] FINN C, ABBEEL P, LEVINE S. Model-agnostic meta-learning for fast adaptation of deep networks[C]// Proceedings of the 34th International Conference on Machine Learning. New York: JMLR.org, 2017: 1126-1135.
[9] JIANG L, ZHOU Z Y, LEUNG T, et al. MentorNet: learning data-driven curriculum for very deep neural networks on corrupted labels[C]// Proceedings of the 35th International Conference on Machine Learning. New York: JMLR.org, 2018: 2304-2313.
[10] WU L J, TIAN F, XIA Y C, et al. Learning to teach with dynamic loss functions[C]// Proceedings of the 32nd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2018: 6467-6478.
[11] WEISS Y, TORRALBA A, FERGUS R. Spectral hashing[C]// Proceedings of the 21st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2008: 1753-1760.
[12] GONG Y C, LAZEBNIK S, GORDO A, et al. Iterative quantization a procrustean approach to learning binary codes for large-scale image retrieval[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(12): 2916-2929.
[13] SHEN F M, XU Y, LIU L, et al. Unsupervised deep hashing with similarity-adaptive and discrete optimization[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(12): 3034-3044.
[14] KULIS B, DARRELL T. Learning to hash with binary reconstructive embeddings[C]// Proceedings of the 22nd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2009: 1042-1050.
[15] LIU W, WANG J, JI R R, et al. Supervised hashing with kernels[C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2012: 2074-2081.
[16] SHEN F M, SHEN C H, LIU W, et al. Supervised discrete hashing[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2015: 37-45.
[17] YAO T, LONG F C, MEI T, et al. Deep semantic-preserving and ranking-based hashing for image retrieval[C]// Proceedings of the 25th International Joint Conference on Artificial Intelligence. California: ijcai.org, 2016: 3931-3937.
[18] LIU H M, WANG R P, SHAN S G, et al. Deep supervised hashing for fast image retrieval[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 2064-2072.
[19] LI Q, SUN Z N, HE R, et al. Deep supervised discrete hashing[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 2479-2488.
[20] DONG Q, GONG S G, ZHU X T. Class rectification hard mining for imbalanced deep learning[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 1869-1878.
[21] LIU X Y, WU J X, ZHOU Z H. Exploratory undersampling for class-imbalance learning[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 2009, 39(2): 539-550.
[22] MALDONADO S, MONTECINOS C. Robust classification of imbalanced data using one-class and two-class SVM-based multiclassifiers[J]. Intelligent Data Analysis, 2014, 18(1): 95-112.
[23] ZHANG Z L, LUO X G, GARCíA S, et al. Cost-sensitive back-propagation neural networks with binarization techniques in addressing multi-class problems and non-competent classifiers[J]. Applied Soft Computing, 2017, 56: 357-367.
[24] SUN Y, LI Z L, LI X W, et al. Classifier selection and ensemble model for multi-class imbalance learning in education grants prediction[J]. Applied Artificial Intelligence, 2021, 35(4): 290-303.
[25] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]// Proceedings of the 25th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2012: 1097-1105.
[26] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2014: 580-587.
[27] ZHEN Y, YEUNG D Y. A probabilistic model for multimodal hash function learning[C]// Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2012: 940-948.
[28] LUO X, NIE L Q, HE X G, et al. Fast scalable supervised hashing[C]// Proceedings of the 41st International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2018: 735-744.
[29] JIANG Q Y, LI W J. Asymmetric deep supervised hashing[C]// Proceedings of the 32nd AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2018: 3342-3349.
[30] YUAN L, WANG T, ZHANG X P, et al. Central similarity quantization for efficient image and video retrieval [C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 3080-3089.
[31] WANG J, KUMAR S, CHANG S F. Semi-supervised hashing for large-scale search[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(12): 2393-2406.
[32] GUI J, LIU T L, SUN Z N, et al. Fast supervised discrete hashing[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(2): 490-496.
[33] HUANG C, LI Y N, LOY C C, et al. Learning deep representation for imbalanced classification[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 5375-5384.
[34] ZHAO F, HUANG Y Z, WANG L, et al. Deep semantic ranking based hashing for multi-label image retrieval[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2015: 1556-1564.
[35] YANG H F, LIN K, CHEN C S. Supervised learning of semantics-preserving hash via deep convolutional neural networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(2): 437-451.
[36] LI X, LIN G S, SHEN C H, et al. Learning hash functions using column generation[C]// Proceedings of the 30th International Conference on Machine Learning. New York: JMLR.org, 2013: 142-150.
[37] ZEILER M D, FERGUS R. Visualizing and understanding convolutional networks[C]// Proceedings of the 2014 European Conference on Computer Vision, LNCS 8689. Cham: Springer, 2014: 818-833.
[38] OQUAB M, BOTTOU L, LAPTEV I, et al. Learning and transferring mid-level image representations using convolutional neural networks[C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2014: 1717-1724.
[39] WANG J D, ZHANG T, SONG J K, et al. A survey on learning to hash[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4): 769-790.
[40] LAI H J, PAN Y, LIU Y, et al. Simultaneous feature learning and hash coding with deep neural networks[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2015: 3270-3278.
[41] SHU J, XIE Q, YI L X, et al. Meta-weight-net: learning an explicit mapping for sample weighting[C/OL]// Proceedings of the 2019 Conference and Workshop on Neural Information Processing Systems. [2021-02-21].https://papers.nips.cc/paper/2019/file/e58cc5ca94270acaceed13bc82dfedf7-Paper.pdf.
[42] LIN K, YANG H F, HSIAO J H, et al. Deep learning of binary hash codes for fast image retrieval[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2015: 27-35.
[43] LU X Q, ZHENG X T, LI X L. Latent semantic minimal hashing for image retrieval[J]. IEEE Transactions on Image Processing, 2017, 26(1): 355-368.
[44] LIN K, LU J W, CHEN C S, et al. Learning compact binary descriptors with unsupervised deep neural networks[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 1183-1192.
[45] NI B B, YAN S C, KASSIM A. Learning a propagable graph for semisupervised learning: classification and regression[J]. IEEE Transactions on Knowledge and Data Engineering, 2012, 24(1): 114-126.
[46] 柯圣財,趙永威,李弼程,等. 基于卷積神經網絡和監督核哈希的圖像檢索方法[J]. 電子學報, 2017, 45(1):157-163.(KE S C, ZHAO Y W, LI B C, et al. Image retrieval based on convolutional neural network and kernel-based supervised Hashing[J]. Acta Electronica Sinica, 2017, 45(1): 157-163.)
[47] 王珊,王會舉,覃雄派,等. 架構大數據:挑戰、現狀與展望[J]. 計算機學報, 2011, 34(10): 1741-1752.(WANG S, WANG H J, QIN X P, et al. Architecting big data: challenges, studies and forecasts[J]. Chinese Journal of Computers, 2011, 34(10): 1741-1752.)
[48] 艾列富,于俊清,管濤,等. 大規模圖像特征檢索中查詢結果的自適應過濾[J]. 計算機學報, 2015, 38(1): 122-132.(AI L F, YU J Q, GUAN T, et al. Adaptively filtering query results for large scale image feature retrieval[J]. Chinese Journal of Computers, 2015, 38(1): 122-132.)
[49] CHAWLA N V, BOWYER K W, HALL L O, et al. SMOTE: synthetic minority over-sampling technique[J]. Journal of Artificial Intelligence Research, 2002, 16: 321-357.
HAN Yaru, born in 1995, M. S. candidate. Her research interests include multimedia image retrieval, artificial intelligence, machine learning.
YAN Lianshan, born in 1971, Ph. D., professor. His research interests include information photonics and future communication network, internet of things and industrial internet, artificial intelligence.
YAO Tao, born in 1981, Ph. D., associate professor. His research interests include multimedia analysis and computing, computer vision, machine learning.
Deep hashing retrieval algorithm based on meta-learning
HAN Yaru1, YAN Lianshan2*, YAO Tao1
(1,,264025,;2,,611756,)
With the development of mobile Internet technology, the scale of image data is getting larger and larger, and the large-scale image retrieval task has become an urgent problem. Due to the fast retrieval speed and very low storage consumption, the hashing algorithm has
extensive attention from researchers. Deep learning based hashing algorithms need a certain amount of high-quality training data to train the model to improve the retrieval performance. However, the existing hashing methods usually ignore the problem of imbalance of data categories in the dataset, which may reduce the retrieval performance. Aiming at this problem, a deep hashing retrieval algorithm based on meta-learning network was proposed, which can automatically learn the weighting function directly from the data. The weighting function is a Multi-Layer Perceptron (MLP) with only one hidden layer. Under the guidance of a small amount of unbiased meta data, the parameters of the weighting function were able to be optimized and updated simultaneously with the parameters during model training process. The updating equations of the meta-learning network parameters were able to be explained as: increasing the weights of samples which are consistent with the meta-learning data, and reducing the weights of samples which are not consistent with the meta-learning data. The impact of imbalanced data on image retrieval was able to be effectively reduced and the robustness of the model was able to be improved through the deep hashing retrieval algorithm based on meta-learning network. A large number of experiments were conducted on widely used benchmark datasets such as CIFAR-10. The results show that the mean Average Precision (mAP) of the hashing algorithm based on meta-learning network is the highest with large imbalanced rate;especially, under the condition of imbalanced ratio=200, the mAP of the proposed algorithm is 0.54 percentage points,30.93 percentage points and 48.43 percentage points higher than those of central similarity quantization algorithm, Asymmetric Deep Supervised Hashing (ADSH) algorithm and Fast Scalable Supervised Hashing (FSSH) algorithm.
deep learning; hashing algorithm; imbalanced data; meta-learning; image retrieval
This work is partially supported by National Natural Science Foundation of China (61872170).
1001-9081(2022)07-2015-07
10.11772/j.issn.1001-9081.2021040660
2021?04?25;
2021?09?01;
2021?09?07。
國家自然科學基金資助項目(61872170)。
TP183
A
韓亞茹(1995—),女,山東濟南人,碩士研究生,主要研究方向:多媒體圖像檢索、人工智能、機器學習; 閆連山(1971—),男,山東煙臺人,教授,博士,主要研究方向:信息光子學與未來通信網絡、物聯網與工業互聯網、人工智能; 姚濤(1981—),男,山東煙臺人,副教授,博士,主要研究方向:多媒體分析與計算、計算機視覺、機器學習。