周 坤,徐黎明,鄭伯川,2,謝亦才
1.西華師范大學 計算機學院,四川 南充637009
2.物聯網感知與大數據分析南充市重點實驗室,四川 南充637009
3.重慶郵電大學 計算機科學與技術學院,重慶400065
隨著大數據時代的到來,文本和圖像等不同模態的數據日益豐富,媒體數據量呈指數型增長,這給數據檢索帶來了巨大挑戰。同時單模態數據檢索方式(即,圖像檢索圖像)已經無法滿足人們的檢索需求。利用文本檢索圖像、圖像檢索文本以及跨域圖像的交叉檢索方式能夠呈現給用戶更加豐富和多元的信息。跨模態檢索已被納入國家人工智能2.0規劃綱要,國內外大量學者投入到該研究中,這也使得跨模態檢索算法成為近年來研究的熱點問題[1]。
早期的檢索算法[2]在數據相似性保持方面有良好的可解釋性,較好地刻畫了數據之間的相似性和非相似性。但當多模態數據量足夠大時,這些算法面臨著維數災難、存儲開銷大、檢索速度慢等問題。對此,有學者提出了基于哈希編碼的跨模態檢索算法,該算法存儲開銷小、檢索速度快以及適合大規模數據的跨模態檢索任務。基于哈希編碼的跨模態檢索算法將高維數據映射為低維的二進制表示,然后采用異或操作來進行相似性距離度量,實現高效的大規模數據檢索。
盡管現階段提出了大量的深度哈希算法,但幾乎所有的哈希算法無法較好地檢索訓練數據類別以外的數據,當加入新類別的數據(即,訓練數據類別并未完全包含查詢數據類別加入)時,需要重新訓練哈希函數,并為數據庫中的數據生成新的哈希碼,這對于大規模、多模態數據檢索是不切實際的。同時,優化離散哈希碼是一個可證明的NP問題,大部分算法將離散哈希碼松弛為連續變量,導致了次優化問題。此外,現階段深度哈希算法缺乏有效的復雜度評估方法。
針對以上問題,結合增量學習與潛在空間語義保持,提出了自適應高效深度跨模態增量哈希檢索算法(adaptive deep incremental hashing,ADIH)。在訓練過程中,以增量學習方式,直接訓練新類別數據,同時在求解哈希碼的過程中保持哈希碼的離散化約束條件,使得學習到的哈希碼更好地表征多模態數據,并將該算法擴展到任意多個模態的跨模態哈希檢索。主要創新點總結如下:
(1)首次提出基于增量學習的跨模態哈希檢索方法,以增量學習的方式學習新類別數據的哈希碼,同時保持原有訓練數據哈希碼不變,更加靈活地實現了大規模數據的跨模態哈希檢索。
(2)提出將多模態數據的哈希碼映射到低維語義空間,保持哈希碼之間的語義關系,并提出離散約束保持的跨模態優化算法來求解最優哈希碼。
(3)提出基于神經網絡神經元更新操作的復雜度分析方法,進一步分析和比較深度哈希算法的時間復雜度和空間復雜度。
根據訓練策略,現階段的深度跨模態哈希檢索算法可以大致分為基于連續松弛的方法和基于離散約束保持的方法。前者的訓練速度比離散方法快,但易產生次優化哈希碼。后者訓練比較耗時,但能求解最優哈希碼[3-4]。本文主要聚焦采用深度神經網絡進行特征提取的深度跨模態哈希檢索算法。
深度神經網絡(deep neural network,DNN)的火熱發展,推動了跨模態哈希檢索的發展。與傳統的基于手工特征的哈希算法相比,基于DNN的哈希算法的表示能力和學習能力更強。DSEH[5]構造Lab-Net和Img-Net到端到端深度模型中,使用Lab-Net來獲取樣本對之間豐富的語義相關性,然后使用Img-Net從語義級別和哈希碼級別學習和更新哈希函數,提高檢索準確率。為了充分利用具有豐富語義線索的跨模態數據,TVDB[6]引入了具有長短期記憶單元的基于區域的卷積網絡來探索圖像區域細節,同時構建文本卷積網絡對文本的語義線索進行建模。此外,采用隨機批量訓練方式,交替求解高質量哈希碼和哈希函數。考慮到標簽信息的昂貴,SPDQ[7]利用深度神經網絡分別構建一個共享子空間和兩個私有子空間,其中私有子空間用于捕獲各自模態的私有屬性,共享子空間用于捕獲多模態數據的共享屬性,同時嵌入成對信息進行哈希碼學習。結合典型性相關分析,康培培等[8]引入兩個不同模態的哈希函數,將不同模態空間的樣本映射到共同的漢明空間,同時采用圖結構保持哈希碼的語義判別性。針對現階段幾乎所有的跨模態哈希方法忽略了不同模態之間的異構相關性,降低檢索性能的問題,PRDH[9]通過端到端的深度學習框架有效地捕獲各種模態之間的內在關系,從而生成緊湊的哈希碼。此外,PRDH還引入了額外的去相關約束,增強了每位哈希位的判別能力。TDH[10]引入三元組監督信息來度量查詢樣本,正樣本和負樣本之間的語義關系,并采用圖正則化和線性判別保持模態內數據和模態間數據的相似性。HXMAN[11]引入注意力機制到深度跨模態哈希檢索中,并采用多模態交互門實現圖像和文本模態的細粒度交互,更精確地學習不同模態內的局部特征信息,進一步提高檢索精度。
哈希碼的離散化約束保持是深度跨模態哈希檢索中一項重要的研究點,早期的哈希算法采用sign符號函數或松弛策略,將離散的哈希碼連續化,這類操作容易造成哈希碼的次優化。對此,有學者提出了哈希碼離散約束保持的跨模態哈希檢索算法。SPDH[12]通過構建公共潛在子空間結構,對齊配對和未配對的樣本并在子空間中構建跨視圖相似圖,有效地保留潛在子空間中未配對數據的相似性,從而實現跨模態哈希檢索。為了獲得最優的哈希碼,SPDH采用基于分解的方法,逐位求解哈希碼。為了保持離散優化方法的檢索精度,同時減少離散方法的訓練時間,DLFH[4]嵌入離散隱因子模塊,直接學習離散哈希碼,同時證明了該算法能夠收斂并具有較低的時間復雜度。考慮到簡單的相似度矩陣可能會丟失有用信息,SRDMH[13]將完整的標簽信息合并到哈希函數學習中,保留原始空間中的相似性,并且提出非線性核嵌入損失,使得哈希碼離散求解迭代更加靈活和容易。ALECH[14]指出,大多數現有方法主要在共享漢明子空間中保持跨模態語義相似性,并未充分挖掘多標簽語義的標簽信息和潛在相關性。對此,該算法自適應地利用高階語義標簽相關性來指導潛在特征學習,利用非對稱策略連接潛在特征空間和漢明空間,并保留成對的語義相似性,同時以離散方式生成二進制哈希碼。
考慮到深度神經網絡在跨模態哈希檢索中的優勢,也有學者在保持哈希碼離散約束的基礎上,引入DNN實現高精度的跨模態哈希檢索。考慮到最大似然學習的多模態受限玻爾茲曼機模型優勢,DBRC[15]在保持模態間和模態內一致性的基礎上,引入自適應Tanh激活函數,對網絡輸出的實值執行閾值策略,同時自適應地學習二進制哈希碼并通過反向傳播進行訓練,從而學習到最優的哈希碼。DCMH[16]是經典的深度跨模態哈希檢索算法,該算法引入深度神經網絡和全連接網絡到跨模態哈希檢索中,利用標簽信息構造相似性矩陣,通過最大化負似然函數來保持跨模數據之間的語義相似性。此外,該算法采用離散循環坐標梯度方法獲取最優哈希碼。類似地,DCMH[17]在不松弛離散哈希碼的前提下,利用語義相似性和二進制哈希碼重建,實現分類的數據特征,同時DCMH[17]交替更新每種模態的二進制代碼,逐位優化哈希碼。為了克服線性投影和哈希碼松弛方案無法捕獲樣本之間的非線性關系,DDCMH[18]定義相似度保持項,為每一位哈希位添加“位獨立”和“二進制離散”約束,并充分考慮深度網絡的每個隱藏層模態內相似性,使得交叉相關性能夠被有效編碼。
從上述討論中可以看出,幾乎所有的哈希算法沒有考慮檢索訓練數據類別以外的數據,并且上述深度跨模態哈希算法大多采用連續松弛方式或近似離散變量的方式來解決優化哈希函數的NP難問題。同時,缺乏對深度哈希方法的復雜度評估。針對這些問題,提出自適應高效跨模態增量哈希檢索算法,以增量學習方式保持訓練數據的哈希碼不變,直接學習新類別數據的哈希碼,并將其擴展到任意多模態數據的跨模態哈希檢索,進一步實現大規模數據跨模態檢索。訓練過程中,將哈希碼映射到潛在子空間中保持多模態數據之間的相似性和非相似性,并提出離散約束保持的跨模態優化算法來求解最優哈希碼。最后,提出基于神經網絡神經元更新操作的復雜度分析方法,分析和比較深度哈希算法的時間復雜度和空間復雜度。
加粗斜體顯示的字符(如X)表示矩陣,斜體字符(如X)表示變量。對于給定圖像數據集和文本數據集數據集中每一對數據都與L=類的標簽關聯。所提算法的第1個目標是學習圖像哈希函數f(·)和文本哈希函數g(·),分別將X和Y模態原始數據映射為二進制哈希碼和所提算法的第2個目標是保持原始數據集中的哈希碼HX和HY不變,將新類別數據X'=
訓練過程中,利用深度神經網絡f(·)和g(·)分別構建圖像和文本哈希函數,其參數分別為θx和θy。編碼過程中,將多模數據的哈希碼嵌入低維空間中,利用監督信息S與關聯矩陣W保持哈希碼之間的相似性。根據標簽信息,可以構造對應的相似度矩陣S,表示為Sij∈{-1,+1}(m+n)×k,其中,S的前m行表示原始數據集與查詢數據集的相似度,S的后n行表示新增數據集與查詢數據集的相似度。
假設多模數據的哈希碼之間存在共同的潛在語義空間V,并在V空間中能夠對多模數據進行編碼和查詢[19-20]。將哈希碼映射到V中,表示為:

在V空間中,根據對應的映射關系計算樣本之間相似性,即:

其中,H表示哈希碼,并記W=WT1W2。可以看出,只需計算出該轉換矩陣W便能度量多模數據哈希碼之間的相似性,并不需要具體求解出多模數據在V空間中具體表示。同時,為了保持哈希碼的位平衡,所提算法也引入DCMH[15]中的位平衡項,目標函數可以表示為:

其中,F∈Rm×k和G∈Rm×k分別表示原始數據在f(·)和g(·)的輸出,并有F*i=f(xi,θx),G*j=g(yj,θy)。m和k分別表示樣本數量和哈希碼長度,α和β表示權重系數。式(3)中的第1項用于保持哈希碼在潛在空間中的語義相似度,第2項將兩個模態數據分別投影到各自漢明空間,最后1項是位平衡項,使得哈希碼中-1和+1的數量大致相同。
為了簡化哈希碼求解過程,許多算法將離散型變量直接松弛為連續型變量,然后通過符號函數獲得近似的哈希碼,這種松弛操作導致學習到的哈希碼不能充分地表示多模態數據。因此,所提算法在優化過程中,不直接連續化哈希碼,始終保持哈希碼的離散化二值約束,保證哈希碼為最優哈希碼。
不難證明式(3)是一個非凸函數,在求解目標函數時采用交叉迭代的方式,依次交替更新網絡f(·),g(·)及交替迭代W,HX和HY,直至目標函數收斂。具體步驟如下:
(1)更新網絡f(·)及參數θx,固定剩余變量:

(2)更新網絡g(·)及參數θy,固定剩余變量:

(3)求解W,固定剩余變量。此時,目標函數可以簡化為:

式
(6)是一個雙線性回歸函數,其解析解為:

(4)求解HX,固定剩余變量。此時,目標函數可以簡化為:

如前所述,由于哈希碼的離散化條件約束,直接求解式(8)極難。為保證檢索精度,不采用松弛策略,而是對變量HX逐行求解,即,每次迭代過程中,僅求解HX中的某一行向量,并固定該變量中剩余的行向量,然后依次迭代求解HX中的其他行向量。式(8)展開為:




根據式(12)可以求解HX的第r行向量,然后依次求解HX剩余的其他行向量。
(5)固定其他變量,求解HY。采用類似于式(9)~(13)的方式可求解HY中的每一行向量,即:

采用式(4)~(13)進行交替訓練和迭代,在保持哈希碼的離散化約束條件下,能獲得最優的哈希碼和哈希函數。
獲得了最優哈希函數后,將所有樣本映射為二進制哈希碼,然后再計算待檢索樣本(即,查詢樣本)與數據庫中樣本的漢明距離,最后對漢明距離進行升序排序,就能夠在線性時間內檢索出想要的樣本。跨模態哈希檢索學習算法的訓練過程如算法1所示。
算法1跨模態哈希檢索學習算法
輸入:原始數據集X和Y,相似度矩陣S;哈希碼長度k;迭代參數T。
輸出:原始數據集哈希碼HX和HY,深度神經網絡f(·)和g(·),參數分別為θx和θy;關聯矩陣W。
初始化:初始化哈希碼HX0和HY0;初始化深度神經網絡參數θx0和θy0;

為了更好地檢索訓練數據類別以外的數據,提出增量哈希檢索算法,保持原始數據的哈希碼不變,使學習到的哈希函數始終可用。對此,提出增量哈希保持新增數據與原始數據之間以及與查詢數據之間的相似性,采用F范數形式最小化二進制哈希碼的內積與相似度之間的關系,表示為:其中,Sij表示新增數據之間的相似度,λ和μ表示權重系數。K為對角矩陣,其主對角線的元素為哈希碼長度。F'∈Rn×k和G′∈Rn×k表示新增數據在f(·)和g(·)的輸出,有F'*i=f(x'

i,θx),G'*j=g(y'j,θy)。式(14)中的第1項(第2項)用于保持查詢數據與原始圖像(文本)數據及新增圖像(文本)數據的相似性。式(14)中的第3項則將兩個模態的數據分別投影到各自漢明空間中,最小化學習到的哈希碼與深度神經網絡輸出的差異,式(14)中的第4項是位平衡項。
與上述的跨模態哈希檢索離散約束保持優化算法相似,通過交替訓練更新f(·)和g(·),便能求解增量數據的哈希碼HX'和HY'。具體步驟如下:
(1)更新網絡f及參數θx,固定剩余變量:

(2)更新網絡g及參數θy,固定剩余變量:

(3)求解HX',固定剩余變量。增量哈希算法保持原始數據哈希碼不變,僅學習新增數據的哈希碼。當其他變量固定時,目標函數可以簡化為:

除去式(17)中的常數項及與HX'優化無關的變量,該式可以進一步簡化為:

類似地,為保證檢索精度,不采用松弛策略,而是采用上述的離散約束保持優化算法對HX'逐行求解。令P=-2KHQX ST-2λF',式(18)可以表示為:

采用與式(10)相同的優化過程,在保持離散化約束下可以得到:

同理,根據式(20)依次求解剩余的行向量。
(4)固定其他變量,求解HY'。采用類似于式(17)~(20)的方式求解HY',即:

增量哈希檢索算法的訓練過程如算法2所示。
算法2增量哈希檢索學習算法
輸入:新增數據集X'和Y',相似度矩陣S;哈希碼長度k;迭代參數T;深度神經網絡f(·)和g(·)。
輸出:新增數據集哈希碼HX'和HY',更新后的深度神經網絡f'(·)和g'(·)。
過程:
1.利用算法1輸出原始數據集哈希碼HX和HY;
2.從原始數據集和新增數據集中采樣查詢數據,并利用算法1輸出查詢樣本的哈希碼HQX;
3.Foriter=1 toTdo:
4. 根據式(15)、(16)更新網絡參數θx和θy;
5. 根據式(17)~(21),逐行更新哈希碼,最終求解HX'和HY';
6.End for
所提算法屬于深度學習算法,不同于傳統數值計算或機器學習的算法,僅以迭代次數[18]為基本操作分析復雜度,結果可能過于寬泛[21]。對此,結合迭代次數[21]和深度神經網絡神經元更新[22-23]來分析復雜度。跨模態哈希檢索算法的時間復雜度主要由更新網絡參數和計算變量組成,訓練階段每次迭代的時間消耗主要在更新哈希網絡,計算關聯矩陣及對應的哈希編碼矩陣,可分別由式(4)、(5)、(7)、(12)和(13)求出。同理,增量哈希哈希檢索算法的時間復雜度可由式(15)、(16)、(20)和(21)求出。
令M和K分別表示特征向量和卷積核的尺寸,D和C分別表示深度哈希網絡的層數和通道數量。d、k、m和n分別表示數據的深度特征維度、哈希碼的長度以及原始數據和增量數據的樣本數量。
式(4)、(5)和(7)對 應 的 時 間 復 雜 度 分 別 為式(12)和(13)的時間復雜度均為O( )
dk2m。因此,可以估計跨模態哈希檢索算法時間復雜度為:

所提算法的空間復雜度主要由深度哈希網絡的參數產生,以哈希網絡中的一個參數更新為基本操作,可以估計所提算法的空間復雜度為:

同理,可以估計增量哈希檢索算法的時間復雜度為:

增量哈希檢索算法的空間復雜度為:

式(23)~(25)中的M、K、D和C與式(22)中對應的符號具有相同的含義。算法1和算法2訓練結束后,生成查詢樣本哈希碼的時間復雜度和空間復雜度都為O(dk)。檢索是一個異或操作,時間復雜度和空間復雜度都為O(1)。
跨模態增量哈希檢索算法能夠自適應地檢索3種及3種以上的模態數據,假設有a(a>2)種模態數據,深度跨模態哈希檢索模型的目標函數可以表示為:

對應的深度跨模態增量哈希檢索算法目標函數可以表示為:

式(26)和(27)中的各項分別與式(3)和式(14)中各項具有相同的物理意義,并且a個模態數據的哈希檢索模型的優化、哈希碼生成、查詢及檢索過程與2個模態數據檢索場景類似。
為了驗證所提算法的有效性,選擇2個跨模態數據集(NUS-WIDE和MIRFlickr)和1個4模態醫學數據集(Brain)進行仿真。實驗使用Python 3.7編譯語言,模型建立在“四核Intel?CoreTMi-76850K CPU@3.6 GHz”處理器和“NVIDIA GeForce RTX 3070”的硬件環境基礎上。
NUS-WIDE數據集是一個多標簽數據集,包含269 648張圖像和對應的標注。由于樣本類別不平衡,參考前期算法[9]篩選出樣本較多的前21類,最終組成186 577個文本-圖像對。然后,隨機選擇5 000個樣本作為訓練集,選擇1%的數據(約1 866)作為測試集,剩余作為查詢數據集。
MIRFlickr數據集是一個包含25 000張圖像和人工標注文本信息的多標簽數據集,一共23類圖像。為比較方便,采用文獻[7]使用的數據比例劃分,即,10 000條樣本作為訓練集,5 000條樣本作為測試集,剩余樣本作為查詢數據集。
Brain數據集(http://www.med.harvard.edu/AANLIB/)是一個包含腦部PET、MRI和CT多模態醫學圖像數據,共11類圖像。為方便實驗對比,選擇成對的CT、T1-w、T2-w和PET圖像進行實驗,每種模態包含6 014張圖像。由于Brain數據集數據量有限,所有實驗重復3次后取平均值。
為評估增量哈希的有效性,將訓練數據分為原始數據集和增量數據集,每個數據集包含4種拆分設置,拆分比例如表1所示。為體現增量哈希的優越性,還設置了增量數據集類別數量大于原始數據集類別數量的比例,即,NUS-WIDE為11/10,MIRFlickr為12/11以 及Brain為6/5。

表1 原始數據集和增量數據集劃分設置Table 1 Split setting of original and incremental datasets
對比實驗選擇6種基于深度特征的跨模態哈希算法進行,包括:TVDB[5]、SPDQ[6]、PRDH[8]、TDH[9]、DCMH[15]和DBRC[16]。所有對比算法按照原文提供的參數和源代碼進行仿真,使用MAP值(mean average precision,MAP)和準確率-召回率曲線圖(precision-recall,PR)進行對比。
圖像和文本的跨模態檢索任務包括圖像檢索文本(img to txt)和文本檢索圖像(txt to img)兩種任務,前者以圖像為查詢樣本,以文本為檢索樣本,后者則相反。對比算法和所提算法在NUS-WIDE和MIRFlickr增量數據集上的跨模態檢索結果如表2~5所示。其中,所提算法為ADIHi,i表示新增數據的類別數量。對比算法的增量數據類別均設置為2。
表2~5顯示,當i=2或i=3時,在NUS-WIDE和MIRFlickr增量數據集上,所提算法無論是利用圖像檢索文本還是文本檢索圖像,均取得了最高的檢索精度,并且遠高于對比算法。對于正常的增量設定,增量數據集類別數小于原始數據集的類別,即,i=1,2,3,增量哈希算法都能獲得較高的檢索精度。當增量數據集類別數量大于原始數據集類別數量時,檢索精度低于正常增量設定下的檢索精度,但也高于對比算法。

表3 NUS-WIDE增量數據集上文本檢索圖像的MAP值Table 3 MAP evaluation of txt to img on increment NUS-WIDE

表4 MIRFlickr增量數據集上圖像檢索文本的MAP值Table 4 MAP evaluation of img to txt on increment MIRFlickr
3.2節評估了所提算法和對比算法在圖像和兩種模態數據的跨模態檢索結果,如2.7節所述,所提算法能夠擴展到任意多種模態數據的跨模態檢索。基于深度學習的對比算法[6,9,16]也表明能夠擴展到多種模態的檢索任務,但并沒有具體的對比結果。對此,在Brain多模態醫學圖像數據集上進行實驗,比較多種模態圖像的跨模態哈希檢索性能。

表5 MIRFlickr增量數據集上文本檢索圖像的MAP值Table 5 MAP evaluation of txt to img on increment MIRFlickr
由于Brain數據集模態數量較多,并且實驗重復多次。因此,實驗過程中采用均值和標準差形式來刻畫準確率與召回率曲線。以CT作為查詢圖像為例,對應準確率和召回率包含3個值,即,CT to T1-w、CT to 2-w和CT to PET,最后平均所有值,得到平均PR值。考慮到增量數據集類別數為2時,檢索效果最好,因此訓練對比算法時設置類別數為2。哈希碼長度k=16。實驗結果如圖1所示。
圖1顯示,在Brain多模態醫學圖像數據集上,所提算法的檢索精度高于其他深度哈希算法。當增量數據集類別數量大于原始數據集類別數量時,檢索精度低于正常增量設定下(即,i=1,2,3)的檢索精度,這與上節實驗結果一致。

圖1 Brain數據集的準確率與召回率曲線Fig.1 Precision-recall curves on Brain datasets
采用相同的卷積神經網絡時,即,M、D、C和K相同,由式(21)與式(23)可以得出跨模態檢索算法的時間復雜度為O( (km+dk)km),增量跨模態檢索算法的時間復雜度為O(dk2n)。由于d和k遠小于m,因此這兩種算法的復雜度可以進一步估計為O(m2)和O(n)。采用2.6節提出的復雜度分析方法,可以得出傳統的深度哈希方法復雜度為O(m2),采用triplet損失函數的深度哈希方法[9]時間復雜度為O()m3。與之相比,所提算法時間復雜度低于對比算法時間復雜度。NUS-WIDE數據集上訓練時間結果如表6所示。
表6顯示,所提算法在訓練時間方面具有明顯的優勢,對于訓練數據類別以外的數據不需要重新訓練模型,有效地降低了訓練時間和訓練成本。此外,在MIRFlickr和Brain數據集上也取得了相似的結果。

表6 NUS-WIDE數據集的訓練時間結果對比Table 6 Training time comparisons on NUS-WIDE
與前期的哈希算法相比,所提算法在檢索精度和訓練耗時兩方面具有明顯的優勢,這主要得益于增量哈希方法和離散化約束保持。對此,本節討論所提算法的幾種變體模型,進一步分析這兩項在檢索精度方面的貢獻。ADIH-I是沒有使用增量哈希的ADIH變體,ADIH+R是直接使用連續化松弛的ADIH變體,ADIH-B是沒有使用位平衡項的ADIH變體。NUS-WIDE數據集上的對比結果如表7所示,其中,增量數據的類別數量為2。

表7 NUS-WIDE數據集的變體實驗結果對比Table 7 MAP comparisons of variants on NUS-WIDE
表7顯示,ADIH算法獲得的高精度檢索結果主要得益于增量學習。對比沒有使用增量學習的變體ADIH-I,所提算法在不同哈希位的檢索精度提高了約22.5%、20.8%、23.0%和22.3%,這證明了增量哈希的有效性。對比沒有使用離散化約束保持的變體ADIH-B,所提算法在不同哈希位的檢索精度提高了約4.4%、3.9%、5.7%和3.8%,說明了提出的離散化優化方法一定程度上也提高了檢索精度。
表2~5顯示,在增量檢索場景中,所提算法均取得了最高的檢索精度,并且遠高于對比算法。為了進一步探索增量哈希學習的優勢,將增量學習引入到對比算法中,在MIRFlickr增量數據集上進行對比,實驗結果如表8、9所示。

表8 MIRFlickr增量數據集上圖像檢索文本的MAP值Table 8 MAP evaluation of img to txt on MIRFlickr
表8、9表明,增量哈希檢索的確能夠提高當前跨模態檢索算法的檢索性能。采用增量學習方式訓練對比算法,其檢索結果能得到有效的提升,部分檢索結果(如:16 bit和32 bit時,SPDQ方法的檢索結果)甚至超過了本文所提算法的檢索結果。

表9 MIRFlickr增量數據集上文本檢索圖像的MAP值Table 9 MAP evaluation of txt to img on MIRFlickr
針對現階段跨模態哈希檢索算法無法較好地檢索訓練數據類別以外的數據以及離散化哈希碼造成的次優化問題,提出自適應高效深度跨模態增量哈希檢索算法,以增量學習方式保持訓練數據的哈希碼不變,直接學習新類別數據的哈希碼。訓練過程中,將哈希碼映射到潛在子空間中保持多模態數據之間的相似性和非相似性,并提出離散約束保持的跨模態優化算法來求解最優哈希碼。最后,基于神經網絡神經元更新操作分析和比較深度哈希算法的復雜度。下一步將研究多源數據(如:音頻、視頻和3D圖形)的跨模態檢索。