劉興波 聶秀山 尹義龍
1(山東大學(xué)軟件學(xué)院 濟(jì)南 250101)2(山東建筑大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 濟(jì)南 250101)(sclxb@mail.sdu.edu.cn)
近年來,爆炸性增長的多媒體數(shù)據(jù)在微博、微信、Facebook等社交媒體上廣泛傳播,給信息的檢索帶來了巨大挑戰(zhàn).同時(shí),此類多媒體數(shù)據(jù)可以由諸如文本、圖像和視頻等多種模態(tài)來表示,而這些異構(gòu)的多模態(tài)數(shù)據(jù)之間存在語義鴻溝,如何解決語義鴻溝問題也是需要研究的問題.另一方面,在實(shí)際應(yīng)用中,當(dāng)用戶使用一種模態(tài),例如文本,去檢索感興趣的話題時(shí),他們通常會(huì)希望得到與此話題相關(guān)的其他模態(tài),例如圖像或視頻等信息的反饋.跨模態(tài)檢索正是解決以上問題的一個(gè)可行方法,因此,近年來跨模態(tài)檢索已經(jīng)成為多媒體領(lǐng)域的熱門研究方向.
跨模態(tài)散列學(xué)習(xí)是跨模態(tài)檢索領(lǐng)域的主要方法之一,跨模態(tài)散列學(xué)習(xí)通過機(jī)器學(xué)習(xí)技術(shù),將文本、圖片、視頻等多模態(tài)數(shù)據(jù)轉(zhuǎn)化為海明空間中一組簡短的二值碼(稱之為散列碼).散列碼之間的相似性關(guān)系與原始數(shù)據(jù)之間的相似性關(guān)系保持一致,利用公共空間的散列碼可實(shí)現(xiàn)跨模態(tài)的檢索.散列碼之間的相似性是通過海明距離來衡量的,而海明距離的計(jì)算可以在硬件上通過按位異或運(yùn)算來實(shí)現(xiàn).因此,與其他距離的計(jì)算相比,海明距離具有更高的效率[1].多媒體數(shù)據(jù)的散列表示可以實(shí)現(xiàn)高效地檢索,并有效地降低存儲(chǔ)成本.因此,散列學(xué)習(xí)已成為大數(shù)據(jù)背景下跨模態(tài)檢索最受歡迎的方法之一.
在現(xiàn)有的跨模態(tài)散列方法中,線性模型是一種常用的建模方法.為了獲得更高的檢索精度,基于線性模型的散列方法重點(diǎn)設(shè)計(jì)一組包含不同約束項(xiàng)或懲罰項(xiàng)(這些項(xiàng)考慮了樣本的語義信息、鄰域關(guān)系和散列表示的特異性)的廣義線性目標(biāo)函數(shù)來實(shí)現(xiàn)散列學(xué)習(xí).在現(xiàn)有監(jiān)督線性模型散列學(xué)習(xí)中,標(biāo)簽和散列碼之間的回歸項(xiàng)是重要的函數(shù)項(xiàng).但是,現(xiàn)有方法僅考慮兩者之間的單向回歸關(guān)系(詳細(xì)描述見論文2.2節(jié)).如果把相應(yīng)的標(biāo)簽和散列碼看作數(shù)據(jù)不同的特征表示,兩者的單向回歸形式并未充分利用樣本的標(biāo)簽信息.與現(xiàn)有方法不同,本文提出了一種基于雙向線性回歸的監(jiān)督離散跨模態(tài)散列算法(mutual linear regression based supervised discrete cross-modal hashing, SDCH),該方法在使用線性映射將散列矩陣回歸到相應(yīng)的標(biāo)簽矩陣的同時(shí),使用相同的線性投影將標(biāo)簽矩陣回歸到相應(yīng)的散列矩陣.本文提出的方法所學(xué)習(xí)到的線性投影可以有效描述散列矩陣和標(biāo)簽矩陣之間的穩(wěn)定且唯一的關(guān)系.
本文的主要貢獻(xiàn)概括為2個(gè)方面:
1) 使用同一映射矩陣來描述散列矩陣和標(biāo)簽矩陣之間的雙向回歸關(guān)系,使得散列學(xué)習(xí)的過程更加穩(wěn)定和精確;
2) 在學(xué)習(xí)用于生成未知樣本散列碼的模態(tài)特異映射時(shí),保持了異構(gòu)模態(tài)的特征分布與語義相似度的一致性.
跨模態(tài)散列學(xué)習(xí)方法主要包括基于線性模型和基于深度模型的方法兩大類.與深度模型的方法相比,基于線性模型的散列方法在訓(xùn)練過程中可解釋性更強(qiáng),且速度更快,在實(shí)際應(yīng)用有很大的優(yōu)勢(shì).本文主要研究基于線性模型的跨模態(tài)散列方法.因此,本部分內(nèi)容簡要總結(jié)一下線性模型的跨模態(tài)散列方法.
線性跨模態(tài)散列學(xué)習(xí)可以分為無監(jiān)督跨模態(tài)散列[2-4]和有監(jiān)督跨模態(tài)散列[5-10].無監(jiān)督的跨模態(tài)散列方法通過挖掘訓(xùn)練樣本的模態(tài)內(nèi)和模態(tài)間關(guān)系來學(xué)習(xí)散列函數(shù).例如,文獻(xiàn)[2]提出了媒體間散列,通過保持模態(tài)間和模態(tài)內(nèi)的語義一致性來學(xué)習(xí)散列碼;在文獻(xiàn)[3]中,潛在語義稀疏散列將稀疏編碼和矩陣分解結(jié)合起來以學(xué)習(xí)潛在的公共海明空間;文獻(xiàn)[4]中提出了聯(lián)合矩陣分解散列,該方法假設(shè)不同模態(tài)的樣本具有相同的散列碼,進(jìn)而使用聯(lián)合矩陣分解從樣本的不同模態(tài)中學(xué)習(xí)統(tǒng)一的散列碼.有監(jiān)督跨模態(tài)散列方法利用訓(xùn)練數(shù)據(jù)的語義標(biāo)簽作為指導(dǎo)信息來提高散列碼的精度;文獻(xiàn)[5]中提出了一種最大化語義相關(guān)性的跨模態(tài)散列方法,其利用標(biāo)簽來計(jì)算語義相似度矩陣,并試圖用學(xué)習(xí)到的散列碼重建該相似度矩陣;文獻(xiàn)[9]無縫地將矩陣分解和離散優(yōu)化結(jié)合在一起,提出了可拓展的基于矩陣分解的離散跨模態(tài)散列方法;文獻(xiàn)[10]提出的跨模態(tài)散列方法在散列學(xué)習(xí)和樣本外拓展映射的學(xué)習(xí)過程中都盡可能地保持住語義信息.因?yàn)橛行Ю昧藰?biāo)簽信息,通常來說,有監(jiān)督的跨模態(tài)散列的準(zhǔn)確度優(yōu)于無監(jiān)督的方法.
二值化約束是跨模態(tài)散列學(xué)習(xí)中的一個(gè)重要的約束項(xiàng),此約束會(huì)產(chǎn)生二值離散優(yōu)化問題.為了解決這個(gè)問題,在優(yōu)化過程中采用松弛策略,先求出優(yōu)化問題的實(shí)數(shù)解,然后使用閾值策略[11]將實(shí)數(shù)轉(zhuǎn)化為二值表示.但是,這些采用松弛策略的方法通常會(huì)產(chǎn)生累積量化誤差并且容易陷入局部最優(yōu)解.為了解決這個(gè)問題,離散跨模態(tài)散列[12]使用離散循環(huán)坐標(biāo)下降法[13]來直接求解離散的散列碼.離散跨模態(tài)散列通過使用線性分類器最小化預(yù)測(cè)誤差,來學(xué)習(xí)從散列碼到語義標(biāo)簽的投影.使用這種策略,離散跨模態(tài)散列比采用松弛策略的監(jiān)督跨模態(tài)散列方法表現(xiàn)出更好的性能.但是,由于最小二乘回歸不穩(wěn)定[14],導(dǎo)致了離散跨模態(tài)散列的散列學(xué)習(xí)過程可能也不穩(wěn)定.因此,為穩(wěn)定地利用監(jiān)督信息并減少訓(xùn)練時(shí)間,在文獻(xiàn)[15]中提出的快速離散跨模態(tài)散列,將樣本的語義標(biāo)簽回歸到對(duì)應(yīng)的散列碼.但是,單向的線性回歸并未充分地利用標(biāo)簽信息,因此,本文提出一個(gè)基于雙向線性回歸的跨模態(tài)散列學(xué)習(xí)算法,充分利用標(biāo)簽信息的同時(shí),也更好地捕捉了散列碼和標(biāo)簽之間的穩(wěn)定關(guān)系,提升了散列學(xué)習(xí)的準(zhǔn)確度.
本節(jié)首先說明本文算法用到的符號(hào),然后給出本文提出的跨模態(tài)散列方法以及算法優(yōu)化過程.最后,對(duì)所提出方法的時(shí)間復(fù)雜度進(jìn)行了分析.不失一般性,本文以2種模態(tài)——圖像和文本——為例來介紹算法,其他模態(tài)可以用類似的方法進(jìn)行拓展.

本文提出的方法是一個(gè)兩步的模型,即第1步先利用訓(xùn)練集的語義標(biāo)簽學(xué)習(xí)訓(xùn)練集的散列碼,第2步針對(duì)2個(gè)模態(tài),學(xué)習(xí)用于生成新樣本散列碼的映射.
2.2.1 訓(xùn)練樣本的散列學(xué)習(xí)
給定散列矩陣H和語義標(biāo)簽矩陣Y,現(xiàn)有線性方法大多利用回歸模型來描述散列矩陣和標(biāo)簽矩陣之間的相互關(guān)系.例如在離散跨模態(tài)散列[12]中,通過映射矩陣WH建立從散列矩陣H到標(biāo)簽矩陣Y的回歸模型來建模,過程表示為

(1)


(2)
WY的閉式解可以表示為WY=HYT(YYT+λI)-1.通常,現(xiàn)有的基于線性模型的有監(jiān)督散列方法會(huì)將散列矩陣回歸到標(biāo)簽矩陣,或者相反,并且映射矩陣是不同的,即在式(1)和(2)中,WH≠WY.
為更好地捕捉散列矩陣和標(biāo)簽矩陣之間的相互關(guān)系,本文方法中利用雙向的線性回歸關(guān)系來對(duì)散列矩陣和標(biāo)簽矩陣進(jìn)行建模,并使用相同的映射矩陣增強(qiáng)散列學(xué)習(xí)的精度和穩(wěn)定性.
采用以上策略的動(dòng)機(jī)和原因?yàn)椋和ǔ碚f,散列碼可以看作樣本在海明空間的特征表示,而類別標(biāo)簽可以看作樣本在語義空間的特征表示.因此,散列矩陣H和類別標(biāo)簽Y可看作樣本的不同特征表示,如果使用相同的映射矩陣刻畫兩者之間的關(guān)系,則標(biāo)簽矩陣Y散列矩陣H之間的回歸損失可以表示為

(3)
其中,投影矩陣W用于將標(biāo)簽矩陣Y映射到散列矩陣H,而WT則用于將散列矩陣H映射到標(biāo)簽矩陣Y.投影矩陣W和WT可以看作是彼此的逆映射,根據(jù)集合論可以證明逆映射是唯一的[16].因此,W的最優(yōu)解是唯一且穩(wěn)定的.根據(jù)Bousquet和Elisseeff的研究[17],采用穩(wěn)定的映射W會(huì)使得未知樣本的散列碼學(xué)習(xí)過程會(huì)更加穩(wěn)定.
另外,眾所周知,散列學(xué)習(xí)的關(guān)鍵要素之一是保持樣本在海明空間中的相似性.可以證明,在標(biāo)簽矩陣Y和散列矩陣H雙向映射關(guān)系之間使用相同的映射矩陣,可以很好地保持語義相似性.
對(duì)于一個(gè)數(shù)據(jù)集,類別標(biāo)簽一般是二值向量,代表樣本的語義類別,而散列碼也是數(shù)據(jù)的一種二值語義表示.顯然,用類別標(biāo)簽向量作為數(shù)據(jù)的二值表示用于檢索是最理想的.但是,相關(guān)研究[18]表明,由于語義距離和評(píng)估標(biāo)準(zhǔn)之間存在分歧,在檢索中使用標(biāo)簽向量不一定是最佳選擇.盡管如此,標(biāo)簽是真實(shí)的語義表示,仍然具有非常好的檢索準(zhǔn)確性.受此啟發(fā),一些研究者試圖使標(biāo)簽和對(duì)應(yīng)散列碼的內(nèi)積盡可能接近,以保持語義相關(guān)性,盡可能從標(biāo)簽中獲取有利信息.這種思路的主要方案就是盡可能讓
YTY=HTH
(4)
成立.從式(4)可以推導(dǎo)出
HYTYYT=HHTHYT.
(5)
進(jìn)一步,有
HYT(YYT+λI)=(HHT+λI)HYT
(6)
成立.由此可以得出
(HHT+λI)-1HYT=HYT(YYT+λI)-1.
(7)
也就是說,如果WH=WY,則YTY與HTH有相似的值,因此散列碼和標(biāo)簽矩陣之間采用相同的映射矩陣來刻畫回歸關(guān)系可以很好地保持語義相關(guān)性,并盡可能使散列碼的內(nèi)積逼近標(biāo)簽內(nèi)積.
綜上所述,在本文算法中根據(jù)標(biāo)簽矩陣學(xué)習(xí)散列碼的優(yōu)化問題表示為

(8)
其中,α是一個(gè)超參數(shù).值得注意的是,該策略與以前基于矩陣分解的方法[4]不同.基于矩陣分解的方法通常采用2個(gè)不一定相同的矩陣來描述散列矩陣與標(biāo)簽矩陣之間的相互回歸關(guān)系,而本文中的投影矩陣W被認(rèn)為可以用來描述標(biāo)簽矩陣和散列矩陣之間的更強(qiáng)的相關(guān)性.
2.2.2 新樣本散列碼學(xué)習(xí)
對(duì)于訓(xùn)練集中的圖片模態(tài)數(shù)據(jù)V和文本模態(tài)數(shù)據(jù)T,本文分別用線性映射PV和PT來描述它們與公共散列碼H之間的關(guān)系.



本文提出的方法是一個(gè)兩步的散列方法,即首先學(xué)習(xí)訓(xùn)練集的散列碼,然后學(xué)習(xí)用于生成新樣本散列碼的映射.因此,求解問題時(shí)也是先求解訓(xùn)練集的散列碼,然后求解用于生成未知樣本散列碼的映射.
2.3.1 散列學(xué)習(xí)問題求解
式(8)中的散列學(xué)習(xí)問題是一個(gè)非連續(xù)非凸的問題,本文試圖用迭代的步驟去求解這個(gè)問題:
第1步: 固定散列矩陣H不變,求解映射矩陣W.那么,式(8)中的問題變?yōu)?/p>

將式(10)展開,有

成立.其中,Tr(·)是跡函數(shù).令式(11)對(duì)W的偏導(dǎo)數(shù)為0,有
HHTW+W(αYYT+λI)=(1+α)HYT
(12)
成立.式(12)是一個(gè)典型的希爾韋斯特方程.可以利用文獻(xiàn)[19]中類似的方法求得W的數(shù)值解.
第2步: 固定映射矩陣W不變,求解散列矩H那么,式(8)中的問題可以簡化為

(13)


(14)
因?yàn)榫仃嘓是二值的,所以式(14)中的問題仍然很難求解.本文利用離散循環(huán)坐標(biāo)下降法[13]來逐位求解H.具體地,定義h為散列矩陣H的第k行(k=1,2,…,L),U為H不包含h的部分.類似地,定義w為映射矩陣W的第k行,E為W不包含w的部分.定義q為WY的第k行.問題式(14)變?yōu)?/p>

(15)
則h的閉式解表述為
h=sgn(qT-UTEwT).
(16)
2.3.2 新樣本散列碼學(xué)習(xí)問題求解
學(xué)習(xí)到訓(xùn)練集的散列碼之后,本文算法需要學(xué)習(xí)一組從各個(gè)模態(tài)樣本特征表示到公共散列矩陣的映射,以用來生成未知樣本的散列碼.本文同樣采取一個(gè)迭代的步驟來求解這組映射.
第1步: 固定文本模態(tài)的映射PT不變,求解圖像模態(tài)的映射PV.式(9)中的問題變?yōu)?/p>

令式(17)對(duì)PV的偏導(dǎo)數(shù)為0,可以得到PV的閉式解為

第2步: 固定圖像模態(tài)的映射PV不變,求解文本模態(tài)的映射PT.式(9)中的問題變?yōu)?/p>

令式(19)對(duì)PT的偏導(dǎo)數(shù)為0,可以得到PT的解析解為

式(18)與式(20)中的VVT,TTT,TVT和VSTT可以提前計(jì)算好并在訓(xùn)練過程中直接載入,以節(jié)省訓(xùn)練時(shí)間.
本文提出的跨模態(tài)散列方法在訓(xùn)練過程中一共有4個(gè)未知變量需要求解,即W,H,PV和PT.在每一輪迭代中,求解W的時(shí)間復(fù)雜度是O(nc2+nL2+ncL+L3);求解H的時(shí)間復(fù)雜度是O(ncL2);求解PV與PT的時(shí)間復(fù)雜度分別是O(ndL+4fdl+d2L)與O(nfL+4fdl+f2L).因?yàn)閚?c,n?L,假定迭代次數(shù)為M,所以SDCH的訓(xùn)練時(shí)間復(fù)雜度可以簡化為M×O(nL(cL+d+f)).可以看出,本文提出的算法訓(xùn)練時(shí)間與訓(xùn)練集的樣本數(shù)量成線性關(guān)系,這為大規(guī)模訓(xùn)練集的使用提供了可能性.
本節(jié)主要介紹本文要用到的數(shù)據(jù)集、方法的評(píng)估標(biāo)準(zhǔn)、超參數(shù)設(shè)置以及實(shí)驗(yàn)結(jié)果與分析.
MIR-flickr是從Flickr上收集的圖像-語句數(shù)據(jù)集[20].每個(gè)樣本對(duì)擁有一個(gè)24維的類別標(biāo)簽.圖像模態(tài)由150維邊緣直方圖來表示,而文本模態(tài)則由主成分分析法[21]降維到500維后的詞向量來表示.在本文中,使用了15 902個(gè)樣本對(duì)作為訓(xùn)練集,836個(gè)樣本對(duì)作為測(cè)試集,將訓(xùn)練集與測(cè)試集的并集作為檢索集.
NUS-WIDE是從互聯(lián)網(wǎng)上收集的1 000類的圖像的數(shù)據(jù)集[22],本文選取了樣本數(shù)目最多的10類用作研究.在此數(shù)據(jù)集中,圖片模態(tài)使用500維SIFT詞袋向量[23]來表示,而文本模態(tài)使用10維的標(biāo)簽作為特征.在本文中,使用了17 000個(gè)樣本對(duì)作為訓(xùn)練集,994個(gè)樣本對(duì)作為測(cè)試集,剩余的50 000個(gè)樣本對(duì)作為檢索集.
本文所提出的方法SDCH在MIR-flickr上的參數(shù)設(shè)置為α=2,β=10-4,λ=10-6;在NUS-WIDE上的參數(shù)設(shè)置為α=2,β=10-7,λ=10-6.在2個(gè)數(shù)據(jù)集上迭代次數(shù)都是6次.
基于以上2個(gè)數(shù)據(jù)集,本文測(cè)試了2種跨模態(tài)檢索任務(wù):1)Img2Text,用圖片檢索文本數(shù)據(jù)庫;2)Text2Img,用文本檢索圖片數(shù)據(jù)庫.檢索任務(wù)中廣泛使用平均精度均值(mean average precision, mAP)被用作評(píng)估指標(biāo).mAP是通過平均檢索到的排序后的樣本平均精度值(average precision, AP)來得到的.此外,準(zhǔn)確度precision@K,即僅考慮檢索出的前K個(gè)樣本,也被用于本文的性能評(píng)估.
本文在上述2個(gè)數(shù)據(jù)集上,通過實(shí)驗(yàn)比較了本文所提出的方法與跨視圖散列(cross-view hashing, CVH)[24]、媒體間散列(inter-media hashing, IMH)[2]、潛在語義稀疏散列(latent semantic sparse hashing, LSSH)[3]、最大化語義相關(guān)性(semantic correlation maximization, SCM)[5]、離散跨模態(tài)散列(discrete cross-modal hashing, DCH)[12]、快速離散跨模態(tài)散列(fast discrete cross-modal hashing, FDCH)[15]、可拓展的離散矩陣分解散列(scalable discrete matrix factorization hashing, SCRATCH)[9]和兩步跨模態(tài)散列(two-step cross-modal hashing, TECH)[10]8個(gè)跨模態(tài)散列方法. 其中,CVH,IMH,LSSH是無監(jiān)督的,其他的方法都是有監(jiān)督的.此外,這些基線方法的所有超參數(shù)都按照原始論文中的建議進(jìn)行了初始化.我們對(duì)于上述基線方法和所提出的方法都是運(yùn)行了5次,然后取平均性能進(jìn)行比較.由于本文提出的方法是基于線性模型的,因此沒有考慮與深度方法進(jìn)行比較.表1展示了本文中提出的方法與8個(gè)基線方法在MIR-flickr和NUS-WIDE上的mAP分?jǐn)?shù).表格上半部分是Img2Text任務(wù)的性能,下半部分是Text2Img任務(wù)的性能.最好的mAP分?jǐn)?shù)用加粗字體表示.可以看出,隨著散列碼長度的增加,mAP分?jǐn)?shù)也越來越高;本文所提出的方法在2個(gè)數(shù)據(jù)集上的2種任務(wù),即Img2Text與Text2Img,都取得了最好的mAP分?jǐn)?shù).

Table 1 mAP Scores for Two Retrieval Tasks Based on two Benchmark Datasets表1 各方法在2個(gè)基準(zhǔn)數(shù)據(jù)集上的mAP分?jǐn)?shù)
圖1是散列碼長度分別為16 b,24 b,32 b,48 b,64 b,96 b和128 b時(shí),SDCH方法與其他方法的在2個(gè)基準(zhǔn)數(shù)據(jù)集上2種檢索任務(wù)平均的precision@50性能折線圖.從圖1可以看出,相比于8個(gè)基線方法,本文所提出的方法SDCH表現(xiàn)出更好的性能.還可以看到,在大多數(shù)情況下,較長的散列碼精度較高,這是因?yàn)檩^長的散列碼可以保留樣本更多的語義信息.

Fig. 1 Average precision@50 of two retrieval tasks based on two benchmark datasets圖1 各方法在2個(gè)基準(zhǔn)數(shù)據(jù)集上2種檢索任務(wù)的平均precision@50分?jǐn)?shù)
為了驗(yàn)證所提出方法的參數(shù)靈敏度,并指導(dǎo)參數(shù)的調(diào)整,本文設(shè)置了一系列不同參數(shù)的實(shí)驗(yàn).圖2顯示了當(dāng)α數(shù)值在{0.1,0.3,0.5,0.7,1,3,5}范圍內(nèi)變化和lgβ數(shù)值從-7到-1時(shí)SDCH在2個(gè)數(shù)據(jù)集、2種檢索任務(wù)上平均的precision@50的性能.結(jié)果表明,本文提出的SDCH方法具有較好的算法穩(wěn)定性和參數(shù)靈敏度.

Fig. 2 Average precision@50 with differentsetting of α and β圖2 當(dāng)α和β在一定范圍內(nèi)變化時(shí)的平均precision@50分?jǐn)?shù)
圖3展示了使用本文提出的SDCH的目標(biāo)函數(shù)值在2個(gè)基準(zhǔn)數(shù)據(jù)集上隨著迭代次數(shù)的增加的變化圖.其中MIR_H表示在MIR-flickr數(shù)據(jù)集上散列學(xué)習(xí)過程中的目標(biāo)函數(shù)值變化曲線,MIR_P則表示學(xué)習(xí)用于產(chǎn)生新樣本散列碼的映射的目標(biāo)函數(shù)值變化曲線.類似地,NUS_H與NUS_P表示在NUS-WIDE數(shù)據(jù)集上相應(yīng)的目標(biāo)函數(shù)值變化曲線.散列碼長度是64 b.每條線中,第1次迭代時(shí)的值被當(dāng)作100%.從圖3可以看出,隨著迭代次數(shù)的增加,目標(biāo)函數(shù)值迅速變小且穩(wěn)定.本文提出的方法SDCH在訓(xùn)練過程中迅速達(dá)到較好的收斂水平,從而大大減少了訓(xùn)練所需的時(shí)間.

Fig. 3 Changes of objective function value圖3 目標(biāo)函數(shù)值隨著迭代次數(shù)增加的變化
本文提出了一種有監(jiān)督的離散跨模態(tài)散列方法SDCH.此方法采用了一個(gè)雙向映射矩陣來描述散列矩陣與標(biāo)簽矩陣的關(guān)系.這種策略可以很好地保持語義散列碼與標(biāo)簽之間的語義相關(guān)性.此外,本文在學(xué)習(xí)用于生成新樣本散列碼的模態(tài)特定的映射時(shí),保持了各個(gè)模態(tài)特征數(shù)據(jù)與相似度矩陣的一致性.另外,所提出的方法僅使用相當(dāng)少的變量和參數(shù),從而在參數(shù)調(diào)整和訓(xùn)練過程中節(jié)省了大量時(shí)間.在2個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)證實(shí)了所提出的方法的優(yōu)越性.將來,我們計(jì)劃用神經(jīng)網(wǎng)絡(luò)模型來改進(jìn)本文的方法以獲得更高的準(zhǔn)確度.