梁天佑,孟敏,武繼剛
(廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,廣州 510006)
互聯(lián)網(wǎng)和自媒體的興起使得網(wǎng)絡(luò)上充斥著海量的數(shù)據(jù),且數(shù)據(jù)形式多樣而復(fù)雜(圖像、文本、聲音、視頻等)。為了能以靈活的方式從龐大的數(shù)據(jù)庫中找到感興趣的信息,跨模態(tài)檢索成為一項(xiàng)重要技術(shù),近年來引起研究者廣泛的研究興趣。哈希技術(shù)因其計(jì)算速度快、存儲(chǔ)需求低而成為跨模態(tài)檢索的熱門技術(shù),稱為跨模態(tài)哈希(Cross-Modal Hashing,CMH)??傮w而言,CMH 的目標(biāo)是為每種數(shù)據(jù)模態(tài)學(xué)習(xí)一個(gè)哈希函數(shù),用哈希碼對數(shù)據(jù)進(jìn)行編碼,使得內(nèi)容相關(guān)的數(shù)據(jù)漢明距離更短。
已有的CMH 研究可以分為2 類:有監(jiān)督的跨模態(tài) 哈希(Supervised CMH,SCMH)[1-7]和無監(jiān)督的跨模態(tài)哈希(Unsupervised CMH,UCMH)[8-14]。SCMH 方法假設(shè)每個(gè)訓(xùn)練數(shù)據(jù)都有相應(yīng)的人工標(biāo)注,而這些標(biāo)注可以導(dǎo)出數(shù)據(jù)之間真實(shí)的相似性關(guān)系,從而引導(dǎo)哈希函數(shù)的學(xué)習(xí)。這種設(shè)置往往能取得較好的檢索性能,但因?yàn)闃?biāo)注成本大而難以擴(kuò)展到大規(guī)模數(shù)據(jù)集。UCMH 方法則不依賴于人工標(biāo)注,一般借助其他任務(wù)的預(yù)訓(xùn)練模型進(jìn)行知識(shí)遷移,構(gòu)造較弱的監(jiān)督信息(如關(guān)系圖或相似矩陣)。筆者主要關(guān)注UCMH 方法。雖然近年來這方面研究取得了較好的進(jìn)展,但現(xiàn)有方法依然存在以下2 個(gè)問題:
第一個(gè)問題是現(xiàn)有方法在設(shè)計(jì)哈希函數(shù)時(shí),往往為不同模態(tài)設(shè)置獨(dú)立的哈希函數(shù),在生成哈希碼時(shí)只關(guān)注單一模態(tài)的信息,然而不同的模態(tài)數(shù)據(jù)往往包含互補(bǔ)的信息,例如圖像信息可以對場景、物體進(jìn)行細(xì)節(jié)描繪,而文本、自然語言更抽象,且可能包含對多個(gè)實(shí)體、概念之間關(guān)系的描述。模態(tài)獨(dú)立的哈希函數(shù)并不能有效捕捉并綜合這種模態(tài)間的互補(bǔ)信息,從而導(dǎo)致生成的哈希碼表現(xiàn)欠佳。
第二個(gè)問題是現(xiàn)有多數(shù)方法[9-12,14]在構(gòu)造完相似矩陣之后整個(gè)訓(xùn)練過程都保持不變,然而生成預(yù)提取特征的預(yù)訓(xùn)練模型往往是在不同的數(shù)據(jù)集、用不同的任務(wù)進(jìn)行訓(xùn)練的,因此,預(yù)提取特征會(huì)帶有對原數(shù)據(jù)集和原訓(xùn)練任務(wù)的偏見,其結(jié)構(gòu)信息并非完全適合跨模態(tài)檢索任務(wù)。例如,圖像的預(yù)訓(xùn)練模型一般都是在ImageNet[15]數(shù)據(jù)集上按分類任務(wù)訓(xùn)練的,文本W(wǎng)ord2Vec[16]模型的skip-gram 和CBoW 模型也并不是為跨模態(tài)檢索任務(wù)所設(shè)計(jì),簡單地完全沿用預(yù)提取特征的結(jié)構(gòu)信息會(huì)帶來負(fù)面遷移的效果。
為解決上述2 個(gè)問題,本文分別提出多模態(tài)嵌入融合策略和相似矩陣動(dòng)態(tài)更新策略。為不同模態(tài)設(shè)置單獨(dú)的嵌入函數(shù),之后再設(shè)置一個(gè)嵌入融合模塊用于融合來自不同模態(tài)的嵌入并生成統(tǒng)一哈希碼,從而充分利用不同模態(tài)信息。在訓(xùn)練過程中,提出一種對預(yù)構(gòu)建的相似矩陣進(jìn)行動(dòng)態(tài)更新的策略,在保留預(yù)提取特征中有用結(jié)構(gòu)信息的同時(shí),逐步緩解相似矩陣對原數(shù)據(jù)集和原訓(xùn)練任務(wù)的偏見,使其更適合跨模態(tài)檢索任務(wù),并避免因過度更新導(dǎo)致對訓(xùn)練集過擬合、泛化性能變差的問題,保證在測試集上的泛化性能。最后在2 個(gè)常用數(shù)據(jù)集上對所提出的模型進(jìn)行實(shí)驗(yàn)和分析,驗(yàn)證本文方法的有效性。
傳統(tǒng)淺層的跨模態(tài)哈希方法使用手工設(shè)計(jì)的數(shù)據(jù)特征進(jìn)行學(xué)習(xí)。文獻(xiàn)[1]將哈希碼學(xué)習(xí)轉(zhuǎn)化為最小化漢明距離分布和標(biāo)簽相關(guān)度分布之間的KL 散度。文獻(xiàn)[2]則構(gòu)建真實(shí)相似矩陣的似然函數(shù)并最大化,且使用了非對稱的哈希碼學(xué)習(xí)方法。文獻(xiàn)[3]也用了非對稱的方法,同時(shí)把映射矩陣拆分成公共部分和模態(tài)獨(dú)有的部分,挖掘不同模態(tài)之間的內(nèi)在聯(lián)系。
深度學(xué)習(xí)的興起使得跨模態(tài)哈希得到長足發(fā)展。文獻(xiàn)[4]是深度跨模態(tài)哈希的一個(gè)經(jīng)典工作,其以端到端的方式把表征學(xué)習(xí)和哈希碼學(xué)習(xí)統(tǒng)一到一個(gè)框架內(nèi)。文獻(xiàn)[5]引入標(biāo)簽網(wǎng)絡(luò)學(xué)習(xí)多標(biāo)簽表征,從表征和標(biāo)簽2 個(gè)層面監(jiān)督哈希函數(shù)的學(xué)習(xí)。文獻(xiàn)[6]在進(jìn)行表征學(xué)習(xí)時(shí)用圖卷積網(wǎng)絡(luò)[17]建模局部流形結(jié)構(gòu)。文獻(xiàn)[7]引入注意力[18]模塊學(xué)習(xí)表征,并使用非對稱的哈希碼生成方式。與無監(jiān)督方法相比,有監(jiān)督方法一般效果會(huì)更好,但往往需要大量的專家標(biāo)注信息,難以擴(kuò)展到大規(guī)模數(shù)據(jù)集。
由于沒有標(biāo)簽信息,無監(jiān)督跨模態(tài)哈希的一個(gè)重要問題是監(jiān)督信號(hào)的構(gòu)造,一般是利用預(yù)提取特征構(gòu)建關(guān)系圖或相似矩陣。文獻(xiàn)[8]利用對抗學(xué)習(xí)的思想進(jìn)行訓(xùn)練,其中判別模型用預(yù)提取特征以k 近鄰法構(gòu)造關(guān)系圖,將相互連通的數(shù)據(jù)點(diǎn)視為相關(guān)數(shù)據(jù)。文獻(xiàn)[10,12]簡單地融合2 個(gè)模態(tài)預(yù)提取特征的距離信息來構(gòu)造相似度矩陣。文獻(xiàn)[9]則在聚合2 個(gè)模態(tài)的余弦相似度之后,進(jìn)一步基于擴(kuò)散過程計(jì)算二階相似性。文獻(xiàn)[11]首先融合2 個(gè)模態(tài)的余弦相似度,然后分別用正態(tài)分布和拉普拉斯分布擬合數(shù)據(jù)對的相似度分布,并利用擬合分布的參數(shù)對相似度分級(jí)和加權(quán)。文獻(xiàn)[15]則提出同時(shí)考慮余弦相似性和鄰域結(jié)構(gòu)。這些方法的問題在于關(guān)系圖或相似矩陣完全由預(yù)提取特征確定,簡單沿用預(yù)提取特征的結(jié)構(gòu)信息而沒有考慮預(yù)提取特征對原數(shù)據(jù)集的偏向,以及原訓(xùn)練任務(wù)與跨模態(tài)檢索任務(wù)之間的差異。文獻(xiàn)[13]首先用k 近鄰構(gòu)建關(guān)系圖,然后在訓(xùn)練過程中逐步用數(shù)據(jù)嵌入更新邊的權(quán)重,但沒有考慮鄰域結(jié)構(gòu)信息和過度更新可能造成的過擬合問題。
現(xiàn)有方法的另一個(gè)問題是,各模態(tài)的哈希函數(shù)是獨(dú)立的,在生成哈希碼時(shí)只用到單個(gè)模態(tài)的數(shù)據(jù),無法有效綜合多個(gè)模態(tài)的信息。根據(jù)以上分析,現(xiàn)有方法在相似矩陣構(gòu)造和哈希函數(shù)設(shè)計(jì)2 個(gè)方面依然存在不足。下文將詳細(xì)介紹本文針對這2 個(gè)方面的改進(jìn)。
不失一般性,本文考慮圖像和文本2 個(gè)模態(tài)。給定一個(gè)具有n個(gè)樣本的訓(xùn)練集,每個(gè)訓(xùn)練樣本oi=(vi,ti)包括2 個(gè)模態(tài)的特征。其中:vi∈Rdv表示第i個(gè)樣本對應(yīng)的dv維圖像預(yù)提取特征;ti∈Rdt是對應(yīng)的dt維文本特征。UCMH 的目的是為2個(gè)模態(tài)各學(xué)習(xí)一個(gè)哈希函數(shù)h*:Rd*?{-1,1}K,使得內(nèi)容上相關(guān)的數(shù)據(jù)具有較短的漢明距離,而不相關(guān)的則距離較遠(yuǎn)。其中:*=v,t 分別代表圖像和文本2 個(gè)模態(tài);K是哈希碼的長度。此處規(guī)定哈希碼的范圍是{-1,1},只是為了方便漢明距離的計(jì)算,后續(xù)可以通過簡單變換轉(zhuǎn)換為{0,1}范圍的哈希碼。本章首先介紹總體框架和訓(xùn)練目標(biāo)函數(shù),然后給出相似矩陣的構(gòu)造方法和更新策略,最后總結(jié)訓(xùn)練算法。
本文模型的總體結(jié)構(gòu)如圖1 所示,其中主要包含5 個(gè)模塊,即圖像處理模塊、文本處理模塊、相似矩陣模塊、對偶預(yù)測模塊和模態(tài)融合模塊。
2.1.1 分模態(tài)處理
圖像處理模塊的左半部分是一個(gè)在ImageNet[15]上預(yù)訓(xùn)練過的卷積神經(jīng)網(wǎng)絡(luò),稱為骨干網(wǎng)絡(luò),用以預(yù)先提取深度特征v;右半部分是圖像模態(tài)的嵌入函數(shù)ζv(·;θv),其將深度特征v映射至K維的圖像嵌入zv,θv為參數(shù)。
文本處理模塊結(jié)構(gòu)與圖像處理模塊類似:左半部分使用某種文本編碼模型預(yù)提取文本特征,例如LDA[19]、Word2Vec[16]、Doc2Vec[20]、詞袋模型;右半部分的嵌入函數(shù)類似地記為ζt(·;θt)。
2.1.2 模態(tài)融合
融合函數(shù)f:R2K?RK綜合來自2 個(gè)模態(tài)的信息,生成統(tǒng)一嵌入:

其中:θf為參數(shù)。測試時(shí)用符號(hào)函數(shù)sign將zf轉(zhuǎn)換為最終二值化的哈希碼b。sign 函數(shù)定義為:

由此,2 個(gè)模態(tài)的哈希函數(shù)可以表示為:其中:?表示函數(shù)復(fù)合。

2.1.3 跨模態(tài)生成
由于在測試時(shí)只有一個(gè)模態(tài)的輸入,因此在輸入融合函數(shù)f生成哈希碼之前,需要用對偶預(yù)測模塊生成另一個(gè)模態(tài)的嵌入。以圖像到文本的生成方向?yàn)槔?,生成過程可表示為:

其中:是基于圖像嵌入zv生成的文本嵌入;φv是生成函數(shù)的參數(shù)。文本到圖像的生成過程類似。
本文的總目標(biāo)函數(shù)為:

其中:前3 項(xiàng)基于S對模態(tài)嵌入和統(tǒng)一嵌入進(jìn)行結(jié)構(gòu)控制;第4 項(xiàng)用于約束跨模態(tài)生成函數(shù)。為方便描述,記分別為圖像、文 本和統(tǒng)一嵌入組成的矩陣。
LID是實(shí)例級(jí)的控制,用于強(qiáng)化統(tǒng)一樣本的圖像和文本之間的真實(shí)配對關(guān)系。這個(gè)思想在最近的對比學(xué)習(xí)[21-22]中很常用,稱為實(shí)例判別,表示為:

其中:tr{·}表示矩陣跡;I是單位矩陣;表示矩陣的F-范數(shù)。
LF以矩陣分解的形式控制嵌入空間的結(jié)構(gòu),表示為:

其中:p∈{v,t,f};q∈{v,t}。
LC約束模態(tài)內(nèi)、不同模態(tài)之間嵌入空間的結(jié)構(gòu)一致性,表示為:

其中:p,q,x,y∈{v,t,f}。
LG最小化真實(shí)嵌入z*和生成嵌入之間的差異,促使gv→t和gt→v生成真實(shí)的預(yù)測,表示為:

在現(xiàn)有的UCMH 方法[9-14]中有多種構(gòu)造方法,本文采用文獻(xiàn)[14]的方法,同時(shí)考慮距離和鄰域結(jié)構(gòu)2 種信息,給出一種動(dòng)態(tài)更新的優(yōu)化策略。
2.3.1 余弦相似度
本文利用余弦相似度度量2 個(gè)向量之間的距離關(guān)系。考慮到2 個(gè)模態(tài)的預(yù)提取特征會(huì)從不同的角度表達(dá)數(shù)據(jù)之間的關(guān)系,為融合來自該模態(tài)的結(jié)構(gòu)信息,本文以加權(quán)平均的形式進(jìn)行綜合:

其中:α∈[0,1]是調(diào)節(jié)2 個(gè)模態(tài)信息比重的參數(shù),保證綜合后的相似度與原本的余弦相似度是同一尺度,即范圍也是[-1,1]。
2.3.2 鄰域相似度
除了一階的距離信息,本文通過鄰域考慮2 個(gè)數(shù)據(jù)的二階相似性:先考慮一個(gè)數(shù)據(jù)與其鄰域點(diǎn)的相似性,再聚合2 個(gè)數(shù)據(jù)的公共鄰域相似性信息作為這2 個(gè)數(shù)據(jù)的綜合鄰域相似度。
對于一個(gè)數(shù)據(jù)oi和另外任一數(shù)據(jù)oq,本文將它們的鄰域相似度建模為一個(gè)概率。記σ(x,y)為表示x和y相似的謂詞,則oi和oq的鄰域相似度表示為:

2.3.3 總相似度
基于上述2 種相似度,oi和oj的總相似度為:

其中:γ調(diào)節(jié)2 種相似度的比重;β是縮放系數(shù)。這樣得出的相似度范圍是[0,1]。考慮到嵌入之間的余弦相似度范圍是[-1,1],本文對s做一次線性變換得到相似矩陣S中相應(yīng)的一項(xiàng),即:

2.3.4 動(dòng)態(tài)更新
本文提出一種相似矩陣的動(dòng)態(tài)更新策略。直觀來看,在前述的目標(biāo)函數(shù)約束下,各模態(tài)嵌入所學(xué)習(xí)得到的結(jié)構(gòu)在保持預(yù)提取特征的語義信息之外,同時(shí)考慮到模態(tài)之間的關(guān)系,更適應(yīng)跨模態(tài)檢索的任務(wù)。為保證訓(xùn)練的穩(wěn)定性,在本文訓(xùn)練過程中,用滑動(dòng)平均的方式逐步更新S。當(dāng)?shù)趖輪訓(xùn)練結(jié)束時(shí),用新學(xué)習(xí)得到的嵌入根據(jù)式(14)構(gòu)造相似矩陣S~來更新S:

其中:μ∈[0,1]是動(dòng)量系數(shù)。
另一方面,為了避免對S的更新產(chǎn)生過擬合而影響泛化性能,本文限制更新只進(jìn)行δ次,之后保持S固定不變。
本文采用交替訓(xùn)練的策略,對每一個(gè)訓(xùn)練輪次,首先固定S不變,用式(5)訓(xùn)練更新θv、θt、θf、φv、φt;在一輪結(jié)束后,固定θv和θt,提取新學(xué)習(xí)得到的嵌入zv和zt計(jì)算~,并用式(15)更新S。完整的訓(xùn)練過程見算法1。
算法1訓(xùn)練算法

3.1.1 數(shù)據(jù)集
本文使用Flickr25k[23]和NUS-WIDE[24]這2個(gè)廣泛應(yīng)用的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)和分析。根據(jù)文獻(xiàn)[14]的劃分,每個(gè)數(shù)據(jù)集都隨機(jī)劃分為3 個(gè)數(shù)據(jù)子集,即檢索集、測試查詢集、驗(yàn)證查詢集。
Flickr25k 數(shù)據(jù)集包含20 015 個(gè)圖文對、24個(gè)類別,3 個(gè)數(shù)據(jù)子集的數(shù)據(jù)量分別為16 015、2 000、2 000對,訓(xùn)練集是從檢索集中隨機(jī)選的5 000對。
原始NUS-WIDE 數(shù)據(jù)集包含269 648 個(gè)圖文對、81 個(gè)類別。根據(jù)文獻(xiàn)[2]的設(shè)置,本文取其中僅包含數(shù)據(jù)量最多的10 個(gè)類別的子集(即NUS-WIDE-TC10),共有186 577 個(gè)圖文對和10 個(gè)類別,3 個(gè)數(shù)據(jù)子集的數(shù)據(jù)量分別為182 577、2 000、2 000對,訓(xùn)練集是從檢索集中隨機(jī)選的5 000對。
所有實(shí)驗(yàn)都使用在ImageNet[15]上預(yù)訓(xùn)練過的VGG-19[25]模型為圖像提取4 096 維特征向量作為圖像數(shù)據(jù);Flickr25k 和NUS-WIDE 的文本數(shù)據(jù)用詞袋模型分別處理成1 386 維和1 000 維的詞袋向量。
3.1.2 評(píng)價(jià)指標(biāo)
本文通過以圖搜文(I→T)和以文搜圖(T→I)2 個(gè)方向的檢索任務(wù)測試模型效果,檢索性能用平均精度均值(mAP)指標(biāo)評(píng)估,其定義為所有查詢數(shù)據(jù)的平均精度(AP)的均值。給定一個(gè)查詢樣本及其檢索結(jié)果序列的前R個(gè)結(jié)果,AP 的計(jì)算公式為:

其中:rel(q)=1 當(dāng)且僅當(dāng)?shù)趒個(gè)檢索數(shù)據(jù)與查詢數(shù)據(jù)相關(guān),否則rel(q)=0;P(q)是前q個(gè)位置的檢索精度。設(shè)定R為整個(gè)檢索集大小,所有實(shí)驗(yàn)都重復(fù)進(jìn)行5 次取平均。
圖像、文本模態(tài)的嵌入函數(shù)、融合函數(shù)和對偶生成函數(shù)都實(shí)現(xiàn)為多層感知機(jī),它們的維度設(shè)置分別為(dv,4 096,K)、(dt,4 096,K)、(2K,4 096,K)、(K,2K,K)和(K,2K,K)。除了最后一層的激活函數(shù)是tanh,其他層都是ReLU。本文使用Adam[26]優(yōu)化器進(jìn)行訓(xùn)練,學(xué)習(xí)率為0.000 1,批次大小為128。
本文模型涉及的超參數(shù)有α、k、β、γ、μ、δ,共6個(gè)。其中:α是融合2個(gè)模態(tài)一階距離信息時(shí)的權(quán)重;k、β、γ是考慮二階鄰域相似性信息時(shí)的調(diào)節(jié)系數(shù);μ、δ是與相似矩陣動(dòng)態(tài)更新相關(guān)的控制參數(shù)。根據(jù)這些參數(shù)的功能,本文相應(yīng)地分3批對它們進(jìn)行搜索。本節(jié)以Flickr25k數(shù)據(jù)集64 位哈希碼為例,分析它們的不同取值組合對本文模型性能的影響,圖2展示了在這些取值組合下I→T和T→I這2 個(gè)方向的mAP 曲線或柱狀圖。

圖2 參數(shù)敏感性分析Fig.2 Sensitivity analysis of parameters
第1 輪搜索α,候選范圍是0.01、0.99 和0.1 至0.9的等差序列,同時(shí)將γ置零以暫時(shí)屏蔽二階鄰域信息,并暫時(shí)禁用S更新。圖2(a)顯示,在α取較小值時(shí)效果較好,對照式(10)可以看出,在構(gòu)造初始相似矩陣時(shí),圖像模態(tài)的預(yù)提取特征提供了較多有意義的結(jié)構(gòu)信息。筆者猜測這是因?yàn)閳D像的特征預(yù)提取模型是在大規(guī)模圖像數(shù)據(jù)集ImageNet 上預(yù)訓(xùn)練過的模型,故能提供較多有效的結(jié)構(gòu)信息;而文本模態(tài)是社交網(wǎng)絡(luò)的用戶標(biāo)簽,噪聲大且詞袋模型較簡單,故提供的結(jié)構(gòu)信息有限。
第2 輪用網(wǎng)格法搜索k、β、γ,將α置為第1 輪搜索的最優(yōu)值,同時(shí)禁用S更新。k的范圍是[500,2 000],β是[2 000,4 500],步長都是500,γ的范圍同α。結(jié)合圖2(b)和式(13)可知,距離信息和鄰域結(jié)構(gòu)信息在比較均衡時(shí)能產(chǎn)生較好的結(jié)果,說明2 種信息的重要性相當(dāng)。圖2(c)顯示,總體來說當(dāng)k取較小值時(shí)效果較好。筆者猜測這是因?yàn)橐詋 近鄰方式選取鄰域點(diǎn)時(shí),較小的k值可以保證采樣的鄰域點(diǎn)與中心點(diǎn)同處特征空間中一個(gè)高密度區(qū)域,減少了來自不相關(guān)點(diǎn)的影響,使式(11)估計(jì)更準(zhǔn)確。
第3 輪以網(wǎng)格法搜索μ、δ,啟用S更新。μ的范圍同α、δ的范圍[8,14]。結(jié)合圖2(d)和式(15)可知,當(dāng)μ取較大值時(shí)效果更好,此時(shí)相似矩陣S更新得更慢。筆者猜測這是因?yàn)榫徛母驴墒贡O(jiān)督信息更加穩(wěn)定,且保留更多的原始結(jié)構(gòu)信息,減少了對訓(xùn)練集過擬合的風(fēng)險(xiǎn)。
在NUS-WIDE 數(shù)據(jù)集上的搜索過程類似,從而得到最終的搜索結(jié)果如下:
對于Flickr25k 數(shù)據(jù)集:α=0.01,k=500,β=2 000,γ=0.5,μ=0.99,δ=12;
對于NUS-WIDE 數(shù)據(jù)集:α=0.01,k=500,β=3 000,γ=0.3,μ=0.9,δ=8。
本文選取10 個(gè)最近本領(lǐng)域的模型進(jìn)行對比,分別是CVH[27]、FSH[28]、CMFH[29]、LSSH[30]、UGACH[8]、DJSRH[9]、UKD-SS[10]、JDSH[11]、DSAH[12]、DGCPN[14]。其中:CVH、FSH、CMFH、LSSH 是傳統(tǒng)淺層模型;UGACH、DJSRH、UKD-SS、DSAH、JDSH、DGCPN 是深度模型。
在2 個(gè)數(shù)據(jù)集上,3 種不同哈希碼位長的檢索性能分別如表1 和表2 所示,其中:最優(yōu)的結(jié)果加粗標(biāo)明;次優(yōu)的加下劃線標(biāo)明;“本文-F”表示本文模型保留嵌入融合模塊、禁用相似矩陣的動(dòng)態(tài)更新;“本文-M”表示本文模型啟用動(dòng)態(tài)更新、移除嵌入融合模塊,此時(shí)哈希碼由其嵌入直接施加符號(hào)函數(shù)生成。

表1 Flickr25k 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果比較 Table 1 Comparison of experimental results on Flickr25k dataset

表2 NUS-WIDE 數(shù)據(jù)集上的結(jié)果比較 Table 2 Comparison of experimental results on NUS-WIDE dataset
由表1 和表2 可以看出,本文方法構(gòu)建的模型在所有數(shù)據(jù)集和哈希位長上的平均檢索性能和I→T 方向的檢索都取得最優(yōu)。具體來說,相比于較新的DGCPN 模型,本文模型在Flickr25k 數(shù)據(jù)集上3 種位長的平均檢索性能分別提升了1.43%、1.82% 和1.52%,在NUS-WIDE 數(shù)據(jù)集上則分別提升了3.72%、3.77%和1.99%。而在I→T 檢索方向的提升更為明顯,在Flickr25k 數(shù)據(jù)集上為5.69%、5.17%和4.14%,在NUS-WIDE 上為10.08%、9.02%和7.09%。這些提升展示了本文方法的有效性。
相對于I→T 方向的提升,本文模型在T→I 方向的檢索性能有所欠缺,其原因可能是Flickr25k 和NUS-WDIE 中的文本主要是社交網(wǎng)站上的用戶標(biāo)簽,其中還包含一些與數(shù)據(jù)內(nèi)容無關(guān)的冗余信息,相對于圖像提供的有效信息較少。因此,在構(gòu)建相似矩陣和融合嵌入時(shí),模型都更偏向于來自圖像模態(tài)的信息,故而對文本內(nèi)容的建模不夠理想。這一猜測在前一節(jié)α的選擇和后面的消融實(shí)驗(yàn)中都得到部分驗(yàn)證。如果換用質(zhì)量更高的關(guān)鍵字或句子描述作為文本模態(tài)數(shù)據(jù),可能在T→I方向會(huì)得到更好的效果。
通過分析本文模型在訓(xùn)練過程中的損失函數(shù)值變化來分析其收斂性。圖3 展示了本文模型在Flickr25k 數(shù)據(jù)集64 位哈希碼實(shí)驗(yàn)中的損失值隨訓(xùn)練輪次增加的變化曲線??梢钥吹?,模型在前30 輪訓(xùn)練中損失下降明顯,80 輪之后基本穩(wěn)定,模型收斂。

圖3 收斂性分析Fig.3 Convergence analysis
為驗(yàn)證本文提出的嵌入融合和相似矩陣動(dòng)態(tài)更新2 個(gè)模塊的效果,本節(jié)從檢索性能和運(yùn)行代價(jià)2 個(gè)方面進(jìn)行考察。
對于檢索性能的影響,引入本文模型的2 個(gè)變體進(jìn)行消融實(shí)驗(yàn),即表1和表2中的“本文-F”和“本文-M”。2 個(gè)變體模型在2 個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果也分別在表1和表2 中列出??梢钥闯?,移除任一模塊都會(huì)對平均檢索性能造成不同程度的影響。值得注意的是,在移除嵌入融合模塊之后,T→I方向的檢索性能有所提升,超過本文完整模型,這驗(yàn)證了前文的猜測,即不使用嵌入融合模型減輕了模型對圖像信息的偏好,但代價(jià)是對圖像數(shù)據(jù)的建模效果下降,同時(shí)影響I→T 方向和平均檢索性能。
對運(yùn)行代價(jià)的影響,通過參數(shù)量和計(jì)算量2 個(gè)方面進(jìn)行比較,其中計(jì)算量以乘加累積操作數(shù)(Multiply-Accumulate Operations,MACs)為指標(biāo)。由于相似矩陣動(dòng)態(tài)更新不引入新的網(wǎng)絡(luò),因此此處僅對比本文完整模型和本文-F 變體模型。兩者對比見表3,從中可以看到,模型大部分的參數(shù)和計(jì)算量都集中在各模態(tài)的嵌入函數(shù)里,而本文為多模態(tài)融合而引入的融合函數(shù)f和跨模態(tài)生成函數(shù)gv→t、gt→v參數(shù)量和計(jì)算量僅分別占總體的3.63%和3.61%,基本可以忽略。

表3 運(yùn)行成本對比 Table 3 Comparison of running cost
本文針對無監(jiān)督跨模態(tài)檢索任務(wù),提出多模態(tài)嵌入融合策略和相似矩陣動(dòng)態(tài)更新策略。嵌入融合模塊能有效綜合來自不同模態(tài)的信息,生成質(zhì)量更優(yōu)的統(tǒng)一哈希碼;相似矩陣更新策略能在訓(xùn)練過程中逐步優(yōu)化相似矩陣,緩解預(yù)提取特征過度偏向原始數(shù)據(jù)集和訓(xùn)練任務(wù)的問題,減少負(fù)面遷移。在2 個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)和分析驗(yàn)證了本文方法的有效性。未來的研究方向是優(yōu)化對文本模態(tài)信息的建模,利用大規(guī)模預(yù)訓(xùn)練模型對文本數(shù)據(jù)進(jìn)行特征預(yù)提取,從而更充分地利用文本模態(tài)的結(jié)構(gòu)信息,提高以文搜圖方向的檢索性能。