李新衛(wèi),吳 飛,荊曉遠
(南京郵電大學 自動化學院,江蘇 南京 210023)
隨著互聯網的迅速發(fā)展,社會步入了大數據時代。大數據通常以圖像、文本等多種不同的模態(tài)表示,而模態(tài)間的數據并不是獨立的,而是有著本質的聯系,如何挖掘出數據之間的關聯信息成為了人們關注的熱點。跨模態(tài)檢索[1-3]作為一種基本的相關技術,在機器學習、計算機視覺和數據挖掘等領域應用廣泛,然而大數據具有數據量大、維度高以及模態(tài)間的語義鴻溝[4]等一系列特點,從而使得針對大數據的跨模態(tài)檢索困難重重。
為了減輕模態(tài)間的差異性,相關學者提出了一系列方法,一部分關注于潛在子空間學習,主要是用來學習兩個投影,將文本與圖像數據投影到公共空間進行相關性分析,比如CCA[5]及其變形[6];而哈希算法[7-9]作為一種近似最近鄰檢索技術,具有存儲量小、檢索速度快等特點,典型方法有CVH[10]、IMH[11]和SCM[12]。然而,這些方法都有局限性,比如檢索精度低、速度慢,因此設計更好的算法是相關工作者亟需解決的難題。基于此,文中提出一種基于協同矩陣分解的單標簽跨模態(tài)檢索方法。
基于協同矩陣分解的單標簽跨模態(tài)哈希檢索方法由三部分構成:矩陣分解、哈希函數和圖正則化項。矩陣分解學習訓練集在低維潛在語義子空間的哈希碼表示;哈希函數學習投影,將訓練集外的樣本表示成低維的哈希碼;圖正則化是用來保持原數據的局部幾何結構的稀疏圖[9]。
協同矩陣分解主要用于低秩表示學習[13]。假設圖像模態(tài)為X1,文本模態(tài)為X2,學習基矩陣U1∈Rd1×r、U2∈Rd2×r,將X1和X2投影到r維的二進制語義空間V∈{0,1}r×N。其中r為二進制哈希的長度,V表示不同模態(tài)的公共表示。一般來講,該過程可以通過下列目標函數求得:
(1)

設訓練集外的樣本為x,學習兩個哈希函數分別將x的圖像x1∈Rd1和文本x2∈Rd2進行二進制編碼。不妨假設采用簡單的線性函數
h(xi)=sign(xiPi+bi)
(2)
其中,sign(x)為符號函數;Pi∈Rdi×r為映射矩陣;bi為用來保證哈希編碼平衡的偏置向量。
通過哈希函數,原始的圖像x1和對應的文本x2在低維的潛在語義空間分別表示為:

(3)
根據以上假設,相似的樣本經過編碼后的哈希距離應盡可能小,因此具有目標函數:

(4)
圖正則項[14-15]在機器學習、計算機視覺等領域取得了不錯的發(fā)展,其用來維護局部幾何結構,保證模態(tài)內相似性和模態(tài)間相似性。
模態(tài)間相似性:不同模態(tài)具有不同的特征表示,但是同一樣本共享相同的語義表示。為了在低維語義中能夠保持模態(tài)間的相似性,定義圖像和文本的模態(tài)間相似性矩陣:
(5)
模態(tài)內相似性:單模態(tài)相似的實例投影到低維語義中應該保持近鄰關系,即哈希碼的關聯性盡可能大。定義單模態(tài)KNN相似矩陣:
(6)

整體的相似性矩陣為:
(7)
其中,β為保證模態(tài)間相似性和模態(tài)內相似性平衡的參數;W1、W2分別為圖像和文本的單模態(tài)相似性矩陣;W12、W21為模態(tài)間相似性矩陣,W12=W21。
綜上所述,整體目標函數為:

(8)
其中,α和γ分別為對應的權重因子。
目標函數Φ整體來說是非凸的,是個NP難問題,然而對于其中一個參數是可解的,因此可以采用迭代優(yōu)化算法求解,具體步驟如下:
步驟1:更新U1、U2,固定V、P1和P2,通過拉格朗日乘子法可得:
(9)
步驟2:更新V,固定U1、U2、P1和P2,目標函數可以寫成:
(10)
由于V是離散約束的,直接求解很棘手,故對其進行松弛變換,將V∈{0,1}r×N松弛為0≤V≤1,通過拉格朗日乘子法可得:
(11)
利用KKT條件,得到V的更新公式為:
Vij=
(12)
步驟3:更新P1、P2,由拉格朗日乘子法解得:
(13)
為了驗證該方法的有效性,在Wiki和Pascal VOC 2007數據集上與若干相關方法進行了對比,包括CCA[4]、IMH[11]、CVH[10]、SCM_orth和SCM_seq[12]。
Wiki數據集[16]包含2 866多媒體數據,分為10個主題,比如戰(zhàn)爭、藝術、天空等,其中每個樣本是圖像-文本對,圖像是由128維的BOVW SIFT特征表示,文本是由10維的主題向量構成。
Pascal VOC 2007數據集[17]包含5 011/4 952圖像文本對,分為20類。部分圖像是多標簽的,文中只研究單標簽,因此對該數據集進行相應處理,圖像由512維的Gist特征表示,文本對應319維的詞頻特征。
實驗中進行了兩種跨模態(tài)檢索任務:以圖檢文,Img2Text,即用圖像去檢索相關的文本;以文檢圖,Text2Img,即用文本去檢索對應的圖像。為了評估檢索精度,使用mAP[18]作為性能指標,其公式為:
(14)
其中,qi為一查詢樣本;N為查詢樣本量;AP()的計算公式為:
(15)
其中,T表示檢索集中與q相關的總量;R表示檢索到的樣本量;ξ(r)為指示函數。
實驗1:在Wiki數據集上進行了Img2Text和Text2Img實驗,隨機抽取2 173個樣本對作為訓練集,其余的693個樣本為測試集,實驗結果如表1所示。

表1 Wiki數據集下各方法的mAP
實驗2:在Pascal VOC 2007數據集上進行了Img2Text和Text2Img實驗,訓練集為2 808對樣本,測試集為2 841對樣本,實驗結果如表2所示。

表2 Pascal VOC 2007數據集下各方法的mAP
由表1、表2可知,文中方法比其他方法效果好;隨著哈希碼變長,檢索精度也越來越好,說明了長的哈希碼更能夠保持結構特征。
提出了一種基于協同矩陣分解的單標簽跨模態(tài)哈希檢索方法,目標函數由三部分構成,即矩陣分解、哈希函數和圖正則化項。矩陣分解學習訓練集在低維潛在語義子空間的哈希碼;哈希函數用來學習投影,將訓練集外的樣本表示成低維空間上的哈希碼,進行相似性搜索;圖正則化用來保持原數據的局部流行幾何結構。在兩種常用的數據集上進行了大量的實驗,結果證明了該方法的優(yōu)越性。