解姍姍,神顯豪
(1.閩南理工學院 信息管理學院, 福建 石獅 362700;2.桂林理工大學 信息科學與工程學院, 廣西 桂林 541004)
隨著移動互聯網的飛速發展以及社交媒體的普及,社交媒體的用戶每天上傳數以億計的新圖片,導致從海量的圖像數據集中準確搜索出目標圖像成為了巨大的挑戰[1-2]。目前主流的圖像檢索技術主要分為基于文字檢索(text-based image retrieval,TBIR)[3]、基于圖像內容檢索(content-based image retrieval,CBIR)[4]兩種方案。CBIR方案提取圖像的視覺特征,通過視覺特征匹配出相似的圖像。CBIR技術的檢索準確率較高,但是“語義鴻溝”是CBIR技術一個難以解決的問題[5]。TBIR技術基于圖像的標注信息匹配相似的圖像,但一般需要人工完成圖像的標注任務,而海量的社交圖像集難以通過人工實現對圖像的標注[6]。兩種圖像檢索技術均具有顯著的優勢,同時也具有明顯的缺陷。
為了提高海量圖像數據庫的檢索效果,研究人員考慮融合CBIR與TBIR兩種技術以實現互補的效果[7-8]。文獻[9]設計了一種基于文本和視覺內容的圖像檢索算法,該算法采用稠密的尺度不變特征轉換構造視覺單詞的方式描述圖像的內容,依據基于概率潛在語義分析模型的圖像自動標注方法獲取的視覺語義對圖像進行查詢。文獻[10]提出了一種新的混合圖像檢索技術,該算法主要分為2個階段:首先得到分類完成的圖庫、概率分配參數表和基本詞庫,然后在該類下搜索最相似圖片。該算法在檢索之前將圖片庫中所有圖片按其本身特征進行自動分類,取代人工標注圖像信息的過程。文獻[9-10]參考人工標注或者從Web提取相關的文字信息,限制了檢索算法的性能。文獻[11]提出一種混合的圖像檢索算法,該算法采用語義標注信息、Gabor小波特征以及顏色特征,有效地提高了圖像檢索算法的魯棒性,但是特征量較大,難以應用于海量數據集。
大多數圖像檢索算法采用人工標注或從Web提取相關的標注信息,降低了檢索算法的準確率。實際情況中社交媒體圖像的標注信息大多不完整,并且存在噪聲,導致圖像檢索的精度不足。為了解決上述問題,本文設計了一種混合的圖像檢索算法,該算法能夠自動關聯圖像的視覺內容與文字標注,有效地提高了圖像檢索的效率。首先,將圖像建模為局部特征集,將特征量化為視覺詞匯集。然后,設計了基于概率的主題模型(probabilistic fusion topic model,PFTM),根據共生的標注信息與視覺特征提取圖像的語義主題。本文的主題模型中基于視覺特征生成的最近主題能夠有效地增強圖像與文字標注之間的相關性,并構建視覺特征中空間位置與顏色之間的關系。此外,主題模型能夠有效地補全缺失的文字標注信息,同時刪除噪聲標注。主題模型保證了圖像標注的完整性,有助于提高檢索結果的準確性。
本方法的基本架構如圖1所示,主要由離線階段與線上階段兩部分組成。離線階段提取每個社交圖像的主題,補全缺失的文字標注,刪除噪聲標注。從訓練圖像集學習PFTM模型的模型參數,通過搜索圖像視覺特征與文字標注的共生模式,將主題建模為關于視覺特征與文字標注的兩個分布。如果圖像的視覺特征(空間位置與顏色特征)較為接近,那么將圖像分為相同的主題,因此學習的模型參數僅反映了標注與視覺特征之間的相關性。在線上階段,采用離線學習的PFTM模型來加速圖像搜索的過程。系統的查詢可以是圖像、關鍵詞或者兩者的組合。

圖1 本算法離線、線上階段的流程
1.1.1特征提取

1.1.2問題模型

PFTM模型是一種多實體數據的生成模型,社交圖像是視覺詞匯與文字詞匯的組合,屬于一種多實體數據。本文的主題模型表示為流程圖模型,如圖3所示。

圖3 主題模型的流程框圖
圖3顯示,給定一個包含D個圖像的集合,每個圖像Id由Nd個視覺詞匯與Md個文字標注詞匯組成。使用最近的變量(zdi)來表征主題,主題z表示與每個視覺特征語義相關的主題。將圖像表示為T個主題的組合,每個主題建模為視覺詞匯與標注詞匯的兩個分布,假設視覺詞匯與標注詞匯的大小分別為v與w。文字主題是主題z的一部分,PFTM模型直接使用最近的視覺詞匯主題生成文字詞匯。根據圖4的模型,vdi與wdj是兩個顯變量,引入新的顯變量fdi表示第i個patch的特征。圖像語料庫的PFTM模型主要流程如算法1描述。

算法1 圖像語料庫的PFTM模型foreach 主題t: 計算視覺分布?1,t~Dir(β1); 計算文字分布?2,t~Dir(β2);foreach圖像Id: 計算主題傳播概率θd~Dir(α);foreach 主題t;計算局部的特征分布:{μtd,Λtd} ~ NW(μ0,κ,v,Q);foreach 視覺詞匯vdi: 計算主題zdi~Multi(θd); 計算視覺詞匯vdi~Multi(?1,zdi); 計算局部向量fdi~N(μdzdi,Α-1dzdi);foreach 標注詞匯wdj 計算主題ydj~Unif(z1,…,zNd); 計算文字詞匯wdj~Multi(?2,ydj);
此處dir、multi、n與nw分別表示狄利克雷分布、多項式分布、正態分布以及正態-Wishart分布。優先選擇多項式分布與正態-Wishart分布分別表示標注分布與位置分布,原因在于這兩個分布的計算簡單且效率高。本模型采用了視覺實體與文字標注實體。視覺詞匯與文字詞匯是離散隨機變量,因此服從多項式分布;區域特征是實數向量形式,因此服從正態分布。
PFTM模型支持先驗信息,由圖像視覺內容的貝葉斯先驗與實體之間的關系實現。在PFTM處理步驟中,圖像d的每個主題t表示為1個區域特征分布p(μtd,Λtd),以及1個視覺詞匯的概率分布Φt。設置每個圖像的區域特征分布p(μtd,Λtd)具有獨立性,而不同圖像之間共享視覺詞匯分布信息Φ1,t。不同圖像的目標形狀特征Φ1,t較為相似,目標的位置分布與顏色分布則相差較大,所以將不同圖像的p(μtd,Λtd)設為獨立信息。圖像中視覺詞匯的關系編碼為參數μtd與Λtd,主題t的視覺詞匯接近分布p(μtd,Λtd)的期望值。文字主題y通過均勻分布與1個視覺主題z相關聯,然后根據主題分布Multi(Φ2)生成文字詞匯。通過該方法加強了視覺詞匯與文字詞匯之間的相關性。
通過有效的學習方法實現對PFTM模型的參數估計。假設Π={α,β1,β2,μ,κ,v,Q}是超參數(hyper parameters)集合,給定一個共有D個圖像的訓練集B,模型參數包括視覺主題分布Φ1與文字主題分布Φ2,其估計方法為最大化式(1)的對數似然方程。
(1)
采用Monte Carlo EM算法對模型參數進行估計,算法流程如算法2描述。

算法2 主題模型的參數估計算法輸入:圖像數據語料庫{vd,fd,wd}Dd=1,由視覺詞袋、區域特征以及文字詞匯組成。輸出:估計的模型參數Φ1,Φ2。1.初始化參數集{Φ(0)1,Φ(0)2}2.foreach k=1,…,K do:3.給定Φ(k-1)1,每個圖像為Id,使用式(2)計算視覺主題 p(zd| vd,fd,yd,Π)后驗分布的采樣。4.給定Φ(k-1)2,每個圖像為Id,使用式(3)計算文字主題 p(yd| wd,zd,Π)后驗分布的采樣。5.使用式(5)(6)計算{Φ(k)1,Φ(k)2}6.endfor
算法2實現了模型參數的近似估計,然后通過檢查后驗樣本估計出模型的參數。具體采用Gibbs采樣算法分別采樣視覺詞匯v與文字詞匯w的最近變量z與y,定義為式(2)(3)。
(2)
(3)

在采樣迭代之后,使用最近變量的后驗樣本迭代地估計Φ1與Φ2兩個參數,直至達到收斂。主題-視覺詞匯的后驗多項式分布計算見式(4)。
(4)

(5)
與之相似,文字主題分布的估計方法如式(6)所示。
(6)
式(2)(3)中對標注完整性進行了處理,補全缺失的標注并刪除噪聲標注。式(2)的第1項是視覺詞匯v分配到主題t的概率,第2、3項分別是主題t關于區域特征與視覺詞匯的概率。因此,增強了同一圖像中共生的視覺詞匯,通過將區域特征分配至同一個主題實現兩者之間的關聯。式(2)的最后一項是文字詞匯的分配概率。最終,與主題t頻繁共同出現的人工標注優先分配至該主題,根據各個圖像提取的主題可以有效地預測丟失的標注。式(3)度量了文字詞匯分配至主題t的概率,其中第1項是文字詞匯w分配至主題t在全部數據集中的概率,第2項表示主題t在圖像d中的比例。人工標注導致的噪聲詞匯極少出現在圖像數據庫中,因此將噪聲詞匯w分配至主題t的概率極低。如果主題t支配圖像d,此時文字詞匯分配至主題t的概率較高。綜上所述,因為噪聲詞匯的比重遠低于語義相關的詞匯,所以采用分配概率即可直接地解決標注完整性的問題。
未知圖像預測的目標是推導未知圖像Id′的最近變量。未知圖像的預測過程與本文1.3小節的參數預測過程相似,修改式(2)(3)的第1項,單獨考慮每個未知圖像。未知圖像的預測方法如式(7)(8)所示。
(7)
(8)
基于feacorrlda模型以及估計的模型參數,提出了標注相關性的估計算法,如算法3所示。

算法3 主題模型的標注相關性輸入:未知圖像{vd′,fd′,wd′}Dd=1,由視覺詞袋、區域特征以及文字詞匯組成。算法1學習的參數Φ1,Φ2。輸出:標注相關性概率P(w|vd′, fd′,Φ1,Φ2)1.使用式(7)計算視覺主題p(zd′|vd′, fd′,yd′,Π)后驗分布的采樣。2.使用式(8)計算文字主題p(yd′|wd′,zd′,Π)后驗分布的采樣。3.使用式(9)計算P(w|vd′, fd′,Φ1,Φ2)。
標注w對圖像Id′的相關性計算為區域特征fd′、視覺詞匯vd′以及訓練集B估計所估計參數的條件概率。具體計算見下式:
P(w|Id′,B)=P(w|vd′,fd,Φ1,Φ2)=
(9)

給定一個標注,之前基于文字的方法僅使用標注信息完成圖像的檢索任務。本文采用基于Fisher向量的視覺內容信息,使用GMM將圖像的全部局部特征收集至一個全局向量中,該編碼技術顯示了較好的性能。
根據本文1.1小節的內容,一個圖像由SFIT描述符與hue描述符兩種特征組成。文獻[10]顯示組合兩種特征能夠有效地提高圖像檢索的性能。Fisher向量u計算方法見式(10)~(12)。
(10)
(11)
(12)

(13)
給定一個查詢圖像Iq與數據庫圖像Id,假設兩個圖像的視覺特征分別為uq與ud。假設rq與rd是兩個W維度的向量,分別表示圖像Iq與Id的文字信息。查詢圖像與數據庫圖像的相似性度量方程為
S(q,d)=(1-ρ)uqud+ρrqrd
(14)
式中:第1項對應視覺相似性;第2項對應文字相似性;ρ控制兩者之間的重要性,如果查詢是關鍵字,那么將ρ設為1,如果查詢是圖像,那么將ρ設為0。將數據庫所有圖像按照相似性評分排序,選擇最相關的圖像返回給用戶。
2.1.1實驗數據集
為了全面地評估算法的性能,采用3個不同規模的benchmark數據集。3個數據集的基本信息為:LABELME數據集是一個小規模數據集,樣本數量為2 920,標注詞匯量為490,標注量均值為11;IAPR TC12數據集是一個中等數據集,樣本數量為 19 805,標注詞匯量為291,標注量均值為5.7;NUS-WIDE數據集是一個大規模數據集,樣本數量為 237 131,標注詞匯量為1 000,標注量均值為6.5。表1所示是3個數據集的基本信息。

表1 3個數據集的基本信息
2.1.2實驗環境與參數設置
采用DoG(difference of gaussian)尋找圖像的顯著點。在計算每個圖像patch hue描述符的過程中,將hue直方圖的bin數量設為15,因此,HueSIFT描述符的維度為dimHS=128+15=143。Fisher向量的維度為dimFV=2×K×dimHS=18 304,K=64是高斯分量的數量。Fisher向量的維度過高,空間復雜度較高,因此采用PCA技術將描述符降為1 024維。所有數據集的視覺詞匯大小V設為2 000。
2.1.3主題學習實驗
模型的參數分別設置為:α=0.2,β1=0.01,β2=0.1。采用對數似然評估兩個模型的學習能力,該指標反映了主題模型的擬合效果。對數似然值越高,說明模型的學習能力越強。在本文 1.2節中,通過視覺特征產生了最近的主題,兩個模型視覺詞匯的邊緣似然P(v|z)可用下式計算:
(15)
可看出主題數量T對學習性能具有高度的影響力,因此在訓練階段需要估計最大化似然的理想T值。
在適量的預處理實驗之后,分別選擇120、140、180作為IAPR TC12、LABELME、NUS-WIDE三個數據集的最優T值。這3個值使3個數據集分別實現了最佳的對數似然值。
2.1.4圖像標注與語義圖像檢索實驗
采用平均精度與平均召回率評估圖像標注的實驗結果,每個測試圖像的精度與召回率基于相關標注與正定值計算。然后,計算所有測試圖像的平均值,使用平均精度定量地評估各個檢索算法的檢索性能。首先,計算單個查詢的平均精度,即精度-召回率曲線的下方區域;然后,統計所有查詢的平均值作為檢索性能的最終結果。
為了綜合地評價本算法的性能,將本算法與其他同類型的算法進行對比實驗,對比算法分別為ROF[12]、NITCM[13]、PMFSVN[14]、ITARR[15]、ITRII[16]。
首先通過實驗評估主題模型學習的性能,在離線階段采用Gibbs采樣對訓練數據集采樣。觀察主題模型的收斂性,使用IAPR TC12數據集作為訓練集,該數據集共有100個主題,算法共運行100次迭代。圖4所示是收斂實驗的曲線圖,可看出模型大約在60次時完成收斂。
表2所示是本模型對NUS-WIDE數據集提取的一部分主題,每個主題列出了排名最高的標注。主題3對應“pet”,主題96對應“color”,主題57對應“season”。從表2中可看出:使用主題模型能夠緩解圖像標注的語義鴻溝,本模型有效地提高了標注詞匯的語義相關性,并且刪除了噪聲詞匯。

圖4 收斂實驗的曲線

主題3主題96主題57主題25主題88主題9DogYellowWinterArchitecturePeopleTree PetOrangeSnowBuildingMenGreen CatColorsIceTowerWomenNatureAnimalGoldColdWindowFriendBranchPuppyRedFrozenGlassAdultLeavesFriendBlueSkiingStructureBoyForest
圖像檢索實驗中,將每個數據集包括訓練與測試圖像作為數據庫圖像。為了模擬社交圖像檢索的實際情況,創建了一個查詢集合,包括關鍵詞查詢與圖像查詢兩種。
2.3.1關鍵詞查詢的圖像檢索實驗
本文測試了單一關鍵詞與復合關鍵詞兩種查詢的檢索性能。對于單一的關鍵詞查詢,對IAPR TC12、NUS-WIDE兩個數據集分別構建了490、291個查詢測試例。對于復合關鍵詞查詢,對IAPR TC12、LABELME、NUS-WIDE三個數據集分別構建了219、126、523個查詢測試例。對部分數據庫圖像進行圖像標注與標簽補全處理。
圖5所示是單一關鍵詞查詢的圖像檢索結果。受益于本文主題模型中結合了詞匯特征與視覺特征,本算法對于3個數據集的結果均優于其他5種圖像檢索算法。
圖6所示是多個關鍵詞查詢的圖像檢索結果,5個算法的性能均低于單一關鍵詞查詢的結果。但是受益于本文主題模型中結合了詞匯特征與視覺特征,本算法對于3個數據集的結果依然優于其他5種圖像檢索算法。

圖5 單一關鍵詞查詢的圖像檢索結果

圖6 多個關鍵詞查詢的圖像檢索結果
2.3.2圖像查詢的圖像檢索實驗
從每個benchmark數據集隨機地選擇一個圖像子集作為查詢圖像,其中從labelme數據集、IAPR TC12數據集、NUS-WIDE數據集分別選擇了100、200、500個查詢圖像。通過人工對每個查詢圖像進行標注。
對于已有的方法,程序檢索一個相關圖像的列表相似于圖像注釋的程序。尤其是給出一個圖像沒有標簽,本文預測一定量的標簽反映圖像的內容。首先,測試式(14)的ρ參數對檢索性能的影響,通過3個數據集測試ρ在[0,1]區間的性能,結果如圖7所示。對于LABELME、IAPR TC12與NUS-WIDE三個數據集,ρ的最優值分別為0.4、0.6、0.7。
圖8為6個檢索算法對3個數據集的檢索結果。圖8中,ROF與NITCM均表現出略低的性能,這兩種算法的視覺特征中并未考慮顏色特征與空間位置特征,因此檢索的準確率較低。PMFSVN、ITARR、ITRII與本算法的性能極為接近,這3種算法均考慮了全面的視覺特征,但是文字標注的噪聲部分未能實現較好的消除,影響了圖像檢索的準確性。本算法使用了不同類型的圖像表示,包括BoV詞袋、fisher向量。本算法對Fisher向量進行了有效的改進,使得本算法優于基于大邊界的圖像標注方法(ITRII算法)。

圖7 ρ參數對于3個數據集平均檢索性能的影響

圖8 圖像查詢的實驗結果
采用關鍵詞與圖像聯合查詢評估圖像檢索系統的性能,結果如圖9所示。3個數據集的關鍵詞數量范圍為[2,5],采用本文2.3.2小節隨機提取查詢圖像。從圖9可看出:關鍵詞與圖像聯合查詢的結果優于單一關鍵詞或者單一圖像查詢。主要原因在于本算法對主題模型進行了有效的改進,文字主題與圖像視覺主題的相關性較高,有效地擴大了不同圖像的差異。綜上所述,本文的主題模型在視覺特征與標注之間實現了較好的語義相關性,提高了檢索算法的魯棒性。

圖9 圖像與關鍵詞聯合查詢的實驗結果
目前的大多數社交圖像檢索系統僅支持單一的圖像搜索或者關鍵詞搜索,本文提出了一種語義與圖像概率融合的社交媒體圖像檢索算法,該算法支持關鍵詞搜索、圖像搜索或者兩者的結合。本算法是基于概率的模型,對于弱標注的社交媒體圖像也具有較好的檢索效果,其中通過提取最近的圖像主題有效地減小了“語義鴻溝”,保證了標簽預測的準確率。此外,本文的主題模型能夠融合不同的先驗視覺信息,有助于解決主題提取問題。
未來將研究采用深度學習技術對智能圖像進行標注,提高檢索系統的魯棒性,并且計劃將圖像的時間信息加入主題模型中,實現對流數據與視頻數據的處理。