甘勝江 孫連海 何俊林 盧穎



摘 要: 為了提高多模態檢索的性能,提出一種多模態文檔語義生成模型以及基于該模型的多模態數據聯合檢索算法。多模態文檔語義生成模型認為文檔中每個模態數據都是由相同的語義概念生成的,并且文檔是多個模態數據的聯合分布。為了簡化模型的求解過程,假設各個模態數據之間的生成過程是相互獨立的,于是可以對每個模態的條件概率進行單獨計算。在多模態聯合檢索中,通過計算查詢數據和待檢索文檔的聯合概率來計算它們之間的相似度。實驗結果表明,提出的方法與兩步檢索、語義索引和排序學習三種多模態檢索方法相比具有更好的檢索性能。此外,該方法可以擴展應用到具有三個及以上模態數據的文檔聯合檢索中。
關鍵詞: 多模態檢索; 概率圖模型; 極大似然估計; 產生式模型
中圖分類號: TN919?34; TP391 文獻標識碼: A 文章編號: 1004?373X(2017)05?0033?05
Abstract: In order to improve the performance of the multi?modal retrieval, a semantic generation model of the multi?modal document and a joint retrieval algorithm for multi?modal data based on this model are proposed. The semantic generation model of the multi?modal document deems that the data of each modal in the document is generated by the same semantic concept, and the documents complies with the joint distribution of data of multiple modals. In order to simplify the solving process of model, the conditional probability of each modal can be calculated independently if assuming that the generation processes among all the modals′ data are mutual independent. During the multi?modal joint retrieval, the joint probability of the query data and the document under retrieval are calculated to obtain the similarity between them. The experimental results show that this algorithm has better retrieval performance than the two?step retrieval algorithm, semantic indexing algorithm and ranking learning algorithm. In addition, the algorithm can be applied to the document joint retrieval of data with three and more modals.
Keywords: multi?modal retrieval; probabilistic graph model; maximum likelihood estimation; generative model
0 引 言
隨著互聯網數據的爆炸式增長,網絡上聚集了海量的文本、圖片、音頻和視頻數據,數據的多模態性和海量性給信息檢索提出了巨大的挑戰[1]。傳統的信息檢索方法,如文本檢索和圖片檢索,往往在某一模態數據上進行相似性匹配并返回相似度高的相同模態的數據。針對本文數據,經典的檢索方法是基于關鍵字查詢的倒排索引[2?3]。針對圖片數據,單模態圖片檢索往往將圖片表示為SIFT[4],SURF[5]或者BRISK[6]等特征,然后進行圖片的特征匹配。
在網絡中,每一篇文檔往往包含多種模態的數據,如文本和圖片,有時也有音頻和視頻,傳統的單模態信息檢索方法往往針對某一模態的數據進行檢索,其檢索結果很難達到用戶的預期期望。在應用多種模態數據進行信息檢索時,存在著跨模態檢索和多模態檢索兩種方法[7]。跨模態檢索要求檢索的輸入和檢索結果分別為兩種不同模態的數據,如根據文本查詢檢索圖片,或者根據圖片內容檢索文本。跨模態檢索方法主要分為以下兩類[8]:第一類方法在不同模態的數據之間建立映射,使得在一種模態下相似的數據在另一種模態下也保持相似性,屬于這類方法的主要工作有[9?13]:當文檔中包含多種模態的數據時,這種方法需要在任意兩個模態之間建立一種映射,因而計算量非常大,并且很難移植到其他場景。第二類方法在所有的模態之上尋找一種共同的潛在語義空間,屬于這類方法的工作有[14?18]:通過將所有模態的數據映射到同一個語義空間,可以實現任意兩個模態數據的跨模態檢索。
區別于跨模態信息檢索,在多模態檢索中,用戶可以輸入文本、圖片等多種模態的數據,其檢索結果為包含多種模態數據的文檔。這些不同模態的數據之間相互補充可以更準確地反應用戶的檢索需求。此外,這些不同模態的數據相互關聯,從而與單模態信息檢索相比可以提高檢索結果的準確性。在進行多模態檢索過程中,最簡單的方法是分別對多個模態進行單模態檢索,然后對檢索結果進行過濾,如兩步檢索方法[19]。此外,還可以通過多個模態之間的聯合分布來描述不同模態之間的關系,從而進行多模態數據的聯合檢索,如語義索引方法[20]和排序學習方法[21]。
本文研究了文本和圖片兩個模態下的聯合信息檢索。每一個文檔數據項包含一張圖片及相應的文本描述或者語義標簽,本文的目的是根據用戶輸入的圖片以及對圖片的描述檢索出相似的圖片。本文假設每一個文檔為一個“圖片—文本”對,并且圖片和文本都是由相同的語義空間生成的。在上述假設的前提下,提出一種包含多模態數據的文檔語義生成模型,并用圖模型的聯合概率來表示多模態文檔的生成概率。在給定的訓練數據中,通過最大化訓練數據集的生成概率進行模型的求解。
1 文檔的語義生成模型
在文檔集合[D]中,每個文檔[d∈D]包含圖片和文本兩種模態的數據,分別為[I]和[T。]令[S]表示模態無關的語義概念,并應用[K]維向量進行表示,即[S=[S1,S2,…,SK]],其中[Sk∈{0,1}]表示第[k]([1≤k≤K])個語義概念。[S1,S2,…,SK]中有一個或者多個值為1,其余所有的值為0,[S]所表達的語義空間的總語義概念個數為[2K]個。在可分類處理的文檔集合中,[S1,S2,…,SK]中只有一個值為1,而其余所有值都為0。依據語義概念[S,]本文提出如圖1所示的文檔語義生成模型。
在圖1所示的文檔語義生成圖模型中,[S]服從先驗參數為[μ]的多項式分布,其中先驗參數[μ=[μ1,μ2,…,μK]]是一個[K]維向量。[I]為文檔中圖片的特征向量,服從概率條件分布[pIS,θI,]其中[θI]為先驗參數。[T]為文檔中文本的特征向量,服從條件概率分布[pTS,θT,]其中[θT]為先驗參數。包含圖片和文本兩個模態的文檔[d=(I,T)]的生成過程如下:
(1) 依據多項式分布[Multi(μ)]生成語義概念[S;]
(2) 依據條件概率分布[pIS,θI]生成圖片[I;]
(3) 依據條件概率分布[pTS,θT]生成文本[T。]
本文只考慮包含圖片和文本兩種模態數據的文檔,但是該模型可以擴展到包含多種模態數據的文檔。
2 模型估計
為了得到模型的聯合概率分布,需要對模型中的先驗參數進行估計。本文只考慮圖片和文本兩種模態的數據,因此需要估計模型的先驗參數[μ,][θI]和[θT]。
在給定的文檔集合[D]中,每一篇文檔[dn∈D]都是一個圖片—文檔對,即[dn=(In,Tn)],其中[1≤n≤N,][N]為[D]中文檔的總數。依據極大似然估計原則,可以得到如下的對數似然函數:
在式(13)和式(14)中,[pSkμ]的計算見式(7)和式(8),[pXnSk,θX]和[pXqSk,θX]([X]為[I]或者[T])的計算見式(9)~式(11)。在得到每一個待檢索文檔[dn]與查詢數據[dq]之間的相似度以后,將相似度按照從大到小的順序進行排序,并將排序靠前的若干項作為返回結果。
4 實驗結果與分析
4.1 實驗設置
實驗采用公開的Wikipedia數據集[22]和SUN數據集[23]。Wikipedia數據集包含2 866個文檔,每個文檔包含一張圖片,以及對圖片的相關說明文本,每個圖片—文檔對屬于一個特定的類別目錄,整個數據集一共可以分為10個類別。SUN數據集是一個帶文本標簽的場景圖片數據集,共包含14 340張圖片,整個數據集一共可以分為717個類別,每個類別包含20張圖片。
對于這兩個數據集中的圖片,采用SIFT[4]特征描述符將圖片描述為128位的特征向量。對于Wikipedia數據集中的文本,采用LDA[24]模型將文本表示為10個主題的分布。對于SUN數據集中的標簽,采用LDA模型將標簽表示為717個主題的分布。在模型的學習過程中,將兩個數據集劃分為[23]的訓練數據和[13]的測試數據。
在檢索算法的性能評估過程中,采用[F]值和MAP(Mean Average Precision)兩種評價指標。在算法的對比中,將本文提出的算法與兩步檢索[19],語義索引[20]和排序學習[21]三種算法進行對比。
4.2 實驗結果分析
首先,通過實驗對比了四種算法在Wikipedia和SUN兩個數據集下的MAP,對比結果如圖2所示。從圖2中可以看出,兩步檢索方法雖然簡單,但是檢索結果在兩個數據集下的MAP都是最低的。對于語義索引和排序學習兩種檢索算法,語義索引方法在Wikipedia數據集上的MAP低于排序學習方法,而在SUN數據集上的MAP卻高于排序學習方法,說明這兩種方法對于不同的數據集各有優劣。本文提出的基于概率圖模型的聯合檢索方法在兩個數據集上的MAP要高于其他三種方法,這表明該方法能更好地反應查詢數據和待檢索數據之間的相似度。
接下來,通過實驗對比了四種方法在Wikipedia和SUN兩個數據集下的F值,對比結果如圖3所示。依據F值的定義,F值是信息檢索中查準率和召回率的調和平均值,因此可以反應查詢結果的性能。在Wikipedia數據集中,兩步檢索、語義索引和排序學習三種方法的F值都處于0.29~0.32之間,并且它們之間的差距并不大,而本文提出的方法的F值卻超過了0.4,明顯提高了檢索的性能。在SUN數據集中,兩步檢索、語義索引和排序學習三種方法的F值都處于0.34~0.39之間,而本文方法的F值約為0.47,也明顯提高了檢索結果的性能。
最后,通過一組實驗對本文提出的方法的檢索結果進行展示。在Wikipedia數據集中,隨機選取了一張圖片(見圖4(a))作為查詢圖片,圖片中一名男歌手在演唱,故同時將“Man singing”作為查詢文本與查詢圖片一起作為查詢數據,檢索結果的前三張圖片見圖4(b)~(d)。在Wikipedia數據集中,查詢圖片所屬的類別為“music”,檢索結果的三張圖片的類別也為“music”。與此同時,雖然這四張圖片中人的姿勢不同,背景也不同,但是可以看出它們的內容都是一名男歌手在演唱。因此,可以認為該方法能更好地進行多模態信息的聯合檢索。
5 結 語
本文研究了文本和圖片兩個模態下的聯合信息檢索,提出了一種多模態文檔語義生成模型以及基于該模型的多模態數據聯合檢索算法。網絡中的文檔往往包含多種模態的數據,本文假設同一文檔中多個模態的數據都是由相同的語義空間生成的。在上述假設的前提下,提出一種包含多模態數據的文檔語義生成模型,并用圖模型的聯合概率來表示多模態文檔的生成概率。實驗結果表明,提出的方法與兩步檢索、語義索引和排序學習三種多模態檢索方法相比具有更好的檢索性能。此外,該方法可以擴展應用到具有三個及以上模態數據的文檔聯合檢索中。
注:本文通訊作者為孫連海。
參考文獻
[1] 王大玲,馮時,張一飛,等.社會媒體多模態、多層次資源推薦技術研究[J].智能系統學報,2014,9(3):265?275.
[2] ILIC M, SPALEVIC P, VEINOVIC M. Inverted index search in data mining [C]// Proceedings of 2014 the 22nd IEEE Telecommunications Forum. Serbia: IEEE, 2014: 943?946.
[3] RAMOS J. Using TF?IDF to determine word relevance in document queries [C]// Proceedings of the First International Confe?rence on Machine Learning. [S.l.]: IEEE, 2003: 1?4.
[4] LOWE D G. Distinctive image features from scale?invariant keypoints [J]. International journal of computer vision, 2004, 60(2): 91?110.
[5] BAY H, ESS A, TUYTELAARS T, et al. Speeded?up robust features (SURF) [J]. Computer vision and image understan?ding, 2008, 110(3): 346?359.
[6] LEUTENEGGER S, CHLI M, SIEGWART R Y. BRISK: binary robust invariant scalable keypoints [C]// Proceedings of 2011 IEEE International Conference on Computer Vision. Switzerland: IEEE, 2011: 2548?2555.
[7] 何寧.圖像檢索中跨模語義信息獲取方法研究[D].武漢:武漢大學,2013.
[8] SPENCE C. Crossmodal correspondences: a tutorial review [J]. Attention, perception & psychophysics, 2011, 73(4): 971?995.
[9] 劉亞楠,吳飛,莊越挺.基于多模態子空間相關性傳遞的視頻語義挖掘[J].計算機研究與發展,2009,46(1):1?8.
[10] WANG Y, GUAN L, VENETSANOPOULOS A N. Kernel cross?modal factor analysis for information fusion with application to bimodal emotion recognition [J]. IEEE transactions on multimedia, 2012, 14(3): 597?607.
[11] COSTA P J, COVIELLO E, DOYLE G, et al. On the role of correlation and abstraction in cross?modal multimedia retrieval [J]. IEEE transactions on pattern analysis and machine intelligence, 2014, 36(3): 521?535.
[12] 張鴻,吳飛,莊越挺.跨媒體相關性推理與檢索研究[J].計算機研究與發展,2008,45(5):869?876.
[13] WANG K Y, HE R, WANG W, et al. Learning coupled feature spaces for cross?modal matching [C]// Proceedings of 2013 IEEE International Conference on IEEE Computer Vision. Beijing, China: IEEE, 2013: 2088?2095.
[14] WANG W, OOI B C, YANG X, et al. Effective multi?modal retrieval based on stacked auto?encoders [J]. Proceedings of the VLDB endowment, 2014, 7(8): 649?660.
[15] WANG W, YANG X Y, OOI B C, et al. Effective deep lear?ning?based multi?modal retrieval [J]. The VLDB journal, 2016, 25(1): 79?101.
[16] SONG J, WANG Y, WU F, et al. Multi?modal retrieval via deep textual?visual correlation learning [C]// Proceedings of 2015 the 5th International Conference on Intelligence Science and Big Data Engineering. Suzhou, China: Springer International Publishing, 2015: 176?185.
[17] WANG Y F, WU F, SONG J, et al. Multi?modal mutual to?pic reinforce modeling for cross?media retrieval [C]// Procee?dings of the 22nd ACM International Conference on Multimedia. Florida: ACM, 2014: 307?316.
[18] TOEWS M, Z?LLEI L, WELLS W M. Feature?based alignment of volumetric multi?modal images [C]// Proceedings of 2013 International Conference on Information Processing in Medical Imaging. US: Springer Berlin Heidelberg, 2013: 25?36.
[19] RASIWASIA N, COSTA PEREIRA J, COVIELLO E, et al. A new approach to cross?modal multimedia retrieval [C]// Proceedings of the 18th ACM International Conference on Multimedia. Firenze: ACM, 2010: 251?260.
[20] CHANDRIKA P, JAWAHAR C V. Multi modal semantic indexing for image retrieval [C]// Proceedings of the ACM International Conference on Image and Video Retrieval. Xian, China: ACM, 2010: 342?349.
[21] WU F, JIANG X, LI X, et al. Cross?modal learning to rank via latent joint representation [J]. IEEE transactions on image processing, 2015, 24(5): 1497?1509.
[22] RASIWASIA N, COSTA PEREIRA J, COVIELLO E, et al. A new approach to cross?modal multimedia retrieval [C]// Proceedings of the 18th ACM International Conference on Multimedia. New York: ACM, 2010: 251?260.
[23] PATTERSON G, HAYS J. Sun attribute database: discove?ring, annotating, and recognizing scene attributes [C]// Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence: IEEE, 2012: 2751?2758.
[24] BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation [J]. Journal of machine Learning research, 2003, 3: 993?1022.