蔣雪瑤,力維辰,劉井平,李直旭,肖仰華
(1.復旦大學 軟件學院,上海 200433;2.華東理工大學 信息科學與工程學院,上海 200237)
知識圖譜是輔助計算機理解實體背景知識的一種重要方式,目前仍以純符號化的方式表達。隨著知識工程與多模態學習交叉研究的開展[1-3],研究者開始尋求更多的數據模態來豐富和完善知識的表達方式,因此,多模態化成為知識圖譜發展的主流趨勢之一。當知識圖譜中的知識表示包含一種以上模態的數據時,稱之為多模態知識圖譜。當前,以圖文表示為主的多模態知識圖譜構建是該領域的研究熱點[4-6],其核心任務在于為圖譜中的實體、概念、關系等符號知識匹配合適的圖像,這也是符號接地的一種方式[7]。
現有的實體配圖方法可根據圖像的數據來源大致分為百科圖譜和搜索引擎兩大類。在主流的百科知識圖譜中,實體的信息頁面都會加入一些圖像輔助說明,這為實體配圖任務提供了非常充足的圖像資源,一些百科圖譜的構建組甚至整理開放了針對這些圖像的檢索工具,如Wikipedia[8]提供了Wikimedia Commons[9],在IMGpedia[10]、VisualSem[11]、Richpedia[12]等常見的多模態知識圖譜中都用到了百科圖片。目前的搜索引擎大部分都提供了針對圖像的搜索功能,利用網頁中圖像上下文中的文本信息,以及用戶的點擊行為為當前的檢索關鍵字 返回相關圖 像[13],如ImageGraph[14]、MMKG[15]、TinyImage[16]、NEIL[17]等都選擇圖像搜索引擎作為候選圖像的來源。
雖然多模態知識圖譜的構建在實體配圖方面已經取得了一定的成果,但現有方法對圖像數據源的應用方式簡單粗暴,沒有準確把握圖像數據來源的特點,并且忽略了實體本身的圖像表現規律:實體的圖像表現在類內有相似性,而在類間有較大差異性,例如,同屬于“人物”這一類別的概念通常都會用人物的“肖像”來表達該實體,而其他諸如“電影”“島嶼”等類別則一般不使用“肖像”來表達實體。
本文根據百科圖譜和搜索引擎這兩類圖像源的特點,提出一種基于多模態模式遷移的知識圖譜實體配圖方法。借助百科圖譜準確的人工標注圖像及標題信息,為同類實體從中抽取常見的語義模板和視覺模式。將語義模板應用于構建更精準的檢索關鍵詞,為同類的非頭部實體從圖像搜索引擎中獲取更準確的候選圖像。在此基礎上,利用抽取到的視覺模式對獲得的候選圖像進行篩選,進一步提高配圖準確性。
目前,多模態知識圖譜實體配圖方法可根據采用的圖像數據來源分為基于百科圖譜的方法和基于圖像搜索引擎的方法。基于百科圖譜為實體配圖的方法有IMGpedia[10]、VisualSem[11]、Richpedia[12]等。其中:IMGpedia 是規模最大的,但該方法只是將DBpedia Commons[9]中提供的圖像加以整理,沒有進行篩選,圖像的最終質量不可控;VisualSem 使用預訓練語言模型CLIP[18]作為圖文匹配的工具來檢查圖像是否匹配,但該方法嚴重依賴于CLIP 訓練集中所包含的實體和概念。基于圖像搜索引擎為實體配圖的方法有Richpedia[12]、ImageGraph[14]、MMKG[15]、TinyImage[16]等。其中:MMKG、ImageGraph、TinyImage只簡單粗暴地使用圖像搜索引擎獲得的排名靠前的圖像,同樣沒有對實體的圖像質量進行把控;Richpedia 雖然同時使用了百科圖像和圖像搜索引擎兩個數據源,但沒有利用百科圖像質量較高的優勢,而是將兩者同等對待。
本文同時考慮百科圖譜圖像數據和圖像搜索引擎兩個方面,提出一種基于模式遷移的實體配圖方法。與Richpedia 不同的是,本文方法篩選了百科圖譜中高質量圖像及其文字描述作為實體的參考模式,并將該模式用于從圖像搜索引擎召回圖像,從而充分利用兩類圖像數據的優勢,提高配圖準確性。
本節形式化地給出問題定義,在此基礎上介紹基于模式遷移的實體配圖方法框架。
多模態知識圖譜構建工作的核心在于為其中的實體匹配合適的圖像。給定實體e,本文的目標是為其獲取合適的圖像集Me=[m1,m2,…,mn],使得每張圖像與實體e在語義上是匹配的。
在本文方法框架中包含以下2 個階段:
1)模式抽取:從同一類別頭部實體的百科圖譜的圖文對中,利用同類實體的文本描述中的共現性和圖像之間的相似性,抽取該類實體典型圖像的語義模板和視覺模式。
2)模式遷移:將得到的語義模板和視覺模式遷移到同類非頭部實體的圖像獲取過程中,其中語義模板用于構建搜索引擎檢索關鍵詞,視覺模式用于對檢索結果去噪。
模式抽取方法整體框架如圖1 所示,本節分別介紹從百科圖譜的圖文對中抽取語義模板與視覺模式的具體步驟。

圖1 模式抽取方法整體框架Fig.1 Overall framework of pattern extraction method
本文采用Wikipedia 描述頁中圖像的標題作為抽取語義模板的數據來源,采用以詞頻統計為基礎的抽取方法,并使用視覺信息輔助過濾冗余的語義模板。
首先將同類實體的圖文對中所有的文本整理成一個大的文本集合,對文本經過詞根還原等預處理后,以實體為單位統計其中n-gram(n=1,2,3)的詞頻,即如果某實體的文本中該短語出現了多次,也只記1 次,以避免同一實體中反復出現的詞對模板詞頻統計的干擾。
在最終應用于其他同類實體時,本文只選用詞頻數量排序靠前的k個語義模板,但簡單統計n-gram詞頻進行排序的方法是存在很多噪聲的,嚴重影響了排名前k語義模板的質量。經過分析,筆者總結了以下無效n-gram 類型及解決思路:
1)介詞冗余。例如針對模板“map”,在抽取到的n-gram 中會出現“map of ”這類短語,其出現頻率與“map”相近,這一模板與“map”在語義表達上有很大的重復,需要去除,應在抽取時過濾掉不是以名詞結尾的短語。
2)包含冗余。以“theatrical release poster”為例,在取1/2/3-gram 時,還會取到“theatrical”“release”“poster”“theatrical release”“release poster”這5種額外的情況,且這幾個短語的出現頻率一定大于或等于“theatrical release poster”,但其中只有“poster”是正確的,其余幾項是冗余或者完全錯誤的。針對這一問題的解決思路是:同詞頻n-gram 中若存在重疊,則優先保留長度較長的n-gram,在此基礎上,從高詞頻向低詞頻掃描,若發現當前短語包含其余高頻短語,說明當前短語冗余,刪去該短語。
視覺模式抽取階段主要包括以下3 個步驟:1)獲取語義模板對應的圖像;2)去除噪聲圖像;3)過濾語義模板。其中,前2 個步驟是對視覺模式的獲取及精化,第3 步是通過視覺模式進一步對語義模板過濾。
1)獲取語義模板對應的圖像
在抽取到合適的語義模板后,將從Wikipedia 描述頁中抽取到的圖文對進一步處理成
2)去除噪聲圖像
通過純文本比對的方式獲得的語義模板,其對應圖像中存在噪聲,因為語義模板可能出現在圖像的標題中但并不是圖像所表達的主體。考慮到這種噪聲的存在,在本步驟中,借助于整體圖像的視覺特征對這些圖像進行過濾,這些噪聲圖像的視覺特征與大部分圖像都存在很大的差距,從圖像特征的向量空間看,這些圖像就是顯然的離群點。本文采用預訓練圖像分類模型VGG16[19]對圖像進行編碼,得到對應的圖像向量,之后用局部離群因子檢測方法(Local Outlier Factor,LOF)[20]對這些圖像向量進行擬合,計算每張圖在向量空間中對應點周圍的密度,從而得到其離群因子,最終預測出離群點。
筆者沒有采用常規的K-Means、G-Means[21]等聚類算法過濾噪聲圖像,是考慮到不需要明確提取圖像聚類,而只用于過濾邊緣圖像,且聚類算法會引入額外的超參,而這些超參需要針對實體的不同類別進行設置,影響了方法的泛化能力。
3)過濾語義模板
3.1節中獲得的排名靠前的語義模板具備很高的質量,但將所有的模板都用作圖像召回是不現實的,需要對這些模板作進一步的篩選,截取前k個作為最終的語義模板,這一步需要使用視覺信息進行檢驗。
在此提出語義模板的另一條隱形規則:語義模板之間是視覺獨立的,即一個語義模板所要表達的圖像與其他模板所表達的圖像應該是低重合度的。基于這樣一個隱形條件,本步驟借助于離群點檢測的方法對語義模板進行篩選。
對每個模板pi,若存在pj(j

表1 語義模板示例Table 1 Examples of semantic patterns
本節介紹語義模板和視覺模式的遷移方式。其中,語義模板的遷移主要應用于構建搜索引擎檢索關鍵詞,視覺模式的遷移主要應用于檢索結果的去噪。
本文提出通過在實體名稱后增加關鍵詞的方式,具體化檢索的方向。若抽取得到實體e所屬概念c有語義模板Pc=[p1,p2,…,pl],則 可以構建l條對應的搜索關鍵詞,用模板pi具體化的檢索詞對當前實體進行檢索,得到的圖像就會集中于該實體的pi方面。如圖2 所示,在搜索引擎中單純搜索“Greenland”得到的圖像結果十分雜亂,大部分是風景照,中間夾雜了幾張地圖。但在檢索的關鍵詞后加上語義模板對其做進一步約束后,得到的圖像結果的表達方式更為集中,且抽取到的多個語義模板也能保證檢索結果的全面性。

圖2 不同檢索關鍵詞下的圖像搜索引擎檢索結果Fig.2 Retrieval results of image search engine with different keywords
通過語義模板得到的關鍵詞檢索結果會更精確,可以將當前語義模板限定下的實體圖像從廣泛的網頁圖像中召回到排名靠前的位置,但圖像搜索引擎檢索中噪聲問題依然存在,除了排序靠前的圖像較為可信外,剩下的圖像中依然存在錯誤圖像,尤其是針對中長尾實體,圖像搜索引擎的準確率是很不可靠的[22]。因此,還需要使用3.2 節中獲取的視覺模式對搜索引擎得到的圖像進行篩選和過濾。
圖像篩選的方式同3.2 節的噪聲過濾類似,即通過LOF 算法對每個語義模板對應的圖像集進行離群點檢測。需要注意的是,進行離群點檢測時需要將同類概念的頭部實體圖像信息作為參考,一起加入到數據集中,LOF 算法在頭部實體圖像集擬合的基礎上對同類其他實體的圖像進行檢測過濾,以防止實體從圖像搜索引擎檢索得到的圖像整體視覺模式偏移,無法通過局部離群因子檢測的方法過濾離群點。
本節介紹實驗數據及其統計信息,以及實驗所用到的一些模型和超參的設置。此外,還將對最終獲得的多模態知識圖譜的規模和數據進行統計分析,并通過與現有多模態知識圖譜的比較評估和完成下游任務的情況,證明所提方法的有效性。
5.1.1 數據源
本文實驗基于百科知識圖譜WikiData[23]開展。WikiData 是 對Wikipedia 和Wikimedia Commons 結 構化處理形成的一個知識庫,其包含的實體數量達到9.6×107之多。同時,模式抽取的數據來源是Wikipedia,一個多語言的百科知識圖譜,其中用英文表述的文章數量超過6×106。作為WikiData 本身構建的數據來源,Wikipedia 中每個實體的描述頁中的信息比WikiData 中的更加完整和全面。此外,用以構建圖譜的圖像數據來源有百科圖像和圖像搜索引擎兩類,由于數據本身為英文表達,因此采用Google圖像搜索引擎。
在實驗中,對WikiData 中不同概念的實體數量進行統計和排序,在排除“消歧頁”等Wikipedia 的內置類別和“Taxon”“Surname”等明顯的非視覺類別[24]后,排名前25 的統計結果如圖3 所示,其中,橫坐標為類別名稱,縱坐標為實體數量的對數值,這么做是因為WikiData數據存在一定的偏向,Human 包含的實體數量遠大于其他概念,為了更清楚地顯示其數值,故使用對數值(底數為e)。每次從這些概念中選取頭部的100 個實體作為參考實體,對當前概念的圖像表達模式進行抽取,包括語義模板和視覺模式。經統計,最終為每個概念抽取了平均約2 個語義模板。

圖3 概念分布統計Fig.3 Statistics of concept distribution
5.1.2 實驗設置
在視覺模式抽取中,本文采用VGG16 作為圖像特征的抽取算法,并將VGG16 分類模型中分類層之前的最后一個池化層的輸出作為特征向量,其為一個512 維的向量。
在對模板進行視覺重合度檢測時,評估不同離群點比例routliers的取值對最終得到的語義模板的影響。實驗結果如圖4 所示,可以看出,routliers取值越大,對語義模板的過濾效果越好。最終選取F1 值最大的routliers=0.25 作為過濾閾值,即當模板pi的圖像集中只有不超過25%的圖像對于模板pj是離群點時,認為pi與pj視覺重合度高,過濾其中之一。

圖4 routliers 取值對語義模板的影響Fig.4 The influence of routliers on semantic pattern
經統計,本文方法為25 類實體,共1.27.8×105個實體收集了1.8×106張圖像。抽取到的圖像數量按類別分布如圖5(a)所示,可見其中“Island”“City”“Town”這3 類所收集到的圖像數量最多。實體按圖像數量的分布如圖5(b)所示,可見為每個實體最多收集了124 張圖像,且由于語義模板加入構造搜索引擎檢索關鍵詞,每加入一個語義模板就多檢索一次,每次檢索爬取20張圖像,因此實體包含的圖像數量以20 為間隔出現一個小的峰值。

圖5 實體圖像數據統計Fig.5 Statistics of entity images data
本文選取4 個多模態知識圖譜(IMGpedia、VisualSem、Richpedia、MMKG)對圖像質量進行比較,每次為一個實體分別從對比的多模態知識圖譜和本文所構建的圖譜中獲取對應圖像進行評估,若本文方法的圖像質量高于對比圖譜則打分“better”,若一致則打分“equal”,否則打分“worse”。打分的標準包括準確性、多樣性、數量,且優先級為準確性>多樣性>數量,當準確性一致時才比較多樣性,當多樣性也一致時才比較圖像數量。每次由3 位專家進行評分,若3 位專家的評分完全不一致,則說明該實體圖像準確率受主觀因素影響較大,直接舍去這條數據,否則取3 個評估結果中一致的打分作為評估的結果。最終從4 個基線多模態知識圖譜與本文的多模態知識圖譜的交集中抽取200 個結果進行評估,結果如圖6 所示,可以看出,本文方法所獲得的圖像質量普遍優于4 個基線方法。

圖6 多模態知識圖譜對比Fig.6 Comparison of multi-modality knowledge graph
在評估的過程中,本文方法在同名實體消歧、去除噪聲圖像等方面的效果也得到了驗證。圖7(a)~圖7(c)都是常見的通過直接搜索實體名稱容易引入的噪聲類型,本文通過引入語義模板的方式規避了這些問題:圖7(a)中“Brazil”指的是一部電影,但由于與國家“Brazil”重名,單在搜索引擎中搜索“Brazil”得到的圖像便全是巴西的地圖,而本文方法在檢索時會在關鍵詞中加入“poster”這個限定詞,檢索得到的圖像就都是正確指向電影的圖;圖7(b)中“Moby”是一個人,通過名字在搜索引擎上搜索得到的圖像,除了“Moby”本人的照片,還會出現與他人的合照,這也是通過圖像搜索引擎搜索人名時經常會遇到的噪聲,而本文方法在檢索時通過加入“portrait”這個語義模板,將圖像搜索引擎的結果正確引向了人物個人的肖像;圖7(c)中“IBM”指的是一個企業的名字,但由于與一款計算機同名,導致其搜索結果中包含很多個人電腦的照片,而本文通過在檢索時加入“logo”“headquarters”等關鍵詞,將檢索結果引向了正確的圖像。圖7(d)是少數MMKG優于本文方法的一個例子,“Walter Lantz”是一位畫家,但由于他也是一個人,本文方法在檢索時同樣加入了“portrait”作為限定,但其畫作中也存在肖像,因此導致最終搜索結果偏向了他的畫作。

圖7 案例分析Fig.7 Case analysis
為進一步檢驗使用本文方法獲取的圖像的質量,本文設計一種基于“Prompt”[25]的鏈接預測方法在數據集FB15k(Freebase[26]的子集)上對收集得到的圖像進行評估。任務定義如下:輸入三元組以及實體s的圖像,預測輸出實體o。
此處借鑒Frozen[27]的思路,將鏈接預測任務轉換成完形填空問題,實現方式如下:針對三元組,利用關系p的預設填空模板將三元組轉換成文本“shas a relationpwith[MASK].”。得益于預訓練語言模型BERT[28]的預訓練任務設計,BERT 模型有輸出句子中“[MASK]”所在位置的詞的能力,因此,將上述文本輸入BERT,使其預測輸出“[MASK]”位置的詞,即實體o,同時在輸入中加入實體s的圖像編碼信息作為填空提示,幫助BERT 預測“[MASK]”的詞。實驗所采用的模型結構如圖8所示,將實體s對應的圖像使用預訓練圖像分類模型得到特征向量后,進一步映射到BERT 的詞向量空間中,由三元組填空形成的文本則利用BERT 模型編碼成詞向量序列。將圖像轉換而來的詞向量與句子的詞向量拼接后,一起輸入BERT 模型進行訓練,最終得到“[MASK]”標記處的詞表對應概率分布。

圖8 基于Prompt 的鏈接預測模型結構Fig.8 Structure of link prediction model based on Prompt
本實驗為FB15k 中包含數據量最大的15 種關系構建了語義填空模板,例如:針對FB15k 數據集中的關系“/film/actor/film./film/performance/film”,可構建填空模板“sis an actor of[MASK].”。根據這15 種關系分別對FB15k 已有的訓練集、驗證集、測試集進行篩選,最終得到3 927 條訓練數據、378 條驗證數據和462 條測試數據。
為了檢驗實體圖像帶來的作用,本節還進行了以下消融實驗:1)只使用預訓練文本編碼(Text);2)傳入空的圖像編碼(Zero Embedding);3)替換其他多模態知識圖譜的圖像。本文對比的多模態知識圖譜為Richpedia 和MMKG,這是由于現有的多模態知識圖譜本身構建依賴的符號知識庫不同,所包含的實體也不同,只有包含FB15k 中實體的多模態知識圖譜才適合用于比較。盡管VisualSem、IMGpedia 的一部分實體可以與FB15k 中的實體對齊,但數量太少,不足以支撐訓練,故不在此進行比較,最終實驗結果如表2 所示。

表2 鏈接預測消融實驗結果Table 2 Ablation experiment results of link prediction %
通過對比使用純文本預測和加入圖像信息進行預測的結果可以發現,圖像信息的引入有效增強了模型對實體的預測能力。同時對比加入本文方法所收集的圖像和加入其他多模態知識圖譜的圖像的結果,可以發現,本文方法收集到的圖像訓練所得的鏈接預測模型在各個指標上均超過其他多模態知識圖譜,證明了本文方法的有效性和優越性。
本文提出基于多模態模式遷移的知識圖譜實體配圖方法,借助同類實體圖像之間存在的共性,以語義和圖像2 個角度,從頭部實體的百科圖像與標題中抽取相關的語義模板和視覺模式,并遷移應用到非頭部實體的圖像獲取過程中。基于本文方法為25 類實體,共1.278×105個實體收集1.8×106張圖像。與4 個現有多模態知識圖譜的對比結果表明,本文方法收集到的圖像具有更高的準確性和多樣性,在下游任務鏈接預測中引入本文方法收集的圖像,可使模型效果得到顯著提升。在目前的多模態知識圖譜構建工作中,對圖像質量的評估方法仍有很多不足,導致構建所得的知識圖譜整體質量得不到有效評估,也就很難應用于下游任務,后續將對此進行相關研究。