舒世泰,李 松,郝曉紅,張麗平
哈爾濱理工大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,哈爾濱150080
知識圖譜(knowledge graph,KG)[1]是一種用圖模型來描述知識和建模世界萬物之間關(guān)系的技術(shù)方法,屬于語義層面的知識庫(knowledge base,KB)[2],通常以網(wǎng)絡(luò)的形式出現(xiàn)。在網(wǎng)絡(luò)中,節(jié)點表示實體,節(jié)點之間的邊表示關(guān)系,并使用三元組(h,r,t)對知識進行表示。KG 最早應(yīng)用于提升搜索引擎的能力。隨后,KG 在輔助智能問答、自然語言處理、大數(shù)據(jù)分析、推薦計算、可解釋性人工智能等方面展現(xiàn)出較大的應(yīng)用價值[3-5]。其中,知識表示是這些應(yīng)用的基礎(chǔ)。然而,由于知識的不斷積累,KB 的規(guī)模擴展非常快,知識形式也變得越來越多樣化[6-8]。以傳統(tǒng)的形式對知識進行表示的弊端越來越明顯,如實體間語義關(guān)系的推理變困難、數(shù)據(jù)稀疏性問題嚴重、計算的復(fù)雜性高、難以運用到大型KG 上等。
近年來,以知識表示為代表的知識圖譜嵌入(knowledge graph embedding,KGE)[9]技術(shù)取得了新的研究進展,提出了將稀疏的三元組(h,r,t)語義信息映射到低維稠密的向量空間,將實體與關(guān)系的推理轉(zhuǎn)變?yōu)閷ο箝g距離的計算,計算的距離越小,實體間的相似性越高[10]。同時,KGE 通過對實體和關(guān)系進行表示,能夠解決傳統(tǒng)表示方法面臨的數(shù)據(jù)稀疏、知識推理困難等問題,并且促進了知識獲取、實體消岐性能的不斷提升[11-13]。
根據(jù)KGE的典型特性,學(xué)者們提出了眾多KGE模型,主要分為兩類:平移距離模型[14]、語義匹配模型[15]。對于平移距離模型,比較經(jīng)典的有TransE(translating embedding)[16]、TransA(translating adaptive)[17]、TransR(translating in relation space)[18]、TransH(translating on hyperplanes)[19]、TransM(translating with relational mapping)[20]、KG2E(knowledge graphs with Gaussian embedding)[21]以及SE(structured embedding)[22]模 型等,這些模型的共同點是評分函數(shù)采用距離進行衡量。對于語義匹配模型,比較有代表性的是RESCAL模型[23]、SME(semantic matching energy)模型[24]、NTN(neural tensor network)模型[25]等,這些模型的共同點是評分函數(shù)采用相似度進行衡量。然而,KGE模型仍然面臨知識圖譜補全(knowledge graph completion,KGC)完成不足、圖形結(jié)構(gòu)特征未被充分利用、無法處理復(fù)雜的語義關(guān)系等問題。本文將對現(xiàn)有的KGE方法進行分析與研究,通過整理與歸納,總結(jié)目前研究面臨的挑戰(zhàn),并對未來的研究趨勢進行展望。本文的主要貢獻如下:
(1)對KGE 方法進行了較為全面的分類,以解決問題類型作為分類依據(jù),分為基于深度學(xué)習(xí)的方法、基于圖形特征的方法、基于翻譯模型的方法以及基于其他模型的方法。
(2)詳細闡述每種模型的算法思想,歸納并分析KGE 方法中每種算法的優(yōu)點和存在的局限性;最后從方法分類、文獻發(fā)表年份、模型優(yōu)缺點、所用數(shù)據(jù)集、評價指標和算法思想等角度對知識圖譜嵌入方法做了橫縱向比較。
(3)列出所述方法常用的實體關(guān)系數(shù)據(jù)集;對方法中常用評價指標進行說明;以WN18 和FB15K 數(shù)據(jù)集為例,對相關(guān)方法在該兩種數(shù)據(jù)集上的鏈接預(yù)測結(jié)果進行對比和分析。
(4)討論了當(dāng)前研究的難點問題,并預(yù)測了未來的研究趨勢。
KGE 旨在將KG 中包括實體和關(guān)系的內(nèi)容映射到低維連續(xù)向量空間中,也稱知識表示學(xué)習(xí)[26]。在詞向量的啟發(fā)下,考慮如何將知識圖譜中的實體和關(guān)系映射到連續(xù)向量空間中,并包含一些語義層面的信息[27-29],使得在下游任務(wù)中更充分應(yīng)用知識圖譜,如智能問答、關(guān)系抽取等任務(wù)。連續(xù)向量的表達蘊含著更多的語義信息,更容易被計算機理解和操作[30-31]。
傳統(tǒng)的知識表示方法,如早期專家系統(tǒng)時代的知識表示方法都是以符號邏輯為基礎(chǔ)進行知識表示,其特點是易于刻畫離散、顯性的知識,具有較好的可解釋性。但仍有許多不能用符號來刻畫連續(xù)、隱形的知識,在表示過程中失去魯棒性,從而在下游任務(wù)中難以達到預(yù)期效果。通過嵌入(embedding)技術(shù)將KG 中的實體和關(guān)系映射到低維連續(xù)向量空間中,提高了知識表示的能力。該方法主要有以下特點:
(1)使用向量的表示方式可以提高應(yīng)用時的計算效率。將KG 的實體和關(guān)系映射到向量空間中,實現(xiàn)語義相似度計算等復(fù)雜操作[32-33],計算效率顯著提高,有效解決數(shù)據(jù)稀疏等問題。
(2)增加了下游應(yīng)用設(shè)計的多樣性。用向量表示后,KG 更適用于當(dāng)前流行的機器學(xué)習(xí)算法,例如神經(jīng)網(wǎng)絡(luò)等方法[34-35]。因為下游應(yīng)用輸入的并不再是符號,所以可以考慮的方法也不僅限于圖算法。
(3)將KGE 作為下游應(yīng)用的預(yù)訓(xùn)練向量輸入,使得輸入的信息不再是孤立的不包含語義信息的符號,而是已經(jīng)經(jīng)過一次訓(xùn)練,并且包含一定信息的向量[36-37],還可用來監(jiān)督神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程。
目前,學(xué)者們的研究主要集中在基于深度學(xué)習(xí)的方法、基于圖形特征的方法、基于翻譯模型的方法三方面,少數(shù)學(xué)者的研究集中在基于其他模型的方法。這四方面雖然已經(jīng)提出了一些成果,但是,很少有學(xué)者能夠在鏈接預(yù)測、三元組分類以及實體對齊任務(wù)上取得實質(zhì)性的突破,提升的性能也并不是很明顯。因此,這四方面在今后很長一段時間內(nèi)仍然是研究的熱點。
KGC問題是指在知識圖譜中某些鏈路往往是不完整的,即圖中缺少鏈接。例如,在Freebase 和DBpedia中,超過66%的人條目缺少出生地。先前有關(guān)KGC的工作主要集中在淺、快速的模型上,這些模型可以縮放到大型KG 上。但是,與深度多層模型相比,這些模型學(xué)習(xí)的表達功能較少,可能會限制其性能[38]。針對此問題,研究者提出若干模型,比較有代表性的是ComplEx模型[39]、ConvE模型[40]、LCPE(local combination projection embedding)模型[41]。
ComplEx 模型的核心是利用潛在因子分解和復(fù)數(shù)的嵌入。算法思想是利用復(fù)數(shù)空間嵌入的組合來處理多種二元關(guān)系,包括對稱和反對稱關(guān)系,解決鏈接預(yù)測問題。該方法首先證明了在實體之間只有單一關(guān)系的方陣情況下使用復(fù)向量嵌入方法,然后推廣到三階張量中的一組堆疊方陣,以表示多個關(guān)系。該方法還認為只要使用正確的表示方法,標準的嵌入點積可以是一個非常有效的復(fù)合函數(shù);當(dāng)使用復(fù)向量時,由于它涉及兩個向量之一的共軛轉(zhuǎn)置,點積通常被稱為Hermitian 點積,此時點積不再是對稱的,而反對稱關(guān)系可以根據(jù)所涉及實體的順序得到不同的分數(shù)。因此復(fù)向量可以有效地捕獲反對稱關(guān)系,同時保留點積的計算優(yōu)勢,保證在空間和時間復(fù)雜度上都是最優(yōu)的。由于只使用Hermitian 點積,與神經(jīng)張量網(wǎng)絡(luò)等模型相比,該方法更簡單[42-44]。
嵌入的點積可很好地縮放,并且可以處理關(guān)系的對稱性和自反性,使用適當(dāng)?shù)膿p失函數(shù)甚至可以實現(xiàn)傳遞性。同時,該方法可擴展到大規(guī)模數(shù)據(jù)集上。在基于FB15K 數(shù)據(jù)集的鏈接預(yù)測實驗中,該模型性能比TransE[16]提高19.9%,具有較好的實驗效果。然而,此模型也存在一些缺陷,如預(yù)測性能偏低,生成的負采樣較少,訓(xùn)練時間偏長,不能同時對所有的關(guān)系模式和復(fù)雜關(guān)系進行建模和推理[45]。
ConvE 模型的核心是使用多層卷積神經(jīng)網(wǎng)絡(luò)。算法思想是使用2D 卷積來預(yù)測KG 中缺失的鏈接,通過卷積層和全連接層對輸入實體和關(guān)系之間的相互聯(lián)系進行建模。如圖1 所示,具體過程如下:
(1)將實體和關(guān)系嵌入進行重塑和連接;
(2)將所得矩陣作為卷積層的輸入;
(3)將所得的特征映射張量矢量化并投影到k維空間中;
(4)與所有候選對象嵌入匹配。
該模型的主要特點是得分函數(shù)由二維嵌入上的卷積定義。得分函數(shù)為:

式中,es和eo分別為頭實體s和尾實體o的嵌入表示,rr∈Rk是依賴于r的一個關(guān)系參數(shù),W為權(quán)值矩陣,和分別表示es和rr的2D 重塑。為了訓(xùn)練模型參數(shù),該模型使用邏輯回歸函數(shù)來表示得分情況,即:

Fig.1 Process diagram of ConvE圖1 ConvE 流程圖

并最小化交叉熵損失函數(shù),即:

式中,N表示實體數(shù)量,t表示維度為R1×1或維度為R1×N的標簽向量,判別關(guān)系是否存在,若不存在則為0。同時,該方法為更快訓(xùn)練文獻[46]模型,使用修正線性單元作為非線性函數(shù)f,并在每一層之后進行批量歸一化處理,以提高收斂速度。此外,在嵌入運算和卷積運算后的特征映射和全連接層上使用了Dropout 算法及Adam 優(yōu)化器,對標簽進行平滑處理,防止過擬合現(xiàn)象。
在WN18 和FB15K 數(shù)據(jù)集上,ConvE 性能優(yōu)于ComplEx,具有較高的參數(shù)效率,在對具有高度關(guān)聯(lián)性的節(jié)點建模時也非常有效。但是,它仍然存在一些局限性,例如嵌入之間的交互次數(shù)偏低,模型卷積深度偏淺。
LCPE 模型的核心是使用參數(shù)共享的神經(jīng)網(wǎng)絡(luò)。該模型思想是將ProjE 模型和實體相似度信息相結(jié)合,先判斷兩個實體是否有關(guān)系,后判斷該關(guān)系的具體類型,由于相似的實體嵌入向量在向量空間中距離更近,可根據(jù)實體分布稠密的局部空間來判斷實體之間的具體關(guān)系類型。如圖2 所示,該模型是由判斷兩個實體之間是否存在關(guān)系和實體之間相似度的網(wǎng)絡(luò)構(gòu)成。
在圖2 中,Wc是由候選實體向量組成的矩陣,WE是由實體向量組成的矩陣,WR是由關(guān)系向量組成的矩陣,Ei和Ej分別是從Wc和WE中提取出的一個實體向量,R是從WR中提取出的關(guān)系向量,De和Dr分別代表組合矩陣。
該模型將ProjE 模型和實體間的相似度結(jié)合,定義如下得分函數(shù):

Fig.2 LCPE model structure圖2 LCPE 模型結(jié)構(gòu)

式中,h(e,r)i指代實體集中第i個實體的得分,f和g表示激活函數(shù),Wc∈Rs×k表示候選實體矩陣,bp表示偏移量,e⊕r表示實體和關(guān)系的組合運算,表示實體向量e和候選實體集中第i個實體的嵌入向量的內(nèi)積。用softmax 和tanh 作為激活函數(shù)替換后得到的得分函數(shù)為:

并利用listwise 方法進行訓(xùn)練。LCPE 模型的損失函數(shù)定義如下:

在公開數(shù)據(jù)集WN18 中,LCPE 正例三元組的MeanRank 比ProjE 提高了11.0,而正例三元組的Hit@10 比ProjE 提升了0.20%;在FB15K 中,Mean-Rank 提前了7.5,Hits@10 平均提升了3.05%。然而,此模型也存在一些局限性,例如共享變量神經(jīng)網(wǎng)絡(luò)層數(shù)偏淺。
無論是ComplEx,還是ConvE 與LCPE,這些都是非常新穎的嵌入模型,能夠較好地用于KGC 工作,只是每個模型的側(cè)重點不同,ComplEx 模型側(cè)重于使用Hermitian 點積,ConvE 模型側(cè)重于使用多層卷積網(wǎng)絡(luò),LCPE 模型側(cè)重于將ProjE 模型和實體相似度信息相結(jié)合。除此之外,也可以考慮使用卷積神經(jīng)網(wǎng)絡(luò)改進最先進的模型,每個三元組都表示為一個三列矩陣,其中每個列向量代表一個元素,再將此三列矩陣輸入到卷積層,在卷積層上對矩陣操作多個過濾器以生成不同的特征圖;將這些特征圖連接到一個表示輸入三元組的單個特征向量中,通過點積將特征向量與權(quán)重向量相乘以返回分數(shù),來預(yù)測三元組是否有效。同時,也可以考慮融合稀疏的關(guān)注機制,通過共享概念探索三元組中隱藏的關(guān)系。
知識圖譜是由若干實體和關(guān)系組成的一個復(fù)雜的多關(guān)系圖形網(wǎng)絡(luò)結(jié)構(gòu)。圖形特征問題是指當(dāng)前知識圖譜嵌入方法不能很好地利用KG 中圖形結(jié)構(gòu)特征。傳統(tǒng)的KGE 模型在學(xué)習(xí)時注重將KG 視為一組獨立的三元組,這樣會忽略圖結(jié)構(gòu)中的重要信息,包括實體特征信息、三元組上下文等。為解決此問題,研究者們提出若干模型,比較有代表性的包括TCE(triple-context-based knowledge embedding)模型[47]、DPTransE 模型[48]。
TCE 模型也稱三重上下文的知識嵌入模型。算法思想是充分利用KG 中的圖形結(jié)構(gòu)特征,尤其圍繞三元組的局部結(jié)構(gòu),即由鄰居上下文和路徑上下文組成的三元組上下文,在統(tǒng)一的框架中表示三元組及其上下文的結(jié)構(gòu)信息(如圖3),這樣三元組上下文中的結(jié)構(gòu)信息就可以結(jié)構(gòu)化。

Fig.3 Description of triple context of triples in KG圖3 KG 中三元組的三重上下文的說明
對于鄰居上下文,給定一個實體e,實體e的鄰居上下文是一個集合:

即以e為頭實體的三元組中出現(xiàn)的所有關(guān)系-尾實體對。例如在圖3 中,實體h的鄰居上下文是:

對于路徑上下文,是指KG 中的一個實體到另一個實體的一組路徑。這種結(jié)構(gòu)特征有利于對實體對之間的關(guān)系進行建模并捕捉到它們的信息交互。例如在圖3 中,實體h和實體t的路徑上下文是:

因此該模型可形式化表示為:

傳統(tǒng)模型的得分函數(shù)只與實體和關(guān)系的嵌入有關(guān),如TransE 的得分函數(shù)為:

而該模型的得分函數(shù)是在此基礎(chǔ)上融合三重上下文得到的,形式化為:

式中,C(h,r,t)表示(h,r,t)的三重上下文。一個三元組得分越高,表明它在更大程度上具有不變性。但是,此模型的局限性是在基線上不如經(jīng)典的翻譯模型。
DPTransE 模型的核心是利用判別路徑進行嵌入表示。算法思想是采用聯(lián)合學(xué)習(xí)機制,將基于圖像特征模型和基于潛在特征模型相結(jié)合。
對于潛在特征模型,在KG 中,多步關(guān)系和中間實體帶來了更多的交互信息,因此在多步關(guān)系和直接關(guān)系之間建立強相關(guān)性是非常必要的。為此該方法提出語義關(guān)聯(lián)假設(shè),假設(shè)直接關(guān)系可以通過多步關(guān)系路徑的線性組合來重構(gòu),這些判別路徑可以提高多個關(guān)系之間的嵌入能力。但是,基于潛在特征模型的語義信息丟失是不可避免的,須根據(jù)上述假設(shè),將內(nèi)在損失與語義損失一起最小化,公式如下:

式中,rk=αkP(h,t)表示直接關(guān)系的語義可以通過給定相似實體對的多步關(guān)系線性組合來近似重構(gòu),P(h,t)={p1,p2,…,pn}表示多個關(guān)系路徑的集合,為歸一化因子,λ1用于平衡左右兩部分,函數(shù)得分越小,說明三元組被翻譯的效果越好。
對于圖像特征模型,為衡量每條路徑的可靠性,引入PRA-style方法,該方法不同于原始PRA,而是使用路徑作為特征來預(yù)測實體對之間的關(guān)系。在關(guān)系聚類階段,使用K-means 算法將相似的關(guān)系分成一組;在特征計算階段,基于實體相似性假設(shè)計算每條路徑特征值,相似性定義如下:

式中,z是給定實體對(hi,ti)的每條路徑的中間實體,dz表示實體z的度。
基于圖特征在發(fā)現(xiàn)語義相關(guān)性和為實體-關(guān)系提供更精確、更有判別性的語義嵌入方面起著關(guān)鍵作用。該模型可同時從潛在特征和圖形特征中學(xué)習(xí),建立這兩個特征之間的相互聯(lián)系。不足之處在于基于圖形特征必須與三元組交互。
TCE 模型、DPTransE 模型都能夠較好地處理圖形特征問題。TCE 模型的核心是利用三元組上下文,雖然這種思想并不是第一次出現(xiàn),但是,將其利用到評分函數(shù)中還是首次出現(xiàn),改進的空間仍然很大,不足之處是在基線上不如經(jīng)典的翻譯模型。DPTransE 模型的核心是利用判別路徑的嵌入,將不同的模型進行融合,互相取長補短已經(jīng)成為當(dāng)下研究的新常態(tài),此模型今后的發(fā)展空間較廣闊,不足之處是基于圖的特征必須與三元組交互。
為了解決KG 中復(fù)雜關(guān)系問題,許多基于翻譯的模型將KG 中的實體和關(guān)系嵌入到連續(xù)的向量空間中,并將關(guān)系編碼為該空間中的翻譯操作,從而獲得更好的性能[49]。這些模型在表達KG 的自反性、1-N、N-1 和N-N等復(fù)雜關(guān)系時都有局限性。針對這個問題,比較有代表性的有NTransGH 模型[50]、STransH 模型[51]、TransG 模型[52]。
NTransGH 模型的核心是將神經(jīng)網(wǎng)絡(luò)與廣義超平面的翻譯機制相結(jié)合。算法思想是首先通過廣義超平面轉(zhuǎn)換機制,將關(guān)系建模為轉(zhuǎn)換操作,使得實體在不同的關(guān)系中有不同的角色;然后設(shè)計一個神經(jīng)網(wǎng)絡(luò)以捕獲復(fù)雜的關(guān)系模式,使用一組特殊矢量而不是TransH 中的一個法向量來確定廣義超平面[53-54]。為了表達復(fù)雜的關(guān)系,引入了兩層神經(jīng)網(wǎng)絡(luò)來定義得分函數(shù):

式中,W1∈Rn×n、W2∈Rn為權(quán)重參數(shù),m=Mrh⊥+r-Mrt⊥為投影后經(jīng)過平移操作得到的三元組。
NtransGH 模型可視化如圖4 所示。在模型訓(xùn)練時,通過替換語義相似實體來提高生成負例的質(zhì)量。該模型的損失函數(shù)為:

其中,A1、A2表示如下:

式中,C是一個用于衡量軟約束重要性的超參數(shù),P是正例三元組的集合,N是負例三元組的集合;在式(17)、式(18)中,表示向量,ε是小標量,

Fig.4 Comparison of TransH and NTransGH models圖4 TransH 和NTransGH 模型比較
與TransH[19]相比,該模型基于FB15K 的鏈接預(yù)測實驗中,Hits@10 提高了17.1%。該模型缺陷是需要操作的參數(shù)偏多,訓(xùn)練難度大。
STransH 模型的核心是分別在實體空間和關(guān)系空間中建模。算法思想是將SE 模型與TransE 模型進行結(jié)合,借鑒TransH 模型的思想,引入投影到特定關(guān)系超平面的機制。具體方法:首先將三元組中的頭實體h和尾實體t映射到給定關(guān)系的超平面wr上,分別用h⊥和t⊥表示,用關(guān)系向量r將超平面上的h⊥和t⊥聯(lián)系起來。即:

由此得到該模型的得分函數(shù),即:

式中,Wr,1、Wr,2用于三元組中頭實體和尾實體的投影操作,g(x)為tanh 函數(shù)。實驗表明使用L1 距離效果更好。
其次采用單層神經(jīng)網(wǎng)絡(luò)的非線性操作來刻畫實體與關(guān)系之間的語義聯(lián)系。該方法中,對負例三元組的抽樣策略進行改進,以不同的概率替換頭實體和尾實體,定義如下參數(shù):

采用參數(shù)p的伯努利分布抽樣策略,在式(21)中,tph指每個頭實體對應(yīng)的尾實體的平均數(shù)量,hpt指每個尾實體對應(yīng)的頭實體的平均數(shù)量。并選擇最相近的實體進行替換,實體和關(guān)系之間的語義相似度通常使用向量之間的相似度表示。定義實體的相似度為:

式中,h和h′分別表示正例三元組和負例三元組中的頭實體。
實驗表明,該模型性能比TransH[19]提高3.4%。缺陷是沒有將關(guān)系路徑考慮在內(nèi),在今后研究中可將關(guān)系路徑考慮在內(nèi),以達到更好的表示效果。
在知識圖譜的一個三元組(h,r,t)中,一個關(guān)系可能與該三元組中多個實體存在潛在聯(lián)系,即產(chǎn)生多重關(guān)系語義問題。為解決該問題,研究者提出一種模型即TransG 模型。該模型的核心算法是使用高斯混合模型來刻畫三元組中頭實體h和尾實體t的聯(lián)系,并結(jié)合貝葉斯非參數(shù)無限混合嵌入模型。關(guān)系r代表的每種語義用高斯分布來描述,由此形成多個高斯分布,從而區(qū)分出正確和錯誤三元組。
下面從幾何角度解釋該思想:對于給定的三元組(h,r,t),TransE模型希望h+r≈t,即頭向量加關(guān)系向量約等于尾向量,而TransG模型將該幾何關(guān)系推廣為:

相比基于TransE 的若干模型,TransG 可根據(jù)三元組的特定語義自動選擇最佳的翻譯向量,更專注于特定的語義嵌入,避免其他不相關(guān)的語義成分帶來的干擾。缺陷是不適用于多特征關(guān)聯(lián)挖掘。
在處理復(fù)雜關(guān)系問題上,NTransGH 模型、STransH模型、TransG 模型都表現(xiàn)出了很大的發(fā)展?jié)摿ΑTransGH 模型的核心是將神經(jīng)網(wǎng)絡(luò)與廣義超平面的翻譯操作相結(jié)合,當(dāng)前,在KGE 方法中,將神經(jīng)網(wǎng)絡(luò)運用于鏈接預(yù)測和三元組分類任務(wù)中仍然屬于比較熱門的研究點;同樣,將翻譯機制運用到KGE 中也屬于比較熱門的研究點,這是第一次將兩者結(jié)合在一起,具有很大的研究價值,不足之處是需要操作的參數(shù)偏多。STransH 模型的核心是分別在實體空間和關(guān)系空間建模,將兩種簡單、常見的模型融合在一起,通過特定的機制進而提升預(yù)測的性能,仍有很大的研究空間,不足之處是沒有將關(guān)系路徑考慮在內(nèi)。對于TransG模型,它的核心是貝葉斯非參數(shù)無限混合嵌入,不足之處是不適用于多特征關(guān)聯(lián)挖掘。
除上述三種方法外,少數(shù)學(xué)者正在拓展其他方面的研究,如關(guān)于實體的層次類型中的豐富信息、關(guān)于實體簡潔的描述、關(guān)于三元組的相互聯(lián)系與相互依賴、關(guān)于邏輯規(guī)則的背景信息等。這些方面的研究雖然取得突破性進展的不多,但極大豐富了KGE方法的研究,擁有廣闊的研究前景。
基于翻譯模型的知識表示方法在2013 年首次被提出,研究者們針對各種問題提出了許多解決方案。現(xiàn)有的大多數(shù)方法集中于對三元組結(jié)構(gòu)化信息的表示,忽略了層次類型中豐富的語義信息。文獻[55]利用層次實體類型的優(yōu)勢,提出TKRL(typeembodied knowledge representation learning)模 型。在遵循TransE 模型的假設(shè)下,TKRL 模型首先將頭、尾實體投影到對應(yīng)的類型空間,然后通過兩種類型編碼器對層次結(jié)構(gòu)進行建模,最后根據(jù)得分函數(shù)優(yōu)化TKRL。該模型能夠很好地利用層次類型信息,與TransE[16]、TransR[18]相比,性能分別提高11.3%、6.2%。但缺陷是只將類型信息考慮到KG 的表示學(xué)習(xí)中。在未來的研究中可將圖像和文本形式的語義信息融合到該模型中,同時融合多元知識庫信息如維基百科,以引入更深層次的內(nèi)容。
表示學(xué)習(xí)旨在將實體和關(guān)系投影到連續(xù)低維空間中,大多數(shù)方法專注于表示三元組中實體和關(guān)系之間的聯(lián)系。實際上,在許多知識圖譜中,通常都有對實體的簡潔描述,而現(xiàn)有方法都無法很好地表示這些信息。因此,文獻[56]根據(jù)實體描述的特點提出了DKRL(description-embodied knowledge representation learning)模型。算法思想是將詞袋模型(continuous bag-of-words,CDOW)和卷積神經(jīng)網(wǎng)絡(luò)模型(convolutional neural networks,CNN)相結(jié)合來表示語義信息。DKRL 模型對相應(yīng)的三元組和實體描述的信息進行建模,并將每個三元組中的關(guān)系視為從頭實體到尾實體的轉(zhuǎn)換;同時,CNN 考慮了文本中單詞之間復(fù)雜的局部交互作用,即文本詞序。特別的,有些實體并不存在,只有其描述信息,而DKRL 模型可以根據(jù)實體的描述自動構(gòu)建實體的表示。與TransE[16]模型相比,性能提升了5.3%,具有良好的泛化能力和魯棒性,可嘗試應(yīng)用于大規(guī)模知識圖譜及Web 領(lǐng)域。此模型的局限性是僅考慮用于表示學(xué)習(xí)的實體描述,未考慮各種關(guān)系或?qū)嶓w類型的文本信息。
現(xiàn)有的大多數(shù)方法將KB 視為一組三元組,再分別學(xué)習(xí)它們的表示形式。但是,三元組是相互聯(lián)系并相互依賴的。針對此問題,文獻[57]提出一種圖感知KGE 方法,即GAKE(graph aware knowledge embedding)模型。算法思想是首先將KB 表示為有向圖,利用圖的結(jié)構(gòu)信息來學(xué)習(xí)任何頂點或邊的表示形式;其次引入鄰居上下文、路徑上下文和邊緣上下文三種類型的圖上下文進行嵌入,每種類型都從不同的角度反映知識的屬性;最后提出一種注意力機制,以學(xué)習(xí)不同實體和關(guān)系的表示能力。在鏈路預(yù)測和三元組分類實驗中,GAKE 模型的性能優(yōu)于TransE、TrnasH 等模型。缺陷是未使用實體描述或來源于其他文本信息來構(gòu)建文本上下文。
邏輯規(guī)則包含豐富的背景信息,但往往并未得到很好的研究。針對此問題,文獻[58]將知識圖譜和邏輯規(guī)則相結(jié)合,即KALE(knowledge and logic embedding)模型,核心是將三元組和邏輯規(guī)則在統(tǒng)一的框架中表示和建模。算法思想是將三元組看作原子,根據(jù)TransE 模型假設(shè)對其建模;邏輯規(guī)則看作由原子與邏輯連接詞組成的公式,采用t范數(shù)模糊邏輯進行建模。通過這種方式以獲得更具預(yù)測性的實體和關(guān)系嵌入,有利于知識獲取和知識推理。與TransE[16]相比,性能提升了1.4%。該方法可以獲得更多的預(yù)測性實體嵌入,甚至可以在純邏輯推理范圍之外做出更好的預(yù)測。缺陷是未考慮合并其他類型的邏輯規(guī)則。
TKRL 模型、DKRL 模型、GAKE 模型及KALE 模型分別在處理實體的層級類型中的豐富信息、實體簡潔的描述、三元組的相互聯(lián)系與相互依賴、邏輯規(guī)則的問題時,都發(fā)揮了各自的優(yōu)勢,提高了預(yù)測的效果。但是,由于這些方面的研究屬于KGE 領(lǐng)域的難點,研究結(jié)果并不是很理想。然而,這些模型對于實體識別、關(guān)系抽取等任務(wù)仍然具有較大的作用,因此,這些方面的探索仍具有一定的研究價值。
本章介紹了上述模型所使用的數(shù)據(jù)集,介紹了實驗中常用的評價指標,對上述模型的算法思想、模型優(yōu)缺點、所用數(shù)據(jù)集及評價指標進行了總結(jié)。最后以WN18 和FB15K 數(shù)據(jù)集為例,展示了上述模型在鏈接預(yù)測上的實驗結(jié)果。
隨著人工智能和大數(shù)據(jù)技術(shù)的飛速發(fā)展,研究者已構(gòu)建出多個大規(guī)模知識庫,如語言知識庫WordNet[59]和世界知識庫Freebase[60]等。以上模型所用數(shù)據(jù)集都基于這兩種知識庫,使用其中的部分子集開展實驗。為了加強對上述KGE 方法性能的評估,本文收集了比較常用的實體關(guān)系數(shù)據(jù)集,總共達11 個,每個數(shù)據(jù)集的實際數(shù)據(jù)見表1。

Table 1 Often-used data sets of entity relationships表1 實體關(guān)系常用數(shù)據(jù)集
對于KGE 算法實驗,主要的評價指標有Mean-Rank、Hits@n以及ACC。對于鏈接預(yù)測中的關(guān)系預(yù)測和實體預(yù)測,常用的評價指標為MeanRank、Hits@n;對于三元組分類效果的預(yù)測,常用的指標為ACC。
(1)MeanRank
MeanRank 表示正確實體的平均排序得分,MeanRank 值越小表示排名越靠前,實體向量化結(jié)果越好,是衡量鏈接預(yù)測的重要指標。
(2)Hits@n
Hits@n表示正確實體排在前n名的概率,該值越高表示效果越好。常見的有Hits@10、Hits@3和Hits@1。此外,在Hits@n中,將未經(jīng)處理的實驗設(shè)置稱為“Raw”,將剔除了對實驗有干擾的損壞三元組的實驗設(shè)置稱為“Filt”。
(3)ACC
ACC 是評價三元組分類任務(wù)準確率的重要指標,值越高,表明模型在三元組分類這一任務(wù)上的效果越好。公式如下:

式中,Tp表示預(yù)測正確的正例三元組的數(shù)量;Tn表示預(yù)測正確的負例三元組數(shù)量;Npos和Nneg分別表示訓(xùn)練集中的正例三元組和負例三元組的數(shù)量。
本文將KGE 算法分為四類,分別對比了每一種算法的分類、名稱、發(fā)表年份、數(shù)據(jù)集、評價指標、算法思想、局限性,具體的比較結(jié)果見表2。

Table 2 KGE algorithm comparison表2 KGE 算法比較

表2 (續(xù))
為了加深對基于深度學(xué)習(xí)的方法、基于圖形特征的方法、基于翻譯模型的方法及基于其他模型的方法算法的理解,對比了每種算法在FB15K 數(shù)據(jù)集上的鏈接預(yù)測實驗,具體結(jié)果見表3。

Table 3 Experimental results of link prediction on FB15K表3 在FB15K 上鏈接預(yù)測實驗結(jié)果
從表3 可以看出,在基于深度學(xué)習(xí)的方法中,LCPE模型MeanRank(Filt)比ComplEx 和ConvE 分別低14.5、11.0,區(qū)分度明顯;ComplEx 的Hits@10 最高,為84.0%,但與后兩種算法結(jié)果差距不大,總體上,LCPE 模型的實驗效果相對較好。在基于圖形特征的方法中,TCE模型MeanRank比DPTransE低99.0,而兩者Hits@10 相差不大,綜合來講,TCE 模型略勝一籌。在基于翻譯模型的方法中,NTransGH 模型的MeanRank 最低且Hits@10最高,故NTransGH模型的效果最好。
從表4 可得,以WN18 子集做鏈接預(yù)測時,在基于深度學(xué)習(xí)的方法中,LCPE 模型的MeanRank 最低,ComplEx 的Hits@10 最高,綜合評定,LCPE 模型相對較好。在基于圖形特征的方法中,TCE 的MeanRank最低,DPTransE 的Hits@10 最高,兩者的實驗效果平分秋色。在基于翻譯模型的方法中,NTransGH 模型MeanRank 最低并且Hits@10 最高,因此,NTransGH的實驗效果最好。在今后的研究中,可嘗試將這幾種模型進行融合,以得到更好的實際應(yīng)用。

Table 4 Experimental results of link prediction on WN18表4 在WN18 上鏈接預(yù)測實驗結(jié)果
本文對現(xiàn)階段KGE 的研究現(xiàn)狀進行了綜述,對目前KGE 領(lǐng)域已有的研究成果總結(jié)歸納。本章討論了目前研究的難點問題,并對知識圖譜嵌入技術(shù)的未來發(fā)展進行了展望。
從知識表示概念首次被提出到現(xiàn)在,基于距離模型、能量模型、單層神經(jīng)網(wǎng)絡(luò)模型、雙線性模型、張量神經(jīng)網(wǎng)絡(luò)模型、矩陣分解模型及翻譯模型等幾類模型的研究一直在持續(xù),尤其2013 年Bordes 等人提出TransE 模型后,針對TransE 模型存在的局限性,學(xué)者們從不同角度改進該模型,但仍未得到廣泛的應(yīng)用。目前該領(lǐng)域仍存在以下研究難點:
(1)表示空間的選擇。表示空間在編碼實體的語義信息并獲取相關(guān)屬性等方面起著關(guān)鍵作用。目前研究人員在Point-wise 空間、復(fù)向量空間、高斯分布和流形空間都取得了研究進展。在建模時,如何設(shè)計一個合適的表示空間,以提高實體和關(guān)系的表示能力并降低計算的復(fù)雜性,仍是今后研究難點。
(2)少樣本的不確定性。KG 遵循長尾分布,尤其在領(lǐng)域知識圖譜中,許多實體只有少量的三元組描述。在鏈接預(yù)測實驗中往往需要足夠的樣本進行訓(xùn)練,顯然少量的三元組無法完成有效的模型訓(xùn)練,在下游任務(wù)中難以達到預(yù)期效果。此外這些小樣本存在不確定性,實體和關(guān)系之間的語義非常模糊,導(dǎo)致無法準確學(xué)習(xí)到實體和關(guān)系之間的語義表示。如何解決少樣本的不確定性問題亟待研究。
隨著KGE 技術(shù)的不斷發(fā)展,越來越多的研究者開始關(guān)注此領(lǐng)域,未來的發(fā)展趨勢如下:
(1)基于圖卷積神經(jīng)網(wǎng)絡(luò)的嵌入
隨著對知識圖譜研究的不斷深入,KG 得到了廣泛的應(yīng)用,包括智能問答和信息檢索。研究者對知識庫和知識圖譜的創(chuàng)建及維護上投入了大量的精力,但即使最大的知識庫也存在知識缺失問題。針對該問題,文獻[61]首次提出將圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional network,GCN)應(yīng)用于建模知識圖譜中多關(guān)系數(shù)據(jù)。過程如圖5 所示。

Fig.5 Entity update graph based on GCN圖5 基于GCN 的實體更新圖
具體的,在對每個實體進行表示時,和當(dāng)前實體有直接關(guān)聯(lián)的所有關(guān)系分別用GCN 進行聚合,聚合后的每個結(jié)果通過激活函數(shù)生成新的實體。該方法引入了參數(shù)共享和加強稀疏約束機制,對于KG 中的其他實體,可通過共享參數(shù)實現(xiàn)新實體的形成。
實驗表明,該方法在鏈接預(yù)測方面比同類型方法提高29.8%,證明了該方法的有效性,可用于大規(guī)模多關(guān)系知識圖譜的建模。該方法可推廣到其他關(guān)系因子分解模型,有效地應(yīng)用于關(guān)系提取和知識推理等工作。在未來的研究中,可將圖形自動編碼器模型和其他因子分解模型相結(jié)合,用一種依賴數(shù)據(jù)的注意力機制來取代該模型在鄰居節(jié)點和關(guān)系類型上的聚合操作。基于GCN 的表示學(xué)習(xí)研究方興未艾,是一個重要的研究方向。
(2)基于復(fù)雜上下文的嵌入
通過圖上下文進行知識嵌入時有以下挑戰(zhàn):①在KG 中,由于三元組都有獨特的屬性結(jié)構(gòu),會有許多不同類型的圖上下文。如何設(shè)計一種框架來處理不同類型的圖上下文是未來工作的一個挑戰(zhàn)。②在同種類型的圖上下文中,不同實體具有不同的表示能力。可考慮將實體描述信息和本地鄰居上下文相結(jié)合形成“復(fù)合鄰居”,利用一種新的圖存儲網(wǎng)絡(luò)從復(fù)合鄰居中提取潛在語義信息,設(shè)計一種更有效的鄰居選擇機制,避免選擇過程中的遺漏;同時尋求其他類型的編碼器,減少實驗過程中的參數(shù)和內(nèi)存開銷,更好地解決KG的稀疏性問題,具有重要的意義。
(3)基于時間模型的嵌入
KGE 是一種預(yù)測KG 缺失環(huán)節(jié)的有效方法,旨在學(xué)習(xí)實體和關(guān)系的分布式表示形式。現(xiàn)有的知識圖嵌入模型主要考慮頭、尾實體所在的空間具有相同的屬性。但頭、尾實體可以是不同類型的對象,不應(yīng)該位于具有相同屬性的向量空間中。文獻[62]提供了一種新的研究思路。算法思想是引入時域和頻域兩個概念,將頭實體表示為時域空間的一個點,尾實體表示為頻域空間的一個點,將實體之間的轉(zhuǎn)換和實體投影到時域空間的對角投影矩陣定義為一個組合關(guān)系。
該模型性能比ComplEx 提高約1.4 個百分點,在鏈接預(yù)測任務(wù)上取得一定成效。此外,還可考慮不同關(guān)系模式下實體嵌入的多樣性分布問題,對所有關(guān)系模式如對稱/反對稱、反演和合成的關(guān)系進行建模,也是一個具有研究價值的方向。在后續(xù)的研究中,一方面可利用時間捕捉實體之間的差異,另一方面可以充分利用KG 的多模態(tài)信息(如文本、圖像等),將其與KG 的網(wǎng)絡(luò)結(jié)構(gòu)和時間這三部分融合,以獲得更好的實驗效果。
(4)基于空間投影和復(fù)雜關(guān)系路徑的嵌入
傳統(tǒng)的KGE 模型在進行知識表示時往往僅關(guān)注頭、尾實體對之間直接的關(guān)系,而忽略掉了KG 中可能包含的關(guān)系路徑。PTransE 模型提供了一種簡單關(guān)系路徑推理模式,如三元組(谷歌,是,人工智能公司)和三元組(人工智能公司,屬于,高科技公司)具有潛在的關(guān)系路徑,即(谷歌,是,高科技公司)。通過這種推理模式,提高了知識表示的有效性。
而在知識圖譜中還有許多復(fù)雜的關(guān)系路徑,如三元組(姚明,出生于,上海)和三元組(姚明,是,NBA 球星)之間存在著復(fù)雜的推理關(guān)系,解決這種復(fù)雜的關(guān)系路徑,一種比較新穎的思路是對關(guān)系進行建模,并且在空間進行投影,考慮結(jié)合關(guān)系的語義信息,探索一階邏輯的分布式表示進行知識的嵌入,也是一個重要的研究方向[63]。