何 鵬 周 剛 陳 靜 章夢禮 寧原隆
1 (戰略支援部隊信息工程大學 鄭州 450001)2 (鄭州工程技術學院 鄭州 450044)
(helen830209@163.com)
知識圖譜(knowledge graph)以多關系有向圖的形式組織和存儲現實世界的知識. 其中,節點表示實體(人名、地名、機構名、概念等),邊表示實體間的語義關系. 因此,知識圖譜又可以看成是結構化三元組的集合,對應有向圖中的邊(關系)及其相連的2個節點(實體). 自從2012 年,谷歌首次提出知識圖譜的概念并將其成功應用于信息檢索領域以來,知識圖譜在學術界和工業界得到了廣泛的關注和研究.現有的知識圖譜包括Freebase[1]、Dbpedia[2]、WordNet[3]等,已經在許多人工智能相關的應用中起到了巨大的推動和支撐作用,如個性化推薦[4]、智能問答[5]、信息檢索[6]以及自然語言處理[7]等.
現有的知識圖譜規模龐大,往往包含上億條事實三元組,不可避免的存在由數據缺失造成的不完整性問題. 為了解決此問題,人們提出了各種知識圖譜補全方法,通過基于已有的事實來推理和預測知識圖譜中缺失的鏈接. 知識圖譜表示學習(knowledge graph representation learning)是一種有效的知識圖譜補全方法,它可以自動預測缺失的知識,同時解決知識圖譜中的數據稀疏性和計算效率問題,為基于知識圖譜的深度學習工作提供了極大的便利.
知識圖譜表示學習又稱為知識圖譜嵌入(knowledge graph embedding),旨在將知識圖譜中的元素(實體和關系)映射到低維的連續向量空間中,學習實體和關系的嵌入表示,同時保持知識圖譜的內在結構和語義信息,即將知識圖譜的符號化表示形式轉換成數值化表示形式,從而實現高效的語義計算. 現有的知識圖譜表示學習模型通常是靜態的,忽略了事實的時間動態性和時序依賴性. 而在現實世界中,時間是實體和關系所具有的重要屬性,事實往往隨時間的變化而發生動態的演化. 常見的知識圖譜Wikidata[8]和YAGO[9]都包含了知識的時間信息. ICEWS[10]和GDELT[11]是2 個帶有時間信息的事件知識圖譜. 將知識圖譜中可提供的時間信息引入三元組中,構成的帶有時間戳的四元組集合稱為時態知識圖譜(temporal knowledge graph). 如圖1 所示,連接實體的關系帶有時間戳,表明該事實發生的具體時間,比如(美國,總統,奧巴馬, [2009—2017])只在2009—2017 年間有效. 當采用靜態的知識圖譜表示學習模型對時態知識圖譜進行補全時,很容易混淆相似實體的語義信息. 比如,當對缺失實體的事實(美國,總統,?,[1993—2001])進行鏈接預測時,如果忽略了給定的時間戳[1993—2001],則可能會混淆“克林頓”和其他歷屆美國總統,給出錯誤的答案. 時態知識圖譜表示學習模型通過將可提供的時間信息顯式或隱式的融合到知識圖譜表示學習過程中,使得鏈接預測的結果隨時間不同而產生不同的排序,從而有效地區分相似語義的實體,提高時態知識圖譜補全的準確性.

Fig.1 An example of temporal knowledge subgraph extracted from the Wikidata圖1 從Wikidata 抽取的時態知識圖譜子圖示例
由于上述優點,最近幾年時態知識圖譜表示學習迅速成為知識圖譜領域的研究熱點. 已經有一些時態知識圖譜表示學習模型通過利用時間信息來改善表示學習的效果,但它們普遍存在一個或多個問題:1)不具備完全表達性,即不能準確的區分事實(比如,“2009—2017 年間的美國總統是奧巴馬”)與非事實(如“2009—2017 年間的美國總統是希拉里”)[12],從而限制了模型的表示能力. 2)只考慮時間點形式的時間戳(如[2014-07-16]),而沒有考慮時間段形式的時間戳(如[2009—2017]). 比如,在Wikidata 和YAGO這2 個著名的時態知識圖譜中,事實通常帶有時間段形式的時間戳,由于時間的連續性,建模時間段形式的時間戳是一項具有挑戰性的工作. 3)存在冗余計算和時空復雜度高的問題. 4)沒有充分利用類型兼容性. 類型兼容性是指知識圖譜中的實體除了表示個體語義信息外,還隱含了一般的類型語義信息,且一個特定關系總是連接具有相同類型的實體. 比如(美國,總統,?)中,“總統”這一關系總是連接“國家”類型和“人”類型的實體. 在推理缺失信息時,利用類型兼容性這一先驗知識可以判斷缺失實體的類型應該是“人”,它在向量空間中應該與其他“人”類型的實體位置接近,從而可以更好地限制和優化實體嵌入.
為了解決這些問題,本文提出一種類型增強的時態知識圖譜表示學習模型(type-enhanced temporal knowledge graph representation learning model, T-Temp),用于解決時態知識圖譜中的知識補全和語義計算問題. 模型基于張量分解技術,將時態知識圖譜看成3 階張量,語義關系和時間信息聯合索引其中的一個模式向量. 同時,設計一種類型兼容性函數,自動捕獲實體的類型特征并優化實體表示. 此外,模型具有完全表達性,且可以建模時態知識圖譜中常見的時間點形式和時間段形式的時間信息,具有普遍適用性.
本文的主要貢獻包括3 個方面:
1)提出了一種基于張量分解的時態知識圖譜表示學習模型T-Temp,將時間信息顯式地編碼到表示學習過程中,并利用實體和關系的類型兼容性,學習實體、關系、時間和類型的嵌入表示,提升表示學習的有效性.
2)理論上證明T-Temp 模型具有完全表達性,并與現有的同類模型做對比分析,說明其具有較低的時間和空間復雜度.
3)在真實的時態知識圖譜ICEWS、Wikidata、YAGO 中抽取出來的4 個公開數據集上開展廣泛的實驗. 在鏈接預測任務上的結果表明T-Temp 模型的性能較其他先進模型有顯著提升,類型嵌入的可視化聚簇結果也表明T-Temp 模型能夠有效地捕獲實體的類型特征.
本節主要介紹與本文工作相關的知識圖譜表示學習模型,包括靜態知識圖譜表示學習模型、時態知識圖譜表示學習模型和類型增強的知識圖譜表示學習模型,具體可參考綜述文獻[13?16].
現有的大多數知識圖譜表示學習模型基于靜態事實進行建模,大體上可分為2 類:基于平移距離的模型和基于張量分解的模型.
基于平移距離的模型通常將關系建模成向量空間中的平移或旋轉操作,用關系操作后的實體間距離度量事實的真實性. 著名的基于平移距離的模型TransE[17]及其變體模型TransH[18]、TransR[19]、TransD[20]等均將關系建模為實數向量空間中的平移操作. 而最近的RotatE[21]和HAKE[22]模型則將關系建模為復數向量空間中的旋轉操作,從而推理知識圖譜中的各種關系模式,提高模型的關系建模能力. 然而,大部分平移距離模型不具備完全表達性[12],限制了其表示能力,基于張量分解的SimplE[12]模型能夠克服這一缺點. SimplE 模型受到經典張量分解技術——典 范多元(CANDECOMP/PARAFAC, CP)分 解[23]——的啟發,將每個事實三元組對應3 階張量中的1 個元素,其中,實體和關系分別索引該張量的一個模式向量,同時構建反向關系來統一不同位置的實體嵌入.Lacroix 等人[24]也提出了類似的基于CP 分解的模型.ComplEx[25]模型是另一個基于張量分解的模型,它通過將實體映射到復數向量空間而非實數向量來建模實體間的關系. ComplEx 和SimplE 都具有完全表達性[12,24],但與SimplE 相比,ComplEx 存在冗余計算問題. 此外,Yang 等人[26]提出一個簡化版的張量分解模型DistMult,王培妍等人[27]提出一種基于張量分解的知識超圖模型Typer.
盡管靜態知識圖譜表示學習模型取得了較好的表現,但它們沒有考慮知識的時態演化性,容易造成相似語義實體的混淆.
最近,一些研究者通過對靜態模型進行時態擴展,提出了時態知識圖譜表示學習模型. 比如,TTransE[28]、TA-TransE[29]、HyTE[30]、Duration-HyTE[31]模型是對經典靜態模型TransE 的時態擴展,和TransE 一樣,這些動態模型不具備完全表達性. 受到靜態模型RotatE的啟發,TeRo[32]模型將時間信息建模成復數空間中的旋轉操作,實體通過沿不同角度的時間旋轉來體現不同時期的時間特征. ChronoR[33]模型同樣受到靜態模型RotatE 的啟發,但實體的旋轉變換由時間和關系共同決定,且采用向量間的角度而非距離來度量事實的真實性. DE-SimplE[34]模型在靜態模型SimplE的基礎上,通過引入DE(diachronic embedding)函數[35]來學習實體的時間演化特性. ConT[36]模型可以看成是靜態模型Tucker[37]的擴展,它用特定時間張量代替Tucker 分解[38]中的核張量. 由于其時間嵌入需要大量的參數,在訓練過程中效率較低且容易產生過擬合. ChronoR、DE-SimplE、ConT 模型都只能處理離散的時間點信息,而沒有考慮連續的時間段信息.TComplEx 和TNTComplEx[39]模型將時態知識圖譜表示成一個4 階張量,并添加一個時態模式向量來擴展靜態模型ComplEx. 同樣,TComplEx 和TNTComplEx模型也存在冗余計算問題.
實體的類型特征體現了實體的一般語義和類別,相關工作利用這一特征進一步優化知識表示的學習效果. TKRL[40]模型首次引入顯式的實體類型來增強TransE. JOIE[41]模型將知識圖譜表示為本體視圖(即類型信息)和實例視圖(即實體信息),并聯合編碼這2 個視圖. TaRP[42]模型根據實體類型定義關系類型,并采用貝葉斯規則擬合關系類型和實體類型間的語義相似性. 上述模型均需要提供額外的類型信息. 最近,Jain 等人[43]認為實體類型普遍隱含在知識圖譜中的實體和實體間的復雜語義關系中,并提出TypeDM和TypeComplEx 模型,通過建模實體和關系間的類型兼容性擴展DistMult 和ComplEx 模型,自動學習實體的類型嵌入,不需要額外的類型信息. 然而,所有這些類型增強模型都沒有考慮知識的時間動態性.
與上述工作相比,本文工作主要致力于解決時態知識圖譜中的知識補全問題. 本文提出的類型增強的時態知識圖譜表示學習模型T-Temp 屬于張量分解模型. 在表示學習過程中,T-Temp 模型可以以較低的時空消耗,充分利用各種形式的時間信息,并自動學習和表示實體的類型特征,不需要提供額外的類型信息. 此外,據我們所知,T-Temp 模型是為數不多的具有完全表達性的時態模型.
本節首先對時態知識圖譜表示學習中的相關問題進行形式化定義,并對一些基本的概念和符號進行解釋;然后詳細介紹所提出的T-Temp 模型.
定義1.時態知識圖譜. 時態知識圖譜表示成一個帶有時間信息的多關系有向圖G=(E,R,T),其中E是節點(實體)集,R是邊(關系)集,T是時間戳集. 因此,時態知識圖譜又可以看成是四元組(h,r,t,τ)∈G或(h,r,t,[τs,τe])∈G的集合,其中h,t∈E分別稱為頭實體和尾實體,r∈R是它們之間的關系,τ ∈T或[τs,τe]∈T是與事實相關聯的時間戳. 具體來說,τ表示事實發生在一個特定的時間點,[τs,τe]表示事實在一個開始時間為 τs、結束時間為 τe的持續時間段內均有效.
定義2.時態知識圖譜存在不完整性問題. 本文用W?E×R×E×T表示現實世界中的全部事實,時態知識圖譜G是W的子集(即G?W),時態知識圖譜補全是一個根據G推理W的問題.
定義3.知識圖譜表示學習模型通常定義3 件事:
1)嵌入函數——將知識圖譜中的元素映射為向量、矩陣或張量等嵌入表示;
2)得分函數——將上述嵌入表示作為輸入,通過數值運算獲得輸出,作為評估事實真實性的得分;
3)損失函數——通過最大化所有已知事實的得分來學習和優化各元素的嵌入表示.
本文基于張量分解的模型,學習實體、關系和時間戳的向量化嵌入. 同時,利用實體和關系的類型兼容性,自動學習實體的類型嵌入,進一步優化實體表示. 圖2 展示了模型的整體架構,按照知識圖譜表示學習的過程,首先,我們提出將已知四元組嵌入到實數向量空間中的嵌入函數;接著,定義基于CP 分解的得分函數以及基于語義相似性的類型兼容性函數,并將兩者結合,形成最終的得分函數;最后,設計一個帶有正則化的交叉熵損失函數作為優化目標,學習各元素的嵌入表示.
嵌入函數又稱為編碼器. 本文將時態知識圖譜中的實體、關系和時間戳元素顯式的編碼到維度為d的實數向量空間. 如圖2 所示,對于給定四元組(h,r,t,τ),向量h,t∈Rd分別是頭實體h和尾實體t經過嵌入函數映射后得到的嵌入表示,代表頭/尾實體的個體語義特征,向量分別是關系r和時間戳 τ經過嵌入函數映射后得到的嵌入表示,代表關系和時間戳的語義特征,其中rd+τd=d.

Fig.2 T-Temp architecture圖2 T-Temp 架構
為了學習實體所隱含的類型特征并建模實體與關系間的類型兼容性,嵌入函數進一步將實體所屬的類型信息編碼到維度為k的實數向量空間中. 具體來說,向量yh,yt∈Rk分別表示頭實體h和尾實體t的類型嵌入,代表頭/尾實體的類型特征. 此外,構建關系的類型屬性,根據一個特定關系總是連接具有相同類型的頭實體和尾實體,令關系r期望連接的頭實體類型為關系的頭類型,關系r期望連接的尾實體類型為關系的尾類型. 并定義向量xh∈Rk為關系r的頭類型嵌入,表示關系的頭類型特征;向量xt∈Rk為關系r的尾類型嵌入,表示關系的尾類型特征. 實體類型體現了多個實體的一般語義信息,往往沒有實體的語義豐富,因此通常情況下k?d.
本文定義基于CP 分解的得分函數,將時態知識圖譜G看成一個3 階張量X∈R|E|×|R||T|×|E|,其中 |E|是實體的個數,|R||T|是關系個數 |R|和時間戳個數 |T|的乘積. 頭/尾實體分別索引模式-1 和模式-3 向量,關系和時間戳聯合索引模式-2 向量. 根據定義4 所描述的CP 分解方法,頭實體向量、尾實體向量、關系向量和時間戳向量組成的多線性乘積可以用來估計張量X中的各個元素,即四元組(h,r,t,τ)的得分函數為
其中h表示頭實體向量,t表示尾實體向量,[r|τ]表示關系向量r和時間戳向量 τ的級聯. 該得分函數的值越大,說明四元組越真實. 需要指出的是,這種原始的基于CP 分解的方法存在同一實體位于頭/尾不同位置時的嵌入向量不一致問題,為了解決這個問題,本文在訓練時采用與靜態模型SimplE 類似的,構建反向關系的方法統一實體的嵌入.
另一方面,考慮到本文所提出的模型不需要提供額外的類型信息,實體和關系的語義關聯中其實隱含了它們的類型特征. 為了可以自動學習和挖掘這些類型特征,根據實體和關系的類型兼容性這一先驗知識,我們定義基于語義相似度的類型兼容性函數來建模實體和關系間的類型兼容性,采用與余弦相似度的計算成比例的向量內積形式. 對于關系與其相連的頭實體,類型兼容性函數為
其中yh表示頭實體的類型向量,xh表示關系r期望連接的頭類型向量,σ是sigmoid 函數. 類似地,對于關系與其相連的尾實體,類型兼容性函數為
其中yt表示尾實體的類型向量,xt表示關系r期望連接的尾類型向量.(h,r,t,τ)
將式(3)與式(4)(5)相結合,得到四元組的最終得分函數:
式(6)中2 個類型兼容性函數可以看成是CP 分解得分函數的系數,即根據四元組的類型兼容性調節該得分函數的結果.
除此之外,常見的時態知識圖譜通常是異構的,也就是說,除了時態感知關系,還包含大量的非時態感知關系. 比如Wikidata 中的三元組(奧巴馬,出生地,夏威夷州),其關系“出生地”就是一個非時態感知關系,即奧巴馬的出生地永遠是夏威夷州,不會隨時間發生變化. 為了能更好地處理這種既包含時態關系,又包含非時態關系的異構型時態知識圖譜,本文在得分函數中增加了一個非時態組件,相應的得分函數變為
其中rs∈Rd表示關系r的非時態向量,而r又稱為關系的時態向量表示. 對于時態感知關系來說,由于其通常出現在含有時間信息的四元組中,因此,該關系對應的時態向量r應該使正四元組得分較高,負四元組得分較低;而其對應的非時態向量rs應該使大部分不含有時間信息的三元組得分較低. 相反,對于非時態感知關系來說,其對應的非時態向量rs應該使正三元組得分較高,負三元組得分較低;而其對應的時態向量r應該使大部分含有時間信息的四元組得分較低.
在2.4 節定義的得分函數基礎上,對于缺失尾實體的四元組(h,r,?,τ),我們可以估計任意候選實體ti∈E的真實性:
對于缺失頭實體的四元組(?,r,t,τ)也類似. 進而,本文采用交叉熵損失函數來學習和優化各元素的向量化嵌入:
此外,考慮到參數正則化可以提升模型的泛化能力,避免對訓練數據的過擬合,本文采用類似于文獻[37]中的張量核范數?p(θ)和基于先驗知識的時間戳平滑 ?p作為模型的正則化項:
其中||·||p表示向量的p-范數,τi和τi+1表示任意2 個相鄰的時間戳嵌入表示. 模型的最終優化目標是最小化帶有正則化項的損失函數:
其中λ1和 λ2是加權超參.
在模型進行訓練之前,需要考慮如何處理時態知識圖譜中常見的2 種時間信息形式,即時間點時間戳和時間段時間戳. 在事件知識圖譜ICEWS 和GDELT 中,事實(事件)帶有時間點形式的時間戳 τ,用來表示該事件發生的具體時間. 由于時間點的離散性特點,這種形式的時間信息可以直接適用于TTemp 模 型. 而 在時態知識圖譜YAGO 和Wikidata 中,與事實相關聯的往往是時間段形式的時間戳[τs,τe],如何建模這種連續性時間信息是一項具有挑戰性的任務. 與TComplEx 和TNTComplEx 模型中 采用的 在時間段范圍內均勻采樣的方法不同,我們直接用時間段的開始時間和結束時間作為新的時間戳來代替原有的時間戳,從而將持續性時間信息做離散化處理. 本質上是利用擴充數據量的方法盡可能多地采集連續性時間信息,形成模型可處理的四元組形式.算法1 給出了T-Temp 模型的偽代碼.
算法1.T-Temp 模型.
輸入:訓練集Strain,實體集E,關系集R,時間戳集T,訓練總輪數N,批次大小 β,嵌入維度k,d和rd,τd,加權超參 λ1和 λ2;
輸出:所有實體的嵌入向量e∈{h,t}和類型嵌入向量ye,所有關系的嵌入向量r,rs和頭/尾類型嵌入向量xe,所有時間戳的嵌入向量 τ.
完全表達性是知識圖譜表示學習模型的一個重要屬性,現有工作[12,34,38]已經證明,基于張量分解的靜態模型ComplEx、SimplE、Tucker 具有完全表達性,最近提出的DE-SimplE 模型是第1 個具有完全表達性的時態模型. 本文從理論上分析T-Temp 模型的完全表達性.
定義5.知識圖譜表示學習模型具有完全表達性,當且僅當給定知識圖譜中的已知事實(真事實)集合,存在一種嵌入表示,能夠正確區分真事實與假事實.
Kruskal[44]將N階張量的秩定義為能夠進行CP分解的最小R值. 雖然確定給定張量的秩是個NP 難問題[45],但Kruskal[46]已經證明3 階張量的秩存在一個弱上界. 受到此證明啟發,本文證明T-Temp 模型具有完全表達性,并給出嵌入表示的邊界.
定理1.給定實體集E、關系集R和時間戳集T上的已知事實集合G,存在維度為|E|×|R|×|T|的嵌入表示,使得T-Temp 模型具有完全表達性.
證明. T-Temp 模型具備完全表達性的充分條件是,真事實和假事實的得分永不相交,即得分函數能夠正確劃分所有真事實與假事實. 由于得分函數中的Ch和Ct取值位于0~1 之間,不影響總體函數值的正負,為了簡化證明,我們只關注得分函數的第1 部分f′.
大小為|E|×|R|×|T|的嵌入向量可以看成是 |E|個大小為|R|×|T|的塊. 對于頭實體ei,令其嵌入向量ei∈R|E|×|R|×|T|第i塊中的所有元素值為1,其余塊中的元素值均為0. 于是,只有第i塊中的元素值對四元組(ei,rk,ej,tl)的得分有影響. 接下來,進一步分析嵌入向量的第i塊.
在大小為|R|×|T|的第i塊中,令關系rk和時間戳tl的嵌入向量級聯[rk|tl]∈R|E|×|R|×|T|的第i塊第(k×|T|+l)個元素值為1,其余為0. 因此,嵌入向量ei與[rk|tl]的哈達瑪積中,只有第i塊第(k×|T|+l)個元素為1,其余為0. 基于以上嵌入向量的元素值設置,如果四元組(ei,rk,ej,tl)為真事實,只需要令尾實體嵌入向量ej∈R|E|×|R|×|T|的第i塊第(k×|T|+l)個元素值為1,否則值為?1,即可得到真事實的得分〈ei,[rk|tl],ej〉為1,假事實為?1,互不相交. 證畢.
時間和空間復雜度是知識圖譜表示學習模型的另一個重要屬性,會直接影響模型的訓練效率和可擴展性. 如表1 所示,本文根據嵌入函數和得分函數分析比較T-Temp 模型和幾個現有的時態模型所需的參數量和時間消耗,其中 γ為調整時態特征權重的超參[34]. 在時間復雜度方面,除ConT 模型外,所有模型都消耗與嵌入維度呈線性的時間復雜度O(d). 由于ConT 模型涉及3 階張量運算,其時間復雜度為O(d3).在參數個數方面,除了DE-SimplE 模型,其他模型的參數個數均與時間戳的個數相關. 由于本文所提出的T-Temp 模型可以自動學習類型特征,模型需要與類型表示相關的參數量k(2|E|+4|R|). 而通常情況下k?d(比如第3 節實驗中,d=2000,k=20),因此該部分參數量可忽略不計. 又因為rd+τd=d,所以TTemp 模型所需的參數個數總體上與最先進的ChronoR,TeRo,TNTComplEx 等模型相當甚至更少.
鏈接預測是標準的知識圖譜補全任務,本節通過時態知識圖譜上的鏈接預測任務對T-Temp 模型進行有效性驗證. 首先對實驗中所采用的數據集、評價指標和基線模型等進行說明. 然后將實驗分為5 組以達到不同的實驗目的:
1)在4 個通用的數據集上對T-Temp 模型進行鏈接預測實驗,并將實驗結果與之前的先進模型進行對比分析,以評估T-Temp 模型的有效性;

Table 1 Comparison of Our proposed models and State-ofthe-Art Temporal KGE Models on Time Complexity and Space Complexity表1 本文模型與現有時態知識圖譜表示學習模型的時間復雜度和空間復雜度對比
2)通過消融實驗分析類型兼容性和時間段時間戳的處理方法對T-Temp 模型性能的影響;
3)對學習到的實體和類型嵌入進行聚簇實驗,并將聚簇結果進行可視化展示,以驗證T-Temp 模型能夠自動捕獲實體的類型特征.
4)進行超參的敏感性分析實驗,以驗證模型的性能對于超參設置的敏感度.
5)鏈接預測任務上的案例研究實驗,更細粒度地展示T-Temp 模型如何提升鏈接預測結果的準確性.
本文在4 個抽取自真實時態知識圖譜的公開數據集上對T-Temp 模型進行評估,包括:ICEWS14[29]、ICEWS05-15[29]、YAGO11k[30]、Wikidata12k[30].其中,ICEWS14 和ICEWS05-15是Garcia-Duran 等人[29]從事件知識圖譜ICEWS中抽取的2個子集. ICEWS包含從1995—2015年發生的政治事件,通過頭/尾實體(比如“國家”“總統”)和相連關系(比如“進行訪問”“表達會面或談判的意圖”)以及時間點形式的時間戳(如[2014-05-23])來表示. ICEWS14 和ICEWS05-15 分別對應2005—2015年間發生的政治事件. YAGO11k和Wikidata12k 是時態知識圖譜YAGO和Wikidata 的子集,與事實相關聯的是時間段形式的時間戳(如[2006-11-18], [2012-08-20]). 通過YAGO11k 和Wikidata-12k 數據集,可以證明T-Temp 模型能夠有效地處理連續性時間信息. 表2 列出了4 個數據集的詳細統計信息,需要說明的是,表中YAGO11k 和Wikidata12k數據集的時間戳個數是經過2.5 節中介紹的離散化預處理后的值.

Table 2 Statistics of Datasets表2 數據集的統計信息
為了準確評估模型在鏈接預測任務上的性能,本文采用2 個廣泛使用的評價指標:平均倒數排名MRR(mean reciprocal rank)和擊中率Hits@N[21-22,30-34,37].首先,用所有已知實體e∈E分別替換測試集中每個四元組(h,r,t,τ)的頭實體h和尾實體t,從而為每個四元組創建2 個候選元組集合(h′,r,t,τ)和(h,r,t′,τ). 然后,用學到的嵌入表示和得分函數為所有候選元組計算得分,并按照得分進行降序排名. 與文獻[17]中的設置一樣,只對訓練集和驗證集中均未出現過的候選元組進行排名. 根據此排名,MRR為測試集元組在候選元組集合中排名倒數的平均值:
其中rankh和rankt分別表示測試元組在替換頭/尾實體組成的候選元組集合中的排名.Hits@N為排在前N名的測試集元組的平均個數:
其中,C(·)是條件函數,當條件成立時值為1,否則為0.MRR和Hits@N的值越大,說明模型在鏈接預測任務上的性能越好.
本文選取了當前被應用較多的靜態和時態知識圖譜表示學習模型作為基線模型. 靜態模型包括:基于平移距離的TransE 和RotatE 模型,基于CP 分解的DistMult、ComplEx、SimplE 模型;時態模型包括:TransE 的時態擴展模型TTransE、TA-TransE、HyTE.
基于Tucker 分解的時態模型ConT 以及基于CP 分解的時態模型DE-SimplE、TComplEx、TNTComplEx、TeRo、ChronoR. 這些模型均已在第1 節中進行了詳細介紹.
為公平起見,本文在單個NVIDIA Geforce RTX 2080Ti GPU 上運行T-Temp 和部分基線模型,使 用Ubuntu 16.04 LTS 操作系統,配置Intel Core i7-7700 3.60GHz CPU,128GB 內存. 本文利用PyTorch[47]實現T-Temp 模型,Adam[48]作為優 化器. 訓練批次大小為1 000,訓練總輪數為50,且每5 輪驗證1 次模型,選擇驗證集上MRR值最高的模型參數進行測試. 對于ICEWS14 和ICEWS05-15 數據集,最佳參數設置為d=2000,k=20,λ1=λ2=0.01,rd/τd=0.25,學習率為0.2;對于YAGO11k 數據集,最佳參數設置為d=1800,k=30,λ1=0.1,λ2=1,rd/τd=0.6,學習率為0.1;對于Wikidata12k 數據集,最佳參數設置為d=2000,k=30,λ1=λ2=0.01,rd/τd=0.6,學習率為0.1.
鑒于部分基線模型與本文采用的數據集和評價指標相同,直接引用其公開報告的實驗結果[32-33]. 對于其他基線模型[36-37],按照其公開論文中的最佳實驗設置進行模型復現.
表3 和表4 給出了T-Temp 模型和其他先進模型在4 個數據集上的鏈接預測結果對比. 總體來說,時態模型在評價指標上優于靜態模型,說明在知識圖譜表示學習過程中引入時間信息能夠顯著提升模型性能. 本文提出的T-Temp 模型在所有數據集上的結果均超過最先進的時態模型,表明T-Temp 模型能夠有效完成時態知識圖譜補全任務.
具體來說,在ICEWS14 和ICEWS05-15 這2 個帶有時間點形式時間戳的數據集上,T-Temp 模型的MRR指標結果比最先進的時態模型ChronoR 分別提升了3.9%和1.8%,比同樣基于CP 分解的時態模型TNTComplEx 分別提升了8.5%和16%. 這是因為TTemp 模型不僅利用事實的時間信息,還充分挖掘實體的類型特征,從而進一步優化實體嵌入. 而ChronoR和TNTComplEx 模型僅僅融合了時間信息,忽略了隱含在實體關系中的類型信息,因此無法取得更優的結果. 此外,由于ConT 模型中的每個時間戳需要大量參數來表示,容易過擬合,所以ConT 性能欠佳,而且大量參數也使其訓練速度尤其緩慢.
YAGO11k 和Wikidata12k 是2 個帶有時間段形式時間戳的數據集,ChronoR、DE-SimplE 和ConT 模型不能處理這種連續性時間信息,因此它們在YAGO11k和Wikidata12k 這2 個數據集上沒有結果. 盡管TeRo模型采用與本文模型相同的方法來處理持續性時間信息,但T-Temp 模型的結果仍然比TeRo 更優. 一方面是因為TeRo 只考慮通過時間的旋轉操作來建模實體的時態演化性,而忽略了關系和整個事實的時間變化屬性;另一方面也進一步驗證了本文的模型自動挖掘并利用實體類型特征的優點.

Table 3 Link Prediction Results on ICEWS14 and ICEWS05-15表3 在ICEWS14 和ICEWS05-15 上的鏈接預測結果

Table 4 Link Prediction Results on YAGO11k and Wikidata12k表4 在YAGO11k 和Wikidata12k 上的鏈接預測結果
為了分析類型兼容性和連續性時間信息的處理方法對模型性能的影響,本文基于T-Temp 模型設計了2 個變體模型,T-Temp-Type 和T-Temp-Type(Unif),分別表示從T-Temp 的得分函數中移除類型兼容性函數,以及在該變體模型基礎上進一步將連續性時間信息的處理方法變為TComplEx 和TNTComplEx模型中采用的均勻采樣方法. T-Temp 模型及其變體模型在YAGO11k 數據集上的鏈接預測結果如表5所示.

Table 5 Results of Ablation Experiments on YAGO11k表5 YAGO11k 上的消融實驗結果
從表5 中可以看出,T-Temp 模型比變體模型TTemp-Type 在MRR評價指標上高2.4%,說明建模類型兼容性并自動學習實體的類型特征確實能提升模型效果. 而變體模型T-Temp-Type(Unif)的結果則進一步退化成與TNTComplEx 相當. 驗證了我們設計的連續性時間信息的處理方法可以更多地采集時間的語義信息,有效改進模型性能.
為了評估T-Temp 模型能否有效捕獲實體的類型特征,本部分實驗對T-Temp 模型在ICEWS14 和YAGO11k 數據集上學習到的實體和類型嵌入進行聚簇,并將聚簇結果可視化. 具體來說,我們采用k-means[49]算法進行聚簇,采用t-SNE[50]方法對實體和類型嵌入進行降維(原來的維度分別是d和k),方便可視化. 圖3分別展示了在不同數據集上的聚簇結果,不同的簇用不同顏色標識.

Fig.3 The visualization of entity and type embedding clustering圖3 實體和類型嵌入聚簇的可視化
從圖3 中可以看出,類型嵌入的簇比實體嵌入的簇更緊湊,且簇與簇之間的區分更明顯,而實體嵌入卻沒有這種明顯的聚簇現象. 說明類型嵌入確實能夠有效捕獲實體的一般語義特征,學習實體中隱含的類型信息.
為了研究T-Temp 模型中的參數對其性能的影響,本文在ICEWS14 數據集上對一些重要的超參進行了細粒度的分析和比較,包括2 個嵌入向量空間的維度d和k以及訓練總輪數N. 令嵌入向量空間的維度分別為d∈{1 600,1 800,2 000,2 200,2 400,2 600,2 800}和k∈{10,15,20,25,30,35,40},訓練總輪數為N∈{30,40,50,60,70,80,90,100}. 為了實驗公平,除了當前研究的超參外,其余超參的設置與3.3 節中的相同,實驗結果如圖4 所示.
圖4(a)顯式了當維度為d的嵌入向量空間取不同維度值時T-Temp 模型的各項評價指標變化趨勢.從圖4(a)中可以看出,當維度小于2 000 時,各項指標隨維度的增加呈上升趨勢,并在維度取值為2 000時達到最大;當維度大于2 000 后,各項指標隨維度的增加呈緩慢下降趨勢. 維度為d的嵌入向量空間用來表示實體的個體語義信息,實驗結果說明該向量空間的維度是個敏感參數,當維度取值過小時,可能造成欠擬合問題,即向量空間無法充分表達所有實體的豐富語義信息;而當維度取值過大時,則可能出現過擬合現象,從而導致性能變差.
圖4(b)顯式了當維度為k的嵌入向量空間取不同維度值時,T-Temp 模型的各項評價指標變化趨勢.從圖中4(b)可以看出,模型的各項指標同樣隨維度的增加先呈上升趨勢,然后在維度為20 時達到最大值,隨后開始緩慢下降. 維度為k的嵌入向量空間用來表示實體所屬的類型信息,實驗結果同樣說明該向量空間的維度是個敏感參數,其取值過小或過大可能造成模型的欠擬合或過擬合問題. 此外,實體的類型特征所包含的一般語義信息通常沒有實體的個體語義信息豐富,因此實驗中2 個嵌入向量空間的最佳取值維度有k?d.
圖4(c)顯式了當訓練總輪數N取不同值時,TTemp 模型的各項評價指標變化趨勢. 從圖4(c)中可以看出,當訓練輪數增加時,模型的各評價指標均有所提升. 而當訓練輪數進一步增加時,各項指標逐漸趨于平穩,模型達到一個相對穩定的狀態.

Fig.4 The sensitivity analysis of parameters圖4 參數敏感性分析
為了更細致地展示T-Temp 模型確實可以利用時間信息來提高鏈接預測任務的準確性,本文從YAGO11k 數據集中抽取出一些帶有時間信息的四元組作為典型案例進行研究,包括:(Ashley Cole, plays for, Arsenal, [1999—2006])(Ashley Cole, plays for, Chelsea,[2006—2014])(Ashley Cole, plays for, A.S. Roma,[2014—2016])(Ashley Cole, plays for, LA Galaxy,[2016—2019]) . 這些四元組的頭實體和關系均是“Ashley Cole”和“Playsfor”,而尾實體則隨著時間的不同而有所不同,說明該球員在不同時期曾服務于不同的足球俱樂部.
實驗分為2 種情況進行對比:1)掩去四元組中的尾實體,在已知頭實體、關系和時間戳的情況下通過模型來預測尾實體,即回答問題:(Ashley Cole, plays for, ?, [1999—2006])(Ashley Cole, plays for, ?,[2006—2014])(Ashley Cole, plays for, ?, [2014—2016])(Ashley Cole, plays for, ?, [2016-2019]);2)是將四元組中的尾實體和時間戳均掩去,通過訓練好的模型來預測尾實體,即回答問題(Ashley Cole, plays for, ?). 模型根據得分函數對所有候選實體組成的元組計算得分,并按照得分高低依次進行排序,實驗結果如表6所示.

Table 6 Comparison of Link Prediction表6 鏈接預測對比
從表6 中可以看出,在回答有具體時間范圍限制的問題時,模型預測結果排名第一的候選實體均為正確答案,說明T-Temp 模型確實可以利用可提供的時間信息實現更精準的鏈接預測. 而回答不帶有時間戳的三元組問題時,模型則給出了若干個候選實體作為答案. 這些候選實體雖然無法給出用戶精準的答案,但得益于T-Temp 模型的類型限制作用,他們都屬于“足球俱樂部”這一類型,一定程度上滿足了用戶的需求.
時態知識圖譜表示學習是近幾年的研究熱點之一. 本文基于張量的典范多元分解技術,提出了一種類型增強的時態知識圖譜表示學習模型T-Temp,用于解決時態知識圖譜補全和語義計算問題,并證明了該模型在理論上具有完全表達性和較低的時空消耗. T-Temp 模型在表示學習的過程中不僅可以利用可提供的各種形式的時間信息,還可以利用實體和關系間的類型兼容性,自動學習實體、關系、時間和類型的嵌入表示,不需要提供額外的類型信息. 在4個公開的時態知識圖譜數據集上進行的大量實驗結果證明了T-Temp 模型的有效性.
鑒于現有的時態知識圖譜中,與事實相關聯的時間戳存在大量的缺失現象,下一步,計劃探索TTemp 模型對缺失的時間戳進行預測和補全的問題.另外,如何將T-Temp 模型擴展到開放世界假設[51],實現對未來事件的推理和預測,也是值得深入研究的方向.
作者貢獻聲明:何鵬提出了算法思路,完成實驗并撰寫論文;周剛、陳靜、章夢禮、寧原隆提出指導意見并修改論文.