羊艷玲,李燕,鐘昕妤
(甘肅中醫藥大學信息工程學院,甘肅 蘭州 730000)
知識圖譜(knowledge graph,KG)是大數據時代下針對海量知識產生的一種新型管理與服務模式,其屬于語義網絡范疇,是表示知識的一種新途徑,用于描述真實世界中存在的各種實體、概念或屬性,抽取并呈現出特定領域概念之間的語義關系[1]。近年來,因其有助于醫學信息表達的分類和標準化,以及醫學知識的共享、分布和應用,具有臨床診斷、治療、研究和教育應用價值,知識圖譜在醫學領域也逐漸得到關注與重視。它將醫學知識映射納入知識服務系統,以提高信息檢索、智能問答、決策支持和知識可視化等多種服務的效果,從而提升知識服務能力[2]。
然而,隨著深入研究以及將知識圖譜應用到各種領域,研究人員發現在應用中仍存有一些問題,其中限制廣泛應用的最主要因素是不完備性[3],即知識圖譜中存在缺失的實體或信息,導致其應用存在一定約束,大大限制了用于檢索和推理的準確性。因此,知識圖譜鏈路預測是補全知識的一個重要基礎,其首要目標是預測知識圖譜中實體之間可能存在的關系,以及發現和恢復缺失信息[4]。
鏈路預測通過網絡中已知節點的信息和網絡結構,預測兩個無限連接節點之間存在鏈接關系的可能性,為缺失信息恢復和錯誤信息檢測提供技術支持[5]。鏈路預測是信息科學與復雜網絡之間的重要聯系,近年來,國內外學者們就知識圖譜的鏈路預測應用方面開展了眾多研究工作,已形成較為全面且系統的成果[6]。如GETOOR 等[7]對鏈路預測實現數據挖掘的相關概念和研究進行了梳理歸納,重點敘述了其定義、存在的問題和經典方法。DRUMOND 等[8]針對KG 更新,提出利用張量分解的方法實現對缺失RDF 三元組數據的補充。SOCHER 等[9]在預測中引入神經網絡方法,但存在模型復雜和參數調優等不足。目前,在鏈路預測研究中主要面臨以下兩大難題,一是現有大規模KG 存儲數據量極大;二是KG 構建形成單一的實體屬性和關系而忽視了相關聯的外部信息,而這些外部信息中包含了極為豐富的先驗知識,因此融合關聯外部信息的KG 才是更為全面、真實的。如何將KG 提供的數據與外部知識相結合也是面臨的難點之一[10]。
在中醫臨床領域,構建知識圖譜的一個核心知識源是中醫醫案。由于實際醫案數據普遍存在歧義性和多樣性的問題[11],使臨床領域知識網絡中可能存在一些缺失的醫療實體和實體之間的鏈接,或者實體之間可能存在不正確的關聯。這些關系可以利用臨床領域知識圖譜鏈路預測進行補充或校正,得到更加全面、真實的知識圖譜[12]。醫療領域中醫案數據通常具有語義關聯,并且醫案之間的語義具有很明顯的強關聯性。與此同時,關于高血壓病領域知識圖譜的鏈路預測少之又少,且未考慮到中醫知識圖譜三元組體系和類型以及信息缺失等問題。為了應對這一挑戰,本課題組提出了一種新的歸納推理模型,即HSTP(Hierarchical Structure Type),旨在將中醫知識圖譜從兩方面進行補全優化,一是利用中醫三元組類型,如<疾病,處方,藥物>和層級結構進行補全;二是利用新提出的模型判斷圖譜中兩個節點是否一致,加強實體類型形成拓撲層級結構。
知識圖譜中的鏈路預測是利用已有的關系推斷出新的關系,從而建立一個更完整的知識圖譜任務。為了補充KG 中實體之間缺失的信息,知識圖譜的解決方案是利用現有知識推斷潛在知識。換句話說,KG是用現有事實來預測知識圖譜中實體之間的潛在關系。在某種程度上,KG 實質就是復雜網絡,其類似于復雜網絡中的鏈路預測,但更復雜的是不僅要預測節點之間可能的鏈接關系,而且能夠推斷這些鏈接關系中包含的各種信息[13]。盡管歸納鏈路預測在實際應用中的重要性不言而喻,但現有的研究大多集中在演繹鏈路預測,無法應對從未觀察到的實體。鏈路預測問題是復雜網絡的一個經典問題,當前已有了豐富的成果,總體是通過分析節點之間的相似關系來進行預測,比如基于相似性的預測方法、基于似然估計的預測方法、基于概率模型的預測方法等。對于深度模型來說,更多工作將鏈路預測作為深度模型的評價方法來使用,本質也是來挖掘兩節點的相似性。現較為成熟的鏈路預測方法有以下幾種。
一是基于規則學習的方法。這一方法是基于觀察到的關系共現模型,學習規則一般是通過歸納得到的,而且能夠自然過渡到其他實體,因為它們和實體之間是獨立的。Neural LP 提出了一種端到端可微框架來學習邏輯規則的結構和參數[14]。DRUM 通過挖掘更正確的邏輯規則,進一步改進了神經網絡[15]。然而,基于規則學習的方法主要集中在挖掘horn 規則,限制了它們對知識圖譜中更復雜的語義關系建模的能力。
二是基于嵌入的方法。該方法已被證明是知識圖譜推理的一個有前途的方向[16],一些基于嵌入的方法可以為未見的實體生成嵌入。GraIL 等提出基于GNN的預測框架,通過推理局部子圖實現實體獨立方式的歸納預測,但該方法無法實現常見實體的關系獲取[17]。
三是基于GNNs的鏈路預測。由于KG自身的圖模式表達特點,基于GNNs的鏈路預測方法在近幾年展現出巨大潛力。ZHANG等[18]利用GNN結合層次注意力實現對實體領域信息的有效利用,但該網絡的訓練依賴于實體嵌入而難以對不可見實體間缺失鏈接進行補充。
四是基于關系矩陣的方法。近期的KG 嵌入方法研究開始考慮引入關系間相關性。DO 等[19]實現對關系投影空間的跨越基分解并共享給所有關系。ZHU 等[20]嘗試將關系矩陣分解成兩個低維矩陣相乘來學習。
本文提出一種新的歸納推理模型HSTP,它能有效利用相鄰的關系三元組。具體來說是從關聯模型(correlation patterns)和相關系數(correlation coefficients)兩個方面對語義關聯進行了建模。根據不同的結構特征將所有關系劃分為多個關聯模式組,然后將原始知識圖轉換為關系相關圖(RCG),其中節點表示關系,邊表示任意兩個關系之間的關聯模式。
定義1(關系相關模塊):基于任何兩個關系之間的語義相關性與其拓撲結構高度相關的模塊。
定義2(關系相關網絡,RCN):模擬不同相關模式在鏈路預測中的重要性。它由相關模式和相關系數兩個部分組成。
定義3(關聯模式):任意兩個關系之間的關聯都與其拓撲結構相關。
定義4(相關系數):闡述兩種關系之間的語義關聯程度。
定義5(關系相關圖,RCG):為達到對任意兩個關系之間的相關模式進行建模的目的,將所有關系對分為七類拓撲模式。其中節點表示關系,邊表示原始知識圖中任意兩個關系之間的關聯模式。
定義6(圖形結構模塊):對于三元組(u,rt,v),周圍的局部圖包含了關于三元組如何與其鄰域連接的信息。
HSTP 旨在以獨立于實體的方式對給定的三元組(u,rt,v)進行評分,其中rt是u和v之間的目標關系。其中HSTP 包括兩個模塊:關系關聯模塊和圖形結構模塊。關系關聯模塊輸出嵌入向量rtN和eu,將這兩個模塊組織在一個統一的框架中,框架見圖1。利用一個評分網絡將這兩個模塊的輸出結合起來,得到給定三元組(u,rt,v)的分數。

圖1 評分框架圖
得分函數:f(u,rt,v)定義為:

其中,WS∈R4d×1代表權重參數。
損失函數:進行負采樣并使用對比較鏈接損失對模型進行訓練,使其得分正樣本高于負樣本。損失函數定義為:

其中,γ代表超參數;(u′i,r′t,i,v′i)代表表示事實三元組(u,rt,v)的第i個負樣本;[n]代表{1,2,…,n},n 是負樣本個數。
為驗證本文所提出的HSTP 模型的效果及解決高血壓病中醫醫案KG 的補全,需要在數據集上通過實驗驗證。筆者使用了文獻[17]中提出的歸納鏈路預測基準數據集作為公開數據集用作訓練,這些數據來自WN18RR[21]、FB15k-237[22]和NELL-995[23]。將前期收集的高血壓病中醫醫案數據集作為私有數據集用作預測,其中有1 345 個關系三元組用來訓練,共包含632個實體和495關系。
對于感應鏈路預測,訓練組和測試組應重疊實體。WN18RR、FB15k-237 和NELL-995 歸納出4 種類型的歸納數據集,且其大小不斷增加。數據集詳細信息見表1。

表1 歸納基準的統計數據表
將HSTP 與幾種經典的方法進行比較,包括Neural LP[14]、DRUM[15]和GraIL[17]。使用Adam 優化器[24]進行訓練,初始學習率為0.01,批量大小為16。在訓練和測試時,隨機抽取每個三元組的兩跳封閉子圖,并使用一個兩層的GCN 來計算子圖的嵌入。對于WN18RR、FB15k-237 和NELL-995,損失函數中的margins 分別設置為8、16、10,最大訓練時epochs 設置為10。
三元組分類是一個簡單的二分類問題,即對一個三元組(u,rt,v)判斷它是正樣本還是負樣本。鏈路預測是用實體集中的實體替換掉頭實體或尾部實體,計算所有三元組的得分,然后得到原三元組在所有三元組中的排名。三元組分類任務在很多補全模型中被當作評測任務,其方法是通過三元組(u,rt,v)的兩個階段模型傳播和輸出模型計算(u,rt,v)的得分函數,如果評分函數小于指定閾值劃分為正樣本,否則為負樣本。由于這是一項二元分類任務,使用準確率作為評估指標。三元組分類的實驗結果如表2、圖2 所示。

表2 三元組分類任務的準確率(%)

圖2 三元組分類任務準確率
由以上結果可知:
①在三元組分類任務上,HSTP 性能優于Neural LP、DRUM 和GraIL 模型。說明HSTP 模型獲取實體向量的方式較其他復雜,能有效地捕捉序列特征。
②比較數據集WN18RR、FB15k-237和NELL-995發現,隨著實體增多,訓練數據的減少,模型的分類效果都會降低。但是在同一個數據集下,各種模型性能的相對關系基本保持不變。
③在三個數據集上,本文提出的HSTP 模型相對于其他模型分別提高了2.4%、2.8%和3.2%,整體性能優于上述模型。
3.4.1 基準模型
為評估提出的關系相關模塊的有效性,課題組提出了一個稱為HSTP-base的基線,該基線得分三元組(u,rt,v),僅依賴于關系相關模塊的輸出,因此,HSTP-base的得分函數為:

其中,Wbase∈Rd×1代表權重參數。
3.4.2 評價及分析
使用精度召回曲線(AUC)下的面積作為分類度量,AUC(Area Under Curve)被定義為ROC 曲線下的面積。用隨機實體替換每個測試三元組的頭部或尾部,以對相應的負三元組進行采樣。然后用相等數量的負三元組對正三元組進行評分,用不同的隨機種子進行實驗,并報告平均結果。從WN18RR、FB15k-237 和NELL-995 中提取的歸納基準數據集的AUC-PR,結果見表3、圖3。

表3 鏈路預測任務實驗結果
由圖3 鏈路預測的AUC-PR 結果可知,從三元組任務和鏈路預測兩個任務總體來說,課題組的基線模型HSTP-base 在所有數據集上都優于歸納基線。由于HSTP-base 完全依賴于關系相關模塊來執行鏈路預測,此結果證明課題組提出的歸納鏈路預測模型大大提高了HSTP 模型的性能,在大多數數據集上比GraIL 提高了3.9%左右,驗證了在歸納鏈路預測任務中HSTP模型的有效性。

圖3 鏈路預測的AUC-PR結果圖
古代中醫學中并無“高血壓病”概念,現代高血壓病在中醫辨證理論體系中所對應的疾病有“眩暈”“頭痛”,對應的病機為“肝陽上亢”。如圖4 和圖5 所示,其描述了關于高血壓病中醫醫案知識圖譜的補全前和補全后,因為未知鏈路預測的任務是判斷圖中實體之間的連線是否真實存在,所以補全后的知識圖譜可以考慮到相鄰的關系三元組,展示更多缺失的信息,使高血壓病在中醫的辨證論治中更加系統化、全面化。首先體現在高血壓病的證治分型上,在肝火上炎、肝腎虧虛、氣虛血瘀、陰虛陽亢和痰濕壅盛證的研究基礎上增加了其他臟腑、氣血津液和情志證等方面的辨證,同時也對應增加了每個證型的脈證、舌象等具體臨床癥狀表現。補全優化后的優勢主要體現以下三點:第一,中醫學的基本特點是整體觀念和辨證論治,一個臟腑或者一個部位的病變往往會累及其他的臟腑和部位,通過補全此圖,可以比較直觀地看到相同疾病不同證型之間會出現有共同的證候,體現中醫學整體觀念和辨證論治的特點;第二,使本病的辨證更加精確完善且具有連貫性和統一性;第三,強化表達了疾病-癥狀-證候之間的聯系,體現了中醫辨證以五臟為中心的整體觀,辨證方式包含了臟腑辨證、八綱辨證和氣血津液辨證。

圖4 “疾病-癥狀-證候”可視化圖補全前

圖5 “疾病-癥狀-證候”可視化圖補全后
本文以醫學領域為例,針對知識圖譜描述中醫高血壓病病例的特點,提出將KG 與相鄰三元組相結合,充分描述實體節點的屬性,并構建了一個關聯關系描述屬性的模型。然后基于HSTP 預測模型實現KG 的信息補全,從而找到其中缺失的信息。基于真實數據集的實驗,驗證了該方法的有效性,實驗結果在一定程度上具有可行性。筆者就知識圖譜補全研究中面臨的信息覆蓋不全面及相鄰三元組信息丟失兩大問題,提出以下解決方法。一是結合實體類型和層級結構信息(如中醫知識圖譜中的疾病-子病-類型結構)補全知識圖譜;二是融合實體信息與拓撲結構形成增量,實現模型結構優化。經實驗驗證,新提出的HSTP 歸納推理模型能夠有效建模語義關聯并對比其他方法獲得了更優的鏈路預測性能。
本文提供了一種針對醫學領域知識圖譜未知鏈路預測思路,但只限于初步探尋。以知識圖譜鏈路預測問題的特點和應用為出發點,今后要開展的工作主要為如何處理大規模的知識圖譜和海量標簽數據集,并將預測未知鏈接擴展到醫學的其他方面。