

摘要:知識圖譜鏈接預測是知識挖掘與智能信息處理中的重要任務。文章提出了一種基于關系序列表征與匹配的新方法,以有效捕獲路徑中的語義信息并提升鏈接預測性能。首先,通過雙向編碼器表征對路徑中的每個關系進行深度編碼,生成精細的關系表示。接著,利用LSTM對關系序列進行建模,學習全局路徑表示,全面捕獲路徑中蘊含的語義依賴和順序信息。最后,針對鏈接預測任務,文章設計了一種基于路徑表示與目標關系向量匹配的機制,結合余弦相似度和線性變換完成關系預測與分類。在多個公開知識圖譜數據集上進行實驗,結果表明,基于關系序列表征的方法在MRR、Hit@K等指標上均表現良好,顯示了對關系序列信息建模的有效性與重要性。
關鍵詞:鏈接預測;關系序列;關系路徑表征;關系路徑匹配
中圖分類號:TP301 "文獻標志碼:A
0 引言
知識圖譜作為一種強大的知識表示形式,以結構化的方式整合了海量的實體與關系信息,在信息檢索、智能問答、推薦系統等智能系統中提供了豐富的語義理解基礎。然而,在實際應用中,知識圖譜往往存在不完整性,大量潛在的實體鏈接尚未被發掘,這嚴重限制了其在復雜任務中的效能發揮。因此,知識圖譜鏈接預測成為該領域的一個核心研究熱點,旨在通過已有的知識圖譜結構和信息,精準地推斷出實體之間缺失的鏈接。
近年來,基于語義挖掘的方法在知識圖譜鏈接預測中取得了顯著進展。雙向編碼器表征(Bidirectional Encoder Represen Tations from Transformers, BERT)模型[1]通過大規模語料庫的預訓練,能夠有效地捕捉文本中的語義和語法信息。在知識圖譜中,實體和關系可以自然地映射為文本序列中的元素,BERT的強大表征能力在關系學習中具有較大潛力。但直接應用BERT模型進行知識圖譜鏈接預測仍面臨諸多挑戰。一方面,如何將知識圖譜中的復雜信息有效地轉化為BERT模型能夠理解和處理的輸入形式是一個亟待解決的問題。傳統的路徑表示方法往往難以充分挖掘路徑中蘊含的深層次語義關系,導致BERT模型無法充分發揮其優勢。然而在處理大規模知識圖譜時,計算效率和模型的可擴展性成為制約其應用的關鍵因素。BERT模型本身的復雜性和大規模參數使得訓練和推理過程須要耗費大量的計算資源,在面對海量知識圖譜數據時,容易出現內存溢出和訓練時間過長等問題。
為了應對這些挑戰,本文提出了基于BERT模型的路徑表征優化策略,以實現高效、準確的知識圖譜鏈接預測。本文提出了基于鄰居覆蓋的路徑抽取算法,能夠根據實體的語義相關性和關系的重要性有針對性地選擇路徑,減少冗余信息的干擾;基于BERT的路徑文本化技術,通過引入語義標記和層次化結構,增強BERT模型對路徑信息的理解能力;利用預訓練的語料庫提高計算效率和模型的可擴展性。這些優化措施能夠發揮BERT模型在知識圖譜鏈接預測中的應用潛力。
1 相關工作
在知識圖譜研究領域,知識圖譜的嵌入方法是鏈接預測等任務的重要基礎。TransE模型[2]基于平移假設,即對于三元組(h,r,t),期望h+r≈t,通過最小化損失函數學習實體與關系進行嵌入。其優勢在于模型簡單、參數少且計算效率高,在簡單知識圖譜結構和關系處理中表現尚可。面對復雜關系,就會出現向量空間沖突,難以有效區分不同語義情境下的相同關系。后續模型為解決此問題引入了超平面概念、雙線性乘積等,但無法很好地處理非對稱關系與復雜邏輯關系,表達能力受限。這些經典嵌入模型大多針對單個三元組建模,難以充分利用實體對之間多條路徑的豐富語義信息,限制了鏈接預測性能提升[3]。
BERT能雙向編碼文本,捕捉詞間語義關聯與上下文信息,準確分類。面對開放域問題,BERT能理解用戶提問并在大規模知識庫中搜索答案,無論是直白表述還是含隱喻、同義詞的問題,都能準確提取答案。BERT的成功源于其雙向編碼表示、大規模預訓練及靈活微調策略,能有效捕捉文本語義語法信息且泛化能力強。
目前,知識圖譜中的關系預測主要依賴于學習實體的特定表示或候選關系周圍的子圖結構[4-5]。然而,隨著實體數量的激增,計算復雜度呈指數級增長,從而對關系預測的準確性和效率提出了挑戰。可以將BERT模型的優勢遷移至知識圖譜路徑表征,利用關系路徑上下文信息揭示實體之間可能隱藏的路徑信息,通過關系鏈條揭示實體間的間接聯系和拓撲結構[6]。
2 關系路徑序列語義表征
2.1 問題定義
鏈接預測作為知識圖譜研究的核心任務,旨在預測給定實體對之間可能存在的語義關系。定義E和R分別表示實體集合與關系集合,鏈接預測任務可描述為fθ:E×E→R,其中,θ表示模型的參數。對于任意一對實體h,t,其關聯路徑集合可表示P(h,t)={p1,p2,...,pn},其中每條路徑pn是一系列實體對之間關系構成的序列。
更一般地,對于任意三元組(h,r,t),通過路徑信息P(h,t)的綜合分析,鏈接預測模型的目標是最大化以下目標函數:
argmaxθ∏(h,r,t)∈DP(r|h,t)(1)
針對實體對(h,t),公式(1)對關系類型的分布進行建模。其中,D為訓練集中已知的三元組集合。通過引入路徑序列信息,鏈接預測模型能夠更加準確地挖掘實體對之間的潛在語義關系。
2.1.1 路徑抽取
路徑抽取旨在挖掘目標實體對之間可能存在的語義關聯路徑[7]。對目標實體對(h,t),分別為每個實體h和t構建其鄰居集合,記為N(h)和N(t)。鄰居集合N(e)包含與實體e相連的所有鄰居實體及其關系,用于生成該實體的擴展上下文集合C(e)。對目標實體對(h,t)進行路徑抽取時,綜合利用C(h)和C(e)以捕獲潛在的語義路徑,定義路徑抽取函數為:
g(h,t)={pi|pi={r1,r2,...,rk,1≤i≤n,k=len(pi)}(2)
其中,pi為從h到t的i條路徑;len(pi)為路徑pi的長度。
2.1.2 路徑表示
對于每個關系ri,將其視為一個文本段,記作ti,輸入BERT模型,經過BERT的編碼過程得到一個上下文感知的向量表示為:
Vi=BERT(ti)(3)
其中,Vi為關系ri的向量表示;d為BERT模型的輸出維度。對于每條路徑pi,將其中每個關系的表示Vi組合成一個整體的路徑向量Vpi。路徑向量的組合可以有多種方式,常見的有通過對路徑中所有關系的向量表示取平均來得到,可形式化為:
Vpi=1n∑ni=1Vi(4)
將路徑Pi中所有關系的向量表示Vi按順序拼接,得到最終的路徑向量表示。拼接后的路徑向量Vpi可以表示為:
Vpi=[V1,V2,...,Vn](5)
其中,Vpi為路徑pi的最終向量表示,拼接后的向量維度為n*d,即每個關系向量Vi的維度d乘以路徑Pi中關系的數量n。
關系路徑序列表征模型如圖1所示。
2.1.3 路徑表征學習
首先,由于每條路徑的長度可能不同,需要進行填充操作,使所有序列的長度一致,收集所有的路徑表示作為實體對(h,t)的候選關系序列集合。其次,從集合中隨機抽取路徑,將所有路徑的序列整理成V=[Vp1,Vp2,...,VPn]∈瘙綆n×L×d的形狀。然后,輸入RNN模型,每個時間步t∈[1,L],批次中所有路徑的第t個關系向量輸入LSTM,更新隱藏狀態:
H(t)=fLSTM(X(t),H(t-1)(6)
最后,使用交叉熵損失函數進行訓練優化,訓練時的真實標簽記為Ctrue:
L=-1N∑Ni=1logP(Ctruei|Pi)(10)
3 實驗設置
3.1 數據集
本文實驗采用的數據集是WN18RR和NELL-995標準數據集。WN18RR基于WordNet大型詞匯數據庫構建,結構化存儲單詞及其語義關系,去除了WN18中測試集和訓練集之間的重疊問題,具有更高的評估挑戰性。NELL-995來源于NELL系統,通過自動化學習和知識擴展,涵蓋豐富的語義信息,構建了一個動態更新的知識庫。數據集統計如表1所示。
3.2 評價標準
本文沿用在知識圖譜關系預測任務中廣泛應用的平均倒數排名(MRR)和命中率(Hit@K)。MRR是正確三元組的排名倒數的平均值,更加魯棒,不受極端值影響。命中率衡量正確答案是否出現在預測結果的前K名,常用K值包括 1、5和10,直觀反映模型在不同精度需求下的表現(本文簡寫為HK)。
3.3 實驗結果與分析
本文采用TransE[2]、DistMult[8]、ComplEx[9]、RotatE[10]和pRotatE[10]共5種主流模型對比,實驗結果如表2所示,其中加粗和下劃線的數值表示性能最好的結果。
從表2看出,在WN18RR數據集上,本文模型在評測指標MRR、Hits@1、Hits@5和Hits@10上都取得了最好的結果。在NELL-995數據集上,本文模型取得了較為優異的性能表現,與最優結果差距不大,說明這種融合關系路徑表征的模型確實可以提升知識圖譜關系預測任務的效果。
4 結語
本文提出了一種基于路徑表征優化的知識圖譜關系預測方法,通過結合預訓練語言模型(如BERT)對路徑中的關系序列進行表征,利用序列模型捕捉路徑的全局語義信息。在關系預測階段,通過對路徑表示與目標關系向量進行匹配,驗證了方法在多個標準數據集上的有效性。實驗結果表明,該方法能夠顯著提升鏈接預測的準確率和泛化能力,特別是在復雜語義和稀疏知識圖譜場景下表現出較強的魯棒性。盡管取得了良好的實驗結果,仍存在一些值得探索的方向。首先,路徑表征的質量依賴于數據分布和路徑長度,而在大規模知識圖譜中,如何高效處理長路徑和稀疏路徑仍是一個挑戰。其次,隨著知識圖譜規模的不斷擴大和動態化特性增強,有必要設計高效的在線學習方法,以適應實時更新的知識圖譜,也是未來研究的重點。
參考文獻
[1]DEVLIN J, CHANG M W, LEE K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[C]//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics (NAACL-HLT), 2019, Association for Computational Linguistics, Minneapolis, USA. Stroudsburg, PA: Association for Computational Linguistics, 2019.
[2]BORDES A, USUNIER N, GARCIA-DURAN A, et al. Translating embeddings for modeling multi-relational data[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems (NeurIPS), 2013, Neural Information Processing Systems Foundation, Lake Tahoe, USA. Red Hook, NY: Curran Associates Inc., 2013.
[3]杜雪盈,劉名威,沈立煒,等.面向鏈接預測的知識圖譜表示學習方法綜述[J].軟件學報,2023(1):87-117.
[4]官賽萍,靳小龍,賈巖濤,等.面向知識圖譜的知識推理研究進展[J].軟件學報,2018(10):2966-2994.
[5]徐增林,盛泳潘,賀麗榮,等.知識圖譜技術綜述[J].電子科技大學學報,2016(4):589-606.
[6]岳增營,葉霞,劉睿珩.基于語言模型的預訓練技術研究綜述[J].中文信息學報,2021(9):15-29.
[7]熊凱,杜理,丁效,等.面向文本推理的知識增強預訓練語言模型[J].中文信息學報,2022(12):27-35.
[8]YANG B, YIH W, HE X, et al. Embedding entities and relations for learning and inference in knowledge bases[C]//Proceedings of the 3rd International Conference on Learning Representations (ICLR), 2015, International Conference on Learning Representations, San Diego, USA. International Conference on Learning Representations, 2015.
[9]TROUILLON T, WELBL J, RIEDEL S, et al. Complex embeddings for simple link prediction[C]//Proceedings of the 33rd International Conference on Machine Learning (ICML), 2016, International Machine Learning Society, New York, USA. Brookline, MA: PMLR, 2016.
[10]SUN Z, DENG Z H, NIE J Y, et al. RotatE: knowledge graph embedding by relational rotation in complex space[C]//Proceedings of the 7th International Conference on Learning Representations (ICLR), 2019, International Conference on Learning Representations, New Orleans, USA. International Conference on Learning Representations, 2019.
(編輯 王永超編輯)
Link prediction method based on representation and matching of relational paths
DU" Youping, YIN" Zidu*
(College of Information Science and Technology, Yunnan Normal University, Kunming 650500, China)
Abstract:" Knowledge graph link prediction is an important task in knowledge mining and intelligent information processing. In the article, a new method based on relation sequence characterization is proposed matching to effectively capture semantic information in paths and improve link prediction performance. Specifically, each relation in a path is first deeply encoded by BERT to generate a fine-grained relation representation. Then, the relationship sequence is modeled using LSTM to learn the global path representation, which comprehensively captures the semantic dependency and order information embedded in the path. Finally, for the link prediction task, a mechanism based on matching the path representation with the target relation vectors is designed, combining cosine similarity and linear transformation to accomplish relation prediction and classification. The experiments are conducted on several public knowledge graph datasets, and the results show that the method based on relational sequence characterization performs well on the metrics such as MRR and Hit@K, highlighting the effectiveness and importance of modeling relational sequence information.
Key words: link prediction; relational sequences; relational paths representations; relational paths matching