999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

規則引導的知識圖譜聯合嵌入方法

2021-01-05 03:05:02姚思雨趙天哲王瑞杰
計算機研究與發展 2020年12期
關鍵詞:文本信息模型

姚思雨 趙天哲 王瑞杰,3 劉 均

1(西安交通大學計算機科學與技術學院 西安 710049)

2(陜西省天地網技術重點實驗室(西安交通大學) 西安 710049)

3(蘇黎世大學計算機科學系 瑞士 8050)

近年來,由于具有表達能力強、歧義性低、模式統一、且支持推理等優點,知識圖譜已被廣泛用于組織和發布各領域的結構化數據.通常,知識圖譜由實體、實體所具有的屬性以及實體間的關系所組成.例如,其中可能包含有實體中國、關系首都以及實體屬性“China”. 如圖1所示,知識圖譜的基礎構成則是描述2個實體之間的關系或實體及其屬性之間關系的三元組,如(中國,首都,北京)、(中國,英語標簽,“China”).

Fig. 1 Several triples which contain the entity Beijing and the related literals圖1 包含實體“北京”的若干三元組及文本信息

目前,知識圖譜已被廣泛應用在智能問答[1]、推薦系統[2]和信息檢索[3]等任務中,其突出表現在學術與工業界均獲得了廣泛關注[4].但是,受益于知識圖譜所包含豐富信息的同時,其龐大的規模與數據稀疏性問題也給知識圖譜的應用帶來了挑戰.例如,Freebase[5], Yago[6]和Dbpedia[7]等開放領域知識圖譜中通常包含有數百萬個實體,以及上億條描述實體關系的三元組.將子圖匹配等傳統圖算法應用在這些大規模知識圖譜上往往存在計算低效性問題.為此,研究人員提出了知識圖譜嵌入學習模型(knowledge graph embedding learning model),將知識圖譜映射到低維、連續的向量空間中,學習實體與關系的嵌入表示[8].

通過設計特定的表示學習機制,知識圖譜的結構和語義等信息可被編碼在所學習到的嵌入表示中.一方面,原本需要對大規模知識圖譜進行頻繁訪問的操作,例如結構化查詢構建(structured query construction)[9]、邏輯查詢執行(logical query pro-cessing)[10]和查詢放縮(query relaxation)[11],均可在所學習到的嵌入表示空間中通過數值計算完成,極大地提高了效率.另一方面,知識圖譜的嵌入學習提供了一種抽取并高效表示知識圖譜特征信息的方法,類似于自然語言處理領域中被廣泛應用的詞嵌入(word embedding),知識圖譜的嵌入表示也為基于知識圖譜的深度學習工作提供了極大的便利.

現有知識圖譜嵌入學習模型大多僅關注知識圖譜中以三元組表示的結構信息.例如,Bordes等人提出了基于翻譯機制(translation mechanism)的TransE模型[12],其目標任務為鏈接預測(link prediction)與三元組分類(triple classification),概括而言就是判斷知識圖譜中給定的2個實體之間是否存在某個關系.因此TransE模型僅關注所學習到的嵌入表示對單條三元組結構信息的編碼,其在嵌入學習過程中將知識圖譜簡化為互不相關的三元組的有限集合.因此,TransE及其后續改進模型[13-16]對知識圖譜中上下文信息的編碼能力非常弱,很難應用于語義相關的任務.針對這一問題,相繼有一些基于上下文信息的嵌入表示模型被提出,如GAKE[17], RDF2Vec[18].但是它們仍然僅關注知識圖譜中由子圖、路徑等結構所表示的上下文信息.例如,在學習圖1中實體北京的嵌入表示時,上述方法僅關注(中國,首都,北京)與(北京,位于,華北)等描述實體間關系的三元組,而忽略了北京的簡介、英文標簽等文本信息.顯然,文本信息的缺失限制了所學到嵌入表示對語義信息的表達.

為解決這一問題,本文提出了一種規則引導的知識圖譜聯合嵌入學習模型.受Vashishth等人[19]所提出的圖卷積網絡啟發,模型首先通過多關系型圖卷積將實體在知識圖譜中的上下文信息編碼到實體的嵌入表示中.與Vashishth等人的工作所不同的是,本文認為實體的多條上下文信息應該具有不同的重要程度,并且某條上下文信息的重要程度取決于2個因素:該條上下文信息的置信度,以及其相對于實體的關聯度.為此,本文提出了一條簡單有效的規則引導上下文信息置信度的計算,并基于知識圖譜中的文本信息表示提出了實體與其上下文信息之間關聯度的計算方法.最后,模型將圖卷積網絡所編碼的嵌入表示與文本信息的向量表示整合,以鏈接預測任務的結果作為訓練目標,學習知識圖譜中實體與關系的嵌入表示.

本文貢獻主要體現在3個方面:

1) 基于圖卷積網絡,創新地提出了一種聯合考慮知識圖譜中上下文信息與文本信息,由規則引導的嵌入表示學習模型.

2) 針對上下文信息在圖卷積中的重要程度,提出了應用規則以及知識圖譜中文本信息來計算單條上下文信息置信度與關聯度的新方法.

3) 在基準數據集上進行了充分的實驗,并與相關的知識圖譜嵌入學習方法進行了對比,實驗結果驗證了本文模型的有效性.

1 相關工作

本節對與本文工作較相關的知識圖譜嵌入學習模型進行介紹,由于本文所提出的模型是基于圖神經網絡的,因此分別介紹基于圖神經網絡的知識圖譜嵌入學習模型和其他非圖神經網絡的嵌入學習模型.

1.1 基于圖神經網絡的模型

基于圖神經網絡的模型主要包括R-GCN[20], W-GCN[21], CompGCN[19]等.該類模型通常將圖卷積網絡作為編碼器,對圖結構數據進行編碼,并結合對應的解碼器進行知識圖譜上的鏈接預測、節點分類等任務.在R-GCN中,每層網絡中節點與關系的特征利用權重矩陣進行計算,并通過領域聚合的方式傳遞至后續網絡層.具體而言,R-GCN利用基分解和塊對角分解構造特定關系的權重矩陣,以處理不同類型的鄰居關系,將其與鄰居節點信息進行融合,并傳遞到目標實體上進行更新.W-GCN在圖卷積網絡聚合過程中為每個權重矩陣分配可學習的權重參數,使模型獲得更優的實體嵌入表示.CompGCN則提出了針對中心節點的領域信息聚合方法,在理論上使用多種“實體-關系”組合算法對當前主流的基于多關系的圖卷積網絡模型進行了概括.

1.2 非圖神經網絡的模型

非圖神經網絡的嵌入學習模型類別較多,主要包括基于翻譯機制的模型,如TransE[12]及其后續改進模型,包括TransH[13],TransR[14],TransD[15],TransAH[16],基于上下文信息的模型,如GAKE[17],RDF2Vec[18],基于張量分解的模型,如ComplEx[22],RESCAL[23].

其中,基于翻譯機制的模型應用較為廣泛.該類模型通常僅關注知識圖譜的結構信息,將實體之間的關系表示為嵌入向量空間中的某種翻譯操作(translation operation).以TransE為例,其將知識圖譜中的實體與關系都表示在同一個低維歐幾里得空間中,以向量表示一個實體或關系.具體而言,對于知識圖譜中的一條三元組(h,r,t),TransE 將其中的關系r看作在歐幾里得空間中從頭實體h到尾實體t的平移操作,即其期望頭實體所對應的向量h經過關系所對應的向量r的平移操作后可以非常逼近尾實體所對應的向量t,即h+r≈t.

TransE的翻譯機制較為簡單,因此可以高效地應用于大規模知識圖譜,但同時又限制了其模型的表達能力,使其難以處理一對多、多對一以及多對多類型的復雜關系[14].為解決這一問題,TransE之后相繼有一些翻譯機制更加復雜的模型被提出.例如,TransH[15]相對于所給定三元組中關系的超平面空間設計翻譯機制,TransR[16]則針對知識圖譜中的每一個關系額外學習一個矩陣,借助該矩陣將頭、尾實體通過線性變換映射到相應的關系向量空間中,然后再計算其翻譯機制的損失值.

2 聯合嵌入表示學習

本節首先對知識圖譜嵌入學習問題進行形式化定義,介紹相關概念的符號表示,然后詳細介紹所提出的規則引導的聯合嵌入學習模型.

2.1 問題定義

2.2 模型整體架構

對于置信度計算,本文針對上下文信息中所包含的關系提出一條簡單有效的規則,并基于該規則在嵌入學習之前預先計算特定于一對關系的置信度矩陣C,并在圖卷積過程中利用該矩陣計算某條上下文信息的置信度,如圖2中標有置信度計算的虛線所示.

Fig. 2 An overview of the core part of the model圖2 模型核心部分框架圖

對于關聯度計算,本文首先利用預訓練語言模型對知識圖譜中實體與關系的文本信息進行編碼.如圖2所示,對于實體eh與關系ri的文本leh與lri,它們的文本向量分別記為Leh與Lri.本文基于實體與關系的文本向量表示計算單條上下文信息與其對應實體之間的關聯度,如圖2中標有關聯度計算的虛線所示.

值得一提的是,本文所提出的模型采用“編碼器-解碼器”框架(encoder-decoder).上述基于圖卷積網絡的上下文信息編碼即為編碼器的主要內容.除此之外,編碼器還將上述過程學習到的實體與關系的嵌入表示與它們的文本表示相結合.本文模型的解碼器則主要基于ConvE模型[24]實現.下面對模型的細節進行詳細的介紹.

2.3 編碼器

(1)

(2)

本文利用實體與關系的文本表示計算對于某一實體而言,其單條上下文信息的關聯度.如圖2所示,實體eh的一條鄰居三元組為(eh,ri,eti),本文計算參數βi與γi來度量該條鄰居三元組所表示的上下文信息與eh之間的關聯度,具體公式為:

(3)

(4)

基于圖卷積網絡的嵌入更新.本文采用Vashishth等人所提出的CompGCN[19]模型作為圖卷積網絡的架構,對知識圖譜上下文信息進行編碼.

(5)

αi=λ1βi+λ2γi,

(6)

(7)

(8)

(9)

e=e+Le,

(10)

r=r+Lr.

(11)

2.4 解碼器

(12)

其中,[·]表示相連接,ω表示卷積過濾器,vec(·)為ConvE所定義的維度變換,Wcov為參數矩陣,f′(·)為非線性函數.當式(12)計算得到的分數值越高,(eh,r,et)越有可能是正確的三元組.

3 實 驗

本節首先對實驗所使用的數據集、對比模型和評價指標等進行說明,然后介紹本文所提模型的實驗結果,并與其他基準模型進行比較與分析.

3.1 數據集及對比模型介紹

本文在2個廣泛使用的數據集上進行試驗,分別是FB15K-237[27]和WN18[12],其統計數據如表1所示:

Table 1 Summary Statistics of Knowledge Graphs表1 數據集的統計信息

為驗證所提模型的有效性,本文廣泛選取了當前被應用較多的知識圖譜嵌入學習模型作為對比方法,具體包括TransE[11],DistMult[28],ComplEx[22],R-GCN[20],KBGAN[29],ConvE[24],ConvKB[30],SACN[21],HypER[31],RotatE[32],ConvR[33],VR-GCN[34],CompGCN[19].其中,TransE[11]為基于翻譯機制的嵌入學習模型,上文已對其進行了詳細介紹.DistMult[28]將實體表示為通過神經網絡學習到的低維向量,將關系表示為雙線性或線性映射函數.ComplEx[22]與RESCAL[23]模型類似,屬于基于矩陣/張量分解進行鏈接預測的模型.R-GCN[20],VR-GCN[34]與CompGCN[19]屬于基于圖卷積網絡的嵌入表示模型,以R-GCN[20]為例,其將知識圖譜中的關系編碼為矩陣,通過關系矩陣傳遞相鄰實體的嵌入信息,并采用了多層圖卷積網絡.KBGAN則應用了對抗生成網絡(generative adversarial network, GAN),在訓練過程中生成更具迷惑性的負例來提高嵌入表示的訓練效果.本文應用了ConvE[24]模型作為解碼器,在第2節中對其進行了詳細介紹.ConvKB[30],ConvR[33],SACN[21]與HypER[31]均是基于卷積神經網絡的方法.以HypER[31]為例,其可以生成簡化的與關系相關的卷積過濾器,且可被構造為張量分解.RotatE[32]與TransE[11]等基于翻譯機制的模型類似,其將實體之間的關系表示為向量空間中從頭實體到尾實體的旋轉.

3.2 評價方法說明

最后采用MR(mean rank),MRR(mean reciprocal rank)和Hit@k作為評價指標[12].其中,MR與MRR均為預測結果平均排名的指標,Hit@k則指預測結果排在前k名中的比例,本文具體采用Hit@10,Hit@3和Hit@1.總之,越好的預測結果,其MR值越低、MRR值越高、Hit@k也越高.

3.3 實驗設置

本文實驗代碼使用Python實現,在配置Ubuntu 16.04.6 LTS操作系統的服務器上完成,其CPU配置為16核Intel Core i7-6900K 3.20 GHz, 內存128 GB,GPU配置為4張GeForce GTX 1080 GPU卡.

對于實體和關系文本表示向量的編碼,本文借助pretrained-bert-base-uncased預訓練模型(1)https://github.com/google-research/bert,文本向量初始維度為768,轉換后的維度為200.在圖卷積網絡中,實體和關系的初始化向量維度為100,即d=100,GCN的維度為200,即d′=200.解碼器中維度轉換的高度和寬度分別為10和20,卷積過濾器的大小為7×7,數量為200.利用Adam優化器對整體模型進行訓練,批大小(batch size)為256,學習率(learning rate)為0.001.

本文對TransE模型進行了復現,其余模型則引用對比模型論文中所報告的結果.

3.4 實驗結果分析

表2報告了本文模型與對比模型在鏈接預測任務中的實驗結果.

通過表2可觀察到如下結果:

1) 本文模型在各個評價指標上顯著優于TransE,DistMult和ComplEx等基準模型,與SACN,HypER和CompGCN等最新提出的模型十分接近,由此可證明本文模型的有效性.對于FB15K-237數據集,本文在Hit@10指標上排名第一.

2) 在Hit@1和Hit@3指標上也與CompGCN,ConvR,SACN相差極小.具體在Hit@1指標上僅比最高的CompGCN低1.51%,在MRR指標上與CompGCN相比僅低0.8%.而對于WN18數據集,本文模型在MR指標上排名第一,在Hit@10和Hit@3指標上也與第一名差距微小.具體在Hit@10指標上比RotatE低0.2%,在Hit@3指標上比ConvR和HypER僅低0.9%.

3) 基于圖神經網絡的嵌入學習方法的表現普遍優于TransE等僅關注結構化信息的模型.就本文模型而言,由于其基于圖卷積網絡對知識圖譜的上下文信息與文本信息進行了聯合嵌入表示,顯著提高了在鏈接預測任務中的表現.

Table 2 Link Prediction Results on FB15K-237 and WN18表2 鏈接預測在FB15K-237和WN18上的結果

4 總 結

現有多數知識圖譜嵌入學習方法僅考慮由三元組表示的知識圖譜結構信息,而忽視了知識圖譜中豐富的上下文信息與文本信息,限制了嵌入表示在鏈接預測等任務中的表現.針對現有方法的這一局限性,本文提出一種利用圖卷積神經網絡,結合知識圖譜的上下文信息與文本信息學習嵌入表示的方法.為了對上下文信息的重要程度進行細粒度分析,本文提出一條簡單有效的規則來計算上下文信息的置信度,并基于文本信息的向量表示提出計算上下文信息關聯度的方法,加強了對上下文信息的約束和引導.最后,通過在2個廣泛使用的基準數據集上進行對比實驗,驗證了本文模型的有效性.

猜你喜歡
文本信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 视频一区视频二区中文精品| 四虎国产精品永久一区| 亚洲色婷婷一区二区| 国产高清在线精品一区二区三区| 久久精品91麻豆| 亚洲性影院| 老司机精品99在线播放| 亚洲最黄视频| 99爱视频精品免视看| 国产成人精品高清在线| 人妻少妇乱子伦精品无码专区毛片| 欧洲亚洲欧美国产日本高清| 草草线在成年免费视频2| 中文字幕无码制服中字| 99re在线免费视频| 青青国产成人免费精品视频| 女人18毛片一级毛片在线 | 国产成人a毛片在线| 中文国产成人精品久久| 国产18在线播放| 精品久久久久久中文字幕女| 国产女人水多毛片18| 在线网站18禁| 欧美日韩动态图| 蜜桃视频一区| 亚洲国产精品一区二区高清无码久久| 日韩 欧美 小说 综合网 另类| 青青草欧美| 久久99热66这里只有精品一| 久久99国产乱子伦精品免| 日韩av高清无码一区二区三区| 国产免费久久精品99re不卡| 一级毛片免费观看不卡视频| 日本人又色又爽的视频| 91网址在线播放| 欧亚日韩Av| 欧美啪啪精品| 国产永久免费视频m3u8| 精品在线免费播放| 色AV色 综合网站| 国产一级妓女av网站| 国产剧情一区二区| 日本久久网站| 欧美a级在线| 亚洲三级色| 亚洲综合久久一本伊一区| 欧美特级AAAAAA视频免费观看| 国产女人在线观看| 激情综合五月网| 亚洲综合极品香蕉久久网| 色香蕉影院| 农村乱人伦一区二区| 麻豆AV网站免费进入| 成人福利视频网| 日韩在线播放中文字幕| 国产在线一区视频| 欧美特黄一免在线观看| www.精品视频| 国产清纯在线一区二区WWW| 亚洲床戏一区| 欧美性精品| 青草视频网站在线观看| 国产精品亚洲一区二区三区z| 国产内射在线观看| 午夜国产大片免费观看| 国产精品香蕉| 国产永久在线视频| 欧美午夜小视频| 又粗又大又爽又紧免费视频| 亚洲无码熟妇人妻AV在线| 日韩精品一区二区三区免费在线观看| 午夜在线不卡| 欧美精品一区二区三区中文字幕| 色婷婷视频在线| 欧美a在线看| 国产女同自拍视频| 色婷婷综合激情视频免费看| 九九线精品视频在线观看| 亚洲狼网站狼狼鲁亚洲下载| 久久亚洲日本不卡一区二区| 欧美国产日韩一区二区三区精品影视| 国产精品极品美女自在线网站|