999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于嵌入的實體對齊技術對比研究

2022-07-17 09:45:20張云霄朱曉敏
大連民族大學學報 2022年3期
關鍵詞:信息模型

徐 漫,劉 爽,張云霄,朱曉敏

(大連民族大學 計算機科學與工程學院,遼寧 大連116650)

目前,世界上存在很多不同的知識庫,通用知識庫(如DBpedia[1]、YAGO[2]、Freebase[3])和特定領域的知識庫(如醫學[4]和科學知識庫[5])。這些知識庫被應用于各種下游應用當中,如搜索[6]、問答[7]、推薦[8]等。這些豐富的知識庫為不同的人工智能應用提供了堅實基礎。

然而,由于知識庫是有單一的數據源獨立構造的,其收集知識的側重點不同,對于同一個對象的描述就會產生差異,一部分知識圖譜的知識可能側重于某個方面上的描述,另一部分知識圖譜可能側重于的是該實體與其他實體之間關系的描述。即分類不同、屬性表述方式不同等,導致當前的知識庫仍然存在覆蓋面不全、偏領域化、數據不夠豐富等問題。單個知識圖譜很難滿足下游應用的各種知識需求,而人工構建知識庫難度大、出錯多、更新慢、成本高等問題,針對這種情況,如果能在現有知識庫基礎上進行數據融合從而形成一個覆蓋全面的知識庫,這就是知識融合的研究內容。通過整合來自其他知識庫的知識,這些知識可能包含額外或補充信息來提高完整性。實體對齊(Entity Alignment,EA)就是知識融合中的關鍵技術。

實體對齊任務也稱為實體匹配或實體解析,它目的是連接不同知識庫中潛在的等價實體,這些等價實體在語義上表示的是真實世界中的同一個對象。例如DBpedia中的珠穆朗瑪峰和Wikidata[9]中的Q513均指向為世界最高峰珠穆朗瑪。這些事實可以通過對齊的實體進行融合,將DBpedia知識庫和Wikidata知識庫中的實體連接起來,就可以得到針對珠穆朗瑪峰這一實體更加豐富的信息描述。

1 問題描述

早期的實體對齊主要使用人工標注、基于本體語言中明確定義的等價關系的推理或基于相似度計算的模型來獲取兩個知識庫的等效實體對[10]。然而隨著知識庫規模不斷擴大,人工標注的方法變得十分困難。尤其是面對獨立構建的知識圖之間的結構異質性時,自動提取等價實體的方法能夠得到一個更好的效果。本文將對實體對齊過程和最近幾年出現的基于嵌入的實體對齊算法進行總結。

1.1 問題定義

給定兩個異構的知識圖譜為G1和G2,表示為

G1=(E1,R1,A1,T1),G2=(E2,R2,A2,T2)。

(1)

其中,E、R、A、V、T分別表示知識圖譜實體集合、關系集合、屬性集合、三元組集合。

定義實體e的相鄰實體集合為Ne,即與實體直接相連并形成事實三元組的實體集的鄰居實體為

Ne={e′|(e,r,e′)∈T}∪{e′|(e′,r,e)∈T},T=T1∪T2。

(2)

定義已經存在對齊關系的實體對為

S={(e1,e2)∈E1×E2|e1?e2},e1∈G1,e2∈G2。

(3)

其中“?”表示符號兩端的實體為等價實體,S也被稱為種子對集合。

1.2 模塊分類

實體對齊過程可以簡單劃分為四個模塊:實體嵌入模塊,對齊模塊,預測模塊,其他信息模塊如圖1。

圖1 實體對齊過程

實體嵌入模塊:將不同的知識圖譜中的實體嵌入到向量空間當中,以學習它們的實體嵌入表示,分為基于知識圖譜表示模型,如TransE[11]和基于圖神經網絡的模型,如圖卷積網絡(GCN)[12]。

對齊模塊:根據上一模塊得到的實體嵌入向量映射到統一的空間中,強制將來自不同知識圖譜的種子實體嵌入,得到更為接近的距離。

預測模塊:預測最有可能的目標實體,通過距離排行選擇排名靠前的候選實體,常用的距離算法包括余弦相似性、曼哈頓距離、歐氏距離。距離越遠,實體對越不可能對齊;相反距離越小,實體對越可能是等價實體。該模塊得到的是實體對正確匹配的概率。

其他信息模塊:利用除了對齊任務中的知識圖譜以外的信息來增加實體對齊模型的性能。一種是自舉策略,上一個對齊結果作為之后的迭代訓練數據;也可以是其他有關于待匹配實體的信息描述,比如某實體的相關屬性信息或者是實體名稱。

圖1中“統一向量空間”代表基于實體嵌入的實體對齊模型通常三種不同的嵌入方式,第一種:在模型訓練之前通過預先對齊的種子對進行知識圖譜的合并,再對這個知識圖譜進行表示學習實現實體嵌入。2016年Hao等人提出的JE[13]是這方面的首批嘗試之一。它學習在統一向量空間中不同知識圖譜的嵌入,在該空間中可以執行實體對齊;第二種:對兩個不同的知識圖譜分別進行實體嵌入的學習,并將其投影映射到不同的向量空間中,通過已經對齊的實體訓練出兩個向量空間的轉換;第三種:直接將不同的知識圖譜嵌入到同一個向量空間當中,潛在的實體對會得到一個近似的表示。

2 實體對齊算法

基于嵌入的實體對齊算法模型可以分為基于TransE的實體對齊方法和基于圖卷積神經網絡(GCN)的實體對齊方法模型。它們根據實體的語義信息或結構信息,將知識圖譜中的每個實體表示為一個低維向量,通過計算這些實體之間的相似性,已找到等效實體。

2.1 基于TransE的模型

TransE是一種典型且有效的知識表示學習的平移模型,它受word2vec平移不變性的啟發,將知識圖譜中的關系表示為頭實體和尾實體在學習的低維表示上操作的翻譯。

提出假設:

h+r≈t。

(4)

式中:h表示知識圖譜中的頭實體向量;t表示知識圖譜中的尾實體向量;r表示知識圖譜中的關系向量如圖2。并且為了控制偏差損失,引入對應的負樣本,即對正樣本三元組中的實體和關系進行替換。

圖2 TransE模型

因此,TransE模型可以保留實體的結構信息,存在共享或相似的鄰居的實體將在嵌入的空間中得到相似的表示。Chen等人在2017年提出的MTransE[14]模型是一個基于翻譯的跨語言知識圖譜表示學習模型,是對TransE模型在跨語言領域的一個改進。

2.1.1 融合屬性的模型

JAPE[15]模型與其他模型不同點在于它在統一的嵌入空間中學習實體的嵌入和不同知識圖譜之間關系的同時它還嵌入屬性,并利用屬性相關性優化實體嵌入。是一種用于跨語言實體對齊的聯合屬性保留嵌入模型。然而,當屬性異構且知識圖譜之間的相關性模糊時,屬性嵌入的有效性將會被大大降低。2019年提出的AttrE[16]模型也使用到實體屬性的相關信息,它利用知識圖譜中存在的大量屬性三元組,生成屬性字符嵌入。但是AttrE并未對屬性值的類型進行區分計算相似度,模型會由于屬性的多樣性而限制性能。

2.1.2 基于迭代的模型

2017年Zhu等人提出的IPTransE[17]模型是基于路徑的嵌入利用跨越路徑的關系之間的長程依賴信息 的方法。它使用了參數共享和迭代的策略,通過新發現的匹配實體來繼續促進發現新的潛在匹配實體對。為了緩解迭代過程產生誤差累積的情況使用為置信度低的種子分配更小的權重的方法。但是該模型只考慮知識圖譜的內部結構信息來進行嵌入學習。2018年提出的BootEA[18]模型是一個同樣采用迭代策略的半監督實體對齊的方法,將實體對齊建模為一個分類問題,尋求最大化基于知識圖譜嵌入的所有標記和未標記的實體對齊的可能性,采用截斷均勻負采樣方法提高對準性能。不同于IPTransE的是它通過可以對已發現的匹配實體進行編輯或刪除的方法來解決迭代在傳播中的誤差累積問題。

這些基于TransE的模型能夠對知識圖譜的實體和關系進行編碼,但是它們更強調的是實體嵌入,忽略了關系嵌入對實體對齊的影響,它們的訓練依賴于三元組或預對齊關系,但是為大型知識庫構建種子對齊的成本很高,這就在一定程度上限制了這類模型的使用。

2.2 基于GCN的模型

圖卷積網絡(GCN)是一種直接對圖結構數據進行操作的卷積網絡。它的本質是用來提取拓撲圖的空間特征通過編碼節點鄰域的信息來生成節點級嵌入。GCN的核心思想是利用邊的信息對節點信息進行聚合從而生成新的節點表示。GCN模型通常包含多個堆疊的GCN層,因此它可以通過在層間的信息傳播來捕獲距離實體多跳的部分知識圖譜結構。

2.2.1 融合關系的模型

基于GCN的模型會忽略到知識庫中的關系信息,Bordes等人針對這一問題提出了RGCN[19]模型來處理知識庫中實體之間的不同關系,使用權值共享和系數約束的策略使得模型可以應用到關系眾多的網絡中去。但是RGCN的關系嵌入是對每一個關系產生相應的權重矩陣,需要大量的學習參數,進而RGCN模型會有大量難以訓練的參數,并且大量的參數也會導致模型產生過擬合的問題。AVR-GCN[20]模型使用到了類似于TransE的關系特定翻譯操作擴展了RGCN,其中關系向量是根據尾實體表示轉換得到,但是特定的關系翻譯和RGCN引入了高復雜度,再次增加了訓練參數時的開銷。

2019年Wu提出的RDGCN[21]模型引入了對偶關系圖來增強普通GCN,在關系信息上進行改進,受到雙原始圖卷積神經網絡(DPGCNN)的啟發,在原始實體圖和對偶關系圖之間進行多次積極交互,將復雜的關系信息和并到實體表示中,進一步整合了鄰域結構信息。同年提出的HGCN[22]模型提出一種新的聯合學習實體和關系信息的方式,模型中的關系對齊部分是無監督學習,不需要預先對齊的關系對,并通過迭代的方式不斷學習二者的嵌入表示。上述的模型考慮到了關系來進行實體對齊任務的增強。

2.2.2 融合屬性的模型

與基于TransE模型一樣,基于GCN的模型中也存在考慮到屬性的算法。GCN-Align[23]和GMNN[24]模型都是基于普通得GCN構建的。GCN-Align提出了一種通過圖卷積網絡進行跨語言知識圖譜對齊的新方法,給定一組預先對齊的實體,使用GCN將每種語言的實體嵌入到統一的向量空間中。嵌入可以從實體的結構和屬性信息中學習,并且結構嵌入和屬性嵌入的結果被組合以獲得精確的對齊。

HMAN[25]模型和AttrGNN[26]模型,AttrGNN模型的特點在于將關系三元組和屬性三元組一同建模,其將屬性進行分類,考慮到屬性信息的多樣性和不同重要性。而HMAN模型,研究了實體的結構、關系、屬性和實體描述,并使用Bert來彌補跨語言的差距,但是實體的文字描述有時是不可用的,需要更好地捕獲結構化知識。

2.2.3 改進鄰域或子圖匹配的模型

AliNet[27]模型,通過使用注意機制和門控策略來多對跳鄰居進行選擇以此改進GCN。這些方法試圖利用結構和鄰域信息來學習更好的實體表示。然而,在聚合信息時,它假設實體的所有一跳鄰居都同等重要。導致AliNet模型中引入噪聲降低模型性能。

2020年提出的NMN[28]模型就對于一跳鄰居進行了篩選,NMN模型受到圖匹配網絡的啟發,設計了交叉圖鄰域匹配模塊,使用了一種新的圖采樣方法來提取實體的判別鄰域和交叉圖鄰域匹配策略,首先尋找對于中心實體信息量最大的鄰域,然后通過注意力機制來聯合比較兩個鑒別子圖獲取其中的鄰域差異。

之前提到的GMNN模型也是使用到了子圖匹配的策略,將實體對齊任務表述為圖匹配過程。引入了主題實體圖和實體的局部子圖,通過知識圖譜中的上下文信息來表示實體。這兩種通過子圖的匹配算法,僅對相鄰實體進行比較,而忽略在子圖匹配中同樣重要的連通關系。RNM[29]模型就此改進,為關系感知鄰域匹配模型,在子圖匹配時從連接關系中挖掘有用信息,關系的語義信息和映射特性。它的實體和關系是迭代對齊的,以半監督的方式利用實體對齊和關系對齊的交互作用,相互增強。

2.2.4 其他模型

MuGNN[30]注意到知識圖譜的結構不完整性,提出了基于規則的知識圖譜補全和多通道GNN[31]的兩步實體對齊方法。在多個通道分別使用GNN嵌入并通過不同的加權方案編碼知識圖譜,然而,學習到的規則依賴于關系對齊來解決模式異構性,這可能會導致訓練數據標記的開銷高昂。

為了實體對齊性能的提高,上述模型中大部分在實體嵌入模塊中使用了實體名稱作為學習實體表示的輸入特征。AttrE、AliNet、RDGCN、HGCN、NMN、RNM、AttrGNN等均使用預訓練實體名稱的方式進行初始化。實體對齊模型特征見表1。

表1 實體對齊模型特征

3 實驗設置

3.1 數據集

實體對齊任務中具有代表性的數據集。

DBP15K:該數據集從DBpedia中提取的多語言數據對組成:中文對英文(DBP15KZH_EN)、日文對英文(DBP15KJA_EN)、法文對英文(DBP15KFR_EN)。每組包含15000個跨語言鏈接。

DWY100K:該數據集從DBpdeia、Wikidata、Yago3中提取的單語言數據對組成:DWY100K-DBP_WD、DWY100K-DBP_YG。每組包含100 000個實體對。

DBP100K:該數據集從DBpedia中提取的多語言數據對組成:中文對英文(DBP15KZH_EN)、日文對英文(DBP15KJA_EN)、法文對英文(DBP15KFR_EN)。每組包含100 000個跨語言鏈接。

三種數據集中的信息描述見表2。

表2 數據集信息說明

3.2 評估指標

常用于實體對齊任務的評估指標如下:

Hits@k,(k=1,10):目標實體與源實體的距離分數按升序排列,Hits@k反映的是前K個目標實體種能與源實體正確對齊的百分比。其中,Hits@1表示對齊結果的準確度,是最重要的指標。值越大,模型性能效果越好。

(5)

其中,∏ (·)是indicator函數,若條件為真則函數值為1 ,否則為0。

MR(Mean Rank):計算在測試集里,平均到第多少個才能匹配到正確的結果,值越小代表效果越好。

(6)

式中:S是三元組集合;|S|是三元組集合個數;ranki是指第i個三元組的鏈接預測排名。

MRR(Mean Reciprocal Ranking)國際上通用的對搜索算法進行評價的機制,即第一個結果匹配,分數為1,第二個結果匹配分數為0.5,第n個結果匹配分數為1/n,如果沒有結果匹配的分數為0。最終的分數為所有得分之和。值越大代表效果越好。

(7)

式中:S是三元組集合;|S|是三元組集合個數;ranki是指第i個三元組的鏈接預測排名。

3.3 模型比較

將文中提到的實體對齊模型性能進行統一對比見表3。

表3 模型性能對比

從表3中各種模型的性能對比可以看出,在僅使用知識圖譜結構的方法中NMN模型得到了最優性能,是因為它對中心實體的鄰居們進行了篩選,留下對于中心實體影響較大的鄰居實體,提高的實體嵌入表示的有效性。

在使用結構信息和關系信息的模型中,RNM模型得到了最好的結果,是因為其將實體對齊和關系對齊進行了積極的交互,相互更新。

在使用到屬性三元組的方法中AttrGNN模型達到了最高的效果,是因為該模型對屬性值進行了分類,使用了不同的相似度方法進行分別計算,提高了對屬性信息的利用效果。

近年來的實體對齊模型中大多都使用了實體名稱來進行預訓練,因為很多實體對就具有非常相似的實體名稱,以及迭代的策略,在對齊的過程中對實體表示進行不斷的優化。

因此融合屬性與關系信息可以在很大程度上提升模型的性能,運用實體名稱或者使用迭代策略也可以促進整個過程。

4 結 語

實體對齊是整合人類知識,擴大知識庫覆蓋面的關鍵環節,已經有許多學者從各個方面進行深入研究。本文介紹總結了這些相關工作,對這些方法進行分類歸納研究,并對未來實體對齊的發展方向進行分析。

當前的方法都需要種子對齊來進行監督訓練,在實際中,構建種子對齊往往十分困難。因此,研究無監督的實體對齊方法十分有意義,無監督的實現可能會借助于外部輔助資源或者是類似于GAN[32]的對抗性訓練。

通過研究發現在實體對齊的過程中使用迭代策略是有效的,但其中存在的錯誤傳播問題會在迭代的過程中逐漸累積,放大負面影響。因此可以在迭代的過程中進行新的設計,盡可能減小錯誤產生。

在實際應用中,只有少部分的實體與其他實體之間的關系足夠緊密,大部分實體的鄰域結構處于稀疏的狀態,這些長尾實體對齊對于整個過程是十分重要的,如何利用側面信息來對實體結構進行補全有待研究。與此同時并不是每一個源實體在待匹配的知識庫中都存在相應的目標實體,即它可能無法匹配到實體,對于這種問題也有待解決。

猜你喜歡
信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
一個相似模型的應用
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 无码中文字幕乱码免费2| 日本欧美视频在线观看| 日本尹人综合香蕉在线观看| 99偷拍视频精品一区二区| 自拍偷拍一区| 精品国产91爱| 亚洲天堂首页| 2019年国产精品自拍不卡| 玖玖免费视频在线观看| 91探花国产综合在线精品| 国产成人禁片在线观看| 亚洲电影天堂在线国语对白| 在线观看国产网址你懂的| 91国内在线观看| 视频二区国产精品职场同事| 免费日韩在线视频| 国产成人1024精品| 国产国拍精品视频免费看| 无码精品一区二区久久久| 国产欧美视频一区二区三区| 二级毛片免费观看全程| 国产精品一区二区不卡的视频| 狠狠干欧美| 日韩高清欧美| 久久男人视频| 国产丝袜无码一区二区视频| 色爽网免费视频| 久久成人免费| 色偷偷av男人的天堂不卡| 97视频精品全国免费观看| 国产精品部在线观看| 在线人成精品免费视频| 欧美高清视频一区二区三区| 波多野结衣久久高清免费| 国产亚洲精品97在线观看| 美臀人妻中出中文字幕在线| 精品国产美女福到在线不卡f| 精品丝袜美腿国产一区| 亚洲码一区二区三区| 午夜在线不卡| a级毛片视频免费观看| 欧美日韩国产高清一区二区三区| 久久美女精品| 欧美综合区自拍亚洲综合绿色 | 亚洲国产成人久久精品软件| 国产91线观看| 欧美亚洲激情| 无码视频国产精品一区二区| 亚洲av无码成人专区| 午夜无码一区二区三区在线app| 亚洲综合婷婷激情| 88av在线| 激情视频综合网| 国产精品真实对白精彩久久| 国产又爽又黄无遮挡免费观看 | 国产成人精品亚洲77美色| 91精品视频网站| 香蕉久人久人青草青草| 成人福利免费在线观看| 国产粉嫩粉嫩的18在线播放91| 日韩在线视频网| 无码国产偷倩在线播放老年人| 91啦中文字幕| 99视频在线观看免费| 另类欧美日韩| 8090成人午夜精品| 操国产美女| 国产精品第5页| 美女被操91视频| 日韩国产一区二区三区无码| 精品第一国产综合精品Aⅴ| 国产在线无码一区二区三区| 亚洲一欧洲中文字幕在线| 亚洲日本一本dvd高清| 国产美女丝袜高潮| 白浆免费视频国产精品视频| 99久久精品国产自免费| www.精品国产| 国产在线自在拍91精品黑人| 亚洲精品动漫在线观看| 国产91特黄特色A级毛片| 亚洲成人在线免费|