999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于雙重注意力和關(guān)系語義建模的實(shí)體對(duì)齊方法

2022-01-01 00:00:00趙丹張俊

摘 要: 實(shí)體對(duì)齊任務(wù)目標(biāo)是在知識(shí)圖譜間發(fā)現(xiàn)更多的等價(jià)實(shí)體對(duì)。目前一些實(shí)體對(duì)齊方法聚焦實(shí)體結(jié)構(gòu)和屬性信息,卻沒有很好地處理兩者交互學(xué)習(xí)的問題。為此,提出一種基于雙重注意力和關(guān)系語義建模的實(shí)體對(duì)齊方法,采用雙重注意力在屬性分類嵌入的基礎(chǔ)上學(xué)習(xí)實(shí)體屬性和結(jié)構(gòu)的交互特征,采用關(guān)系語義建模對(duì)實(shí)體結(jié)構(gòu)嵌入進(jìn)行局部語義優(yōu)化,最后對(duì)實(shí)體多方面語義特征下的相似度矩陣進(jìn)行融合。在三個(gè)真實(shí)數(shù)據(jù)集上的對(duì)齊準(zhǔn)確率分別可達(dá)到81.00%、83.90%和92.73%,與基準(zhǔn)模型相比平均提升了2.62%,實(shí)驗(yàn)結(jié)果表明提出的方法可以有效地識(shí)別出對(duì)齊實(shí)體對(duì)。

關(guān)鍵詞: 實(shí)體對(duì)齊; 雙重注意力; 關(guān)系語義建模; 圖注意力網(wǎng)絡(luò); 知識(shí)圖譜

中圖分類號(hào): TP3"" 文獻(xiàn)標(biāo)志碼: A

文章編號(hào): 1001-3695(2022)01-011-0064-06

doi:10.19734/j.issn.1001-3695.2021.04.0169

Entity alignment method based on dual attention and relational semantic modeling

Zhao Dan, Zhang Jun

(School of Information Science amp; Technology, Dalian Maritime University, Dalian Liaoning 116026, China)

Abstract: The goal of the entity alignment task is to find more equivalent entity pairs in the knowledge graph. At present, some entity alignment methods focus on entity structure and attribute information, but they do not deal with the problem of interactive learning between the two. To this end, this paper proposed an entity alignment method based on dual attention and relational semantic modeling. It used dual attention to learn the interactive features of entity attributes and structure based on attribute classification embedding, and used relational semantic modeling to optimize local semantics of entity structure embedding. Finally, this paper fused the similarity matrix under the entity’s multi-faceted semantic features. The alignment accuracy on the three real data sets can reach 81.00%, 83.90% and 92.73%, respectively, which is an average improvement of 2.62% compared with the benchmark model. The experimental results show that the proposed method can effectively identify aligned entity pairs.

Key words: entity alignment; dual attention; relational semantic modeling; graph attention network; knowledge graph(KG)

0 引言

近年來,知識(shí)圖譜(KG)在人工智能和自然語言處理(natu-ral language processing,NLP)領(lǐng)域大放異彩,現(xiàn)有的大型開源知識(shí)圖譜包括DBpedia[1]、YAGO[2]、Freebase[3]等。KG以(s,p,o)三元組形式存儲(chǔ)結(jié)構(gòu)化知識(shí),包含實(shí)體、實(shí)體間關(guān)系和實(shí)體屬性信息,是文本分類、智能搜索和推薦系統(tǒng)等NLP任務(wù)的基石。KG以強(qiáng)大的語義表達(dá)能力和靈活的建模能力,推動(dòng)以知識(shí)為驅(qū)動(dòng)的智能服務(wù)蓬勃發(fā)展。然而,大多數(shù)KG是基于不同數(shù)據(jù)源根據(jù)不同需求構(gòu)建而來的,不可避免地存在信息冗余與數(shù)據(jù)異構(gòu)問題[4]。為了能夠有效利用KG間互補(bǔ)的信息,實(shí)體對(duì)齊(entity alignment,EA)在指向現(xiàn)實(shí)世界中同一事物的實(shí)體間建立等價(jià)映射,實(shí)現(xiàn)知識(shí)圖譜間信息共享,從而向上提供一個(gè)信息完備的知識(shí)庫。另外,實(shí)體對(duì)齊還有助于新知識(shí)的發(fā)現(xiàn),例如,對(duì)于兩個(gè)知識(shí)圖譜中的三元組(Kobe Bryant,birthplace,New York City)和(NYC,country,United States of America),如果可以對(duì)齊實(shí)體“New York City”和“NYC”,則可以得到新的事實(shí)(Kobe Bryant,nationality,United States of America)。

實(shí)體對(duì)齊方法從發(fā)展歷程上來看可以分為兩個(gè)階段。傳統(tǒng)的實(shí)體對(duì)齊方法面向以符號(hào)表示的知識(shí),通常依賴于人工設(shè)定的特征與規(guī)則,適用于特定領(lǐng)域[5]。近幾年,表示學(xué)習(xí)逐步發(fā)展,通過將研究對(duì)象的語義信息表示為稠密低維的實(shí)值向量[6],表示學(xué)習(xí)可以從原始數(shù)據(jù)中提取更高層次和更為抽象的實(shí)體特征,基于特征相似性進(jìn)行實(shí)體對(duì)齊,其中包括基于翻譯模型和基于圖神經(jīng)網(wǎng)絡(luò)兩類實(shí)體對(duì)齊方法。基于翻譯模型的方法[7~10]考慮實(shí)體向量和關(guān)系向量空間建模問題,探索實(shí)體與關(guān)系之間語義相互作用。基于圖神經(jīng)網(wǎng)絡(luò)的方法關(guān)注實(shí)體的拓?fù)浣Y(jié)構(gòu),其中圖注意力網(wǎng)絡(luò)[11](graph attention network,GAT)將注意力機(jī)制引入圖神經(jīng)網(wǎng)絡(luò)中,以區(qū)分實(shí)體不同領(lǐng)域的重要性。但是圖神經(jīng)網(wǎng)絡(luò)方法不能很好地學(xué)習(xí)實(shí)體間相連的關(guān)系語義,雖然R-GCN[12]考慮了多關(guān)系數(shù)據(jù)特征,基于關(guān)系類型有策略地聚合鄰居實(shí)體,但并未對(duì)關(guān)系語義進(jìn)行優(yōu)化學(xué)習(xí)。本文舉例說明關(guān)系語義對(duì)實(shí)體對(duì)齊的重要性,圖1是從DBpedia中截出的子圖,KG1為中文KG,KG2為英文KG,虛線連接已對(duì)齊實(shí)體,若要判斷中文KG中“吉林省”“吉林市”實(shí)體和英文KG中“Jilin”“Jilin City”實(shí)體的對(duì)齊情況,只考慮其拓?fù)浣Y(jié)構(gòu)特征,因“Jilin”“吉林省”和“吉林市”實(shí)體具有相似的拓?fù)浣Y(jié)構(gòu),給實(shí)體對(duì)齊判別帶來挑戰(zhàn)。但若引入實(shí)體間相連的關(guān)系,因關(guān)系“Capital”和“毗鄰”是有本質(zhì)區(qū)別的,所以會(huì)使得(吉林省, Jilin)更易判別為對(duì)齊實(shí)體,使(吉林市, Jilin)更不易判別為對(duì)齊實(shí)體。由此可見,關(guān)系語義的引入能夠提升對(duì)不同實(shí)體的辨別能力,從而影響實(shí)體對(duì)齊效果。KECG[13]設(shè)計(jì)知識(shí)嵌入模型和交叉圖模型,通過知識(shí)嵌入模型學(xué)習(xí)實(shí)體間的關(guān)系約束,以完成兩個(gè)知識(shí)圖譜間的一致性,但需要兩個(gè)模型交替訓(xùn)練。RDGCN[14]提出一種關(guān)系感知雙圖卷積神經(jīng)網(wǎng)絡(luò),利用注意力機(jī)制對(duì)原始圖和對(duì)偶關(guān)系圖交互建模。HGCN[15]協(xié)同處理實(shí)體對(duì)齊與關(guān)系對(duì)齊,使兩者效果相互促進(jìn)。但以上研究忽略了實(shí)體豐富的屬性信息。

目前,實(shí)體對(duì)齊工作聚焦于實(shí)體結(jié)構(gòu)和屬性信息,JAPE[16]和AttrE[17]通過實(shí)體屬性嵌入對(duì)自身結(jié)構(gòu)嵌入進(jìn)行進(jìn)一步修正,但實(shí)體的屬性信息局限于自身節(jié)點(diǎn),無法與實(shí)體的領(lǐng)域結(jié)構(gòu)進(jìn)行交互學(xué)習(xí)。JAPE[16]和GCN-Align[18]僅利用實(shí)體屬性信息,忽略了實(shí)體豐富的屬性值。還有學(xué)者研究利用實(shí)體name和結(jié)構(gòu)特征對(duì)齊實(shí)體,實(shí)體name作為實(shí)體最為特殊的一類屬性,在實(shí)體對(duì)齊任務(wù)中發(fā)揮重要作用。RDGCN和HGCN將實(shí)體name作為實(shí)體結(jié)構(gòu)嵌入模型的輸入,得到的實(shí)體對(duì)齊效果甚至優(yōu)于其他一些聯(lián)合使用實(shí)體屬性和結(jié)構(gòu)信息的實(shí)體對(duì)齊模型,以此可以推測(cè)混合不同類型的屬性進(jìn)行實(shí)體對(duì)齊的效果并不理想。同時(shí),AttrGNN[19]也印證了此推測(cè),該研究將實(shí)體屬性信息分為name屬性、文字型(literal)和數(shù)值型(digi-tal)屬性三類,對(duì)屬性信息分類別嵌入,取得較好的對(duì)齊效果,但在其屬性和結(jié)構(gòu)交互學(xué)習(xí)過程中忽略了領(lǐng)域噪聲對(duì)實(shí)體對(duì)齊的影響。本文受文獻(xiàn)[20]采用字符和實(shí)例級(jí)別注意力構(gòu)成的雙重注意力進(jìn)行中文關(guān)系抽取工作的啟發(fā),利用實(shí)體屬性和領(lǐng)域級(jí)別注意力構(gòu)建適用于實(shí)體對(duì)齊任務(wù)的雙重注意力機(jī)制。

對(duì)于上述實(shí)體對(duì)齊研究中存在的問題,本文聯(lián)合使用實(shí)體屬性與結(jié)構(gòu)信息,在屬性分類嵌入的基礎(chǔ)上,同時(shí)學(xué)習(xí)實(shí)體屬性與屬性值。本文的主要貢獻(xiàn)如下:a)使用雙重注意力機(jī)制,聯(lián)合屬性注意力和領(lǐng)域注意力,在實(shí)體屬性和結(jié)構(gòu)交互學(xué)習(xí)過程中過濾相應(yīng)噪聲;b)對(duì)于實(shí)體結(jié)構(gòu)嵌入,基于翻譯模型的思想引入關(guān)系語義建模,基于實(shí)體對(duì)齊任務(wù)同時(shí)學(xué)習(xí)圖拓?fù)浣Y(jié)構(gòu)和關(guān)系語義對(duì)實(shí)體嵌入的影響;c)在真實(shí)數(shù)據(jù)集上評(píng)估所設(shè)計(jì)的實(shí)體對(duì)齊方法,取得了較好的實(shí)驗(yàn)效果。

1 問題定義

定義1 知識(shí)圖譜KG。將知識(shí)圖譜形式化定義為六元組G=(E,R,A,V,Tr,Ta),其中E、R、A、V分別表示實(shí)體、關(guān)系、屬性、屬性值集合;Tr={(h,r,t)|h,t∈E,r∈R}表示關(guān)系三元組集合;Ta={(e,a,v)|e∈E,a∈A,v∈V}表示屬性三元組集合[19]。

定義2 實(shí)體對(duì)齊EA。對(duì)于兩個(gè)知識(shí)圖譜G1=(E1,R1,A1,V1,Tr1,Ta1)和G2=(E2,R2,A2,V2,Tr2,Ta2),定義部分預(yù)對(duì)齊的實(shí)體作為種子集seed={(e1,e2)|(e1,e2)∈E1×E2,e1∈E1,e2∈E2,e1e2},也即模型的訓(xùn)練集,其中表示實(shí)體間的一種等價(jià)映射關(guān)系,說明兩實(shí)體指向現(xiàn)實(shí)世界的同一事物。實(shí)體對(duì)齊任務(wù)是指在知識(shí)圖譜G1與G2之間,基于實(shí)體種子集seed,訓(xùn)練模型能夠自動(dòng)發(fā)現(xiàn)兩個(gè)知識(shí)圖譜間其他更多的對(duì)齊實(shí)體[19]。

定義3 基于表示學(xué)習(xí)的實(shí)體對(duì)齊(representation learning-based EA)。根據(jù)KG中與實(shí)體相關(guān)的知識(shí)knowledge={neighbor entity,relation,attribute,attribute value},將實(shí)體表示為稠密低維的實(shí)值向量e。對(duì)種子集中的實(shí)體對(duì)(e1,e2),訓(xùn)練模型使其滿足d(e1,e2)趨近于0,從而使得兩個(gè)KG中的實(shí)體嵌入到同一向量空間V下,其中d(e1,e2)表示在V中兩實(shí)體的間距。在V中依據(jù)實(shí)體的特征向量e,尋找KG間其他的對(duì)齊實(shí)體。

如圖1所示,對(duì)于中文KG1和英文KG2來說,實(shí)體對(duì)齊任務(wù)就是基于一些已知的對(duì)齊實(shí)體對(duì),比如(東北話,northeastern mandarin)和(長春,Changchun),以及實(shí)體在KG中的拓?fù)浣Y(jié)構(gòu)、關(guān)系和屬性等相關(guān)信息,去發(fā)現(xiàn)兩個(gè)KG間其他正確的等價(jià)對(duì)齊實(shí)體對(duì),比如(吉林省, Jilin)(吉林市,Jilin ci-ty),即將實(shí)體“吉林省”和“吉林市”匹配到正確的英文實(shí)體“Jilin”和“Jilin city”上,而非“Jilin City”和“Jilin”實(shí)體。

2 方法描述

2.1 總體框架

本文在AttrGNN模型的基礎(chǔ)上引入雙重注意力機(jī)制和關(guān)系語義建模。實(shí)體對(duì)齊方法總體框架包含結(jié)構(gòu)通道、屬性通道和通道融合模塊三大部分,如圖2所示。結(jié)構(gòu)通道用于獲取實(shí)體的結(jié)構(gòu)特征,對(duì)于兩個(gè)待對(duì)齊的知識(shí)圖譜KG1和KG2,輸入其關(guān)系三元組,通過改進(jìn)GAT獲取實(shí)體全局結(jié)構(gòu)嵌入,再經(jīng)過關(guān)系語義建模模塊,在實(shí)體間加以關(guān)系語義約束,獲得局部語義增強(qiáng)后的實(shí)體表示;屬性通道用于獲取實(shí)體屬性結(jié)構(gòu)的交互特征,輸入KG1和KG2的屬性和關(guān)系三元組,首先經(jīng)過屬性分類器將屬性信息分為實(shí)體name、文字型(literal)和數(shù)值型(digital)三類,接著分類別地對(duì)實(shí)體屬性和屬性值進(jìn)行嵌入,對(duì)于編碼后的實(shí)體name特征直接輸入領(lǐng)域注意力層中,對(duì)于文字型和數(shù)值型屬性信息,利用雙重注意力機(jī)制分別獲取實(shí)體屬性和結(jié)構(gòu)的交互特征;通過各通道的實(shí)體特征向量計(jì)算相似度矩陣,最后基于四類特征下的實(shí)體相似度矩陣進(jìn)行通道融合。

2.2 雙重注意力

本文設(shè)計(jì)的雙重注意力機(jī)制如圖3所示,包含屬性注意力層和領(lǐng)域注意力層,其中綠色實(shí)線連接已對(duì)齊的實(shí)體(見電子版)。屬性注意力層基于實(shí)體節(jié)點(diǎn)內(nèi)部的屬性信息獲取局部語義嵌入,領(lǐng)域注意力層基于實(shí)體節(jié)點(diǎn)外部的領(lǐng)域信息獲取全局結(jié)構(gòu)嵌入,由屬性注意力和領(lǐng)域注意力構(gòu)成的雙重注意力機(jī)制在KG上實(shí)現(xiàn)了實(shí)體由近及遠(yuǎn)的信息傳遞。

3 實(shí)驗(yàn)與結(jié)果分析

3.1 數(shù)據(jù)集

本文采用DBP15k[19]作為實(shí)驗(yàn)數(shù)據(jù)集,DBP15k從DBpedia大型知識(shí)圖譜中生成,包含三個(gè)跨語言數(shù)據(jù)集,分別為中文—英文(ZH-EN)、日文—英文(JA-EN)、法文—英文(FR-EN),每個(gè)數(shù)據(jù)集在兩種不同語言的知識(shí)圖譜間包含15 000個(gè)對(duì)齊實(shí)體對(duì),作為本文實(shí)驗(yàn)的訓(xùn)練集和測(cè)試集,DBP15k中每個(gè)數(shù)據(jù)集的具體統(tǒng)計(jì)信息如表1所示,詳細(xì)介紹了每個(gè)知識(shí)圖譜包含的關(guān)系三元組、文字型(literal)和數(shù)值型(digital)屬性三元組數(shù)。

3.2 評(píng)價(jià)指標(biāo)與實(shí)驗(yàn)設(shè)置

本文實(shí)驗(yàn)訓(xùn)練集和測(cè)試集的劃分比例為3∶7。采用hits@k(k=1,10)和平均倒排序值(mean reciprocal rank,MRR)作為實(shí)驗(yàn)評(píng)價(jià)指標(biāo),在尋找某實(shí)體的最佳候選對(duì)齊實(shí)體時(shí),需要對(duì)所有的候選實(shí)體基于相似度值進(jìn)行排序,hits@k=n/N,N表示測(cè)試集總實(shí)體數(shù),n=count(rank(e)≤k)表示正確的對(duì)齊實(shí)體e出現(xiàn)在排序前k位的總次數(shù);MRR=1/N∑Ni=11/rank(ei)計(jì)算所有正確對(duì)齊實(shí)體ei排位值倒數(shù)的均值。hits@k和MRR值越高越好,說明實(shí)體對(duì)齊效果越好。

實(shí)驗(yàn)隨機(jī)初始化實(shí)體和屬性向量,使De=Da=128。按照文獻(xiàn)[16]處理跨語言數(shù)據(jù)集的方式,使用谷歌翻譯將所有非英文的屬性值轉(zhuǎn)換為英文表示,之后利用預(yù)訓(xùn)練詞向量工具BERT生成詞向量,并采用max-pooling技術(shù)獲取固定長度的向量表示作為初始化的實(shí)體屬性值嵌入。為保持同AttrGNN[19] 一樣的模型配置,本文在屬性通道的領(lǐng)域注意力層添加殘差連接。

實(shí)驗(yàn)采用Adagrad優(yōu)化器,每個(gè)通道訓(xùn)練使用100個(gè)epoch,負(fù)例采樣周期設(shè)置為5個(gè)epoch,對(duì)實(shí)體負(fù)例采樣數(shù)設(shè)置為25,對(duì)關(guān)系三元組負(fù)例采樣數(shù)設(shè)置為2,圖注意力網(wǎng)絡(luò)嵌入層數(shù)m設(shè)置為2,通過網(wǎng)格搜索(grid search)尋找每個(gè)通道實(shí)體對(duì)齊的最佳參數(shù)配置,其中學(xué)習(xí)率的搜索范圍為{0.001,0.004,0.007},L2正則化參數(shù)的搜索范圍為{10-4,10-3,0},其他超參數(shù)設(shè)置為γ=γ′=1。

3.3 結(jié)果分析

3.3.1 雙重注意力消融實(shí)驗(yàn)

本文為驗(yàn)證雙重注意力的有效性,使用三個(gè)數(shù)據(jù)集分別在兩種屬性通道中對(duì)比分析單重和雙重注意力兩種屬性結(jié)構(gòu)交互學(xué)習(xí)方式的實(shí)體對(duì)齊效果。其中,literal表示在屬性通道中僅使用分類后的文字型屬性;digital表示僅使用分類后的數(shù)值型屬性所對(duì)應(yīng)的對(duì)齊情況;s-att表示單重注意力方法,即保留屬性注意力層,并將領(lǐng)域注意力層替換為GraphSage[23]均值聚合器的方式(即計(jì)算當(dāng)前節(jié)點(diǎn)及其所有鄰居在每一維特征上的均值作為實(shí)體嵌入);d-att表示本文設(shè)計(jì)的雙重注意力機(jī)制。保持種子集比例為0.3,實(shí)驗(yàn)效果對(duì)比如表2所示。

從表2實(shí)驗(yàn)結(jié)果可以對(duì)比分析得出:

a)在實(shí)體literal和digital屬性特征通道下,雙重注意力機(jī)制的hit@k(k=1,10)和MRR指標(biāo)均高于單重注意力,體現(xiàn)了領(lǐng)域注意力層在過濾圖結(jié)構(gòu)噪聲的作用,驗(yàn)證了雙重注意力機(jī)制的有效性。

b)literal屬性特征通道的實(shí)驗(yàn)效果要高于digital屬性通道,并且基于雙重注意力機(jī)制literal屬性通道的實(shí)驗(yàn)提升效果也比digital屬性通道好,表明literal比digital包含更豐富的實(shí)體屬性語義特征。

c)數(shù)據(jù)集FR-EN的實(shí)驗(yàn)效果要低于ZH-EN和JA-EN,從數(shù)據(jù)集本身特性出發(fā),分析其原因是FR-EN數(shù)據(jù)集中屬性信息不豐富導(dǎo)致的,三個(gè)數(shù)據(jù)集包含的屬性個(gè)數(shù)分別為15.2k、11.9k和10.9k,可以看出FR-EN包含的屬性個(gè)數(shù)最少。

為進(jìn)一步證實(shí)雙重注意力機(jī)制的優(yōu)越性,本文在相同的參數(shù)配置下對(duì)比了單/雙重注意力機(jī)制對(duì)種子集的敏感程度。以ZH-EN數(shù)據(jù)集為例,在屬性通道中使用屬性分類后的文字型屬性,通過不斷調(diào)整種子集比例,分別采用單/雙重注意力方法進(jìn)行屬性通道的實(shí)體對(duì)齊實(shí)驗(yàn),對(duì)比這兩種方法的對(duì)齊效果。s-att表示單重注意力方法,d-att表示雙重注意力方法。種子集比例設(shè)定為{0.1,0.2,0.3,0.4,0.5},對(duì)比hit@1和hit@10實(shí)驗(yàn)指標(biāo)值。結(jié)果如圖5所示。

從圖5實(shí)驗(yàn)對(duì)比中可以分析得出:

a)隨著種子集比例的增大,實(shí)體對(duì)齊效果逐漸提升。

b)在種子集比例{0.1,0.2,0.3,0.4,0.5}下,雙重注意力的實(shí)驗(yàn)效果始終優(yōu)于單重注意力。尤其當(dāng)種子集比例為0.1時(shí),雖然訓(xùn)練集數(shù)量很少,雙重注意力在hit@1和hit@10上仍以3.59%和3.33%優(yōu)于單重注意力。

3.3.2 關(guān)系語義建模消融實(shí)驗(yàn)

本文為驗(yàn)證關(guān)系語義建模有效性,在structure特征通道下對(duì)比分析了三種結(jié)構(gòu)嵌入方式的實(shí)體對(duì)齊效果,其中GraphSage、imp GAT和imp GAT+R分別代表使用GraphSage均值聚合器、改進(jìn)GAT、改進(jìn)GAT基礎(chǔ)上關(guān)系語義建模的結(jié)構(gòu)嵌入方式。保持種子集比例為0.3,實(shí)驗(yàn)結(jié)果對(duì)比如表3所示。

從表3實(shí)驗(yàn)結(jié)果可以對(duì)比分析得出:a)imp GAT與GraphSage相比,hit@1值平均提升4.16%,hit@10值平均提升5.21%,表明了imp GAT在獲取實(shí)體全局結(jié)構(gòu)特征的優(yōu)越性;b)imp GAT+R與imp GAT相比,hit@1值平均提升0.86%,hit@10值平均提升5.13%,表明了在實(shí)體全局結(jié)構(gòu)嵌入的基礎(chǔ)上學(xué)習(xí)實(shí)體間相連關(guān)系語義的必要性。通過在實(shí)體間加以關(guān)系語義約束,進(jìn)一步優(yōu)化實(shí)體表示,得到局部語義增強(qiáng)后的實(shí)體結(jié)構(gòu)特征。為進(jìn)一步證實(shí)關(guān)系語義建模的優(yōu)越性,本文在相同的參數(shù)配置下對(duì)比了這三種結(jié)構(gòu)嵌入方式對(duì)種子集的敏感程度,以ZH-EN數(shù)據(jù)集下的structure通道為例,在種子集比例{0.1,0.2,0.3,0.4,0.5}下分別對(duì)hit@1和hit@10值進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如圖6所示。實(shí)驗(yàn)表明即使是在較低的種子集比例下,添加關(guān)系語義建模后的實(shí)體對(duì)齊在hit@1和hit@10上仍以10.57%和25.36%優(yōu)于GraphSage。

3.3.3 各通道消融實(shí)驗(yàn)

本文為驗(yàn)證實(shí)體結(jié)構(gòu)和屬性通道的有效性,對(duì)其進(jìn)行消融實(shí)驗(yàn),其中,structure表示僅使用本文設(shè)計(jì)的結(jié)構(gòu)通道對(duì)應(yīng)的實(shí)體對(duì)齊情況;literal、digital和name表示僅使用本文設(shè)計(jì)的屬性通道,并分別基于文字型、數(shù)值型或?qū)嶓wname屬性對(duì)應(yīng)的實(shí)體對(duì)齊情況;attribute表示基于屬性通道,取消對(duì)屬性的分類別學(xué)習(xí),輸入實(shí)體所有類別的屬性信息,并通過雙重注意力對(duì)應(yīng)的實(shí)體對(duì)齊情況;w/o structure表示去除結(jié)構(gòu)通道,基于li-teral、digital和name特征下的實(shí)體相似度矩陣采用2.4節(jié)均值融合方法對(duì)應(yīng)的實(shí)體對(duì)齊情況;w/o name表示去除name特征,基于structure、literal和digital特征下的實(shí)體相似度矩陣進(jìn)行均值融合對(duì)應(yīng)的實(shí)體對(duì)齊情況;mix-our表示基于attribute和structure特征下的實(shí)體相似度矩陣進(jìn)行均值融合對(duì)應(yīng)的實(shí)體對(duì)齊情況;our-avg表示基于structure和屬性分類后的literal、digital、name特征下的相似度矩陣進(jìn)行均值融合對(duì)應(yīng)的實(shí)體對(duì)齊情況。本文以ZH-EN數(shù)據(jù)集為例,以hit@1指標(biāo)展示各通道消融實(shí)驗(yàn)結(jié)果,如圖7所示。

從圖7通道消融實(shí)驗(yàn)結(jié)果中可以分析得出:

a)與實(shí)體相關(guān)的五種特征通道中,實(shí)體name屬性通道對(duì)齊效果最好,而且當(dāng)去除name屬性通道后,實(shí)驗(yàn)效果竟然低于單獨(dú)使用name屬性通道的情況,同時(shí)與our-avg相比效果急劇下降了16.62%,驗(yàn)證了單獨(dú)學(xué)習(xí)實(shí)體name特征的有效性。

b)當(dāng)去除structure通道后,實(shí)驗(yàn)效果下降了6.11%,表明除了學(xué)習(xí)實(shí)體屬性結(jié)構(gòu)的交互特征外,仍有必要單獨(dú)學(xué)習(xí)實(shí)體的結(jié)構(gòu)特征,以獲取實(shí)體更多側(cè)面的語義信息,輔助實(shí)體對(duì)齊。

c)從理論上看,attribute比literal屬性通道輸入的信息更加豐富,但其實(shí)驗(yàn)效果卻低于literal屬性通道,表明混合不同類型的屬性信息會(huì)給實(shí)體對(duì)齊帶來負(fù)面影響,直接體現(xiàn)了實(shí)體屬性分類嵌入的有效性。

d)our-avg比mix-our實(shí)驗(yàn)效果大幅度提升20.07%,表明通過進(jìn)一步細(xì)粒度劃分實(shí)體信息,使實(shí)體不同類型的語義特征在融合過程中相互補(bǔ)充完善,獲得更好的實(shí)體對(duì)齊效果。

3.3.4 相關(guān)工作對(duì)比實(shí)驗(yàn)

本文對(duì)比了七種實(shí)體對(duì)齊基線模型,并按照模型所用實(shí)體信息將其分為兩類:a)利用實(shí)體結(jié)構(gòu)和name,RDGCN[14]和HGCN[15]將實(shí)體name作為實(shí)體結(jié)構(gòu)嵌入模型的輸入,并同時(shí)學(xué)習(xí)實(shí)體與關(guān)系嵌入,兩者均基于圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)方法,其中RDGCN通過構(gòu)建對(duì)偶關(guān)系圖來對(duì)實(shí)體拓?fù)浣Y(jié)構(gòu)和關(guān)系嵌入進(jìn)行交互學(xué)習(xí),HGCN根據(jù)實(shí)體嵌入設(shè)計(jì)函數(shù)計(jì)算實(shí)體相關(guān)的關(guān)系語義,并將其合并到實(shí)體嵌入中,模型訓(xùn)練過程中使關(guān)系對(duì)齊和實(shí)體對(duì)齊相互促進(jìn);b)利用實(shí)體結(jié)構(gòu)和屬性信息,JAPE[16]和GCN-Align[18]使用實(shí)體結(jié)構(gòu)和屬性,Multi-KE[24]、JarKA[25]和AttrGNN[19]使用實(shí)體結(jié)構(gòu)、屬性和屬性值信息。其中,JAPE、MultiKE和JarKA的關(guān)系結(jié)構(gòu)嵌入部分均采用基于翻譯模型的方法。MultiKE采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取實(shí)體屬性特征,并設(shè)計(jì)多視圖組合策略整合實(shí)體多視圖數(shù)據(jù)。JarKA在屬性之間進(jìn)行交互建模,并采用迭代對(duì)齊思想擴(kuò)充種子集。GCN-Align和AttrGNN基于圖神經(jīng)網(wǎng)絡(luò)方法聯(lián)合學(xué)習(xí)實(shí)體結(jié)構(gòu)和屬性嵌入。相關(guān)工作的實(shí)驗(yàn)結(jié)果均取自于原文獻(xiàn)中的最佳數(shù)據(jù),對(duì)于原文獻(xiàn)中未給出的評(píng)價(jià)指標(biāo)值,本文利用實(shí)驗(yàn)數(shù)據(jù)集復(fù)現(xiàn)其相關(guān)模型,得到相關(guān)實(shí)驗(yàn)數(shù)據(jù)。本文實(shí)驗(yàn)our-avg表示基于2.4節(jié)中實(shí)體name、literal、digital和structure四類特征下的相似度矩陣進(jìn)行均值融合的方法。實(shí)驗(yàn)結(jié)果對(duì)比如表4所示。

從以上模型實(shí)驗(yàn)結(jié)果對(duì)比中可以分析得出:

a)基于結(jié)構(gòu)和屬性信息的一些實(shí)體對(duì)齊模型的實(shí)驗(yàn)效果要低于基于結(jié)構(gòu)和實(shí)體name的模型,并且除了本文實(shí)體對(duì)齊模型外,AttrGNN的實(shí)驗(yàn)效果達(dá)到最佳,驗(yàn)證了實(shí)體屬性分類別學(xué)習(xí)的必要性。

b)本文方法與AttrGNN相比,評(píng)價(jià)指標(biāo)hit@1值平均提升2.62%,hit@10值平均提升1.48%,表明了本文設(shè)計(jì)的雙重注意力和關(guān)系語義建模在通道融合驗(yàn)證實(shí)體對(duì)齊效果的過程中共同發(fā)揮了重要作用,其中在JA-EN數(shù)據(jù)集上實(shí)驗(yàn)效果提升最大,hit@1值提升5.57%,表明了在本文模型改進(jìn)的基礎(chǔ)上JA-EN數(shù)據(jù)集中的實(shí)體能夠獲得更多有利于對(duì)齊的互補(bǔ)信息。

4 結(jié)束語

本文提出了一種基于雙重注意力和關(guān)系語義建模的實(shí)體對(duì)齊方法,該方法設(shè)計(jì)了有關(guān)實(shí)體的屬性和結(jié)構(gòu)通道。在屬性通道中基于實(shí)體屬性分類別嵌入,使用雙重注意力機(jī)制,學(xué)習(xí)實(shí)體屬性結(jié)構(gòu)的交互特征;在結(jié)構(gòu)通道中,通過引入關(guān)系語義建模,得到局部語義增強(qiáng)后的實(shí)體結(jié)構(gòu)嵌入;最后在三個(gè)跨語言數(shù)據(jù)集上的實(shí)驗(yàn),驗(yàn)證了雙重注意力機(jī)制、關(guān)系語義建模的有效性。

下一步工作將考慮研究實(shí)體其他一些附加信息,比如實(shí)體的文本描述信息,對(duì)實(shí)體對(duì)齊任務(wù)的影響。同時(shí),實(shí)體對(duì)齊效果依賴已對(duì)齊的實(shí)體種子集,未來將研究采用一些無監(jiān)督或半監(jiān)督方式來完成實(shí)體對(duì)齊任務(wù)。

參考文獻(xiàn):

[1]Lehmann J, Isele R, Jakob M, et al. DBpedia:a large-scale, multilingual knowledge base extracted from Wikipedia[J].Semantic Web,2015,6(2):167-195.

[2]Rebele T, Suchanek F, Hoffart J, et al. YAGO: a multilingual knowledge base from Wikipedia, Wordnet, and Geonames[C]//Proc of International Semantic Web Conference. Cham: Springer,2016:177-185.

[3]Bollacker K, Evans C, Paritosh P, et al. Freebase: a collaboratively created graph database for structuring human knowledge[C]//Proc of Joint ACM SIGMOD International Conference on Management of Data. New York: ACM Press,2008:1247-1250.

[4]莊嚴(yán),李國良,馮建華.知識(shí)庫實(shí)體對(duì)齊技術(shù)綜述[J].計(jì)算機(jī)研究與發(fā)展,2016,53(1):165-192.(Zhuang Yan, Li Guoliang, Feng Jianhua. A survey on entity alignment of knowledge base[J].Computer Research and Development,2016,53(1):165-192.)

[5]Zhuang Yan, Li Guoliang, Zhong Zhuojian, et al. Hike: a hybrid human-machine method for entity alignment in large-scale knowledge bases[C]//Proc of the 26th ACM International Conference on Information and Knowledge Management.New York:ACM Press,2017:1917-1926.

[6]劉知遠(yuǎn),孫茂松,林衍凱,等.知識(shí)表示學(xué)習(xí)研究進(jìn)展[J].計(jì)算機(jī)研究與發(fā)展,2016,53(2):247-261.(Liu Zhiyuan, Sun Maosong, Lin Yankai, et al. Research progress in knowledge representation learning[J].Computer Research and Development,2016,53(2):247-261.)

[7]Bordes A, Usunier N, Garciaduran A, et al. Translating embeddings for modeling multi-relational data[C]//Proc of the 26th International Conference on Neural Information Processing Systems. Cambridge,MA: MIT Press,2013:2787-2795.

[8]Wang Zhen, Zhang Jianwen, Feng Jianlin, et al. Knowledge graph embedding by translating on hyperplanes[C]//Proc of the 28th AAAI Conference on Artificial Intelligence. Menlo Park, CA: AAAI Press,2014:1112-1119.

[9]Lin Yankai, Liu Zhiyuan, Sun Maosong, et al. Learning entity and relation embeddings for knowledge graph completion[C]//Proc of the 29th AAAI Conference on Artificial Intelligence. Menlo Park, CA: AAAI Press,2015:2181-2187.

[10]Sun Zequn, Huang Jiacheng, Hu Wei, et al. Transedge: translating relation-contextualized embeddings for knowledge graphs[C]//Proc of International Semantic Web Conference. Cham: Springer,2019:612-629.

[11]Velicˇkovic' P, Cucurull G, Casanova A, et al. Graph attention networks[EB/OL].(2017-10-30)[2021-04-12].https://arxiv.org/abs/1710.10903.

[12]Schlichtkrull M, Kipf T N, Bloem P, et al. Modeling relational data with graph convolutional networks[C]//Proc of European Semantic Web Conference.Cham:Springer,2018:593-607.

[13]Li Chengjiang, Cao Yixin, Hou Lei, et al. Semi-supervised entity alignment via joint knowledge embedding model and cross-graph mo-del[C]//Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing.Stroudsburg,PA:ACL Press,2019:2723-2732.

[14]Wu Yuting, Liu Xiao, Feng Yansong, et al. Relation-aware entity alignment for heterogeneous knowledge graphs[C]//Proc of the 28th International Joint Conference on Artificial Intelligence. San Francisco: Morgan Kaufmann,2019:5278-5284.

[15]Wu Yuting,Liu Xiao,F(xiàn)eng Yansong,et al.Jointly learning entity and relation representations for entity alignment[C]//Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing.Stroudsburg,PA:ACL Press,2019:240-249.

[16]Sun Zequn,Hu Wei,Li Chengkai.Cross-lingual entity alignment via joint attribute-preserving embedding[C]//Proc of the 16th International Semantic Web Conference.Cham: Springer,2017:628-644.

[17]Trisedya B D,Qi Jianzhong,Zhang Rui.Entity alignment between knowledge graphs using attribute embeddings[C]//Proc of the 33rd AAAI Conference on Artificial Intelligence.Menlo Park,CA: AAAI Press,2019:297-304.

[18]Wang Zhichun, Lyu Qinsong,Lan Xiaohan,et al.Cross-lingual knowledge graph alignment via graph convolutional networks[C]//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:ACL Press,2018:349-357.

[19]Liu Zhiyuan,Cao Yixin,Pan Liangming,et al.Exploring and evaluating attributes,values,and structures for entity alignment [EB/OL].(2020-10-07)[2021-04-12].https://arxiv.org/abs/2010.03249.

[20]車金立,唐力偉,鄧士杰,等.基于雙重注意力機(jī)制的遠(yuǎn)程監(jiān)督中文關(guān)系抽取[J].計(jì)算機(jī)工程與應(yīng)用,2019,55(20):107-113.(Che Jinli,Tang Liwei,Deng Shijie,et al.Remote supervised Chinese relationship extraction based on dual attention mechanism[J].Computer Engineering and Applications,2019,55(20):107-113.)

[21]Devlin J,Chang Mingwei,Lee K, et al. BERT:pretraining of deep bidirectional transformers for language understanding[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg,PA:ACL Press,2019:4171-4186.

[22]Smith S L,Turban D H P,Hamblin S,et al.Offline bilingual word vectors,orthogonal transformations and the inverted softmax[EB/OL].(2017-02-13)[2021-04-12].https://arxiv.org/abs/1702.03859.

[23]Hamilton W L,Ying R,Leskovec J.Inductive representation learning on large graphs[EB/OL].(2017-06-07)[2021-04-12].https://arxiv.org/abs/1706.02216.

[24]Zhang Qingheng,Sun Zequn,Hu Wei,et al.Multi-view knowledge graph embedding for entity alignment[C]//Proc of the 28th International Joint Conference on Artificial Intelligence.San,CA:Morgan Kaufmann,2019:5429-5435.

[25]Chen Bo,Zhang Jing,Tang Xiaobin,et al.JarKA:modeling attribute interactions for cross-lingual knowledge alignment[C]//Proc of Pacific Asia Conference on Knowledge Discovery and Data Mining.Cham:Springer,2020:845-856.

主站蜘蛛池模板: 91破解版在线亚洲| 亚洲成人播放| 国产美女91视频| 波多野吉衣一区二区三区av| 久久国产精品麻豆系列| 日韩在线2020专区| 国产日韩欧美中文| 国产精品免费电影| av一区二区人妻无码| 国产91在线|中文| 国产精品一区在线观看你懂的| 国产成人综合亚洲欧美在| 超清无码熟妇人妻AV在线绿巨人| 亚洲色欲色欲www在线观看| 多人乱p欧美在线观看| 在线国产欧美| 国产在线精彩视频二区| 国产亚洲精久久久久久无码AV| 一级毛片在线播放| 国产真实乱子伦精品视手机观看| 久久6免费视频| 97人妻精品专区久久久久| a级毛片视频免费观看| 97在线观看视频免费| 欧美日韩国产系列在线观看| 她的性爱视频| 欧美日韩国产系列在线观看| 暴力调教一区二区三区| 亚洲国产黄色| 无码内射在线| 毛片卡一卡二| 五月婷婷亚洲综合| 久久国产精品麻豆系列| 99视频在线免费| 噜噜噜久久| 国产精品亚洲一区二区三区在线观看| 香蕉久久国产精品免| 国产在线日本| 一级毛片高清| 亚洲成aⅴ人在线观看| 一级香蕉人体视频| 亚洲国产精品一区二区第一页免| 国产一区成人| 伊人色在线视频| 日a本亚洲中文在线观看| 国产麻豆精品在线观看| 在线欧美国产| 午夜啪啪网| 国产一二三区视频| 日本精品中文字幕在线不卡| 国产在线一区二区视频| 欧美特黄一级大黄录像| 亚洲高清无在码在线无弹窗| 99在线国产| 极品尤物av美乳在线观看| 欧美影院久久| 91系列在线观看| 亚洲国产综合第一精品小说| 午夜欧美理论2019理论| 国产精品吹潮在线观看中文| 欧美成人在线免费| 91在线播放国产| 99ri精品视频在线观看播放| 91精品网站| 免费不卡视频| 伊伊人成亚洲综合人网7777| 在线国产毛片手机小视频| 欧美成人一级| 国产白浆在线观看| 日韩国产高清无码| 极品私人尤物在线精品首页| 免费一看一级毛片| 波多野结衣视频一区二区 | 亚洲日本韩在线观看| 国产黑丝视频在线观看| 99久久国产精品无码| 色噜噜综合网| 一本大道香蕉高清久久| 香蕉在线视频网站| 99这里只有精品6| 国产91熟女高潮一区二区| 国产精品美女免费视频大全|