999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種融合關(guān)系路徑與實(shí)體描述信息的知識(shí)圖譜表示學(xué)習(xí)方法

2022-09-06 02:04:12寧原隆盧記倉(cāng)楊大偉
關(guān)鍵詞:信息模型

寧原隆 周 剛,2 盧記倉(cāng) 楊大偉 張 田

1(戰(zhàn)略支援部隊(duì)信息工程大學(xué) 鄭州 450001)

2(數(shù)學(xué)工程與先進(jìn)計(jì)算國(guó)家重點(diǎn)實(shí)驗(yàn)室(戰(zhàn)略支援部隊(duì)信息工程大學(xué)) 鄭州 450001)

(ningyuanlong@163.com)

谷歌公司于2012年提出了知識(shí)圖譜(knowledge graph)的概念[1].知識(shí)圖譜為組織、管理和理解海量的互聯(lián)網(wǎng)數(shù)據(jù)信息提供了一種更好的手段.知識(shí)圖譜作為人工智能領(lǐng)域的一個(gè)重要的分支,具備重要的作用,在搜索引擎、智能醫(yī)療、問(wèn)答系統(tǒng)[2]等方面應(yīng)用廣泛,得到了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注[3].目前,已經(jīng)涌現(xiàn)出了許多知識(shí)圖譜,具有代表性的有Freebase[4],DBpedia[5],YAGO[6],NELL[7]等.

知識(shí)圖譜是由大量的三元組(頭實(shí)體,關(guān)系,尾實(shí)體)構(gòu)成的,也可以簡(jiǎn)寫(xiě)為(h,r,t),表示頭實(shí)體h和尾實(shí)體t之間通過(guò)關(guān)系r連接.一個(gè)三元組描述一個(gè)事實(shí),例如(英國(guó),首都,倫敦)描述的是“英國(guó)的首都是倫敦”這一事實(shí).基于符號(hào)表示的知識(shí)圖譜三元組,雖然簡(jiǎn)潔,但是隨著知識(shí)圖譜規(guī)模的不斷增加,數(shù)據(jù)稀疏性等問(wèn)題更加突出,導(dǎo)致計(jì)算效率低下,在大規(guī)模知識(shí)圖譜上很難實(shí)現(xiàn)高效推理.基于此,作為符號(hào)表示的補(bǔ)充,引入了知識(shí)圖譜表示學(xué)習(xí)[8],其目的就是將知識(shí)圖譜中的實(shí)體和關(guān)系投影到連續(xù)低維的向量空間,可以有效提高計(jì)算效率,并大大促進(jìn)大規(guī)模知識(shí)圖譜上的推理分析.

現(xiàn)有的大多數(shù)知識(shí)圖譜表示學(xué)習(xí)及推理模型都僅考慮知識(shí)圖譜中單一的三元組信息[9],然而,實(shí)體對(duì)之間往往存在大量的關(guān)系路徑信息,并且每一個(gè)實(shí)體通常都有相對(duì)應(yīng)的實(shí)體描述信息.這些關(guān)系路徑和實(shí)體描述等信息蘊(yùn)含著豐富的語(yǔ)義,能夠?yàn)橥评硖峁└_切可靠的輔助信息,從而能夠顯著提高知識(shí)圖譜表示學(xué)習(xí)的能力,提高推理的準(zhǔn)確性.目前,已有的引入額外信息的知識(shí)圖譜表示方法只考慮在基于翻譯模型的基礎(chǔ)上,融合一種額外的信息,從而提高知識(shí)圖譜表示學(xué)習(xí)的能力,例如,DKRL(description-embodied knowledge representation learning)模型[9]和PTransE(path-based TransE)模型[10].為了能夠更好地提高知識(shí)圖譜表示學(xué)習(xí)的能力,本文綜合考慮了知識(shí)圖譜中的關(guān)系路徑與實(shí)體描述信息.

綜上分析,本文提出了一種融合關(guān)系路徑與實(shí)體描述信息的知識(shí)圖譜表示學(xué)習(xí)方法(relation path and entity description information based knowledge graph representation learning, PDRL).本文的主要貢獻(xiàn)簡(jiǎn)要描述為:

1) 提出了一個(gè)融合多源信息的知識(shí)圖譜表示學(xué)習(xí)模型PDRL,包括三元組信息、關(guān)系路徑信息以及實(shí)體描述信息,綜合提高知識(shí)圖譜表示學(xué)習(xí)的能力,進(jìn)而進(jìn)行推理.

2) 考慮實(shí)體描述中的語(yǔ)義信息,利用BERT(bidirectional encoder representations from trans-formers)模型[11]對(duì)其進(jìn)行實(shí)體描述信息的編碼表示;有效利用知識(shí)圖譜中存在的大量關(guān)系路徑信息,能夠準(zhǔn)確推理出實(shí)體對(duì)之間的直接關(guān)系,這里不僅考慮了關(guān)系路徑上的關(guān)系信息,也考慮了關(guān)系路徑上的實(shí)體信息.結(jié)合能夠處理知識(shí)圖譜中較為復(fù)雜關(guān)系的TransR模型,訓(xùn)練一個(gè)整合模型以提高知識(shí)圖譜推理的性能.

3) 本文在FB15K,WN18,F(xiàn)B15K-237,WN18RR數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),在鏈接預(yù)測(cè)和三元組分類任務(wù)中,與其他基準(zhǔn)模型相比,均取得了較好的效果.

1 相關(guān)工作

知識(shí)圖譜表示學(xué)習(xí)在知識(shí)推理中發(fā)揮著重要的作用,基于知識(shí)圖譜表示學(xué)習(xí)的推理是將知識(shí)圖譜中包括實(shí)體和關(guān)系的元素映射到一個(gè)連續(xù)低維的向量空間中,為每一個(gè)元素學(xué)習(xí)在向量空間中的向量表示.關(guān)于知識(shí)圖譜表示學(xué)習(xí)的代表性工作不少,接下來(lái)將從基于翻譯思想和引入額外信息2個(gè)方面概述已有模型并分析其優(yōu)缺點(diǎn).

1.1 基于翻譯思想的知識(shí)圖譜表示學(xué)習(xí)模型

結(jié)構(gòu)化嵌入(structured embedding, SE)模型[12]是知識(shí)圖譜表示學(xué)習(xí)較早的嘗試,它使用2個(gè)獨(dú)立的矩陣為每個(gè)關(guān)系投影頭尾實(shí)體,但矩陣的獨(dú)立性將導(dǎo)致實(shí)體之間的協(xié)調(diào)性較差,并且在大型知識(shí)圖譜上效果不夠好.因此,文獻(xiàn)[13]提出了一個(gè)最簡(jiǎn)單有效的知識(shí)圖譜嵌入TransE模型,該模型將三元組中的關(guān)系看作是從頭實(shí)體向量到尾實(shí)體向量的翻譯,進(jìn)而學(xué)習(xí)知識(shí)圖譜中實(shí)體和關(guān)系的向量表示,該模型的靈感主要來(lái)源于文獻(xiàn)[14].TransE模型假設(shè)給定任意一個(gè)正確的三元組(h,r,t),頭實(shí)體的向量表示h*加上關(guān)系的向量表示r*應(yīng)該等于尾實(shí)體的向量表示t*,基于此定義TransE模型的能量函數(shù):

E(h,r,t)=‖h*+r*-t*‖,

(1)

當(dāng)進(jìn)行推理時(shí),能量值最小的候選實(shí)體或關(guān)系就是推理出的結(jié)果.

E(h,r,t)=‖h*TransH+r*-t*TransH‖.

(2)

Wen等人[16]在TransH的基礎(chǔ)上,提出了m-TransH模型,直接建模多元關(guān)系.事實(shí)上,每個(gè)實(shí)體通常可以從多個(gè)方面描述,且不同關(guān)系可能關(guān)注實(shí)體的不同方面.因此,實(shí)體在不同關(guān)系中應(yīng)具有不同的表示.TransH通過(guò)將實(shí)體投影到對(duì)應(yīng)關(guān)系的超平面,雖然使實(shí)體在不同關(guān)系中的不同表示已成為可能,但實(shí)體、關(guān)系以及投影后的實(shí)體仍在一個(gè)相同的向量空間,這在一定程度上限制了實(shí)體和關(guān)系的語(yǔ)義表示能力.因此,Lin等人[17]提出了TransR模型,其將實(shí)體和關(guān)系通過(guò)關(guān)系矩陣Mr投影到不同的向量空間,即h*TransR=h*Mr,t*TransR=t*Mr,基于此定義TransR模型的能量函數(shù):

E(h,r,t)=‖h*TransR+r*-t*TransR‖.

(3)

TransR模型通過(guò)區(qū)分實(shí)體向量和關(guān)系向量表示空間增加了模型的表達(dá)能力,并提升了表示學(xué)習(xí)的效果.然而,TransR模型為每個(gè)關(guān)系學(xué)習(xí)一個(gè)唯一的向量表示,這可能不足以適合所有與這個(gè)關(guān)系相關(guān)的實(shí)體對(duì).因此,Lin等人[17]也提出了CTransR模型,通過(guò)將不同的實(shí)體對(duì)聚類成組,在每個(gè)組中學(xué)習(xí)關(guān)系的不同嵌入表示.除此以外,比較典型的嵌入表示模型還有TransD[18],TransM[19],TransA[20],TransG[21]等.

文獻(xiàn)[12-21]所提的模型考慮的是在實(shí)數(shù)向量空間中的表示,最近還有一些模型考慮在復(fù)向量空間中進(jìn)行表示學(xué)習(xí).如文獻(xiàn)[22]為了能夠更好地建模對(duì)稱和非對(duì)稱關(guān)系,提出了RotatE模型,其將實(shí)體表示為復(fù)數(shù)向量空間中的點(diǎn),關(guān)系表示為從頭實(shí)體到尾實(shí)體的旋轉(zhuǎn).HAKE(hierarchy-aware knowledge graph embedding)模型[23]在RotatE模型的基礎(chǔ)之上進(jìn)行改進(jìn),通過(guò)極坐標(biāo)的方法,結(jié)合實(shí)體的模信息和相位信息,并結(jié)合翻譯模型的思想,提出了一種可以建模實(shí)體間語(yǔ)義層次關(guān)系的模型,進(jìn)一步提高了知識(shí)圖譜表示學(xué)習(xí)的性能.目前絕大多數(shù)模型對(duì)關(guān)系的建模方式是單一的,例如平移或者旋轉(zhuǎn),限制了底層模型的表達(dá)能力.為了包含更豐富的關(guān)系信息,文獻(xiàn)[24]提出了對(duì)偶四元數(shù)知識(shí)圖譜嵌入方法,將平移和旋轉(zhuǎn)操作同時(shí)在對(duì)偶四元數(shù)空間中建模.

1.2 引入額外信息的知識(shí)圖譜表示學(xué)習(xí)模型

1.1節(jié)所述方法雖然從某些角度解決了TransE的部分問(wèn)題,但是僅考慮了知識(shí)圖譜中單個(gè)三元組.事實(shí)上,除了三元組本身的結(jié)構(gòu)信息之外,知識(shí)圖譜中往往還包括關(guān)系路徑、實(shí)體描述、屬性信息及實(shí)體類型等豐富的額外信息,若知識(shí)圖譜表示學(xué)習(xí)模型能夠更好地利用這些多源信息,將進(jìn)一步提高模型的語(yǔ)義表示能力,進(jìn)而實(shí)現(xiàn)更好的推理.接下來(lái)將從3個(gè)方面對(duì)現(xiàn)有模型進(jìn)行綜述:

1) 在考慮實(shí)體間多步間接路徑的語(yǔ)義關(guān)系方面.Lin等人[10]提出了PTransE模型,該模型是一種基于路徑的模型,首先使用路徑約束資源算法(path-constraint resource allocation, PCRA)來(lái)度量關(guān)系路徑的置信度,然后將獲取到的關(guān)系路徑信息通過(guò)相加、相乘和循環(huán)神經(jīng)網(wǎng)絡(luò)的方式進(jìn)行組合表示,最后將組合表示后的關(guān)系路徑融入到知識(shí)表示學(xué)習(xí)模型中,取得了一定的成效.RTransE[25]模型也考慮了知識(shí)圖譜中的關(guān)系路徑.

2) 在考慮實(shí)體描述信息方面.Xie等人[9]將知識(shí)圖譜中的實(shí)體描述信息融入到知識(shí)圖譜表示學(xué)習(xí)當(dāng)中,提出了DKRL模型,該模型分別使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)和連續(xù)詞袋模型(continuous bag-of-words, CBOW)對(duì)實(shí)體描述信息進(jìn)行編碼表示,同時(shí)利用事實(shí)三元組和實(shí)體描述信息進(jìn)行學(xué)習(xí),最后得到較好的推理效果.實(shí)際上,在大型的知識(shí)圖譜中,有很多實(shí)體對(duì)應(yīng)的實(shí)體描述信息缺失,基于此,Wang等人[26]引入了外部文本語(yǔ)料庫(kù),將文本語(yǔ)料庫(kù)中的實(shí)體語(yǔ)義結(jié)構(gòu)作為實(shí)體表示的一部分,從而進(jìn)一步提高實(shí)體描述缺失情況下知識(shí)推理的準(zhǔn)確性.文獻(xiàn)[27]提出了一種規(guī)則引導(dǎo)的知識(shí)圖譜聯(lián)合嵌入學(xué)習(xí)模型,使用圖卷積網(wǎng)絡(luò),將上下文信息與文本信息融合到實(shí)體與關(guān)系的嵌入表示中,進(jìn)一步提高了實(shí)體和關(guān)系的表示能力.

3) 在考慮實(shí)體屬性信息方面.文獻(xiàn)[28]提出了一種結(jié)合實(shí)體屬性信息的表示學(xué)習(xí)方法,使用深度卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)實(shí)體屬性信息進(jìn)行編碼,利用屬性信息和三元組結(jié)構(gòu)化信息學(xué)習(xí)知識(shí)表示,生成基于屬性的實(shí)體表示,進(jìn)一步提高了實(shí)體的表示能力.TransE及其擴(kuò)展模型僅使用知識(shí)圖譜之間的關(guān)系信息作為監(jiān)督信號(hào)對(duì)實(shí)體嵌入施加約束,但實(shí)際上實(shí)體層次類也能夠?yàn)橹R(shí)表示學(xué)習(xí)提供重要的信息.Xie等人[29]提出了TKRL(type-embodied knowledge representation learning)模型,該模型融合了層次類型信息.除此之外,Xie等人[30]提出了IKRL(image-embodied knowledge representation learning)模型,將實(shí)體圖像信息融合到知識(shí)表示學(xué)習(xí)當(dāng)中.

此外,最近研究發(fā)現(xiàn),之前的方法是對(duì)每一個(gè)實(shí)體或關(guān)系進(jìn)行單一的靜態(tài)表示,忽略了實(shí)體和關(guān)系在不同上下文對(duì)應(yīng)的真正含義,也就是說(shuō)在不同的上下文中,實(shí)體和關(guān)系的含義經(jīng)常是不同的,需要根據(jù)上下文語(yǔ)義信息來(lái)判斷采取怎樣的表示.文獻(xiàn)[31-32]將知識(shí)圖譜中子圖和路徑作為某一實(shí)體的上下文語(yǔ)義信息,提出了結(jié)合語(yǔ)境的動(dòng)態(tài)知識(shí)圖譜表示學(xué)習(xí)的方法,在一定程度上取得了較好的效果.

文獻(xiàn)[9-10]引入額外信息的知識(shí)圖譜表示學(xué)習(xí)方法都僅在基于翻譯模型的基礎(chǔ)上,考慮知識(shí)圖譜中的一種額外信息,融合方式單一,對(duì)知識(shí)圖譜中的額外信息融合程度低,未能充分利用知識(shí)圖譜中的額外信息,因此本文將知識(shí)圖譜中的關(guān)系路徑與實(shí)體描述信息進(jìn)一步融合,促進(jìn)知識(shí)圖譜表示學(xué)習(xí)的性能.

2 融合關(guān)系路徑與實(shí)體描述的知識(shí)圖譜表示學(xué)習(xí)模型

現(xiàn)有的方法對(duì)關(guān)系路徑進(jìn)行表示時(shí),絕大多數(shù)只考慮路徑上的關(guān)系信息,沒(méi)有考慮實(shí)體信息.DKRL模型對(duì)實(shí)體描述信息進(jìn)行關(guān)鍵詞抽取,使用CBOW和CNN對(duì)其編碼表示,得到的表示沒(méi)有包含實(shí)體描述的全部語(yǔ)義信息.針對(duì)該問(wèn)題,本文提出了一種融合關(guān)系路徑與實(shí)體描述信息的新型知識(shí)圖譜表示學(xué)習(xí)方法,不僅考慮關(guān)系路徑上的實(shí)體信息,而且能夠表示出實(shí)體描述的全部語(yǔ)義信息,解決了實(shí)體描述中的一詞多義的問(wèn)題.將關(guān)系路徑、實(shí)體描述與知識(shí)圖譜三元組很好地結(jié)合,不僅提高了知識(shí)圖譜中實(shí)體和關(guān)系的語(yǔ)義表示,也很大程度上促進(jìn)了知識(shí)圖譜推理的準(zhǔn)確性.該方法可以充分利用知識(shí)圖譜中關(guān)系路徑與實(shí)體描述的信息,來(lái)進(jìn)一步增強(qiáng)知識(shí)表示學(xué)習(xí)的能力,從而進(jìn)行更好的推理.

2.1 概念及符號(hào)定義

為了能夠更好地描述本文提出的模型,首先給出相關(guān)的符號(hào)定義.將一個(gè)知識(shí)圖譜定義為KG=(E,R,T),其中E,R分別表示知識(shí)圖譜中所有實(shí)體、關(guān)系的集合,T表示所有三元組(h,r,t)的集合,其中h,t∈E,r∈R.

定義1.基于結(jié)構(gòu)的表示.h*TransH,t*TransH,r*是頭實(shí)體、尾實(shí)體和關(guān)系基于TransH的結(jié)構(gòu)化向量表示;h*TransR,t*TransR,r*是頭實(shí)體、尾實(shí)體和關(guān)系基于TransR的結(jié)構(gòu)化向量表示.

定義2.基于關(guān)系路徑的表示.如圖1所示,給定一個(gè)實(shí)體對(duì)(h,t)之間的一個(gè)關(guān)系路徑p=(r1,e1,…,el-1,rl),代表這個(gè)關(guān)系路徑上有l(wèi)個(gè)關(guān)系、l-1個(gè)實(shí)體.路徑的向量表示p*是通過(guò)將關(guān)系路徑中的實(shí)體和關(guān)系表示相加得到的.

Fig. 1 The example of relation path圖1 關(guān)系路徑示例

定義3.基于實(shí)體描述的表示.h*d和t*d是基于實(shí)體描述信息的實(shí)體向量表示,可以從對(duì)應(yīng)的實(shí)體描述信息中建模頭實(shí)體、尾實(shí)體的表示.

2.2 模型框架

本文綜合考慮了關(guān)系路徑和實(shí)體描述等信息,構(gòu)建了PDRL模型.該模型是一個(gè)聯(lián)合模型,主要由關(guān)系路徑信息的表示和實(shí)體描述信息的表示2個(gè)模塊組成,模型的總體架構(gòu)如圖2所示.當(dāng)在不同模塊采用不同算法策略時(shí),可獲得相應(yīng)的算法模型,基于此,本文提出了PDRL,DKRL(BERT)+TransR,PTransR這3個(gè)算法實(shí)現(xiàn)模型.

1) PDRL.該模型是一個(gè)聯(lián)合模型,主要包括2部分:①對(duì)知識(shí)圖譜中實(shí)體對(duì)之間的多步關(guān)系路徑進(jìn)行表示;②考慮知識(shí)圖譜中實(shí)體對(duì)之間的直接關(guān)系,聯(lián)合知識(shí)圖譜中三元組結(jié)構(gòu)化信息以及實(shí)體描述信息進(jìn)行表示.在關(guān)系路徑信息的表示中,首先通過(guò)路徑排序算法(path ranking algorithm, PRA)[33]獲取知識(shí)圖譜中實(shí)體對(duì)之間的關(guān)系路徑信息,然后對(duì)關(guān)系路徑進(jìn)行表示得到組合向量,最后與實(shí)體對(duì)之間的直接關(guān)系向量進(jìn)行相似度計(jì)算操作.在實(shí)體描述信息的表示中,首先使用BERT預(yù)訓(xùn)練模型對(duì)實(shí)體描述信息進(jìn)行嵌入,然后得到實(shí)體描述的向量表示,最后將得到實(shí)體描述的向量表示與實(shí)體的向量表示在相同的向量空間中進(jìn)行學(xué)習(xí).最終,將2部分任務(wù)的結(jié)果進(jìn)一步綜合,共同訓(xùn)練學(xué)習(xí),獲取模型融合后實(shí)體和關(guān)系的向量表示,進(jìn)而提高知識(shí)圖譜的表示能力及推理性能.PDRL是在TransR的基礎(chǔ)之上,融合了關(guān)系路徑與實(shí)體描述進(jìn)行知識(shí)圖譜表示學(xué)習(xí);PDRL(TransH)是在TransH的基礎(chǔ)之上,融合了關(guān)系路徑與實(shí)體描述進(jìn)行知識(shí)圖譜表示學(xué)習(xí);PDRL(-Entity)是在PDRL的基礎(chǔ)之上,對(duì)關(guān)系路徑進(jìn)行組合表示時(shí),不使用關(guān)系路徑上的實(shí)體信息.

2) DKRL(BERT)+TransR.該模型主要考慮實(shí)體描述信息的表示,在DKRL模型的基礎(chǔ)之上,使用BERT預(yù)訓(xùn)練模型代替CNN對(duì)實(shí)體描述信息進(jìn)行處理,得到實(shí)體描述的向量表示,然后結(jié)合能夠解決實(shí)體對(duì)之間復(fù)雜關(guān)系的TransR模型,共同訓(xùn)練學(xué)習(xí).

3) PTransR.該模型主要考慮關(guān)系路徑信息的表示,在PTransE模型的基礎(chǔ)之上,使用了能夠解決實(shí)體對(duì)之間復(fù)雜關(guān)系的TransR模型代替TransE模型,進(jìn)行訓(xùn)練學(xué)習(xí).

Fig. 2 The architecture of PDRL model圖2 PDRL模型架構(gòu)

2.3 關(guān)系路徑信息的表示

在知識(shí)圖譜中,多步關(guān)系路徑可以提供看似不相連的實(shí)體對(duì)之間的關(guān)系,因此,本文在知識(shí)圖譜表示學(xué)習(xí)中引入了知識(shí)圖譜中的關(guān)系路徑信息.假定2個(gè)實(shí)體h和t之間存在多條可以相連的關(guān)系路徑,即P={p1,p2,…,pN},代表實(shí)體對(duì)h和t之間存在N條路徑,一條關(guān)系路徑示例如圖1所示.

本文需要給路徑三元組(h,p,t)定義一個(gè)類似TransE的能量函數(shù).首先,對(duì)實(shí)體對(duì)之間的關(guān)系路徑信息進(jìn)行組合表示操作,在向量空間中表示關(guān)系路徑p.雖然實(shí)體對(duì)之間的關(guān)系路徑的語(yǔ)義信息很大程度上依賴路徑上的關(guān)系,但是路徑上的實(shí)體信息也對(duì)實(shí)體對(duì)之間的路徑推理起著重要作用,因此,本文考慮關(guān)系路徑上的關(guān)系和實(shí)體信息,將更有助于提高知識(shí)推理的準(zhǔn)確性.

使用加法運(yùn)算將關(guān)系路徑的所有向量表示相加得到路徑的組合向量表示,定義該路徑的組合表示:

p*=r*1+e*1+…+e*l-1+r*l.

(4)

對(duì)于多步關(guān)系路徑三元組(h,p,t),本文參考式(1)TransE模型的能量函數(shù),將單條路徑三元組的能量函數(shù)定義為E(h,p,t)=‖h*+p*-t*‖,進(jìn)一步可以進(jìn)行如下計(jì)算分析:

E(h,p,t)=‖h*+p*-t*‖=
‖p*-(t*-h*)‖=‖p*-r*‖=E(p,r),

(5)

由式(5)可以看出,如果關(guān)系路徑p和實(shí)體對(duì)之間的關(guān)系r的向量的距離越近,即它們的相似度越高,則由路徑p推理得出的關(guān)系r可能性就越高.

根據(jù)已有針對(duì)事實(shí)三元組(h,r,t)的路徑約束資源分配算法[10],本文將考慮多條關(guān)系路徑時(shí)的綜合能量函數(shù):

(6)

(7)

其中,p∈P(h,t)表示依次遍歷實(shí)體對(duì)之間所有可能的關(guān)系路徑,R(p|h,t)表示給定實(shí)體對(duì)(h,t)之間存在關(guān)系路徑p的可靠性,Z是歸一化因子,E(h,p,t)表示式(5)單條路徑三元組(h,p,t)的能量函數(shù).

并不是所有的關(guān)系路徑都是可靠且對(duì)知識(shí)圖譜表示學(xué)習(xí)是有意義的,而且實(shí)體對(duì)之間的關(guān)系路徑會(huì)有很多,遍歷所有的關(guān)系路徑,計(jì)算消耗會(huì)很大,因此本文只考慮知識(shí)圖譜中實(shí)體對(duì)之間2步和3步的關(guān)系路徑.

2.4 實(shí)體描述信息的表示

DKRL模型[9]是一個(gè)經(jīng)典的模型,該模型通過(guò)融合實(shí)體描述進(jìn)行知識(shí)圖譜表示學(xué)習(xí).該模型首先對(duì)實(shí)體描述進(jìn)行關(guān)鍵詞提取,然后使用CBOW和CNN對(duì)其進(jìn)行編碼,得到相對(duì)應(yīng)的表示,由于這些表示沒(méi)有包含實(shí)體描述的全部語(yǔ)義信息,將會(huì)造成一定語(yǔ)義信息的損失.因此,本文引入了BERT模型[11],對(duì)完整的實(shí)體描述信息進(jìn)行表示.實(shí)體描述信息作為BERT模型的直接輸入,能夠最小化信息的損失,盡可能獲取實(shí)體描述的全部語(yǔ)義表示.

Fig. 3 BERT model structure[11]圖3 BERT模型結(jié)構(gòu)圖[11]

BERT模型[11]是谷歌于2018年發(fā)布的語(yǔ)言表示模型,在自然語(yǔ)言處理領(lǐng)域多項(xiàng)任務(wù)中都達(dá)到了最好的結(jié)果,是一項(xiàng)重要的突破,模型架構(gòu)如圖3所示.該模型使用了多層Transformer模型結(jié)構(gòu)[34],能夠捕捉語(yǔ)句中的雙向關(guān)系,和循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)相比更加高效,能捕捉更長(zhǎng)距離的依賴,在圖3中用Trm表示Transformer模型.對(duì)比之前的預(yù)訓(xùn)練模型,它能夠更好地捕捉文本的雙向上下文信息.

本文基于官方給定的BERT語(yǔ)言表征模型[11]對(duì)實(shí)體描述信息進(jìn)行編碼建模.首先將實(shí)體描述信息轉(zhuǎn)換為詞嵌入、分割嵌入和位置嵌入;然后將其進(jìn)行向量拼接,作為BERT模型的輸入,通過(guò)多層Transformer結(jié)構(gòu),得到該實(shí)體描述信息的句向量;最后對(duì)所有的句向量求平均值,得到基于實(shí)體描述信息的向量表示,將其作為該實(shí)體對(duì)應(yīng)的描述信息的實(shí)體表示.實(shí)體描述信息的整體建模流程,如圖4所示,其中是Si(i=1,2,…,n)表示的是第i句的句向量.定義實(shí)體描述信息的向量表示h*d:

(8)

Fig. 4 The representation of entity description information圖4 實(shí)體描述信息的表示

通過(guò)將知識(shí)圖譜中的三元組和實(shí)體描述信息相結(jié)合,能夠更好地學(xué)習(xí)實(shí)體和關(guān)系的最優(yōu)向量表示.基于結(jié)構(gòu)的表示能夠較好地捕捉知識(shí)圖譜的事實(shí)三元組信息,而基于實(shí)體描述的表示能夠較好地捕捉文本信息.通常情況下,相似的實(shí)體應(yīng)該有相似的描述信息,并且有相似的關(guān)鍵詞.這些關(guān)系難以通過(guò)結(jié)構(gòu)信息直接得到,但通過(guò)關(guān)鍵詞的內(nèi)在聯(lián)系可能會(huì)發(fā)現(xiàn)這些關(guān)系.在相同的連續(xù)低維的向量空間中,對(duì)基于結(jié)構(gòu)的表示和基于實(shí)體描述信息的表示同時(shí)進(jìn)行學(xué)習(xí),將有可能得到更好的表示能力.由此,本文將基于實(shí)體描述信息表示的能量函數(shù)定義為

Ed=Edd+Eds+Esd,

(9)

其中,Edd=‖h*d+r*-t*d‖,Eds=‖h*d+r*-t*s‖,Esd=‖h*s+r*-t*d‖.h*s和t*s代表基于結(jié)構(gòu)的表示;h*d和t*d代表基于實(shí)體描述信息的表示.Edd代表頭尾實(shí)體都是基于實(shí)體描述信息表示的能量函數(shù);Eds代表頭實(shí)體是基于實(shí)體描述的表示、尾實(shí)體是基于結(jié)構(gòu)表示的能量函數(shù);Esd代表頭實(shí)體是基于結(jié)構(gòu)表示、尾實(shí)體是基于實(shí)體描述表示的能量函數(shù).基于這種方式定義能量函數(shù),能夠同時(shí)將結(jié)構(gòu)、實(shí)體描述等信息應(yīng)用到訓(xùn)練學(xué)習(xí)中,從而更好地獲取實(shí)體和關(guān)系的向量表示.

2.5 模型訓(xùn)練

為了更好地學(xué)習(xí)實(shí)體和關(guān)系的最優(yōu)化表示,本文的PDRL模型通過(guò)將知識(shí)圖譜的三元組結(jié)構(gòu)信息、關(guān)系路徑和實(shí)體描述結(jié)合起來(lái),綜合進(jìn)行模型的訓(xùn)練.在相同的連續(xù)低維的向量空間中,學(xué)習(xí)實(shí)體和關(guān)系的向量表示.綜合的能量函數(shù)定義為

E=Es+Ep+Ed,

(10)

其中,Es是基于結(jié)構(gòu)表示的能量函數(shù),基于具體的實(shí)現(xiàn)算法不同可采用TransH或TransR所定義的能量函數(shù),Ep是式(6)定義的基于關(guān)系路徑表示的能量函數(shù),Ed是式(9)定義的基于實(shí)體描述信息表示的能量函數(shù).

基于式(10),可得到基于結(jié)構(gòu)表示和實(shí)體描述表示的能量函數(shù),當(dāng)Es分別采用TransH,TransR的定義時(shí),可得具體的計(jì)算表達(dá)式,下面具體說(shuō)明.

1) 在TransH基礎(chǔ)上融合實(shí)體描述模型的能量函數(shù):

ETransH(h,r,t)=‖h*TransH+r*-t*TransH‖+
‖h*d+r*-t*d‖+‖h*d+r*-t*TransH‖+
‖h*TransH+r*-t*d‖,

(11)

“三農(nóng)”工作是我國(guó)經(jīng)濟(jì)工作的重要組成部分,長(zhǎng)期以來(lái)一直是黨的工作的重中之重。在決勝全面建成小康社會(huì)的背景下,如何滿足農(nóng)民追求美好生活需求,實(shí)施鄉(xiāng)村振興戰(zhàn)略是今后解決“三農(nóng)”問(wèn)題,全面激活農(nóng)村發(fā)展新活力的重大行動(dòng)。進(jìn)一步建立健全城鄉(xiāng)融合發(fā)展的體制機(jī)制和政策體系,加快推進(jìn)農(nóng)業(yè)農(nóng)村現(xiàn)代化,才能使農(nóng)村的“三農(nóng)”活力被真正激發(fā)起來(lái)。堅(jiān)持農(nóng)業(yè)農(nóng)村優(yōu)先發(fā)展,鞏固和完善農(nóng)村基本經(jīng)營(yíng)制度,深化農(nóng)村集體產(chǎn)權(quán)制度改革,保持土地承包關(guān)系穩(wěn)定并長(zhǎng)久不變,把中國(guó)人的飯碗牢牢端在自己手中,構(gòu)建現(xiàn)代農(nóng)業(yè)產(chǎn)業(yè)體系,促進(jìn)農(nóng)村一二三產(chǎn)業(yè)融合發(fā)展,這些都是推進(jìn)“三農(nóng)”建設(shè)的根本。

2) 在TransR基礎(chǔ)上融合實(shí)體描述模型的能量函數(shù):

ETransR(h,r,t)=‖h*TransR+r*-t*TransR‖+
‖h*d+r*-t*d‖+‖h*d+r*-t*TransR‖+
‖h*TransR+r*-t*d‖,

(12)

其中,h*TransR=h*Mr,t*TransR=t*Mr.

在上述計(jì)算分析的基礎(chǔ)上,進(jìn)一步構(gòu)造出損失函數(shù).定義基于邊界的優(yōu)化方法,并將其作為訓(xùn)練目標(biāo),通過(guò)最小化損失函數(shù)L來(lái)優(yōu)化該模型:

(13)

其中

(14)

(15)

其中,γ是衡量正確三元組和錯(cuò)誤三元組的邊界參數(shù).E(h,r,t)是基于結(jié)構(gòu)和實(shí)體描述信息的能量函數(shù),當(dāng)使用基于TransH結(jié)構(gòu)化模型時(shí),E(h,r,t)=ETransH(h,r,t);當(dāng)使用基于TransR結(jié)構(gòu)化模型時(shí),E(h,r,t)=ETransR(h,r,t).E(p,r)是基于關(guān)系路徑的能量函數(shù).T是由正確三元組(h,r,t)構(gòu)成的正例集合,T′是由錯(cuò)誤三元組(h′,r′,t′)構(gòu)成的負(fù)例集合.給出T′的定義:

T′={(h′,r,t)|h′∈E,(h′,r,t)?T}∪
{(h,r′,t)|r′∈R,(h,r′,t)?T}∪
{(h,r,t′)|t′∈E,(h,r,t′)?T},

(16)

式(16)中的T′是通過(guò)隨機(jī)替換正例集合中的頭實(shí)體、尾實(shí)體或者關(guān)系,得到相對(duì)應(yīng)的負(fù)實(shí)例集合.在模型訓(xùn)練過(guò)程中,使用隨機(jī)梯度下降法進(jìn)行優(yōu)化操作,使其損失函數(shù)的值最小化.

3 實(shí)驗(yàn)結(jié)果及分析

3.1 實(shí)驗(yàn)數(shù)據(jù)集

本文實(shí)驗(yàn)采用的數(shù)據(jù)集是FB15K[13],WN18[35],F(xiàn)B15K-237[36],WN18RR[37]標(biāo)準(zhǔn)數(shù)據(jù)集,數(shù)據(jù)集中的實(shí)體都有相對(duì)應(yīng)的簡(jiǎn)短描述信息.其中,F(xiàn)B15K是從大規(guī)模知識(shí)庫(kù)FreeBase[4]中提取得到的,F(xiàn)B15K-237是FB15K的一個(gè)子集,并刪除了FB15K中的反向關(guān)系;WN18是從WordNet[38]知識(shí)庫(kù)中提取出來(lái)的,WN18RR是WN18的一個(gè)子集,并刪除了WN18中的反向關(guān)系.本文將數(shù)據(jù)集分別劃分為訓(xùn)練數(shù)據(jù)集、驗(yàn)證數(shù)據(jù)集和測(cè)試數(shù)據(jù)集.所用數(shù)據(jù)集的相關(guān)情況,如表1所示:

Table 1 Statistics of the Used Datasets表1 所用數(shù)據(jù)集統(tǒng)計(jì)情況

3.2 測(cè)試模型和參數(shù)設(shè)置

3.2.1 測(cè)試模型

基于本文所提出的模型框架,可實(shí)現(xiàn)的預(yù)測(cè)模型包括:

1) DKRL(BERT)+TransR.該模型綜合了通過(guò)BERT模型編碼得到的實(shí)體描述向量表示與TransR一起進(jìn)行訓(xùn)練學(xué)習(xí);

2) PTransR.該模型是在PTransE的基礎(chǔ)之上,將關(guān)系路徑與TransR一起進(jìn)行訓(xùn)練學(xué)習(xí);

3) PDRL(TransH).該模型綜合了基于關(guān)系路徑的信息、基于實(shí)體描述的信息和基于TransH的結(jié)構(gòu)信息,共同進(jìn)行訓(xùn)練學(xué)習(xí);

4) PDRL.該模型綜合了基于關(guān)系路徑的信息、基于實(shí)體描述的信息和基于TransR的結(jié)構(gòu)信息,共同進(jìn)行訓(xùn)練學(xué)習(xí);

5) PDRL(-Entity).在PDRL的基礎(chǔ)之上,對(duì)關(guān)系路徑進(jìn)行表示時(shí),不使用關(guān)系路徑信息上的實(shí)體信息,進(jìn)行訓(xùn)練學(xué)習(xí).

3.2.2 參數(shù)設(shè)置

模型調(diào)試過(guò)程中,如何獲取最優(yōu)的參數(shù)是非常重要的.模型訓(xùn)練時(shí),設(shè)置參數(shù)包括:學(xué)習(xí)率λ∈{0.0005,0.001,0.002},邊界值γ∈{0.5,1.0,1.5,2.0},實(shí)體、關(guān)系和實(shí)體描述向量表示的維度D∈{50,80,100,150},batch的大小B∈{64,128,256,512,640,768}.通過(guò)實(shí)驗(yàn),得出本文所提預(yù)測(cè)模型的最優(yōu)參數(shù)設(shè)置為:學(xué)習(xí)率λ=0.001,邊界值γ=1.0,向量維度D=100,采用L1正則化參數(shù)優(yōu)化,并將懲罰因子設(shè)置為0.01,batch大小設(shè)置為512.

3.3 實(shí)驗(yàn)結(jié)果和分析

本文實(shí)驗(yàn)包括鏈接預(yù)測(cè)和三元組分類2個(gè)任務(wù).這一部分將給出這2個(gè)任務(wù)的實(shí)驗(yàn)結(jié)果并進(jìn)行相應(yīng)的分析.由于實(shí)體對(duì)之間的關(guān)系路徑會(huì)有很多,若遍歷所有長(zhǎng)度的關(guān)系路徑,計(jì)算消耗將會(huì)很大,因此,本文在模型效果驗(yàn)證和分析中重點(diǎn)以知識(shí)圖譜中實(shí)體對(duì)之間的2步和3步的關(guān)系路徑為主.

3.3.1 鏈接預(yù)測(cè)

鏈接預(yù)測(cè)任務(wù)是給定一個(gè)三元組(h,r,t)中的任意2項(xiàng),然后去預(yù)測(cè)其余一項(xiàng),即預(yù)測(cè)知識(shí)圖譜中三元組缺失的實(shí)體或者關(guān)系,主要分為實(shí)體預(yù)測(cè)和關(guān)系預(yù)測(cè)2種.實(shí)體預(yù)測(cè)的任務(wù)旨在預(yù)測(cè)知識(shí)圖譜中三元組缺失的實(shí)體,即預(yù)測(cè)缺失三元組(h,r,?)中的尾實(shí)體t或預(yù)測(cè)缺失三元組(?,r,t)中的頭實(shí)體h.關(guān)系預(yù)測(cè)旨在預(yù)測(cè)給定2個(gè)實(shí)體之間的關(guān)系信息,即預(yù)測(cè)缺失三元組(h,?,t)中的關(guān)系r.對(duì)于這項(xiàng)任務(wù),現(xiàn)有研究通常根據(jù)得分函數(shù)對(duì)候選實(shí)體或關(guān)系進(jìn)行排序,本文同樣采用這種方法.

鏈接預(yù)測(cè)任務(wù)通常采用的評(píng)估指標(biāo)主要有3個(gè):平均倒數(shù)排名(mean reciprocal rank,MRR)、平均排名(mean rank,MR)和前n命中率(Hits@n).下面詳細(xì)介紹:

1)MRR.所有正確三元組的實(shí)體或關(guān)系的倒數(shù)排名的平均值,該指標(biāo)的值越大,說(shuō)明模型的性能越好.

2)MR.所有正確三元組的實(shí)體或關(guān)系的排名的平均值,該指標(biāo)的值越小,說(shuō)明模型的性能越好.

3)Hits@n.表示排名前n中的命中率,即所有正確三元組的實(shí)體或關(guān)系的排名在前n%的比例,該指標(biāo)的值越大,說(shuō)明模型的表示學(xué)習(xí)的能力越強(qiáng),表示越準(zhǔn)確.在本實(shí)驗(yàn)中,使用Hits@1和Hits@10對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)估.

此外,還存在一個(gè)問(wèn)題,在構(gòu)造負(fù)樣本時(shí),替換頭實(shí)體、尾實(shí)體或者關(guān)系之后,所構(gòu)成的新三元組可能在知識(shí)圖譜中已經(jīng)存在,這就可能干擾正確三元組的實(shí)際排名情況,對(duì)評(píng)測(cè)結(jié)果產(chǎn)生一定的影響.因此,本文在進(jìn)行鏈接預(yù)測(cè)實(shí)驗(yàn)時(shí),根據(jù)是否過(guò)濾已經(jīng)存在的三元組,將其分為“原始(raw)”和“過(guò)濾(filter)”兩種方式.

本文實(shí)現(xiàn)的多個(gè)模型以及基準(zhǔn)模型在FB15K和WN18數(shù)據(jù)集上進(jìn)行實(shí)體預(yù)測(cè)和關(guān)系預(yù)測(cè)的實(shí)驗(yàn)結(jié)果,分別如表2和表3所示.在FB15K-237和WN18RR數(shù)據(jù)集上鏈接預(yù)測(cè)的實(shí)驗(yàn)結(jié)果,如表4所示.

從表2的結(jié)果可以觀察分析得到:

1) 在FB15K和WN18這2個(gè)數(shù)據(jù)集上,DKRL(BERT)+TransR模型的效果都要比DKRL(CNN)+TransE模型更好,在FB15K數(shù)據(jù)集上,Hits@10(filter)提升了5.8%.這不僅表明使用BERT模型能夠更好地得到實(shí)體描述信息的語(yǔ)義表示,也表明了結(jié)合基于TransR模型共同訓(xùn)練,能夠更好地利用知識(shí)圖譜的結(jié)構(gòu)信息,處理較為復(fù)雜的關(guān)系信息,效果更好.

Table 2 Entity Prediction Results on FB15K and WN18 Datasets表2 在FB15K和WN18數(shù)據(jù)集上實(shí)體預(yù)測(cè)的評(píng)估結(jié)果

2) PTransR模型的性能比PTransE模型表現(xiàn)優(yōu)異,也表明了在對(duì)關(guān)系路徑進(jìn)行建模訓(xùn)練時(shí),結(jié)合基于TransR的效果比基于TransE的效果要好,因?yàn)門ransR能夠解決知識(shí)圖譜中較為復(fù)雜的關(guān)系信息.

3) 在FB15K和WN18數(shù)據(jù)集上,DKRL(BERT)+TransR和PTransR在各個(gè)評(píng)估指標(biāo)上都優(yōu)于TransR,這表明在基于TransR的結(jié)構(gòu)化模型上,不管融合關(guān)系路徑信息,還是實(shí)體描述信息,都能夠在一定程度上提高知識(shí)圖譜中實(shí)體和關(guān)系的表示能力,進(jìn)一步促進(jìn)對(duì)實(shí)體的預(yù)測(cè).這是因?yàn)榛诮Y(jié)構(gòu)化的模型只考慮了三元組的結(jié)構(gòu)化信息,當(dāng)缺失相應(yīng)的信息時(shí),將無(wú)法進(jìn)行預(yù)測(cè),關(guān)系路徑和實(shí)體描述信息可以作為基于結(jié)構(gòu)化模型的有利補(bǔ)充,從而提高知識(shí)圖譜表示學(xué)習(xí)的能力和預(yù)測(cè)的性能.

4) 在2個(gè)數(shù)據(jù)集上,本文提出的PDRL模型在MR和Hits@10的評(píng)估指標(biāo)上均優(yōu)于所有基準(zhǔn)模型.在FB15K數(shù)據(jù)集上,與基準(zhǔn)模型中效果最好的PTransE模型相比,MR(filter)降低了24%,Hits@10(filter)提升了8.4%.這個(gè)對(duì)比結(jié)果表明,PDRL模型比其他的基準(zhǔn)模型更具有精確的知識(shí)表示能力.綜合基于關(guān)系路徑的信息、基于實(shí)體描述的信息和基于TransR的結(jié)構(gòu)信息,能夠很好地對(duì)知識(shí)圖譜中的實(shí)體和關(guān)系進(jìn)行表示,促進(jìn)實(shí)體預(yù)測(cè)的推理性能,在一定程度上提高預(yù)測(cè)的精度.

5) 對(duì)比PDRL(TransH)和PDRL的實(shí)驗(yàn)結(jié)果,可以發(fā)現(xiàn)PDRL的效果要比PDRL(TransH)好.這表明在PDRL模型融合關(guān)系路徑與實(shí)體描述的基礎(chǔ)上,結(jié)合能夠更好地處理知識(shí)圖譜中復(fù)雜關(guān)系的結(jié)構(gòu)化模型,能夠使本文提出的PDRL模型具有更好的表示能力,從而提高實(shí)體預(yù)測(cè)的精度.

6) 對(duì)比DKRL(BERT)+TransR,PTransR,PDRL的實(shí)驗(yàn)結(jié)果,可以發(fā)現(xiàn)PDRL的效果比另兩個(gè)模型的效果都好.在FB15K數(shù)據(jù)集上,評(píng)估指標(biāo)Hits@10(filter)比DKRL(BERT)+TransR提升了18.6%,比PTransR提升了5.1%,MR(filter)比DKRL(BERT)+TransR降低了31,比PTransR降低了10.這個(gè)對(duì)比結(jié)果表明,同時(shí)融合關(guān)系路徑與實(shí)體描述的語(yǔ)義信息比只使用關(guān)系路徑或者實(shí)體描述信息在提高模型的知識(shí)圖譜表示學(xué)習(xí)能力方面更加有效.

從表3的結(jié)果可以觀察分析得到:

1) 本文提出的模型DKRL(BERT)+TransR模型和模型PTransR在MR和Hits@1的評(píng)估指標(biāo)上都優(yōu)于基準(zhǔn)模型.這表明,融入實(shí)體描述信息和關(guān)系路徑信息,都能夠很好地提高關(guān)系預(yù)測(cè)的準(zhǔn)確性.同時(shí),使用BERT模型代替CNN對(duì)實(shí)體描述信息進(jìn)行處理,也表明了提高實(shí)體描述信息的語(yǔ)義表示能力也能夠更好地得到知識(shí)圖譜中實(shí)體和關(guān)系的表示,從而提高關(guān)系預(yù)測(cè)的精度.

2) 對(duì)比PDRL(-Entity)和PDRL的評(píng)估結(jié)果,差別不是很明顯,但也表明了對(duì)關(guān)系路徑進(jìn)行表示時(shí)引入實(shí)體信息,在一定程度上更有助于對(duì)實(shí)體對(duì)之間關(guān)系的預(yù)測(cè).

3) 本文提出的PDRL模型優(yōu)于其他模型的效果.這表明,同時(shí)融入關(guān)系路徑與實(shí)體描述,可以作為基于結(jié)構(gòu)化模型的補(bǔ)充,能夠提高知識(shí)圖譜表示學(xué)習(xí)能力,促進(jìn)關(guān)系的預(yù)測(cè).

在鏈接預(yù)測(cè)實(shí)驗(yàn)中,本文還評(píng)估了PDRL模型與一些較為先進(jìn)的基準(zhǔn)模型在FB15K-237和WN18RR數(shù)據(jù)集上的實(shí)驗(yàn)效果.從表4可以看出:

1) 本文提出的PDRL模型與其他先進(jìn)的基準(zhǔn)模型相比,達(dá)到了更高的水平.在FB15K-237和WN18RR這2個(gè)數(shù)據(jù)集上,與基準(zhǔn)模型中最好的結(jié)果相比,PDRL模型在評(píng)估指標(biāo)Hits@1上分別提升了2.4%和3%,這表明PDRL模型通過(guò)融合關(guān)系路徑與實(shí)體描述信息對(duì)基于結(jié)構(gòu)化的TransR模型進(jìn)行了有利的補(bǔ)充,能夠較好地提高知識(shí)圖譜表示學(xué)習(xí)的能力,從而提高預(yù)測(cè)的性能.

2) 對(duì)比PDRL模型和MINERVA的實(shí)驗(yàn)結(jié)果,可以發(fā)現(xiàn)PDRL的效果比MINERVA的效果好.這表明,在基于結(jié)構(gòu)化的模型上,引入關(guān)系路徑與實(shí)體描述信息,比單獨(dú)地使用強(qiáng)化學(xué)習(xí)通過(guò)關(guān)系路徑對(duì)知識(shí)圖譜中缺失的信息進(jìn)行預(yù)測(cè)的性能好.

Table 3 Relation Prediction Results on FB15K and WN18 Datasets表3 在FB15K和WN18數(shù)據(jù)集上關(guān)系預(yù)測(cè)的評(píng)估結(jié)果

Table 4 Link Prediction Results on FB15K-237 and WN18RR表4 鏈接預(yù)測(cè)的評(píng)估結(jié)果

3.3.2 三元組分類

三元組分類任務(wù)旨在判斷給定的一個(gè)三元組(h,r,t)是否正確,可以視為一個(gè)二分類任務(wù).為每個(gè)關(guān)系設(shè)置特定的閾值σ,如果三元組(h,r,t)的距離得分小于這個(gè)閾值σ,就認(rèn)為這個(gè)三元組是正確的,否則是錯(cuò)誤的.實(shí)驗(yàn)最終的評(píng)估標(biāo)準(zhǔn)為所有關(guān)系評(píng)估指標(biāo)的平均值.閾值σ是通過(guò)在驗(yàn)證集上訓(xùn)練、最大化分類準(zhǔn)確率得到的.本節(jié)實(shí)驗(yàn)采用與鏈接預(yù)測(cè)任務(wù)相同的實(shí)驗(yàn)設(shè)置,構(gòu)造負(fù)樣本時(shí),為了平衡數(shù)據(jù),使產(chǎn)生的負(fù)樣本數(shù)量與正樣本數(shù)量一致.各個(gè)模型在FB15K和WN18數(shù)據(jù)集上三元組分類的實(shí)驗(yàn)結(jié)果,如表5所示.

從表5的結(jié)果可以觀察分析得到,本文提出的3個(gè)模型在三元組分類任務(wù)中的表現(xiàn)均優(yōu)于其他基準(zhǔn)模型,其中PDRL模型的效果最好,在FB15K和WN18數(shù)據(jù)集上,與TransE模型相比,PDRL模型的準(zhǔn)確率分別提高了7.2%和3.6%.這表明融合關(guān)系路徑與實(shí)體描述信息,對(duì)知識(shí)圖譜表示學(xué)習(xí)具有更好的促進(jìn)作用,能夠更準(zhǔn)確地判斷三元組,進(jìn)而提高知識(shí)推理的性能.

為了能夠進(jìn)一步分析參數(shù)的設(shè)置對(duì)模型的影響,給出了3個(gè)預(yù)測(cè)模型訓(xùn)練的參數(shù)調(diào)試示意圖,如圖5和圖6所示.設(shè)定模型的最優(yōu)學(xué)習(xí)率λ=0.001,在FB15K和WN18數(shù)據(jù)集上分別比較了PDRL,DKRL(BERT)+TransR,PTransR這3個(gè)預(yù)測(cè)模型隨著嵌入維度和邊界參數(shù)的變化,三元組分類任務(wù)的準(zhǔn)確率的變化情況.從圖5和圖6中可以直觀地觀察到:1)即使沒(méi)有參數(shù)的調(diào)試,和其余2個(gè)模型相比,PDRL模型也具有較高的三元組分類能力;2)在2個(gè)數(shù)據(jù)集上,嵌入維度D=100,邊界值γ=1.0時(shí),3個(gè)模型三元組分類的準(zhǔn)確率都達(dá)到最高.

Table 5 Accuracy on Triple Classification表5 三元組分類的準(zhǔn)確率 %

Fig. 5 Tuning of embedding dimensions圖5 嵌入維度的調(diào)試

Fig. 6 Tuning of margin圖6 邊界參數(shù)的調(diào)試

4 總 結(jié)

本文提出了一種融合關(guān)系路徑與實(shí)體描述的新型知識(shí)圖譜表示學(xué)習(xí)模型,即PDRL模型.該模型綜合考慮了知識(shí)圖譜中的關(guān)系路徑信息和實(shí)體描述信息.首先,對(duì)實(shí)體對(duì)之間的關(guān)系路徑上的實(shí)體和關(guān)系信息進(jìn)行組合表示,得到相對(duì)應(yīng)的關(guān)系路徑向量表示,并與實(shí)體對(duì)之間的關(guān)系進(jìn)行了相似度計(jì)算;然后,通過(guò)BERT模型對(duì)實(shí)體描述信息進(jìn)行編碼表示,得到實(shí)體相對(duì)應(yīng)的實(shí)體描述信息表示,在此基礎(chǔ)上將實(shí)體描述信息表示與TransR模型相結(jié)合;最后,整合為一個(gè)聯(lián)合模型,共同訓(xùn)練學(xué)習(xí).在FB15K,WN18,F(xiàn)B15K-237,WN18RR數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文提出的PDRL模型能夠很好地提升鏈接預(yù)測(cè)和三元組分類任務(wù)的性能,從而能夠更好地支撐知識(shí)推理.

在未來(lái)的工作中,我們將進(jìn)一步研究基于知識(shí)圖譜表示學(xué)習(xí)的推理技術(shù),并希望能夠在3個(gè)方面進(jìn)行改進(jìn):1)在多步關(guān)系路徑的語(yǔ)義獲取中,可以考慮使用強(qiáng)化學(xué)習(xí)來(lái)獲取實(shí)體對(duì)之間的關(guān)系路徑,提高關(guān)系路徑表示的質(zhì)量.2)在實(shí)體描述信息的處理中,可以考慮互聯(lián)網(wǎng)中的文本信息,補(bǔ)充實(shí)體對(duì)應(yīng)的實(shí)體描述信息缺失的情況,擴(kuò)充文本信息的來(lái)源.同時(shí),也可以使用注意力機(jī)制,提升實(shí)體描述表示的性能.3)可以考慮融合更多的知識(shí)圖譜的額外信息,例如屬性信息和實(shí)體類型信息,綜合提高知識(shí)圖譜表示學(xué)習(xí)的性能.

作者貢獻(xiàn)聲明:寧原隆提出研究方法,負(fù)責(zé)完成實(shí)驗(yàn),撰寫(xiě)論文,并修改與校對(duì)論文;周剛負(fù)責(zé)論文的指導(dǎo)工作,提出修改意見(jiàn)并審核論文;盧記倉(cāng)負(fù)責(zé)論文結(jié)構(gòu)的指導(dǎo),以及內(nèi)容的修改和校對(duì);楊大偉負(fù)責(zé)部分實(shí)驗(yàn)的指導(dǎo);張?zhí)镓?fù)責(zé)審閱和校對(duì)論文.

猜你喜歡
信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
展會(huì)信息
一個(gè)相似模型的應(yīng)用
信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 911亚洲精品| 日韩视频福利| 一区二区在线视频免费观看| 国产乱人激情H在线观看| 在线一级毛片| 欧美va亚洲va香蕉在线| 精品人妻无码区在线视频| 欧美色香蕉| 在线观看国产黄色| 一级毛片基地| 日韩精品亚洲人旧成在线| 精品黑人一区二区三区| 午夜不卡福利| 久久精品这里只有国产中文精品| 久久成人免费| 日韩毛片基地| 国产欧美日韩免费| 欧美亚洲国产精品第一页| 亚洲综合精品香蕉久久网| 欧美A级V片在线观看| 国产在线一区二区视频| 好紧好深好大乳无码中文字幕| 国产精品美女免费视频大全| 一级毛片在线免费看| 午夜不卡视频| 97视频在线观看免费视频| 夜夜高潮夜夜爽国产伦精品| 久久一本精品久久久ー99| 欧美曰批视频免费播放免费| 亚洲第一成年网| 在线免费看黄的网站| 中文字幕无码av专区久久| 国产区福利小视频在线观看尤物| 亚洲资源站av无码网址| 高清欧美性猛交XXXX黑人猛交| AV在线麻免费观看网站| 国产成人精品无码一区二| 日韩在线播放欧美字幕| 亚洲中文字幕精品| 91偷拍一区| 天天躁夜夜躁狠狠躁躁88| 91久久性奴调教国产免费| 精品国产黑色丝袜高跟鞋| 国产在线专区| 在线观看网站国产| 欧美精品亚洲二区| 国产在线欧美| 日韩中文字幕免费在线观看 | 青草91视频免费观看| 国产精品青青| 911亚洲精品| 亚洲日本中文字幕天堂网| 91高清在线视频| 91精品免费久久久| 免费啪啪网址| 九九热精品在线视频| h视频在线观看网站| 亚洲午夜18| 91福利片| 精品国产福利在线| 亚洲黄色视频在线观看一区| 久久精品免费看一| 亚洲成人精品| 亚洲第一av网站| 日本精品视频一区二区| 欧美中文字幕在线视频 | 欧美综合区自拍亚洲综合绿色| 国产精品55夜色66夜色| 人妻中文字幕无码久久一区| 精品人妻系列无码专区久久| 一区二区三区四区在线| 最新无码专区超级碰碰碰| 国产真实乱人视频| 91久久夜色精品| 四虎成人在线视频| 免费在线a视频| 色AV色 综合网站| 亚洲自拍另类| 亚洲一区二区黄色| 免费在线不卡视频| 毛片在线播放a| 亚洲三级影院|