999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種融合主題特征的自適應(yīng)知識(shí)表示方法

2021-01-15 07:17:36陳文杰
計(jì)算機(jī)工程 2021年1期
關(guān)鍵詞:文本模型

陳文杰

(中國(guó)科學(xué)院成都文獻(xiàn)情報(bào)中心,成都 610041)

0 概述

知識(shí)圖譜是由三元組構(gòu)成的結(jié)構(gòu)化語(yǔ)義知識(shí)庫(kù),其以符號(hào)的形式描述現(xiàn)實(shí)世界中實(shí)體和實(shí)體間的連接關(guān)系。知識(shí)表示學(xué)習(xí)旨在用低維稠密的向量來表示知識(shí)圖譜中的實(shí)體或關(guān)系,向量間距離越近,則向量所表示的實(shí)體和關(guān)系在語(yǔ)義上就越相似。這種基于向量的知識(shí)表示形式能夠通過簡(jiǎn)單的數(shù)值計(jì)算來識(shí)別新的實(shí)體和關(guān)系,從而發(fā)現(xiàn)知識(shí)圖譜中的潛在知識(shí)和隱性假設(shè),并且可以作為一種先驗(yàn)知識(shí)輸入深度神經(jīng)網(wǎng)絡(luò),有效監(jiān)督和約束網(wǎng)絡(luò)的訓(xùn)練過程。

按照關(guān)系兩端實(shí)體的連接數(shù)量,可以將關(guān)系劃分為1-1、1-N、N-1 和N-N 4 種類型,其中,除1-1 以外的3 種關(guān)系都被稱為復(fù)雜關(guān)系。在現(xiàn)有的表示模型中,TransE 模型最具代表性,但該模型過于簡(jiǎn)單,僅在1-1 簡(jiǎn)單關(guān)系上效果明顯。針對(duì)復(fù)雜關(guān)系,一系列基于TransE 的擴(kuò)展模型先后被研究者提出。然而,此類模型僅通過知識(shí)圖譜中的三元組信息進(jìn)行學(xué)習(xí),大量與實(shí)體和關(guān)系相關(guān)的信息未能得到有效利用,如實(shí)體和關(guān)系的描述信息和類別信息等,而這些多源異構(gòu)的信息可以緩解數(shù)據(jù)稀疏問題,提升模型對(duì)于復(fù)雜關(guān)系的建模能力[1]。

為有效利用實(shí)體的描述信息,文獻(xiàn)[2]提出DKLR模型。該模型利用連續(xù)詞袋(Continuous Bag of Words,CBOW)模型和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)模型將描述文本轉(zhuǎn)換為實(shí)體的表示向量,并將其用于TransE 模型的訓(xùn)練中,有效地增強(qiáng)了實(shí)體的區(qū)分度[2]。目前關(guān)于關(guān)系描述信息處理的研究較少。事實(shí)上,知識(shí)圖譜中實(shí)體和實(shí)體之間存在大量的交互信息,例如:社交工具上用戶之間存在著大量的交談、評(píng)論、留言和轉(zhuǎn)發(fā)等文本信息;圖書情報(bào)領(lǐng)域中作者間的合作關(guān)系包含論文標(biāo)題、關(guān)鍵詞和摘要等詳細(xì)信息。因此,如何充分利用關(guān)系上豐富的語(yǔ)義信息實(shí)現(xiàn)知識(shí)表示學(xué)習(xí),具有廣闊的研究前景。

本文提出一種融合主題特征的自適應(yīng)知識(shí)圖譜表示方法,即TransATopic 模型。利用潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)主題模型挖掘關(guān)系以描述文本中隱含的主題信息,基于變分自編碼器(Variational Autoencoder,VAE)構(gòu)建關(guān)系向量。在此基礎(chǔ)上,通過引入對(duì)角矩陣將損失函數(shù)的度量由歐式距離改進(jìn)為馬氏距離,從而增強(qiáng)距離度量的靈活性。

1 相關(guān)工作

為更好地描述相應(yīng)的算法模型,本文給出相關(guān)的定義和符號(hào)表示。給定任意一個(gè)三元組(h,r,t),其中,h表示頭實(shí)體,r表示關(guān)系,t表示尾實(shí)體。Vh、Vr和Vt為三元組每個(gè)元素對(duì)應(yīng)的表示向量,S為知識(shí)圖譜中的三元組集,S′為三元組的負(fù)采樣集。若(h,r,t)∈S,則表示(h,r,t)是正三元組;若(h,r,t)∈S′,則表示(h,r,t)為負(fù)三元組。同時(shí),以E表示實(shí)體集,R表示關(guān)系集。

受詞向量間的平移現(xiàn)象啟發(fā),BORDES 等人提出了TransE 模型[3]。該模型將關(guān)系r對(duì)應(yīng)的向量Vr作為頭實(shí)體向量Vh和尾實(shí)體向量Vt間的平移向量。由于Vr也可以視為從Vh到Vt的翻譯,因此TransE 通常被稱為基于翻譯的模型。對(duì)于每一個(gè)三元組(h,r,t),TransE 的目的是使Vh+Vr≈Vt,因此,定義如下?lián)p失函數(shù):

該函數(shù)值即表示向量Vh+Vr和Vt之間的L1或L2距離。在實(shí)際的訓(xùn)練過程中,TransE 采用最大間隔法來增強(qiáng)知識(shí)表示的區(qū)分能力。

為解決TransE 模型處理復(fù)雜關(guān)系時(shí)的局限性問題,基于翻譯的Trans 系列模型在TransE 的基礎(chǔ)上進(jìn)行了改進(jìn)和補(bǔ)充,其中一類有效的改進(jìn)是令每個(gè)實(shí)體在不同的關(guān)系下?lián)碛卸鄠€(gè)向量表示。TransH[4]通過引入關(guān)系相關(guān)的超平面Wr將實(shí)體映射到超平面上:

StransH[5]結(jié)合了SE 模型和TransH 模型,一方面將頭尾實(shí)體映射到關(guān)系對(duì)應(yīng)的超平面上,另一方面利用單層神經(jīng)網(wǎng)絡(luò)增強(qiáng)實(shí)體和關(guān)系間的語(yǔ)義關(guān)系。PtransW[6]則利用關(guān)系路徑和關(guān)系類型的語(yǔ)義信息對(duì)TransH 進(jìn)行了擴(kuò)展。

TransR[7]和TransH類似,假設(shè)不同關(guān)系擁有不同的語(yǔ)義空間,定義了映射矩陣Mr,將實(shí)體映射到關(guān)系對(duì)應(yīng)的語(yǔ)義空間中:

TransRD[8]利用非對(duì)等轉(zhuǎn)換矩陣分別對(duì)頭實(shí)體和尾實(shí)體進(jìn)行映射,并在模型訓(xùn)練中采用AdaDelta算法自適應(yīng)調(diào)整學(xué)習(xí)率。文獻(xiàn)[9]利用卷積神經(jīng)網(wǎng)絡(luò)編碼實(shí)體的描述文本得到實(shí)體的表示,并使用不同的低秩矩陣對(duì)實(shí)體進(jìn)行映射。文獻(xiàn)[10]同樣采用卷積神經(jīng)網(wǎng)絡(luò)編碼實(shí)體的描述文本,通過注意力機(jī)制篩選文本中的有效信息,并引入位置信息和門機(jī)制得到最終的表示向量。

TransR 具有較強(qiáng)的復(fù)雜關(guān)系建模能力,但由于其為每個(gè)關(guān)系引入映射矩陣,因此導(dǎo)致參數(shù)過多,大幅增加了模型的復(fù)雜度。為簡(jiǎn)化模型,TransD[11]將映射矩陣Mr分解為2 個(gè)映射向量的乘積,定義(h,r,t)對(duì)應(yīng)的映射向量為Wh、Wr和Wt,得到:

文獻(xiàn)[12]在TransD 模型的基礎(chǔ)上,聯(lián)合了圖像和文本等多模態(tài)數(shù)據(jù)。TransParse[13]使用稀疏矩陣來代替稠密的映射矩陣Mr,其中稀疏度θr由關(guān)系r連接的實(shí)體數(shù)量決定:

不同于實(shí)體映射方法,另一類改進(jìn)TransE 的策略是放寬Vh+Vr≈Vt這一約束條件。TransM[14]為每個(gè)三元組(h,r,t)賦予一個(gè)關(guān)系相關(guān)的權(quán)值θr,定義如下?lián)p失函數(shù):

當(dāng)r屬于復(fù)雜關(guān)系時(shí)該函數(shù)中的權(quán)值較低,使得Vt在空間上離Vh+Vr更遠(yuǎn)。ManifoldM[15]則是令三元組滿足使得Vt靠近以θr為半徑的流形區(qū)域。TransF[16]要求向量Vt與向量Vh+Vr方向相同,同時(shí)Vh與Vt-Vr也具有相同的方向,定義如下?lián)p失函數(shù):

d(h+r,t)=(Vh+Vr)TVt+(Vt-Vr)TVh

TransA[17]增加了一個(gè)非負(fù)的權(quán)重矩陣Wr,其為每一維學(xué)習(xí)不同的權(quán)重,在處理復(fù)雜關(guān)系時(shí)更為靈活。TransAH[18]融合了TransA 和TransH 兩個(gè)模型,其在各項(xiàng)實(shí)驗(yàn)指標(biāo)上取得了很大進(jìn)步。TransE-SNS[19]基于K-means 算法對(duì)實(shí)體進(jìn)行聚類,然后在負(fù)采樣過程中從目標(biāo)實(shí)體所在的簇中隨機(jī)選擇一個(gè)實(shí)體來替換目標(biāo)實(shí)體,從而改善了負(fù)三元組集的質(zhì)量。TCSF[20]則在知識(shí)表示中融合了關(guān)系的先驗(yàn)概率、三元組距離和實(shí)體與關(guān)系上下文的擬合度等多種特征。

同一關(guān)系的語(yǔ)義在不同的實(shí)體間可能存在差異,如不同作者間合作的論文通常不同。因此,實(shí)體間的關(guān)系具有動(dòng)態(tài)性和復(fù)雜性,僅通過單個(gè)向量無法準(zhǔn)確地表示關(guān)系。TransG[21]模型假設(shè)一個(gè)關(guān)系可能包含多種語(yǔ)義,對(duì)每種語(yǔ)義使用一個(gè)高斯分布來刻畫,其中某些關(guān)系還可以被更細(xì)致地劃分,如FreeBase 中的“/location/contains”關(guān)系可以用來表示國(guó)家包含某城市、國(guó)家包含某所大學(xué)或省包含某城市。CTransR[7]通過對(duì)頭實(shí)體和尾實(shí)體的差值Vh-Vt進(jìn)行聚類,將關(guān)系細(xì)分為多個(gè)子關(guān)系,分別用向量表示每個(gè)子關(guān)系。

2 TransATopic 知識(shí)表示方法

本節(jié)介紹一種基于主題特征的自適應(yīng)知識(shí)圖譜表示方法,分別采用基于主題模型和變分自編器的關(guān)系向量構(gòu)建方法與自適應(yīng)度量方法解決復(fù)雜關(guān)系建模問題,并將兩個(gè)方法融合在所構(gòu)建的TransATopic模型中,實(shí)現(xiàn)模型的快速訓(xùn)練和計(jì)算。

2.1 基于主題模型和變分自編器的關(guān)系向量構(gòu)建

TransE 模型采用一種樸素的優(yōu)化方法,即使Vh+Vr-Vt=0,根據(jù)優(yōu)化規(guī)則可以得到以下結(jié)果:

1)若(h,ri,t)∈S,i∈{0,1,…,n},可推得

2)若(hi,r,t)∈S,i∈{0,1,…,m},此時(shí)r是1-N 關(guān)系,可推得同理,如果r是N-1 關(guān)系,則存在三元組(h,r,ti)∈S,可推得

TransE 等基于翻譯的模型往往把關(guān)系看作簡(jiǎn)單的實(shí)值向量,忽略了關(guān)系上豐富的文本信息,因而難以處理復(fù)雜關(guān)系。LDA 主題模型是一種非監(jiān)督模型,能夠用來識(shí)別大規(guī)模文本集中隱含的主題信息,被廣泛應(yīng)用于文本分類和自動(dòng)摘要等文本分析任務(wù)中[22]。基于此,本文考慮利用LDA 主題模型抽取關(guān)系描述文本中潛在的主題特征,并基于主題特征構(gòu)建關(guān)系向量。LDA 訓(xùn)練后會(huì)生成兩個(gè)分布,即文本-主題概率分布θ和主題-詞概率分布φ,如表1 和表2所示。表1 反映每個(gè)文本在各個(gè)主題上的分布概率,表2 則反映每個(gè)詞在各個(gè)主題中的權(quán)重。如果直接將關(guān)系描述文本d對(duì)應(yīng)的主題概率分布θd作為關(guān)系向量,此時(shí)θd中主題的個(gè)數(shù)必須與表示向量的維數(shù)相同,且θd中每一維的值(主題出現(xiàn)的概率)都為正,勢(shì)必影響知識(shí)表示的靈活性和可推理性。

表1 文本-主題概率分布Table 1 Document-topic probability distribution

表2 主題-詞概率分布Table 2 Topic-word probability distribution

本文采用變分自編碼器(VAE)[23]建模主題分布特征,以無監(jiān)督的方式構(gòu)造關(guān)系向量,VAE 的結(jié)構(gòu)如圖1 所示。其中,編碼器的輸入為x,輸出為變分分布q(z|x;φ),z是潛在向量,φ是推斷網(wǎng)絡(luò)的參數(shù)。解碼器的輸入為z,輸出為概率分布p(x|z;ω),ω是生成網(wǎng)絡(luò)的參數(shù)。令x=θd,潛在向量z即為構(gòu)造的關(guān)系向量。

圖1 變分自編碼器示意圖Fig.1 Schematic diagram of VAE

VAE 假設(shè)q(z|x;φ)服從對(duì)角化協(xié)方差的正態(tài)分布,即因此,編碼器由以下兩層神經(jīng)網(wǎng)絡(luò)構(gòu)成:

其中,W(1)、W(2)、W(3)和b(1)、b(2)、b(3)構(gòu)成推斷網(wǎng)絡(luò)的參數(shù)φ,sigmoid 和softplus 是激活函數(shù)。在解碼器中,VAE 假設(shè)p(x|z;ω)同樣服從對(duì)角化協(xié)方差的正態(tài)分布,即由解碼器預(yù)測(cè)得到。

VAE 的誤差包括重構(gòu)誤差和KL-散度誤差,總體目標(biāo)函數(shù)如下:

maxE[lnp(x|z;ω)-DKL(q(z|x;φ)||p(z;ω))

其中,先驗(yàn)分布p(z;ω)=N(z|0,I)。VAE 通過“再參數(shù)化”采樣得到潛在向量,令z=μE+σE⊙ε,將從正態(tài)分布采樣轉(zhuǎn)換為標(biāo)準(zhǔn)正態(tài)分布N(0,I)采樣,從而保證模型的訓(xùn)練效率。

傳統(tǒng)基于翻譯的表示模型實(shí)體區(qū)分效果如圖2(a)所示,由于模型沒有對(duì)關(guān)系r進(jìn)行主題識(shí)別,導(dǎo)致r的所有語(yǔ)義混在一起,因此無法對(duì)多個(gè)實(shí)體進(jìn)行有效區(qū)分。假設(shè):三元組(h,r,ti)中關(guān)系描述文檔為d1,其中i∈{1,2,3};三元組(h,r,ti)中關(guān)系描述文檔為d2,其中i∈{4,5,6,7}。本文將輸入VAE 中,得到關(guān)系向量根據(jù)不同的描述文本,將同一關(guān)系表示為不同向量,從而有效地區(qū)分出白色實(shí)體和灰色實(shí)體,提高了知識(shí)表示的準(zhǔn)確度,如圖2(b)所示。

圖2 傳統(tǒng)模型與TransATopic 模型的實(shí)體區(qū)分效果Fig.2 Comparison of entity discrimiation effects by traditional model and TransATopic model

2.2 自適應(yīng)度量方法

為有效處理復(fù)雜關(guān)系,一系列模型在TransE 的基礎(chǔ)上進(jìn)行了改進(jìn)和補(bǔ)充,如TransH、TransR 和TransD。這類翻譯模型通常根據(jù)不同的規(guī)則對(duì)實(shí)體向量進(jìn)行轉(zhuǎn)換,但采用同樣的損失函數(shù):

d(h+r,t)=(Vh+Vr-Vt)T(Vh+Vr-Vt)

由上式可知,損失函數(shù)采用歐式距離度量向量間的差異。由于在歐式距離度量中所有特征維度權(quán)重相同,靈活性不夠,導(dǎo)致知識(shí)表示能力較差,因此通常考慮引入權(quán)重矩陣將歐式距離替換為自適應(yīng)的馬氏距離,為每一維學(xué)習(xí)不同的權(quán)重[17]。對(duì)損失函數(shù)改進(jìn)如下:

圖3 歐式距離度量與馬氏距離度量效果比較Fig.3 Comparison of distance measurement effects by Euclidean distance and Mahalanobis distance

2.3 TransATopic 模型架構(gòu)與訓(xùn)練

將基于主題模型和變分自編器的關(guān)系向量構(gòu)建方法與自適應(yīng)度量方法進(jìn)行融合,用一個(gè)統(tǒng)一的模型TransATopic 來表示,如圖4 所示。

圖4 TransATopic 模型整體架構(gòu)Fig.4 Overall architecture of TransATopic model

該模型整體的損失函數(shù)如下:

其中,d是關(guān)系r上的描述文本,Zd是VAE 構(gòu)建的關(guān)系向量。在實(shí)際的模型訓(xùn)練過程中,TransATopic 與TransE 一樣采用最大間隔法來增強(qiáng)知識(shí)表示的區(qū)分能力,其目標(biāo)函數(shù)如下:

其中,[x]+表示正值函數(shù),m表示間隔距離,S'(h,r,t)是三元組(h,r,t)的負(fù)采樣集。通過將h和t替換為實(shí)體集中隨機(jī)選擇的某個(gè)實(shí)體,得到:

該目標(biāo)函數(shù)的主要目的是最大化正三元組與負(fù)三元組間的距離。

在模型的具體訓(xùn)練過程中,采用隨機(jī)梯度下降法來優(yōu)化目標(biāo)函數(shù),通過計(jì)算梯度實(shí)現(xiàn)向量和參數(shù)的自動(dòng)更新,如算法1 所示。

該訓(xùn)練算法將三元組集和關(guān)系的描述文本集作為輸入,首先利用LDA 主題模型生成文本-主題概率分布θ,然后將主題分布特征輸入變分自編碼器中得到編碼矩陣Z,最后進(jìn)行迭代訓(xùn)練:從三元組集S中隨機(jī)選取小批量三元組得到Sbatch,其中每個(gè)三元組(h,r,t)從Z中獲取對(duì)應(yīng)的關(guān)系向量Vr并生成一個(gè)負(fù)采樣集計(jì)算一對(duì)正負(fù)三元組的距離L,并計(jì)算梯度更新實(shí)體向量和權(quán)重矩陣(算法第11 行~第13行)。假設(shè)迭代訓(xùn)練了p次,批量的大小為b,每次負(fù)采樣K個(gè)三元組,則迭代訓(xùn)練部分的時(shí)間復(fù)雜度為O(pbk)。迭代訓(xùn)練中的參數(shù)是表示向量和權(quán)重對(duì)角矩陣,假設(shè)向量的長(zhǎng)度為n,則參數(shù)復(fù)雜度為O(|S|n)。

3 實(shí)驗(yàn)驗(yàn)證

本文采用Arnet-S、Arnet-M、FB13 和FB15K 數(shù)據(jù)集驗(yàn)證TransATopic的有效性。ArnetMiner[24]是一個(gè)提供基于社交網(wǎng)絡(luò)的搜索和挖掘服務(wù)的學(xué)術(shù)網(wǎng)站,其中發(fā)布了一個(gè)包含1 712 433 名作者、2 092 356 篇論文和4 258 615 種合作關(guān)系的數(shù)據(jù)集。本文將作者作為實(shí)體,合作論文的標(biāo)題和摘要作為關(guān)系的描述文本,從ArnetMiner 中抽取出兩個(gè)不同規(guī)模的數(shù)據(jù)集Arnet-S 和Arnet-M[25]。FB13 和FB15K 均是Freebase 的子集,其中,F(xiàn)B13 包含13 種關(guān)系,F(xiàn)B15K 包含1 345 種關(guān)系,本文將維基百科作為語(yǔ)料集抽取出每個(gè)關(guān)系對(duì)應(yīng)的描述文本[26]。實(shí)驗(yàn)數(shù)據(jù)集的詳細(xì)信息如表3 所示。

表3 實(shí)驗(yàn)數(shù)據(jù)集描述Table 3 Description of datasets for experiment

本文基于ArnetMiner 和Freebase 的子數(shù)據(jù)集,針對(duì)鏈接預(yù)測(cè)和三元組分類任務(wù)進(jìn)行實(shí)驗(yàn),從不同的角度評(píng)估模型預(yù)測(cè)能力和精確度。由于TransATopic模型的效果受數(shù)據(jù)規(guī)模和參數(shù)設(shè)定等因素影響,因此分別在不同因素設(shè)定下進(jìn)行測(cè)試。為分析TransATopic 的實(shí)驗(yàn)效果,選擇以下兩類不同的模型進(jìn)行比較:1)基于TransE 的距離模型,以TransH、TransA 和TransG 為代表;2)基于隨機(jī)游走策略的表示模型,通常用于學(xué)習(xí)網(wǎng)絡(luò)的結(jié)構(gòu)特征。第1 類模型已在上文相關(guān)工作中詳細(xì)介紹,不再贅述。第2 類模型介紹如下:

1)DeepWalk 通過隨機(jī)游走構(gòu)造節(jié)點(diǎn)和邊的序列,將序列視為一種特殊的“上下文”,利用skip-gram模型將節(jié)點(diǎn)和邊轉(zhuǎn)換為表示向量。

2)Node2vec 是DeepWalk 的擴(kuò)展,其通過超參數(shù)控制隨機(jī)游走的廣度和深度,使得節(jié)點(diǎn)和邊的表示既包括局部網(wǎng)絡(luò)結(jié)構(gòu)特征,又包括更深層的全局結(jié)構(gòu)信息。

3.1 鏈路預(yù)測(cè)

對(duì)于一個(gè)三元組(h,r,t),鏈路預(yù)測(cè)的主要任務(wù)是給定(h,r)預(yù)測(cè)t或給定(r,t)預(yù)測(cè)h,從而評(píng)估模型預(yù)測(cè)實(shí)體的能力。本組實(shí)驗(yàn)將Arnet-S 和FB15K 作為數(shù)據(jù)集,采用與TransE 相同的評(píng)價(jià)指標(biāo),即MeanRank 和HITS@k,以便與TransE 等現(xiàn)有模型進(jìn)行比較。其中,MeanRank 表示測(cè)試集中三元組的平均排序得分,HITS@k表示排序不超過k的三元組在測(cè)試集中所占的百分比。MeanRank 的值越小或HITS@k的比例越高,表明實(shí)驗(yàn)結(jié)果越好。排序的計(jì)算過程如下:

1)對(duì)于測(cè)試集中的一個(gè)正確三元組(h,r,t),隨機(jī)丟棄頭實(shí)體h或尾實(shí)體t,得到不完整三元組(r,t)或(h,r)。

2)從實(shí)體集中隨機(jī)選擇一個(gè)實(shí)體,補(bǔ)全不完整三元組,得到錯(cuò)誤三元組(h',r,t)或(h,r,t')。重復(fù)此過程多次,得到負(fù)采樣集。

3)利用損失函數(shù)d(h+r,t)計(jì)算正確三元組和負(fù)采樣集中三元組的值,并對(duì)結(jié)果進(jìn)行排序。

需要注意的是,由于不完整三元組補(bǔ)全后可能恰好與知識(shí)圖譜中某個(gè)正確三元組相同,負(fù)采樣集和訓(xùn)練集、測(cè)試集存在交集,這個(gè)交集會(huì)干擾三元組的排序值,因此,在生成負(fù)采樣集時(shí)需要過濾掉該部分的三元組,將此過程稱為Filter,將未經(jīng)Filter 的過程稱為Raw。Filter 后的實(shí)驗(yàn)結(jié)果往往更好,具有更低的MeanRank 和更高的HITS@10 指標(biāo)值。

在訓(xùn)練TransATopic 模型時(shí),將主題的個(gè)數(shù)k設(shè)置為50,表示向量的維數(shù)設(shè)置為20,學(xué)習(xí)率η設(shè)置為0.01,間距m設(shè)置為2。TransATopic 與TransE 等現(xiàn)有模型的實(shí)驗(yàn)對(duì)比結(jié)果如表4 和表5 所示,其中,加粗?jǐn)?shù)據(jù)表示MeanRank、HITS@5 和HITS@10 指標(biāo)的最優(yōu)值。

表4 Arnet-S 實(shí)驗(yàn)對(duì)比結(jié)果Table 4 Comparison of experimental results in Arnet-S

表5 FB15K 實(shí)驗(yàn)對(duì)比結(jié)果Table 5 Comparison of experimental results in FB15K

可以看出,相較于TransA 模型,TransATopic 的MeanRank 指標(biāo)更低,HITS@k指標(biāo)更高,驗(yàn)證了基于主題分布特征的表示方法和自適應(yīng)度量方法融合的有效性,表明TransATopic 在向量表示和鏈路預(yù)測(cè)上具有明顯的優(yōu)勢(shì)。在FB15K 中邊和節(jié)點(diǎn)的數(shù)量比為39.6,而在Arnet-S 中為8.6,因此,F(xiàn)B15K 中邊的密度更大且關(guān)系更為復(fù)雜。相較于TransE 模型,TransATopic 在Arnet-S 數(shù)據(jù)集上HITS@k平均提升21%,在FB15K 上平均提升39%,這進(jìn)一步說明TransATopic 在處理多語(yǔ)義復(fù)雜關(guān)系上具有更大優(yōu)勢(shì)。

3.2 三元組分類

三元組分類任務(wù)主要用于驗(yàn)證模型識(shí)別正確三元組和錯(cuò)誤三元組的能力。對(duì)于給定的三元組(h,r,t),首先計(jì)算模型損失函數(shù)d(h+r,t)的值,如果大于某個(gè)閾值,則將該三元組劃分為正確三元組,反之劃分為錯(cuò)誤三元組;然后判斷三元組分類結(jié)果的正確性,若正確則生成正標(biāo)簽;否則生成負(fù)標(biāo)簽;最后統(tǒng)計(jì)正負(fù)標(biāo)簽數(shù)量,計(jì)算三元組分類的準(zhǔn)確率。TransATopic 與TransE 等模型在數(shù)據(jù)集Arnet-M 和FB13 上的實(shí)驗(yàn)對(duì)比結(jié)果如表6 所示,其中,加粗?jǐn)?shù)據(jù)表示準(zhǔn)確率指標(biāo)的最優(yōu)值。

表6 三元組分類準(zhǔn)確率對(duì)比Table 6 Accuracy comparison of triple classification %

可以看出,在Arnet-M和FB13數(shù)據(jù)集中,DeepWalk和Node2vec 的準(zhǔn)確率最低,這說明基于翻譯的表示模型更適用于大規(guī)模的數(shù)據(jù)集。相較于TransE 模型,TransATopic在Arnet-M上準(zhǔn)確率平均提升10%,在FB13上平均提升7%。由于Arnet-M 上邊和節(jié)點(diǎn)的數(shù)量遠(yuǎn)大于FB13,說明Arnet-M 是一個(gè)規(guī)模更大且關(guān)系更為復(fù)雜的網(wǎng)絡(luò),因此表明TransATopic 在Arnet-M 上能夠更好地提高三元組的分類效果。此外,相較于TransA 模型,TransATopic 在準(zhǔn)確率上同樣取得了一定的進(jìn)步,說明關(guān)系的主題分布特征能夠有效提高知識(shí)表示的區(qū)分度。

4 結(jié)束語(yǔ)

傳統(tǒng)基于翻譯的知識(shí)表示方法在復(fù)雜關(guān)系建模和距離度量上存在不足,影響了知識(shí)表示的區(qū)分度。為此,本文提出TransATopic 模型。在復(fù)雜關(guān)系建模過程中,基于主題模型和變分自編碼器建模關(guān)系的主題分布特征,提高關(guān)系向量的區(qū)分度;在距離度量過程中,使用一種自適應(yīng)度量方法,通過引入非負(fù)對(duì)角矩陣,將損失函數(shù)的度量由歐式距離轉(zhuǎn)換為馬氏距離,為向量的每一維賦予不同的權(quán)重,從而增強(qiáng)度量的靈活性。現(xiàn)有的知識(shí)表示方法通常粗略地將關(guān)系劃分為1-1、1-N、N-1 和N-N 4 種類型,然而實(shí)體在空間中往往呈現(xiàn)出層次結(jié)構(gòu)。文獻(xiàn)[27]利用雙曲線代替歐幾里得嵌入空間來表示分層數(shù)據(jù),在嵌入圖形時(shí)取得了較好的結(jié)果。受此啟發(fā),下一步擬基于雙曲空間改進(jìn)TransATopic 模型,并且將其應(yīng)用于關(guān)系抽取、語(yǔ)義解析和實(shí)體聚類等任務(wù)。

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
論《柳毅傳》對(duì)前代文本的繼承與轉(zhuǎn)化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 天堂久久久久久中文字幕| 国产丝袜第一页| 国产成人欧美| 精品国产aⅴ一区二区三区| 中文字幕 日韩 欧美| 国产午夜无码片在线观看网站 | 五月天天天色| 在线a视频免费观看| 国产精品夜夜嗨视频免费视频| 中文字幕66页| 久久毛片网| 国产网友愉拍精品| www.99精品视频在线播放| 91精品啪在线观看国产| 国产美女在线观看| 亚洲av色吊丝无码| 中文字幕在线观看日本| 亚洲国产中文在线二区三区免| 亚洲动漫h| 亚洲成人网在线播放| 亚洲精品成人片在线观看| 亚洲精品国产综合99| 国产日韩欧美中文| 国产成熟女人性满足视频| 国产成本人片免费a∨短片| 99久久婷婷国产综合精| 婷婷伊人久久| 欧美一区二区自偷自拍视频| 中文字幕免费播放| 婷婷亚洲视频| 制服丝袜亚洲| 青青青草国产| 在线观看无码a∨| 国产在线视频导航| 久久a级片| 亚洲欧美不卡中文字幕| 国产综合色在线视频播放线视| 丝袜亚洲综合| 亚洲国产高清精品线久久| 婷婷亚洲最大| 亚洲国产高清精品线久久| 国产污视频在线观看| 思思热精品在线8| 色悠久久综合| 精品少妇人妻av无码久久 | 91青青草视频| 久99久热只有精品国产15| 丰满人妻久久中文字幕| 亚洲成a人在线播放www| 中文字幕在线观| 伊人久久大香线蕉影院| 中文成人无码国产亚洲| 日本精品视频一区二区| 男人的天堂久久精品激情| 在线视频精品一区| 日本91在线| 四虎精品国产永久在线观看| 免费 国产 无码久久久| 国产精品手机视频一区二区| 亚洲人成影视在线观看| 欧美日韩国产成人高清视频| 成人午夜免费观看| 在线欧美a| 美女无遮挡被啪啪到高潮免费| 69国产精品视频免费| 国产成人综合在线观看| 午夜无码一区二区三区| 亚洲系列中文字幕一区二区| 2020亚洲精品无码| 色综合激情网| 亚洲精品另类| av一区二区三区高清久久| 在线免费观看AV| 国产精品无码制服丝袜| 亚洲欧美日韩中文字幕在线一区| 日韩欧美色综合| 成人无码一区二区三区视频在线观看 | 97视频精品全国免费观看| 在线观看国产小视频| 国产黄网永久免费| 91国内视频在线观看| 五月婷婷欧美|