999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合實體鄰域信息的知識圖譜嵌入負采樣方法

2023-03-16 10:20:56翟社平張宇航柏曉夏
計算機工程 2023年3期
關鍵詞:信息模型

翟社平,張宇航,柏曉夏

(1.西安郵電大學 計算機學院,西安 710121;2.陜西省網絡數據分析與智能處理重點實驗室,西安 710121)

0 概述

知識圖譜(Knowledge Graph,KG)[1]是一種典型的多關系圖,節點由不同的實體構成,邊由多種類型的關系構成,通常使用三元組(頭實體,關系,尾實體)進行表示。目 前,已經出現諸如YAGO[2]、Freebase[3]、WordNet[4]等大規模知識圖譜,并廣泛應用于信息檢索[5]、智能推薦[6]等領域。雖然知識圖譜中已包含大量的三元組,但由于知識的不斷增加以及知識形式的多樣化,使用符號表示知識圖譜的三元組出現了數據稀疏、計算效率低下等問題。為了解決這些問題,人們提出了知識圖譜嵌入(Knowledge Graph Embedding,KGE)技術,也稱為知識表示學習(Knowledge Representation Learning,KRL)[7]。KGE 的主要思想是將知識圖譜中的結構化信息映射到低維向量空間,將所有對象轉化為數值向量,所有運算均定義為向量間的計算,從而進一步提升下游任務效果[8-9]。

深度神經網絡因具有強大的表達能力,能夠計算復雜的非線性函數,受到學者的廣泛關注,KGE 模型主要通過神經網絡增強特征嵌入向量的表達能力[9-10]。此外,生成對抗網絡(Generative Adversarial Network,GAN)[11]也被引入以提高知識圖譜表示能力,并被認為具有很大的發展潛力[12-13]。

雖然目前的KGE 模型已經具備良好的性能,但以TransE[14]為代表的多數模型僅利用知識圖譜中觀察到的事實進行嵌入,對于長尾實體很難準確表示。對此,有學者提出通過聚合實體鄰域信息來增強知識表示。由于知識圖譜具有異質性的內在屬性,而該特性由關系路徑[15]所決定,涉及不同的三元組,表現出復雜的語義特征,因此在聚合實體鄰域信息時,基于不同的關系路徑選擇具有意義的語義信息能夠增強模型的性能。

本文提出一種基于GAN 的知識圖譜嵌入框架。構造生成器用于生成合理的負例三元組,以生成的負樣本與真實三元組作為鑒別器的輸入,并利用最小化損失函數優化鑒別器。與以往用于知識圖譜嵌入的GAN 模型相比,本文通過不同的關系路徑將每種類型的語義信息進行聚合,并分層聚合鄰域信息,保留不同的特征,利用這些鄰域信息豐富實體的表示,提升負樣本的質量。同時,通過引入使用Wasserstein 距離的生成對抗網絡,解決離散數據在訓練過程中梯度消失的問題,提升知識圖譜嵌入模型的收斂速度。

1 相關工作

首先定義本文使用的主要符號,表1 給出了具體的符號及其定義。

表1 符號定義Table 1 Symbol definition

近年來,知識圖譜嵌入模型取得了很大的進步,現有許多方法都將實體和關系轉換到一個連續的低維特征空間。本文將現有的研究成果分為3 個分支:基于翻譯的模型,基于張量分解的模型,基于神經網絡的模型。

1.1 基于翻譯的模型

MIKOLOV 等[16]提出將詞嵌入低維空間的Word2Vec 算法。受此研究啟發,BORDES 等[14]將詞嵌入算法中的平移不變性推廣到知識圖譜嵌入中,構建了TransE 模型。在TransE 中,將實體h、t與關系r分別嵌入與嵌入向量h、t、r相同的嵌入空間Rd中,向量r作為h與t之間的平移向量。對于每一個三元組(h,r,t),TransE 都遵循以下的規則:

每一個三元組事實(h,r,t)由得分函數評估其真實性,將h+r間的距離定義為l1范數或l2范數的得分函數,公式如下所示:

雖然TransE 簡單高效,但在表示復雜關系時存在局限性,例如1-N、N-1、N-N 等。為了克服這一缺點,TransH 模型[17]被提出。該模型通過引入特定于關系的超平面,將實體投影到不同的超平面,以表達復雜關系。TransR 模型[18]為了區分實體和關系的差異,在不同的空間表示實體與關系,提升了模型的效果。TransD 模型[19]為每個實體-關系對構建動態映射矩陣,進一步優化了TransR 模型。

在以上模型的基礎上,大量研究通過不同的方式提高模型性能。TransA 模型[20]利用自適應馬氏距離進行度量,使模型能夠更好地建模復雜關系。KG2E 模型[21]與TransG 模型[22]為了處理實體與關系間的不同語義,均引入了高斯分布。

1.2 基于張量分解的模型

張量分解是獲取低維向量的一種有效方法,RESCAL 模型[23]是其中代表性的方法。該模型使用一個3D 二元張量X對知識圖譜中三元組進行投影,Xhrt=1 表示觀測到三元組,Xhrt=0 表示三元組不存在。該模式遵循的原則為:

其中:A∈Rn×d表示捕捉實體潛在語義的矩陣;Rr∈Rd×d表示與關系相關聯的矩陣。根據該原則,得分函數定義為:

其中:h,t∈Rd表示實體嵌入向量;Mr表示關系r中的潛在語義。為了降低RESCAL 模型的計算復雜度,DistMult 模型[24]將Mr限制為對角矩陣,減少關系的參數量。不同于DistMult 模型中每個關系在頭實體與尾實體是對稱的,ComplEx 模型[25]引入復數向量空間,使得DistMult 模型能夠捕獲非對稱關系。

1.3 基于神經網絡的模型

神經網絡將實體與關系的嵌入向量輸入網絡,經過神經網絡計算后輸出三元組的概率。NAM 模型[26]首先將每個實體與關系投影到嵌入空間,然后將h與r相連作為輸入z0=[h;r]饋入到L+1 層,即:

其中:Ml與bl分別是第l層中的權重矩陣與偏置。利用最后一個隱藏層zl的輸出與尾實體t嵌入,通過sigmoid 激活函數計算概率:

ConvKB 模型[9]通過引入卷積神經網絡(Convolution Neural Network,CNN)來獲取實體與關系間包含的語義信息。該模型將向量h、r、t連接為矩陣A=[h;r;t]作為輸入,使用濾波器m∈R3×1在矩陣A上滑動產生局部特征映射:

其中:b表示偏置。最后將特征映射與權重向量進行點積運算。得分函數如下所示:

其中:Ω表示濾波器的集合;A*Ω表示濾波器Ω應用于矩陣A的卷積運算。

除了上述方法之外,受生成對抗網絡思想及其應用的啟發[11],WANG 等[12]與CAI 等[13]考慮使用GAN 對知識圖譜嵌入中假的負樣本進行采樣,所提出的方法均使用一種知識圖譜嵌入模型作為生成器構造負樣本,同時利用原始的真實樣本與生成的負樣本訓練另一種模型作為判別器,而這個鑒別器就是需要的模型。

以上知識圖譜表示學習方法僅基于三元組(h,r,t),但實際上大量與知識圖譜相關的弱監督信息可以有效提升模型嵌入的效率。本文提出一種弱監督信息融合框架,并利用生成對抗網絡生成高質量負樣本,從而提升知識圖譜表示學習的性能。

2 本文模型

2.1 基本定義

定義1多頭自注意力機制

定義查詢向量Q∈Rn×m、鍵向量K∈Rn×m和 值向量V∈Rn×m的矩陣,注意力得分根據式(9)計算:

其中:W∈Rm×1,并且Q、K和V都應等于這一層的輸入。

定義2圖卷積神經網絡

給定H(l)表示GCN 中第l層節點的特征矩陣,則前向傳播可表示為:

2.2 模型整體框架

本文模型的整體框架如圖1 所示。給定一個由觀察到的三元組事實(h,r,t)所組成的集合,從集合中依次選取事實三元組,隨機移除三元組的頭或尾實體生成不完整的三元組(華為,位于,?),如圖中左上角所示。生成器以不完整的三元組作為輸入,并聚合不同關系路徑下的實體信息,用以計算候選三元組集合中的概率分布,如圖中左側所示。選擇概率最高的實體“廣州”,生成最終的負例三元組(華為,位于,廣州)。鑒別器以生成的負例三元組與事實三元組作為輸入,利用訓練好的得分函數評估三元組的真實性。

圖1 本文模型總體框架Fig.1 Overall frame diagram of the proposed model

圖2 給出一個實體在不同關系路徑下聚合語義信息的示例(彩色效果見《計算機工程》官網HTML版),用以說明圖1 中多關系路徑聚合器的原理。根據不同關系將知識圖譜分割為多個不同的關系路徑表示{r1,r2,…,rn},在每條關系路徑下融合該路徑上的實體特征,不同的路徑表示一種類型的語義信息,之后對關系路徑分配不同的權重,將包含不同語義信息的特征聚合到實體。聚合后的實體特征能夠更有效地表示知識圖譜中豐富的語義信息,并為高質量負樣本的生成提供基礎。

如圖3所示,表面反射紅外的測試結果表明,當添加抗氧劑168和光穩定劑時,表面反射紅外并不能明顯地看出二者相應的特征峰。而當加入抗氧劑1010時,從材料表面反射紅外可以明顯看出在1 740 cm-1處有抗氧劑1010的CO特征吸收峰。接著又對配方3#的注塑樣板在法線方向不同深度進行反射紅外掃描(見圖4)??梢钥闯觯S著深度的加大,抗氧劑1010在1 740 cm-1處對應的特征吸收峰越來越小,這說明霧痕是由于注塑過程中,抗氧劑1010向制件表面擴散導致的。

圖2 單個實體聚合語義信息示例Fig.2 Example of aggregating semantic information by a single entity

2.3 用于學習知識圖譜嵌入的鑒別器

鑒別器的目標是通過訓練得到一個能夠評估三元組真實性的得分函數,對于高質量的負樣本會分配一個相對較小的距離。鑒別器部分如圖1 右半部分所示,包括卷積層、多關系路徑聚合器以及全連接層,用于對三元組與其實體對應的關系路徑信息進行建模。

對于輸入的三元組(h,r,t),由一次獨熱編碼將實體嵌入到與實體嵌入矩陣Eε×d對應的嵌入空間,將關系嵌入到與關系嵌入矩陣RR×k對應的嵌入空間,ε和R 分別代表實體與關系的數量。在本文中,實體的嵌入維度與關系的嵌入維度相同,因此可以將h、r、t進行拼接,重構為一個輸入矩陣B=Reshape([h;r;t])送入2D 卷積層,通常在該層中使用過濾器ω提取有效的特征映射。在本文中卷積層采用1×1 的卷積核,特征映射的計算公式為:

其中:ωz與bz分別表示第z層的卷積核與偏置參數,將每一個特征映射拼接并重構為特征矩陣v∈R3×z,同時將特征矩陣輸入丟失層正則化以加速收斂。將特征矩陣v輸入多頭自注意力層進一步提取三元組內部的隱含信息,此處多頭自注意力層中隱含單元個數m應與特征映射數z相等。經過多頭自注意力層的處理后,輸入三元組的嵌入矩陣B被表示為單個向量y。

為了保證得到一個性能良好的得分函數,在鑒別器部分引入多關系路徑聚合器。圖2 展示了多關系路徑聚合器的總體框架,由于各種類型的實體會出現在不同的特征空間中,不適合直接聚合每一個實體的鄰域特征,因此提出實體級聚合,先聚合每個關系路徑下的實體特征。

分別以與作為初始實體特征和關系特征,首先對基于關系路徑的實體特征進行聚合,聚合公式為:

在實體級聚合之后,需要通過與實體相關的關系路徑信息聚合各種類型的語義信息,因此提出關系級聚合。由于知識圖譜的異構性,實體所體現的語義信息有多種類型。每個特定于語義的聚合特征只能捕獲來自一方面的信息,為了聚合更全面的語義信息,需要通過不同的關系路徑揭示不同的特征。對于每個關系路徑同等對待,會弱化重要關系路徑所聚合的語義特征。因此,采用一種基于關系的注意力機制以獲取不同關系路徑的重要性,然后利用該機制聚合不同類型的語義信息。

為學習不同關系路徑的重要性,將|R|組實體級聚合特征作為輸入,學習每個關系路徑{r1,r2,…,r|R|}的權重,計算公式為:

其中:Att 表示由深度神經網絡設計的注意力函數,它可以捕捉基于關系的重要性,并選擇性地聚合信息特征。

為學習不同關系路徑的權重,首先利用非線性變換將特定關系的特征進行變換,然后通過注意力向量p衡量特定關系特征的重要性,最后通過激活函數獲得。計算公式為:

其中:W表示變換權重矩陣;b表示偏置向量。可以看出,值越大,關系路徑r就越重要。

其中:d表示d維特征。聚合器與GCN 框架中使用的聚合函數類似。之后通過非線性變換將圖卷積傳播更新為:

其中:表示特定于實體的連接系數矩陣。至此,將一個實體所有關系路徑上的鄰域信息聚合完畢。

最終將三元組嵌入向量y與頭、尾實體基于關系路徑的鄰域信息嵌入向量進行連接,得到能夠通過全連接層來判別三元組(h,r,t)真實性的評估分數。評分函數D定義如下:

其中:F表示映射矩陣;Nh與Nt分別表示頭實體與尾實體基于關系路徑的鄰域信息嵌入向量;f表示計算最終分數的向量。

2.4 高質量負樣本的生成

多數的知識圖譜嵌入模型均采用BORDES等[14]提出的均勻負采樣方法生成負樣本。該方法對事實三元組中的頭或尾實體進行等概率隨機替換,對模型的訓練幾乎沒有效果。例如:(華為,位于,深圳)是一個真實有效的三元組,2 個實體間的關系為“位于”,尾實體應當是一個地點,采用均勻負采樣方法生成負例三元組(華為,位于,中興)或(華為,位于,任正非),知識圖譜嵌入模型并不能很好地辨別其錯誤,導致參數無法更新,另一個負樣本(華為,位于,廣州)相比前2 個更加可靠,因為“廣州”符合“位于”這一約束。

本文采用生成對抗網絡對負樣本進行采樣,相比隨機采樣生成的負例三元組更加可信,同時在嵌入模型中引入實體鄰域信息以更好地獲取底層語義,為生成器的采樣與鑒別器的鑒別提供基礎。

與鑒別器部分類似,生成器部分包含2 個通道(如圖1 左半部分所示):一個通道使用CNN、批處理歸一化[29]與自注意力機制嵌入事實三元組;另一個通道基于不同的關系路徑聚合實體特征。生成器以一個實體、一個關系與該實體基于關系路徑的鄰域信息聚合作為輸入,缺失的實體通過生成器計算得到。因此,在最后一層使用softmax 函數計算所有損壞三元組的概率,并選擇概率最高的作為最終的負樣本。計算公式為:

其 中:(h',r,t')∈{(h',r,t)|h'∈ε}∪{(h,r,t')|t'∈ε};(h',r,t')是所有損壞三元組的集合;(h',r,t)和(h,r,t')分別表示替換頭實體和尾實體的負三元組。

2.5 訓練策略

鑒別網絡D(x,?)用于區分輸入x是來自真實分布pr(x)還是來自生成器pθ(x)。給定一個訓練樣本(x,y),y={-1,1}分別表示樣本來自pr(x)或pθ(x),鑒別器網絡的目標函數是最小化交叉熵,目標函數如下所示:

其中:E 表示期望概率;G(z,θ)為生成網絡;p(z)表示低維空間中的簡單樣本分布;?和θ分別表示鑒別器與生成器的參數。

生成網絡的目標與鑒別器相反,它會全速更新參數,使鑒別器將生成樣本判定為真實樣本,目標函數如下所示:

傳統的GAN 主要應用于連續數據,而無法解決離散數據的問題。具體來說,GAN 通過訓練完備的生成器生成合成數據,將生成數據送入鑒別器,使用計算得到的鑒別器梯度優化生成器,使合成數據更加逼真。只有當數據連續時,鑒別器才能更新梯度,而面對離散情況,其無法通過反向傳播算法將梯度傳播到生成器。

在數學上,將傳統GAN 的生成器損耗看作生成分布pθ(x)與真實分布pr(x)間的JS 散度,而JS 散度需要2 個分布間有重疊部分才能正常應用。在自然語言處理任務中,2 個分布P、Q彼此不重疊,其JS 散度被定義為:

在此情況下,生成樣本的分布與真實樣本的分布不可能存在重疊,兩者間的JS 散度恒為1,導致生成器的參數無法進行更新。

受Wasserstein GAN[30]引入Wasserstein 距離代替原JS 散度的啟發,本文使用Wasserstein 距離解決知識圖譜嵌入的梯度消失問題。對于真實分布與生成分布,它們的第一Wasserstein 距離為:

其中:Π(pr,pθ)表示所有聯合分布γ(x,y)的集合,此處第一Wasserstein 距離能夠估計2 個不重疊分布間的距離。利用鑒別器網絡Dw進行最大化,將Wasserstein 距離近似表示為:

其中:K為Dw的利普希茨常數。為滿足這一條件,采用 GULRAJANI 等[31]提出的附加損失項[||?x Dw(x)||p-K]2。使用該方法時,隨機選取一組真實樣本xr與生成樣本xθ,在0~1 范圍內選擇一個數字,之后沿xr與xθ之間的連線插值采樣獲得。按照此過程采樣的的分布被表示為,滿足利普希茨限制的鑒別器的目標函數被定義為:

生成器需要最小化Wasserstein 距離,使實際分布于生成分布盡可能重合,生成器的損失函數如下:

3 實驗

在本節中,首先介紹實驗所用數據集,并介紹實驗的參數設置與比較方法。在此基礎上建立鏈接預測與三元組分類任務,將模型與基線方法進行對比,并對生成器構造的負三元組進行分析,驗證本文方法的合理性與有效性。

3.1 數據集

為全面地對本文模型進行評估,在鏈接預測任務中選用FB15K-237[32]、WN18RR[10]與WN18[33]3 個標準數據集,在三元組分類任務中選用WN11 與FB13 2 個標準數據集。上述每一個數據集中都包含大量的實體和關系,并被分為訓練集、驗證集和測試集。所用數據集統計信息如表2 所示,具體如下:

表2 數據集統計信息Table 2 Statistical information of dataset

1)WN18是WordNet[4]的一個子集,包含40 943個實體,具有18 種不同的關系類型。

2)FB15K-237 是FB15K[14]的一個子集,其去掉了FB15K 中的可逆關系。該子集包含14 541 個實體,具有237 個不同關系類型。

3)WN18RR 是WN18[33]的子集,同樣刪除了可逆關系。該子集包含40 943 個實體,具有11 種不同的關系類型。

4)WN11是WordNet[4]的一個子集,包含38 696個實體,具有11 種不同關系類型。實體代表詞義,關系定義為實體間的詞匯關系。

5)FB13 是Freebase[3]的一個子集,包含75 043 個實體,具有13 種不同關系類型。

3.2 對比方法

為驗證模型的性能,本文選擇一些典型的基線方法進行比較,比較方法如下所示:

1)TransE[14]。該方法將實體與關系統一嵌入到低維特征空間,將關系視為頭尾實體間的平移向量。

2)TransR[18]。該方法將特定于關系的超平面擴展到特定于關系的空間,定義實體向量到關系空間的投影矩陣。

3)DistMult[24]。該方法通過匹配嵌入空間中的潛在語義信息計算三元組的概率。

4)ComplEX[25]。該方法將DistMult 推廣到復數空間,并模擬對稱與反對稱關系。

5)ConvE[10]。該方法使用多層卷積神經網絡捕捉實體與關系間的潛在語義信息。

6)RotatE[34]。該方法將每一個關系定義為起始實體到目標實體在復雜空間中的旋轉。

7)GANKG[12]。該方法利用GAN 框架產生高質量負樣本,利用策略梯度優化模型。

8)KBGAN[13]。該方法使用生成器對負樣本進行采樣,在GAN 框架中起到輔助鑒別器訓練的作用。

9)R-GCN[35]。該方法通過改進圖卷積網絡,能夠有效地處理高階多關系數據。

10)A2N[36]。該方法基于GNN 模型,利用注意力機制自適應地組合實體的相關鄰域信息。

11)CompGCN[37]。該方法通過構建多關系有向圖,使得原始的GNN 能夠同時學習實體與關系的特征。

3.3 鏈接預測

鏈接預測任務的目的是在給定一個實體和關系的情況下對缺失的部分進行預測。具體來說,任務目標是預測給定(?,r,t)中的頭實體h或給定(h,r,?)中的尾實體t。

3.3.1 評估指標

對于每個測試三元組(h,r,t),使用實體集中的其他實體替換h或t,使用得分函數fr(h,t)計算其置信度,得分按降序排序。本文使用以下3 個指標作為鏈接預測的評估標準:

1)平均排名(Mean Rank,MR)。該指標表示正確實體排名的平均值。

2)平均倒數排名(Mean Reciprocal Rank,MRR)。該指標表示正確實體排名的平均倒排值。

3)Hits@10。該指標表示排名前10 名中正確實體的比例。

值得一提的是,MR 越低、MRR 越高且Hits@10越高,則模型性能越好。

3.3.2 參數設置

本文采用Adam[38]自適應優化方法用于模型訓練,并通過網絡搜索選擇超參數:學習率α∈{5e-3,1e-3,5e-4,1e-4},實體與關系間的嵌入維度d∈{50,100,150},梯度懲罰系數λ∈{1,5,10,20},生成器迭代 一次鑒別器的迭代次數ndis∈{1,5,10},batch的大小m∈{32,64,128,256,512}。根據模型在驗證數據集上的性能,最優參數設置如下:在FB15k-237上,{α=1e-4,d=100,λ=10,m=32};在WN18RR 上,{α=5e-4,d=100,λ=10,m=32};在WN18 上,{α=5e-4,d=100,λ=10,m=32}。

3.3.3 實驗結果

表3 展示了不同模型在FB15K-237 與WN18RR數據集上關于鏈接預測任務的實驗對比結果,其中加粗表示最優值。

由表3 可以看出:

表3 鏈接預測結果Table 3 Link prediction results

1)相較于只使用三元組的嵌入模型與引入附加信息的嵌入模型,本文模型在多數指標上都取得了較好的性能,驗證了模型的有效性。

2)與KBGAN 等使用隨機抽樣的模型相比,引入一定的弱監督信息可以提升模型的性能,這主要是因為生成器能夠生成質量更高的負例三元組,并且引入附加信息能夠使生成器采樣更加可信的事實以優化模型。在3.5 節中,將對生成器生成的負三元組進行可視化展示證明這一點。

3)與R-GCN 等聚合實體鄰域信息的模型相比,本文模型由于引入GAN 框架,因此在多數指標上表現良好,可以更有效地將附加信息融入結構表示。

4)在WN18RR 數據集上,本文模型的MR、MRR與Hits@10 這3 項指標并沒有顯著提升,原因可能是對比模型已達到3 個指標的性能上限,因此,本文模型在WN18RR 上提升很小。

為進一步研究和分析本文模型的預測能力,將知識圖譜中的各種關系分為1-to-1、1-to-N、N-to-1、N-to-N 4 類,同時使用WN18 數據集驗證不同關系類別的MRR 指標,實驗結果如表4 所示,其中加粗表示最優值。

表4 WN18 數據集不同關系模式下的MRR 指標對比Table 4 Comparison of MRR indexes in different relational modes of WN18 dataset

由表4 可以看出:

1)相較于基于翻譯與張量分解的模型,本文模型在不同關系模式下MRR 指標均取得大幅提升,說明基于神經網絡的嵌入模型更具有效性。

2)與未引入實體鄰域信息的KBGAN 相比,本文模型在多項指標上取得了更好的效果,進一步說明弱監督信息的引入可以更好地建模各種類型的關系。

3)在WN18 數據集上,有超過72.2%的MRR 值大于等于0.95,這也說明本文模型對不同關系類型更敏感。

此外,為驗證Wasserstein 距離的有效性,對比KBGAN 模型與本文模型在WN18RR 數據集上的訓練時間,圖3 分別表示在維度為50、100 和150 下的時間損耗??梢钥闯?,相比使用策略梯度的GAN 網絡,本文方法有效提升了模型的訓練效率。

圖3 WN18RR 數據集上每次迭代的時間Fig.3 The time of each iteration on WN18RR dataset

3.4 三元組分類

三元組分類也是一項用于評估嵌入模型性能的任務,目標是判斷給定的三元組(h,r,t)是否成立,本質上是一個二分類問題。

3.4.1 評估指標

給定一個測試三元組(h,r,t),使用得分函數fr(h,t)計算其分數。若得分低于閾值則被識別為負,否則為正。本文使用準確率作為這項任務的衡量標準。

3.4.2 參數設置

與鏈接預測任務類似,在此依舊使用Adam 方法優化模型。三元組分類的最佳參數如下:在WN11上,{α=5e-4,d=150,λ=10,m=64};在FB13 上,{α=1e-4,d=150,λ=5,m=64}。

3.4.3 實驗結果

在三元組分類實驗中,為評估本文方法的適用性與有效性,去掉了原有框架中聚合實體鄰域信息部分,訓練一個僅使用三元組結構信息的嵌入模型,評估結果如表5 所示,其中加粗表示最優值。

由表5 可以看出:

表5 三元組分類準確率Table 5 Triplet classification accuracy %

1)在未使用聚合實體鄰域信息的情況下,本文模型在三元組分類準確率上取得了良好的效果,驗證了模型的有效性。

2)對于傳統的基于翻譯的嵌入模型(例如TransE),本文模型在WN11 與FB13 上準確率分別取得了12.5和7.6 個百分點的提升;對于新方法(例如GANKG),在WN11 與FB13 上準確率分別取得了1.8 和2.8 個百分點的提升。這些提升證明本文模型對于知識圖譜嵌入是有效的。

3.5 負樣本采樣分析

為證明本文模型具有產生高質量負樣本的能力,表6 中展示了一些由本文的生成器構造的負例三元組,其中:“*”標注代表該項為實體,實體后括號中內容表示實體類型;“/”標注代表該項為關系;標注粗體代表實體為被替換實體。

如表6 所示,在生成的高質量負樣本中,被損壞的實體與真實實體在語義上是相似的,能夠產生更多可信的負樣本。例如:在FB15K-237 數據集中,“American Beauty”是一部電影名在獲得獎項時一個團隊的榮譽,因此“American football team”在語義上與被替換實體相似,國家“America”與地名“Plymouth”都用于描述地點,因此兩者相似;在WN18RR 數據集中,被破壞的實體“Tell”與聲音有關,而“Complain”也具有發出聲音的意思,對于被破壞的三元組(Oceania,has part,Melanesia),實 體“Melanesia”與“Atlantic”均表示一個位置,兩者具有相似性。這些例子證明了引入聚合實體鄰域信息的生成器能夠保證生成負樣本的質量,與均勻隨機采樣方法構造的負樣本相比更具可信性,同時能夠優化鑒別器性能。因此,本文模型可以更有效地學習知識圖譜的嵌入。

表6 負樣本采樣實例Table 6 Sampling instance of negative sample

4 結束語

本文提出一種融合實體鄰域信息的知識圖譜嵌入負采樣模型。該模型通過引入附加信息豐富實體與關系間的語義相關性,生成高質量的負樣本,從而提供有效的語義信息。在此基礎上,使用訓練完備的生成器構造更高質量的負樣本,較傳統的隨機均勻采樣相比生成的負樣本更具可信性。通過鏈接預測和三元組分類2 個任務對模型進行評估,實驗結果表明,本文模型在鏈接預測與三元組分類任務上較傳統模型取得了顯著的性能提升。在后續的研究中,將考慮融入實體對應的描述信息,進一步提高生成負樣本的質量,優化知識圖譜嵌入模型的性能。

猜你喜歡
信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
一個相似模型的應用
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 五月天在线网站| 特黄日韩免费一区二区三区| 日韩欧美一区在线观看| 亚洲精品人成网线在线| 2021亚洲精品不卡a| 国产精品极品美女自在线看免费一区二区 | 2020最新国产精品视频| 曰韩人妻一区二区三区| 亚洲天堂视频在线观看免费| 高潮毛片免费观看| 麻豆AV网站免费进入| 18禁影院亚洲专区| 日本成人在线不卡视频| 不卡网亚洲无码| 成年人国产视频| 最新国语自产精品视频在| 毛片免费试看| 99精品国产电影| 中文字幕2区| 亚洲中文字幕国产av| 99这里只有精品6| 国产后式a一视频| 国产日韩精品欧美一区喷| 国产亚洲美日韩AV中文字幕无码成人| 欧美亚洲欧美区| 国产裸舞福利在线视频合集| 国产亚洲欧美另类一区二区| 伊人欧美在线| 亚洲人成网站日本片| 在线观看免费黄色网址| 在线综合亚洲欧美网站| 国产香蕉97碰碰视频VA碰碰看| 老司机午夜精品网站在线观看| 国产超碰一区二区三区| 伊人大杳蕉中文无码| 国产性精品| 97在线国产视频| 又猛又黄又爽无遮挡的视频网站| 婷婷六月天激情| 亚洲一道AV无码午夜福利| 日韩中文无码av超清| 日韩二区三区| 久久精品无码中文字幕| 色婷婷电影网| 成人免费网站久久久| 亚洲中文无码av永久伊人| 久久影院一区二区h| 久久国产精品影院| 波多野结衣亚洲一区| 亚洲不卡影院| 国产va欧美va在线观看| 国产精品私拍在线爆乳| 国产欧美日韩综合一区在线播放| 亚洲人成网址| 男人天堂亚洲天堂| 亚洲欧美精品日韩欧美| 成人午夜精品一级毛片| 在线亚洲小视频| 色天天综合久久久久综合片| 精品伊人久久久久7777人| 国产一区二区人大臿蕉香蕉| 91久久精品日日躁夜夜躁欧美| 国模极品一区二区三区| 欧美日韩国产成人高清视频| 国产午夜一级淫片| 亚洲69视频| 日韩高清一区 | 天堂岛国av无码免费无禁网站| 91精品国产91久无码网站| 亚洲中文在线看视频一区| 永久免费AⅤ无码网站在线观看| 国产新AV天堂| 亚洲成肉网| h网址在线观看| 亚洲黄色激情网站| 亚洲欧美成人综合| 国产日韩欧美在线视频免费观看| 亚洲天堂久久久| 91免费国产在线观看尤物| 亚洲av无码牛牛影视在线二区| 欧美亚洲国产精品久久蜜芽| 国产欧美日韩在线一区|