999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種改進的基于翻譯的知識圖譜表示方法

2018-01-12 07:26:46楊世宇肖衛東
計算機研究與發展 2018年1期
關鍵詞:實驗方法模型

方 陽 趙 翔,2 譚 真 楊世宇 肖衛東,2

1(國防科技大學信息系統與管理學院 長沙 410073)

2(地球空間信息技術協同創新中心(武漢大學) 武漢 430079)

3(新南威爾士大學計算機科學與工程學院 澳大利亞悉尼 2052)

(fangyang12@nudt.edu.cn)

知識圖譜是結構化的語義知識庫,以符號形式描述物理世界中的實體(entities)及其相互關系(relations),其基本組成單元是“實體-關系-實體”三元組(triplets)以及實體和相關屬性的值對;實體間通過關系相互聯結,構成網狀的知識結構.

諸如Freebase[1]和WordNet[2]等大型知識圖譜在人工智能領域方面呈現出廣泛的應用價值,被用于支撐語義檢索以及自動問答等高級應用[3].例如在檢索信息時,用戶的查詢詞是典型的短文本,一個查詢詞往往僅由幾個關鍵詞構成.傳統的關鍵詞匹配檢索技術不理解查詢詞背后的語義信息,查詢結果可能會很差.為此,人們一直在探索比關鍵詞查詢更高效的信息檢索方式,而構建大規模知識圖譜使得語義檢索成為可能.語義檢索能夠更好地理解用戶的查詢詞,從紛繁復雜的信息中有效篩選出那些最合適的答案,進而達到關鍵詞匹配檢索無法匹敵的效果.又如知識圖譜可作為自動問答系統的知識庫,通過知識圖譜中實體的復雜關系推理得到問題的答案.無論是理解用戶查詢意圖,還是自動尋求問題答案,都毫無例外地需要進行語義理解和知識推理,而這些智能技術取得巨大進展的背后則是更深、更廣、更新和更加準確的知識圖譜的構建和運用.

知識圖譜領域的主要研究目標是從無(半)結構的互聯網信息中獲取有結構知識,自動融合構建知識庫、服務知識推理等相關應用.其中,知識表示是知識獲取與應用的基礎,是貫穿知識庫構建與應用全過程的關鍵問題.表示知識圖譜最直接的方法是利用圖數據庫[4],但是這種表示手段應用在大規模知識圖譜上存在計算復雜度高、推理效率低和數據稀疏等問題.換句話說,在這種表示之下,知識圖譜是符號化的,并具備有邏輯性,因此數值化的機器學習方法和技術均不能應用到知識圖譜上.

近年來,隨著大數據研究與應用的不斷深入,人工智能中的表示學習技術異軍突起,旨在將研究對象的語義信息表示為稠密低維實值向量.面向知識圖譜的表示學習作為一種支持知識圖譜計算和推理的新方法,在保留原始圖譜特定屬性的同時,將知識圖譜映射為連續的向量空間,使得一大批高效的數值化計算和推理方法得以適用.因此,知識圖譜的低維向量表示的是一種分布式表示(distributed representation),即孤立地看表示向量中的每一維,它表達了一種沒有明確對應含義的潛在特征(稱作“特征維”);但綜合各維形成一個向量,則能夠表示對象的語義信息.

鑒于上述優點,研究者提出了若干知識圖譜表示模型,包括基于翻譯(translation-based)的模型、結構嵌入(structured embedding, SE)模型、語義匹配能量(semantic matching energy, SME)模型和潛變量模型(latent factor model, LFM)等.本文主要考慮基于翻譯模型的知識圖譜表示方法.

具體地,知識圖譜中的一條知識通常由三元組(h,r,t)表示,其中h是頭實體,t是尾實體,r表示頭實體和尾實體之間的關系.知識圖譜表示用一個k維向量h*(或者t*)來代表頭(或者尾)實體,用一個轉換向量r*來表示頭尾實體對之間的關系*自反,即同一個實體和自身的關系;一對多,即一個頭實體通過同一個關系對應多個尾實體;多對一,即多個頭實體通過同一個關系對應一個尾實體;多對多,即多個頭實體通過同一個關系對應多個尾實體.;同時通過定義一個得分函數fr*(h*,t*)來衡量三元組(h,r,t)在表示空間中成立的可能性.實體和關系的表示模型則是通過最小化包含所有實體和關系的全局得分函數實現的.因此,即使是一個單一的實體或關系的表示都可以捕捉到整個知識圖譜的全局信息.

1 相關工作

知識圖譜的提法是在谷歌知識圖譜(Google knowledge graph)項目中首次披露的.雖然知識圖譜的概念較新,但它并非一個全新的領域.早年,Berners-Lee就提出了數據鏈接(linked data)的思想,為迎接語義網的到來做好準備.

目前,知識圖譜已經被應用在語義搜索、智能問答等諸多領域,相對成熟的國外產品包括谷歌公司使用的Knowledge Vault、蘋果公司使用的Wolfram Alpha智能計算引擎以及Freebase和YAGO等,針對中文產品則包括百度“知心”和搜狗“知立方”等.

當前,面向知識圖譜的表示學習的研究主要集中在基于翻譯的模型上,代表性工作主要包括TransE[5],TransH[6],TransR[7],CTransR[7],TransD[8]等方法.

相較之前的模型,TransE方法在性能和效果上均取得較好的結果[9].但是,TransE方法由于模型相對簡單,存在無法區分和處理實體之間一對多、多對一以及多對多等復雜關系的問題.針對此問題,后續有TransH,TransR和CTransR等方法提出.在相同真實數據集上的實驗表明,這些方法從一定程度上解決了復雜關系的表征問題.

在TransE和TransH中,實體和關系存在于同一個空間中.然而,實體和關系本質上是不同的客觀事物,所以將它們放置于同一個空間中描述是不恰當的.為此,TransR和CTransR希望通過建立一個映像矩陣Mr*和一個向量r*來表示每一個關系r.具體地,TransR將實體h*和t*通過矩陣映射到關系向量r*的層次上,得到Mr*h*+r*=Mr*t*,也即TransR的優化目標.

CTransR是TransR的擴展,它將多個頭尾實體聚集為一類得到每一類特有的關系向量.它在取得進步的同時,仍有缺點:對于1個關系r,所有的實體共享一個映射矩陣Mr*.注意到,通過一個關系連接的實體類型和屬性是不同的,映射是實體與關系之間的交互過程,所以映射矩陣僅由關系確定是不合理的.此外,在CTransR的學習過程中,矩陣與向量的相乘使計算量激增,其參數數量也比TransE和TransR多.因此,CTransR由于過高的復雜性而不適用于大規模知識圖譜.

新近的研究成果TransD方法為每個向量和關系定義了2個向量:一個向量用來表示實體或關系的含義;另一個向量表示1個實體是如何映射到1個關系向量空間,稱為映射向量,用以生成映射矩陣.因此,每一個實體關系對都會有一個唯一的映射矩陣.從而,TransD的優化目標變成Mr*h*h*+r*=Mr*t*t*;另外,TransD以向量操作取代了之前的矩陣與向量的乘法操作,因而具有較高的計算效率,可應用到大型知識圖譜上.

除了基于翻譯的模型之外,結構化嵌入模型[10]是較早的知識表示方法,每個實體用d維的向量表示,所有實體被投影到同一個d維向量空間中.單層神經網絡模型[11]是對結構化嵌入模型的進一步改進,采用了單層神經網絡的非線性操作.語義匹配能量模型[12-13]提出了更復雜的操作,刻畫實體與關系的內在聯系.潛變量模型[14-15]提出利用基于關系的雙線性變換,刻畫實體和關系之間的二階聯系.神經張量網絡(nerual tensor network, NTN)模型[11]用雙線性向量取代傳統神經網絡中的線性變換層.矩陣分解是得到低維向量表示的重要途徑,基于這種模型的代表方法是RESACL[16-17].關于這些模型的更加詳盡的細節和對照,請感興趣的讀者參考綜述文獻[9].

關于知識圖譜,其自動化構建也是當前的一個持續性的研究熱點.一般認為,知識圖譜的自動化構建涉及了信息抽取、知識融合和知識加工3個主要階段,構建過程中涉及的關鍵技術則包括命名實體識別、關系抽取、實體鏈接和信息融合等.關于知識圖譜自動化構建技術,感興趣的讀者可以參考綜述文獻[18].

2 TransAH知識表示方法

本節詳細介紹了所提改進的知識圖譜表示方法TransAH,解釋了其原理與算法.TransAH同屬于基于翻譯模型的方法,它針對經典的知識表示方法TransE的2個缺陷,分別采用了自適應的度量方法和超平面模型來加以解決,并將2個想法同時集成在1個模型框架下,實現了快速的求解與計算.

2.1 自適應的度量方法

關于缺陷1,究其產生的本質原因是TransE(以及其他絕大多數基于翻譯的方法)采用了同一個樸素的優化目標,即h*+r*=t*;換句話說,TransE等方法在實體和關系通過不同的法則進行映射后,均采用同樣的得分函數對目標進行優化;它們共有的得分函數如下:

從上式可見,該得分函數選用了歐氏距離作為表示空間中的差異度量,在空間形態上表現為一個球形等勢面.然而,觀察到在實際應用中,每個特征維度對于各種關系的影響程度是不同的,統一考慮所有特征維度的權重將直接影響知識表示的效果.因此,這種距離度量在實踐應用中有失靈活,導致構建的模型會包含“不必要”的錯誤,進而使得知識表示的精度下降.

為此,考慮在得分函數中加入一個權重矩陣,將歐氏距離轉換為加權歐氏距離作為表示空間中的差異度量,即,通過權重矩陣來靈活控制和確定各個特征維度的重要程度實現自適應的表示空間中的距離度量.

一種設置方法是使用一般權重矩陣Wr*[19],其對應的改進后的得分函數為

fr*(h*,t*)=(|h*+r*-t*|)TWr*(|h*+r*-t*|),

其中,

其中,k是特征維的長度.

然而,注意到一般權重矩陣Wr*在生成過程中效率十分低下,導致模型訓練時間成本較大(參考3.3節中的實驗結果).此外,注意到,現有工作中的TransR和TransD方法,采用轉換矩陣將頭實體和尾實體映射到關系空間中,從而可以更好地對復雜關系進行區分,提高知識表示精度.相較而言,直接使用權重矩陣Wr*將實體與關系同時映射到關系空間中,徒增了模型的復雜度,除此之外,將Wr*每輪進行歸一化的方法并不會提高算的精確度,反而增加了運行的時間開銷.

鑒于此,化繁就簡,提出使用對角權重矩陣Dr*,而非一般權重矩陣Wr*,以實現自適應的距離度量.具體地,定義對角權重矩陣Dr*=diag(w1,…,wi,…,wk),其中diag( )表示Dr*是1個對角矩陣,第i個特征維的重要性由參數wi表示,1≤i≤k.

相比于經典的TransE方法,引入對角權重矩陣的模型具有至少3個方面的優勢:

1) 對角權重矩陣Dr*可實現將歐氏距離轉化為加權歐氏距離,將球形等勢面轉換為更為靈活的橢圓等勢面.球形等勢面中的度量準則只是將越靠近中心的三元組作為正確三元組,容易包含不必要的錯誤.舉例如圖1中,叉表示正確匹配的尾實體,圓表示錯誤匹配的尾實體.圖1(a)中采用球形等勢面,出現了7個錯誤;采用橢圓等勢面后,可以看到圖1(b)中有4個錯誤被避免了.也就是說,通過優化對角矩陣Dr*中的變量,就可以對固定的球形等勢面轉換為有一定伸縮性的橢圓等勢面,從而在避開了錯誤實體的同時包含更多正確實體,提升了知識表示的能力.

Fig. 1 The comparison on sphere and elliptical hyperplane圖1 球形與橢圓等勢面的比較

2) 一個關系僅由若干個特定的潛在特征維度影響,其他維度會成為干擾.傳統的如TransE等基于翻譯的方法同等對待各個特征維度,無法濾除無關維度的干擾.采用對角權重矩陣Dr*則可以為特征維賦予合理的自適應的權重,即w1,w2,…,wn,不同的特征維i由wi來控制其權重.舉例如圖2所示,實心圓是正確匹配的結果,空心是錯誤的匹配結果,箭頭表示type_of關系.圖2(a)中,由于將某2個維度同等對待,導致3個頭實體都匹配到了不正確的尾實體,比如實體Willow匹配到了實體Building;圖2(b)中,對這2個表示維度賦予權重,尤其是增加了y軸的權重,降低了x軸的權重,知識表示得以修正和優化,比如實體Willow正確匹配到了實體Tree.

Fig. 2 The comparison on weighting feature dimensions圖2 特征維度權重化比較

3) 不選用一般權重矩陣Wr*來為特征維賦予權重,主要是因為在知識表示中比較不同特征維度的意義是微乎其微的,甚至可能帶來負面的影響.譬如,比較人物實體的“國籍”和“性別”是沒有實際意義.因此,落實到矩陣Wr*中,其變量wxy當x≠y時是沒有意義的,認為僅用對角矩陣即可完全表達對特征維的權重化.同時,只需保證Dr*中的每一個變量非負,無需再像使用Wr*時那樣對|h*+r*-t*|加上絕對值來防止負的得分函數降低整體得分函數的值.此外,對角權重矩陣Dr*的應用相較于Wr*,大幅度降低了模型的復雜度,因而顯著提升了學習計算效率.

為了獲得最終的表示模型,其中的對角權重矩陣Dr*需要通過訓練不斷優化得到.具體實現中,為保證Dr*的非負性,對其初始值設置為

綜上,得到基于加權歐氏距離的自適應得分函數:

fr*(h*,t*)=(h*+r*-t*)TDr*(h*+r*-t*).

2.2 面向關系的超平面映射模型

考慮缺陷2,TransE模型結合自適應度量方法后仍然對處理復雜關系的能力較弱.其主要原因是因為TransE將實體和關系都表示在同一個平面中,無法理清實體和關系之間的相互影響,進而造成無法區分復雜關系的問題.舉例如圖3所示,對于2個具有相同關系的事實知識——布什是美國總統和奧巴馬是美國總統,TransE不能正確區分布什和奧巴馬這2個實體,影響了知識表示的準確性.

Fig. 3 The effect of TransE method圖3 TransE方法效果圖

于是,綜合上式,可以得到應用超平面模型后的得分函數,即:

Fig. 4 The effect of hyperspace model圖4 超平面模型方法效果圖

在運用了超平面模型之后,舉例如圖4所示,奧巴馬和布什這2個人物實體通過不同的映射向量投影到“總統”關系的超平面上,從而得以區分,保證了知識表示的準確性和可推理性.

2.3 TransAH的模型與訓練

在2.1節和2.2節內容的基礎上,將自適應度量方法和超平面模型結合起來,置于一個統一的模型框架下面,得到了最終得分函數:

由于本方法同屬于基于翻譯的模型,并結合自適應性(adaptive)度量和超平面(hypersphere)的思想,因此取名為TransAH,并將在第3節的實驗部分與其他當前主流模型及方法進行橫向評測.

模型訓練中,采用基于差距的排序誤差(margin-based ranking error)函數作為訓練模型的優化目標函數:

(1)

其中,[·]+=max(0,·),Δ是正確的三元組(正三元組*又稱黃金三元組,即知識圖譜中已經包含的實體關系三元組.)的集合,Δ′是錯誤的三元組(負三元組)的集合(通過打亂已有黃金三元組得到),γ是區分正負三元組的差距.因此,該優化目標函數的主要目的是將不正確的三元組和正確的三元組進行最大限度的分離.

同時,在優化式(1)時,還需要考慮向量中的3個約束條件,主要包括:

(2)

(3)

(4)

其中,式(2)為保證實體向量長度不大于1,式(3)保證了翻譯向量r*在超平面上,式(4)保證了超平面為單位法向量.同時,還要保證對角矩陣Dr*滿足:

另外,不直接帶著上述這些約束優化式(1)中的損失函數,而是通過軟約束的方法將式(1)轉化為不受約束的形式.因此,最終得到優化目標函數所示:

其中,目標函數的第2項與第3項是對約束條件的表示,用于防止過擬合,而λ和η是控制軟約束的參數.

具體模型訓練時,采用了經典的隨機梯度下降(stochastic gradient descent)法來優化上述目標函數.正確的三元組集在訓練過程中會循環多次,當遇到正確三元組時,同時會隨機生成不正確三元組;在一小批次的訓練后,梯度以及模型的參數會進行自動更新.

3 實 驗

本節介紹TransAH知識表示方法的實驗驗證,主要在2個工作上驗證和評估了TransAH方法——鏈路預測和三元組分類.這2個工作從不同的角度評估了模型預測不可見三元組精確度的能力,對應于不同的應用場景.首先,介紹了這2項工作的評價準則,實驗實現的具體配置以及相應的實驗結果;然后,分析了TransAH方法的實驗效果,著重考察了TransAH方法在表征復雜關系的能力和訓練效率,并與其他知識表示方法進行比較.

3.1 實驗準備

1) 抽樣策略.進行訓練時,需要基于黃金三元組構建負三元組.之前的方法只是通過隨機打亂黃金三元組來獲得負的三元組,例如,在TransE中,對于一個黃金三元組(h,r,t),那么一個負的三元組(h′,r,t′)是由從實體集E中隨機抽取一對實體(h′,t′).但是這種方法對于多元關系,會存在將原本正確的三元組標記為錯誤的三元組的情況,因此,改用伯努利抽樣的策略.

在打亂一個三元組時,根據關系的映射關系為代替頭和尾實體設置了不同的概率,比如說一對一、多對一和多對多等.一般傾向于給一對多的關系中更高的概率代替頭實體,在多對一關系中更高的概率代替尾實體.用這種方法,產生錯誤負三元組的概率大大降低了.

具體地,一個關系r的所有三元組中,首先可以獲得以下2組數據:1)每一個頭實體對應的尾實體的平均數量,記為tph(#tail entities per head entity);2)每一個尾實體對應的頭實體的平均數量,記為hpt(#head entities per tail entity).然后,用參數

的伯努利分布來取樣.對于一個關系r給定的黃金三元組(h*,r*,t*),在進行打亂時,以概率p代替它的頭實體,以概率1-p代替它的尾實體.

同樣,亦可得到區分出關系類型的方法.對于每一個關系r,計算了每一個頭實體的尾實體的平均數量tphr,每一個尾實體的頭實體的平均數量hptr.具體地,如果tphr<1.5且hptr<1.5,那么關系r是一對一的;如果tphr≥1.5且hptr≥1.5,那么關系r是多對多的;如果hptr<1.5且tphr≥1.5,那么關系r是一對多的;如果hptr≥1.5且tphr<1.5,那么關系r是多對一的.

2) 平均三元組的數量.平均三元組的數量ATPE(average triple number per entity)衡量了數據多樣性和復雜性.直觀地看,數量越多的三元組導致了越復雜和越稠密的知識圖譜結構.為了表達更加復雜的圖譜結構,實體的分配也會更加多樣化和復雜化.因此,總體上說,知識表示效果會隨著ATPE的增大而逐步退化,畢竟越高的ATPE代表意味著更為多樣和復雜的實體關系情形.

3.2 鏈路預測

鏈路預測的主要任務是,對于一個丟失了頭實體或尾實體的三元組(h,r,t),給定(h,r)預測t,或者給定(r,t)預測h.這項測試任務著重于對知識圖譜中的候選實體集進行排序,而不是直接獲得一個最好的答案.

本組實驗選用了TransE使用的2個數據集:WordNet中的子集WN18和Freebase中的一個相對稠密的子集FB15K,其中的實體也都包括在維基數據庫中.關于實驗數據集的基本統計信息,如表1所示:

Table 1 Statistics of Datasets表1 數據集統計信息

1) 評價準則.為了更好地與TransE等知識表示模型進行對比,采用和TransE相同的評價準則.對于每一個測試三元組(h,r,t),將尾實體t用每一個知識圖譜中的實體e來代替,同時用得分函數fr*(h,e) 計算損壞的三元組(h,r,e)的相應得分.用升序對這些分數排序,得到了正確三元組的排序得分.同樣,也能得到打亂頭實體h的三元組(h,r,t)的排序得分.

將所有的測試三元組進行綜合,有2個度量準則:①黃金三元組的平均排序得分,記為MeanRank;②黃金三元組排序不大于10的比例,記為Hits@10.注意到,如果一個損壞的三元組在知識圖譜中存在,即該三元組實際上是正確的,那么將它排在原始三元組之前也是合理的.為了消除這個因素的影響,實驗中在得到每一個測試三元組的排名得分之前,將上述產生“干擾”的損壞三元組從訓練集、驗證集和測試集中去除,從而保證了該損壞的三元組不屬于任何數據集.這個設置稱為“Filt”設置,而未經上述處理的實驗設置成為“Raw”設置.在這2種實驗設置中,一個更低的MeanRank和更高的Hits@10意味著更好的實驗效果.

2) 實驗實現.訓練TransAH時,在隨機梯度下降法中使用的學習速率α={0.002, 0.005, 0.01},差距γ={0.25,0.5,1,2},表示維度k={50,75,100},權重η={0.05,0.0625,0.25,1.0},訓練批量的大小B={20,75,200,1,200, 4,800}.最優參數由驗證集決定.用“unif.”表示傳統的等概率替代頭實體或者尾實體的方法,用“bern.”來表示使用伯努利抽樣策略的方法,即用不同的概率分別來代替頭實體和尾實體.

在等概率抽樣中,訓練TransAH最優的參數配置如下:在WN18數據集上,α=0.01,k=50,γ=1.0,η=0.25,B=75;在FB15K數據集上,α=0.005,k=50,γ=0.5,η=0.05,B=1200.在伯努利抽樣中,訓練TransAH最優的參數配置如下:在WN18數據集上,α=0.01,k=50,γ=1.0,η=0.25,B=1200;在FB15K數據集上,α=0.005,k=100,γ=0.25,η=1.0,B=4800.對于每一個數據集,本實驗將所有訓練三元組迭代了500次.

3) 實驗結果.實驗結果在表2~4中列出,每組實驗的最優值進行了加粗以突出顯示.

如表2所示,在WN18中,TransE和TransAH等方法甚至是原始的,對關系沒有進行翻譯操作的TransE方法,在MeanRank這個度量上,都比其他方法要好.這可能是因為WN18中關系的數量比較少,所以忽略掉不同類型的關系也是合理的.但在FB15K中,TransAH方法比所有其他方法表現都要好.FB15K是一個多樣復雜的實體關系圖譜,它的ATPE值也是這些數據集中是最高的.在這個數據集中,TransAH的實驗表現是最好的,說明TransAH方法在多樣復雜的實體關系表示方面更具優勢.

Table 2 The Average Results of Link Predicton表2 鏈路預測的平均預測結果

Table 3 Hits@10 of Each Type of Relations in FB15K表3 關于FB15K各類關系的Hits@10值

Table 4 Hits@10 of Several Relations in TransE and TransAH

與TransE相比,TransAH在WN18上改進了31.2%,而在FB15K上進步了36.2%.這個比較進一步顯示了TransAH相比TransE在表達多樣復雜關系的場合應用中有更大的優勢.同時,與TransA比較,TransAH同樣取得了一定的進步.這些改進主要是由于TransAH采用了相較于經典方法更加靈活的度量標準,并應用了超平面模型,因此能夠更好地表達自反、一對多、多對一和多對多等復雜關系,進而更好地支持準確推理.

為了進一步證實這一觀點,深入挖掘分析了不同關系不同映射類型的相應結果,具體數值如表3 和表4中所示.在1 345個關系中,24%的關系是一對一的,23%的關系是一對多的,29%的關系是多對一的,24%的關系是多對多的.表3中,“Predicting Left”和“Predicting Right”分別表示由關系和尾實體預測頭實體以及由關系和頭實體預測尾實體. 相較于TransE方法,TransAH在一對多、多對一、多對多關系表達上有顯著的改善.尤其出乎預想的是,在一對一關系中,TransAH同樣有巨大的進步(超過80%).這可能受益于知識圖譜本身的某些特征,即實體與關系相聯系,某一部分表示的更好使得整體結果得到較大改進.表4中,自上而下顯示了在一對多、多對一、多對多和自反等幾個典型復雜關系上的Hits@10值.與TransE方法相比,TransAH在這些關系中的改善同樣可圈可點,尤其是在personsibling_s和personspouse_s關系上,TransAH在Hits@10上的提升超過56.4%.

3.3 三元組分類

三元組分類是確定一個給定三元組(h,r,t)是否正確,其主要任務是對一個三元組進行“正確”和“錯誤”的二元分類.

實驗中,首先使用了WordNet的子集WN11和Fresbase中的子集FB13;由于WN11和FB13包含的關系數過少,還額外使用了包含更多關系的FB15K數據集.關于實驗數據集的基本統計信息,詳見表1.

1) 評價準則.本組實驗遵循了NTN模型所采用的評估準則.進行分類時,需要生成負的標簽,通過將黃金三元組打亂得到負的三元組,具體方法同樣可參照3.1節中的抽樣策略.

分類的決定規則是,對于一個三元組(h,r,t),如果其得分函數比一個關于關系r的給定閾值σr低,那么預測為正確,反之為錯誤.特定關系的閾值σr由驗證集得到最大分類精度時的閾值決定.

此外,為了證實使用對角權重矩陣Dr*比使用一般權重矩陣Wr*在計算效率方面的提升,將包含權重矩陣Wr*的方法標記為TransAH-W,一并進行了實驗,以比較實驗的運行時間和實驗結果.

2) 實驗實現.TransAH設置的學習速率α={0.001,0.005,0.01,0.1},差距γ={1.0,2.0},表示維度k={20,50,100},訓練批量的大小B={30,120,480,1920}.

TransAH在伯努利抽樣的實驗中,最優的參數配置為:在WN11中,α=0.01,k=20,γ=2.0,B=120;在FB13中,α=0.001,k=100,γ=2.0,B=30;FB15K中,α=0.005,k=100,γ=2.0,B=480.TransAH在等概率抽樣的實驗中,最優的參數配置為:WN11中,α=0.01,k=100,γ=2.0,η=0.25,B=4 800;FB13中,α=0.001,k=100,γ=0.25,η=0.062 5,B=4 800;FB15K中,α=0.01,k=100,γ=0.25,η=0.0625,B=4 800.循環次數限制在500次.

3) 實驗結果.分類精度結果如表5所示.在WN11和FB13中,TransAH比其他方法出色;而在FB13中,NTN模型表現同樣出色.但是在更大的數據集FB15K中,TransE和TransAH則都比NTN出色.這說明基于翻譯的模型相對更適用于大規模的知識圖譜.注意到FB15K中關系的數量(1 345)遠遠大于FB13中關系的數量(13),而實體的數量卻十分接近,說明FB13是一個密度很大的子數據集,實體間存在很強的聯系.在這個數據集中,NTN通過張量和非線性轉換方法來對復雜的聯系進行建模有一定優勢.但是,在FB15K這個稀疏的子圖譜中,采用靈活度量法和應用超平面模型十分適用,而NTN卻并不適用.不僅如此,考慮到運行時間,NTN的消耗時間比TransE和TransAH都要高.另外,在所有3個數據集中,使用伯努利抽樣也有一定的作用.

Table 5 Accuracy and Running Time of Triplet Classification of Different Models

圖5和圖6展示了不同類型關系的預測精度.在不同的數據集中,不同關系有不同的預測精度,我們尤其關注精確度較低的關系.在WN11數據集,similar_to關系的分類精確度僅75%.直覺上來講,similar_to可以從其他信息中推導出來;然而,通過similar_to相聯系的實體對只有1672個,只占了所有數據的1.5%,而預測這個關系需要與實體相關更多信息.因此,預測準確度低的主要原因是信息不充分.在FB13中,cause_of_death和gender這2個關系的精確度要比其他關系低,這主要是因為很難從其他信息中預測它們,尤其是cause_of_death.關系gender可能從一個人的姓名中推斷,但是我們學習的是每一個名字的向量,而不是名字中包括的單詞,這導致姓名信息顯得沒有用處.綜上所述,通過知識圖譜來推導新事實的能力有一定的局限性,而從純文本中抽取事實或是一個互補方法.

Fig. 5 Prediction accuracy of different relations in WN11圖5 WN11中各類關系的預測精度

比較TransAH和TransAH-W的實驗時間和實驗效果,可見TransAH的模型訓練時間相較TransAH-W大大縮短(從10h縮短到到30 min),但預測精度卻反而稍稍占優(從89.2%提升到92.0%).這組實驗很好地說明了采用對角權重矩陣的有效性和高效性.

為了驗證將特征維權重化后的實驗效果,引入“權重差異”的概念.由于部分維度的權重過小,可能存在除法無法計算的情況,因此采用中位數來代替相對較小的權重.于是,權重差異為

如圖7和圖8所示,在WN11和FB13這2個數據集中,各個典型關系的預測精度與權重差異的變化趨勢基本是一致的,其中x軸羅列了關系的名稱,左y軸顯示了關系的精度(%),右y軸是權重差異值.權重差異越大,說明特征維度權重的表達越有意義.可以看到,權重差異依據關系不同會有波動;比如在FB13上,所選典型關系的權重差異多數達到了6以上,但也有部分關系的權重差異在3~4之間.另外,當權重差異增大時,預測精度也相對越大.這說明特征維度權重的應用確實對分類精度的提升起到了促進作用,從而亦證明了為特征維賦予權重的必要性和有效性.

Fig. 7 Accuracy and weight difference of different relations in WN11圖7 WN11中各個關系的精度和權重差異

Fig. 8 Accuracy and weight difference of different relations in FB13圖8 FB13中各個關系的精度和權重差異

4 結論和進一步工作

本文主要提出了一種面向知識圖譜的改進的知識表示方法TransAH.經典的基于翻譯的知識表示方法TransE存在距離度量不夠靈活和無法處理復雜關系等缺陷,導致知識表示的性能亟待提高.針對第1個缺陷,TransAH采用了一種自適應的度量方法,加入了對角權重矩陣Dr將得分函數的度量由歐氏距離轉換為加權歐氏距離,并實現了為每一個特征維賦予不同的權重.針對第2個缺陷,TransAH應用了面向關系的超平面投影的思想,將頭尾實體映射至給定關系的超平面來加以區分.為驗證方法的有效性,在基于WordNet和Freebase的大規模真實數據集上對鏈路預測和三元組分類這2項任務進行了綜合評測.橫向比較實驗結果表明,TransAH取得最優化的性能,可以應用到真實大規模知識圖譜的完善和推理應用中.

下一步,計劃對所提TransAH方法進行進一步改進,尋求額外的性能提升.注意到TransD[8]在對復雜關系進行表示時效果稍優于TransH,可考慮將其與本文方法相結合,可能會產生更好的結果;但是同時也要考慮到訓練實驗的計算效率問題,保證面向大規模知識圖譜的可擴展性.另外,除了鏈路預測和三元組分類預測等基礎任務,還將致力于考察所提知識表示方法在文本關系知識的抽取、語義實體解析以及基于鏈路的實體聚類等方面的任務和應用.

[1] Bollacker K, Evans C, Paritosh P, et al. Freebase: A collaboratively created graph database for structuring human knowledge[C]Proc of KDD 2008. New York: ACM, 2008: 1247-1250

[2] Miller G A. WordNet: A lexical database for English[J]. Communications of the ACM, 1995, 38(11): 39-41

[3] Wang Haofen. Technology of large scale knowledge graph[J]. Communications of the CCF, 2014, 10(3): 64-68 (in Chinese)

(王昊奮. 大規模知識圖譜技術[J].中國計算機學會通訊, 2014, 10(3): 64-68)

[4] Yu Ge, Gu Yu, Bao Yubin, et al. Large scale graph data processing on cloud computing environments[J]. Chinese Journal of Computers, 2011, 34(10): 1753-1767 (in Chinese)

(于戈, 谷峪, 鮑玉斌, 等. 云計算環境下的大規模圖數據處理技術[J]. 計算機學報, 2011, 34(10): 1753-1767)

[5] Bordes A, Usunier N, Garcia-Duran A, et al. Translating embeddings for modeling multi-relational data[C]Proc of NIPS 2013. Cambridge, MA: MIT Press, 2013: 2787-2795

[6] Wang Zhen, Zhang Jianwen, Feng Jianlin, et al. Knowledge graph embedding by translating on hyperplanes[C]Proc of AAAI 2014. Menlo Park, CA: AAAI, 2014: 1112-1119

[7] Lin Yankai, Liu Zhiyuan, Sun Maosong, et al. Learning entity and relation embeddings for knowledge graph completion[C]Proc of AAAI 2015. Menlo Park, CA: AAAI, 2015

[8] Ji Guoliang, He Shizhu, Xu Liheng, et al. Knowledge graph embedding via dynamic mapping matrix[C]Proc of ACL 2015. Stroudsburg PA: ACL, 2015: 687-696

[9] Liu Zhiyuan, Sun Maosong, Lin Yankai, et al. Knowledge representation learning: A review[J]. Journal of Computer Research and Development, 2016, 53(2): 247-261 (in Chinese)

(劉知遠, 孫茂松, 林衍凱, 等. 知識表示學習研究進展[J]. 計算機研究與發展, 2016, 53(2): 247-261)

[10] Bordes A, Weston J, Collobert R, et al. Learning structured embeddings of knowledge bases[C]Proc of AAAI 2011. Menlo Park, CA: AAAI, 2011: 301-306

[11] Socher R, Chen D, Manning C D, et al. Reasoning with neural tensor networks for knowledge base completion[C]Proc of NIPS 2013. Cambridge, MA: MIT Press, 2013: 926-934

[12] Bordes A, Glorot X, Weston J, et al. A semantic matching energy function for learning with multi-relational data[J]. Machine Learning, 2014, 94(2): 233-259

[13] Bordes A, Glorot X, Weston J, et al. Joint learning of words and meaning representations for open-text semantic parsing[C]Proc of AISTATS 2012. Cadiz, Spain: JMLR, 2012: 127-135

[14] Sutskever I, Tenenbaum J B, Salakhutdinov R. Modelling relational data using Bayesian clustered tensor factorization[C]Proc of NIPS 2009. Cambridge, MA: MIT Press, 2009: 1821-1828

[15] Jenatton R, Roux N L, Bordes A, et al. A latent factor model for highly multi-relational data[C]Proc of NIPS 2012. Cambridge, MA: MIT Press, 2012: 3167-3175

[16] Nickel M, Tresp V, Kriegel H. A three-way model for collective learning on mutli-relational data[C]Proc of ICML 2011. New York: ACM, 2011: 809-816

[17] Nickel M, Tresp V, Kriegel H. Factorizing YAGO: Scalable machine learning for linked data[C]Proc of WWW 2012. New York: ACM, 2012: 271-280

[18] Liu Qiao, Li Yang, Duan Hong, et al. Knowledge graph construction techniques[J]. Journal of Computer Research and Development, 2016, 53(3): 582-600 (in Chinese)

(劉嶠, 李楊, 段宏, 等. 知識圖譜構建技術綜述[J]. 計算機研究與發展, 2016, 53(3): 582-600)

[19] Xiao Han, Huang Minlie, Hao Yu, et al. TransA: An adaptive approach for knowledge graph embedding[JOL]. Computer Science, 2015[2016-09-27]. http:xueshu.baidu.coms?wd=paperuri%3A%288d5d5c7bc0adb8e1cd42ab11 d7e2b31b%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Farxiv.org%2Fabs%2F1512.01370&ie=utf-8&sc_us=16885378228616607912

猜你喜歡
實驗方法模型
一半模型
記一次有趣的實驗
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
做個怪怪長實驗
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 久热精品免费| 亚洲成人免费在线| 在线观看网站国产| 日韩精品无码免费专网站| 青青草欧美| 国产69精品久久久久妇女| 毛片免费网址| 69av在线| www.youjizz.com久久| 日本高清在线看免费观看| 真实国产精品vr专区| 欧美亚洲国产精品久久蜜芽| 久久中文无码精品| 蜜芽国产尤物av尤物在线看| 91精品人妻互换| 日本一区二区三区精品视频| 一级毛片基地| 国产人人干| 国产精品9| 蝌蚪国产精品视频第一页| 麻豆AV网站免费进入| 亚洲中文字幕在线观看| 无码专区在线观看| 亚洲第一在线播放| 91啦中文字幕| 91久久大香线蕉| 欧美午夜网| 久久久久免费精品国产| 国产精品免费露脸视频| 国产在线视频自拍| 欧美精品亚洲精品日韩专区| 欧美国产精品不卡在线观看| 九九热这里只有国产精品| 蜜臀av性久久久久蜜臀aⅴ麻豆| 亚洲色无码专线精品观看| 亚洲视屏在线观看| 日韩精品一区二区深田咏美| 四虎精品免费久久| 国产成人盗摄精品| 国产精品午夜福利麻豆| 青青草91视频| 国产精品亚洲一区二区在线观看| 亚洲综合精品第一页| 国产精品亚洲天堂| 国产精品福利尤物youwu | 91精品免费高清在线| 亚洲综合在线网| 国产资源免费观看| 国产97色在线| 中文字幕av无码不卡免费| 最新国产网站| 国产精品欧美激情| 亚洲最猛黑人xxxx黑人猛交 | 91久久精品国产| 欧美成人午夜在线全部免费| 国产欧美日韩视频怡春院| 国产精品七七在线播放| 丁香婷婷综合激情| 国产欧美日韩另类精彩视频| 女人一级毛片| 亚洲人成影视在线观看| 成人亚洲天堂| 国产精品hd在线播放| 亚洲91在线精品| 久久婷婷六月| 日韩中文精品亚洲第三区| 91青青草视频| 亚洲一区二区三区国产精品| 国内精品久久久久久久久久影视| 日韩欧美国产三级| 精品自拍视频在线观看| 国产在线日本| 午夜福利在线观看成人| 国产一级毛片高清完整视频版| 国产色偷丝袜婷婷无码麻豆制服| 婷婷色狠狠干| 国产黑丝视频在线观看| 久久亚洲天堂| 全部免费毛片免费播放| 久久久久国产一区二区| 国产一线在线| 国产精品爆乳99久久|