999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于符號語義映射的知識圖譜表示學習算法

2018-08-06 03:40:30楊曉慧張海濱曾義夫
計算機研究與發展 2018年8期
關鍵詞:語義符號實驗

楊曉慧 萬 睿 張海濱 曾義夫 劉 嶠

1(電子科技大學信息與軟件工程學院 成都 610054)2 (中電科大數據研究院有限公司 貴陽 550008) (yangxhui@std.uestc.edu.cn)

本文研究的是知識圖譜上分布式表示學習的問題.知識圖譜上表示學習的目標是將多關系數據中的實體和關系分別映射到低維的向量空間中,以促進知識圖譜上的關系學習任務的發展[1-2].機器學習領域的最新研究高度強調了符號數據的分布式表示(distributed representations)學習對于各類人工智能任務的重要性[1-3],例如協同過濾[4]、LBS服務[5]、基于知識圖譜的信息檢索[6]和文本概念建模[7]等.然而由于知識圖譜中本體與概念的多樣性,知識圖譜的表示學習仍然是一個具有挑戰性的問題[8].因此,能夠為大規模知識圖譜生成一個精確合理的表示具有重要的意義,因為它有助于從知識圖譜中有限的已知概念推理得到未觀測到的事實,揭示知識之間的區別與聯系,催生新的應用[9].

知識圖譜是基于資源描述框架(resource des-cription framework, RDF)建立的語義知識庫,其中知識以(實體,關系,實體)三元組的形式表示與存儲,實體間通過關系相互聯結,構成網狀知識結構[10].本文使用三元組(head,rel,tail)來表示事實,head,rel和tail分別表示頭實體、關系和尾實體.

當前的研究工作基于其基本假設的不同可以分為2類:矩陣分解模型(matrix factorization model, MFM)和隨機游走模型(random walk model).矩陣分解模型試圖將圖的矩陣表示分解為節點和邊的向量表示(稱為embedding)[11];而隨機游走模型將網絡建模為一系列有序節點序列組成的“文檔”,然后用文本的詞向量模型對其進行處理[12].雖然基于這2種建模思路的算法在標準數據集的測試中獲得了良好的效果(具體的細節將在第3節詳細討論),但是在多關系圖數據上的表示學習研究中仍存在一些亟待解決的問題.例如,這些模型對于稀疏不平衡的數據的性能表現不穩定,泛化能力較差,模型理論基礎不完備[13].

為了解決上述問題,本文采用了基于符號語義映射(semantical symbol mapping)理論的建模框架[14],該理論將實體和關系的唯一標識看作是基本的符號表示(symbol representation).為了讓機器能夠區分實體或關系,需要為它們構建相應的標識表示(iconic representation),即實體和關系的embedding.而將實體關系組合映射后得到的組合表示視為分類表示(categorical representation).為了實現對知識圖譜中知識的精準建模,將建立分類表示和對應目標標識表示之間的映射關系.

本文的目的是研究一種能夠靈活地對多種類型知識圖譜進行建模的高效表示學習算法,并提出一些新的見解與證據以促進表示學習的進一步研究與發展.為了實現該目標,最重要的是定義一個合適的優化問題.針對上述問題,本文提出了一種基于符號語義映射的表示學習算法.受序列學習和機器翻譯最新成果的啟發[15],本文在模型中引入了一個編碼器-解碼器(encoder-decoder)的框架來學習:1)實體和關系的聯合表示空間;2)一個新穎的關系推理模型,將組合分類表示解碼為標識表示的概率分布,從而將類別中的成員與非成員區分開.

本文的主要貢獻有2個方面:

1) 首次從符號語義映射的角度對圖的表示學習問題進行建模,所提出的模型是首個基于循環神經網絡(recurrent neural network, RNN)的表示學習和關系推理模型,實驗結果表明所提算法的綜合性能表現顯著優于當前主流的相關工作;

2) 將逆關系鏡像的訓練機制引入到模型中,通過區分實體在三元組中的不同位置,使模型能夠處理關系的對稱性/非對稱性.

1 相關工作

近年來,分布式表示學習吸引了許多不同領域研究人員的關注,如推薦系統[16]、知識圖譜[17]、復雜網絡[18]和生物信息學[19],因為這是學習如何在現實世界網絡中進行預測的第1步[20-21].如引言所述,現有的方法可以分為2類:隨機游走模型和矩陣分解模型,它們分別代表了對物理網絡建模的不同選擇.

隨機游走模型將網絡建模為一系列有序節點序列構成的“文檔”,這些序列是通過隨機游走過程從底層的網絡中采樣得來,Skip-gram模型通常被用來學習序列中實體的embedding[12].隨機游走模型被廣泛應用于復雜網絡研究領域,它具有可在線學習的優勢,這意味著模型可以根據從圖中變化區域采樣生成的新路徑來進行迭代的更新.然而,隨機游走模型的采樣策略可能非常棘手且計算復雜度較高,實際上并沒有明確的采樣策略適用于所有的實際情況且不會產生沖突.因此,隨機游走模型容易受到采樣策略效率低的影響,以及遭受過擬合與欠擬合的情況[22].本文沒有采用隨機游走的建模思路,但是2個最優的隨機游走模型DeepWalk[12]和Node2vec[18]將被選做實驗對比的基準實驗.

矩陣分解模型(MFMs)在Netfix挑戰賽使用非常廣泛,模型將網絡視為鄰接矩陣,學習的策略則是將鄰接矩陣分解為低維的實值向量[16].知識圖譜的研究人員對多關系數據推理學習的研究豐富了矩陣分解模型的研究領域[23].本文的工作與RESCAL[24],NTN[25],TransE[26],ER-MLP[17],DistMult[27],HoIE[11],ComplEx[28]和ConvE[29]等模型相關.這些工作將多關系數據看作一個3維的二元張量,該張量的每一個切片對應一種關系的鄰接矩陣.embedding學習的策略則是用一些組合算子來分解該張量[13].這些模型之間的區別在于它們的組合算子不同,通常可以分為線性的組合算子和非線性的組合算子.

根據評分函數中的組合算子,RESCAL,TransE,DistMult,HoIE和ComplEx可以劃分為線性模型.TransE和RESCAL的得分函數是實體向量相對于關系矩陣的雙線性變換[30].而DistMult是一種三線性張量因子分解模型,ComplEx是DistMult在復數空間中的擴展.HoIE的組合運算被定義為實體向量的全息卷積,然而理論證明,在訓練時對初始向量施加一定的約束,則HoIE與ComplEx模型是相同的[31].線性模型(如TransE和DistMult)的一個普遍問題是不能很好地處理對稱/非對稱關系,而ComplEx很好地解決了這個問題,它考慮了實體的位置(作為頭實體或尾實體)對建模的影響,使用復共軛對不同位置的實體建立不同的表示[28].同時,為了解決關系對稱性的問題,本文提出的模型為圖中每種關系引入了一個“逆關系鏡像”,如第3節所示.使用逆關系鏡像機制使模型能夠從數據中捕獲更多有用的模式,在圖表示學習任務中表現出更好的性能.

與本文提出的模型關聯最密切的模型是Dettmers等人提出的ConvE模型[29],它在embedding上利用二維卷積和多層非線性特征提取來對知識圖譜進行建模.ConvE的評分函數定義為

(1)

1) 聯系.ConvE與本文提出的模型SSME有一些相似性,它們都通過建立一個將概念從{head,rel}組合表示到它的等價對象tail的神經映射機制來學習embedding.此外,SSME與ComplEx的聯系在于它們都明確區分了實體(頭實體或尾實體)的語義功能,以此解決關系的對稱非對稱性質對建模帶來的影響,也因此它們比其他的相關工作更適用于廣泛的本體定義[13].

2) 差異.然而SSME和ConvE有2處主要的區別:①ConvE使用了卷積神經網絡來對實體關系對的拼接表示進行特征提取,并通過張量變換操作來實現從特征映射建立語義組合表示.而SSME是一個基于RNN的語言模型,一個2跳的RNN模型用來對實體-關系對的符號組合進行語義編碼,然后通過一個多層感知機(multilayer perceptron, MLP)進行解碼,將其映射到目標符號上.②由于系統中引入了逆關系鏡像,SSME可以在一個統一的模型中完成雙向推理,這使得模型能夠更好地利用圖中的結構化信息,特別是在有向圖中(而ConvE的建模視角是單向的).實驗證明本文提出的模型能有效地捕捉到逆關系鏡像與其對應的原始關系的語義關聯,如對稱關系(如antonymy關系)和非對稱關系(如hyponymy和hypernym關系),使模型能適應多種不同類型(同構/異構)網絡的關系推理任務.

2 符號語義映射模型

在本節中,首先介紹本文的背景與使用的符號系統,之后對所提出模型的直觀性和算法框架進行討論.

2.1 符號系統描述

多關系知識圖譜可以視為一個3維的二元張量G,其中每一個切片對應一個關系類型rel的鄰接矩陣Gr el.如引言所述,用(head,rel,tail)來表示一個事實單元,其中head,tail∈E分別表示頭實體和尾實體,E表示實體集合,rel是關系類型集合R中的一個關系類別.本文為圖中的每一個實體和關系指定了唯一的實值向量.實體和關系的embedding位于相同的低維空間中,embedding的維度為d.為了區分符號表示和標識表示,用r來表示關系rel的embedding向量.

2.2 基礎模型概述

本文的主要動機是設計一種具有適用性和靈活性的分布式表示學習方法,能夠建模不同類型網絡.為了實現這個目標,本文提出了一個基于符號語義映射的神經網絡模型,它能夠同時考慮到不同網絡中具備的不同特性(例如有向/無向,同質/異質).這意味著,知識圖譜將被建模為一個非符號/符號的混合系統,其中基本符號(elementary symbol)指命名實體和關系,被表示成2種非符號的embedding.例如,給定一個事實(戰狼,導演,吳京),其中的基本符號是“戰狼”、“導演”和“吳京”.為了讓機器能夠區分這些輸入,需要為它們構建相應的標識表示,即實體和關系的embedding.然而如果想要學習出(戰狼,導演,?)的標識表示,需要首先解決以下2個問題:

1) 如何基于“戰狼”、“導演”的標識表示構建一個合適的分類表示?

2) 如何建立一個可靠的感知預測機制將屬于(戰狼,導演,?)答案集中的成員與其他易混淆的非成員區分開來?

我們從Seq2Seq模型中獲得了一些靈感[15],該模型已經被證明從符號序列中生成組合表示是可行的,同時該模型具有強大的解碼功能,能夠將組合表示直接映射到對應的符號系統中.由此,我們設計出SSME的基礎模型,模型的目標是為知識圖譜中的每一個實體和關系學習一個d維的實值向量表示embedding.圖1中給出了SSME基礎模型的示意圖.SSME的建模思路是利用一個循環神經網絡來讀取輸入的序列(head,rel),每一個時間步只讀取序列中的一個元素,以此來生成一個關于符號組合(實體-關系組合)的語義表示C,在SSME中C是一個d維的向量.然后利用MLP網絡建立從組合語義表示C到目標符號tail的感知映射.MLP本質上是一個以輸入序列為條件的embedding翻譯模型或解碼模型.由于輸入序列的長度固定為2,為了快速求解,SSME使用了一個標準的RNN來進行編碼.當然,也可以使用加門的RNN(如LSTM 或 GRU),或者深層(堆疊的RNN)模型作為編碼器.本文采用的編碼器-解碼器的框架與Cho等人和Sutskever等人的工作相近[15],他們的工作清楚地證明了從富含語義的句子中生成信息組合表示的可行性,并且這一思路已成功應用于多種自然語言處理任務,如機器翻譯.

Fig. 1 Schematic illustration of the basic SSME model圖1 SSME基礎模型示意圖

2.3 基本模型實現細節

如圖1所示,一個2跳的RNN被用來編碼輸入序列(head,rel)生成組合表示C,其中循環神經網絡中的單元結構定義如下:

stime=f(W·xtime+U·stime-1+b),

(2)

其中,W∈k×d,U∈k×k分別表示相對于當前輸入xtime和前一步的隱含狀態stime-1的權重矩陣;需要說明的是,下標time表示時間步;b∈k定義了一個偏置向量;f(·)表示一個非線性的激活函數,本文中所有的實驗都是使用的ReLU(rectified linear unit)激活函數.

(3)

其中,V∈|E|×k是一個權重矩陣,b1∈|E|是偏置向量.g(·)定義了一個softmax函數,因此是一個長度為|E|的softmax向量,其第i個元素表示C相關的符號等價物是圖中第i個實體的概率.

Fig. 2 Network structure illustration of the SSME model圖2 SSME模型網絡結構示意圖

(4)

其中y表示tail的獨熱(one-hot)向量.為了加速隨機優化過程,本文使用小批量(mini-batch)訓練策略進行訓練.當樣本數量為N時,平均交叉熵損失函數被重新定義如下:

(5)

其中,i是當前訓練批次中的第i個樣本,taili則表示第i個樣本的目標標簽.一個迭代隨機梯度下降優化器將被用于優化上述的目標交叉熵損失函數.

從式(4)和(5)可以看出,本文提出的模型可以用無監督的方式進行訓練.模型并不需要手動標記數據,因為從知識圖譜中獲取的事實都可以看作是“自標記”的,因此可以直接用于模型訓練.

2.4 SSME模型

本節我們將介紹SSME模型.為了使如圖1所示的基礎模型適用于各種情況,我們對其進行了如下的擴展:

1) 為了處理同一個映射框架下的實體預測和關系預測任務,我們為SSME基礎模型引入了一個附加的符號溯源任務模塊,它主要負責學習從組合表示(head,tail)到目標關系類型rel的映射模式.為了與上述基礎模型進行區分,我們稱這個模塊為關系預測模塊,稱基礎模型為實體預測模塊,均作為模型的編碼器部分,基本結構如圖2編碼器部分所示.

這2個模塊的結構非常相似,但關系預測模塊的輸出向量大小為|R|.2個模塊的參數是獨立于彼此的,這使得模型可以從不同角度來構造映射方式.模型的損失函數定義如下:

(6)

2) 為了解決關系的非對稱特性以及解決在同一embedding框架下進行頭實體預測和尾實體預測的任務,我們將關系的逆鏡像引入系統.這表明對于每一個rel∈R,它的逆關系鏡像rel′將被加入到符號系統中.SSME模型的優勢是只需在訓練時為每個(head,rel,tail)加入反向事實(tail,rel′,head),就能將所有的embedding(包括逆關系鏡像rel′)訓練到,而不需要再次訓練調整.通過這種方式,SSME能夠以“逆向思維”從事實中進行學習,這與人類在學習新事物時很相似,我們會在大腦中創建一個角度不斷變化的場景來幫助理解事物.更重要的是,SSME模型能夠處理關系的對稱性/非對稱性.如4.2節所示,SSME學習得到的分布式表示embedding 能夠有效地區分關系與其逆關系鏡像的語義和語境的區別.

關系的對稱特性在知識圖譜中很常見.在解決關系學習問題時,關系的不同特性會導致不同類型的推理方式[26].然而正如Trouillon等人[13]指出的,大多數流行的圖表示學習算法缺乏對關系的對稱性/非對稱性精確建模的能力,因此它們不能在不產生沖突的情況下適用于所有的實際情況.ComplEx是一個例外,它利用復共軛使實體在處于不同位置時擁有不同的表示來解決關系對稱性的問題[28].

在本工作中,作者認為將實體表示限定在實數域比在復數域中更有利于下游應用的建模任務和計算分析,例如實體鏈接和圖挖掘.操作實值向量比操作復數向量更方便,也更符合Mikolov等人[33]和Pennington等人[8]對分布式表示的研究與定義,即從文本語料庫中學習單詞和短語的實值分布式表示,這已經被廣泛地接受并應用于各種自然語言處理任務.

綜上所述,本文提出的SSME模型具有如下優點:1)本文提出的模型為實體預測和關系預測任務提供了一個統一的表示學習框架,它可以綜合2個不同任務提供的信息優勢,因此也可以更好地利用知識圖譜的結構信息;2)通過為知識圖譜中的每個關系引入逆關系,模型可以解決實數域中關系對稱性/非對稱性建模的問題,這個機制可以靈活地支持各種結構圖的學習模型,并且可以應用到廣泛的下游應用中.

3 實驗結果與分析

本節在2類不同的圖表示學習任務上驗證SSME模型的有效性,任務的數據集取自不同的研究領域,表1和表2給出了相應的統計信息.本節還對SSME模型的優勢和局限進行了詳細的討論與分析.

Table 1 Statistics of the Knowledge Graph Data Sets表1 知識圖譜數據集的統計信息

Table 2 Statistics of the Complex Network Data Sets表2 復雜網絡數據集的統計信息

3.1 實驗數據

首先在知識圖譜擴容(knowledge base comple-tion, KBC)任務上對SSME模型進行評估,使用的數據集是基準數據集FB15K和WN18①,以及它們的擴展數據集FB15K-237和WN18RR②.FB15K是Freebase知識庫的子集,其知識來源是維基百科,FB15K中的數據大部分與電影和體育主題相關.WN18數據集是從WordNet知識庫中采樣得到的,它主要包括語義概念和詞匯關系,并且實體以嚴格的等級方式進行組織.這些數據集已經被用作比較評估的基準數據集.然而Toutanova等人指出,FB15K和WN18的測試集中包括大量與訓練集中三元組相反的三元組,即(head,rel1,tail)屬于訓練集,存在(tail,rel2,head)屬于測試集.為了消除這種情況對實驗結果的影響,Toutanova等人引進了FB15K-237,去掉了FB15K中具有相同實體對的三元組[34].同時本文也將在Dettmers等人提供的WN18RR數據集上進行測試[29].

其次,本文也通過在復雜網絡研究領域中的基于圖的多標簽分類(multilabel classification, MLC)任務評估SSME的有效性,本文使用的基準實驗數據集包括BlogCatalog,protein-protein interaction(PPI)和Wikipedia③.BlogCatalog是一個從Blog-Catalog網站上采樣下來的社交網絡,是由博主之間的社交聯系構成,其中博主的標簽代表了他們感興趣的主題類別.而PPI網絡是一個生物網絡,采樣于智人蛋白質交互作用網絡,其中節點(蛋白質)間的關系表示蛋白質間是否存在交互作用.Wikipedia是維基百科中詞共現網絡,其中節點的標簽是Grover等人利用由斯坦福的POS-Tagger工具(part-of-speech, POS)推斷的詞性標注.在3類網絡數據的訓練集中,每個節點擁有一個或多個標簽,多標簽分類任務則是預測測試集中節點的標簽.

3.2 實驗設置

第1個任務是為了驗證SSME模型在知識圖譜擴容任務上的有效性.為了進行實驗對比,本文重現了相關工作的實驗,將其結果作為對比的基準,包括現在性能最好的2個模型ComplEx和ConvE,以及在當前文獻中引用最廣泛的模型TransE和DistMult.

在知識圖譜擴容領域,P@N指標是性能分析中最常用的評估指標,它表示被預測的事實出現在預測結果列表前N的概率.本文報道了過濾后的P@N指標,即在統計命中率時過濾掉所有的已知事實.

本文所提出的SSME模型包含4個超參數,需要在訓練之前加以確定:SGD算法的學習率η、RNN隱含層的維度k、dropout ratep以及向量表達空間的維度d.實驗采用網絡尋優法(grid search)對上述參數進行選擇.參考相關工作的實驗參數,設定η的搜索范圍為{0.0001,0.001,0.1,1,5,10},p的搜索范圍為{0.0,0.1,0.2,0.3},k的搜索范圍為{256,512,1024,2048},d的范圍為{50,100,150,200}.在4個數據集上分別進行網絡尋優,取P@10指標最優時的參數組合作為本文的實驗參數:{d:200,p:0.2,η:5.0,k:512}.訓練的批量設置為256,SGD算法迭代次數統一設置為50輪.

第2個測評實驗的目的是驗證SSME模型在大型復雜網絡中的embedding學習能力,模型將在多標簽分類任務上與DeepWalk模型和Node2vec模型等最優的模型進行對比.為了公平起見,本文也將報道其他多關系表示學習模型的實驗結果.

為了與相關工作保持一致,我們抽取部分標記節點數據作為訓練集,其余部分用于測試.這個過程重復了9次,即訓練比率為10%~90%.測試時,使用Micro-F1和Macro-F1指標作為評判標準.采樣過程具有隨機性,所以相同比率訓練集的實驗將重復進行10次,實驗結果取平均值.對于多標簽分類任務,本文使用一個簡單的感知機進行測試,感知機的隱含層維度k=128,學習率為0.1.通過網格尋優獲取模型的參數,訓練過程在Macro-F1達到最優時停止.

3.3 知識圖譜擴容任務

第1組實驗與知識圖譜擴容任務相關,我們在實體預測任務上測試了本文提出的模型和其他相關模型.所有數據集上的實驗結果由表3給出,表3中每列指標中性能表現最好的一項用粗體標出.

Table 3 Entity Prediction Results on WN18, FB15K, WN18RR and FB15K-237 Data Sets表3 WN18,FB15K,WN18RR和FB15K-237數據集上實體預測的實驗結果 %

Note: The best result of each column is highlighted in black boldface.

從表3可以看出,在4個數據集上,相比于其他模型,SSME在P@N(N=1,3,10)指標上都展現出了極強的優勢.如果考慮在FB15K上的P@1預測準確度,SSME的結果比ConvE高出19.10%,比CompIEx高出33.22%,優勢更加明顯.FB15K采樣自FreeBase,它是最大的協同知識圖譜之一.實驗結果所表現出的積極信號表明SSME訓練出的embedding將幫助提高基于Freebase知識庫的其他下游應用程序的性能.

SSME和ConvE所表現出的優異性能證明基于符號語義映射的神經網絡表示學習模型是合理且有效的.從實驗可以發現,CNN和RNN網絡都可以從知識圖譜中的事實有效地生成具有代表性的組合表示.然而,它們之間的聯系仍不清楚,也很難解釋它們是否符合認知.考慮到RNN模型在機器翻譯上的成功應用,我們推測基于RNN的解決方案具有較好前景,因為它可以進一步擴展以學習任意長度的序列(由事實構成的鏈),以便從鏈數據中學到更多的知識.

3.4 多標簽分類任務

3.3節評估了SSME模型在多關系知識圖譜中的有效性,接下來將考慮同質網絡中的表示學習問題.同質網絡中實體間往往僅擁有一種特定的關系,典型的例子是社交網絡和生物網絡.本文使用了BlogCatalog網絡和蛋白質交互作用網絡(PPI),以便于與早期的相關工作進行對比,實驗的結果由圖3展示,橫軸為訓練數據占總數據量的比例,縱軸為模型在相應評價指標上的得分.從圖3中可以看出,與其他性能突出的模型相比,SSME模型更具有優越性,特別是在節點之間的聯系是客觀和科學地測量的PPI網絡的情況下.

Fig. 3 Multi-label classification results on BlogCatalog, PPI and Wikipedia data set圖3 BlogCatalog, PPI和Wikipedia數據集上的多標簽分類結果

從圖3(a)BlogCatalog中的Micro-F1指標可以看出,標簽數據越稀疏DeepWalk表現得越好.但是當給出50%的數據以后,SSME模型在Micro-F1和Macro-F1上的結果都明顯優于其他模型.實驗結果證明當給定足夠多的數據時,本文提出的表示學習模型都表現出更好的性能,在捕捉社交網絡的結構信息更具有表現力,對社交網絡進行建模時是有效的,因此可以預見在大數據集上SSME會有更好的結果.且由于其實現簡單,在處理大規模網絡時比隨機游走模型更高效.值得一提的是,ComplEx和ConvE模型也展現出其相對于其他模型在同質網絡上學習表達的靈活性與優越性.其中ConvE模型與SSME性能相當,這與它們在多關系推理任務上的表現一致.

圖3(b)PPI中的實驗結果則顯示,在PPI數據集上,SSME模型始終顯著優于其他模型.事實上,給定30%的標記蛋白質作為訓練數據時,SSME,ConvE和ComplEx的結果已經比給定90%數據時DeepWalk和Node2vec模型的結果要好,而后者代表了復雜網絡分析領域中性能最好的圖表示學習模型,這說明了本文提出的模型對生物網絡具有強大的表示學習能力.同時,本文是相關領域中第1次將多關系表示學習模型應用到復雜網絡中,作者認為,多關系表示學習模型的強大性能表明了其對生物網絡的學習具有足夠的靈活性,而這個結果也希望能夠為其他的相關應用領域提供一些新的見解.

需要注意的是,PPI網絡比BlogCatalog網絡更稀疏,圖3中的結果說明了隨機游走模型的性能退化,而本文提出的模型和其他知識圖譜嵌入學習模型不受網絡稀疏性的影響.這可能是因為這些模型比基于隨機游走的方法可以更有效地利用現有的事實,避免通過隨機游走過程生成節點序列的需要.因此,在這種embedding方案基礎上建立的監督模型不易受到全局欠擬合和局部過擬合的影響.

4 案例分析

在本節中,我們設計了一組實驗來分析SSME與其他相關工作生成的embedding的聯系與區別,并分析了為每個關系引入逆關系鏡像的合理性與有效性.

4.1 embedding的聯系與區別

由于很難解釋SSME生成的embedding的意義,因此本文設計了一組實驗分析SSME模型與其他當前性能最優的3個模型之間的聯系與區別,包括DistMult,CompIEx和ConvE.4個模型在FB15K數據集上生成的embedding將作為研究的對象.對于4種embedding模式,我們分別計算每個模型的1 345個關系之間的余弦相似度,并對計算結果進行倒序排序,獲得一個排序列表,稱為p-列表,列表長度為903 840=1 344×1 345/2.為了公平起見,本文沒有考慮計算逆關系.

取p-列表中的前N個元素計算相似度比值,表4展示了根據top-500,top-1 000和top-2 000的p-列表計算出的模型間的相對相似度.從表4中可以看出,SSME模型訓練出的embedding與其他的模型表現出了不同的模式.以表4中的top-1 000為例,可以得到在前1 000個最相似的關系對中,SSME和ConvE模型之間重合了200對,這可以看作是對不同embedding方案的相對相似度的測度.

Table 4 Relative Similarity of the Models Measured by Overlapping of the top-N Relation Pairs in p -List on FB15K表4 根據FB15K上的p -list中的前N關系對的重疊數量測量模型的相對相似實驗結果 %

從表4中可以看出,ComplEx和DistMult生成的embedding相似度很高,這也印證了二者的建模方式在本質上是相同的,但處理實體的embedding的方式是不同的(ComplEx在DistMult的基礎上引入了復共軛來解決關系對稱性的問題).從表4觀察可知,ConvE與DistMult,ComplEx相似度也很高,而SSME與這2種模型均不相似.

4.2 逆關系鏡像機制的有效性

如2.4節所述,建模實際場景中關系的對稱性和非對稱性對于提高圖學習模型的應用性能至關重要,因為它可以幫助減少由關系多樣性引發的錯誤.在此,本文分析了WN18數據集中關系與其逆關系鏡像表示的相似度,以分析關系的對稱特性.

Table5TheCosineSimilarityBetweenRelationsandTheirInverseImagesonWN18DataSet

表5 WN18數據集上關系與其逆關系的余弦相似度

Note: sim means similarity.

從表5可以觀察到,前4個關系與它們相應的逆關系高度相關.從它們的名字和類型(1∶1或n∶n)可以看出,這些關系在本質上是對稱的.這意味著對于任意給定的事實(head,rel,tail),(tail,rel′,head)也是一個事實.而本文提出模型的有效性可以從“rid′”列看出,它恰好顯示了與前4個關系最相似的關系是它們自身對應的逆關系,這說明模型很好地捕捉到了關系對稱的特性.

值得注意的是,另外14個關系以成對的形式出現在表中,例如“_has_part”關系最相似的逆關系是“_part_of”,反之亦然.這是因為WordNet中的大多數關系是語義雙重對偶的[37].計算結果再次清晰地表明所提出的模型能夠有效地捕獲關系間的非對稱性.

5 結束語

本文研究了圖上的分布式表示學習問題,提出了一種基于符號語義映射的神經網絡表示模型,該模型使用遞歸組合機制和神經映射機制來對知識圖譜和復雜網絡進行建模.本文有2個重要的發現:1)提出的模型是基于符號語義理論框架的,其思路是通過從組合表示到標記表示的語義映射來學習圖的表示,因此可以推廣到各類同構圖和異構圖中;2)本文證明了RNN網絡可以用來有效地從圖符號系統中的事實生成具有代表性的組合表示,并且提出的模型在2類不同結構圖上的學習任務中都表現出了優異的性能.此外,由于模型的遞歸結構(參數共享)和神經映射機制,本文提出的模型在計算上效率很高,因此可以擴展應用到大規模知識圖譜中.

該工作為研究圖的分布式表示學習算法提供了新的建模思路和解決方案,同時也留下了一些值得繼續研究的問題.比如,與機器翻譯中使用的RNN架構相比,本文提出的模型較為淺薄,后續工作將考慮使用深層的RNN模型以及更長的輸入序列,目標是提出更為合理且高效的表示學習算法.同時,我們也會繼續考慮遞歸組合的解釋因素,進一步探索基于符號語義映射的圖表示學習解決方案.

YangXiaohui, born in 1993. Master candidate. Her main research interests include machine learning, natural language processing, social network analysis and representation learning.

WanRui, born in 1995. Master candidate. Her main research interests include representation learning, natural language processing, data mining and knowledge graph (rwan@std.uestc.edu.cn).

ZhangHaibin, born in 1993. Master candidate. Student member of CCF. His main research interests include natural language processing, machine learning and sentiment analysis (herb.zhang@std.uestc.edu.cn).

ZengYifu, born in 1995. Bachelor. His main research interests include nature language processing, sentiment analysis and recommendation system (ifz@std.uestc.edu.cn).

LiuQiao, born in 1974. PhD and associate professor. Member of CCF. His main research interests include machine learning and data mining, natural language processing, and social network analysis.

猜你喜歡
語義符號實驗
記一次有趣的實驗
學符號,比多少
幼兒園(2021年6期)2021-07-28 07:42:14
語言與語義
“+”“-”符號的由來
做個怪怪長實驗
變符號
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
圖的有效符號邊控制數
主站蜘蛛池模板: 全部毛片免费看| 九色视频一区| 精品国产美女福到在线不卡f| 亚洲第一视频免费在线| 欧美色图第一页| 国产一区免费在线观看| 欧美一级黄片一区2区| 亚洲中文字幕久久精品无码一区| 美女无遮挡被啪啪到高潮免费| 日本www在线视频| 小说区 亚洲 自拍 另类| 亚洲成人高清在线观看| 国产香蕉在线视频| 最新日本中文字幕| 国产无码精品在线播放| 免费不卡视频| 成人无码一区二区三区视频在线观看| AV网站中文| 亚洲欧美色中文字幕| 在线观看欧美国产| 制服丝袜一区二区三区在线| 这里只有精品国产| 亚洲视频免| 四虎永久免费网站| 最新日韩AV网址在线观看| 国产偷国产偷在线高清| 91视频99| 国产精品极品美女自在线| 免费Aⅴ片在线观看蜜芽Tⅴ | 91久久偷偷做嫩草影院免费看| 亚洲国产亚洲综合在线尤物| 亚洲网综合| 婷婷五月在线视频| 无码电影在线观看| 91福利在线看| 日韩在线第三页| 一本视频精品中文字幕| 亚洲人妖在线| 精品欧美日韩国产日漫一区不卡| 欧美激情成人网| 国产午夜福利亚洲第一| 亚洲女同一区二区| 国产亚洲精品va在线| 亚洲欧洲天堂色AV| 色噜噜狠狠狠综合曰曰曰| 国产精品开放后亚洲| 国产精品微拍| 国产成人精品高清不卡在线| 国产69精品久久久久孕妇大杂乱 | 看你懂的巨臀中文字幕一区二区| 国产剧情伊人| 色婷婷啪啪| 999在线免费视频| av午夜福利一片免费看| 欧美亚洲欧美区| 69av在线| 久久综合色播五月男人的天堂| 手机在线看片不卡中文字幕| 精品五夜婷香蕉国产线看观看| 国产一二视频| 亚洲日韩第九十九页| 91精品综合| 国产性精品| 中文字幕在线永久在线视频2020| 精品少妇人妻无码久久| 免费无码AV片在线观看国产| 成人国产小视频| 国产午夜看片| 国产1区2区在线观看| 亚洲日韩欧美在线观看| 亚洲 日韩 激情 无码 中出| 五月天丁香婷婷综合久久| 人人爱天天做夜夜爽| 亚洲伦理一区二区| 国产成人精品男人的天堂| 久久永久视频| 久久综合结合久久狠狠狠97色 | 日韩美女福利视频| 国产精品成人啪精品视频| 久久精品国产精品国产一区| 亚洲天堂视频网站| 在线观看免费国产|