基于語義一致性的集成實體鏈接算法

2016-08-31 03:49:29吳祖峰秦志光

計算機研究與發展 2016年8期

關鍵詞：語義文本實驗

劉　嶠　鐘　云　劉　瑤　吳祖峰　秦志光

(電子科技大學信息與軟件工程學院　成都　610054)

基于語義一致性的集成實體鏈接算法

劉嶠鐘云劉瑤吳祖峰秦志光

(電子科技大學信息與軟件工程學院成都610054)

(qliu@uestc.edu.cn)

實體鏈接任務的目標是將從文本中抽取得到的實體指稱項正確地鏈接到知識庫中的對應實體對象上.當前主流的實體鏈接算法大致可分為2類：基于上下文相似度的實體鏈接算法和基于圖的集成實體鏈接算法.這2類算法各自存在一些優點和不足.前者有利于從上下文語義的角度對實體進行區分，但難以充分利用知識庫中已有的知識體系輔助決策；后者能夠更好地利用知識庫中實體間的語義關聯關系，但在上下文信息不充分的情況下，較難區分概念相近的實體.提出一種基于語義一致性的集成實體鏈接算法，該算法能夠更好地利用知識庫中實體間的結構化語義關系，幫助提高算法對概念相似實體的區分度，實驗結果表明:該算法能夠有效提高實體鏈接結果的準確率和召回率，性能顯著優于當前的主流算法，在對長、短文本的實體鏈接任務中性能表現穩定，具有良好的適應性和可推廣性.

集成實體鏈接；信息抽取；知識庫擴容；個性化PageRank；語義相關性

作為互聯網時代的標志性技術，Web技術正處在快速發展和變革當中，從網頁的鏈接(Web1.0)到數據的鏈接(linkeddata)，再到知識圖譜(knowledgegraph)技術，語義Web正在逐漸走向成熟[1].知識圖譜是一種圖結構的知識庫，其中存儲的知識元素以〈實體，關系，實體〉三元組的形式表達，也稱為事實(facts)[2].知識圖譜是目前智能互聯網應用研究領域主要采用的知識庫形式，本文主要研究知識圖譜上的實體鏈接問題.

實體鏈接是知識庫擴容(knowledgebasepopulation,KBP)研究領域關注的核心問題之一[3].開放域信息抽取技術的快速發展為知識庫擴容帶來了巨大的發展機遇，同時也帶來許多挑戰，其中一項關鍵挑戰就是實體鏈接問題[3].實體鏈接任務的基本目標是將從文本中抽取得到的實體指稱項正確地鏈接到知識庫中對應的實體對象上[4].然而通過開放域信息抽取技術得到的知識元素間的關系是扁平化的(缺乏層次性和邏輯性)，為將其正確融入到知識庫中，必須首先解決實體鏈接問題.通過實體鏈接技術，可以消除知識元素在概念上的歧義，剔除冗余和錯誤的知識元素，從而確保知識的質量[3].

對實體鏈接問題的研究，當前面臨的主要挑戰是解決實體指稱項的歧義性和多樣性問題[5].所謂歧義性是指相同的實體指稱項在不同的上下文環境中可能指代不同的實體對象.所謂多樣性是指一個給定的實體對象可以與多個不同的實體指稱項形成對應關系(如該實體的別名或縮寫等).例如在如下2組語句樣例中[6]，就同時存在上述問題：

樣例1.AfterhisdeparturefromBuffalo,SabanreturnedtocoachcollegefootballteamsincludingMiami,ArmyandUCF.

樣例2.Saban,previouslyaheadcoachofNFL’sMiami,isnowcoachingCrimsonTide.Hisachieve-mentsincludeleadingLSUtotheBCSNationalChampionshiponceandAlabamathreetimes.

在上述2組語境中出現的實體指稱項Saban具有歧義性，雖然兩者都是美國大學橄欖球隊的教練，但前者為LouSaban，后者則是NickSaban，分別對應知識庫中不同的實體對象.此外，樣例2中的CrimsonTide和Alabama是2個不同的實體指稱項，但實際上它們指代的是同一實體對象，即AlabamaCrimsonTide橄欖球隊.如何將上述樣例中的實體指稱項Saban和CrimsonTide正確地鏈接到知識庫中的實體對象上，即解決“實體消歧”和“共指消解”問題，是實體鏈接研究領域當前關注的主要問題.

關于實體鏈接方法當前主要有2種研究思路[7]：1)根據文本中每個單一實體的上下文信息，通過與知識庫中實體對象的已知上下文信息進行比較，選出上下文相似度高的實體對象進行鏈接[8-9];2)針對文本中出現的實體指稱項集合，結合知識庫中的已有知識構造實體相關圖，批量地將其鏈接到知識庫中.由于前者未能有效利用文本中的共現實體之間存在的天然語義相關性，因此后一種思路在近年來受到了學術界的重視，被稱為集成實體鏈接方法[10-11].

本文提出一種新的集成實體鏈接算法，稱為基于語義一致性的集成實體鏈接算法(consistentcollectiveentitylinkingalgorithm,CCEL).與相關工作相比，本文的貢獻主要體現在以下3點：

1) 提出了一種新的實體相關圖構造方法，能夠充分利用知識庫中已有的知識，補全候選實體的關聯關系，提高實體相關度計算結果的準確性.

2) 設計了一種候選實體與輸入文本語義相關性的計算方法，能有效降低錯誤候選實體帶來的噪音影響，提高算法對概念相近的實體的區分度.

3) 提出了一種基于語義一致性的集成實體鏈接算法原型，實驗表明該算法的準確率和召回率均顯著優于當前主流的相關工作.

1　相關工作

早期的實體鏈接研究思想是基于實體的上下文相似度進行鏈接消歧，即通過計算實體指稱項所在文本與其相應候選實體的上下文相似度，選擇相似度最大的候選實體作為目標鏈接對象.基本思路是首先在知識庫中查找出與該指稱項同名的所有實體對象，構成候選實體集合，然后使用詞袋模型計算待處理文本和候選實體所在的維基百科頁面之間的相似度，選擇相似度最高的候選實體作為鏈接對象[8].研究表明，除文本內容之外，實體的類別相關性和百科頁面的錨文本、重定向頁面等結構信息，對于提高實體鏈接算法的準確性有較大幫助[9,12].基于上下文相似度的鏈接算法其準確性容易受到上下文信息不足的影響，當前主要的解決方案是借助第三方知識庫對候選實體的特征進行擴展，以提高候選實體之間的區分度[13]，或者改為采用其他的測度(如維基概念)進行相似度計算[14].基于上下文相似度的實體鏈接方法的主要缺點是忽視了共現實體間天然的語義相關性，而這種語義相關性對于區分有歧義的實體通常具有幫助[15].

除了基于相似度計算的方法外，一些學者還嘗試將統計機器學習方法引入到實體鏈接工作當中.例如，Zuo等人提出了一個投票模型，思路是將奇數個實體鏈接方法作為分類器，在鏈接時分別對每個候選實體進行01判定，獲得半數以上選票的候選實體將成為最終的目標鏈接對象[16];Greg等人基于結構化條件隨機場算法提出了一個實體分析的聯合模型，可同時用于實體識別、實體消歧和共指消解;在ACE2005和OntoNotes等基準數據上進行了實驗，取得了不錯的實驗效果[17].統計機器學習方法的主要缺點是算法的性能效果受制于訓練語料的質量和范圍，方法的移植性較差.因此，為了克服基于上下文相似度方法和統計機器學習方法的不足，Kulkarni等學者提出了集成實體鏈接的算法設計思想[10].

集成實體鏈接方法一次性批量處理文本中所有實體指稱項的鏈接問題，基本的思路是根據候選實體維基頁面間的指向關系，建立候選實體間的語義相關圖進行推理[10].常用的推理方法是采用隨機游走模型，得到候選實體的排序，選擇排名最高的實體作為鏈接對象[11,18].此外，也有學者將批量實體鏈接的推理問題視為圖的搜索問題，通過在實體相關圖上搜索包含所有實體指稱項和其相應候選實體s的最小密集子圖實現批量實體鏈接[19].與基于上下文相似度的鏈接方法類似，集成實體鏈接方法的性能同樣易受上下文信息的影響[20].為解決該問題，Ferragina等人通過引入概率化鏈接的思想，提出了一個面向短文本的集成實體鏈接算法Tagme[21].

從算法性能的角度來看，Shen等人提出的LINDEN算法在構造語義相關圖時，綜合考慮了實體所對應的維基頁面間的關聯關系和實體間的語義相似性，在YAGO知識庫的支持下，LINDEN算法在TAC2009數據集上實現了高達84.32%的實體鏈接準確率[22].在此基礎上，Alhelbawy等人在基于實體相關圖進行推理時，基于推理結果采用一種動態選擇算法對候選實體進行選擇，所提出的算法在AIDA數據集上實現了87.59%的鏈接準確率，是目前性能表現最好的集成鏈接算法之一[23].

通過以上討論可以看出，語義相關圖和推理算法的質量是影響集成實體鏈接算法性能的主要因素.本文提出的CCEL算法正是從這2個關鍵環節入手進行改進:1)在構造語義相關圖時，增加了對實體間語義相關度強弱的考量;2)在推理階段，綜合考慮了候選實體與待消歧文本的語義相關性.因此，CCEL算法能夠最大程度地降低錯誤候選所產生的噪音影響，提高算法對概念相近實體的區分度，從而顯著提高實體鏈接的準確率和召回率.同時，與相關工作相比，CCEL算法具有良好的適應性和推廣性.

2　集成實體鏈接算法

CCEL算法由3個步驟組成，分別是生成候選實體集合、構造實體相關圖和實現集成實體鏈接.該算法的邏輯框架如圖1所示.

Fig. 1　The framework of the consistent collective entity linking algorithm.圖1　基于語義一致性的集成實體鏈接算法框架

2.1生成候選實體集合

對于任意給定文本Di中出現的實體指稱項，生成相應的候選實體集合，是實體鏈接的第1步.本文采用StanfordNER*http://nlp.stanford.edu//software//CRF-NER.shtml對給定文本進行實體識別，并使用基于規則的方法進行共指處理，得到該文本的實體指稱項集合Mi={mi1,mi2,…,mi s,…}.然后，根據Mi查找本地知識庫，得到與Mi中元素相對應的候選實體集合Ni.本地知識庫基于英文版維基百科*http://download.wikipedia.org(2015-08-05打包發布版本)構造，其中包含400多萬個實體頁面和3 000多萬條鏈接關系.

由于維基百科知識庫中包含大量已經過人工消歧處理的同名實體，為利用這些信息，減少實體鏈接時候選實體的干擾項數量，首先利用維基百科的實體頁面(entitypages)、消歧頁面(disambiguationpages)和重定向頁面(redirectpages)構造一個同名實體對象字典[22]，其格式如表1所示:

Table 1　Example of Entity Dictionary表1　同名實體對象字典示例

字典中鍵值對(key-value)的構造方法為：首先利用JPWL*https://dkpro.github.io//dkpro-jwpl//JwplTutorial//工具對維基百科知識庫中的所有實體頁面和重定向頁面進行遍歷，以實體頁面和重定向頁面的頁名(pagetitle)作為字典的鍵(key)，以相應的消歧頁面中包含該頁名的所有錨文本以及重定向頁面所指向的頁名作為與該鍵對應的值(value).

需要說明的是，由于字典中的鍵由所有實體頁名和重定向頁名共同組成，而字典中的值實際上對應的也是實體頁名，所以在所構造的同名實體對象字典中，一個鍵所對應的值同時也可能是另外一個鍵.例如：鍵Jordan所對應的值包括MichaelJordan，BennJordan等，但MichaelJordan同時也是字典的鍵，與之對應的值包括MichaelJordan(basketball)，MichaelJordan(mycologist)以及MichaelJordan(footballer)等.

(1)

2.2構造實體相關圖

CCEL算法對每篇輸入文本構造一張實體相關圖并據此進行實體鏈接，基本思路是利用共現實體間的語義相關性幫助提高實體鏈接的準確性并實現批量實體鏈接，因此，實體相關圖的質量對于整個實體鏈接算法的性能具有關鍵性影響[15].本文采用無向圖G=(V, E)表達實體相關圖，其中，符號V表示頂點集合，頂點元素為集合Ni中的候選實體；E表示邊集合，邊元素表示頂點間的語義相關性.實體相關圖的構造過程由2部分組成：頂點集合的構造和邊集合的構造.首先介紹頂點集合的構造過程.

2.2.1構造頂點集合

實體相關圖中的頂點集合定義為：與給定文本Di中出現的實體指稱項相關的所有候選實體集合.考慮到不同指稱項對應的候選實體可能存在同名的情況，為嚴格區分候選實體，本文采用(mi s,ns k)實體對來表示實體相關圖G中的頂點，其中mi s為Di中的第s個實體指稱項，ns k表示與mi s相對應的第k個候選實體.頂點集合的數學定義為：

V={(mi s,ns k)|mi s∈Di,ns k∈Ni}.

(2)

為了利用實體指稱項和候選實體的已知上下文信息，我們為圖G中的每個頂點賦予一個先驗置信度(priorconfidencelevel,PCL).以頂點(mi s,ns k)為例，PCL(mi s,ns k)表示實體指稱項mi s指向候選實體ns k的可能性.相關工作中常用的先驗置信度定義方式包括文本相似度、名字相似度和實體流行度等[11].本文3.3節將分別采用這3種定義進行實驗，結合實驗結果選擇對CCEL算法最有效的定義方式.

文本相似度(docSim)的計算方法如2.1節的式(1)所示.以docSim作為先驗置信度的含義是：實體指稱項mi s所在的文本Di與候選實體ns k所在的維基百科頁面相比，二者的上下文越相似，則mi s與ns k直接關聯的可能性越大.

名字相似度(namSim)的計算方法為

(3)

其中，ed(mi s,ns k)表示實體指稱項mi s與候選實體ns k的名字間的編輯距離(editdistance)，即從字符串mi s出發，通過字符替換轉化成ns k所需的最少編輯操作次數.maxlen(mi s,ns k)表示在字符串mi s和ns k的長度中取較長者.以namSim作為先驗置信度的含義是：實體指稱項mi s與候選實體ns k的名字相似度越大，則二者直接關聯的可能性越大.

實體流行度(popSim)的計算方法為

(4)

其中，Ni s表示實體指稱項mi s的候選實體集合，ns k表示mi s對應的第k個候選實體對象，indeg(ns k)表示維基百科中指向ns k且錨文本內容為mi s的超鏈接數目.實體流行度是與語料無關的測度，以popSim作為先驗置信度的含義是：候選實體的(實體)流行度越大，則其作為目標鏈接對象的可能性越大.

對于輸入語料中無歧義的實體指稱項，本文將其對應的候選實體的先驗置信度置為1.完成頂點集合的先驗置信度賦值計算后，將同一實體指稱項對應的所有候選實體的先驗置信度進行歸一化處理.

2.2.2構造邊集合

實體相關圖中邊的構造(即建立圖G中頂點間的關聯關系)是算法的重要組成部分.當前建立實體(頂點)關聯關系的方法主要有2種思路：1)基于實體對應的維基百科頁面之間的超鏈接指向關系來定義實體間的語義相關性[10,18,23]；2)采用實體間的谷歌距離(Googledistance)作為其語義相關性的測度[11,19,22].

研究表明，上述的2種關系定義方式各有利弊，前者可以準確地反映實體間的語義相關性，但通常得到的關系并不完整[24]；后者雖然能夠提供更全面的關系定義，但由此建立的關系只是統計意義上的，并不能準確反映實體間真正的語義關聯以及強度[25].因此，本文提出一種新的實體相關圖構造方法，基本思路是將上述2種實體關系定義方法進行融合，以結合二者的優點，避免各自的不足.具體方法描述如下:

1) 根據頂點集合V中的頂點(實體)在本地知識庫中的直接關聯關系進行加邊處理，如果集合V中的頂點va和vb所代表的候選實體在維基百科頁面(即本地知識庫)具有超鏈接直接指向關系，則在這2個頂點間添加一條無向邊，邊的權重wa b置為1;

2) 根據頂點(實體)間的間接關聯關系進行加邊處理，方法是若集合V中的頂點va和vb所代表的候選實體在本地知識庫中均與一個以上的第三方實體存在超鏈接直接指向關系，則在這2個頂點間添加一條無向邊，邊的權重wa b由實體間的谷歌距離做簡單的線性變換得到：

(5)

符號A和B分別表示知識庫中與頂點va和vb所表示的候選實體存在超鏈接指向關系的實體集合，KB表示整個知識庫的實體集合，|A|表示集合A中的元素個數.wa b的取值范圍是(-∞,1] ，當wa b的取值為負數時，設定wa b的值為0，表示頂點va和vb間不具有語義關聯關系；當集合A與B相等時，wa b取最大值1，表示va和vb的關聯實體重合度最高.

需要特別說明的是，在構造實體相關圖的過程中，當頂點間存在直接關聯關系時，則不考慮其間接關聯關系，只有在頂點間不存在直接關聯關系時，才進一步考慮其間接關聯關系.此外，對于同一實體指稱項對應的多個候選實體(頂點)，不考慮其相互之間的關聯關系，即實體相關圖中同一實體指稱項所對應的候選實體頂點間不存在關系邊.圖2展示了根據引言中樣例1生成的實體相關圖.

Fig. 2　The referent graph of example 1 in introduction.圖2　樣例1的實體相關圖范例

2.3基于語義一致性的集成實體鏈接

在完成實體相關圖的構造之后，即可針對給定文本Di進行實體鏈接的推理運算.本文提出一種新的推理判據，稱為語義一致性判據(semanticcon-sistencycriterion,SCC).該判據由候選實體的相關度(relevancelevel,RL)和候選實體與輸入文本Di間的語義相關性(semanticrelevancy,SR)2部分組成.其中，候選實體的相關度表達的是該實體與相應實體指稱項之間的語義關聯證據的強度，可采用本文提出的相關度排序算法進行計算；候選實體與輸入文本Di間的語義相關性則采用本文提出的語義相關性計算方法得到.

2.3.1計算候選實體的相關度

在構造實體相關圖的過程中，我們為每個候選實體(頂點)賦予了一個先驗置信度PCL，然而通過觀察2.2.1節給出的3種PCL定義方式，可以看出這些建模的方式均存在一定的片面性，均不適合直接用作實體鏈接的判據.例如：1)docSim的準確性依賴于文本Di與候選實體ns k所在的維基百科頁面的內容質量，如果相應文本較短或包含的有效信息較少，則docSim的值會比正常情況偏低；2)如果以namSim作為先驗置信度并據此進行實體鏈接操作，我們也很容易舉出反例證明其局限性，例如給定實體指稱項為“廣電”，假設有2個候選實體分別為“廣播電視總局”和“廣州電視總局”，根據式(3)可知這2個候選實體與給定實體指稱項的namSim值是相等的；3)popSim的取值雖然與待處理的語料Di無關，其質量僅取決于知識庫的知識完備性，然而僅根據實體的流行度作為實體鏈接的判據顯然是不合理的.因此，為提高實體鏈接的準確性，還需參考其他的已知信息，提出更有效的判據.

相關研究表明，采用實體相關圖中頂點的PageRank值，對該頂點與相應實體指稱項的余弦相似度進行加權，可以得到更好的實體鏈接效果[18].該結果表明實體相關圖的拓撲結構對于確定候選實體的相對重要性具有積極意義.受其啟發，本文提出一種新的候選實體相關度計算方法，稱為相關度排序(relevancerank，RR)算法，以更好地發掘和利用實體相關圖的拓撲結構信息在實體鏈接任務中的價值.RR算法的數學公式如下：

RR(va)=(1-α)docSim(va)+

(6)

其中，docSim(va)表示候選實體頂點va所表示候選實體與輸入文本的上下文相似度，可根據式(1)計算得到，RR(va)表示候選實體頂點va與相應實體指稱項在當前上下文(圖G)中的相關度，其初始值為頂點va的先驗置信度.T(b,a)表示在實體相關圖G中從頂點vb到頂點va的帶權轉移概率：

(7)

其中，wb a表示圖G中邊(vb, va)的權重，Nh(vb)表示頂點vb的鄰域(neighbourhood)，即圖G中直接與vb相鄰的頂點集合.式(6)中的α為阻尼因子，按照PageRank算法的一般慣例取值為0.85.

由式(6)可見，當算法收斂到穩態時RR(va)的物理意義是：在每一輪迭代過程中，隨機漫步者選擇當前頂點va的概率由2部分組成：一部分由頂點va與輸入文本的上下文相似度docSim(va)貢獻，所占權重為(1-α)；另一部分由與va相鄰的頂點所貢獻，所占權重為α，其中每個相鄰頂點vb的貢獻為T(b,a)×RR(vb)，即把vb自身的相關度按照與之相鄰的邊的權重進行分配.由此可見，式(6)對文本Di的上下文環境(主要體現在相似度計算中)和實體間的關系(主要體現在圖G的拓撲結構中)進行了綜合考慮，通過迭代求解式(6)，實現先驗置信度在各頂點間的再分配，使得在當前語境下擁有較多關聯證據的頂點的相關度得到強化，同時削弱擁有較少關聯證據的頂點的影響.

如本節開始部分所述，當前已有的先驗置信度計算方法都具有一定的片面性.通過實驗我們發現，RR算法雖然能夠借助候選實體在當前上下文環境中的關聯信息對其結果進行糾偏，但當Di的上下文信息不足時，仍無法完全克服先入為主的偏見產生的影響.例如，在圖2給出的樣例中，黑色頂點表示在圖中運行RR算法之后，每個實體指稱項的候選實體集合中相關度最高的頂點.其中，候選實體BuffaloBulls(Buffalo大學橄欖球隊)雖然是實體指稱項Buffalo的候選實體集合中具有最高相關度的頂點，但實際上正確的鏈接對象應為BuffaloBills(美國職業橄欖球隊).經過分析，導致這種情況出現的原因是二者的概念相近，因此在同一上下文環境下與相關實體的關聯關系也相近，導致RR算法對二者的區分度不高，為此本文進一步考慮從候選實體與文本Di的語義相關性的角度對鏈接對象做進一步區分.

2.3.2計算候選實體的語義相關性

候選實體(頂點)va的語義相關性是指va與給定文本Di在語義上相關的強度.由于圖G僅由候選實體構成，因此本文采用Di中的每個實體指稱項對應的候選集合中相關度最高的候選實體構成子集來表示文本Di，該子集簡記為NmaxR.定義候選實體頂點va與給定文檔Di的語義相關性如下：

(8)

其中,wa k表示圖G中邊(va, vk)的權重.如2.3.1節所述，CCEL算法引入候選實體的語義相關性定義的目的是幫助解決RR算法對某些概念相近的候選實體的區分度不高的問題，由式(8)可見，SR(va,Di)實際上是NmaxR集合中所有候選實體(頂點)vk的相關度的加權和，權重因子wa k為實體(頂點)va和vk之間邊(va, vk)的權重.由2.2.2節可知，va和vk的語義關聯越少，則權重值越低.

仍然以圖2中的指稱項Buffalo為例，盡管干擾項BuffaloBulls在相關度計算中獲得了較高的值，但由于該實體與Di在語義上的關聯強度弱于另一個(正確的)候選項BuffaloBills，因此在引入語義相關性計算之后，可以提高對這2個概念上相近的實體的區分度，從而實現正確的實體鏈接.

2.3.3語義一致性判據與實體鏈接

考慮如何將候選實體的相關度和語義相關性結合起來得到一個實體鏈接的標準，本文提出語義一致性判據：

(9)

其中，vs k是圖G中與候選實體ns k相應的頂點，Vi s表示由實體指稱項mi s的所有候選實體所構成的頂點集合.由式(9)可知，SCC判據的取值范圍是(0,1)，SCC值越大，表明候選實體ns k的語義一致性越高.由此可以得到實體鏈接的判據如下：

(10)

其中，Ni s表示由實體指稱項mi s的所有候選實體所構成的集合.式(10)的含義為，將文本Di中的實體指稱項mi s鏈接到本地知識庫中具有最高SCC值的候選實體ns k之上.

2.3.4語義一致性判據的有效性

在2.3.1和2.3.2節的方法介紹過程中，我們多次引用了樣例1的實驗結果，但并未給出具體的數值計算結果.本節以樣例1中的實體指稱項Buffalo和Miami為例，用具體的數據輔助說明所提出的CCEL算法的設計依據，并初步驗證本文提出的SCC判據的有效性.已知實體指稱項Buffalo應鏈接到本地知識庫中的BuffaloBills對象上(美國職業橄欖球隊)，實體指稱項Miami應鏈接到本地的MiamiHurricanes對象上(美國職業橄欖球隊)，經歸一化處理后的計算結果如表2所示:

Table2TheRelevanceandSemanticConsistencyofCandidateinExample1

表2　樣例1中候選實體的相關度與語義一致性

表2的第3列給出的是以實體流行度為測度的實體相關圖中頂點的先驗置信度(PCL)，可以看出,如果僅參照流行度指標，Buffalo可實現正確鏈接，而Miami則會被鏈接到更為流行的Miami(city) 對象上.表2的第4列給出了經過RR算法修正的候選實體相關度計算結果，可以看出經過修正后的結果極差變小，特別是對于Miami的候選實體而言，正確的鏈接對象MiamiHurricanes的相關度得到了顯著提升，該結果表明本文提出的相關度排序算法能夠利用實體相關圖拓撲結構中包含的實體關聯信息，對實體先驗置信度進行平滑修正，且修正的結果有利于降低干擾項的影響程度.同時也可以看出，單純使用實體相關度作為鏈接判據并不可行，原因是RR算法對實體相關度的平滑效應會導致噪音放大，對實體鏈接的準確性造成干擾.因此有必要引入新的信息輔助判斷.

表2的最后一列給出的是按照式(9)計算得到的語義一致性判據，可見根據該判據能夠有效識別出正確的候選實體.進一步對比各候選實體的RR值與SCC值，可以看出單憑候選實體的語義相關性(SR=SCC-RR)無法實現準確鏈接，由此進一步證明了本文提出的語義一致性判據的有效性.

3　實驗結果分析

3.1實驗數據

為充分檢驗所提出的基于語義一致性的集成實體鏈接算法的有效性，本文采用2組近期發布的公開測試語料進行測試，數據詳情如表3所示:

Table 3　Statistics of the Corpus表3　實驗數據統計情況

第1組是由馬克斯-普朗克研究所(MaxPlanckInstitute)的YAGO實驗室發布的AIDA數據集*http://www.mpi-inf.mpg.de//yago-naga//aida//，該數據集包括一個訓練集(train)和2個測試集(testA，testB)，共1 393篇文檔(平均長度為216個字符)和34 956個實體指稱項(mentions).數據集中的所有實體指稱項均通過人工標注，準確鏈接到了維基百科(即本地知識庫)對應的實體對象上.其中在維基百科中存在對應實體對象的實體指稱項共27 820個(稱為InKB實體)，在維基百科中無對應實體對象的實體指稱項共7 136個(稱為NIL實體)[19].

第2組數據集是由印度理工學院Chakrabarti教授領導的CSAW項目發布的Annotationdata(簡稱CSAW數據集)*https://www.cse.iitb.ac.in//～soumen//doc//CSAW//.該數據集中所有的實體指稱項均被人工消歧，其中包含107篇文檔(平均長度為623個字符)和17 200個實體指稱項，InKB實體個數為10 320，NIL實體個數為6 880[10].CSAW數據主要用于驗證CCEL算法在處理短文本實體鏈接任務時的性能，為便于與相關工作進行比較，我們采用文獻[21]介紹的方法對CSAW數據進行了切分，使得每篇文檔的長度不超過30個字符.

3.2實驗方法與評估

為驗證CCEL算法的有效性，本文從近年來的相關工作中選擇了7個具有代表性的算法進行實驗對比，相關算法的名稱及簡介請參見表4前7行，對相關算法細節的介紹和討論請分別參見本文第1節和3.3.1節.除與相關工作進行比較外，本文還針對所提出的CCEL算法設計了4組對比實驗(參見表4后4行)，這4組實驗用于討論本文提出的實體相關圖構造方法，候選實體(與輸入文本)的語義相關性計算方法對于算法整體性能的影響以及進一步驗證CCEL算法的有效性.

Table 4　Experimental Comparison Method表4　參與實驗比較的實驗方法一覽

本文采用準確率(Precision)、召回率(Recall)和F1值等指標對算法性能進行評估.其中，準確率的含義是正確鏈接的實體數量占算法輸出的鏈接總數的百分比，即算法的精確性；召回率的含義是正確鏈接的實體數量占測試集中已知事實總數的百分比，即算法的查全率.F1值的定義如下：

(11)

F1值受準確率和召回率的共同影響，當二者均趨近于1時，F1值也趨近于最大值1.F1值越大，說明算法執行實體鏈接任務的綜合性能越好.

在統計實驗結果時，僅考慮InKB實體指稱項，以便與相關工作保持一致[10,11,18-19,23].對于mi s所指代的實體對象不在本地知識庫中(即mi s為NIL實體)的情況，CCEL算法的處理方式如下：1)若實體指稱項mi s的候選實體集合為空集，則判定其為NIL實體；2)若mi s與所有候選實體的語義一致性均低于預設的閾值λ，則判定其為NIL實體.

CCEL算法中包含2個經驗參數：用于限定候選實體集合大小的閾值δ(定義參見2.1節)和用于判定實體指稱項是否對應于NIL實體的閾值λ.為確定這2個參數，采用AIDA數據集中的testA作為參數驗證數據集(其中包含216篇文檔共4 791個實體指稱項)，得到CCEL算法的F1值與δ和λ的關系分別如圖3和圖4所示.由圖3可見，當δ=6時CCEL算法的F1值最優，δ=5時的表現與之相當，考慮到算法的計算效率，本文取δ=5.由圖4可見，當λ≤0.2時，CCEL算法的F1值最優，之后隨λ增大而快速下降，因此本文取λ=0.2.

Fig. 3　F1-value under different δ on train corpus.圖3　參數δ的取值對算法性能的影響

Fig. 4　F1-value under different λ on train corpus.圖4　F1值與參數λ在訓練集上的關系

3.3實驗結果與討論

3.3.1CCEL算法的有效性驗證

為驗證CCEL算法的有效性，首先與相關工作進行橫向比較.實驗分為3組：第1組在AIDA數據集進行測試，參與性能比較的算法主要是Baseline(以先驗置信度作為判據進行實體鏈接，選擇先驗置信度最大的候選實體作為鏈接對象)，實體結果如表5所示;第2組同樣是在AIDA數據集上進行測試，參與性能比較的算法主要是當前在該數據集上性能表現最好的Alhelbawy算法和其他4種綜合性能表現較好的算法，實驗結果如表6所示;第3組在CSAW數據集上測試，目的是客觀評價CCEL算法在處理短文本實體鏈接任務時的性能，參與比較的工作主要是在短文本實體鏈接中性能表現最好的Tagme算法，和其他3種在該數據集上性能表現最好的算法，實驗結果如表7所示，其中，Han,Kulkarni和Tagme等算法的實驗結果引自原文，Alhelbawy

Table5ExperimentalResultonAIDAwithBaseline

表5　CCEL與Baseline在AIDA數據集上的實驗結果　%

Table6ExperimentalResultonAIDA

表6　CCEL與相關算法在AIDA數據集上的實驗結果　%

Table7ExperimentalResultonCSAW

表7　CCEL與相關算法在CSAW數據集上的實驗結果　%

算法的實驗結果來自對原文方法的重現，由于該算法采用實體流行度作為初始置信度的實驗結果最優，所以本文在重現實驗時采用實體流行度作為候選節點的初始置信度.

從表5可以看出，以實體流行度作為初始置信度的CCEL算法性能表現最優，F1值達到88.85%，在Baseline方法中，以實體流行度(popSim)作為判據的鏈接算法性能表現最佳，F1值為69.51%.該結果表明，以先驗置信度作為判據的實體鏈接算法并不能有效地解決實體鏈接問題，而且對于不同的數據集，該類算法的性能表現會有較大的差異性.而本文提出的CCEL算法通過融合實體間的語義相關度，可以有效地克服前者的不足，大幅度地提升實體鏈接的性能，與Baseline中表現最好的popSim算法相比，本文提出的以namSim，docSim，popSim作為PCL值的CCEL算法的F1值分別提高了10.64%，23.73%，27.53%.由于以實體流行度作為先驗置信度的CCEL算法性能表現最佳，所以在本文下述實驗部分，CCEL算法均以實體流行度作為先驗置信度.

從表6可以看出，CCEL算法在所有性能指標上的表現均優于相關工作.與基于PageRank的集成實體鏈接算法Alhelbawy和Hachey相比，CCEL算法在AIDA測試集上的F1值分別提高了3.26%和10.29%.該結果表明，通過引入候選實體與輸入文本的語義相關性，可以提高對概念上相近的實體的區分度，克服其中錯誤候選實體所產生的噪音影響，從而實現正確的實體鏈接.

與采用谷歌距離作為實體語義相關性測度構造實體相關圖的算法Hoffart和利用實體維基頁面間的超鏈接指向關系構造實體相關圖的算法Kulkarni相比，CCEL算法在AIDA測試集上的F1值分別提高了8.29%和18.60%，該結果表明，通過對實體間的直接和間接語義關系進行區分，能夠在確保實體關系完整性的同時，進一步修正實體間相關性的強度，從而顯著提高實體鏈接準確率.

與基于上下文相似度的Cucerzan算法相比，CCEL算法在AIDA測試集上的F1值提高了90.91%，該結果表明，基于語義一致性的CCEL算法能夠充分利用知識庫中已有的知識結構，推理出實體間的語義相關性，從而有效彌補了基于上下文相似性的實體鏈接算法受到上下文信息完整性制約的缺陷，大幅度地提升了實體鏈接的準確性.

從表7可以看出，CCEL算法在CSAW測試集上的所有性能指標同樣一致地優于相關工作.與基于圖的算法Kulkarni，Alhelbawy及基于隨機游走模型的算法Han相比，CCEL算法在CSAW測試集上的F1值分別提高了10.92%，11.61%和4.85%，該結果表明CCEL算法能夠有效解決現有集成鏈接方法在處理短文本時，由于上下文信息不足而導致的算法性能惡化問題，因此CCEL算法具有良好的適應性和推廣性.

與相關工作中對短文本性能表現最優的Tagme算法相比，CCEL算法在CSAW測試集上的準確率和召回率分別提高了15.27%和5.25%.通過對Tagme的性能進行分析，我們發現問題的主要原因在于Tagme過度依賴于實體流行度和候選實體間相關性的計算準確性，當兩者之一出現偏差時，算法的性能會惡化.例如，對于引言中提到的樣例1，由于受實體流行度計算結果的影響，Tagme算法會將實體指稱項Miami錯誤地鏈接到其最知名的候選實體Miami(city)，而非實際所指對象MiamiHurricanes.以上結果表明，CCEL算法通過在語義一致性算法中對實體相關度和實體流行度等信息進行綜合考量，從而避免了對局部信息的過分倚重，顯著提高了算法的整體性能.該實驗結果同時也為證明本文提出的實體相關圖構造方法和候選實體(與輸入文本)的語義相關性計算方法的有效性提供了有力證據.

為進一步評估本文提出的實體相關圖構造方法和候選實體的語義相關性計算方法的有效性，本文將CCEL算法與3種基準實驗方法(表4中的DWR，NGD和NoSR)進行比較，實驗結果如表8所示：

Table8ExperimentalResultonAIDAandCSAW

表8　CCEL與相關算法在公開數據集上的實驗結果　%

從表8可以看出，CCEL算法在AIDA測試集和CSAW測試集上的所有性能指標均優于參與比較的實驗方法.與DWR和NGD算法相比，CCEL算法在AIDA測試集上的F1值分別提高了11.05%和5.05%，在CSAW測試集上的F1值分別提高了7.71%和5.34%.該實驗結果表明，通過充分利用知識庫的結構化語義關系(直接語義關系和間接語義關系)并且融合當前主流相關性計算方法的實體相關圖構造方法(參見本文2.2.2節)，能夠在一定程度上彌補因實體相關圖不完整或實體相關性不準確對實體鏈接算法所造成的負面影響，從而提高實體鏈接算法的準確率.與NoSR算法相比，CCEL算法在AIDA測試集和CSAW測試集上的F1值分別提高了6.31%和5.02%.該實驗結果表明，通過引入候選實體與輸入文本的語義相關性，能夠對NoSR的實驗結果進一步修正，降低噪音影響，提高算法對概念上相近的實體的區分度，從而實現正確的鏈接.

3.3.2CCEL算法的錯誤分析

為了客觀評價CCEL算法的性能，我們對CCEL算法輸出結果中發生錯誤實體鏈接的部分進行了統計和人工分析，歸納出3種出錯的場景.

錯誤Ⅰ. 若實體指稱項mi s所對應的正確候選不在本地知識庫中，CCEL將選擇與mi s具有最大語義一致性的候選實體作為鏈接對象(前提是SCC的計算結果超過閾值λ).例如，對于文本“IjazAhmedisaretiredPakistanicrickter….”，由于指稱項Ijaz所指的實體對象IjazAhmed(cricketer)不在本地知識庫中，且它與候選實體IjazAhmed(wushu)具有較強的語義一致性，導致CCEL將后者視為正確的鏈接目標.此類錯誤是當前實體鏈接研究工作面臨的共性問題，也是本文下一步工作擬重點研究解決的問題之一.

錯誤Ⅱ. 由于本地知識庫知識的不完整(如部分實體間的關系缺失)而導致的實體鏈接錯誤.例如對于測試集中的文本“TianLiangandZhangLianghaveparticipatedintheprogram….”，由于文中的實體指稱項ZhangLiang所指的實際實體對象ZhangLiang(model)與文中的實體指稱項TianLiang在本地知識庫中的候選實體之間不存在任何直接和間接的關聯關系，導致CCEL算法錯誤地將實體指稱項ZhangLiang鏈接到了具有實體流行度的實體對象ZhangLiang(westernhan)上.由于這種錯誤受到SCC計算結果的制約，因此出錯的概率較低，在當前算法版本中對這種情況并未做專門考慮，在下一步工作中，我們將對該問題進行深入研究.

錯誤Ⅲ. 若候選集合中有多個候選實體與正確候選具有相同的上下文相似度，CCEL算法從中隨機選擇前5個候選實體時(即閾值δ=5)，有可能遺漏正確的候選實體.例如，對于文本“MichaelJordanwonhisSecondMVPawardafter….”，由于實體指稱項MVP對應的候選集合中，有多個候選實體與正確的候選實體(mostvaluableplayer)具有相同的上下文相似度，例如MVP(TVshow)，MVP(song)，MVP(album)，MVP(group)，和MontelVontaviousPorter，從而可能導致正確的候選實體被漏選.此類錯誤是由于CCEL算法的設計方式導致的，可以通過調整隨機篩選的策略進行修正(如提高閾值δ)，但綜合考慮到算法的計算效率和準確率，本文閾值取δ=5作為篩選標準.

4　結束語

本文研究了知識圖譜上的實體鏈接問題，發現了現有集成實體鏈接方法的不足，并提出一種基于語義一致性的集成實體鏈接算法CCEL.該算法充分利用了知識庫中的結構化語義關系(直接語義關系和間接語義關系)，提高了算法對概念上相近的實體的區分度.實驗表明，CCEL算法在AIDA和CSAW等公開數據集的性能表現一致且優于本領域的代表性工作.

論文的主要貢獻包括3個方面：1)通過實驗證明了本文提出的基于語義一致性的集成實體鏈接算法在性能上一致優于當前主流的集成鏈接方法，且具有較好的適應性和擴展性；2)實驗表明了本文提出的實體相關圖構造方法通過充分利用知識庫知識，能夠在一定程度上彌補因實體相關圖不完整或者實體相關性不準確對實體鏈接算法所造成的負面影響；3)實驗表明了本文提出的語義相關性(候選實體與輸入文本)計算方法能夠降低錯誤候選所產生的噪音影響，提高算法對概念上相近的實體的區分度，達成精確的實體鏈接.

針對CCEL算法產生錯誤的原因，我們后續的工作將主要圍繞2個方面展開：1)改進候選實體生成方法，將實體指稱項和候選實體的類別信息考慮進來，以提高候選實體召回率和算法的執行效率；2)繼續豐富完善本地知識庫的規模和知識結構，以進一步提高實體鏈接操作的準確率.

[1]HeathT,MottaE.Easeofinteractionpluseaseofintegration:CombiningWeb2.0andtheSemanticWebinareviewingsite[J].WebSemantics:Science,ServicesandAgentsontheWorldWideWeb, 2008, 6(1): 76-83

[2]DongXinLuna,GabrilovichE,HeitzG,etal.Knowledgevault:AWeb-scaleapproachtoprobabilisticknowledgefusion[C] //Procofthe20thIntConfonKnowledgeDiscoveryandDataMining(KDD’14).NewYork:ACM, 2014: 601-610

[3]JiHeng,RalphG.Knowledgebasepopulation:Successfulapproachesandchallenges[C] //Procofthe49thAnnualMeetingoftheAssociationforComputationalLinguistics:HumanLanguageTechnologies(ACL’11).Stroudsburg,PA:ACL, 2011: 1148-1158

[4]HuaiBaoxing,BaoTengfei,ZhuHengshu,etal.Topicmodelingapproachtonamedentitylinking[J].JournalofSoftware, 2014, 9(14): 2076-2087 (inChinese)

(懷寶興, 寶騰飛, 祝恒書. 一種基于概率主題模型的命名實體鏈接方法[J]. 軟件學報, 2014, 9(14): 2076-2087)

[5]MarkD,PaulM,RaoD,etal.Entitydisambiguationforknowledgebasepopulation[C] //Procofthe23rdIntConfonComputationalLinguistic(COLING’10).Stroudsburg,PA:ACL, 2010: 277-285

[6]GuoZhaochen,BarbosaD.Robustentitylinkingviarandomwalks[C] //Procofthe23rdIntConfonInformationandKnowledgeManagement(CIKM’14).NewYork:ACM, 2014: 499-508

[7]DaiHongjie,WuChiyang,TsaiR,etal.Fromentityrecognitiontoentitylinking:Asurveyofadvancedentitylinkingtechniques[C] //Procofthe26thAnnualConfoftheJapaneseSocietyforArtificialIntelligence.Berlin:Springer, 2012: 1-10

[8]BunescuR,PascaM.Usingencyclopedicknowledgefornamedentitydisambiguation[C] //Procofthe11thConfoftheEuropeanChapteroftheAssociationforComputationalLinguistics(EACL’06).Stroudsburg,PA:ACL, 2006:9-16

[9]CucerzanS.Large-scalenamedentitydisambiguationbasedonWikipediadata[C] //Procof2007JointConfonEmpiricalMethodsinNaturalLanguageProcessingandComputationalNaturalLanguageLearning(EMNLP’07).Stroudsburg,PA:ACL, 2007: 708-716

[10]KulkarniS,SinghA,RamakrishnanG,etal.CollectiveannotationofWikipediaentitiesinWebtext[C] //Procofthe15thIntConfonKnowledgeDiscoveryandDataMining(KDD’09).NewYork:ACM, 2009: 457-466

[11]HanXianpei,SunLe,ZhaoJun.CollectiveentitylinkinginWebtext:Agraph-basedmethod[C] //Procofthe34thIntConfonResearchandDevelopmentinInformationRetrieval(SIGIR’11).NewYork:ACM, 2011: 765-774

[12]NguyenHT,CaoTH.ExploringWikipediaandtextfeaturesfornamedentitydisambiguation[C] //Procofthe2ndIntConfIntelligentInformationandDatabaseSystems.Berlin:Springer, 2010: 24-26

[13]ZengYi,WangDongsheng,ZhangTielin,etal.LinkingentitiesinshorttextsbasedonaChinesesemanticknowledgebase[C] //Procofthe2ndCCFConfonNaturalLanguageProcessingandChineseComputing.HongKong:Springer, 2013: 266-276

[14]ZhangTao,LiuKang,ZhaoJun.Agraph-basedsimilaritymeasurebetweenWikipediaconceptsanditsapplicationinentitylinkingsystem[J].JournalofChineseInformationProcessing, 2015, 29(2): 58-67 (inChinese)

(張濤, 劉康, 趙軍. 一種基于圖模型的維基概念相似度計算方法及其在實體鏈接系統中的應用[J]. 中文信息學報, 2015, 29(2): 58-67)

[15]GentileAL,ZhangZiqi,XiaLei,etal.Semanticsrelatednessapproachfornamedentitydisambiguation[C] //Procofthe6thItalianResearchConfonDigitalLibraries.Berlin:Springer, 2010:137-148

[16]ZuoZhe,GjergjiK,ToniG,etal.BEL:Baggingforentitylinking[C] //Procofthe25thIntConfonComputationalLinguistics:TechnicalPapers(COLING’14).Stroudsburg,PA:ACL, 2014: 2075-2086

[17]GregD,DanK.Ajointmodelforentityanalysis:Coreference,typing,andlinking[J] //TransoftheAssociationforComputationalLinguistics. 2014, 2(1): 477-490

[18]HacheyB,RadfordW,CurranJR.Graph-basednamedentitylinkingwithWikipedia[C] //ProcofIntConfonWebInformationSystemEngineering.Berlin:Springer, 2011: 213-226

[19]HoffartJ,MohamedAY,BordinoI,etal.Robustdisambiguationofnamedentitiesintext[C] //ProcoftheConfonEmpiricalMethodsinNaturalLanguageProcessing(EMNLP’11).Stroudsburg,PA:ACL, 2011: 782-792

[20]GuoYuhang,QinBin,LiuTing,etal.Microblogentitylinkingbyleveragingextraposts[C] //Procofthe2013ConfonEmpiricalMethodsinNaturalLanguageProcessing(EMNLP’13).Stroudsburg,PA:ACL, 2013: 863-868

[21]FerraginaP,ScaiellaU.Tagme:On-the-flyannotationofshorttextfragments(byWikipediaentities) [C] //Procofthe19thIntConfonInformationandKnowledgeManagement(CIKM’10).NewYork:ACM, 2010: 1625-1628

[22]ShenWei,WangJianyong,LuoPing,etal.Linkingnamedentitieswithknowledgebaseviasemanticknowledge[C] //Procofthe21stAnnualConfonWorldWideWeb(WWW’12).NewYork:ACM, 2012: 449-458

[23]AlhelbawyA,RobertG.Collectivenamedentitydisambiguationusinggraphrankingandcliquepartitioningapproaches[C] //Procofthe25thIntConfonComputationalLinguistics(COLING’14).Stroudsburg,PA:ACL, 2014: 1544-1555

[24]WittenI,MilneD.Aneffective,low-costmeasureofsemanticrelatednessobtainedfromWikipedialinks[C] //ProcofAAAIWorkshoponWikipediaandArtificialIntelligence:AnEvolvingSynergy(AAAI’08).MenloPark,CA:AAAI, 2008: 25-30

[25]HuangHongzhao,LarryH,JiHeng.Leveragingdeepneuralnetworksandknowledgegraphsforentitydisambiguation[DB//OL].Ithaca:ArXiv, [2015-04-28].http://arxiv.org//pdf//1504.07678v1.pdf

LiuQiao,bornin1974.PhDandassociateprofessor.MemberofChinaComputerFederation.Hismainresearchinterestsincludemachinelearninganddatamining,naturallanguageprocessing,andsocialnetworkanalysis.

ZhongYun,bornin1990.Master.StudentmemberofChinaComputerFederation.Hismainresearchinterestsincludenaturallanguageprocessing(NLP)andmachinelearning(zhongyunuestc@gmail.com).

LiuYao,bornin1978.PhDandlecturer.MemberofChinaComputerFederation.Hermainresearchinterestsincludesocialnetworkanalysis,machinelearning,datamining,andnetworkmeasurement(liuyao@uestc.edu.cn).

WuZufeng,bornin1978.PhDandengineer.MemberofChinaComputerFederation.Hismainresearchinterestsincludemachinelearning,datamining,andinformationsecurity(wuzufeng@uestc.edu.cn).

QinZhiguang,bornin1956.PhDandprofessor.SeniorMemberofChinaComputerFederation.Hismainresearchinterestsincludeinformationsecurity,socialnetworkanalysis,andmobilecomputing(qinzg@uestc.edu.cn).

ConsistentCollectiveEntityLinkingAlgorithm

LiuQiao,ZhongYun,LiuYao,WuZufeng,andQinZhiguang

(School of Information and Software Engineering, University of Electronic Science and Technology of China, Chengdu 610054)

Thegoalofentitylinkingistolinkentitymentionsinthedocumenttotheircorrespondingentityinaknowledgebase.Theprevalentapproachescanbedividedintotwocategories:thesimilarity-basedapproachesandthegraph-basedcollectiveapproaches.Eachofthemhassomeprosandcons.Thesimilarity-basedapproachesaregoodatdistinguishentitiesfromthesemanticperspective,butusuallysufferfromthedisadvantageofignoringrelationshipbetweenentities;whilethegraph-basedapproachescanmakebetteruseoftherelationbetweenentities,butusuallysufferfrombaddiscriminationonsimilarentities.Inthiswork,wepresentaconsistentcollectiveentitylinkingalgorithmthatcantakefulladvantageofthestructuredrelationshipbetweenentitiescontainedintheknowledgebase,toimprovethediscriminationcapabilityoftheproposedalgorithmonsimilarentities.Weextensivelyevaluatetheperformanceofourmethodontwopublicdatasets,andtheexperimentalresultsshowthatourmethodcanbeeffectiveatpromotingtheprecisionandrecalloftheentitylinkingresults.Theoverallperformanceoftheproposedalgorithmsignificantlyoutperformotherstate-of-the-artalgorithms.

collectiveentitylinking;informationretrieval;knowledgebasepopulation;personalizedPageRank;semanticcorrelation

2016-03-21；

2016-05-26

國家自然科學基金項目(61133016,61272527,61202445)；國家自然科學基金青年項目(61502087)；中央高校基本科研業務費專項資金項目(ZYGX2014J066)

TP391

ThisworkwassupportedbytheNationalNaturalScienceFoundationofChina(61133016, 61272527, 61202445),theNationalNaturalScienceFoundationforYoungScholarofChina(61502087),andtheFundamentalResearchFundsfortheCentralUniversities(ZYGX2014J066).

基于語義一致性的集成實體鏈接算法

1 相關工作

2 集成實體鏈接算法

3 實驗結果分析

4 結束語

1　相關工作

2　集成實體鏈接算法

3　實驗結果分析

4　結束語