基于多源知識(shí)和Ranking SVM的中文微博命名實(shí)體鏈接

2015-04-21 10:40:16陳萬(wàn)禮昝紅英吳泳鋼

中文信息學(xué)報(bào) 2015年5期

關(guān)鍵詞：特征文本

陳萬(wàn)禮，昝紅英，吳泳鋼

(鄭州大學(xué) 信息工程學(xué)院，河南鄭州 450001)

基于多源知識(shí)和Ranking SVM的中文微博命名實(shí)體鏈接

陳萬(wàn)禮，昝紅英，吳泳鋼

(鄭州大學(xué) 信息工程學(xué)院，河南鄭州 450001)

命名實(shí)體是文本中承載信息的重要單元，正確分析存在歧義的命名實(shí)體對(duì)文本的理解起著關(guān)鍵性作用。該文提出基于多源知識(shí)和Ranking SVM的中文微博命名實(shí)體鏈接，結(jié)合同義詞詞典、百科資源等知識(shí)產(chǎn)生初始候選實(shí)體集合，同時(shí)從文本中抽取多種組合特征，利用Ranking SVM對(duì)候選實(shí)體集合進(jìn)行排序，從而得到目標(biāo)實(shí)體。在NLP&CC2014*http://tcci.ccf.org.cn/conference/2014/index.html中文微博實(shí)體鏈接評(píng)測(cè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)，獲得了89.40%的平均準(zhǔn)確率，與NLP&CC2014中文微博實(shí)體鏈接評(píng)測(cè)取得最好成績(jī)的系統(tǒng)相比，本文的系統(tǒng)具有一定的優(yōu)勢(shì)。

命名實(shí)體；中文微博實(shí)體鏈接；同義詞詞典；百科資源；Ranking SVM；語(yǔ)義特征

1 引言

據(jù)《第35次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[1]顯示，截至2014年12月，中國(guó)網(wǎng)民規(guī)模達(dá)6.49億，其中手機(jī)網(wǎng)民規(guī)模5.57億，互聯(lián)網(wǎng)普及率達(dá)到47.9%。由此可見互聯(lián)網(wǎng)規(guī)模之大，已經(jīng)成為人們生活的重要組成部分。而這種爆炸式的增長(zhǎng)帶來(lái)的問(wèn)題之一便是用戶產(chǎn)生的內(nèi)容數(shù)據(jù)急劇增長(zhǎng)，其中大多數(shù)為文本數(shù)據(jù)，進(jìn)而促使了文本大數(shù)據(jù)分析技術(shù)的廣泛使用。而這種分析挖掘必然面臨對(duì)于詞義正確理解的強(qiáng)烈需求。由此可見，解決命名實(shí)體鏈接問(wèn)題非常必要，將存在歧義的實(shí)體正確地鏈接到對(duì)應(yīng)的知識(shí)庫(kù)中具有重要意義。

本文實(shí)驗(yàn)數(shù)據(jù)來(lái)自新浪微博,而微博與普通文本相比最顯著的區(qū)別在于內(nèi)容長(zhǎng)度限制在140字以內(nèi),且發(fā)布的內(nèi)容具有如下特點(diǎn):文本長(zhǎng)度短、口語(yǔ)化、表達(dá)不清晰等。因此，對(duì)應(yīng)上述特點(diǎn)，針對(duì)微博數(shù)據(jù)的命名實(shí)體鏈接也面臨一些新的問(wèn)題。

針對(duì)微博上述特點(diǎn)，本文提出了基于多源知識(shí)和Ranking SVM的中文微博命名實(shí)體鏈接，主要包

括以下幾個(gè)方面: 1)對(duì)知識(shí)庫(kù)進(jìn)行更新，添加實(shí)體對(duì)應(yīng)的中文維基百科分類，并且分別從中文維基百科、互動(dòng)百科、百度百科抽取實(shí)體的別稱(同義詞)，以此來(lái)提高實(shí)體鏈接的準(zhǔn)確性； 2)采用百度搜索引擎對(duì)存在錯(cuò)別字的待鏈接命名實(shí)體(簡(jiǎn)稱: 目標(biāo)實(shí)體)名稱進(jìn)行糾正； 3)利用Lucene*http://lucene.apache.org/對(duì)知識(shí)庫(kù)中的所有候選實(shí)體建立本地索引，根據(jù)微博中的命名實(shí)體檢索得到初始候選實(shí)體集合； 4)抽取候選實(shí)體集的語(yǔ)義特征，利用訓(xùn)練得到的Ranking SVM模型對(duì)初始候選實(shí)體排序； 5)從候選實(shí)體中找出得分最高的實(shí)體，如果符合相關(guān)條件，則返回KB_ID；否則，返回NIL。

2 相關(guān)研究

命名實(shí)體鏈接的輸入為一段文本，稱為查詢文檔。查詢文檔包含諸多實(shí)體名稱，稱為查詢名稱。而命名實(shí)體鏈接的目的則是從指定知識(shí)庫(kù)中找到查詢名稱所指代的實(shí)體[2]。

命名實(shí)體鏈接任務(wù)通常包括兩個(gè)主要階段: 候選實(shí)體生成與候選實(shí)體歧義消解。候選實(shí)體生成主要是對(duì)查詢?cè)~語(yǔ)的擴(kuò)展，另外對(duì)待鏈接實(shí)體的上下文特征的抽取，也屬于候選實(shí)體集合的初步生成環(huán)節(jié)；而候選實(shí)體的歧義消解則是對(duì)初步生成的集合進(jìn)行排序，以確定最優(yōu)選項(xiàng)。命名實(shí)體鏈接的任務(wù)可以歸納為圖1所示流程。

圖1 命名實(shí)體鏈接基本流程圖

2.1 候選實(shí)體生成方法

候選實(shí)體生成主要是得到知識(shí)庫(kù)中和查詢名稱相關(guān)聯(lián)的初始候選實(shí)體集，其目的是為了縮小知識(shí)庫(kù)的實(shí)體歧義消解范圍。在獲取初始候選實(shí)體集時(shí)， Mihalcea和Csomai[3]，Milne和Witten[4]從Wikipedia中抽取以查詢名稱為錨文本的文本片段，并進(jìn)一步找到超鏈接目標(biāo)頁(yè)面對(duì)應(yīng)的實(shí)體作為候選。Bunescu和Pasca[5]，Cucerzan[6]則為候選實(shí)體生成專門構(gòu)造了命名實(shí)體詞典。Gottipati等采取對(duì)查詢名稱的擴(kuò)展[7]，Sun利用Wikipedia的重定向頁(yè)面、消歧頁(yè)面等建立詞典[8]，為解決查詢名稱為縮略語(yǔ)的實(shí)體生成問(wèn)題，Zhang[9]提出了在查詢文檔中查找對(duì)應(yīng)全稱詞語(yǔ)的方法。總之，前人通過(guò)上述多種方法，在一定程度上提高了系統(tǒng)召回率。

2.2 候選實(shí)體消歧方法

候選實(shí)體歧義消解則主要是從初始候選實(shí)體集中選出最有可能的目標(biāo)實(shí)體，進(jìn)而將查詢名稱鏈接到目標(biāo)實(shí)體。Varma[10]等人利用搜索引擎工具對(duì)候選實(shí)體進(jìn)行排序，以此選出相似度分值最高的候選實(shí)體，Han和Zhao[11]通過(guò)BOW(bag-of-words)與Wikipedia的語(yǔ)義網(wǎng)絡(luò)對(duì)候選實(shí)體進(jìn)行相似度計(jì)算，Zheng[12]等人提出了L2R(Learning to rank)算法進(jìn)行實(shí)體消歧，Zhang[13]等人利用SVM(Support Vector Machine)對(duì)候選實(shí)體進(jìn)行分類，以達(dá)到消歧目的。

本文參考上述方法及微博特點(diǎn)，提出了同義詞詞典、百科知識(shí)和Ranking SVM模型相結(jié)合的策略來(lái)獲取知識(shí)庫(kù)候選實(shí)體。

3 命名實(shí)體鏈接

本文把命名實(shí)體鏈接任務(wù)分成兩個(gè)階段，即候選實(shí)體生成和候選實(shí)體歧義消解，針對(duì)候選實(shí)體生成主要采用構(gòu)建多源知識(shí)的方法來(lái)完成，而候選實(shí)體歧義消解部分則采用有監(jiān)督的Ranking SVM模型來(lái)對(duì)候選實(shí)體進(jìn)行排序消解。

3.1 候選實(shí)體生成

3.1.1 數(shù)據(jù)預(yù)處理

本文實(shí)驗(yàn)數(shù)據(jù)來(lái)自新浪微博，而知識(shí)庫(kù)則是維基百科，由于微博內(nèi)容的長(zhǎng)度被限定在140個(gè)字符之內(nèi)，并且發(fā)布內(nèi)容具有文本長(zhǎng)度短、口語(yǔ)化、表達(dá)不清晰等特點(diǎn)。相應(yīng)地，對(duì)于新浪微博的研究主要有如下問(wèn)題:

a) 微博的內(nèi)容構(gòu)成復(fù)雜，常常出現(xiàn)“#”符號(hào)，兩個(gè)“#”符號(hào)之間的內(nèi)容為話題，還有漢字形式的表情(比如: [衰]、[高興]等)；以及“@”符號(hào)等。

b) 外來(lái)音譯名稱，如“薩科齊”與“薩柯奇”等，本質(zhì)上二者指代的為同一人物，即法國(guó)前總統(tǒng)“Nicolas Sarkozy”等。

c) 微博內(nèi)容的表達(dá)口語(yǔ)化，經(jīng)常出現(xiàn)錯(cuò)別字。

d) 微博內(nèi)容中繁體漢字、簡(jiǎn)體漢字、拼音的結(jié)合出現(xiàn)，如: “鄭州”、“fudan大學(xué)”等。

通常，我們需要對(duì)諸如上述問(wèn)題中的部分情況進(jìn)行預(yù)處理，比如a中的微博符號(hào)，可以制定相應(yīng)的規(guī)則對(duì)微博文本中的符號(hào)進(jìn)行處理；而對(duì)于b和c中的外文名稱音譯問(wèn)題，則利用百度搜索引擎提供的“候選詞推薦”功能來(lái)輔助降低問(wèn)題復(fù)雜性；對(duì)于d中提到的情況，則采用繁簡(jiǎn)字體轉(zhuǎn)換和拼音漢字轉(zhuǎn)換的方法進(jìn)行處理，最終統(tǒng)一為漢字簡(jiǎn)體形式。

3.1.2 同義詞表構(gòu)建

微博內(nèi)容中目標(biāo)實(shí)體的表達(dá)形式具有多樣性，

包括別名、簡(jiǎn)稱及綽號(hào)等。根據(jù)Han[14]等人的統(tǒng)計(jì)，在 Tweets 中每個(gè)命名實(shí)體平均有3.3個(gè)不同的表達(dá)形式。為了處理表達(dá)形式多樣性的問(wèn)題，本文從維基百科(中文版)、互動(dòng)百科、百度百科獲取候選實(shí)體對(duì)應(yīng)的所有實(shí)體信息，進(jìn)而將實(shí)體對(duì)應(yīng)的不同表達(dá)形式進(jìn)行歸納總結(jié)，構(gòu)建同義詞表，以此提高命名實(shí)體鏈接的準(zhǔn)確性。我們從維基百科、互動(dòng)百科及百度百科分別對(duì)知識(shí)庫(kù)中的8 405個(gè)、5 492個(gè)及6 235個(gè)實(shí)體進(jìn)行了同義詞擴(kuò)展。以“沙奎爾·奧尼爾”為例(如表1所示)，同義詞的擴(kuò)展采用模式匹配方式，比如以百科源代碼網(wǎng)頁(yè)中的“綽號(hào)”、“nickname”、“別名”標(biāo)簽作為基本匹配模版進(jìn)行同義詞的抽取，詳見“2012年CCF自然語(yǔ)言處理與中文計(jì)算會(huì)議”中關(guān)于中文詞匯語(yǔ)義關(guān)系抽取*http://tcci.ccf.org.cn/conference/2012/pages/page04_eva.html,通過(guò)構(gòu)建同義詞表，對(duì)于圖1中的待鏈接實(shí)體“大鯊魚”和“大柴油機(jī)”，我們可以準(zhǔn)確而快速地找出其中文實(shí)體全稱為“沙奎爾·奧尼爾”(英文實(shí)體全稱為“Shaquille O’Neal”)。

表1 “沙奎爾·奧尼爾”對(duì)應(yīng)的維基百科、互動(dòng)百科的同義詞(別名)

圖1 待鏈接實(shí)體為別名的微博示例

3.1.3 人物職稱表的構(gòu)建

人物實(shí)體的職稱主要是社會(huì)地位、自身社會(huì)關(guān)系以及從事職業(yè)的一種標(biāo)識(shí)，比如: “發(fā)言人”、“歌手”、“公安局長(zhǎng)”等，而這些職稱在對(duì)人物進(jìn)行實(shí)體消歧時(shí)，可以輔助區(qū)分具有相同名稱的不同實(shí)體。論文所采用的職稱詞匯資源為HowNet中一部分，共計(jì)244個(gè)，如表2所示。例如，名稱“李娜”，在百度百科中“李娜”對(duì)應(yīng)26個(gè)義項(xiàng)，其中25個(gè)義項(xiàng)為人物實(shí)體名稱(如表3所示)，可以通過(guò)在“李娜”實(shí)體所在文檔中的職稱描述來(lái)為實(shí)體消歧提供有效的特征信息。

表2 部分人物title列表

表3 百度百科“李娜”的部分義項(xiàng)

3.2 候選實(shí)體歧義消解

本文根據(jù)初始候選實(shí)體抽取指定的特征組，利用訓(xùn)練得到的Ranking SVM模型對(duì)待鏈接實(shí)體和候選實(shí)體集合構(gòu)造的特征文本進(jìn)行預(yù)測(cè)，具體過(guò)程見算法1。

算法1 基于RankingSVM模型的實(shí)體鏈接輸入:目標(biāo)實(shí)體(mention),微博內(nèi)容,知識(shí)庫(kù)輸出:知識(shí)庫(kù)中候選實(shí)體的KB_ID,或者NIL1.Begin2.選擇mention所在微博的最小子句(以句號(hào),逗號(hào),感嘆號(hào)為結(jié)束);3.通過(guò)NLPIR①工具,將微博句子進(jìn)行分詞、詞性標(biāo)注,經(jīng)過(guò)停用詞過(guò)濾,抽取特征;4.similarity:=-1,index:=-1;5.將步驟3得到的待檢索詞組在已經(jīng)建立索引的知識(shí)庫(kù)中進(jìn)行檢索,得到檢索結(jié)果集合condidate_entities;6.Forei∈condidate_entities7. Begin8. 抽取ei所在的知識(shí)庫(kù)文本和待鏈接實(shí)體的特征,構(gòu)造特征組合featurei;9. End10.利用訓(xùn)練得到的RankingSVM模型對(duì)condidate_entities構(gòu)造的特征文本進(jìn)行預(yù)測(cè),得到對(duì)各個(gè)候選實(shí)體的分值γi,score[i]:=γi;11.Forγi∈score12. Begin13. 如果γi>silimarity,則index:=i;14. End15.如果similarity>λ(λ為預(yù)先設(shè)置的閾值),則輸出KB_ID;16.否則輸出NIL17.End

3.2.1 Ranking SVM模型

Ranking SVM模型是由Herbrich[15]等人提出的一種排序算法，它可以廣泛地應(yīng)用于信息檢索領(lǐng)域，如Cao[16]等人利用此類模型進(jìn)行文檔檢索任務(wù)。Joachims[17-18]等人提出了基于Pairwise的數(shù)據(jù)標(biāo)注方法，并提供了免費(fèi)的SVMrank工具*http://ictclas.nlpir.org/ ② http://www.cs.cornell.edu/people/tj/svm_light/svm_rank.html。

假設(shè)存在一組輸入向量X∈Rn,n在此表示特征的維數(shù)，同時(shí)存在一組輸出向量Y={r1,r2,r3,……,rn}，n表示排序數(shù)。進(jìn)一步假設(shè)存在一組全序排列rn>rn-1>……>r1，“>”符號(hào)表示一種優(yōu)先權(quán)的偏向關(guān)系，那么將存在一系列排序函數(shù)f∈F決定了下列的偏序關(guān)系:

(1)

Herbrich等人將上述的排序?qū)W習(xí)問(wèn)題看作基于實(shí)例對(duì)的分類學(xué)習(xí)問(wèn)題。首先設(shè)定一個(gè)線性函數(shù)f。

(2)

其中，w表示一組權(quán)重向量，“”表示向量的內(nèi)積。

通過(guò)公式(1)～(2)可以得到式(3)。

(3)

將公式(3)轉(zhuǎn)換為二值分類問(wèn)題，則可以表示為式(4)。

(4)

對(duì)于給定的訓(xùn)練數(shù)據(jù)S，我們以此構(gòu)造一個(gè)新的包含l個(gè)向量的訓(xùn)練數(shù)據(jù)集合S′，將S′中的數(shù)據(jù)作為分類數(shù)據(jù)構(gòu)造SVM模型，對(duì)任意一組向量X(1)-X(2)賦以分類類別，其中z=+1代表正樣例，z=-1代表負(fù)樣例。后續(xù)問(wèn)題即轉(zhuǎn)化為二次最優(yōu)化問(wèn)題，具體可參考[19]。

3.2.2RankingSVM模型的特征選擇

本文選定了三類特征，分別是表面性特征(實(shí)體流行度、是否子串、是否滿足編輯距離閾值)、上下文的文本相似度特征、主題相關(guān)性特征。

1) 表面性特征

(1) 實(shí)體流行度

提取實(shí)體流行度特征，即求query對(duì)應(yīng)的候選實(shí)體中概率最高的實(shí)體。這個(gè)概率可以通過(guò)很多方式計(jì)算得到，比如: 計(jì)算query作為超鏈接指向各個(gè)候選實(shí)體的鏈接比例來(lái)獲得。因此，如果一個(gè)query對(duì)應(yīng)的候選實(shí)體集為E={(e1,C1),(e2,C2),(e3,C3),…, (en,Cn)}，其中Ci是實(shí)體ei對(duì)應(yīng)的在超鏈接中被指向的次數(shù)。則該候選實(shí)體的流行度P為:

(5)

(2) 候選實(shí)體與待鏈接實(shí)體之間是否屬于子串的關(guān)系

子串關(guān)系特征主要指一個(gè)字符串是另外一個(gè)字符串的開頭或者結(jié)尾，而對(duì)于如人名“MichaelJeffreyJordan”、“MichaelJordan”這樣的子串關(guān)系，識(shí)別難度還是比較大的。這種情況下，可以使用下述Dice系數(shù)方法來(lái)識(shí)別。本文中子串關(guān)系特征主要是針對(duì)子串是母串的開頭或者結(jié)尾的情況。

(3) 候選實(shí)體與待鏈接實(shí)體之間編輯距離是否小于設(shè)定閾值

英文人名通常不寫中間那個(gè)名字，比如“MichaelJeffreyJordan”常常寫為“MichaelJordan”，英文中還有大量組合詞，如“home-made”也會(huì)被寫成“homemade”，其實(shí)它們的所指是一樣的。在此，計(jì)算方法可以使用編輯距離或者Dice系數(shù)等，而閾值設(shè)定則需要通過(guò)實(shí)驗(yàn)來(lái)調(diào)優(yōu)。

2) 上下文文本相似性特征

本文的內(nèi)容相似性衡量是先將上下文文本轉(zhuǎn)換成文本向量，利用向量空間模型計(jì)算文本向量相似性。空間向量的相似度有如下計(jì)算方法:

(1) 余弦相似度

余弦相似度是通過(guò)計(jì)算兩個(gè)向量在空間中的夾角余弦值來(lái)衡量彼此之間的相似程度，取值范圍在[-1,+1]，余弦相似度是計(jì)算相似度的常見方法，類似的還有Dice系數(shù)、Jaccord系數(shù), 如果有向量A和B，其向量之間夾角記為“θ”,則其計(jì)算如式(6)所示。

(6)

(2) 歐幾里得距離的相似性

相似度的衡量除了可以計(jì)算相似性，還可以計(jì)算它們的不相似性，比如計(jì)算它們之間的距離，距離大，相似度就小。在衡量距離時(shí)，常用的是歐幾里得距離，也叫歐氏距離，它主要是計(jì)算空間中兩點(diǎn)之間的距離，計(jì)算方式如式(7)所示。

(7)

3) 主題相關(guān)性特征

在文本主題關(guān)鍵詞的提取方面可以使用隱語(yǔ)義模型(LatentFactorModel)[20]，該算法在文本挖掘領(lǐng)域經(jīng)常被用到，與之相關(guān)的還有PLSA、LDA等。

通過(guò)獲取文本主題關(guān)鍵詞，對(duì)待消歧文檔的TopN個(gè)詞和候選實(shí)體集所對(duì)應(yīng)的每篇文檔的TopN個(gè)詞進(jìn)行相似度計(jì)算，從而得到所需特征，即候選實(shí)體上下文N個(gè)主題關(guān)鍵詞與待消歧實(shí)體上下文的N個(gè)主題關(guān)鍵詞相關(guān)性的總得分。相關(guān)性總得分的計(jì)算采用GoogleNormalizedDistance[21]方式進(jìn)行統(tǒng)計(jì)。

GoogleNormalizedDistance是基于關(guān)系近的概念更有可能出現(xiàn)在同一網(wǎng)頁(yè)中這一假設(shè)，然后通過(guò)測(cè)量?jī)蓚€(gè)詞語(yǔ)在網(wǎng)頁(yè)文本中同時(shí)出現(xiàn)的頻率就可以得到詞語(yǔ)間的語(yǔ)義距離。任意兩個(gè)詞x和y，其距離GND(x,y)的計(jì)算方式如式(8)所示。

(8)

式(8)中f(x)、f(y)分別表示在Google中搜x、y時(shí)對(duì)應(yīng)記錄數(shù)；f(x,y)表示在Google中同時(shí)搜索x和y時(shí)得到的記錄數(shù)；N表示Google能檢索的Web頁(yè)數(shù)總和。GND(x,y)表示詞語(yǔ)x和y共現(xiàn)的對(duì)稱條件概率；假設(shè)指定某個(gè)頁(yè)面包含x(或者y)，則GND(x,y)表示該頁(yè)面同時(shí)包含y(或者x)的概率，GND(x,y)值越大，說(shuō)明詞語(yǔ)x和y距離越小，語(yǔ)義就越相關(guān)。

4 實(shí)驗(yàn)

4.1 實(shí)驗(yàn)數(shù)據(jù)介紹

實(shí)驗(yàn)所用數(shù)據(jù)是由第三屆自然語(yǔ)言處理與中文計(jì)算會(huì)議(簡(jiǎn)稱NLP&CC2014)提供， NLP& CC2014*http://tcci.ccf.org.cn/conference/2014/index.html評(píng)測(cè)數(shù)據(jù)的知識(shí)庫(kù)來(lái)自中文維基百科中部分含有InfoBox結(jié)構(gòu)的實(shí)體集。NLP&CC2014公開的中文微博實(shí)體鏈接評(píng)測(cè)數(shù)據(jù)如表4所示。

表4 NLP&CC 2014中文微博評(píng)測(cè)數(shù)據(jù)統(tǒng)計(jì)

續(xù)表

4.2 實(shí)驗(yàn)評(píng)估指標(biāo)

本文所采取的度量標(biāo)準(zhǔn)有準(zhǔn)確率、召回率以及F值，準(zhǔn)確率和召回率的計(jì)算公式如下所示:

(9)

(10)

式中M為實(shí)體鏈接輸出的結(jié)果，M*為標(biāo)注的正確結(jié)果，但是準(zhǔn)確率和召回率往往是相互關(guān)聯(lián)，比如為了得到較高的準(zhǔn)確率，召回率則會(huì)拉低，反之亦然，為了綜合考慮準(zhǔn)確率和召回率的評(píng)價(jià)，我們使用F值，F(xiàn)值可以認(rèn)為是對(duì)準(zhǔn)確率和召回率的加權(quán)調(diào)和平均值，如式(11)所示。

(11)

4.3 實(shí)驗(yàn)結(jié)果分析

本文完成兩組對(duì)比實(shí)驗(yàn)，分別是基于Lucene的命名實(shí)體鏈接方法(簡(jiǎn)稱Lucene_EL)、基于多源知識(shí)和RankingSVM的命名實(shí)體鏈接方法(簡(jiǎn)稱R-SVM_EL),它們均在NLP&CC2014公開的實(shí)體鏈接數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，實(shí)驗(yàn)表現(xiàn)的統(tǒng)計(jì)有三部分構(gòu)成，一部分是在整體數(shù)據(jù)上的準(zhǔn)確率；一部分是知識(shí)庫(kù)中存在的目標(biāo)實(shí)體的準(zhǔn)確率、召回率及F1值；以及知識(shí)庫(kù)中不存在的目標(biāo)實(shí)體的準(zhǔn)確率、召回率及F1值，而Best_2014系統(tǒng)則是NLP&CC2014的命名實(shí)體鏈接評(píng)測(cè)中最佳系統(tǒng)的表現(xiàn)結(jié)果,表5是系統(tǒng)在整體數(shù)據(jù)上的結(jié)果，表6對(duì)應(yīng)知識(shí)庫(kù)中存在的目標(biāo)實(shí)體的結(jié)果，表7對(duì)應(yīng)知識(shí)庫(kù)中不存在的目標(biāo)實(shí)體的結(jié)果。

表5 NLP&CC2014整體數(shù)據(jù)的準(zhǔn)確率對(duì)比

由于Lucene_EL系統(tǒng)是單純地利用Lucene的檢索功能，得到與查詢名稱相似度最高的知識(shí)庫(kù)中

表6 NLP&CC2014在知識(shí)庫(kù)中存在相應(yīng)結(jié)果的部分的相關(guān)結(jié)果

表7 NLP&CC 2014在知識(shí)庫(kù)中沒有鏈接的結(jié)果

的目標(biāo)實(shí)體，因此沒有過(guò)多復(fù)雜的特征和算法。在實(shí)驗(yàn)數(shù)據(jù)集中，由于知識(shí)庫(kù)中無(wú)對(duì)應(yīng)詞條的待鏈接實(shí)體所占比例基本上為50%，并且真正存在歧義的待鏈接實(shí)體個(gè)數(shù)不多，因此僅利用字符串相似度檢索，即基于Lucene的實(shí)體鏈接策略，在NLP&CC 2014數(shù)據(jù)集上取得了相對(duì)不高(0.613)的準(zhǔn)確率。

從表6可以發(fā)現(xiàn)，基于Lucene的實(shí)體鏈接召回率相對(duì)較低。這主要由如下原因?qū)е拢菏紫任⒉┑拈L(zhǎng)度通常比較短，與知識(shí)庫(kù)中的實(shí)體信息相比，可能存在語(yǔ)義不充分的情況，這導(dǎo)致單純基于字符串相似度進(jìn)行匹配時(shí)，相似度得分有所降低；再加之基于Lucene的實(shí)體鏈接在從知識(shí)庫(kù)中篩選候選實(shí)體時(shí)，對(duì)相似度得分設(shè)置了一定的閾值，過(guò)濾掉了一部分相似度得分較低的命名實(shí)體，從而降低了該方法的召回率。與Lucene相比，R-SVM_EL系統(tǒng)則融合了更多的語(yǔ)義特征，比如字符串的表面性特征、主題相關(guān)性特征等。

從表7可以發(fā)現(xiàn)，由于設(shè)定了相似度閾值，因此對(duì)于在知識(shí)庫(kù)中不存在鏈接實(shí)體的情況，取得了較好的召回率及F1值。這也充分地證明了閾值設(shè)置對(duì)于Lucene檢索策略的重要性，相似度閾值的設(shè)置在一定程度上避免了將在知識(shí)庫(kù)中不存在的待鏈接實(shí)體錯(cuò)誤地鏈接到知識(shí)庫(kù)，從而提高了準(zhǔn)確率、召回率和F1值。

5 結(jié)論及下一步工作

本文通過(guò)對(duì)命名實(shí)體鏈接的研究與實(shí)驗(yàn)，分析了課題中的問(wèn)題，并且提出了相應(yīng)的研究方法、解決路線及技術(shù)框架。本文借助自然語(yǔ)言處理的開源工具和網(wǎng)絡(luò)百科資源對(duì)文本進(jìn)行數(shù)據(jù)預(yù)處理工作，包括同義詞表的構(gòu)建，同時(shí)利用Lucene對(duì)知識(shí)庫(kù)建立索引。基于Ranking SVM模型的命名實(shí)體鏈接，從初始候選實(shí)體獲取諸多語(yǔ)義特征，利用Ranking SVM模型對(duì)候選實(shí)體排序，最終得到最優(yōu)的目標(biāo)實(shí)體。

鑒于在NLP&CC 2014命名實(shí)體鏈接公開數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)，下一步計(jì)劃在知識(shí)資源和更多深層有效的語(yǔ)義特征方面進(jìn)行深入的發(fā)掘，這對(duì)于命名實(shí)體鏈接問(wèn)題的解決起著關(guān)鍵性的作用。

[1] 中國(guó)互聯(lián)網(wǎng)信息中心. 第35次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[R].北京：中國(guó)互聯(lián)網(wǎng)信息中心.2015.

[2] 郭宇航, 秦兵, 劉挺等. 實(shí)體鏈指技術(shù)研究進(jìn)展[J]. 智能計(jì)算機(jī)與應(yīng)用, 2014, 4(5).

[3] Mihalcea R, Csomai A. Wikify! Linking Documents to Encyclopedic Knowledge[C]//Proceedings of the 16th ACM Conference on Information and Knowledge Management. Association for Computing Machinery, 2007: 233-242.

[4] Milne D, Witten I H. Learning to Link with Wikipedia[C]//Proceedings of the 17th ACM Conference on Information and Knowledge Management. Association for Computing Machinery, 2008: 509-518.

[5] Bunescu R C, Pasca M. Using Encyclopedic Knowledge for Named Entity Disambiguation[C]//Proceedings of the 11st Conference of the European Chapter of the Association for Computational Linguistics. Association for Computational Linguistics, 2006:9-16.

[6] Cucerzan S. Large-Scale Named Entity Disambiguation Based on Wikipedia Data[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Association for Computational Linguistics, 2007:708-716.

[7] Gottipati S, Jiang J. Linking Entities to a Knowledge Base with Query Expansion[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2011: 804-813.

[8] Sun Y, Zou X, Lin L, et al. ITNLP Entity Linking System at TAC 2013[C]//Proceedings of Text Analysis Conference. United States National Institute of Standards and Technology, 2013.

[9] Zhang W, Sim Y C, Su J, et al. Nus-i2r: Learning a Combined System for Entity Linking[C]//Proceedings of Text Analysis Conference. United States National Institute of Standards and Technology, 2010.

[10] Varma V, Bysani P, Kranthi Reddy V B, et al. IIIT Hyderabad at TAC 2009[C]//Proceedings of Test Analysis Conference. U.S. National Institute of Standards and Technology, 2009.

[11] Han X, Zhao J. NLPR_KBP in TAC 2009 KBP Track: A Two-Stage Method to Entity Linking [C]//Proceedings of Test Analysis Conference. U.S. National Institute of Standards and Technology, 2009.

[12] Zheng Z, Li F, Huang M, et al. Learning to Link Entities with Knowledge Base[C]//Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Association for Computational Linguistics, 2010: 483-491.

[13] Zhang W, Su J, Tan C L, et al. Entity Linking Leveraging: Automatically Generated Annotation[C]//Proceedings of the 23rd International Conference on Computational Linguistics. Association for Computational Linguistics, 2010: 1290-1298.

[14] Han X, Zhao J. Structural Semantic Relatedness: a Knowledge-based Method to Named Entity Disambiguation[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2010: 50-59.

[15] Herbrich R, Graepel T, Obermayer K. Large Margin Rank Boundaries for Ordinal Regression[A].In: Alexander J. Smola. Advances in Neural Information Processing Systems[M]. Massachusetts: The MIT Press, 1999: 115-132.

[16] Cao Y, Xu J, Liu T Y, et al. Adapting Ranking SVM to Document Retrieval[C]//Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Association for Computing Machinery, 2006: 186-193.

[17] Joachims T. Optimizing Search Engines Using Clickthrough Data[C]//Proceedings of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Association for Computing Machinery, 2002: 133-142.

[18] Joachims T. Training Linear SVMs in Linear Time[C]//Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Association for Computing Machinery, 2006: 217-226.

[19] Dill S, Eiron N, Gibson D, et al. SemTag and Seeker: Bootstrapping the Semantic Web via Automated Semantic Annotation[C]//Proceedings of the 12th International Conference on World Wide Web. Association for Computing Machinery, 2003: 178-186.

[20] Chang A X, Spitkovsky V I, Yeh E, et al. Stanford-UBC Entity Linking at TAC-KBP[C]//Proceedings of Text Analysis Conference. United States National Institute of Standards and Technology, 2010.

[21] McNamee P. HLTCOE Efforts in Entity Linking at TAC KBP 2010[C]//Proceedings of Text Analysis Conference. United States National Institute of Standards and Technology, 2010.

Chinese Micro-blog Named Entity Linking Based on Multisource Knowledge

CHEN Wanli, ZAN Hongying,WU Yonggang

(School of Information Engineering, Zhengzhou University, Zhengzhou， Henan 450001, China)

Named entity is an important component conveying information in texts, and an accurate understanding of named entities is necessary to ensure a correct analysis of the text information. This paper proposes a Chinese micro-blog entity linking strategy based on multi-resource knowledge under Ranking SVM framework. It combines a dictionary of synonyms, the encyclopedia resources to produce an initial set of candidate entities , then extracts various combinations of featuresfor Ranking SVM to generate the target entity set. The evaluation on data sets of NLP&CC2014 Chinese micro-blog entity linking track shows a micro average accuracy of 89.40%, which is better than the state-of-the-art result.

named entity; chinese micro-blog entity linking; dictionary of synonyms; encyclopedia resources; Ranking SVM; semantic features

陳萬(wàn)禮(1992—),通信作者,碩士,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理。E-mail:wanli2013nlp@foxmail.com昝紅英(1966—),教授,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理。E-mail:iehyzan@zzu.edu.cn吳泳鋼(1987—),碩士,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理。E-mail:wygchina@sina.com

1003-0077(2015)05-0117-08

2015-07-10 定稿日期： 2015-09-26

國(guó)家社會(huì)科學(xué)基金(14BYY096)；國(guó)家自然科學(xué)基金(61402419，61272221)；國(guó)家高技術(shù)研究發(fā)展863計(jì)劃(2012AA011101)；國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃973課題(2014CB340504)

TP391