馮沖 石戈 郭宇航 龔靜 黃河燕,2
?
基于詞向量語義分類的微博實體鏈接方法
馮沖1石戈1郭宇航1龔靜1黃河燕1,2
微博實體鏈接是把微博中給定的指稱鏈接到知識庫的過程,廣泛應用于信息抽取、自動問答等自然語言處理任務(Natural language processing,NLP).由于微博內(nèi)容簡短,傳統(tǒng)長文本實體鏈接的算法并不能很好地用于微博實體鏈接任務.以往研究大都基于實體指稱及其上下文構建模型進行消歧,難以識別具有相似詞匯和句法特征的候選實體.本文充分利用指稱和候選實體本身所含有的語義信息,提出在詞向量層面對任務進行抽象建模,并設計一種基于詞向量語義分類的微博實體鏈接方法.首先通過神經(jīng)網(wǎng)絡訓練詞向量模板,然后通過實體聚類獲得類別標簽作為特征,再通過多分類模型預測目標實體的主題類別來完成實體消歧.在NLPCC2014公開評測數(shù)據(jù)集上的實驗結果表明,本文方法的準確率和召回率均高于此前已報道的最佳結果,特別是實體鏈接準確率有顯著提升.
詞向量,實體鏈接,社會媒體處理,神經(jīng)網(wǎng)絡,多分類
引用格式馮沖,石戈,郭宇航,龔靜,黃河燕.基于詞向量語義分類的微博實體鏈接方法.自動化學報,2016,42(6):915-922
微博是一種通過關注機制分享簡短實時信息的廣播式的社交網(wǎng)絡平臺,已成為目前最流行的社交平臺之一.截至2014年9月30日,微博的月活躍用戶已經(jīng)達到1.67億,用戶每天產(chǎn)生的微博數(shù)目達到2億[1].如何從海量微博中自動地及時分析、獲得信息已成為研究和應用熱點問題,微博實體鏈接是其中關鍵任務之一.
微博實體鏈接是指將微博中已經(jīng)識別出的實體指稱鏈接到知識庫中的一個具體真實實體的過程[2-3].例如,微博“在我眼中,科比還是比喬丹棒的”中,“喬丹”作為實體指稱,在知識庫中有6個實體義項.實體鏈接的目標就是要確定,這里的“喬丹”,指代的是知識庫中哪個實體義項.
以往實體鏈接研究主要集中在新聞等長文,對于微博等短文本的研究工作剛起步.微博具有兩個特點[4]:1)內(nèi)容非常簡短,通常每篇至多包含140個字符;2)格式不規(guī)范,經(jīng)常出現(xiàn)口語和縮寫等靈活的非正式表達.傳統(tǒng)的長文本實體鏈接方法主要從實體指稱的上下文中抽取特征用于實體消歧,但是因為微博內(nèi)容簡短,傳統(tǒng)方法難以抽取有效特征.
針對微博文本上下文不足的問題,部分工作借助微博的結構特點擴充微博的上下文.Jiang等[5]利用Twitter中的轉(zhuǎn)發(fā)、回復以及同一用戶的其他帖子擴充上下文進行情感分類.Shen等[6]利用同一個Twitter用戶的數(shù)據(jù)對其興趣建模,提高與用戶興趣模型一致性高的候選實體的權重.Guo等[2]利用類似主題的微博建模來對候選實體進行消歧.Liu等[7]利用指稱上下文—實體上下文、指稱上下文—指稱上下文、實體上下文—實體上下文的文本相似度來對實體消歧.
以上方法雖然能夠改善微博實體鏈接中上下文特征匱乏的狀況,但本質(zhì)上受限于對更多微博數(shù)據(jù)資源(用戶的轉(zhuǎn)發(fā)、回復和其他微博等內(nèi)容)的獲取,增加了處理開銷.如果缺乏符合建模要求的數(shù)據(jù),仍難建立有效模型[8].
本文從充分利用指稱和候選實體本身所含有的語義信息入手,提出假設“一條微博中的名詞,包括實體指稱,位于相近的語義空間”,從而把微博實體鏈接問題轉(zhuǎn)化為語義空間中的分類問題.以NLPCC 2014[9]評測數(shù)據(jù)集中的微博樣本“好懷念當時的那支隊伍啊!弗朗西斯、麥迪、巴蒂爾、大姚、斯科拉、穆托姆博、諾瓦克”為例,“大姚”是“姚明”和“姚晨”的別名.兩人都是媒體熱點人物,實體指稱具有類似的詞匯和語法特征,傳統(tǒng)方法難以識別.而考察指稱與上下文中其他名詞的語義距離則可進行有效區(qū)分.統(tǒng)計577條微博訓練數(shù)據(jù),得出結果如表1所示.

表1 訓練集數(shù)據(jù)統(tǒng)計Table 1 Statistics in training data
從統(tǒng)計數(shù)據(jù)可以看出,平均每條微博中含有7.91個名詞,同一語義類別名詞個數(shù)超過3的微博占訓練數(shù)據(jù)的87%,驗證了假設“一條微博中的名詞位于相近的語義空間”的合理性.
基于以上假設,利用知識庫中實體的深層語義信息,基于詞向量對微博進行建模和實體消歧.傳統(tǒng)的方法已經(jīng)驗證,足夠多的語義特征可以提高實體鏈接的準確率[10],但由于微博是短文本,從微博本身很難加入更多的特征,因此從實體鏈接的另一方面入手,將知識庫中的實體表征為含有語義、語法信息的分布式向量,從語義分類層面對微博進行建模和實體消歧.
本文的主要貢獻是提出了一種基于神經(jīng)網(wǎng)絡和多分類回歸模型的命名實體鏈接方法,將微博中上下文名詞與對應的待鏈接實體映射到同一個語義主題空間,并以此訓練分類模型對實體進行語義消歧.其創(chuàng)新之處在于,從神經(jīng)網(wǎng)絡語言模型的角度,以分類器分類預測的方式提出了實體消歧方法,不僅能夠充分地利用上下文語義信息,也能夠利用實體的語義分類信息來進行消歧,并降低了獲取訓練語料的難度.
本文結構如下:第1節(jié)介紹本文提出的方法;第2節(jié)是實體鏈接部分;第3節(jié)是實驗部分;最后是結論和展望.
1.1任務描述

1.2詞向量語義分類模型構建(SCWE)
1.2.1詞向量語義模板構建
圖1是本文的詞向量語義分類模型.其中神經(jīng)網(wǎng)絡部分采用的是CBOW模型[11].CBOW是一個三層神經(jīng)網(wǎng)絡模型,從左至右依次是輸入層、隱含層和輸出層.其基本思想是通過訓練將每個詞映射成含有語義、語法信息的K維實數(shù)向量(K是可選參數(shù),一般為50~200),通過向量之間的距離(例如歐氏距離、cosine相似度等)來判斷它們之間的語義相似度.該模型是對語言模型進行建模,在建模的同時獲得詞語在分布式向量空間上的表示.
假設語料庫是由S個句子組成的一個句子序列,整個語料庫有V個詞,Tj表示第j個句子的詞個數(shù),則對整個語料庫來說,該模型的目標函數(shù)可以表示為


圖1 詞向量語義分類模型Fig.1 Model of semantical categorization by word embeddings

通過隨機梯度下降對目標函數(shù)求解,即可將語料庫中V個詞表示為含有深層語義特征的分布式向量.
1.2.2特征選擇
對于給定的訓練數(shù)據(jù)集,用T=(t1,t2,···,tn)表示訓練數(shù)據(jù)集中的每條微博,S=(s1,s2,···,sn)表示與微博相對應的,已經(jīng)鏈接到知識庫的無歧義實體的集合.基于假設“一條微博中的所有名詞,包括實體指稱,位于相近的語義空間”,抽取訓練集中的名詞,通過第1.2.1節(jié)中方法獲得詞向量模板,將抽取的名詞表示為分布式向量,得到名詞向量集合N.分布式向量中含有深層語義信息,對集合N用k-means[12]進行聚類,獲得k個中心點C=(c1,c2,···,ck)作為k個特征(其中k為k-means聚類核心個數(shù)).同時,通過計算每個詞到k個中心點的距離,獲得集合N中每個詞的類別標簽.
1.2.3訓練數(shù)據(jù)特征化
由第1.2.2節(jié)中得到的每個名詞的標簽,可以把集合T中的微博ti表示成k維向量,把ti中的每個名詞類別出現(xiàn)的頻數(shù)作為該維特征上的權值.
如圖2所示,選取k=10,即選取10維特征.喬丹、科比、奧尼爾、艾弗森對應的聚類標簽為3,球員對應聚類標簽為1,退役對應聚類標簽為5.則可以將這條微博表示為(0,1,0,4,0,1,0,0,0,0).與這條微博相對應的,已經(jīng)鏈接到知識庫中的無歧義實體si為“邁克爾·喬丹”,從向量模板中找出“邁克爾·喬丹”所對應的向量,通過公式

計算與邁克爾·喬丹最接近的類別,得出邁克爾·喬丹所屬類別為3,于是可將si邁克爾·喬丹表示成向量(0,0,0,1,0,0,0,0,0,0).

圖2 訓練數(shù)據(jù)示例Fig.2 Example of the training data
通過上述過程我們可以把訓練集合中的微博和對應的待鏈接實體表示成k(k為所選取特征個數(shù))維的向量對.
1.2.4多分類模型訓練
相關工作表明[13-15],在實際運用中,邏輯回歸分類器跟SVM、隨機森林等分類模型效果接近,但邏輯回歸分類器算法復雜度最低.因此,該部分我們采用邏輯回歸分類器構建分類模型.用表示特征化后的微博集合,用表示特征化后與微博相對應的,已經(jīng)鏈接到知識庫的無歧義實體的集合.其中,t?i和s?i均為k維向量.在特征化訓練數(shù)據(jù)并將之用向量表示后,可以將問題轉(zhuǎn)化為多分類問題.這樣做的意義在于,既利用了微博待鏈接實體跟該條微博中的名詞之間的關系,又利用了實體的詞向量語義特征.
令


由此可以得出相應的多分類邏輯回歸[16]模型:

通過構造似然函數(shù)對模型求解.把n個獨立的觀測樣本記作(Xi,Yji),i=1,2,···,n.利用上面規(guī)定,得出如下似然函數(shù):

其中,πj(Xi)=P(y=j|Xi).對等式兩端取對數(shù)整理可以得到如下的對數(shù)似然函數(shù):

通過梯度下降法對似然函數(shù)求解,至此得到訓練好的詞向量語義分類模型.
2.1任務描述與特征選擇
微博實體鏈接是將微博中給定的實體指稱鏈接到知識庫中無歧義實體的過程.本文選取兩個特征進行實體消歧,詞向量語義分類特征(Semantic categorization by word embeddings,SCWE)和實體流行度特征(Entity frequency,EF).實體鏈接過程表述如下:

2.2實體鏈接過程
圖3所示是整個實體鏈接的過程.整個過程可以分為三個部分:實體指稱標準化、候選實體擴充和實體消歧.微博中許多實體有若干不同的名稱、提法,有的是別名(如小飛俠)、昵稱(如大姚),有的是全名的一部分或是縮寫(如北京理工、北理工、北理等).因此,首先需要對微博中出現(xiàn)的指稱映射到一種標準的表達形式.具體地,構建一個同義詞詞表[17](見表2)來解決這個問題.其中,Key值表示實體的不規(guī)則指稱,Value表示標準實體.

表2 同義詞表舉例Table 2 Examples of synonym lexicon
將實體指稱標準化之后,需要為待消歧的命名實體構建一個候選實體列表.本文構建了歧義詞表(見表3),表3中存儲的是實體的標準形式(Key)及其對應的無歧義實體列表(List).

表3 歧義詞表舉例Table 3 Examples of ambiguity lexicon
在鏈接階段,需要對擴充后的候選實體列表進行消歧,本文通過詞向量語義分類特征和實體流行度特征進行消歧.詞向量語義分類特征由第二部分構建的模型獲得,實體流行度特征[4]則由Wikipedia頁面中實體在所有描述頁面中出現(xiàn)的次數(shù)來度量(見表4),并根據(jù)經(jīng)驗對實體流行度的權值進行設置(見表5).

表4 實體流行度表舉例Table 4 Examples of entity frequency

圖3 實體鏈接過程Fig.3 Process of entity linking

表5 實體流行度權值Table 5 Weights of entity frequency
綜上所述,本文提出的基于詞向量語義分類的微博實體鏈接過程的算法如下.
算法1.基于詞向量語義分類的微博實體鏈接方法
輸入.微博及其對應的待鏈接實體
輸出.鏈接到知識庫的無歧義實體
步驟1.根據(jù)知識庫中的同義詞表,對MMM中的指稱進行描述標準化,得到標準化后的指稱集合.
步驟3.再通過計算各候選實體到該標簽的余弦距離得到各候選實體的語義分類特征.
步驟4.按式(10)計算每個候選實體兩個特征的加權和,并輸出結果最高的候選實體作為最終鏈接實體.如果加權和小于閾值α,則返回標記NIL.
3.1數(shù)據(jù)集描述
本文建立同義詞表、歧義詞表、實體流行度表以及訓練的詞向量模板所用數(shù)據(jù)均為Wikipedia[18],使用的數(shù)據(jù)版本是2015年7月19日的中文百科.通過規(guī)則對知識庫抽取信息并進行統(tǒng)計,獲得數(shù)據(jù)規(guī)模如表6所示.

表6 實驗數(shù)據(jù)規(guī)模Table 6 Scale of experiment data
實驗中選取NLPCC2014[9]中文實體鏈接評測任務訓練集中包含的177條中文微博數(shù)據(jù)和人工標注的400條新浪微博數(shù)據(jù)(從抓取的10000條數(shù)據(jù)中隨機抽取標注)作為訓練數(shù)據(jù),從剩余的9600條微博中隨機抽取100條標注作為驗證集,測試集使用NLPCC2014官方提供測試集,共包含1152個實體指稱.
3.2實驗設計
1)選取鏈接效果好的算法進行對比.通過對比驗證本文算法是否有效.該部分選取NLPCC2014評測中的最優(yōu)方法(NLPCC)[19]、基于上下文概率模型的實體鏈接方法(EF*)[20]以及基于維基百科和搜索引擎(CMEL)[21]方法進行對比.
NLPCC采用百度百科分類屬性和實體流行度相結合的方法進行消歧,EF*在概率模型基礎上添加平滑方法,CMEL采用結合維基百科實體描述頁面和搜索引擎結果相結合的方法進行實體消歧.
實驗過程中,對所有方法均采用相同的資源模板和預處理.首先用訓練集數(shù)據(jù)訓練得到多分類回歸模型,再用驗證集進行模型調(diào)參,得到最優(yōu)權重α =1.4,λ=0.6,最后在測試集進行方法驗證.選取準確率(Precision)、召回率(Recall)以及F1值作為評價指標.其中,in-KB部分表示知識庫中已收錄實體的準確率,NIL表示未收錄到知識庫中的實體鏈接準確率.對比實驗結果如表7和表8所示.

表7 in-KB實驗結果Table 7 Results of in-KB

表8 NIL實驗結果Table 8 Results of NIL
實驗結果中,粗體部分表示本文方法.實驗表明,本文方法在準確率、召回率方面均明顯優(yōu)于其他三種算法,特別是準確率有顯著提升.而本文方法與NLPCC、EF*和CMEL方法的主要區(qū)別在于本文方法加入詞向量語義分類特征,實驗結果的提升表明詞向量語義分類特征是有效的.例如,評測數(shù)據(jù)樣例“好懷念當時的那支隊伍啊!弗朗西斯、麥迪、巴蒂爾、大姚、斯科拉、穆托姆博、諾瓦克”,NLPCC 和EF?將“大姚”鏈接至“姚晨”,而本文方法將該指稱鏈接至“姚明”.
2)不同比重下的詞向量語義分類特征(SCWE)對鏈接結果的影響.本文采用SCWE和實體流行度特征(EF)兩個特征,選取不同的λ進行實驗結果比對.結果如表9和表10所示.

表9 in-KB實驗結果Table 9 Results of in-KB

表10 NIL實驗結果Table 10 Results of NIL
從實驗結果看,當λ=0時,鏈接方法中只選取了實體流行度作為特征,此時F1值最低.隨著λ的增長,F(xiàn)1值也隨之增長.在λ=0.6時,F(xiàn)1值最高.λ>0.6之后,F(xiàn)1值開始降低.表明本文構建的實體鏈接方法效果的提升依賴于詞向量語義分類特征.為了更清晰地表示F1值與參數(shù)λ之間的關系,構建圖4.
3)詞向量語義分類特征與聚類特征數(shù)目k的關系.只采用SCWE模型進行實體鏈接,選取不同的k值來觀測模型與k之間的關系.如圖5所示,當k =10時,模型取得最高的F1值,在5~15之間,k值的變化對模型的預測效率影響不大.但k=20時,SCWE的F1值大幅度下降.通過對評測數(shù)據(jù)中每條微博含有的名詞數(shù)目進行統(tǒng)計,發(fā)現(xiàn)每條微博中平均有7.91個名詞.分析認為當k=20時F1值下降是由于特征選取過多,訓練數(shù)據(jù)稀疏所致.

圖4 本文方法在不同參數(shù)λ下的F1值Fig.4 F1 scores of the combined measure with the λ parameter

圖5 SCWE在不同參數(shù)k下的F1平均值Fig.5 F1 scores of SCWE with the k features
基于微博中名詞位于相近的語義空間的假設,本文提出了利用詞向量語義分類對微博實體進行語義消歧的思路,設計了完整的實體鏈接方法,并在NLPCC2014發(fā)布的評測數(shù)據(jù)上進行驗證.實驗結果表明使用本文提出的基于詞向量語義分類的實體鏈接方法,鏈接效果優(yōu)于NLPCC已公開的最好結果,鏈接準確率有顯著提升.后續(xù)工作主要集中在兩點,一是結合詞向量和圖模型進行實體鏈接,二是探索不同的多分類模型在實體鏈接中的應用.
References
1 Chinese Microblog Service.Sina Weibo User Development Report in 2014[Online],available:http://www.199it.com/ archives/324955.html.November 24,2015(中國微博服務.2014年新浪微博用戶發(fā)展報告[Online],available:http://www.199it.com/archives/324955.html.November 24,2015)
2 Guo Y H,Qin B,Liu T,Li S.Microblog entity linking by leveraging extra posts.In:Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing.Seattle,USA:Association for Computational Linguistic,2013.863-868
3 Yang Jin-Feng,Yu Qiu-Bin,Guan Yi,Jiang Zhi-Peng.An overview of research on electronic medical record oriented named entity recognition and entity relation extraction. Acta Automatica Sinica,2014,40(8):1537-1562(楊錦鋒,于秋濱,關毅,蔣志鵬.電子病歷命名實體識別和實體關系抽取研究綜述.自動化學報,2014,40(8):1537-1562)
4 Shen W,Wang J Y,Han J W.Entity linking with a knowledge base:issues,techniques,and solutions.IEEE Transactions on Knowledge and Data Engineering,2015,27(2):443-460
5 Jiang L,Yu M,Zhou M,Liu X H,Zhao T J.Targetdependent twitter sentiment classification.In:Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies.Portland,Oregon,USA:2011.151-160
6 Shen W,Wang J Y,Luo P,Wang M.Linking named entities in tweets with knowledge base via user interest modeling. In:Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York,USA:ACM,2013.68-76
7 Liu X H,Li Y T,Wu H C,Zhou M,Wei F R,Lu Y.Entity linking for tweets.In:Proceedings of the 51st Annual Meeting of the Association of Computational Linguistics.Sofia,Bulgaria:Association for Computational Linguistics,2013. 1304-1311
8 Odbal,Wang Zeng-Fu.Emotion analysis model using compositional semantics.Acta Automatica Sinica,2015,41(12):2125-2137(烏達巴拉,汪增福.一種基于組合語義的文本情緒分析模型.自動化學報,2015,41(12):2125-2137)
9 NLPCC [Online],available:http://tcci.ccf.org.cn/conference/2014/pages/page04_sam.html.October 31,2015
10 Hachey B,Radford W,Nothman J,Honnibal M,Curran J R.Evaluating entity linking with Wikipedia.Artificial Intelligence,2013,194:130-150
11 Mikolov T,Chen K,Corrado G,Dean J.Efficient estimation of word representations in vector space.arXiv:1301.3781,2013.
12 Hartigan J A,Wong M A.Algorithm AS 136:a k-means clustering algorithm.Journal of the Royal Statistical Society—Series C(Applied Statistics),1979,28(1):100-108
13 Fern′andez-Delgado M,Cernadas E,Barro S,Amorim D.Do we need hundreds of classifiers to solve real world classification problems?Journal of Machine Learning Research,2014,15:3133-3181
14 Mao Yi,Chen Wen-Lin,Guo Bao-Long,Chen Yi-Xin.A novel logistic regression model based on density estimation. Acta Automatica Sinica,2014,40(1):62-72(毛毅,陳穩(wěn)霖,郭寶龍,陳一昕.基于密度估計的邏輯回歸模型.自動化學報,2014,40(1):62-72)
15 Zhou Xiao-Jian.Enhancing ε-support vector regression with gradient information.Acta Automatica Sinica,2014,40(12):2908-2915(周曉劍.考慮梯度信息的ε-支持向量回歸機.自動化學報,2014,40(12):2908-2915)
16 King G,Zeng L C.Logistic regression in rare events data. Political Analysis,2001,9(2):137-163
17 Guo Y H,Qin B,Li Y Q,Liu T,Lin S.Improving candidate generation for entity linking.In:Proceedings of the 18th International Conference on Applications of Natural Language to Information Systems.Salford,UK:Springer,2013.225-236
18 Wikipedia[Online],available:http://download.wikipedia. comzhwikilate-stzhwiki-latest-pages-articles.xml.bz2.October 31,2015
19 Zhu Min,Jia Zhen,Zuo Ling,Wu An-Jun,Chen Fang-Zheng,BaiYu.ResearchonentitylinkingofChinese microblog.Acta Scientiarum Naturalium Universitatis Pekinensis,2014,50(1):73-78(朱敏,賈真,左玲,吳安峻,陳方正,柏玉.中文微博實體鏈接研究.北京大學學報(自然科學版),2014,50(1):73-78)
20 Guo Yu-Hang.Research on Context-based Entity Linking Technique[Ph.D.dissertation],Harbin Institute of Technology,China,2014.(郭宇航.基于上下文的實體鏈指技術研究[博士學位論文],哈爾濱工業(yè)大學,中國,2014.)
21 Meng Z Y,Yu D,Xun E D.Chinese microblog entity linking system combining Wikipedia and search engine retrieval results.In:Proceedings of the 3rd CCF Conference on Natural Language Processing and Chinese Computing.Berlin Heidelberg:Springer,2014.449-456

馮 沖北京理工大學計算機學院副研究員.2005年獲中國科學技術大學計算機科學系博士學位.主要研究方向為自然語言處理,信息抽取,機器翻譯.本文通信作者.
E-mail:fengchong@bit.edu.cn
(FENG ChongAssociate professor at the College of Computer Science and Technology,Beijing Institute of Technology.He received his Ph.D.degree from the Department of Computer Science,University of Science and Technology of China in 2005.His research interest covers natural language processing,information extraction,and machine translation. Corresponding author of this paper.)

石 戈北京理工大學計算機學院博士研究生.主要研究方向為自然語言處理,實體鏈接,問答系統(tǒng).
E-mail:shige713@126.com
(SHI GePh.D.candidate at the College of Computer Science and Technology,Beijing Institute of Technology. His research interest covers natural language processing,entity linking,and question answering system.)

郭宇航北京理工大學計算機學院講師. 2014年獲哈爾濱工業(yè)大學計算機科學與技術學院博士學位.主要研究方向為自然語言處理,信息抽取,機器翻譯.
E-mail:guoyuhang@bit.edu.cn
(GUOYu-HangLectureratthe College of Computer Science and Technology,Beijing Institute of Technology. He received his Ph.D.degree from Harbin Institute of Technology in 2014.His research interest covers natural language processing,information extraction,and machine translation.)

龔 靜北京理工大學計算機學院碩士研究生.主要研究方向為自然語言處理,機器翻譯,問答系統(tǒng).
E-mail:gongjing@bit.edu.cn
(GONG JingMaster student at the College of Computer Science and Technology,Beijing Institute of Technology. Her research interest covers natural language processing,machine translation,and question answering system.)

黃河燕北京理工大學計算機學院教授. 1989年獲中國科學院計算技術研究所計算機科學與技術博士學位.主要研究方向為自然語言處理和機器翻譯社交網(wǎng)絡與信息檢索,智能處理系統(tǒng).
E-mail:hhy63@bit.edu.cn
(HUANG He-YanProfessor at the College of Computer Science and Technology,Beijing Institute of Technology.She received her Ph.D.degree from the Institute of Computing Technology,Chinese Academy of Sciences.Her research interest covers natural language processing,machine translation,social network,information retrieval,and intelligent processing system.)
An Entity Linking Method for Microblog Based on Semantic Categorization by Word Embeddings
FENG Chong1SHI Ge1GUO Yu-Hang1GONG Jing1HUANG He-Yan1,2
As a widely applied task in natural language processing(NLP),named entity linking(NEL)is to link a given mention to an unambiguous entity in knowledge base.NEL plays an important role in information extraction and question answering.Since contents of microblog are short,traditional algorithms for long texts linking do not fit the microblog linking task well.Precious studies mostly constructed models based on mentions and its context to disambiguate entities,which are difficult to identify candidates with similar lexical and syntactic features.In this paper,we propose a novel NEL method based on semantic categorization through abstracting in terms of word embeddings,which can make full use of semantic involved in mentions and candidates.Initially,we get the word embeddings through neural network and cluster the entities as features.Then,the candidates are disambiguated through predicting the categories of entities by multiple classifiers.Lastly,we test the method on dataset of NLPCC2014,and draw the conclusion that the proposed method gets a better result than the best known work,especially on accurancy.
Word embedding,entity linking,social media processing,neural network,multiple classifiers
10.16383/j.aas.2016.c150715
Feng Chong,Shi Ge,Guo Yu-Hang,Gong Jing,Huang He-Yan.An entity linking method for microblog based on semantic categorization by word embeddings.Acta Automatica Sinica,2016,42(6):915-922
2015-10-29錄用日期2016-05-03
Manuscript received October 29,2015;accepted May 3,2016
國家重點基礎研究發(fā)展計劃(973計劃)(2013CB329303),國家高技術研究發(fā)展計劃(863計劃)(2015AA015404),國家自然科學基金(61 502035),高等學校博士學科點專項科研基金(20121101120026)資助
Supported by National Basic Research Program of China(973 Program)(2013CB329303),National High Technology Research and Development Program of China(863 Program)(2015AA015 404),National Natural Science Foundation of China(61502035),and Specialized Research Fund for the Doctoral Program of Higher Education(20121101120026)
本文責任編委柯登峰
Recommended by Associate Editor KE Deng-Feng
1.北京理工大學計算機學院 北京1000812.北京市海量語言信息處理與云計算應用工程技術研究中心北京100081
1.College of Computer Science and Technology,Beijing Institute of Technology,Beijing 1000812.Beijing Engineering Research Center of High Volume Language Information Processing and Cloud Computing Applications,Beijing 100081