劉建華,郭紅梅
(1. 中國科學院文獻情報中心,北京 100190;2. 中國科學院大學,北京 100190)
實體名稱規范的研究探索*
劉建華1,2,郭紅梅1
(1. 中國科學院文獻情報中心,北京 100190;2. 中國科學院大學,北京 100190)
以實體名稱規范為主題,闡明其中兩種類型的任務:一個實體多個名稱的實體共指消解問題和一個名稱指代不同實體的實體歧義問題;針對這兩類任務,綜合分析相關研究成果,重點介紹現今解決實體名稱規范的典型思路與方法,以及推動實體名稱規范研究的重要項目與評測會議;結合當前研究中仍存在的問題,分析探討實體名稱規范的研究趨勢。
實體名稱規范;實體消歧;大規模知識庫;社會網絡
現實世界中不同的人經常會給予同一事物不同的名稱或描述。隨著信息科技的不斷發展,網絡資源越來越多,這類事物的名稱也越來越多樣化,這給計算機的自動理解和計算帶來很大挑戰。為支撐相應的文本處理任務,如機器翻譯、信息檢索、數據挖掘等,將這些名稱、描述與其對應的事物對應起來,并從中選擇一種規范的表達作為不同名稱或描述之間的核心關聯非常必要,由此產生了實體名稱規范這一概念。
從主題角度而言,與實體名稱規范密切相關的研究主題包括實體名稱共指消解、縮略語識別、實體名稱消歧等,其對應的英文名稱為“Named Entity Disambiguation,Abbreviation Reorganization,Coreference Resolution,Named Entity Normalization”等。從任務角度而言,實體名稱規范包括兩種類型的任務:(1)一個實體有多種名稱的實體共指問題。該問題既……