命名實體識別(named entity recognition,NER)是自然語言處理(nature language processing,NLP)中一項重要的基本任務
,文本中的實體往往攜帶重要的信息,因此識別實體對于下游任務如關系提取
、問題生成
和實體鏈接
等有重要的影響和積極的意義。由于語言在表達上具有迭代、遞歸的特點,文本中存在著大量的嵌套語義。例如,“秘魯總統藤森撤換三軍司令”,“秘魯總統藤森”中嵌套著“藤森”這個實體,且它們歸類的實體類型都為“人”。嵌套語義識別依然是自然語言處理中的研究難點。
目前,基于深度學習的命名實體識別的方法可以分為基于序列模型、基于跨度模型和超圖的方法。基于序列信息的方法是對語句中的每個字符打標簽,其主要思想是通過神經網絡的方法對每個字符進行向量表示然后通過一定的編碼運算分類。依據每個字符分類的類型再合并為實體
。基于跨度模型的方法是對字符進行組合以形成不同的跨度,跨度信息中包含有每個字符的信息,因此特定的跨度信息代表著特定的實體信息,所以通過對跨度信息的分類來識別不同的實體
。基于超圖的方法是允許一條邊連接到多個節點,以代表不同的實體,使用神經網絡對這些邊和節點進行編碼最后從超圖標簽中恢復實體
。雖然深度學習的方法可以加入額外的語義特征信息,但是以上這些方法沒有考慮字與字之間的交互問題,會出現語義不足的情況。語義不足會降低模型對于實體的識別精確度,以及無法識別出存在嵌套情況的實體。……