梁文桐,朱艷輝,詹 飛,冀相冰
(1.湖南工業大學 計算機學院,湖南 株洲 412007;2.湖南工業大學 智能信息感知及處理技術湖南省重點實驗室,湖南 株洲 412007)
在自然語言處理(natural language processing,NLP)的任務中,命名實體識別(named entity recognition,NER)是具有挑戰的基礎性工作[1]。從狹義上來說,一般的命名實體識別任務的目的,是從文本中識別出3種類型的實體提及,包括人名、地名和機構名。在醫學領域中,醫務工作人員通過醫療機構信息系統將病人的臨床診斷信息存儲在計算機中,得到電子病歷(electronic medical records,EMR)。電子病歷命名實體識別是命名實體識別在電子病歷文本分析研究中的重要應用和擴展,其目的是自動地識別并且分類電子病歷中的醫療命名實體。這些命名實體對象能夠被用于后續醫療電子病歷信息的分析和研究中,比如構建臨床信息決策系統、構建醫療領域的知識圖譜等。
早期的電子病歷命名實體識別方面的研究主要運用基于詞典和規則的方法,僅僅依賴于現有的詞典和手工編輯的規則來識別醫療命名實體[2]。后來,基于統計機器學習的方法被運用到電子病歷命名實體識別中。如于楠等[3]采用基于多特征融合的CRF (conditional random fields)模型進行了中文電子病歷NER的研究。A.Kulkarni[4]從生物醫學文本中完成DNA、RNA和蛋白質等生物醫學術語的識別,該任務使用CRF 統計模型完成。許源等[5]基于CRF 以及RUTA(rule-based text annotation)規則,建立了一個醫學命名實體識別模型,該模型在識別腦卒中患者入院記錄的醫學命名實體時取得了良好的效果。王潤奇等[6]利用半監督學習方法,將Tri-Training 算法進行了改進,使得中文電子病歷實體識別模型的效果得到了提升。……