邵黨國,黃初升,馬 磊,賀建峰,易三莉
(昆明理工大學 信息工程與自動化學院,云南 昆明 650500)
近年來隨著信息技術在中國的蓬勃發展,針對醫療機構的信息系統已經得到廣泛推廣,醫療機構在引入信息系統后,積累了大量的中文醫學文本數據[1]。目前醫療機構的信息系統中的醫學文本主要以醫學影像報告、病理報告、電子病歷等形式存在,大多是以自然語言的形式進行記錄和保存的,而將這些文本中的相關信息提取出來并加以利用,對醫療行業的發展有著巨大的意義[2]。
漢字是構成中文最基本的單位,在中文中漢字與漢字之間緊密排列,而相比于單個的漢字,詞才是表征中文語義最精確的單位,但是中文中并沒有明確的標記將一段話中的前后兩詞進行分隔,而中文分詞的目的就是將中文文本基于某些標準劃分為能夠表征精確語義的詞構成的序列[3]。
在中文的自然語言處理任務中,中文分詞大都作為第一步的工作,分詞的效果會直接影響后續的實體識別、語義分析、機器翻譯、信息檢索等自然語言處理相關工作的結果[4]。然而無論是傳統的機器學習的分詞方法還是基于深度學習的分詞方法,其效果依賴于大規模的訓練數據[5],目前中文分詞領域開放的數據集大多為通用的分詞數據集,其在各領域的分詞任務上效果并不好。由于醫學領域具有極強的專業性,獲取大量的標記的中文醫學領域的訓練數據比較困難,所以傳統架構的中文分詞方法暫時還無法在醫學領域分詞上實現期望的結果。……