劉勇 陳文生



摘要:結構化電子病歷具有數據標準化程度高、數據檢索方便的優點,能夠為循證醫學、科研、教學提供有效的信息支撐,電子病歷數據錄入的質量會影響臨床管理和決策水平。本文首先分析了影響電子病歷錄入質量的相關因素,在此基礎上提出了電子病歷術語規范化流程,總結了關鍵技術、系統實現及界面設計經驗,旨在為臨床提供客觀、準確的數據以及實現輔助臨床診斷提供參考。
關鍵詞:電子病歷;術語;規范化;輔助診斷
中圖分類號:R197.323? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼:B? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? DOI:10.3969/j.issn.1006-1959.2020.14.003
文章編號:1006-1959(2020)14-0007-03
Electronic Medical Record Terminology Standardization Process and
Design of Clinical Assistant Diagnosis System
LIU Yong1,CHEN Wen-sheng2
(1.Information Center,Nanjing Jiangbei People's Hospital,Nanjing 210048,Jiangsu,China;
2.Library of Nanjing Vocational College of Science and Technology,Nanjing 210048,Jiangsu,China)
Abstract:The structured electronic medical record has the advantages of high data standardization and convenient data retrieval, and can provide effective information support for evidence-based medicine, scientific research, and teaching. The quality of electronic medical record data entry will affect clinical management and decision-making. This article first analyzes the relevant factors that affect the quality of electronic medical record entry, on this basis, it proposes a standardized process of electronic medical record terminology, summarizes key technologies, system implementation, and interface design experience, and aims to provide clinical and objective data and implementation assistance provide a reference for clinical diagnosis.
Key words:Electronic medical records;Terminology;Standardized;Auxiliary diagnosis
目前國內主流的電子病歷系統在設計的時候也考慮到用結構化的方法來實現,但是由于醫學的復雜性和多變性,結構化的電子病歷實施難度較高,且必須確保有醫療背景的高級用戶參與,參與程度則直接影響使用效果[1]。此外,結構化病歷由于采取的是基于表格模板的一種方式,使得臨床醫生的自主決定的靈活性降低,部分功能如主訴等由于專業特異性不高,醫生常常選擇使用自由文本進行錄入[2],因此存在不規范的信息錄入,從而影響電子病歷的書寫質量,如何對這些不規范的輸入進行分析,包括特征術語篩選、提煉、分析、規范化、分類,最終為臨床提供客觀、準確的數據,提高臨床的管理和決策能力就顯得尤為重要。本文主要設計了電子病歷術語規范化流程,旨在為臨床決策提供客觀、詳盡的準確的數據,也為科研提供精確的資料。
1需求分析
本系統設計旨在實現電子病歷醫學術語的規范化,并提供疾病的輔助診斷功能。首先,構建醫學術語相關標準術語集,包括可擴充的非規范術語-規范術語映射詞典和同義詞詞典,為標準化和規范化醫學術語做好前期的數據準備;其次,利用自然語言處理的相關技術對電子病歷文本進行處理分析,自動識別不規范醫學術語,提示臨床人員予以更正,從而達到電子病歷的醫學專業術語規范化的目的;然后,應用機器學習的相關方法,對醫學特征術語進行特征分類,以獲取疾病的診斷分類。最后,對系統的實現和界面進行設計,從而為醫療人員的臨床管理與決策提供方便。
2技術路線
2.1電子病歷結構化的前期準備工作? ①相關醫學術語詞典的構建:標準化的字典對電子病歷結構化和規范化是至關重要的,本系統使用人類與獸類醫學系統術語(SNOMED)、國際疾病分類(ICD10和ICD9)的漢化版本,在實際使用中還可以將經常使用到的未收錄術語增加到詞典中,進一步豐富詞典的詞匯容量。②規范化對象的確定:電子病歷中的所有相關醫學術語包括規范醫學術語和非規范醫學術語,兩類術語被顯著標識,出錯時由醫療人員予以更正,并確認當前識別出的非規范術語是否需要被添加到“非規范術語-規范術語映射”詞典(簡稱非規范對照詞典)中。
2.2電子病歷文本的自然語言處理相關技術
2.2.1漢語分詞? 主要方法如下:①基于詞典的分詞方法,包括正向最大匹配、逆向最大匹配法、雙向匹配法、最少切分法[3];②基于統計的方法,包括統計語言模型[3]、基于HMM的方法[4]、由字構詞法[5]等。
2.2.2詞性標注? 盡管漢語言詞性標注有些情況較為復雜,但醫學術語涉及專業領域,大多數醫學術語可直接標注為名詞詞形,便于簡化詞性標注的復雜度。
2.2.3醫學術語命名實體識別? 近年來,隨著臨床信息化的發展和電子病歷開始在臨床中逐漸普及,我國學者開始對生物醫學領域內的專有名詞進行智能識別。在電子病歷中,命名實體的類別繁多,除了時間、人名、地名、組織機構等常見的實體類別外,還有疾病、癥狀、手術操作、病因、病理、藥品等特有的實體類別。在電子病歷中,涉及到輔助診斷的幾類實體是疾病、臨床癥狀、手術操作、實驗室檢查等。目前,命名實體的識別方法主要有3種:①基于詞典的方法:需要建立臨床規范標準的醫學專業術語集,要涵蓋醫學的各個領域,如SNOMED CT等中描述的相關的同義詞、變形詞,建立不規范和規范術語的映射等等,然后再運用相應的匹配算法根據詞典對文本中醫學術語實體進行識別;②基于規則的方法:需要建立針對性的識別規則庫,優點是在特定領域準確率較高,優于基于統計的方法,缺點是規則的制定需要消耗大量的時間和人力,且所制定的規則往往與特定的領域相關,可移植性較差;③基于機器學習的方法利用標注過的語料進行訓練,語料的標注也不需要較多的語言學知識,較小規模的語料也可以在可接受的時間和人力代價內完成。因此,該方法具有很好的移植性,目前已經廣泛應用于包括命名實體識別在內的許多自然語言處理任務中。常用的機器學習模型包括隱馬爾可夫(hidden Markov model,HMM)[6]、條件隨機場(CRF)[7]等,近年來,基于神經網絡的方法也常被應用于命名實體識別,如基于長短期記憶網絡(LSTM)的Lattice LSTM模型抽取實體[8]。
2.2.4特征術語相似度度量? 通過實體識別出來的特征術語,有的意思相似或相近,甚至意思完全一樣,只是因為操作人員輸入了非規范術語造成的。例如“冠狀動脈支架置入術”和“冠狀動脈支架植入術”,實際上指代同一個意思,由于輸入的不規范,導致系統提取出兩個不同的特征術語。因此,需要通過計算特征術語之間的相似程度來規范化特征。度量特征文本相似度方法有以下幾種:①基于向量空間的度量方式 利用特征頻率-反向文檔頻率(TF-IDF)[9]將文檔向量化。TF-IDF是一種統計方法,用以評估特征項相對于文件集或語料庫中的一個文檔的重要程度。特征項的重要性與它在該文檔中出現的次數成正比,與它在語料庫中出現的頻率成反比,最后計算向量之間的夾角余弦(Cosine)。②距離度量 Jaro-Winkler Distance[10] 作為Jaro Distance的一個擴展,是一種計算兩個字符串之間相似度的方法。
2.3特征分類流程? 本流程是根據電子病歷文本,得到病歷內容對應的疾病,為了驗證特征分類的效果,特收集了幾個疾病類型,包括不同特征的疾病類型和相似特征的疾病類型,如高血壓心臟病、冠狀動脈粥樣硬化性心臟病、急性支氣管炎、肺部感染、慢性阻塞性肺病等,其中有部分患者的電子病歷文本中夾雜著多種疾病類型的特征,當存在這種情況時,疾病以該患者的第一診斷為主。疾病診斷可以被看作是一個文本分類問題,即輸入是一段病歷自然文本文本,經過對醫學術語的規范化,提取相關醫學特征術語,最后經過分類模型輸出疾病的診斷分類。此外,分類模型中使用的各種分類器有很多,如支持向量機(SVM)、決策樹、隨機深林[11],以及神經網絡[12]等。特征分類流程圖見圖1。
3系統設計
根據系統需求,設計了基于機器學習的電子病歷規范化和輔助診斷的系統框架圖,見圖2。根據系統框架圖,整個研究可分為兩個部分:①醫學特征術語規范化:包括中文分詞、醫學實體識別、特征術語規范處理,其中在規范術語的過程中,可以將非規范術語添加到非規范對照詞典中,從而提高非規范術語的識別效率。②輔助診斷:將規范后的特征術語,輸入到分類模型中,得出相應的疾病診斷。
3.1電子病歷文檔提取? 由于人工標注較大規模的語料庫比較困難,本次設計考慮了人機結合的方式以快速建立一個小規模的語料庫,具體步驟如下:①人工收集了1200份電子病歷文檔,涵蓋了心臟科、呼吸科等科室的患者資料;②程序自動抽取每位患者的主訴、現病史、既往史、實驗室及器械檢查等涉及的文本數據,作為原始處理文件;③在此基礎上使用相應的工具進行文本的自動標注,再進行人工審核標注的方法,快速構建一個語料庫。
3.2詞性標注? 該模塊設計的目的是快速獲取文本的詞性。選取部分效果如下顯示:【主/a訴/v:/w咳嗽/v咳痰/n伴/v呼吸困難/n3/n天/q。/w現/t病史/n:/w3/n天/q前/f患者/n在/p我院/n呼吸/v科/n住院/v期間/f出現/v咳嗽/v、/w咳痰/n,/w自主/v排/v痰/n困難/a,/w需/v輔助/v排/v痰/n,/w為/p大量/m灰色/n粘液/n痰/n,/w未/d見/v痰/n中/f帶/v血/n。】
3.3詞位標注? 為了獲取醫學實體識別學習必要訓練語料,須對文檔中的所有字進行詞位標注,但顯然通過人工標注的方式效率較低,考慮用計算機快速標注方式解決。標注的時候需要用到相關醫學領域的標準詞典,系統將ICD10、ICD-9-CM、SNOMED、同義詞詞典等的術語增加到字典中,以增加分詞的命中效率。診斷、手術、檢查的相關醫學術語長度一般比較長,使用反向最大匹配算法并依據詞首(B)、詞中(I)、詞尾(E),進行自動標注,考慮到詞典的覆蓋率問題,由人工對自動標注后的語料庫進行了核對。
3.4特征術語規范化處理? 特征提取后會得到一個特征術語集合,里面既包含規范的特征術語,也可能包含了不規范的特征術語,將這些特征術語與同義詞典中“非規范特征術語”比較,并自動將非規范特征術語用紅色標識出來,并提供相似度較高的特征術語供臨床醫務人員參考選擇,“術語維護”功能可以將新的“非規范特征術語”添加到非規范術語-規范術語映射詞典中,見圖3。
3.5臨床輔助診斷? 在系統中點擊“載入文檔”,加載需要診斷的電子病歷文檔。點擊“特征詞加載”,自動在后臺生成對應的醫學特征術語,再點擊“輔助診斷”根據這些醫學特征術語,使用分類模型該電子病歷文檔進行分類,并且把分類結果顯示在第一行,即“慢性阻塞性肺病急性發作”。最后,根據該電子病歷的醫學特征術語與已經有明確診斷的且被作為標準對照的疾病標注電子病歷文檔做比較,按照相似度降序顯示出來,供臨床醫務人員參考。
4總結
由于電子病歷系統的特殊性,需要與其他各個系統做相應的連接,這就使得電子病歷復雜性較高,包括臨床路徑、患者的其他相關記錄(首頁、病程記錄、檢查檢驗結果、醫囑、手術記錄、護理記錄等),因此,電子病歷系統每天會產生大量的數據,這些海量數據有很多都是不規范的自由文本輸入,包含的信息卻是很重要的,這就需要通過研究將重要的醫學特征抽取出來,并且將其規范化,最后結合分類模型達到臨床輔診、決策支持的目的。本系統的設計開發,最終規范了電子病歷的書寫,可為臨床提供客觀、準確的數據,進而達到輔助臨床進行診斷的功能。
參考文獻:
[1]梅文華,刁君,常奕,等.結構化電子病歷的應用[J].中國數字醫學,2016,11(3):22-25.
[2]朱彥斌.結構化電子病歷在臨床管理中的應用[J].中國醫藥導報,2015,12(35):161-164.
[3]宗慶成.統計自然與語言處理[M].北京:清華大學出版社,2008.
[4]朱咸軍,洪宇,黃雅琳,等.基于HMM的算法優化在中文分詞中的應用[J].金陵科技學院學報,2019,35(3):1-7.
[5]黃昌寧.由字構詞——中文分詞新方法[C]//中文信息處理前沿進展——中國中文信息學會二十五周年學術會議論文集.2006.
[6]劉博,杜建強,聶斌,等.基于二階HMM的中醫診斷古文詞性標注[J].計算機工程,2017,43(7):211-216.
[7]宓林暉,袁駿毅.基于CRF模型的臨床醫囑信息實體識別方法應用研究[J].計算機應用與軟件,2020,37(3):209-212.
[8]Zhang Y,Yang J.Chinese ner using lattice lstm[J].Preprint,2018(v1):1554-1564.
[9]黃春梅,王松磊.基于詞袋模型和TF-IDF的短文本分類研究[J].軟件工程,2020,23(3):1-3.
[10]吳凌芬,楊小淵,葉添杰,等.改進Jaro-Winkler算法在迎賓機器人語音交互中的應用[J].現代計算機(專業版),2015(8):8-13.
[11]陳宋.基于機器學習的醫學輔助診斷算法研究[D].福州大學,2018.
[12]陳欽界.基于機器學習的智能醫療診斷輔助方法研究[D].國防科學技術大學,2017.
收稿日期:2020-05-11;修回日期:2020-05-20
編輯/錢洪飛
作者簡介: 劉勇(1977.5-),男,江蘇鹽城人,碩士,工程師,主要從事機器學習、自然語言處理工作
通訊作者: 陳文生(1977.1-),男,河北黃驊人,碩士,館員,主要從事信息與信息系統管理工作