






關鍵詞:電子病歷;命名實體識別;條件隨機場;雙向長短期記憶網絡
中圖分類號:TP3 文獻標識碼:A
文章編號:1009-3044(2024)28-0017-03
0 引言
隨著醫療領域信息化的迅速發展,電子病歷已成為現代醫療系統中的重要組成部分。電子病歷記錄了患者的詳細醫療信息病史、診斷、治療方案和隨訪記錄等,為醫療決策、個性化治療、臨床研究、患者管理等提供了豐富的信息[1-2]。電子病歷通常以非結構化形式文本存在,拼寫錯誤、不規范用語,導致信息提取和利用困難[3]。因此,高效、準確地從電子病歷提取有價值的醫學信息,成為當前重要的研究課題。
命名實體識別(NER) 作為自然語言處理中的關鍵技術,旨在自動識別并分類文本中的實體。傳統的NER方法主要依賴于規則和詞典,過于簡單魯棒性差[4]?;诮y計學習的方法,如條件隨機場,通過標注大量訓練數據來學習實體邊界和類型,這些方法雖然相較于基于規則的方法有所提升,但在面對復雜的語言現象和上下文依賴時,仍存在一定局限性[5]。
本文結合了雙向長短期記憶網絡和條件隨機場的混合模型BiLSTM-CRF,用于從電子病歷中自動提取醫學實體。通過雙向長短期記憶網絡捕捉文本的上下文信息,并結合CRF進行標簽序列優化,以提高實體識別的準確性和魯棒性,在處理序列標注問題上具有優越的性能。
1 實驗方法
1.1 序列標注
數據來源于CCKS2017任務二:面向電子病歷的命名實體識別。在本次命名實體識別任務中,目標是從中文電子病歷中自動識別出醫學相關的命名實體,具體包括以下幾類實體:癥狀和體征,檢查和檢驗,治療,疾病和診斷,身體部位。
本研究使用了BIOES標注方法是一種詳細的序列標注方法,通過將每個元素標記為“B”(開頭)、“I”(中間)、“O”(外部)、“E”(結尾)或“S”(單獨實體)來明確區分實體的邊界和類型。具體來說,“B-X”表示實體的開頭,“I-X”表示實體的中間部分,“E-X”表示實體的結尾,而“S-X”用于表示一個單獨的實體,“O”表示不屬于任何實體。這種方法有助于提高命名實體識別的精度和準確性。
研究處理了原始數據后使用Python 編程語言,JieBa分詞進行標注,同時將中文標簽,“癥狀和體征”“檢查和檢驗”“治療”“疾病和診斷”“身體部位”分別對應為“SYMPTOM”“CHECK”“TREATMENT”“DISEASE”“BODY”,最終序列標注后的臨床電子病歷,“身體”如上表1所示,分別進行“字粒度”和“詞粒度”的提取,“疾病與診斷”詞標注如表2所示。
1.2 條件隨機場
條件隨機場廣(CRF) 泛應用于中文分詞、命名實體識別和詞性標注等任務中,通常使用“線性鏈條件隨機場”來簡稱條件隨機場。在模型中,隨機變量X和Y 具有相同的線性序列結構,這與文本的自然順序相匹配,體現了線性特性。兩種DTmwFuPoqfZseC7fpj+iFPfpNFsEsqF/jnLv3zoO954=主要的線性條件隨機場是最大團是相鄰3個頂點的集合以及最大團是相鄰2個頂點的集合。
條件隨機場通過定義全局特征函數來直接建模給定輸入序列條件下的輸出標注序列的條件概率。給定輸入序列X = {x,x,...,x } 和對應的輸出標注序列Y = {y,y,...,y } ,在條件概率P (Y|X )上,通過特征函數fk = { y ,y,x, }來描述標注之間以及標注和輸入之間的相互關系,并通過特征函數的權重λ 進行參數化,通過前向后向算法等動態規劃算法高效地進行訓練和推斷。
1.3 雙向長短期記憶網絡BiLSTMLSTM
(Long Short-Term Memory) 是一種循環神經網絡(RNN) 的變種。RNN在處理序列數據時表現出顯著效果,能夠挖掘時序信息和語義信息。對于中文文本序列而言,RNN可以結合上下文信息進行模型訓練,而不僅僅是單個詞語的標簽訓練。通過引入三個門控機制來實現長期記憶和遺忘,包括遺忘門(forgetgate) 、輸入門(input gate) 和輸出門(output gate) 。這些門控制著信息的流動,允許網絡選擇性地記住或忘記輸入數據中的信息。
雙向長短期記憶網絡(Bidirectional Long Short-Term Memory, BiLSTM) 是一種常用于序列建模的深度學習模型,它結合了正向和反向兩個方向的信息來捕捉序列數據中的上下文信息。BiLSTM通過在輸入序列的兩個方向上分別運行兩個獨立的LSTM網絡來實現這一目的。具體來說,BiLSTM的輸入序列首先通過一個正向LSTM 網絡進行處理,然后通過一個反向LSTM網絡進行處理。正向LSTM按照輸入序列的順序逐步讀取數據,而反向LSTM則按照相反的順序讀取數據。每個LSTM網絡都包含一個記憶單元和三個門(遺忘門、輸入門和輸出門),用于捕捉序列中的長期依賴關系。 雙向長短期記憶網絡模型結構,如圖3所示。
1.4 序列標注模型BiLSTM-CRF
雖然通過BiLSTM模型可以獲取每個字的向量表示并得到各個實體類別的分數,然后選擇分數最高的類別作為命名實體識別的預測結果,但這種方法在實際應用中的效果并不十分準確。為了提高準確性,文本結合了BiLSTM和CRF的神經網絡方法,在這種方法中,仍然使用BiLSTM模型來提取訓練集的特征,但在最后的輸出層使用CRF來替代簡單的Softmax函數進行分策。CRF模型中的轉移特征考慮了輸出標注之間的關聯性和合理性,從而提高了命名實體識別的準確性。
2 實驗與分析
任務的輸入是一組臨床病歷電子文檔,記錄了病人在醫院診斷治療的全過程。任務的輸出要求提供文檔中與醫學相關的命名實體的字符串邊界,以及每個實體對應的類別。共定義了5 類命名實體:“SYMPTOM”“CHECK”“TREATMENT”“DISEASE”“BODY”。數據為CCKS2017中Task2提供的電子病歷,包含患者的信息體征、體查、治療等非結構化信息。
數據集包含100份患者病史,將1~80份當作訓練集、81~100當作測試集合,模型結合“詞粒度”與“字粒度”,兩種維度進行訓練。使用序列標注模型BiLSTM-CRF進行電子病歷的實體提取同時對比CRF 模型,分別進行以單字符和詞組的訓練進行對比以模型的精確率、召回率、F1分數評價模型效果。
表3為BiLSTM-CRF模型字粒度結果,在字粒度模型上,疾病和診斷類型的精確率最高為0.95,檢查和檢驗的精確率最低為0.52,召回率最高的為疾病和診斷為0.96,召回率最低的為檢查和檢驗為0.51,F1分數最高的為身體部位為0.94,最低的為檢查和檢驗為0.51。
表4為BiLSTM-CRF模型詞粒度結果,在詞粒度模型上,疾病和診斷類型的精確率最高為0.95,檢查和檢驗的精確率最低為0.38,召回率最高的為身體部位為0.94,召回率最低的為檢查和檢驗為0.62,F1分數最高的為身體部位為0.93,最低的為檢查和檢驗為0.47,對比字粒度模型,檢查和檢驗的召回率有著明顯的提升。
表5為CFR、BiLSTM-CRF在不同粒度上面的對比。
從表5可以得出,BiLSTM-CRF在詞模型和字模型上面均優于CRF模型。文本使用的BiLSTM-CRF模型在捕捉序列特征和建模標簽依賴關系方面表現出色,能夠有效提高命名實體識別的準確性
3結束語
在這項工作中,本研究本文結合了雙向長短期記憶網絡和條件隨機場的混合模型對電子病歷中的命名實體識別進行了研究與應用。實驗結果表明,模型在捕捉序列特征和建模標簽依賴關系方面表現出色,能夠有效提高命名實體識別的準確性。通過CCKS2017任務二的數據集進行測試,模型在五類命名實體(身體部位、癥狀體征、檢查檢驗、疾病診斷和治療)的識別中取得了良好的效果。
本文為電子病歷的命名實體識別提供了一種有效的方法,為醫療信息的自動化處理和分析奠定了基礎,具有重要的實際應用價值。未來的工作可以進一步優化模型結構,結合更多的上下文信息和外部知識,以進一步提升識別性能。