結合自注意力的BiLSTM-CRF的電子病歷命名實體識別

2021-03-16 13:55:02曾青霞熊旺平杜建強郭榮傳

計算機應用與軟件 2021年3期

關鍵詞：模型

曾青霞熊旺平杜建強聶斌郭榮傳

1(江西中醫藥大學岐黃國醫書院江西南昌 330004)

2(江西中醫藥大學計算機學院江西南昌 330004)

0 引言

命名實體識別(Named Entity Recongition，NER)是自然語言處理(Natural Language Processing，NLP)任務中的重要步驟之一，其主要目的是識別給定文本中的命名實體。NER還可用于處理很多下游NLP任務，例如關系提取、事件提取和問題問答。電子病歷是醫生對病人的個人信息、病因、病機等就診過程中產生的信息的記錄，包含大量的醫療就診信息以及患者的個人信息[1]。有關電子病歷中的命名實體主要有檢查、體征、治療和疾病等醫學專有名詞及相關的修飾詞。例如某份病歷中的“主因咳嗽、少痰1個月、抽搐1次，肺炎”，其中：“咳嗽”“少痰”“抽搐”為體征，“肺炎”為疾病[2]。電子病歷命名實體識別就是對這類詞語進行識別。

電子病歷文本的命名實體識別研究不同于通用領域的命名實體識別研究，兩者文本存在著較大的差異。通用領域的文本語料有著嚴格的書寫規范和嚴謹的命名方式，而電子病歷實體種類繁多，長短不一，書寫不規范，且不斷有新詞出現[3]。具體表現如下：1) 部分句子語法成分不完整(如“多于活動中起病”“雙側瞳孔等大同圓”)，這種情況需要結合整句文本來推測出當前的缺失部分。2) 包含大量的專業性術語和習慣用語(如“腦栓塞”“病理反射”“伴”“尚可”)。3) 包含嵌套實體，即多個實體嵌套在一起，一個實體實例化另外一個實體(如“腦萎縮”“右側共濟運動查體差”)。4) 較長句子中的相隔較遠位置的實體存在依賴關系(如“無惡心、嘔吐、伴腰痛、伴雙下肢乏力”，其中：“惡心”屬于癥狀，和癥狀“嘔吐”位置距離較近，可以影響“嘔吐”的標記判斷，但是和“嘔吐”相隔距離較遠的癥狀“乏力”則沒有受影響，而只能受到身體部位“雙下肢”的影響，同時“雙下肢”只能影響到“乏力”的標記判斷，而不能影響到其他癥狀的標記判斷)。

近年來，通用領域的命名實體識別研究方法被陸續提出，主要包括淺層機器學習和深層神經網絡方法。淺層機器學習主要包括隱馬爾可夫模型[4]、支持向量機和條件隨機場(Conditional Random Field,CRF)[5]等。以上方法需要通過人工的方式提取有效的語法特征，然后設定特征模板進行實體識別，因此特征模板的選擇直接影響實體識別的結果。許源等[6]將CRF與RUTA規則結合，通過調整規則來提高CRF在命名實體識別中的性能；邱泉清等[7]在建立知識庫、選取合適的特征模板的基礎上，采用CRF進行命名實體識別并取得了良好的效果。有關使用深度神經網絡進行NER的研究中，張海楠等[8]采用深度學習框架，通過在字向量中加入詞特征，在一定程度上緩解了分詞錯誤和出現未登錄詞所帶來的影響，通過引入詞性信息來提高實體識別的準確率；為了獲取更多的上下文語義信息，Li等[9]使用雙向長短期記憶網絡(Bi-directional LSTM，BiLSTM)，分別將文本編碼并從正向和反向的兩個方向作為輸入，進行連接操作后送入中間層，該方法在通用領域數據集上取得了良好的效果；李麗雙等[10]利用卷積神經網絡得到字向量和詞向量，將兩者結合作為BiLSTM模型的輸入，并在生物語料上達到了目前最好的效果。盡管這些方法在NER任務上取得了較大的進步，但還是無法適應電子病歷的命名實體識別。在預測實體類型時，以上大多數模型難以處理長距離依賴關系，尤其對于長文本，其丟失的關鍵信息就越多。雖然BiLSTM在一定程度上可以緩解長距離依賴的問題，但是不能將任意兩個字符進行連接，從而獲取全局信息。因此，如何更好地捕獲整個句子的全局依賴性是提高命名實體識別準確率的關鍵所在。

為了更好地獲取實體之間的長距離依賴關系，本文提出了一種結合自注意力的BiLSTM+CRF的方法(SelfAtt-BiLSTM-CRF)，通過在原有的模型基礎上引入自注意力機制，捕捉整個句子的全局依賴性并學習句子的內部結構特征。在CCKS2018的電子病歷數據集和CoNLL2003數據集上評估模型。實驗結果表明，在不考慮使用特征模板的條件下，本文模型優于現有的深度神經網絡模型，準確率分別為91.01%和89.2%。

1 模型設計

1.1 整體框架

圖1為本文的SelfAtt-BiLSTM-CRF模型框架。本文模型總共由四部分組成，分別為Embedding模塊、BiLSTM模塊、SelfAttention模塊和CRF模塊。首先采用預訓練好的字向量作為Embedding輸入；然后經過BiLSTM進行編碼，將編碼完的結果拼接送入到Self-Attention層獲取任意詞的長程依賴關系；最后使用CRF模塊進行解碼，將隱含層的輸出解碼成出現概率最大的標記序列。

1.2 Embedding模塊

Embedding模塊主要是負責將輸入窗口的字進行字向量映射，也就是將離散字符映射到分布式表示中。首先將已標注好的語料進行簡單的預處理(去除多余的字符)，然后采用Word2vec模型預訓練好詞向量，即嵌入矩陣。建立字典，即語料的詞匯表，且字典中的每個字都能通過嵌入矩陣表示成一個固定長度為d的一維向量。對于電子病歷數據集給定的句子x={c1,c2,…,cn},通過在預訓練好的嵌入矩陣中查找每個字ci對應的字向量，將給定的句子逐字映射并進行縱向拼接，形成一個n×d的向量矩陣，作為模型的輸入。

1.3 BiLSTM模塊

長短期記憶網絡(Long Short-Term Memory,LSTM)[11]是一種時間循環神經網絡(Recurrent Neural Network,RNN)，是為了解決一般的RNN存在的長期依賴問題而專門設計出來的，其通過引入門結構和存儲單元來解決RNN中的梯度消失和梯度爆炸問題。LSTM網絡的主要結構可以表示為：

(1)

式中：σ是激活函數sigmoid；?是點乘運算；tanh是正切激活函數；it、ft、ot分別表示在t時刻的輸入門、遺忘門、輸出門；ct表示t時刻的細胞狀態；ht表示t時刻的隱藏狀態。

為了能夠有效利用上下文信息，采用雙向LSTM結構，對每條文本分別采用正向和反向輸入，通過計算得到兩個不同的中間層表示，然后將兩個向量進行拼接并作為隱含層的輸出：

(2)

1.4 Self-attention模塊

Attention機制就是把注意力放在所關注的點上，忽略其他不那么相關的因素，最初起源于圖像領域。2014年,Mnih等[12]將Attention機制用于循環神經網絡模型進行圖像分類任務。隨后，Bahdanau等[13]將其用于機器翻譯任務上并取得了較為顯著的效果，這也是第一個將注意力機制應用到自然語言處理領域中的例子。2017年，Vaswani等[14]使用了Self-attention機制來學習文本表示，Self-attention機制可以用來學習句子中任意兩個字符之間的依賴關系并捕捉內部結構信息，其計算過程如下：

假設BiLSTM的輸出為H={h1,h2,…，hn}。對應的scaled dot attention可以描述為：

(3)

式中：Q、K和V分別是查詢矩陣、鍵矩陣和值矩陣；d為H的維度；Q=K=V=H。

Multi-head attention是在Self-attention的基礎上加以完善的。它擴展了模型專注于不同位置的能力，給出了自注意力層的多個“表示子空間”。在“多頭”注意力機制下，為每個頭保持獨立的查詢、鍵、值權重矩陣，從而產生不同的查詢、鍵、值矩陣。然后將多個頭并行執行scaled dot attention，最后將這些attention的結果拼接起來，得到一個融合所有注意力頭信息的矩陣。Multi-head attention描述如下：

(4)

1.5 CRF模塊

CRF能夠通過考慮標簽之間的依賴關系獲得全局最優的標記序列。給定一個預測序列y={y1,y2,…，yn},CRF標記過程可形式化如下：

(5)

式中：Ws和bs是可訓練的參數；Oi,yi表示第i個單詞標記為yi個標簽的概率，矩陣T是轉移矩陣，例如Tij表示由標簽i轉移到標簽j的概率。在原語句S的條件下產生標記序列y的概率為：

(6)

在訓練過程中標記序列的似然函數為：

(7)

式中：Yx表示所有可能的標記集合，包括不符合BIOES規則的標記序列。預測時，由式(8)輸出整體概率最大的一組序列。

(8)

2 實驗

為了驗證本文模型的有效性和泛化性，分別選用了CCKS2018的電子病歷純文本文檔和CoNLL2003語料進行實驗。所有實驗都在采用相同的預訓練詞向量和參數水平的基礎上進行。

2.1 實驗數據

CCKS2018的電子病歷和CoNLL2003語料詳細信息如表1所示。

表1 語料信息

CCKS2018電子病歷語料中的目標序列集合包括：非實體部分、治療方式、身體部位、疾病癥狀、醫學檢查、疾病實體。CoNLL2003語料中的目標序列集合包括LOC(地名)、ORG(組織)、PER(人民)、MISC(其他)。為了更清楚地標注出待識別的命名實體，上述兩個數據集都是采用了BIO三元標記實體，其中：B代表實體的開頭；I代表實體除中間部分；O代表其他，即非實體部分。

2.2 實驗結果分析

本文模型在CCK2018電子病歷語料上的命名實體識別的結果如表2所示，下面通過對比實驗結果來分析各個模塊在模型中起到的作用。

表2 CCKS2018語料模型結果

1) BiLSTM模塊。為說明該模塊的有效性，實驗對比了LSTM和BiLSTM兩個模塊的實驗結果。實驗結果顯示，BiLSTM模型在電子病歷語料上訓練集和測試集的準確率分別為0.941 3和0.820 9,比LSTM模型在訓練集和測試集上的準確率分別高出了1.87和0.33個百分點。無論是在訓練集還是在測試集上的準確率BiLSTM模型都要優于LSTM，主要因為BiLSTM相對于LSTM更加充分地運用了上下文信息。

2) CRF模塊。為證明該模塊的有效性，實驗對比了雙向長短記憶網絡模塊以及在該模塊的基礎上添加CRF模塊的兩組實驗結果。結果顯示，BiLSTM-CRF模型在電子病歷語料上的訓練集和測試集的準確率分別為0.964 9和0.845 1,比BiLSTM模型在訓練集和測試集上的準確率分別高出了2.36和2.42個百分點。BiLSTM-CRF無論是在訓練集還是在測試集上的準確率都要優于BiLSTM,主要是因為CRF充分考慮到各個標簽屬性之間的關系，對隱含層的輸出進行解碼后，通過動態規劃的思想獲得全局最優輸出序列標簽，提高了實體識別的性能。

3) Self-attention模塊。為了驗證Self-attention模塊的有效性，進行了SelfAtt-BiLSTM-CRF和BiLSTM-CRF的對比實驗。結果顯示，SelfAtt-BiLSTM-CRF模型在電子病歷語料上的訓練集和測試集的準確率分別為0.983 5和0.910 1,比BiLSTM-CRF模型在訓練集和測試集上的準確率分別高出了1.86和6.50個百分點。主要是因為Self-attention能夠捉整個句子的全局依賴性并學習句子的內部結構特征，而測試集準確率提高的幅度大于訓練集是因為訓練集準確率的基數已經很高了。

為驗證本文模型的泛化能力，表3給出了在CoNLL2003語料上的對比實驗結果。

表3 CoNLL2003語料模型結果

可以看出，本文模型在CoNLL2003語料上的訓練集和測試集的準確率分別為0.915 7和0.904 7,比BiLSTM-CRF模型在訓練集和測試集上的準確率分別高出了0.25和1.11個百分點。由表3可得：(1) 本文模型確實具有泛化能力，在其他數據集上也具有良好的表現。(2) 模型在CoNLL2003語料上訓練集和測試集的準確率均得到提高，證明在公共數據集上，引入自注意力機制的模型確實優于基線模型BiLSTM-CRF，且在準確率較低的情況下，準確率提高的幅度會更大。

3 結語

本文針對電子病歷命名實體識別任務，提出了結合自注意力機制的BiLSTM-CRF的網絡模型，通過引入自注意力機制彌補BiLSTM-CRF模型不能獲取兩個實體之間的長距離依賴關系的缺陷；采用獲取上下文信息的雙向LSTM作為神經網絡隱含層，在一定程度上緩解了長文本輸入的依賴問題以及梯度爆炸問題；為了獲取更加準確的識別結果，通過CRF對SelfAtt-BiLSTM網絡的輸出進行解碼，獲得最優標記序列。通過在CCKS2018的電子病歷純文本文檔和CoNLL2003語料上進行實驗比較，證明了本文提出的引入自注意力機制的模型性能優于現有的模型。