999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向中文病歷的實體關系抽取模型研究

2025-05-01 00:00:00單濤許鑫王園夢王宇翱景慎旗葉繼元郭永安
現代情報 2025年5期
關鍵詞:模型

摘 要: [目的/ 意義] 關系抽取是電子病歷處理的核心組成部分, 對于提高電子病歷處理的準確性和效率至關重要。為解決中文電子病歷關系抽取中實體冗余、實體詞嵌套和實體重疊問題, 提高醫療信息抽取效率, 提出了一種新型的中文病歷關系抽取模型。[方法/ 過程] 將關系抽取任務分解為關系優先解碼器、全局實體提取和主體—客體對齊三部分。首先通過解碼器預測和過濾關系, 并基于預測的關系限制實體提取; 其次采用關系特定的注意機制和全局指針網絡, 有效處理信息重疊和主體/ 客體嵌套問題; 最后引入實體對應矩陣將主體、客體及其關系對齊為三元組。[結果/ 結論] 分別在CMeIE 中文病歷數據集和DiaKG 真實糖尿病中文數據集上進行綜合實驗并與6 種常用模型進行了對比分析, 發現本文模型在數據集CMeIE 和DiaKG 上的F1 值較主流模型CasRel分別提升了6. 6%和5. 8%。研究結果表明, 本文模型可有效解決中文病歷復雜性帶來的實體嵌套和實體重疊問題, 對醫療信息提取和數據處理流程具有良好價值。

關鍵詞: 關系抽取; 中文病例; 電子病例; 實體嵌套; 實體重疊; 注意力機制; 全局指針; 糖尿病

DOI:10.3969 / j.issn.1008-0821.2025.05.004

〔中圖分類號〕G203 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2025) 05-0024-10

在國家大力推進醫療信息化建設的過程中, 電子病歷系統在其中發揮著重要作用, 其涵蓋了患者的診斷、治療過程、檢查結果、醫生建議、手術記錄以及護理信息等信息, 為智能醫療、智能醫學診斷和醫學咨詢等應用提供了重要支持[1] 。電子病歷中的文本數據是構建醫學知識圖譜的基礎資源, 為相關臨床應用提供支撐服務[2-3] 。實體關系抽取可以識別電子病歷中具有獨立概念的醫學實體之間的關系, 進而將大量的非結構化數據[4] 轉為結構化的醫學知識, 如何從文本中提取醫學實體及其之間的關系是學術界廣泛關注的重點[5-7] 。

中文電子病歷實體關系抽取是病情信息提取和構建醫學知識組織的關鍵環節, 指在非結構化的醫學文本中抽取患者病情信息、臨床癥狀、用藥情況等相關實體之間的潛在關系, 但用于開放領域的自然語言處理技術[8] 應用于中文電子病歷文本上的效果不佳。一方面, 中文病歷中包括了大量的醫學術語和特殊符號, 病歷描述中縮略語較多且病歷書寫者的書寫習慣不同, 使得其較一般文本更具有復雜性和多樣性[9] ; 另一方面, 大多數醫學術語來源于英文術語翻譯, 目前對中文電子病歷的標注較為缺乏, 導致各類中文醫療實體結構嵌套、邊界模糊。這些問題導致面向中文電子病歷關系抽取的難度遠大于一般領域的文本關系實體抽取, 尤其是對電子病例中上下文實體之間的語義關系準確識別與分類,從中提取實體和關系更具挑戰性[10] , 亟需面向中文電子病歷關系抽取開展研究。

基于此, 本文提出了一種專用于中文電子病歷的關系抽取模型。首先使用關系優先解碼器濾除不相關關系, 利用相關關系來提取實體, 實現更低的計算復雜度和更好的性能; 然后將關系特定的注意力機制與全局指針網絡相結合, 高效提取重疊實體和嵌套實體; 最后使用關系獨立的實體對應矩陣來高效地找到正確的實體對。該模型不僅可以提升中文電子病歷實體關系提取的效果, 挖掘各類實體關系,同時對中文電子病歷語料庫的智能化構建、推動電子醫療知識庫的智慧化發展具有良好的實踐意義。

1 相關研究

中文電子病歷中充滿了專業術語、醫學知識和復雜的關系結構, 其關系提取任務不僅需要考慮實體之間的關聯, 還需要理解醫學術語的上下文語境,以準確捕捉醫療實體之間的關系, 是醫學領域自然語言處理的關鍵挑戰之一[11] 。中文電子病歷中具有大量關于醫療實體及其關系的描述, 在同一段文本中可能會包含多個相同實體的關系三元組。如在文本“2 型糖尿病患者胰島β 細胞功能隨病程進展逐漸惡化, 為取得血糖最佳控制, 大部分2 型糖尿病患者似乎最終均需胰島素治療” 中包含4 個關系三元組{2 型糖尿病, 病例分型, 糖尿病}、{胰島素β 細胞功能惡化, 癥狀, 2 型糖尿病}、{血糖,檢查, 2 型糖尿病}、{胰島素, 藥物治療, 2 型糖尿病}, 這4 個三元組擁有同一個實體: “2 型糖尿病” 這種多個三元組包含相同實體的情況稱為實體重疊[12-13] 。而在{2 型糖尿病, 病例分型, 糖尿病}中“2 型糖尿病” 和“糖尿病” 都包含“糖尿病”實體, 這種情況稱為實體嵌套[14-15] 。

傳統的關系提取方法通常基于手工設計的特征來進行[16-17] , 但依賴人工進行特征工程。近年來的方法主要傾向于使用神經網絡, 大致可分為表填充方法[18-20] 、標記方法[21-24] 和Seq2Seq[25-27] 方法。這些方法一定程度上解決了實體重疊的問題, 但應用于中文電子病歷上卻存在局限性。仲雨樂等[28]提出了一種基于異構圖注意力網絡的藥物不良反應實體關系聯合抽取模型, 通過異構圖注意力網絡融合字符與關系節點語義, 在節點表示更新后抽取藥物不良反應實體關系, 可有效解決藥物不良反應實體關系重疊問題, 但該模型局限于藥物不良反應實體關系抽取而不能泛化至中文電子病歷文本。韓普等[29] 在深度學習模型BiLSTM-CRF 基礎上, 引入語言模型BERT 和迭代膨脹卷積神經網絡, 并引入自注意力機制捕獲全局上下文重要信息, 顯著提高了糖尿病醫學實體抽取的性能。Zeng X 等[30] 提出了復制機制生成實體關系的三元組, 雖然緩解了實體間關系重疊的問題, 但僅考慮了實體間的單一關系, 忽略了多種關系的重疊。Wei Z 等[31] 基于BERT模型提出了二進制標注框架, 但在關系抽取時忽略了實體間上下文聯系導致結構特征丟失, 無法穩定實現實體識別。

實體嵌套識別是實體關系抽取研究中的一個關鍵問題, 但當前大多數研究[32-35] 都沒有考慮醫療文本領域中實體之間的嵌套存在著不同的類別限制。一些基于跨度提取實體的模型[36] 通過將關系映射到每個潛在實體對來進行關系分類會導致大量冗余和不正確的三元組[10] 。此外, 基于跨度的提取僅關注實體的起始和結束位置, 無法處理實體嵌套問題[6] 。衡紅軍等[37] 提出了一種融合語義和句法圖神經網絡的二元標記實體關系聯合抽取模型, 對語義信息和語法信息進行融合實現信息互補, 但模型的時間復雜度和空間復雜度較大。Wang Y 等[38] 提出的TPLinker 方法通過令牌到實體的鏈接方案來方便實體提取, 并根據給定的關系將主題實體與對象實體對齊。然而, TPLinker 仍存在冗余的關系判斷, 同時其主客體對齊過程過于復雜, 限制了關系提取的效率。Bai T 等[39] 設計了面向中醫藥文本的關系抽取模型, 基于卷積神經網絡與片段注意力機制提取文本的局部語義特征并對關系分類, 但該模型依賴大量的標注數據, 迭代訓練成本較高。

總體而言, 中文電子病歷需要處理復雜的實體結構和關系, 需要進一步研究更高效、準確的關系抽取模型處理實體重疊和實體嵌套問題, 以提高關系抽取的性能和魯棒性。與現有研究不同, 本文采用了特定關系注意力機制和全局指針網絡, 以有效處理實體的重疊和嵌套情況, 同時提出了上下文關系觸發的實體對齊機制, 以更有效地生成關系三元組, 從而有效提升中文電子病歷中的關系抽取效果。

2 面向中文醫學電子病歷的關系抽取模型

2. 1 模型構建

本文構建了針對中文醫療電子病歷的關系抽取模型, 架構如圖1 所示, 主要由詞嵌入編碼器模塊、關系優先級解碼器模塊、全局實體提取模塊和主客體對齊模塊組成。首先利用文本中所有潛在關系,先完成關系預測, 減少多種關系的搜索空間, 提高關系對應效率; 其次利用特定關系注意力機制, 表示文本句子信息, 從而得到更多的實體關系信息,然后結合全局指針網絡, 識別并提取醫療實體; 最后采用實體對應矩陣來實現實體—客體的對齊, 通過計算所有潛在主體和客體之間的對應分數, 高效并準確地找出正確的三元組。

對于關系三重提取任務, 輸入是一個句子X =(x1,x2,…,xn ), 它包含句子的n 個標記和一個特殊的[CLS]標記xcls 。設R 為預定義關系類型的集合。本文提出的模型用于確定所有可能的三元組T(X)= (ei ,rij ,ej ), 其中ei 、ej 分別是表示主體和客體的標記序列, 而rij ∈R 是ei 和ej 之間的關系。整個過程被分解為3 個步驟:

1) 與以往對每個關系冗余地執行實體提取不同, 首先預測句子中候選關系的子集, 然后根據這些目標關系提取實體。該模塊首先預測與非自回歸解碼器的潛在關系, 然后使用二元分類器排除不相關的關系。對于給定的句子S, 此任務的輸出是Yr(S)= {r1,…,rm | ri ∈R}, 其中m 是潛在關系子集的大小。

2) 對于給定的句子S 和預測的潛在關系ri , 使用特定關系注意力機制衡量每個字符對特定關系的重要性, 得到特定關系下的句子表示Sr , 然后利用全局指針生成網絡將句子表示中的實體首尾視為一個整體去進行判別, 得到實體對表示。對于句子表示Sr , 此任務的輸出是Yr(Sr )= {(e1,e2 ),…,(ei ,ej )}, 其中(e1,e2)、(ei ,ej )是潛在的實體對。

3) 對于給定的句子, 計算預測主體和客體的起始標記之間的對應分數, 這意味著只有真正三元組的起始得分較高。設M 表示全局對應矩陣。此任務的輸出為Ys(S)= M∈Rn×n 。

2. 2 詞嵌入編碼器模塊

預訓練模型BERT[40] 在命名實體識別、關系抽取中都呈現出了很好的效果, 但主要適用于英文文本。本文基于BERT-base-Chinese 預訓練語言模型構建了詞嵌入編碼器模塊, 專用于在中文醫學電子病歷文本中提取文本特征信息, 并將提取到的文本特征信息輸入到解碼模塊中進行解碼。由于關系抽取任務的輸入不是句子對而是單個句子, 所以在BERT-base-Chinese 中只使用句子的字符嵌入和位置嵌入作為輸入向量, 沒有使用句子分割嵌入。本文提出的模型可以很容易地通過迭代來處理帶有多個句子的電子病歷。本文使用多級Transformer 編碼結構, 從輸入向量中來獲取句子的深層語義表示,Transformer 模塊表示為Trans(x), 其中x 表示輸入向量。編碼后的句子狀態向量可表示為h0, 計算方式如式(1)、(2) 所示:

h0 =SWs +wp (1)

hα =Trans(hα-1), α∈(1,N) (2)

其中, S 是輸入句子的one-hot 向量的矩陣, 其代表著句子注意力掩碼; Ws 是字符嵌入矩陣, wp是位置嵌入矩陣, hα 表示隱藏層的狀態向量, 采用BERT-base-Chinese 的最后一層隱藏層的狀態向量表示, 作為句子的最終語義表示。

2. 3 關系優先級解碼器模塊

傳統關系抽取往往是先識別實體對再進行關系分類, 由于沒有任何關系信息介入導致很多抽取出大量多余的不匹配實體。為了解決實體冗余問題,本文設計了關系優先解碼模塊, 先根據句子的語義表示信息預測出句子中的目標潛在關系集合, 將關系信息融入到句子中再提取相關醫療實體, 可顯著減少冗余實體數量。如圖1 所示, 關系優先級解碼器模塊中黃色虛線區域是關系優先級解碼器模塊的整體結構。其中{p1,p2,…,pn }是所有潛在關系集合,使用非自回歸解碼器對潛在關系進行預測, 并使用二元分類器來消除不相關的關系, 獲取目標關系。

本文采用基于Transformer 的非自回歸解碼器預測潛在關系, 解碼器的輸入由nq 的可學習嵌入Q∈Rnq×d初始化, 其中nq 設置為句子中的最大關系數。給定具有n 個標記的句子嵌入hα∈Rnq×d , 給定輸出嵌入Hr∈Rnq×d , 預測的關系由式(3)、(4) 獲得:

Havgα =Avgpool(hα ) (3)

pi =Softmax(Wr havgr +br ) (4)

其中, Avgpool 是平均池化操作, Wr ∈R|R |×d ,br∈R|R | 是可學習的參數并且R 是關系類型的總數。{r1,r2,…,rn }是獲取的目標潛在關系集合。

本文模型過濾掉了不相關的潛在關系, 更高效地生成了候選關系集合。根據非自回歸解碼器的輸出表示矩陣Hr 和[CLS]的嵌入, 使用二元分類器來預測布爾掩碼向量M, 以指導候選關系集的篩選如式(5) 所示:

M =σ(Ws [Hr ;xcls ]+bs ) (5)

其中Ws 是可訓練權重, bs 是偏差, σ 是sig?moid 激活函數。激活函數得到的值越高代表關系在句子中被包含的置信度就越高。本文將其建模為多標簽二元分類任務, 如果概率超過閾值λ1, 則將為相應的關系分配標簽1, 否則將分配標簽0。在此步驟中, 過濾掉每個句子中無用的關系, 并預測一個子集Rn ={r1,r2,…,rn }∈R 來丟棄大多數負樣本。

2. 4 全局實體提取模塊

本文模型的核心是全局實體提取模塊, 結合了關系特定注意力機制和全局指針網絡來分別解決實體重疊和實體嵌套問題。該模塊中的關系特定注意力機制首先篩選出每條數據中可能存在的關系, 然后依次根據每個關系對該數據進行注意力計算, 得到包含關系語義的句子, 避免了實體重疊帶來的影響。特定關系注意力機制根據不同的關系和上下文信息給每個漢字分配不同的權重。計算公式如式(6)、(7) 所示:

其中rk 是第k 個關系的可訓練嵌入, 其中V,Wr ,Wα ,Wx∈R|R |×d是可訓練參數。hα 代表句子的全局表示。得到的注意力分數不僅可以衡量每個漢字與特定關系之間的重要性, 還可以衡量每個漢字與整個句子的關聯性。最后, 使用醫療句子中的每個漢字的加權和與特定關系類型rk 來計算句子表示sk , 如式(8) 所示:

圖2 是本模型使用全局指針網絡的一個示例,可以發現當需要在一條醫療句子中識別出4 個醫療實體: {疾病: 糖尿病}、{疾病: 2 型糖尿病}、{檢查: 血糖}、{藥物: 胰島素}時, 由于雙指針無法解決實體嵌套問題, 很容易將句中實體識別為3 個實體: {疾病: 2 型糖尿病}、{檢查: 血糖}、{藥物: 胰島素}。

本文模型采用了基于全局指針網絡的解碼方式來解決實體嵌套問題, 將實體首尾作為一個整體進行識別, 而不是先識別頭實體再識別尾實體。根據實體不同屬性, 生成不同屬性的矩陣。矩陣中位置為1 的代表該位置有實體, 矩陣中行代表實體開始位置, 矩陣列為實體結束位置, 全局指針網絡通過提取和分類兩個步驟實現實體識別, 提取是指提取實體跨度, 而分類是指確定每個實體的類型。為了簡單起見, 本文采用單一實體類型識別策略, 并迭代處理多個實體類型。采用點積注意力機制和相對位置編碼(RoPE)來生成圖2 所示的評分矩陣。引入RoPE 相對位置可以提高對實體長度和跨度的敏感性, 從而更好地區分嵌套實體。具體來說, 設句子表示長度為n, 實體屬性集合為E = {疾病、藥物、測試、癥狀…}。假設特定關系類型的句子向量序列為{s1,s2,…,sn }, 則解碼向量qi,α和ki,α表達式如式(9)、(10) 所示:

qi,α =Wq αhi +bq α (9)

ki,α =Wk αhi +bk α (10)

其中i 表示為經過線性變換后句子中第i 個詞位置, α 表示為屬性集合中第α 種屬性, bq α 和bk α 是可訓練的參數。由上可以得到兩個解碼向量qα =[q1,α ,q2,α ,…,qn,α ]和kα =[k1,α ,k2,α ,…,kn,α ],最后采用雙線性變換法(Bilinear)對第α 個矩陣中第i 行j 列的位置進行打分, 如式(11) 所示:

sα(i,j)= qTiα kiα (11)

其中sα(i,j)表示為句子中以i 開始到j 結束的連續片段的實體的屬性是α 的分數, 如果這個分數大于1, 就說明提取出來的實體對是潛在的正確實體對。

2. 5 主客體對齊模塊

經過全局實體提取模塊處理后, 本文模型獲取了與句子關系有關的所有可能的主體和客體, 然后使用主客體對應模塊來進一步確定正確的實體對。主客體對應模塊可以將頭尾實體對齊, 以較低的復雜度組合成三元組。該模塊先識別出頭尾實體并放入置信度矩陣, 根據矩陣中頭尾實體的置信度進一步確定全局實體抽取模塊得到的實體對的正確性。因為模型中提出的全局對應矩陣與實體關系無關,可以與潛在的關系優先級解碼器模塊中的關系預測任務同時學習。首先枚舉所有可能的主客體實體對;然后在全局矩陣中檢查每個實體對的相應分數, 如果值超過某個閾值λ2 則保留, 否則將其過濾掉。

如圖1 中的綠色矩陣M 所示, 給定一個帶有n個標記的句子, 全局對應矩陣的形狀將為n×n。該矩陣中的每個條目都是關于成對的主體和客體的起始位置, 它代表了主客體對的置信水平, 計算的值越高, 則表示該主客體對屬于一組三元組的置信水平就越高。例如, 如果第1 行第1 列中有關“糖尿病” 和“二型糖尿病” 的值很高, 說明它們位于正確的三元組中, 屬于{2 型糖尿病, 病例分型,糖尿病}。矩陣中每個元素的值由式(12) 獲得:

Pisub,jobj =σ(Wg [hsubi ;hobjj ]+bg ) (12)

其中hsubi ,hobjj ∈Rd×l是輸入句子中第i 個標記和第j 個標記的編碼代表, 形成一對潛在的主體和客體。Wg∈R2d×l 是可訓練的權重, σ 是sigmoid 激活函數。

3 實驗流程與結果分析

3. 1 數據標注與保存

對醫療文本, 包括診斷信息、出院小結—入院時情況、出院小結—住院經過、醫囑、醫療文獻等進行標注, 在注釋階段, 每個醫療文本都由3~5 名領域專家進行注釋, 并采用獲得多數票的注釋。

關系提取是指對主體和客體之間關系的識別,涉及實體標注和實體之間關系標注。實體類型主要包括: 疾病、其他治療、手術治療、檢查、流行病學、癥狀、社會學、藥物、部位、預后、其他, 共計11 種實體。設定疾病實體為主體, 其余實體為客體, 對兩兩間的關系進行標注, 共計44 種關系,如圖3 所示。

為了方便模型訓練, 將標注文本以JSON 格式保存。以句子為單位進行分割, 為每個句子建立1個或多個三元組。三元組由主體及其實體類型、客體及其實體類型、主客體間的關系組成。每個句子的JSON 保存形式如圖4 所示。

3. 2 實驗設計與分析

為驗證本文方法的先進性, 選取6 個用于實體關系抽取的基準模型與本文模型進行對比:

1) ETL-Span 通過區分所有的頭實體, 利用片段標記來識別對應的尾實體和關系[18] 。

2) RSAN 采用基于關系的注意網絡, 采用了關系感知的注意機制, 隨后進行序列標記, 相應地提取頭實體和尾實體[20] 。

3) CasRel 是將句子中的關系建模為將主語映射到賓語的函數[21] 。

4) TPLinker 是一種單階段的聯合實體抽取模型, 將聯合抽取制定為一個鏈接標記對的問題, 引入了新的握手標記方案, 用于對實體對的邊界標記進行對齊, 以減輕曝光偏差[38] 。

5) PRGC 具有預指示潛在關系的組件, 然后應用關系特定的序列標記組合來處理主語和賓語之間的重疊概率[22] 。

6) OneRel 是一種新的聯合關系抽取模型, 引入了一個細粒度的三元組分類問題作為聯合抽取的轉換[19] 。

表1 展示了各個模型在數據集CMeIE 上的關系抽取效果, 由表1 可知, 本文模型在精確率P 值、召回率R 值和F1 值上均優于其他6 個模型。從F1值上來看, 本文模型比ETL-Span 高14. 3%, 比RSAN 高7. 6%, 比CasRel 高6. 6%, 比TPLinker 高5. 3%, 比PRGC 高5. 0%, 比OneRel 高4. 1%。

表2 展示了各個模型在數據集DiaKG 上的關系抽取效果, 由表2 可知, 本文模型在P 值、R 值、F1 值上均優于其他6 個模型。從F1 值上來看, 本文模型比ETL-Span 高10%, 比RSAN 高7."4%, 比CasRel 高5. 8%, 比TPLinker 高5. 2%, 比PRGC 高4. 2%, 比OneRel 高3. 6%。因此, 表1、表2 的數據均可證明, 本文的模型更適合中文醫療關系抽取。

為了全面評估本文模型解決實體重疊/ 嵌套問題能力, 本文根據實體特征將兩個數據集分成了特定的子集。本文模型和其他模型在兩個數據集上的F1 得分列在表3 中。

比較結果表明, 本文模型在處理Normal、SEO和EPO 方面表現出色, 表明模型能夠有效處理復雜句子中的復雜關系。從表3 的實驗結果中可以看出, 在CMeIE 數據集上, 本文模型在Normal、SEO和EPO 類型中分別取得了75. 1%、79. 6%和77. 6%的F1 得分。在DiaKG 數據集上, 本文模型在Nor?mal、SEO 和EPO 類型中分別取得了65. 2%、69. 2%和66. 6%的F1 得分, 均大于其他6 個模型。實驗再次證明本文模型在實體提取之前融入了關系注意力機制來整合關系信息, 并利用全局指針來提取實體, 這兩者都有助于有效處理復雜場景。具體而言,本文模型在解決SEO 問題方面表現最佳, 其次是EPO 和Normal。

為研究各功能模塊在本文模型中的貢獻度, 本文對CMeIE 和DiaKG 的兩個數據集進行了消融實驗, 結果如表4 所示。

首先, 從模型中移除了關系優先解碼器組件,并使用兩個數據集中的每個關系進行實體提取。結果顯示, 在CMeIE 數據集上, 本文模型的精確度下降了6%, 召回率下降了0. 7%, F1 得分下降了3%。在DiaKG 數據集上, 本文模型的精確度、召回率和F1 得分分別下降了4. 8%、1%和3%。這是由于在大型關系集數據集中, 使用單獨的關系預測實體會引入重復的實體和關系, 導致模型性能下降。該實驗證明了關系優先解碼器模塊在整體模型中的有效性, 提高了精確度。

其次, 通過移除關系特定的注意機制模塊, 不再構建特定關系的句子表示。相反, 直接使用關系嵌入來引導實體提取過程。結果顯示, 在CMeIE 數據集上, 本文模型的精確度下降了23. 7%, 召回率下降了1%, F1 得分下降了13."8%。在DiaKG 數據集上, 本文模型的精確度、召回率和F1 得分分別下降了20. 3%、0. 7%和11. 5%。這是因為關系嵌入僅學習三元組的淺層共現關系, 導致更多的三元組預測精確度較低。相比之下, 關系特定注意機制可以捕捉句子中的細粒度語義特征, 為后續模塊提供基于特定關系的全局指針, 增強實體提取性能。

第三, 通過移除全局指針模塊, 并采用雙指針方法使用指針標簽檢測實體的起始和結束位置時,結果顯示在CMeIE 數據集上, 本文模型的精確度下降了16. 2%, 召回率下降了2%, F1 得分下降了9. 6%。在DiaKG 數據集上, 本文模型的精確度、召回率和F1 得分分別下降了11.7%、3.4%和7.7%。這是因為基于指針的方法只關注實體的起始和結束位置, 對實體的長度和跨度不敏感。然而, 全局指針模塊考慮了每個實體的長度, 將起始和結束位置視為單個位置標簽。這種方法可以提高精確度, 并有效處理嵌套實體。

最后, 通過移除全局對應矩陣模塊, 使用啟發式的最近鄰原則將主語和賓語組合起來時, 結果顯示在CMeIE 數據集上, 本文模型的精確度下降了10. 2%, 召回率下降了1%, F1 得分下降了6%。在DiaKG 數據集上, 本文模型的精確度、召回率和F1得分分別下降了6. 7%、0. 9%和3. 8%。這是因為沒有了實體矩陣模塊, 模型預測了更多的三元組,由于許多不匹配的實體對影響了模型的性能, 失去了矩陣所施加的約束。

4 結束語

本文提出了一種面向中文病歷的關系抽取模型,解決了傳統抽取方法中實體冗余、實體詞嵌套和實體重疊問題, 顯著提高了中文醫學關系抽取的性能。該模型通過解碼器預測和關系過濾, 使用過濾后的實體關系限制實體提取, 通過關系特定的注意機制和全局指針網絡提取全局實體, 最后通過實體對應矩陣將主體、客體及其關系對齊為三元組。與基準方法相比, 本文提出的模型可有效解決中文病歷中信息重疊和主體/ 客體嵌套問題, 幫助醫療專業人員更有效地訪問和利用電子病歷中的關鍵信息, 從而提高診斷的準確性和治療的效率。后續研究將著眼于設計基于全局指針標記策略的低復雜度標記方法, 并探索將強化學習與解決重疊關系抽取任務相結合, 進一步增強對各類實體的標記效率, 進而提升關系抽取效率。

參考文獻

[1] 王晗, 馬捷, 易曾, 等. 面向特定病癥的中醫醫案語料庫構建———以睡眠障礙病癥為例[J]. 情報科學, 2024, 42 (2): 97-108.

[2] 韓普, 葉東宇, 陳文祺, 等. 面向多模態醫療健康數據的知識組織模式研究[J]. 現代情報, 2023, 43 (10): 27-34, 151.

[3] 李肖俊, 邵必林. 多源異構數據情境中學術知識圖譜模型構建研究[J]. 現代情報, 2020, 40 (6): 88-97.

[4] 琚沅紅, 牟冬梅, 王書童, 等. 少樣本高質量醫學知識的命名實體識別研究———以肺癌診療規范為例[J]. 現代情報, 2023,43 (2): 9-19.

[5] 李子昊, 陳漠沙, 馬鎮新, 等. 中文醫療因果關系抽取數據集CMedCausal [J]. 醫學信息學雜志, 2022, 8 (12): 23-27, 31.

[6] 汪詩蕊, 解博涵, 丁玲, 等. 知識與句法融合的因果關系抽取網絡[J]. 大數據, 2024, 10 (3): 82-92.

[7] Lin Y, Ji H, Huang F, et al. A Joint Neural Model for InformationExtraction with Global Features [C] / / Proceedings of the 58th An?nual Meeting of the Association for Computational Linguistics, 2020:7999-8009.

[8] Li Z, Fu L, Wang X, et al. RFBFN: A Relation-First BlankFilling Network for Joint Relational Triple Extraction [ C] / / Pro?ceedings of the 60th Annual Meeting of the Association for Computa?tional Linguistics: Student Research Workshop, 2022: 10-20.

[9] 李綱, 潘榮清, 毛進, 等. 整合BiLSTM-CRF 網絡和詞典資源的中文電子病歷實體識別[J]. 現代情報, 2020, 40 (4):3-12, 58.

[10 ] Diana S, Francisco M. Biomedical Relation Extraction withKnowledge Graph-based Recommendations [ J]. IEEE Journal ofBiomedical and Health Informatics, 2022, 26 (8): 4207-4217.

[11] 牟冬梅, 彭浩, 華樹成, 等. 電子病歷數據勢能模型研究[J].現代情報, 2023, 43 (5): 3-13, 22.

[12] 黃曉芳, 陳劍秋, 周祖宏, 等. 基于BERT 的電子病歷實體關系聯合抽取研究[J]. 醫學信息學雜志, 2023, 9 (2): 28-34.

[13] 董美, 常志軍. 一種面向中醫領域科技文獻的實體關系抽取方法[J]. 圖書情報工作, 2022, 66 (18): 105-113.

[14] 周佳倫, 李琳宇, 馬洪彬, 等. MRC-PBM: 一種中文電子病歷嵌套命名實體識別方法[ J]. 國外電子測量技術, 2024,43 (1): 159-165.

[15] 陳鵬, 馬洪彬, 周佳倫, 等. FCG-NNER: 一種融合字形信息的中文嵌套命名實體識別方法[J]. 重慶理工大學學報(自然科學), 2023, 37 (12): 222-231.

[16] Li Q, Ji H. Incremental Joint Extraction of Entity Mentions and Relations [C] / / Proceedings of the 52nd Annual Meeting of theAssociation for Computational Linguistics, 2014: 402-412.

[17] Xing W, Qi J, Yuan X, et al. A Gene-phenotype RelationshipExtraction Pipeline From the Biomedical Literature Using a Represen?tation Learning Approach [ J]. Bioinformatics, 2018, 34 ( 13):i386-i394.

[18] Riedel S, Yao L, McCallum A. Modeling Relations and TheirMentions Without Labeled Text [ C ] / / Machine Learning andKnowledge Discovery in Databases: European Conference, ECMLPKDD 2010, Barcelona, Spain, September 20 - 24, 2010, Pro?ceedings, Part Ⅲ 21. Springer Berlin Heidelberg, 2010: 148-163.

[19] Shang Y M, Huang H Y, Mao X L. OneRel: Joint Entity andRelation Extraction With One Module in One Step [ J]. Proceed?ings of the AAAI Conference on Artificial Intelligence, 2022, 36(10): 11285-11293.

[20] Ren F, Zhang L, Yin S, et al. A Novel Global Feature-orientedRelational Triple Extraction Model Based on Table Filling [ C] / /Proceedings of the 2021 Conference on Empirical Methods in Natu?ral Language Processing, 2021: 2646-2656.

[21] Miwa M, Sasaki Y. Modeling Joint Entity and Relation Extractionwith Table Representation [C] / / Proceedings of the 2014 Confer?ence on Empirical Methods in Natural Language Processing( EMN?LP), 2014: 1858-1869.

[22] Wei Z, Su J, Wang Y, et al. A Novel Cascade Binary TaggingFramework for Relational Triple Extraction [ C] / / Proceedings ofthe 58th Annual Meeting of the Association for Computational Lin?guistics, 2020: 1476-1488.

[23] Li G, Chen X, Wang P, et al. FastRE: Towards Fast RelationExtraction with Convolutional Encoder and Improved Cascade BinaryTagging Framework [C] / / Proceedings of the Thirty-First Inter?national Joint Conference on Artificial Intelligence, 2022: 4201-4208.

[24] Zhao Y, Li X. A Subject-aware Attention Hierarchical Tagger forJoint Entity and Relation Extraction [ C] / / Advanced InformationSystems Engineering: 34th International Conference, CAiSE 2022,Leuven, Belgium, June 6-10, 2022, Proceedings, 2022: 270-284.

[25] Zeng D, Liu K, Lai S, et al. Relation Classification via Convolu?tional Deep Neural Network [C] / / Proceedings of COLING 2014,the 25th International Conference on Computational Linguistics:Technical Papers, 2014: 2335-2344.

[26] John G, Gary D, Wang B. A Sequence-to-Sequence Approachfor Document-level Relation Extraction [ C] / / Proceedings of the21st Workshop on Biomedical Language Processing, 2022: 270-284.

[27] Pere-Lluís H C, Roberto N. REBEL: Relation Extraction byEnd-to-End Language Generation [C] / / Findings of the Associa?tion for Computational Linguistics: EMNLP 2021, 2021: 2370-2381.

[28] 仲雨樂, 韓普, 許鑫. 基于異構圖注意力網絡的藥物不良反應實體關系聯合抽取研究[J]. 現代情報, 2024, 44 (9): 71-81.

[29] 韓普, 顧亮. 基于混合深度學習的中文醫學實體抽取研究[J].圖書情報工作, 2022, 66 (14): 119-127.

[30] Zeng X, Zeng D, He S, et al. Extracting Relational Factsby anEnd-to-End Neural Model with Copy Mechanism [C] / / Proceed?ings of the 56th Annual Meeting of the Association for ComputationalLinguistics (Volume 1: Long Papers), 2018: 506 -514.

[31] Wei Z, Su J, Wang Y, et al. A Novel Cascade Binary TaggingFramework for Relational Triple Extraction [ C] / / Proceedings ofthe 58th Annual Meeting of the Association for Computational Lin?guistics, 2020: 1476-1488.

[32] Ju M Z, Miwa M, Ananiadou S. A Neural Layered Model forNested Named Entity Recognition [C] / / Proc. of the 2018 Conf.of the North American Chapter of the Association for ComputationalLinguistics: Human Language Technologies, Vol 1 ( Long Pa?pers). New Orleans: ACL, 2018: 1446-1459.

[33] Wang J, Shou L D, Chen K, et al. Pyramid: A Layered Modelfor Nested Named Entity Recognition [C] / / Proc. of the 58th An?nual Meeting of the Association for Computational Linguistics. ACL,2020: 5918-5928.

[34] Zheng C M, Cai Y, Xu J Y, et al. A Boundary-aware NeuralModel for Nested Named Entity Recognition [ C] / / Proc. of the2019 Conf. on Empirical Methods in Natural Language Processingand the 9th Intl Joint Conf. on Natural Language Processing. HongKong: ACL, 2019: 357-366.

[35] Su J, Murtadha A, Pan S, et al. Global Pointer: Novel EfficientSpan-based Approach for Named Entity Recognition [EB/ OL]. ht?tps:/ / arxiv.org/ abs/2208.03054.2024.

[36] Li Z, Fu L Y, Wang X B, et al. RFBFN: A Relation -firstBlank Filling Network for Joint Relational Triple Extraction [C] / /Proceedings of the 60th Annual Meeting of the Association for Com?putational Linguistics: Student Research Workshop, 2022: 10-20.

[37] 衡紅軍, 苗菁. 融合語義和句法圖神經網絡的實體關系聯合抽取[J]. 計算機科學, 2023, 50 (9): 295-302.

[38] Wang Y, Yu B, Zhang Y, et al. TPLinker: Single-stage JointExtraction of Entities and Relations Through Token Pair Linking[C] / / Proceedings of the 28th International Conference on Compu?tational Linguistics, 2020: 1572-1582.

[39] Bai T, Guan H T, Wang S, et al. Traditional Chinese MedicineEntity Relation Extraction Based on CNN with Segment Attention[J]. Neural Computing and Applications, 2022, 34 (4): 2739-2748.

[40] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of DeepBidirectional Transformers for Language Under -standing [ C] / /Proceedings of NaacL.. -HLT, 2019: 4171-4186.

(責任編輯: 楊豐僑)

基金項目: 國家重點研發計劃“主動健康服務數治化技術區域綜合應用示范” ( 項目編號: 2023YFC3605800); 國家社會科學基金重大課題“新時代我國文獻信息資源保障體系重構研究” (項目編號: 19ZDA346); 江蘇省前沿引領技術基礎研究專項“ 人機物深度融合高可信網構軟件技術、理論與方法” (項目編號: BK20202001)。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产精品黑色丝袜的老师| 亚洲男人的天堂久久香蕉网| 97在线视频免费观看| 亚洲天堂久久久| 国产美女91呻吟求| 99精品高清在线播放| 伊人色婷婷| 中文成人在线| 67194亚洲无码| 色综合中文综合网| 国产精品自在拍首页视频8| 免费毛片a| 国产精品成| 激情综合网激情综合| 欧美第二区| 日本精品影院| 亚洲精品无码在线播放网站| 亚洲视频影院| 欧美激情一区二区三区成人| 国产精品视频白浆免费视频| 国产午夜福利在线小视频| 无码专区国产精品第一页| 手机永久AV在线播放| 青青草综合网| 国产精品偷伦在线观看| 992tv国产人成在线观看| 色婷婷视频在线| 精久久久久无码区中文字幕| 怡红院美国分院一区二区| 最新国产精品第1页| 性喷潮久久久久久久久| 亚洲日韩久久综合中文字幕| 中文国产成人精品久久一| 国产白浆视频| 国产成人h在线观看网站站| 精品无码视频在线观看| 国产免费网址| 精品无码国产自产野外拍在线| 国产精品吹潮在线观看中文| 精品视频一区在线观看| 国产在线精品美女观看| 2022精品国偷自产免费观看| 日韩av无码精品专区| 72种姿势欧美久久久大黄蕉| 久久96热在精品国产高清| 免费毛片视频| 四虎永久免费地址在线网站| 国内视频精品| 国产激情无码一区二区免费| 在线免费不卡视频| 亚洲三级片在线看| 日韩黄色精品| 国产特一级毛片| 亚洲日韩精品伊甸| 97影院午夜在线观看视频| 精品一区二区无码av| 激情六月丁香婷婷| 成人一级黄色毛片| 综合网久久| 国产精品亚洲一区二区三区z | 国产玖玖玖精品视频| 26uuu国产精品视频| 欧美精品一区二区三区中文字幕| 久久免费观看视频| 亚洲中文在线看视频一区| 久久黄色影院| 美女扒开下面流白浆在线试听| 久久国产精品电影| 国产综合精品日本亚洲777| 中文字幕啪啪| 国产嫩草在线观看| 九九这里只有精品视频| 99精品一区二区免费视频| 午夜少妇精品视频小电影| 亚洲第一天堂无码专区| 自拍亚洲欧美精品| 国产在线视频福利资源站| 国产在线拍偷自揄观看视频网站| 精品黑人一区二区三区| 亚洲日本精品一区二区| 超薄丝袜足j国产在线视频| 精品黑人一区二区三区|