999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合數據增強和注意力機制的中醫實體及關系聯合抽取

2023-10-22 16:01:42楊延云杜建強羅計根
智能計算機與應用 2023年8期
關鍵詞:文本實驗模型

楊延云, 杜建強, 聶 斌, 羅計根, 賀 佳

(1 江西工程職業學院, 南昌 330025; 2 江西中醫藥大學計算機學院, 南昌 330004)

0 引 言

命名實體識別[1](Named Entity Recognition,NER)和關系抽取[2](Relation Extraction,RE)作為信息抽取的基礎任務[3],旨在從半結構化、非結構化的文本中提取實體,并識別實體間的語義關系。中醫藥領域的實體及關系聯合抽取就是提取中醫文本中包含的中藥名、方劑名、證型名、癥狀名等,并識別2 個實體間的關系類別。 高質量、精準的實體及關系抽取結果為后續知識圖譜的構建、信息檢索效率、智能問答系統的搭建等提供良好的數據基礎[4-5]。

實現命名實體識別和關系抽取兩個任務傳統是基于流水線方法,分2 步執行。 第一步是實體識別,第二步將上一步結果作為關系抽取的輸入進行后續關系抽取操作。 基于流水線方法易于建模且操作更加靈活,但也有局限性,會導致錯誤累積,忽略2 個子任務間的相關性,并產生冗余信息。 為解決流水線方法存在的問題,實體及關系聯合抽取方法應運而生,充分考慮二者的相關性,同時提取實體及關系,組成形如<實體1,關系,實體2 >的三元組[6]。本文的研究主要針對將聯合抽取任務轉化為端對端的序列標注任務,并頻繁應用循環神經網絡(Recurrent Neural Network,RNN)[7]及其變體解決該問題。 2017 年,Zheng 等學者[8]首次將實體及關系聯合抽取轉化為序列標注任務,提出了一種基于新序列標注的聯合抽取方法,還設計了帶有偏置損失函數的端到端模型,實現了真正意義上的實體及關系聯合抽取。 曹明宇等學者[9]借鑒Zheng 等學者[8]的研究思路,通過改進標注策略在DDI(drugdrug interactions)2013 語料上有效緩解了同一實體參與多個關系的重疊問題。 張軍蓮等學者[10]利用圖卷積神經網絡的編碼局部特征和先驗詞間關系的能力,提升抽取實體和關系三元組的性能。

循環神經網絡及其變體在序列標注任務上顯示出巨大的優勢,能夠全面捕捉上下文序列語義特征,但卻沒有突出與當前信息有關上下文信息的關聯性和依賴性。 Attention 機制旨在對輸入序列依據其對目標任務結果的重要程度賦予相應不同的權重,強化重點,進而強調上下文信息與當前信息的關聯和依賴,捕獲更有效的上下文語義信息,Attention 機制既可以單獨使用,也可以與其他神經網絡模型融合訓練。 2014 年,Google Deep-mind 團隊[11]使用RNN 與Attention 機制的混合模型做圖像識別,驗證了Attention 機制在圖像處理任務上的有效性。 隨后,Bahdanau 等學者[12]實現了Attention 機制在自然語言處理領域的首次應用,在英語到法語翻譯任務上效果可與當時最先進的方法相媲美。 文獻[13]針對傳統流水線方法的不足以及實體重疊問題提出了一種新穎的標記策略,并融入注意力機制為包含n個單詞的句子針對每個查詢位置生成對應的n條標注序列。 該模型在NYT 數據集上較Zheng等學者[8]提出的模型F1值提高4.3%。 模型LSTMLSTM-2AT-Bias[14]引入對抗訓練增強模型的魯棒性,并加入自注意力機制增強對文本信息的編碼能力,在NYT 數據集上實驗的F值為0.521±0.006。王勇超等學者[15]利用指針標注機制實現實體及其關系的聯合抽取,引入注意力機制有助于捕捉文本內部信息的相互關聯。

針對中醫文本的實體及關系聯合抽取任務而言,語料中存在著大量無標簽數據,基于序列標注的實體及關系聯合抽取方法雖克服了傳統流水線的不足,但由于上述方法均是以標注語料作數據基礎,數據打標消耗大量的人力、物力、財力,以及BiLSTMCRF 無法強調上下文信息與當前信息關聯的問題。由此,本文提出了一種融合數據增強和注意力機制的中醫實體及關系聯合抽取方法(DA-BiLSTMAttention-CRF),利用數據增強改善領域標注數據缺乏問題,在BiLSTM - CRF 模型中加入注意力機制強化上下文信息與當前信息的關聯性。

1 方法描述

融合數據增強和注意力機制的中醫藥領域的實體及關系聯合抽取方法采用自訓練方法多次實驗,模型構建流程具體如下。

(1)第一階段,模型訓練。 訓練步驟分述如下:

Step 1將已標注的中醫語料按照7 ∶3 劃分為訓練集和測試集,并轉化為200 維字詞并聯拼接向量作為序列標注模型BiLSTM-Attention-CRF 的輸入,學習文本深層次特征,將已訓練完成的模型記為BiLSTM-Attention-CRF_origin。

Step 2采用數據增強方法EDA 對無標簽的訓練集數據進行多倍增強。

Step 3使用BiLSTM-Attention-CRF_origin 預測增強后數據所對應標簽,得到偽標注數據。

(2)第二階段,模型訓練。 訓練步驟分述如下:

Step 4研究將訓練集和偽標注數據作為訓練數據重新訓練模型,已訓練完成的模型記為DABiLSTM-Attention-CRF。

Step 5無標簽測試集數據通過模型預測打上相應的標簽,結合提取策略進行三元組提取。

Step 6進行模型可靠性和有效性驗證與評價。

需要注意的是,該方法中訓練集指帶有人工標注標簽且用作模型訓練的中醫文本語料;測試集同理;無標簽的訓練集指只包含訓練集中的文本數據,不包含對應的標簽;無標簽測試集同理。 該方法涉及的主要深度學習模型BiLSTM-Attention-CRF,其網絡模型結構如圖1 所示。

圖1 BiLSTM-Attention-CRF 結構圖Fig. 1 BiLSTM-Attention-CRF structure diagram

該模型結構主要包含3 個模塊,分別為輸入模塊、神經網絡模塊和輸出模塊。 其中,輸入模塊由文本輸入層和向量嵌入層組成;神經網絡模塊包括雙向LSTM 層和注意力機制層;輸出模塊有CRF 層對中醫文本的序列標注操作和結合提取策略進行三元組抽取處理。 下面對上述3 個模塊所包含層級結構的作用和功能進行詳細介紹。

(1)輸入模塊

①文本輸入層:文本輸入為中醫文本序列及每個字符所對應的標簽。

②向量嵌入層:對輸入的文本序列進行向量表示。 向量所用語料來源于《中醫證候鑒別診斷學》[16]、《中醫150 證候辨證論治輯要(何曉暉)》[17]和《中醫藥學概論》[18]三本中醫相關書籍。中醫語料利用jieba 分詞[19]工具,并加載自定義的中醫領域自定義詞典進行分詞,自定義詞典主要包含大量的證型、方劑等信息,通過Word2Vec[20]訓練得到100 維詞向量。 中醫語料使用Word2Vec 訓練得到100 維字向量,并以字為基本語義單元進行字詞向量并聯拼接,豐富語義特征信息[21]。

(2)神經網絡模塊

①雙向LSTM 層:以字向量為基本語義單元與該字所在詞的詞向量進行并聯拼接,得到200 維字向量作為BiLSTM 的輸入,BiLSTM 由前向的LSTM與后向的LSTM 結合而成,得到一個前向t時刻的隱藏層輸出和一個后向t時刻的隱藏層輸出拼接而成[],更加充分地利用了上下文信息,進一步獲取文本深層次特征表達。

②注意力機制層:注意力機制層的輸入為上一層BiLSTM 的特征向量輸出,通過計算概率權重,為不同字向量分配不同注意力權重,區分不同信息的重要程度,達到強化與當前信息有關聯的上下文信息的目的。

(3)輸出模塊

①CRF 層:其作用是輸出每個字符的最大概率標簽,使用CRF 代替softmax函數,是因為CRF 層可以從訓練數據中獲得標簽約束性規則,進而保證預測標簽的準確性。

②三元組抽取層:CRF 層的序列標注輸出作為該層的輸入,根據預先定義的提取策略進行實體關系三元組抽取,其結果呈現類似于<杏蘇散,方劑/中藥,杏仁>。

1.1 標注模式及提取策略

本文實驗語料來源于《中醫證候鑒別診斷學》[16]、《中醫150 證候辨證論治輯要(何曉暉)》[17]和《中醫藥學概論》[18]三本中醫相關文獻,累計2 968 個句子。 標注模式共涉及34 類標簽,表1 展示了部分標簽的內容及含義。 “BIES”表示字在詞的位置;方劑/中藥、證型/方劑、證型/癥狀、病因/證型和M 表示關系類別,M 表示該實體與多個實體組成關系不同的三元組;1、2 和M 表示關系角色,1和2 分別表示該實體在所屬三元組中處于實體1 或實體2 的位置,M 表示該實體與多個實體組成三元組且處于不同位置。

表1 部分標簽及含義Tab. 1 Part of the labels and meanings

通過標注模型標注文本得到標簽后,將有相同關系類別(包括“M”類型)的2 個實體標簽組合,再根據關系角色標簽確定其在三元組中的位置。

需要強調的是,標簽M 既可以扮演實體1,也可以扮演實體2。 標注實例和三元組抽取結果展示如圖2 所示。

圖2 標注實例Fig. 2 An example of labeling

1.2 自訓練策略

當使用神經網絡模型時,用于訓練模型的數據是越多越好,而在有監督的任務中,所需訓練數據必須根據目標任務進行打標,而想要構建這樣的標注數據集依賴于大量的人力、物力和財力。 對于這個問題,半監督學習可以利用少量已標注數據進行模型訓練,再使用已經訓練好的模型對無標簽數據進行預測,得到準確率較高的偽標簽數據,不斷迭代上述步驟將所有數據打標。 其中,自訓練就是一個標準的半監督過程[22]。 自訓練的算法流程主要步驟見如下:

Step 1將已標注的數據按比例劃分訓練集和測試集傳送給模型,對模型進行訓練。

Step 2使用訓練好的模型預測無標簽的數據,所得結果記作偽標簽數據。

Step 3將偽標記數據與原訓練數據組合,組合的“偽標記”和正確標記訓練數據共同來重新訓練模型。

Step 4使用經過訓練的模型來預測已標注的測試集,根據所采用的評價指標評估模型性能。

1.3 數據增強

數據增強主要用于數據集較小的時候,用來防止模型過擬合,提升模型泛化能力。 對于深度學習模型來說,大的數據集是實驗效果好的基本要求,而對于特定的領域任務,已標注的數據卻是非常缺乏的。 數據增強是一種有效的擴充數據集的方法,在計算機視覺領域取得較好的效果,主要涉及的技術有隨機旋轉、隨機裁剪、色彩抖動、高斯噪聲、翻轉等,通過增加圖像的多樣性擴充數據量。 然而在自然語言處理領域數據增強的方法相對較少,本文采用文獻[23]提出的數據增強方法(下文簡稱EDA)對訓練集進行數據增強處理。 EDA 采用4 種技術進行數據增強,分別是同義詞替換、隨機插入、隨機交換、隨機刪除。

接下來將詳細介紹這4 種技術,并以原文本“主治肝郁氣滯證的方劑是黃芩散。”進行舉例說明:

(1)同義詞替換:從句子中隨機選擇非停用詞,并用其同義詞進行替換,則可以得到“主治肝郁氣滯證的方藥是黃芩散”。

(2)隨機插入:找句子中一個隨機詞(非停用詞)的同義詞,插入到句子的隨機位置,則可以得到“主治肝郁氣滯證的方劑是黃芩散疏肝”。

(3)隨機交換:隨機選擇句子中的2 個詞,交換二者的位置,則可以得到“主治肝郁氣滯證的方劑黃芩是散”。

(4)隨機刪除:隨機刪除句子中的詞語,則可以得到“主治肝郁氣滯的方劑是黃芩散”。

1.4 Attention 機制

Attention 機制[12]是一種模擬人腦注意力資源分配的機制,通過有限的注意力選擇性地分配給更重要的信息,而弱化其他無用信息。 例如,給出中醫文本:大承氣湯由大黃、枳實各12 g,炙厚樸24 g,芒硝6 g。 根據文本回答問題“大承氣湯由哪幾味中藥?”,那么答題人便只會專注去數大承氣湯的中藥組成個數;而當問題改為“大承氣湯中枳實的用量是多少?”,那么答題人便只聚焦枳實的克數。 注意力機制就是隨著任務的變化,變化注意力區域,找到對于任務要求最有價值的信息。 注意力機制的基本結構如圖3 所示。

圖3 注意力機制結構圖Fig. 3 Structure diagram of attention mechanism

具體計算公式如下:

其中,ht表示t時刻上一層神經網絡的輸出向量;wt是第t時刻權重系數;bt是第t時刻偏置系數;ut表示第t時刻輸入到全連接層獲得其隱藏表示;uw表示隨機初始化的注意力權重矩陣;at表示在t時刻通過歸一化操作計算權重向量;st表示在t時刻最終編碼后的句子向量。

2 實驗分析

2.1 實驗設置

本文實驗環境是Windows 64 位操作系統,處理器是Inter(R)Celeron(R) CPU G530 @ 2.40 GHz,內存8 GB。 采用JetBrains PyCharm,Python 編程語言,搭建Tensorflow 框架,并運用Jieba 分詞工具。評價指標選取精確率(Precision,P)、召回率(Recall,R)、F1值[24]。 模型涉及多個超參數,根據所得精確率、召回率和F1值進行參數調整,實驗參數設置見表2。

表2 實驗參數設置Tab. 2 Experimental parameter settings

2.2 模型對比實驗

本節在使用相同字詞向量并聯拼接作為模型輸入特征向量,相同標注模式和提取策略的情況下,對BiLSTM_CRF、BiLSTM-Attention-CRF_origin、DABiLSTM-Attention-CRF 進行對比實驗,結果見表3。

表3 模型對比實驗結果Tab. 3 Experimental results comparison of models%

由表3 可以得出結論如下:

(1)BiLSTM-Attention-CRF_origin 與BiLSTM_CRF 模型相比增加注意力機制結構,能夠對BiLSTM輸出的特征向量針對目標任務賦予不同的注意力權重,最大限度地強調上下文信息對目標詞的重要性。研究中,2 個模型在相同數據集上做實驗, BiLSTMAttention-CRF_origin 均有更好的效果。

(2)使用數據增強對訓練集進行擴充,結合自訓練策略對BiLSTM-Attention-CRF 模型進行多次訓練學習,不僅沒有降低模型性能,反而在領域標注語料不足的情況使模型性能得到一定的提升,F1分別較原模型提升0.52%。

2.3 DA 部分參數對比實驗

為了確保新方法中數據增強部分參數α和navg的選取對于中醫語料的可靠性,選取文獻[23]推薦數據量為2 000 時采用的參數組合0.05、8 和本實驗選取的參數組合0.05、4 分別進行對比,以實體及關系聯合抽取實驗的精確率、召回率和F1值作為評價指標,其結果見表4。

由表4 可以分析得出結論如下:

在DA-BiLSTM-Attention-CRF 模型上實驗,利用EDA 方法進行數據擴充,當選取參數組合0.05、8時,實體識別和聯合抽取綜合評價指標F1 均有所下降,這是因為由模型BiLSTM-Attention-CRF_origin 預測所得偽標注數據存在一定概率的錯誤標簽數;而參數組合0.05、4 的P、R、F1 值都高于未經數據增強處理的情況,與前者對比,這說明相對多倍數據增強后的偽標注語料存在的噪音數據對于原標注語料稀釋作用較大,實驗效果變差,而適當倍數的數據增強有助于提升模型性能。

2.4 模型成分消減實驗

本文實驗在數據處理部分采用了數據增強操作,模型輸入采用字詞向量并聯拼接,核心算法結構使用雙向LSTM、注意力機制和條件隨機場。 為探究這些結構對于目標任務的影響,本節在相同標注模式和提取策略的前提下,分別對模型輸入、數據增強、Attention、CRF 結構進行成分消減實驗。 模型成分消減實驗結果見表5。

表5 模型成分消減實驗結果Tab. 5 Model component reduction experiment results %

由表5 可以得到如下結論:

(1)使用字詞向量并聯拼接作為模型輸入,與采用單獨字向量相比,在召回率和F1值有顯著的提升,證明了字詞向量并聯拼接將字和詞的信息有效地結合起來,更有利于提取有效特征。

(2)刪減數據增強部分,即只有本文方法的第一階段,實驗的3 個評價指標均有所降低,證明了采用EDA 做數據擴充和自訓練策略的有效性。

(3)注意力機制的作用是區分不同信息的重要程度,強化與當前信息有關聯的上下文信息,而弱化其他無用信息。 增加Attention 層,顯著提升了中醫文本實體及關系聯合抽取的精確率(提升接近2%),F1值增加1.07%。

(4)CRF 對于所有預測標簽序列進行全局歸一化操作,去掉CRF 層模型較原模型降低了聯合抽取的F1值。

3 結束語

本文提出了一種融合數據增強和注意力機制的中醫實體及關系聯合抽取方法,選用EDA 對中醫語料進行數據增強,使用自訓練策略將原數據集和預測所得的偽標注數據共同學習,在中醫語料上取得較優的效果。 將本文提出的方法與目前主流的序列標注模型進行對比,證明了本文方法的優越性;然后進行數據增強部分的參數組合對比實驗,結果表明本實驗選取參數取得更佳的實驗效果;最后通過模型成分消減實驗,驗證了模型各個部分的必要性。

未來工作將尋求不同數據增強方法用于解決領域標注數據缺少的問題,對于本文采用的自訓練方式進一步優化,提升模型性能,也可嘗試探索預訓練和自訓練的融合策略對于實體及關系聯合抽取任務的影響也是此后的研究工作。

猜你喜歡
文本實驗模型
一半模型
記一次有趣的實驗
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
做個怪怪長實驗
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 国产爽歪歪免费视频在线观看 | 视频在线观看一区二区| 女人18毛片一级毛片在线 | 久久国产精品影院| 久久综合结合久久狠狠狠97色| 中文字幕色在线| 国产一区成人| 91综合色区亚洲熟妇p| 欧美一级夜夜爽| 国产成人精品综合| 99久久精品国产麻豆婷婷| 国产精品香蕉| 日韩午夜福利在线观看| 亚洲精品爱草草视频在线| 精品欧美一区二区三区在线| 草草线在成年免费视频2| 深爱婷婷激情网| 久久综合伊人 六十路| 国产熟女一级毛片| 五月天福利视频| 91精品免费久久久| 中文字幕啪啪| 亚洲无码高清免费视频亚洲| 国产主播一区二区三区| 国产免费观看av大片的网站| 午夜日本永久乱码免费播放片| 色老二精品视频在线观看| 日本在线欧美在线| 三上悠亚一区二区| 视频国产精品丝袜第一页| 日韩精品成人网页视频在线| 亚洲综合片| 一级不卡毛片| 日韩色图在线观看| 国产成人精品免费视频大全五级| 最新国产在线| 国产人人射| 久久99热66这里只有精品一| 久久99国产乱子伦精品免| 国产精品视频猛进猛出| 狠狠色丁婷婷综合久久| 成人在线不卡| 亚洲区视频在线观看| 天天色综网| 91最新精品视频发布页| 欧美va亚洲va香蕉在线| 再看日本中文字幕在线观看| 高清不卡一区二区三区香蕉| 国产精品第一区| 国产精品爽爽va在线无码观看 | 自拍亚洲欧美精品| 国产91小视频| 午夜日本永久乱码免费播放片| 最新国产你懂的在线网址| 亚洲妓女综合网995久久| 99人妻碰碰碰久久久久禁片| 99视频在线看| 夜色爽爽影院18禁妓女影院| 国产午夜无码专区喷水| 中国美女**毛片录像在线 | 日本精品视频一区二区 | 亚洲欧美综合在线观看| 欧美一级高清视频在线播放| 免费aa毛片| 97成人在线观看| 在线中文字幕日韩| 亚洲一区二区三区香蕉| 久久www视频| 草草影院国产第一页| 日韩精品少妇无码受不了| 精品無碼一區在線觀看 | 亚洲首页在线观看| 欧美啪啪精品| 欧美一级视频免费| 99久久免费精品特色大片| 精品久久高清| 国产精品成| 婷婷伊人久久| 亚洲天堂啪啪| 欧美成人看片一区二区三区 | 这里只有精品在线| 波多野结衣在线se|