999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于XLNet 的醫學文本實體關系識別模型

2023-05-18 08:13:56鄭增亮沈宙鋒蘇前敏
智能計算機與應用 2023年4期
關鍵詞:語義特征文本

鄭增亮, 沈宙鋒, 蘇前敏

(上海工程技術大學 電子電氣工程學院, 上海 201620)

0 引言

電子病歷(Electronic Medical Records, EMR)是患者在醫院就診的記錄,主要包含文本、圖表以及影像等多種信息[1]。 隨著EMR 的漸趨普及,人們對其了解得也更加詳細。 總地來說,EMR 不僅包含了患者的檢查結果、臨床用藥治療、不良反應等信息,還涵蓋了許多的醫療相關實體[2]。 如何將一個非結構化的臨床EHR 轉化為結構化的數據,挖掘其中有價值的診療信息,已然成為當前自然語言處理(NLP)任務的研究熱點之一。 關系抽取任務是在消息理解會議(MUC)[3]上首次提出的,自2010年以來,國外對于電子病歷相關實體關系抽取研究已經取得許多成果。 國內EMR 相關的研究發展起步時間較晚,公開的數據集和研究結果為數不多,已有的關系抽取模型主要依賴機器學習有關算法,這類方法大多依賴大量的特征工程建設,費時費力。 近年來在關系提取任務中,基于神經網絡方法取得了良好的效果,但是常見的關系抽取并不能解決文本語句中一詞多義的現象,同時也沒有充分捕捉到電子病歷中實體關系之間的特征信息,使得分類效果欠佳。

本文提出一種基于XLNet-BiGRU-Attention-TextCNN 的醫療文本實體關系抽取方法。 該方法首先使用XLNet 預訓練語言模型將輸入文本語句轉換為向量表示,然后將向量化的文本特征序列輸入至一個雙向門控循環單元(GRU)進行長距離依賴關系特征提取,接著使用注意力機制(Attention)為特征序列分配權重,降低噪聲影響,為了提高Softmax分類器的識別效果,最后利用卷積神經網絡提取文本語句的局部特征。

1 相關研究

目前,實體關系抽取模型的訓練、驗證使用的數據集主要來源于開放數據源,例如新聞、微博、百科等[4]。 實體關系提取的早期方法主要是監督式學習,如CHEN 等學者[5]在關系抽取任務中,通過對原始數據集進行統計和特征提取的方法取得了較高的F1值(正確率?召回率?2 / (正確率+召回率))。ZHANG[6]在關系抽取任務中引入支持向量機的方法來提高抽取的效果。 這些方法大都需要手工構建大量特征,不僅費時費力,而且泛化性能也不強。

隨著神經網絡的快速發展,神經網絡模型已逐漸應用到實體關系抽取任務中。 Richard 等學者[7]使用循環神經網絡(RNN)獲取文本序列信息,進行實體關系抽取,雖改進了模型抽取效果,但沒有考慮到實體在訓練語句中的語義和位置信息。 Zeng 等學者[8]采用詞向量和詞位置向量相結合方法獲取模型輸入向量,通過卷積神經網絡層與層之間運算得到句子特征表示,充分利用句子中的實體信息,從而提升關系抽取的準確率。 Huang 等學者[9]采用兩階段方法,在長短時記憶(LSTM)網絡模型中引入支持向量機(SVM)模型,以此抽取藥物間的關系。

2 基于XLNet-BiGRU-Attention-TextCNN的關系抽取模型

關系抽取模型框架主要由3 個部分組成,分別是:詞表示層、編碼層、輸出層。 其中,詞表示層包含文本語句的輸入,序列化表示模塊;編碼層包含BiGRU 模塊、Attention 模塊和TextCNN 模塊;輸出層使用Softmax模型,模型結構如圖1 所示。 將句子輸入到模型中,首先通過詞嵌入層構建向量矩陣,將每個詞映射成低維向量,隨后將句子矩陣送入BiGRU,進一步提取字向量中上下文特征,接下來將處理后的矩陣通過自注意力層對重要信息進行加權,計算出權重系數,然后使用TextCNN 模型提取句子的局部特征,最后由Softmax模型確定關系類型,完成關系抽取。

圖1 XLNet-BiGRU-Attention-TextCNN 模型結構Fig. 1 XLNet-BiGRU-Attention-TextCNN model structure

2.1 詞表示層

該模型的詞表示層使用XLNet 預訓練語言模型對輸入語句進行向量表示。 針對Bert 模型[10]微調和預訓練過程不一致的缺陷, Brain 提出了一種新的廣義自回歸模型XLNet[11]。 XLNet 利用排列語言模型(PLM)隨機排列句子,使用自回歸的方式預測句子末尾的單詞,通過這種方式,可獲取到單詞間相互依賴的關系,而且可以充分利用單詞或者字符的前后文信息[12]。 與Bert 相比,XLNet 沒有采取在輸入端隱藏掉部分單詞的模式,而是通過注意力機制[13]在Transformer 內部遮掩部分單詞。 XLNet的原理如圖2 所示,XLNet 的輸入包括詞向量和位置信息,圖2 中最下面的e(x) 就是詞向量,w就是位置信息。 經輸入層輸入后,XLNet 會將句子重新排列,根據排列后順序使用自回歸方式進行預測。

圖2 XLNet 原理[11]Fig. 2 XLNet principle[11]

2.2 雙向門控循環單元

門控循環單元(GRU)使用門控機制來控制輸入、記憶和其他信息,并在當前時間步長內進行預測[14]。 GRU 可以視為LSTM 的變體,與LSTM 相比,GRU 具有參數少、訓練時間短的優點。 GRU 門函數保留了重要的特性,可以捕捉時態數據中的長依賴關系。 圖3 說明了GRU 的內部控制結構。 GRU內部結構中只有2 個門單元:更新門和重置門。GRU 結構中的參數具體如下。

圖3 GRU 模型結構圖Fig. 3 Structure diagram of GRU model

(1)重置門:rt計算公式見如下:

(2)更新門:zt計算公式見如下:

(3)隱藏層:狀態更新計算公式見如下:

其中,σ表示sigmoid激活;W為權值矩陣;xt表示t時刻的輸入;ht-1表示t時刻的隱藏狀態。 本文采用BiGRU 結構,充分利用時間語境。 BiGRU 使用前向和后向計算,每個時間序列數據獲得2 個不同的隱藏層狀態。 隱藏層的最終輸出是兩者的連接隱藏狀態[15]。

2.3 注意力機制

針對BiGRU 的輸出ht學習相應的注意力權重α,然后對權重歸一化,將得到的向量α作為注意力權重概率分布,最后將α與輸出進行點積相加,從而得到經過注意力運算的特征向量[16]。

2.4 TextCNN

卷積層意在捕獲局部語義信息,并將這些有價值的語義成分壓縮為特征圖[17]。 當卷積層輸入特征矩陣后,卷積運算中需用到的公式為:

其中,b∈R表示偏置;f表示非線性激活函數;Xj為落入滑動窗口的第j個特征矩陣;池化是選擇從每個卷積核中提取的特征[18]。 這里,最大池(max pooling)用來獲得每個特征的最大值,該方式往往漏掉了其他關鍵信息。 另一種是平均池,即求出特征向量的平均值,能夠表示整個文本的語義信息。 為了在句子中獲取更多的語義信息,以提高關系識別的準確性,故將2 種池化后的特征進行拼接作為此層輸出,可由式(6)~式(8)進行描述:

其中,yj為每個卷積核卷積出的特征向量,mj為池化后的輸出。 最后通過Softmax層輸出。

3 實驗結果與分析

3.1 數據集

中文EMR 關系抽取數據集的構建不僅要求對原始數據進行預處理,同時要求標注人員需要具備一定的醫學知識。 EMR 的診療信息中的實體關系主要存在于疾病、癥狀、檢查等之間,故在本研究中,以I2B2 (informatics forintegrating biology and the bedside)的醫學實體間關系標注規范作為參考標準[19],在專業醫務人員的指導下,制定了本實驗的中文EMR 關系標注類型,見表1。 由表1 可知,共包含7 種醫療關系。

表1 關系類型及描述Tab. 1 Relationship type and description

本實驗的原始數據來自于上海市某二級甲等醫院,包括內分泌科、呼吸內科、消化內科等不同科室的EMR,共1500 份。 為了保護患者的隱私,對EMR 文本進行去隱預處理,接著根據事先制定好的標注規則對文本數據進行標注。 最后,將標注好的數據集按照7∶2∶1 的方式進行劃分,其中1050 份EMR 作為訓練數據集,300 份EMR 作為驗證數據集,150 份EMR 作為測試數據集。

3.2 評價指標

實體識別和關系抽取實驗通常采用如下指標來評價模型的優劣,分述如下。

(1)準確率。 可由如下公式計算求得:

(2)召回率。 可由如下公式計算求得:

(3)F1值。 可由如下公式計算求得:

其中,TP表示測試集中正例被正確預測為正例的個數;FP表示測試集中正例被誤分類為負例的個數;FN表示測試集中負例被誤分類為正例的個數。

3.3 實驗設置

本實驗主要分為參數優化實驗和不同模型對比實驗。 參數優化實驗主要是驗證使用標簽平滑交叉熵損失函數(Label Smoothing Cross Entropy,LSCE)是否可以提高識別效果。 與不同模型的對比實驗可以驗證基于XLNet 模型在實體間關系提取的有效性。 本實驗均在Ubuntu 環境中搭建和運行,基于Python 和TensorFlow 搭建模型,并使用GPU 進行深度學習的計算,選用的計算機顯卡配置為NVIDIA RTX 2060,顯存為8 GB。 實驗中主要的超參數配置包括: XLNet 預訓練語言模型選取XLNet_base 版本,在編碼層運行后,再輸入到此后的網絡結構中進行學習訓練。 LSTM 的大小設置為64 維,網絡層寬為64 維,網絡學習率為2e-5,Dropout的比例設置為0.1,每一批量的樣本數量為32,卷積核的尺寸分別是設置為5×5、9×9、13×13,卷積核個數設置為256,隱藏層的維度固定為768,使用relu激活函數,為了使模型收斂速度加快選用Adam 算法優化器。

3.4 實驗結果

(1) 參數優化實驗。 為驗證LSCE 是否可以提高關系抽取效果,本實驗設置Cross Entropy Loss和Focal Loss函數作為對比。 表2 是XLNet-BiGRUAttention-TextCNN 與不同損失函數在糖尿病數據集上達到的實驗效果。

表2 不同損失函數實驗結果Tab. 2 Experimental results of different loss functions %

(2) 不同模型對比試驗。 為驗證本研究提出的模型在中文糖尿病數據集的效果,本研究選擇如下幾種方法進行比較:

①CNN 模型[20]:CNN 用于關系提取,卷積深度神經網絡(CDNN)用于提取詞和句子的特征,并將所有的詞標記都用作輸入。

②BiLSTM-TextCNN 模型:該模型采用雙向LSTM 網絡模型提取語義依賴信息,并利用TextCNN網絡提取局部特征,解決了傳統關系抽取任務中復雜特征構建問題,在這項任務中取得了較好的效果。

③BiGRU-TextCNN 模型:采用雙向GRU 網絡模型獲取文本前后向語義信息,然后連接TextCNN進行特征提取,利用更新門和重置門機制過濾噪聲影響,提高模型識別效果。

④BiGRU-Attention-TextCNN 模型:在局部特征提取前加入Attention 機制,與BiGRU-TextCNN模型進行對比。

研究中得到的不同模型的實驗結果見表3。

表3 不同模型實驗結果Tab. 3 Experimental results of different models %

4 討論

從表2 可以看出,當采用標簽平滑交叉熵函數作為XLNet-BiGRU-Attention-TextCNN 模型訓練的損失函數時,關系抽取的效果最優,其F1值較Cross Entropy函數和Focal Loss函數分別提高了2.14%和2.94%。 由于EMR 數據集中關系類型數量分布不均勻,最多為647,最少為115,對模型的關系預測帶來一定程度上的干擾。 通過使用標簽平滑交叉熵函數,緩解了醫學文本中關系類型的數量不平衡問題,一定程度上提升了模型的性能。

通過表3 的實驗研究結果可以看出,XLNet-BiGRU-Attention-TextCNN 模型與其他模型相比,總體上看,其精確率、召回率和F1值三方面均有提高:

第一,與傳統CNN 模型對比,BiLSTM-TextCNN模型和BiGRU-TextCNN 模型在準確率分別提高了4.25%和4.57%,召回率分別提高了5.44% 和5.69%,F1值分別提高了4.87%和5.15%。 說明了CNN 網絡的語義提取范圍有限,在處理較長語句的關系識別時效果較差,利用含有門控機制的前后向長短時記憶網絡和前后向門控循環網絡可以更好地提取文本語句的長期依賴關系,并與TextCNN 網絡結合可以更加充分地表示文本的語義信息。

第二,對比BiGRU-Attention-TextCNN 模型和BiGRU-TextCNN 模型,引入Attention 機制后關系提取的精確率提高了3.29%,召回率提高了4.94%,F1值提高了4.13%,說明了Attention 機制可以聚焦文本序列的關鍵信息,并為這些關鍵信息設置較大權重,降低噪聲的干擾,通過動態調整權重矩陣,學習到關系抽取在長序列文本中隱藏的關鍵信息,提升模型識別抽取能力。

第三,對比XLNet-BiGRU-Attention-TextCNN模型和BiGRU-Attention-TextCNN 模型,采用預訓練語言模型將精確率提高了3.53%,召回率提高了6.70%,F1值提高了5.09%,說明了采用雙向自回歸訓練的語言模型XLNet 可以對文本上下文的語義信息進行更全面的表示,提高模型的關系抽取效果。

5 結束語

針對現有的實體關系抽取模型無法解決多義現象和文本語義信息捕獲不足的問題,本文提出基于XLNet-BiGRU-Attention-TextCNN 的實體關系抽取方法。 利用預訓練語言模型XLNet 對句子進行向量化表示,然后輸入BiGRU 層充分表示捕捉字的上下文信息,通過注意機制提高在關系分類中起決定性作用的字符權重,最后加入TextCNN 提取局部特征,獲得更細粒度的特征序列,有效解決一詞多義的問題,提升了該模型在關系抽取任務中性能。

猜你喜歡
語義特征文本
語言與語義
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 中文字幕亚洲精品2页| 日日噜噜夜夜狠狠视频| 国产精品区网红主播在线观看| 国产人成乱码视频免费观看| 亚洲无码37.| 亚洲无限乱码一二三四区| 色天天综合| 亚洲 欧美 日韩综合一区| 国产精品任我爽爆在线播放6080| 亚洲免费播放| 毛片网站在线看| av一区二区无码在线| 激情影院内射美女| 鲁鲁鲁爽爽爽在线视频观看 | 国产无遮挡猛进猛出免费软件| 九色在线视频导航91| 国产精品区视频中文字幕| 精品久久久久久久久久久| 国产欧美另类| 国产清纯在线一区二区WWW| 欧美亚洲国产精品第一页| 午夜国产理论| 国产欧美日韩综合一区在线播放| 亚洲午夜福利在线| 亚洲成aⅴ人片在线影院八| 韩国自拍偷自拍亚洲精品| 97久久人人超碰国产精品| 国产网站黄| 久久综合亚洲色一区二区三区| 亚洲AV无码乱码在线观看代蜜桃| 国产永久在线视频| 人妻一本久道久久综合久久鬼色| 国产情精品嫩草影院88av| 亚洲日本中文字幕天堂网| 国产精品hd在线播放| 亚洲国产欧洲精品路线久久| 日韩专区欧美| 青青草原国产一区二区| 国产第八页| 一本久道热中字伊人| 亚洲男人在线| 91精品情国产情侣高潮对白蜜| 91小视频版在线观看www| 亚洲国产成人在线| 浮力影院国产第一页| a级毛片网| 91在线精品免费免费播放| yjizz视频最新网站在线| 欧美成一级| 亚洲国产午夜精华无码福利| 九色在线观看视频| 日本亚洲最大的色成网站www| 午夜a级毛片| 99人妻碰碰碰久久久久禁片| 久久综合一个色综合网| 亚洲伦理一区二区| 国产91九色在线播放| 婷婷午夜影院| 国产激爽大片在线播放| 91啦中文字幕| 青青青草国产| 日韩一区二区在线电影| 亚洲中文字幕日产无码2021| 亚洲人成网7777777国产| 国产亚洲欧美日韩在线一区| 日韩 欧美 小说 综合网 另类| 一本大道在线一本久道| 免费人成又黄又爽的视频网站| 欧美日韩国产高清一区二区三区| 77777亚洲午夜久久多人| 国产精品视频观看裸模| 一区二区三区四区在线| 中文字幕1区2区| 精品无码国产一区二区三区AV| 22sihu国产精品视频影视资讯| 国产视频大全| 久久亚洲黄色视频| 国产乱人激情H在线观看| 尤物成AV人片在线观看| 婷婷色一二三区波多野衣| 精品无码视频在线观看| 亚洲av无码牛牛影视在线二区|