999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的醫療文本分類模型

2023-03-10 01:40:52彭清泉王丹
電子設計工程 2023年5期
關鍵詞:語義分類文本

彭清泉,王丹

(1.華中科技大學同濟醫學院附屬同濟醫院腎內科,湖北武漢 430030;2.華中科技大學同濟醫學院附屬同濟醫院綜合醫療科,湖北武漢 430030)

醫療文本數據蘊含著豐富的醫學知識,利用深度學習技術對醫療文本進行分析研究,從而生成有效的醫療信息,為臨床決策提供數據支持,提高整體醫療質量[1-2]。

靜態詞向量模型Word2vec[3]和Glove,預訓練過程缺乏詞的位置信息,導致無法表示多義詞。動態詞向量模型ELMO[4]和BERT[5],預訓練過程中結合詞的具體上下文語境進行學習,提升了詞向量表征能力。ChineseBERT[6]模型將漢字特有的字形和拼音信息融入預訓練過程,使模型更加綜合地建立漢字、字形、讀音與上下文之間的聯系。

醫療文本分類方法主要有機器學習方法和深度學習方法,文獻[7]利用LDA 模型進行特征提取來構建低維度向量,但需要復雜的人為特征構建工程,不能確保獲取特征的全面性和準確性。在深度學習領域,文獻[8]提出了LS-GRU 醫療文本分類模型,解決了GRU模塊特征提取能力不足的問題,采用Word2vec模型將醫療文本向量化,得到的靜態詞向量語義表征能力較弱。文獻[9]針對評論文本情感極性判斷問題,提出了BERT-BiLSTM 情感分類模型,BiLSTM 模塊受限于循環依賴機制,導致訓練效率較低。以上模型均賦予每個詞相同權重得分,無法聚焦于對分類結果影響較大的關鍵詞。

針對醫療文本分類研究仍然存在的問題,提出了ChineseBERT-BiSRU-AT 醫療文本分類模型,主要貢獻和創新點如下:

1)針對傳統向量模型無法表示多義詞問題,采用ChineseBERT 將醫療文本向量化,得到詞的動態向量表征。

2)為提升模型整體訓練效率,采用簡單循環單元[10]提取文本序列信息。

3)軟注意力機制計算每個詞對分類結果的影響大小,賦予模型識別關鍵特征的能力。

1 在線課程評論情感分析模型

1.1 模型整體結構

基于ChineseBERT-BiSRU-AT 的醫療文本分類模型整體結構如圖1 所示。主要由醫療文本預處理、ChineseBERT 預訓練模型、雙向簡單循環單元語義提取層、軟注意力機制和分類層組成。文本預處理將醫療文本處理成能夠輸入模型的數據格式;ChineseBERT 模型負責學習詞的動態語義表示;雙向簡單循環單元學習句子序列高維語義特征,軟注意力機制計算每個詞的權重大小,分類層得到醫療文本分類結果。

圖1 模型整體結構

1.2 醫療文本預處理

首先對醫療文本數據集進行數據清洗,通過編寫正則表達式刪除部分特殊字符,并去除部分不合規樣本。使用ChineseBERT 分詞器對醫療文本進行字符級別分詞操作,按照詞匯表序號將字符替換成序號表示;根據序列最大長度對文本進行首部截斷或后補0,首尾位置分別加入句首標志[CLS]和分句標志[SEP],得到文本的靜態語義向量表示。

1.3 ChineseBERT預訓練模型

模型ChineseBERT 針對漢字特性,將字形與拼音信息融入到預訓練過程,增強對中文語料的建模能力。特征抽取模塊為Transformer 編碼器,自注意力機制捕捉詞與詞之間的依賴關系,提取句法結構信息[11]。字形嵌入由多個不同字體圖像向量化后融合而成,拼音嵌入則由對應的羅馬化拼音字符序列經過CNN 模塊訓練得到。模型整體框架如圖2 所示。

圖2 ChineseBERT模型結構

其中,融合嵌入由字嵌入、字形嵌入與拼音嵌入經過一個全連接層融合得到,相關過程如圖3 所示;e={e1,e2,…,en}為輸入向量,由融合嵌入和位置嵌入相加組成,位置嵌入PE計算過程如式(1)、(2)所示。經Transformer 編碼器動態訓練后得到的詞動態語義表示T={T1,T2,…,Tn},Ti表示第i個詞的語義向量表示,作為BiSRU 層的輸入向量。

圖3 融合向量組成

1.4 雙向簡單循環單元BiSRU

簡單循環單元(Simple Recurrent Unit,SRU)擺脫了對上一個時間狀態輸出的依賴,提高并行計算能力,加快序列處理速度,較LSTM 模型[12]運算速度更快,參數更少。單個SRU計算公式如式(3)-(6)所示。

其中,⊙表示矩陣對應元素的乘法運算;Wt、Wr、W、bf、br、vf和vr均為模型中的可學習參數;rt和ft分別代表重置門和遺忘門,用于控制信息流入下一步的程度并緩解梯度消失與爆炸問題[13]。由式(6)可知,計算時間步狀態ht不再依賴上一個時間步輸出ht-1,提高模型并行處理速度。為增強SRU 對文本語義的建模能力,將前向SRU 和后向SRU 合并為BiSRU 模塊,得到t時間步BiSRU 輸出狀態Ht。

1.5 軟注意力機制層

軟注意力機制計算每個詞的權重大小,賦予對分類結果影響大的焦點詞更高權重,有助于提升模型分類性能[14]。將BiSRU 層獲取的文本高維序列特征H輸入到軟注意力機制層,計算每個時間步輸出Ht的權重at,加權求和后得到注意力特征A,計算過程如式(7)-(9)所示。

其中,tanh(·)為非線性函數,exp(·)為指數函數。

將軟注意力特征A映射到實例分類空間,由Softmax()函數計算得到文本屬于某個類別的概率大小,Top(·) 取行最大值對應的標簽作為分類結果Result,計算過程如式(10)、(11)所示。

2 實驗結果分析

2.1 數據集與評價標準

實驗數據集為患者呼吸科影像,經數據清洗后得到合格樣本856 例;采用文本描述、診斷字段分別作為樣本內容和標簽。數據集包含肺氣腫408 例和肺炎448 例,按照8∶1∶1 將數據集劃分為訓練集、測試集和驗證集。

為驗證模型在醫療文本分類任務上的有效性,采用準確率(Accuracy)、精確率(Precision)、召回率(Recall)和F1分數作為評價指標。計算過程如式(12)-(15)所示。

2.2 實驗環境與模型參數設置

采用Pytorch1.7.1 深度學習框架和python3.6.0 及其他第三方庫進行模型訓練,采用Linux 操作系統,GTX3080 顯卡,顯存24 GB。模型參數設置如下:BiSRU 隱藏層大小128,層數2;隨機失活概率大小為0.5,L2 正則化系數為0.1;訓練輪次為5 次,損失函數為多交叉熵損失函數;軟注意力機制維度256;序列最大長度為100;批處理大小為64,初始學習率為1×10-5;引入RAdam[15]優化器,自動調整學習率大小,避免頻繁手動調整。

2.3 實驗對比設計

為驗證模型有效性,采用近期表現優秀的深度學習模型進行對比。為降低實驗隨機誤差,固定隨機數種子,并取10 次實驗結果的平均值作為最終結果,選取對比模型如下:

1)LS-GRU[8]:文獻[8]提出的LS-GRU模型,LSTMGRU 模塊提取序列特征。

2)BERT-BiLSTM[9]:文獻[9]提出的BERT-BiLSTM模型,BERT 模型得到結合具體上下文語境的詞向量表示,BiLSTM 抽取文本全局序列信息。

2.4 結果分析

模型實驗結果如表1所示,ChineseBERT-BiLSTM和ChineseBERT-BiSRU 模型訓練時間如圖4 所示。由表1 可得,該文提出的ChineseBERT-BiSRU-AT 模型F1 得分最高,優于近期表現較好的LS-GRU 和BERT-BiLSTM 模型,證明了ChineseBERT 與BiSRUAT 結合的有效性。

圖4 模型訓練時間

表1 性能指標對比

與模型Word2vec-BiSRU、ELMO-BiSRU 和BERT-BiSRU 相對比,ChineseBERT-BiSRU 模型的F1分數分別提升了6.71%、5.58%和2.77%,說明了ChineseBERT 將漢字字形和拼音信息融入中文語料預訓練過程,通過參考詞的上下文聯系,學習到語義表征能力更強的動態詞向量,應用效果優于其他詞向量模型。靜態詞向量模型Word2vec 訓練過程缺乏詞的位置信息,無法表示多義詞,F1 分數較低,而ELMO 和BERT 模型能夠結合詞的上下文語境進行動態編碼,效果優于Word2vec。BERT 采用了特征提取能力更強的Transformer 編碼器,ELMO 則使用了雙向LSTM,因此模型BERT-BiSRU 的F1 分數高于ELMO-BiSRU。

設置實驗ChineseBERT-BiSRU 與ChineseBE RT-BiSRU-AT 進行對比,結果表明軟注意力機制計算每個詞的權重大小,聚焦于對分類結果影響較大的關鍵特征,能夠有效提升模型分類性能。

由圖4 可得,ChineseBERT-BiSRU 模型輪次訓練時間均低于ChineseBERT-BiLSTM,BiSRU 模塊訓練效率優于BiLSTM,降低模型訓練復雜度,但仍保持著高效的序列建模能力。

綜上所述,該文提出的ChineseBERT-BiSRUAT 模型能夠有效地提升醫療文本分類性能。

3 結論

針對醫療文本分類問題,提出了基于Chinese BERT-BiSRU-AT 的醫療文本分類模型。通過ChineseBERT 模型學習到結合具體上下文語境的動態詞向量表征,解決了傳統詞向量無法表示多義詞問題,應用效果優于實驗對比的其他詞向量模型。采用BiSRU 模塊進行序列特征提取,訓練效率優于BiLSTM。軟注意力機制能夠識別出關鍵詞,賦予較高權重。利用醫療影像報告數據集進行實驗,結果表明ChineseBERT-BiSRU-AT 模型在醫療文本分類任務上的有效性。在未來的研究中,將考慮進一步提升模型訓練速度,并將該模型遷移到其他文本分類領域。

猜你喜歡
語義分類文本
分類算一算
語言與語義
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
主站蜘蛛池模板: 91亚瑟视频| 欧美三级自拍| 欧美性精品| 亚洲热线99精品视频| 色哟哟国产成人精品| 久久香蕉国产线看精品| 欧美亚洲香蕉| 亚洲国产精品美女| 激情六月丁香婷婷| 中文字幕乱码中文乱码51精品| 99久久精品国产综合婷婷| 免费一级毛片不卡在线播放| 色悠久久综合| 日韩国产综合精选| 69免费在线视频| 亚洲综合亚洲国产尤物| 国产福利微拍精品一区二区| 国产欧美高清| 亚洲自偷自拍另类小说| 午夜小视频在线| 91精品久久久无码中文字幕vr| 国产乱子伦无码精品小说| 国产超碰一区二区三区| 潮喷在线无码白浆| 国产视频 第一页| 强奷白丝美女在线观看| 国产成人无码播放| 色婷婷久久| 中文字幕免费视频| 欧美亚洲第一页| 亚洲成网777777国产精品| 国产婬乱a一级毛片多女| 精品福利网| 亚洲欧美日韩综合二区三区| 国产在线91在线电影| 国产成人亚洲精品无码电影| 囯产av无码片毛片一级| 亚洲无线国产观看| 伊人久久婷婷五月综合97色| 国产精品内射视频| 欧美成人区| 色偷偷一区| 114级毛片免费观看| 国内精品久久人妻无码大片高| 色哟哟精品无码网站在线播放视频| av在线无码浏览| 97se亚洲综合在线| 激情在线网| 欧美在线视频不卡| 免费无码AV片在线观看中文| 国产精品一老牛影视频| 精品中文字幕一区在线| 91无码人妻精品一区| 久久鸭综合久久国产| 免费一级无码在线网站| 国产香蕉97碰碰视频VA碰碰看| A级全黄试看30分钟小视频| 91成人免费观看在线观看| 欧美一级在线播放| 国产乱人激情H在线观看| 四虎影视永久在线精品| 无码福利日韩神码福利片| 国产欧美中文字幕| 欧美激情视频二区三区| 免费人成在线观看成人片| 欧美成人一区午夜福利在线| 国产福利影院在线观看| 激情午夜婷婷| 97国产在线播放| 四虎免费视频网站| 国产爽爽视频| 色婷婷电影网| 久久精品电影| 日本欧美一二三区色视频| 日韩a级片视频| 国产精品熟女亚洲AV麻豆| 51国产偷自视频区视频手机观看| 日本亚洲成高清一区二区三区| h视频在线播放| 丰满的熟女一区二区三区l| 亚洲乱码在线视频| 伊人精品视频免费在线|