999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于注意力機制BiLSTM-CharCNN的藥物不良反應監測方法

2022-10-24 09:29:08葸娟霞葉思維
現代計算機 2022年16期
關鍵詞:特征提取文本實驗

葸娟霞,徐 鵬,葉思維

(廣東東軟學院信息管理與工程學院,佛山 528225)

0 引言

藥物不良反應(adverse drug reactions,簡稱ADR)是指患者在使用某種藥物治療疾病時所引發的有害反應。及時地知道藥物不良反應對醫藥公司和監管機構非常重要。獲得藥物不良反應的傳統方式具有時效低、更新慢的特點,因此需要找到一個具有時效性高,更新快的方法。人們在社交媒體上發表健康情況的推文滿足以上兩個特點,因此社交媒體也就成為藥物不良反應的研究數據來源。社交媒體的數據是用戶用藥的第一手資料,時效性高,覆蓋率廣,但如何在海量的數據里找到與ADR相關的推文,這對ADR研究是一項巨大的挑戰。

Sarker等對多種社交媒體資源進行全面挖掘,實現了多種特征的結合分析,這些特征包括n-gram特征、詞典特征、極性特征、情感分數特征和主題模型特征,通過實驗發現SVM算法的性能最好。Korkonteelos等關注到了情緒分析在藥物不良反應識別任務中的作用,他們利用一個新穎的情感分析算法并結合支持向量機(SVM)分類器,來實現對推特數據集上的藥物不良反應任務的識別及提取,其在推特數據上的1值達到了69.16%。Cocos等利用雙向長短時記憶網絡(BiLSTM)訓練推特數據集,其推文數量為844,最后的1值為0.755。Xia等利用遷移學習結合LSTM模型,在遷移學習的實例、特征表示、參數、關系知識4個方面進行了實驗,取得了良好的效果,使用遷移學習解決了數據稀缺的重要難題。Rezaei等使用推特的數據集,通過CNN、HNN和FastText三類深度學習網絡對其進行分類,這三種模型的輸入都采用word2Vec向量,最后證明了其方法的有效性。

本文提出基于注意力機制的BiLSTMCharCNN藥物不良反應推文識別方法。通過將字符級向量與詞向量相結合的方法來對推文進行識別。以社交媒體上人們討論健康情況的推文為實驗數據,并將實驗結果與BiLSTM,CharCNN,BiLSTM+Attention,BiLSTM+CharCNN的結果進行對比,以召回率()、精確率()、1值為評價指標,驗證了本文所提出的基于注意力機制的BiLSTM-CharCNN藥物不良反應識別的有效性。

1 模型方法

1.1 詞向量表示

詞向量指的是將高維度離散的文本數據轉化為低維度密集向量,本文方法中的詞嵌入部分能夠準確地抓取詞語的語義。接著應用詞嵌入模型Word2vec,它可以通過機器學習模型將原來不同的詞轉化為不同的實數向量。Word2vec可以在大量文本數據集中進行局部訓練,訓練得到的結果—詞向量,可以很好地擬出度量詞與詞之間的相關性。

1.2 長短時記憶網絡LSTM

長短時記憶網絡(LSTM)是一種特殊的RNNs,能有效地解決傳統RNN在處理時間序列長期依賴中的梯度消失和梯度爆炸的問題。LSTM通過在RNN傳輸狀態后加入細胞狀態(C)來控制傳輸狀態,由于在傳輸過程中細胞狀態變化較慢,誤差相對穩定,可以在多個時間步上持續學習且在一定程度上加強LSTM的記憶能力。

LSTM的細胞結構如圖1所示。

圖1 LSTM單元結構

LSTM結構中的核心部分是圖1中最上邊的線-C,叫做細胞狀態(cell state),它一直存在于LSTM的整個系統之中,其中:

式(1)中f叫做遺忘門,表示C的需要用作計算C的特征。f是一個向量,向量中的每個元素的范圍均介于[0,1]之間。通常使用sigmoid函數作為激活函數。上圖中的?代表LSTM中最重要的門機制,遺忘門表示的是hx之間的單位乘關系,可由公式(2)表示:

i叫做輸入門,由xh經由sigmoid激活函數計算而來,如下所示:

最后,為了計算預測值和生成下一個時間片完整的輸入,需要計算隱節點輸出,如下式所示:

由式(6)和式(7)可知,隱節點輸出h取決于輸出門O和細胞狀態C,且O的計算方式與fi類似。

LSTM是一個信息單向傳播的模型,無法編碼從后到前的信息。但是對于一些文本分類任務來說,后邊的信息依然可以影響前邊的詞句。為了解決這個問題,提出了BiLSTM模型,其主要思路是將后向關系和前向關系鏈接到同一個輸出層,且在其中共享權值。其網絡結構如圖2所示。

圖2 BiLSTM結構圖

在前向層從1時刻到時刻正向計算一遍,然后將結果保存;同時,從時刻到1時刻,逆向計算一遍,同樣將計算結果保存;最后將正向計算和逆向計算的結果相加,得到整個BiLSTM的計算結果,其具體計算過程見下式:

1.3 注意力機制

注意力機制(attention mechanism)是一種模仿人類注意力的網絡構架。在注意力資源有限的情況下,能夠有效篩選和提煉大量復雜冗余信息中的高質量內容,可以同時聚焦多個細節部分。注意力機制可以彌補信息的長距依賴性這一缺陷。

1.4 注意力機制的BiLSTM-CharCNN模型

本文的模型結構如圖3所示:主要包括輸入層、特征提取層和輸出層。

圖3 模型框架圖

輸入層主要對原始的數據進行清洗、分詞等操作,轉化為較規范的文本形式;接下來,在特征提取階段,使用了兩種特征提取方法。

(1)字符級特征提取:使用CharCNN模型提取字符級特征。首先對文本進行字符數字化,然后對其做卷積操作,對卷積的結果做Max-pooling池化操作,這樣的卷積池化操作共執行3次。最后將其輸入全連接層,得到字符級特征向量。

(2)使用BiLSTM-Attention模型提取特征向量。首先,使用word2vec算法得到文本的詞向量,接下來將詞向量輸入到BiLSTM模型中,最后將得到的特征向量做Attention操作,這樣就能通過調整權重參數去除冗余信息,提取關鍵部分的信息,對文本進行優化。再使用兩種不同的方法進行特征提取,并將提取到的特征信息進行連接,然后輸入到輸出層。輸出層包含一個全連接層和一個softmax層,使用全連接層調整特征向量的維數,然后使用softmax分類器對文本進行分類操作。

1.5 算法描述

輸入:原始數據集;類別標記;

輸出:分類模型;模型的評價指標;

(1)數據預處理:p=(),函數主要包含數據清洗和分詞;

(2)特征提取:

①BiLSTM+Attention:=(p)函數包含多個步驟,具體如下:

②CharCNN:函數包含多個步驟,具體如下:

③=⊕F

(3)輸出層:softmax:=(),最后得到分類結果。

2 實驗與結果分析

2.1 實驗數據

本文所采用的數據集是SMM4H共享任務評測的數據集。該數據集主要提供了推特用戶發表推文的ID號和用戶的ID號。由于存在用戶刪帖等因素的存在,最后一共收集到7168條推文。在實驗之前,首先統計本研究的數據集,結果見表1。

表1 數據集統計

由于本研究數據集的樣本數較小,為了充分訓練,本文采用8∶2的數據集劃分方式,最后測試集的數據集是在訓練結束后在整個數據集上隨機采樣得到的。

表2給出了推文的示例。由表2可以看到,社交媒體的文本是不規范的,充斥著各種符號和URL等信息,所以需在實驗前對數據進行文本預處理。

表2 推文示意表

2.2 數據處理

因為推文數據都是不規則的、較口語化的文本內容,所以首先需對推文數據進行文本預處理。表3顯示了文本預處理的實例。

表3 推文預處理示意表

文本具體的處理方法為:統一單詞的大小寫,將所有單詞轉化為小寫;將所有出現的URL、電子郵件地址以及提及的其他用戶名分別替換為“url”“email”“atSign”;推文中有一類標簽文本,表示推文的類型,在本文的研究模型中未使用到,所以將標簽類型刪掉;將推文中的數字部分修改為一個代表性的數字。

2.3 超參數選擇

本實驗采用正則化和Dropout的方法來降低模型的復雜度,避免過擬合。在CharCNN階段和BiLSTM階段均使用Dropout的方法來避免過擬合,在損失函數中引入了L2正則化,既能提升準確度,又能增加模型的魯棒性。本文使用Adam梯度下降法來加速模型的收斂速度。

在神經網絡中隱藏層數、單元個數、批量大小或迭代次數等參數也被稱為超參數,它們決定了特定神經網絡結構的總體設置。本實驗使用網格搜索的方法進行超參數選擇,即用預定義的超參數搜索空間的不同超參數組合來訓練神經網絡結構的多個不同版本,并評估這些參數組合,選擇在驗證集上評估性能最佳的配置作為最終的參數組合。

相關超參數設置:詞向量的維度設置為200維;CharCNN階段字符序列長度為1014;CharCNN卷積層層數設置為3;LSTM的時間步設置為128,LSTM輸出神經元個數設置為12;訓練batch大小設置為64;迭代epoch設置為5;學習率設置為0.001;dropout值設置為0.9(這是dropKeepProb的值)。

2.4 評價指標

本文研究內容是社交媒體上藥物不良反應檢測任務,是自然語言處理中常見的分類任務。與藥物不良反應有關,標記為1;否則標記為0。預測結果的混淆矩陣如表4所示。其中,表示預測為與藥物不良反應有關,實際也與藥物不良反應有關;表示預測與藥物不良反應有關,而實際無關;表示預測與藥物反應無關,而實際有關;表示預測與藥物不良反應無關,實際也無關。

表4 混淆矩陣

召回率表示模型實際為1的樣本,預測仍為1的樣本概率,其計算公式為:

精準率是指在所有預測為1的樣本中,實際為1的樣本比例,其計算公式為:

值是對召回率和精準率的綜合評價指標,是對其進行加權平均的結果,其計算公式為:

2.5 實驗結果及分析

為了驗證本研究提出模型的有效性,本文選取BiLSTM、CharCNN、BiLSTM+Attention算法做對比實驗,通過與經典模型的對比分析,能夠準確地反映本模型的優越性,其實驗結果如表5所示。

表5 藥物不良反應的二分類結果

表5中所有的數據都是在相同的實驗參數和相同數據集中訓練得到的結果,其中單獨的BiLSTM模型或者CharCNN模型在這個任務上的效果都欠佳,可以看到召回率都在0.5以下。其精準率很高,而召回率很低,這是因為精準率和召回率是兩個相互矛盾的指標。由公式(11)和(12)可得,精準率的大小與假正例成反比,召回率的大小與真正例成反比。這樣就導致精準率和召回率相互矛盾,類似于處于拔河比賽的兩端。而值能夠平衡這兩個指標,衡量模型性能的指標,但是這兩個模型的值也都處于一個較低的水準。

比較BiLSTM+Attention模型和單純使用BiLSTM模型的值和精準率,會發現值提高了約16%,召回率提高了約29%。同樣比較BiLSTM和BiLSTM+CharCNN,發現后者的值提高了約19%,召回率提高了約33%。比較BiLSTM+Attention和BiLSTM+CharCNN模型,發現相對于前者,后者召回率提高了4%,值提高了約3%,精準率提高了約2%。最后,本文用到的模型與前幾個模型相比,在精準率幾乎不變的情況下,召回率提高了約3%,值也提高了約1%。對于藥物不良反應的監測問題,該模型在一定程度上提高有不良反應用戶被檢測出的概率。

3 結語

本文模型主要是對社交媒體上的藥物不良反應進行分類。使用了雙向長短時記憶網絡LSTM和CharCNN模型進行特征提取,同時結合注意力機制對特征向量進行優化。使用雙向長短時記憶網絡,能夠完美保留LSTM處理文本的優勢,處理長距離的依賴特征,并能保證更全面地考慮上下文信息。注意力機制能夠通過調整雙向長短時記憶網絡中各節點的權重,使得模型能夠識別文本中更加關鍵的部分,這樣能最大程度地削弱冗余部分對文本的影響,進而優化特征向量。CharCNN從字符信息出發,提取文本在字符粒度上的特征向量。與傳統的人為設計的文本特征和基于單一的神經網絡提取的特征向量相比,能夠從不同層次更全面地描述推文中的文本特征,且能識別文本中的關鍵信息,進而在藥物不良反應的分類任務中取得更好的效果。下一步的研究重點就是如何確定推文中的不良反應所對應的相關藥物。

猜你喜歡
特征提取文本實驗
記一次有趣的實驗
在808DA上文本顯示的改善
做個怪怪長實驗
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
一種基于LBP 特征提取和稀疏表示的肝病識別算法
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
基于MED和循環域解調的多故障特征提取
主站蜘蛛池模板: 国产国产人在线成免费视频狼人色| 爆操波多野结衣| 亚洲第一精品福利| 午夜视频日本| 婷婷色丁香综合激情| 无码内射中文字幕岛国片| 精品一区二区三区视频免费观看| 婷婷在线网站| 国产免费怡红院视频| 热re99久久精品国99热| 欧美日本在线播放| 亚洲色图欧美视频| 国产成人亚洲欧美激情| 国产精品尤物在线| 四虎精品免费久久| 亚洲熟女偷拍| 中文字幕va| 午夜国产精品视频| 九九香蕉视频| 精品国产免费观看| 久久香蕉国产线看观看亚洲片| 日本免费福利视频| 欧美一级夜夜爽www| 日韩国产精品无码一区二区三区| 国产91视频观看| 久久精品人妻中文系列| 亚洲天堂网2014| 国产福利在线免费| 精品视频第一页| 日本国产精品一区久久久| 国产手机在线小视频免费观看| 亚洲综合色婷婷中文字幕| 国产一区免费在线观看| 日韩中文字幕免费在线观看 | av午夜福利一片免费看| 精品欧美一区二区三区在线| 国内精品91| 精品无码一区二区三区在线视频| 久久综合丝袜长腿丝袜| 深爱婷婷激情网| 国产精品嫩草影院视频| 国产剧情一区二区| 91在线播放免费不卡无毒| 国产真实乱人视频| 综合五月天网| 欧美在线免费| 另类综合视频| a级毛片网| 久久中文无码精品| 国产毛片基地| 久久综合九色综合97婷婷| 国产毛片基地| 夜夜拍夜夜爽| 91福利片| 国产一区在线观看无码| AV无码国产在线看岛国岛| 亚洲不卡无码av中文字幕| 伊人福利视频| 亚洲精品图区| 91视频99| 日韩精品毛片人妻AV不卡| 国产区成人精品视频| 午夜爽爽视频| 尤物午夜福利视频| 国产在线98福利播放视频免费| 2020极品精品国产| 亚洲成av人无码综合在线观看| 一级黄色欧美| 亚洲区视频在线观看| 亚洲浓毛av| 美女啪啪无遮挡| 亚洲中文在线看视频一区| 国产成人在线无码免费视频| 情侣午夜国产在线一区无码| 欧美国产综合色视频| 日韩中文精品亚洲第三区| 日本91视频| 国产第一页屁屁影院| 欧美精品高清| 欧美日韩高清在线| 欧美日韩国产在线人| 国产在线麻豆波多野结衣|