999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于評論挖掘的藥物副作用發現機制

2015-06-09 23:45:58趙明珍程亮喜林鴻飛
中文信息學報 2015年6期
關鍵詞:標準化概念模型

趙明珍,程亮喜,林鴻飛

(大連理工大學,計算機科學與技術學院,遼寧 大連 郵編116024)

續有

?

基于評論挖掘的藥物副作用發現機制

趙明珍,程亮喜,林鴻飛

(大連理工大學,計算機科學與技術學院,遼寧 大連 郵編116024)

從醫療社交網站的用戶評論中挖掘藥物副作用時,由于人們可能采用不同的表述方式來描述副作用,而新藥的上市與用藥者的差異性也會造成新的副作用出現,因此從評論中識別新的副作用名稱并進行標準化十分重要。該文利用條件隨機場模型識別評論中的副作用,對識別出的副作用名稱進行標準化,最后得到藥物的副作用。通過將挖掘出的藥物已知的副作用與數據庫記錄進行對比驗證了本文方法的有效性,同時得到一個按評論中的發生頻率排序的藥物潛在副作用列表。實驗結果顯示,條件隨機場模型可以識別出已知的與新的副作用名稱,而標準化技術將副作用名稱進行聚合與歸并,有利于藥物副作用的發現。

藥物副作用;用戶評論;文本挖掘;實體標準化

1 引言

隨著Web 2.0技術的發展,互聯網上出現了社區、論壇、博客、微博、Wiki等各種形式的用戶生成內容(User-Generated Content,UGC),它們極大地豐富了網絡,并扮演著越來越重要的角色,這其中包括用戶對藥物的評論。另一方面,藥物副作用(Adverse Drug Reaction, ADR)帶來的危害越來越大,由它引起的病患占據所有醫院病患的5%,藥物副作用已成為導致醫院死亡的第五大原因[1]。藥物副作用逐漸成為醫學界和民眾關注的熱點,如何判斷和預測藥物的副作用具有重大的理論和實用價值。近年來互聯網上出現的醫療健康類的社交網站與論壇積聚了大量來自用戶的用藥體驗與評論,其中蘊含的最新副作用信息日益受到人們的重視,并逐漸形成從用戶評論中挖掘藥物副作用的研究方向。

Leaman等人[2]通過計算滑動窗口中的評論內容與詞典中副作用名稱之間的相似度進行實體識別,對識別出的副作用名稱進行過濾后挖掘藥物的副作用,在人工標注的數據集上識別的F值為73.9%。Chee等人[3]利用用戶對藥物的評論信息評估藥物的安全性。由于正負例數量不均衡,他們采用Bootstrapping方法增加正例,并融合多個分類器對藥物進行分類,預測可能將被監管或召回的藥物。Nikfarjam等人[4]采用關聯規則從已標注的評論中挖掘副作用口語化表述的潛在模式,并利用這些語言模式從用戶對藥物的評論中自動抽取副作用,在測試集上測試得到的F值為67.96%。Yang等人[1]利用用戶健康詞匯表(Consumer Health Vocabulary, CHV)[5]構建了一個擴展的副作用名稱詞典,采用滑動窗口從關于藥物的帖子中識別副作用名稱,并使用關聯規則挖掘藥物的副作用,對于五種指定藥物的實驗得到較好的效果。Wu等人[6]提出生成式和判別式兩種方法來對文本中的藥物副作用進行挖掘,實驗結果表明網絡中關于藥物副作用的討論內容可用于未知副作用的監測,而生成式模型方法在準確率與召回率兩方面均比判別式方法更有效。

由于語言表述的自由性與多樣性,人們在表達同一個副作用概念時可能會采用不同的措辭方式,而新藥的上市以及用藥者的差異性又可能會導致新的副作用出現,故而用戶評論中會存在數據庫未收錄的副作用名稱,有的甚至是因拼寫錯誤而造成的不同。因此從評論中挖掘藥物的副作用時,識別新的副作用名稱并將其映射到統一的副作用概念上是十分重要的,否則將無法發現一些潛在的副作用,或挖掘出的副作用發病率與事實存在偏差。以前的工作在對藥物副作用進行識別時,或者利用了滑動窗口與詞袋模型,或者通過副作用口語化表述的模式來識別,這些方法對新副作用名稱的識別效果往往不夠理想;另外他們對識別出的新副作用名稱的后續處理也很有限,影響藥物副作用的發現。針對這些方法的不足,本文采用條件隨機場(Conditional Random Field, CRF)模型識別副作用名稱,可以有效識別出已知的以及新的副作用名稱;對于識別得到的副作用名稱,我們將其標準化并映射到已知的副作用概念上。

2 數據與方法

本文從用戶評論中挖掘藥物副作用的整個流程分為數據準備、副作用實體識別與過濾、副作用實體標準化、藥物副作用發現四個部分,如圖1所示。我們以DailyStrength網站[7]上用戶對藥物的評論作為語料,利用CRF模型識別出其中的副作用實體,然后使用本文提出的副作用實體標準化方法對識別出的副作用名稱進行標準化,將其映射到統一的副作用概念上,最后統計每種藥物評論下副作用概念的發生頻率進而挖掘出藥物的副作用。

圖1 藥物副作用挖掘系統架構圖

2.1 數據準備

本文利用SIDER數據庫[8]中的藥物副作用數據創建了一個副作用詞典,其中共包含5 719個副作用概念。每個副作用概念擁有一個統一醫學語言系統(Unified Medical Language System, UMLS)的概念編號CUI (UMLS Concept Id),并由含義相同的一種或多種副作用名稱構成。例如,CUI為C0239739的概念有[sore gums, gum pain, gingival pain, gum tenderness] 四種意義相同的副作用名稱。

本文從DailyStrength網站上抓取了SIDER數據庫中存在記錄的870種藥物在2013年3月24日之前的用戶評論。DailyStrength上的用戶評論是按藥物分組的,即每個評論對應的藥物是確定的,無需再對評論中副作用名稱與藥物的關聯關系進行判別。用戶在撰寫評論時具有一定的隨意性,導致語料中存在一些不規范的語言現象。為了減少它們對后續處理造成的影響,我們對評論語料進行了一些預處理:在無結束標點符號的評論語句后面加上表示結束的句號;修正一些不規則的寫法(如!!! -> !, isnt -> is not, im -> I am, ive -> I have)等。

預處理之后,對評論內容進行句子劃分,共得到213 466個不同的句子。從中隨機抽取一定數量的句子,采用傳統的{B,I,E,S,O }標記方法,標注實體在句子中的起止位置。隨機抽取并標注了1 500個含有實體的句子,將其作為實體識別的訓練集;另外隨機抽取出500個句子進行標注,將其作為實體識別的測試集(這些句子中有的包含實體,有的不包含,其分布情況與整體語料相同)。從用戶評論中挖掘藥物副作用這一領域,目前還沒有一個權威、公開的標注數據集可以用來測試副作用實體識別方法的性能,因此我們利用自己標注的數據集來對本文副作用實體識別方法的效果進行測試。

2.2 副作用實體識別與過濾

副作用實體的識別涉及從用戶評論中識別副作用名稱,本文將副作用實體識別歸結為命名實體識別問題,而序列標注是命名實體識別領域常用的方法。CRF作為一種無向圖模型,常用于序列標注和切分序列化數據等問題。CRF既能克服HMM嚴格的條件獨立性的假設,又克服了MEMM的偏置問題,可以更加真實地擬合現實數據,所以在命名實體識別領域得到廣泛的應用。唐旭日等人[9]使用CRF模型識別中文地名。Settles等人[10]將CRF模型運用于生物命名實體識別,取得很好的效果。劉凱等人[11]使用CRF模型識別中醫臨床病例中的命名實體,相較于HMM和MEMM,取得了最好的結果。

鑒于CRF模型在命名實體識別領域的出色性能,本文采用CRF模型從用戶評論語料中識別副作用實體,具體使用了開源的CRF++ 工具包*http://crfpp.sourceforge.net/。識別時利用了詞語的兩類特征:詞語特征與詞性特征,其中詞性特征是使用Stanford POS Tagger工具包[12]中的english-left3words-distsim.tagger 模型對評論語句標注得到的。在利用CRF模型進行識別時,對于每個詞語,本文考慮的上下文特征包括當前詞語與前兩個、后兩個詞語與詞性特征。表1是評論“very good pain relief but too strong .”中每個單詞的特征情況,其中“POS”為詞性標記,“標注”是人工標注的結果。

表1 CRF特征

在訓練集上對CRF模型訓練完成后,我們在測試集以及所有的評論語料上進行實體識別。我們利用CRF識別出句子中的所有實體,但是,這些實體既包含藥物的副作用也包含藥物的適應癥,如表1所示的評論,說明相應的藥物緩解了疼痛,即疼痛不是其副作用。因此還需要過濾掉藥物的適應癥。對于藥物適應癥的鑒定,參考Leaman等人[2]的做法并略作改進,我們根據實體所在子句(Clause)是否含有某些特定詞語來確定其是否是藥物的適應癥。適應癥實體所在子句中通常含有ease,work for,help with,relief等表示治療、緩解等意義的詞匯,為此我們收集了這樣一個指示詞表,并根據實體所在子句內是否含有這些詞匯確定其為副作用或適應癥。此外,為了提高實體識別的準確性,我們還檢測了子句中的否定詞,并據此進一步濾除非藥物副作用的實體。

2.3 副作用實體標準化

在副作用實體的標準化中,藥物的每種副作用被視為一個副作用概念,它對應著一種或多種表述形式即副作用實體。實體標準化就是通過一定的手段將實體映射到對應的標準概念上,一般可分為精確匹配(Exact Matching)和近似匹配(Approximate Matching)兩種方式。在本文中,對于從評論里識別出來的副作用名稱,若詞典中存在該名稱,則直接通過精確匹配得到對應的標準化概念;否則進行近似匹配,即利用本文所述的近似匹配方法將其映射到標準化概念上,或者該實體在詞典中無法找到對應的概念,而可能屬于一種新的副作用概念。

1. 方法流程

對于一個待標準化實體,如果精確匹配成功,則直接得到標準化概念;否則我們通過近似匹配從副作用詞典中尋找與之最相關的副作用名稱,并將該名稱對應的概念作為標準化概念。本文的近似匹配部分由三個模塊組成,這三個模塊分別基于常規檢索、 擴展語義檢索以及編輯距離進行標準化。本文提出的藥物副作用標準化方法的流程如圖2所示。

圖2 藥物副作用名稱標準化方法的流程圖

本文標準化方法的近似匹配部分首先通過常規檢索進行標準化,若得到的匹配度大于設定的閾值TH1,則將相應的概念作為標準化結果;否則通過擴展語義檢索進行標準化,若得到的匹配度大于設定的閾值TH2,則將相應的概念作為標準化結果;否則根據編輯距離進行標準化,若得到的最短編輯距離小于設定的閾值TH3,則將相應的概念作為標準化結果。否則,詞典中沒有任何概念與當前待標準化實體匹配,該實體可能屬于一種新的副作用概念。

2. 近似匹配模塊

在本文近似匹配的三個模塊中,前兩個模塊利用信息檢索中的TF-IDF思想初步限定候選概念范圍,然后通過計算副作用名稱之間的匹配度進一步確定標準化概念;第三個模塊則根據最短編輯距離尋找最佳的標準化概念。

匹配度函數模塊1和2利用匹配度函數MD(Ent,Enti) 計算待標準化實體Ent與詞典中某一實體名稱Enti之間的匹配程度(MatchDegree),其具體的計算過程如下:

1)將Ent與Enti進行分詞、去停用詞、詞干化處理,分別得到詞袋A和B。2)對于詞袋A中的每個單詞am(m=1,2,…,p,p為A中單詞數),遍歷詞袋B,由如下公式計算出am與B中每個單詞bn的字面相似度(LiteralSimilarity)LS(am,bn):LS(am,bn)=2·Ncc/(La+Lb)(1)其中Ncc是am與bn的公共子串長度,La為am的字符數,Lb為bn的字符數。若Ncc小于設定的閾值,則認為不具有表征am與bn內在相關性的作用,并且可能會作為噪音影響計算結果,將其置為0。從B的所有單詞與am的字面相似度中找出最大值作為單詞am最終的字面相似度LSm,并將與之匹配的單詞從B中刪除,使之不重復作為A中其他單詞的最佳匹配。這樣,實體Ent1與Ent2之間的字面相似度LS為LS(Ent,Enti)=∑pm=1LSm/(La+|La-Lb|)(2)3)計算Enti對應的概念Coni涵蓋Ent中單詞的程度WC(WordCoverage)。Coni的全詞袋C=∪Bi(Bi為Con的第i個實體對應的詞袋,i=1,2,…,q,q為Con中實體數),詞袋A與C之間的相同單詞集合為|A∩C|,則Coni涵蓋Ent中單詞的程度WC(Ent,Enti)=|A∩C|/|A|。(4)Ent與Enti之間的匹配度MDEnt,Enti()=LS(Ent,Enti)+r·WC(Ent,Enti),(r∈[0,1]數)。

模塊1 通過常規檢索進行標準化

將每個副作用概念Coni視為一篇文檔,Coni對應的所有副作用名稱作為文檔內容,對該文檔進行分詞、去停用詞以及詞干化。將待標準化實體Ent也看為文檔,并進行相同的處理。根據TF-IDF技術,將每個副作用概念Coni與待標準化實體Ent分別表示為向量vi和v,然后利用開源搜索引擎框架Indri*http://www.lemurproject.org/indri/計算Ent與Coni之間的相關度,其中Indri內部使用的是語言模型和貝葉斯推理網絡相結合的檢索模型,可以用來有效地計算文檔之間的相關度。從模型的檢索結果中我們選取TOPN1個概念作為候選概念,然后利用上述匹配度函數MD計算待標準化實體與候選概念中每種副作用名稱之間的匹配度,并將匹配度最大的名稱對應的概念作為該實體的標準化概念。若檢索結果為空,則該模塊的標準化結果為空。

模塊2 通過擴展語義檢索進行標準化

模塊3 根據編輯距離進行標準化

副作用名稱中存在以下現象:① 兩個詞語的意義相同但拼寫卻存在一定差別(如“病毒血癥”的兩種拼寫viremia 與 viraemia);② 某一詞語為另一短語的縮寫形式(如概念C0079773的副作用名稱有CTCL和cutaneous T cell lymphoma,前者為后者的首字母縮寫)。待標準化實體中若含有這些詞語,則檢索結果可能不理想,無法命中正確的概念。這種情況下我們根據字符串之間的編輯距離尋找與之最匹配的名稱。

編輯距離(Edit Distance)用來衡量兩個字符串字面上的相異性。字符串str1和str2之間的編輯距離ED(str1,str2) 是指從str1轉換成str2所需要的插入、刪除和替換的最少次數。對于待標準化實體Ent和詞典中的實體名稱Enti分別進行分詞、去停用詞得到詞袋A和B,Ent和Enti之間的實體編輯距離定義為:

通過實體編輯距離得到與待標準化實體編輯距離最短的副作用名稱,并將其對應的概念作為該實體的標準化概念。

在計算兩個副作用名稱之間編輯距離時,我們考慮了其中某個詞語為縮寫詞的情況。一般來說,縮寫詞通常為某個短語的單詞首字母的縮寫,或單詞中前綴的首字母加上剩余部分首字母的縮寫(為此我們收集了一個英文前綴表)。因此在計算兩個短語之間的編輯距離時,若某詞語為另一短語的縮寫詞,則該詞語與短語的編輯距離為0。

2.4 藥物副作用發現

根據從評論語料中發現的所有副作用名稱,并參照標準化結果,我們得到每種藥物的評論中出現的副作用概念及包含此概念的評論所占的比例即發生頻率。對于發現的藥物已知的副作用,我們將其與已有的數據進行對比,驗證本文挖掘方法的有效性;對于數據庫中未記錄的藥物副作用,我們按其在評論中的發生頻率由高到低排序,得到一個藥物潛在副作用列表。

3 實驗結果與分析

3.1 實體識別效果測試

3.1.1 實體識別效果測試

我們在標注好的1 500個評論語句上訓練CRF模型,然后利用該模型對測試集中的500個評論語句進行副作用實體識別,將識別出的實體進行過濾后,得到實體識別的準確率為87.5%,召回率為58.7%,F值為70.3%。同樣以DailyStrength上的用戶評論作為實驗語料,Leaman等人[2]在其使用的人工標注的數據集上識別的準確率為78.3%,召回率為69.9%,F值為73.9%;Nikfarjam等人[4]在其人工標注的數據集上識別的準確率為70.01%,召回率為66.32%,F值為67.96%。文中所用實驗數據與Nikfarjam等人所用的數據基本相同,都來自DailyStrength網站的評論模塊,屬于同源數據,具有相同的數據分布,因此數據具有可比性。上述結果說明本文所述的方法可以有效的識別用戶評論中的副作用實體。

對錯誤識別的樣例進行分析,我們發現CRF模型最主要的錯誤是不能識別由分散的詞語構成的實體,如無法從“…majorswellinginmyanklesand…”識別出副作用anklesswelling;另外有一部分錯誤是由于識別出的實體與標準答案不完全相同造成的,例如generalfeelingofillness與illness、frequentheadaches與headaches等(前者為標準答案,后者為識別結果)。

在社交網絡中,隨意性和表達多樣性是用戶評論的重要特性。對于同一副作用,用戶可以使用多種表達方式來描述,這些表達方式差異性很大。對于某種表達方式,如果在訓練數據集中存在其足夠的信息和特征,CRF模型就可以對這種表達方式做出正確的標記。如果訓練數據集中某種表達方式的信息較少或者出現次數較少,CRF模型傾向于將其標記為普通文本,而不是將其標記為錯誤的副作用實體。如文中提到的評論:“…majorswellinginmyanklesand…”,其包含的副作用名稱為“anklesswelling”,CRF模型并沒有將其標記為“swelling”,而是將其標記為普通文本。因此,CRF模型在本文實驗中準確率較高。

從識別結果可以看出,本文方法識別實體的準確率較高,而召回率相對來說較低,說明由本文方法識別出的副作用實體大部分是正確的,后續挖掘出的藥物副作用關系是可靠的。在未來工作中,可以考慮向CRF模型中引入更多有效的特征來提高副作用實體識別的性能。

3.1.2 從評論中識別副作用實體

我們從870種藥物的408 318條評論中識別實體并過濾后,得到了729個詞典中存在的副作用名稱與3 143個新的副作用名稱,表2顯示了本文挖掘出的詞典中已有名稱與新名稱的統計情況(括號中為對應數值占總體的百分比),表3顯示了識別出的出現頻率最高的前10個新的副作用名稱。從結果可以看到,利用CRF模型不但識別出了已知的副作用名稱,而且能夠識別出潛在的新副作用名稱。由表可知,新名稱出現的總次數占總體的18.0%,而平均出現次數相對于已知名稱卻少得多,說明用戶在評論中使用新的、不同的副作用表述方式是很普遍的,因此進行標準化是很有必要的。

3.2 藥物副作用標準化

為了驗證提出的標準化方法的有效性,本文首先對近似匹配模塊標準化的準確率進行了測試。在測試時,我們從副作用詞典中隨機抽取滿足要求(即該副作用名稱在詞典中須有屬于同一概念的其他副作用名稱)的副作用名稱作為待標準化實體,同時將該名稱從詞典中刪除,并對刪除該名稱后的詞典建立索引。利用上述的標準化方法得到該實體的標準概念,并與正確的標準概念對比,從而得到標準化的準確率。在測試該標準化方法時,我們對其中的三個閾值TH1、TH2、TH3調優,并將最優的閾值用于從評論中識別出的藥物副作用的標準化中。

表2 藥物副作用實體識別結果統計

表3 識別出的頻率最高的前10個新的副作用名稱

3.2.1 檢索返回候選概念的數量

為了合理設置檢索返回的候選副作用概念的數量,我們對500個待標準化實體進行常規檢索并統計返回的前n個候選概念中包含正確概念的比例,結果如圖3所示。可以看出隨著返回候選概念數量的增加,結果中包含正確概念的比例逐漸變大,當返回候選概念數量n為20時該比例已達82.0%;但增速卻逐漸變緩,當n為30時該比例為83.2%,僅增加了1.2%,最終很難達到理想的100%。造成這種現象的一個可能原因是有些待標準化實體為某些生僻詞或縮寫詞,索引中幾乎沒有與其拼寫相同詞語,從而無法通過常規檢索返回正確的概念。這也是需要利用擴展語義檢索與編輯距離進行標準化的原因。

圖3 常規檢索返回的前n個候選概念中包含正確概念的統計概率

綜合考慮檢索結果包含正確概念的比例以及檢索的效率,我們在實驗中將常規檢索返回的候選概念數量N1設置為25;而擴展語義后查詢詞語得到擴充,與之相關的候選概念數量也會相應地增多,因而我們將擴展語義檢索返回的候選概念數量N2設置為40。

3.2.2 近似匹配模塊標準化測試與分析

為了測試各個模塊對標準化準確率的提升作用,我們分別采用“模塊1”、“模塊2”、“模塊3”、“模塊1+2”、“模塊1+2+3” 五種組合方式對副作用名稱標準化。每種組合方式進行十次實驗,每次從詞典的10 498個副作用名稱中隨機抽取500個用于測試,并根據標準化結果計算其準確率。標準化方法測試的結果如表4所示。

表4 本文標準化方法的測試結果

由實驗結果可以看出,近似匹配模塊單獨使用時,模塊1的性能最好,模塊3次之,模塊2最差。在模塊1的結果之上加入模塊2后,標準化的準確率有了提升,說明將待標準化實體進行語義擴展,通過同義詞語尋找正確概念的做法在涉及一些低頻率、生僻詞語時具有益處。在此基礎上,繼續添加模塊3后標準化的準確率進一步提升,說明副作用名稱中包含一定數量的縮寫詞以及意義相同、詞形相近的詞語,此時根據編輯距離進行匹配具有較好的效果,同時也是對前兩個模塊功能的補充。由此可見,本文的匹配度函數確實在一定程度上反映了副作用名稱之間的內在聯系,使得大部分待標準化實體映射到了其正確的概念上。

分析標準化結果中錯誤的實例,我們發現了以下幾種導致標準化錯誤的情況。

1) 有些形式十分接近的副作用名稱屬于不同的概念,在對其中某個名稱標準化時會錯誤映射至另一名稱對應的概念。例如,概念C0018772下的impaired hearing與概念C1384666下hearing impairment在詞干化并忽略詞序后完全匹配,但它們卻屬于不同的概念。

2) 利用WordNet 數據對副作用名稱擴展語義時,由于WordNet本身的局限性,有時并不能將合適的詞語擴充進來。例如,在對概念C0549448下的elevated hemoglobin標準化時,WordNet并不能將elevate擴展得到同義詞increase,從而無法匹配到同概念的increased hemoglobin。

3) 副作用名稱中的專業詞匯常常無法得到擴展,而專業詞匯與同概念下的其他名稱在詞形上的關聯又很弱,從而導致標準化錯誤。例如,cholelithiasis屬于概念C0008350,而此概念下的所有名稱為[gall stone, gallstones, cholelithiasis, biliary calculi]。

3.2.3 對識別出的實體進行標準化

對3 143個新的副作用名稱進行標準化處理,其中2 337個新名稱映射到了974個概念上,平均每個概念約對應2.4個新名稱;剩余的806個新名稱無法對應到詞典中已有的概念上,可能屬于新的副作用概念。圖4顯示了副作用概念C0043094在詞典中已有的名稱以及本文從評論中挖掘得到的新名稱,其中實線框里的是詞典中已有的名稱,虛線框里的是挖掘出的新名稱(有些拼寫是錯誤的)。可以看出,通過對新名稱進行標準化,我們可以將用戶對同一概念的不同表述形式(包括評論中常見的因拼寫錯誤而產生的不同形式)映射到其真正所指的概念上,實現副作用名稱的有效聚合與歸并,使副作用概念在評論中的發生比例更接近其在用藥者中真正的發生頻率,從而有利于藥物潛在副作用的發現。

圖4 概念C0043094在詞典中已有的副作用名稱及本文挖掘的新名稱

3.3 藥物副作用發現

通過對識別出的副作用名稱進行標準化,我們將不同的表述形式映射到了其所指的概念上,從而可以統計出副作用概念在每種藥物評論中的發生頻率。為了避免偶然現象而使結果更具統計意義,我們選擇評論數量大于50的藥物,將挖掘出的副作用概念按照在對應藥物評論中的發生頻率由高到低排序,得到藥物副作用的列表。

對于藥物已知的副作用,我們將挖掘出的發生頻率與SIDER數據庫中記錄的發生頻率進行了對比。表5顯示了挖掘得到的發生頻率最高的前十種已知的藥物-副作用對與數據庫中記錄的相應數據,其中“postmarketing”表示副作用在藥物上市后得到確認,“potential”表示藥物可能的副作用。從表中可以看出,我們從評論中挖掘出的具有較高發生頻率的藥物副作用,其在數據庫中記錄的發生率一般也相應地較高,兩種來源的藥物副作用發生頻率具有較大程度的相似性與對應性,說明本文的藥物副作用挖掘方法是有效的,挖掘得到的藥物副作用結果具有較大的可信度。

對于發現的數據庫中未記錄的藥物副作用,可以認為副作用概念在某種藥物的評論中的發生頻率越高,則其為該藥物潛在副作用的可能性越大。因此,我們按挖掘到的發生頻率由高到低排序,得到了一個可能性由大到小排列的藥物潛在副作用列表。表6顯示了本文挖掘到的前十個最有可能的潛在藥物-副作用對。對于挖掘出的具有較高發生頻率的藥物副作用,可以作為藥物潛在的副作用以備參考。

表5 挖掘出的發生頻率最高的10種已知的藥物-副作用對與數據庫記錄之間的對比

表6 挖掘出的發生頻率最高的前10種潛在藥物-副作用對

續有

排名藥物副作用概念挖掘得到的發生頻率/%4TussionexC0030193[unspecifiedpain,…]7.65NitrostatC0008031[chestpain,…]7.46CarboplatinC0015672[fatigue,…]7.27SeasoniqueC0030193[unspecifiedpain,…]7.28FosavanceC0038354[gastricdisorder,…]6.89MirenaC0026821[cramps,…]6.810DanazolC0149931[migraine,…]6.7

4 結論與展望

從社交網絡的用戶評論中提取藥物副作用信息是一種快捷、有效的渠道,而評論中含有大量數據庫未收錄的副作用名稱,識別這些新名稱并標準化對藥物副作用的挖掘十分重要。針對前人工作中對新副作用名稱的識別效果不佳以及對識別出的新名稱后續處理不足的問題,本文利用CRF模型識別評論中的副作用,可以識別出已知的與新的名稱。將副作用名稱標準化可以對其進行有效的聚合與歸并,有利于藥物副作用的發現。我們通過將挖掘出的藥物已知的副作用與數據庫記錄進行對比驗證本文方法的有效性,對挖掘出的數據庫中未記錄的藥物副作用按其在評論中的發生頻率排序,得到了一個可能性由大到小排列的藥物潛在副作用列表。

在未來工作中,1)考慮在副作用實體識別的CRF模型中加入更多有效的特征,如藥物的分子式特征、藥物適應癥特征、副作用詞典特征以及單詞的分布式矢量特征等,以便提高實體識別的效果;2)鑒于WordNet數據存在的局限性,在標準化時可以考慮引入生物醫學領域的專業詞典,或是借助語義相似度數據來衡量詞語之間的關聯程度,提高標準化方法的準確率;3)對于挖掘出的新的副作用名稱,如果無法映射到現有的副作用概念上,則考慮通過它們之間的關聯度將其進行聚類,從而更好地發現藥物潛在的副作用以及新的副作用概念;4)相較于發現潛在藥物不良反應,發現產生不良反應的原因和條件則具有更加深遠的意義,未來工作中會著重挖掘不良反應發生的原因。

[1] Yang C C, Jiang L, Yang H, et al. Detecting signals of adverse drug reactions from health consumer contributed content in social media[C]//Proceedings of ACM SIGKDD Workshop on Health Informatics. 2012.

[2] Leaman R, Wojtulewicz L, Sullivan R, et al. Towards internet-age pharmacovigilance: extracting adverse drug reactions from user posts to health-related social networks[C]//Proceedings of the 2010 workshop on biomedical natural language processing. Association for Computational Linguistics, 2010: 117-125.

[3] Chee B W, Berlin R, Schatz B. Predicting adverse drug events from personal health messages[C]//Proceedings of the AMIA Annual Symposium Proceedings. American Medical Informatics Association, 2011: 217.

[4] Nikfarjam A, Gonzalez G H. Pattern mining for extraction of mentions of adverse drug reactions from user comments[C]//Proceedings of the AMIA Annual Symposium Proceedings. American Medical Informatics Association, 2011: 1019.

[5] Zeng Q T, Tse T. Exploring and developing consumer health vocabularies[J]. Journal of the American Medical Informatics Association. 2006, 13(1): 24-29.

[6] Wu H, Fang H, Stanhope S J. Exploiting online discussions to discover unrecognized drug side effects[J]. Nervenheilkunde. 2007, 26(11): 969-980.

[7] Online Support Groups and Forums at DailyStrength. Available[DB]. www.dailystrength.org. Accessed March 28, 2014.

[8] Kuhn M, Campillos M, Letunic I, et al. A side effect resource to capture phenotypic effects of drugs[J]. Molecular systems biology. 2010, 6(1):343-348.

[9] 唐旭日,陳小荷,許超,等. 基于篇章的中文地名識別研究[J]. 中文信息學報,2010,24(02): 24-32.

[10] Settles B. Biomedical named entity recognition using conditional random fields and rich feature sets[C]//Proceedings of the International Joint Workshop on Natural Language Processing in Biomedicine and its Applications. Association for Computational Linguistics, 2004: 104-107.

[11] 劉凱,周雪忠,于劍,等. 基于條件隨機場的中醫臨床病歷命名實體抽取[J]. 計算機工程,2014(9): 312-316.

[12] Toutanova K, Klein D, Manning C D, et al. Feature-rich part-of-speech tagging with a cyclic dependency network[C]//Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology-Volume 1. Association for Computational Linguistics, 2003: 173-180.

[13] Miller G A. WordNet: a lexical database for English[J]. Communications of the ACM. 1995, 38(11): 39-41.

Detection of Adverse Drug Reactions Based on Comment Mining

ZHAO Mingzhen, CHENG Liangxi, LIN Hongfei

(School of Computer Science and Technology, Dalian University of Technology, Dalian, Liaoning 116024, China)

When mining adverse drug reactions (ADRs) from the user comments on healthcare social networks, it is very important to recognize novel ADR expressions from comments and normalize them, since people probably adopt different expressions to describe adverse reactions and new adverse reactions may emerge with the listing of new drugs as well as the diversity of drug users. This paper utilizes Conditional Random Field (CRF) model to recognize adverse reaction entities, and proposes a normalization method applied to the recognized entities. The effectiveness of this mining method is verified by comparing the mined results of known ADRs with database records, and a list of potential ADRs sorted by occurrence frequency in comments is obtained. Experimental results indicate that CRF model is capable of identifying both known and novel adverse reaction entities, and the standardization aggregates and merges the entities, which benefits the ADR discovery.

adverse drug reaction; user comment; text mining; entity normalization

趙明珍(1989—),碩士研究生,主要研究領域為文本挖掘和自然語言處理。E-mail:zmz@mail.dlut.edu.cn程亮喜(1986—),碩士研究生,主要研究領域為生物醫學文本挖掘和自然語言處理。E-mail:liangxicheng@mail.dlut.edu.cn林鴻飛(1962—),博士,教授,博士生導師,主要研究領域為搜索引擎、文本挖掘、情感計算和自然語言處理。E-mail:hflin@dlut.edu.cn

1003-0077(2015)06-0193-10

2015-07-21 定稿日期: 2015-09-25

國家自然科學基金(661572102,61277370);遼寧省自然科學基金(201202031,201402003)

TP391

A

猜你喜歡
標準化概念模型
一半模型
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
標準化簡述
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
學習集合概念『四步走』
聚焦集合的概念及應用
標準化是綜合交通運輸的保障——解讀《交通運輸標準化體系》
中國公路(2017年9期)2017-07-25 13:26:38
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产无码精品在线播放| 广东一级毛片| 色老二精品视频在线观看| 四虎永久免费地址| 欧美日韩中文国产| 欧美一区二区啪啪| 国产美女在线免费观看| 久久这里只有精品国产99| 亚洲精品波多野结衣| 综合亚洲网| 男人天堂伊人网| 亚洲免费福利视频| 99久久精品国产精品亚洲 | 嫩草国产在线| 91视频99| 国产呦视频免费视频在线观看| 国产一区二区三区免费观看| 呦系列视频一区二区三区| 喷潮白浆直流在线播放| 九九热这里只有国产精品| 日日拍夜夜嗷嗷叫国产| 亚洲成a人片77777在线播放| 国产新AV天堂| 黄色国产在线| 无码高清专区| 国产情侣一区| 欧美日韩北条麻妃一区二区| 黄色网页在线播放| 青青草原国产av福利网站| 欧美精品1区| 国产不卡在线看| 成人91在线| 青草视频久久| 日a本亚洲中文在线观看| 国产男女免费视频| 永久免费av网站可以直接看的| 干中文字幕| 呦女精品网站| 三级欧美在线| 国产精品自在线拍国产电影| 天堂网亚洲综合在线| 亚洲午夜久久久精品电影院| 免费中文字幕一级毛片| 国产无码高清视频不卡| 亚洲欧洲自拍拍偷午夜色无码| 亚洲资源在线视频| 国产一区二区网站| 伊人久久福利中文字幕| 亚洲国产高清精品线久久| 亚洲天堂伊人| 欧美亚洲一区二区三区导航| jizz在线观看| 在线一级毛片| 国产熟女一级毛片| 日本高清在线看免费观看| 午夜无码一区二区三区在线app| 亚洲高清资源| 亚洲欧美人成人让影院| 手机成人午夜在线视频| 91精品国产自产91精品资源| 一级一毛片a级毛片| 成人免费网站久久久| 91麻豆精品视频| 国产大片黄在线观看| 波多野结衣一区二区三区AV| 免费在线看黄网址| 亚洲成aⅴ人在线观看| av一区二区三区在线观看| 自拍偷拍欧美| 日韩中文字幕免费在线观看| 亚洲人成人无码www| 国产欧美视频在线| 一级全免费视频播放| 91精品日韩人妻无码久久| 欧美亚洲一区二区三区在线| 亚洲成a人片在线观看88| 人人91人人澡人人妻人人爽| 亚洲国产欧美国产综合久久 | 中文字幕日韩视频欧美一区| 午夜国产精品视频| 国产91成人| a级毛片一区二区免费视频|