999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

利用文本挖掘進行藥物重新定位的步驟與工具

2017-03-21 10:49:46
關(guān)鍵詞:數(shù)據(jù)庫文本

藥物重新定位(Drug Repositioning)指藥物新適應(yīng)癥的開發(fā),即利用相關(guān)技術(shù)方法對已有藥物進行重新篩選、組合或改造從而發(fā)現(xiàn)其新用途的過程[1]。新藥的開發(fā)需要經(jīng)歷多次研發(fā)試驗以及臨床試驗,因此需要消耗大量人力、物力和財力。但是對已存在藥物進行重新定位,發(fā)現(xiàn)其新用途可以大大減少資源消耗,避免新藥可能帶來的風(fēng)險。因此對藥物的重新定位研究已成為當今很多研究人員和開發(fā)商關(guān)注的熱點[2]。

“文本挖掘”技術(shù)為藥物重新定位提供了新思路。Marti A.Hearst 將文本挖掘定義為使用計算機從不同的文字資源中自動抽取信息,發(fā)現(xiàn)之前不存在的信息[3]。因此使用文本挖掘技術(shù)可以從大量文本集合中預(yù)測新的關(guān)系,發(fā)現(xiàn)新知識。

近年來越來越多的學(xué)者嘗試用文本挖掘技術(shù)發(fā)掘不同藥物作用機制,不同疾病病理機制甚至不同藥物副作用之間的相似性,以預(yù)測藥物新的適應(yīng)癥,進行藥物重新定位。本文介紹了文本挖掘在藥物重新定位研究中的基本步驟和近年來利用文本挖掘技術(shù)進行藥物重新定位常用的工具及部分成功范例。

1 文本挖掘技術(shù)應(yīng)用于藥物重新定位的研究現(xiàn)狀

伴隨著文本挖掘技術(shù)的進步,研究人員使用文本挖掘進行藥物重新定位的研究也越來越多。筆者以([“Drug Repositioning”Mesh]) OR“Drug Discovery”[Mesh]) AND “Data Mining”[Mesh]為檢索策略,在PubMed數(shù)據(jù)庫中檢索到相關(guān)文獻200篇。使用中國醫(yī)科大學(xué)醫(yī)學(xué)信息學(xué)院崔雷教授等人自主研發(fā)的書目共現(xiàn)分析系統(tǒng)(Bibliographic Item Co-Occurrence Matrix Builder, BICOMB)[4]提取出這些文獻的發(fā)表年代,統(tǒng)計不同年代的論文數(shù)量;剔除2016年發(fā)表的文獻后,剩余197篇。對2009年到2015年發(fā)表的文獻量進行累計統(tǒng)計,發(fā)現(xiàn)該類文獻累積量近年來呈直線型增長(圖1),說明近年來該領(lǐng)域的發(fā)展越來越受到重視。

圖1 2009-2015年利用文本挖掘進行藥物重新定位相關(guān)文獻累計增長

近年來,研究人員主要利用以下3種原理及方法發(fā)現(xiàn)藥物新的適應(yīng)癥。一是通過發(fā)現(xiàn)某些生物大分子具有相似的結(jié)構(gòu)預(yù)測它們可能與相同的藥物結(jié)合,進而預(yù)測藥物可以治療一些其他病理機制相似的疾病[5-6];二是通過發(fā)現(xiàn)藥物之間的相同副作用,假設(shè)這些藥物可以用于相同的疾病,從而推測藥物新的適應(yīng)癥[7-10];三是構(gòu)建藥物與藥物、藥物與靶點等物質(zhì)之間的網(wǎng)絡(luò)關(guān)系推測藥物新的適應(yīng)癥,如不同藥物作用之后基因表達譜具有相似性,從而預(yù)測藥物對某些基因的作用,進而假設(shè)藥物的新適應(yīng)癥[11]。

2 利用文本挖掘進行藥物重新定位的步驟

對藥物進行重新定位的文本挖掘包括信息檢索、命名體識別、關(guān)系抽取、網(wǎng)絡(luò)構(gòu)建等基本步驟,但是對藥物重新定位研究更加注重藥物之間、藥物與靶點之間的網(wǎng)絡(luò)構(gòu)建,并在發(fā)現(xiàn)藥物新作用上更有其特殊的工具和算法。

使用文本挖掘技術(shù)進行藥物重新定位的一般流程見圖2。

圖2 使用文本挖掘進行藥物重新定位研究的一般流程

3 利用文本挖掘進行藥物重新定位的工具

3.1 信息檢索數(shù)據(jù)庫與工具

信息檢索包括選擇合適的數(shù)據(jù)庫、制定正確的檢索策略、實施檢索3個步驟。研究者在該過程中得到關(guān)于該研究領(lǐng)域的相關(guān)信息,是文本挖掘的第一步,也是以后各步驟的重要基礎(chǔ)。

生物醫(yī)學(xué)最常使用的檢索系統(tǒng)是PubMed,它包含MEDLINE數(shù)據(jù)庫中全文和摘要等資源。如研究人員從MEDLINE數(shù)據(jù)庫下載或收集某些期刊(如JournalofOncology)一段時間內(nèi)發(fā)表的關(guān)于腫瘤的全部文獻,并對它們進行分類、關(guān)系抽取、信號過濾,使用信號優(yōu)先算法從文獻中提取藥物副作用的內(nèi)容,挖掘出大量藥物副作用;對得到的數(shù)據(jù)進行統(tǒng)計學(xué)分析,將通過統(tǒng)計學(xué)分析有意義的藥物副作用與FDA中記錄的藥物副作用比較,發(fā)現(xiàn)大量的藥物副作用在FDA中沒有記錄;再經(jīng)過綜合相關(guān)分析發(fā)現(xiàn),具有相似或者相同副作用的抗癌藥物之間可能在作用方式、毒性之間具有相似性,據(jù)此預(yù)測這些藥物可用于相同的疾病,進而發(fā)現(xiàn)藥物的新作用[7-10]。

除了科學(xué)文獻外,其他文獻資源,如專利、病例報告、FDA中的藥物信息等也是生物醫(yī)學(xué)領(lǐng)域信息的重要來源。如有研究人員從FDA藥品說明書中抽取描述藥物副作用部分,從中發(fā)現(xiàn)相關(guān)描述藥物副作用的句子和語法樹,并從這些語法樹集合中提取與藥物副作用相關(guān)的句法模式;然后他們又使用模式排序算法從中找到精確度和召回率較高的句法模式,并使用這些模式從MEDLINE數(shù)據(jù)庫中抽取藥物副作用,結(jié)果發(fā)現(xiàn)大部分藥物副作用是FDA藥品說明書上沒有記載的[7]。

除了文獻資源外,文本挖掘研究的一個新動態(tài)是與生物大分子數(shù)據(jù)庫進行整合。如研究人員通過使用某些工具(TargetHunter等)在一些生物大分子數(shù)據(jù)庫中(如ChEMBL[12]、Protein Data Bank)發(fā)現(xiàn)一些結(jié)構(gòu)相似的蛋白或者其他有機分子,進而預(yù)測這些分子可與相同的藥物或者配體結(jié)合,由此發(fā)現(xiàn)這些藥物可用于其他一些病理機制相似的疾病,從而發(fā)現(xiàn)藥物的新作用[5-6]。可以通過綜述[13]了解更多此方面應(yīng)用的例子。

3.2 命名體識別工具

命名體識別是將文獻中表示某一特定概念的一個名詞或者一個名詞集標記并表示出來。由于一個生物實體可用多個不同關(guān)鍵詞表示,因此不僅需要識別出基因、蛋白、藥物等實體的名稱,還要將概念與某一個特定的生物實體標識映射,即將文獻集中所有表示某一特定概念的關(guān)鍵詞都發(fā)掘出來[14]。

目前也出現(xiàn)了很多用于命名體識別的工具,如Whatizit (http://www.ebi.ac.uk/webservices/whatizit),可以識別出使用者輸入的文本(MEDLINE摘要等模塊)中的術(shù)語,并將其與生物醫(yī)學(xué)數(shù)據(jù)庫中相對應(yīng)的實體名進行鏈接[15]。

Reflect (http://reflect.ws )主要用于標識基因、蛋白質(zhì)以及一些小分子的名稱,使用者輸入名稱后,系統(tǒng)可以列出該名稱在網(wǎng)絡(luò)中的各種表達方式,及其結(jié)構(gòu)序列信息,供研究者使用[16]。

3.3 關(guān)系抽取及網(wǎng)絡(luò)構(gòu)建工具

關(guān)系抽取即利用特定工具或者方法將文獻中有關(guān)系的命名體連接起來,如可以提取出藥物與藥物、藥物與靶點等的關(guān)系,將多種實體根據(jù)相關(guān)關(guān)系進行連接便可構(gòu)成網(wǎng)絡(luò)。

Mantra(Mode of Action by Network Analysis,http://mantra.tigem.it)可用于構(gòu)建藥物網(wǎng)絡(luò)(節(jié)點是藥物,邊的距離值代表藥物之間的相似性)。用戶可直接輸入一種藥物作為參考藥物,提交之后系統(tǒng)會自動檢索該藥物在Mantra數(shù)據(jù)庫中與該藥物作用方式相似的藥物構(gòu)建藥物網(wǎng)絡(luò),并提供可視化網(wǎng)絡(luò)視圖,用戶可根據(jù)藥物之間距離值大小及其是否屬于同一團體發(fā)現(xiàn)與參考藥物有相似作用的新藥物[17]。如Francesco Iorio等人使用Mantra構(gòu)建藥物網(wǎng)絡(luò)的原理是通過不同藥物或者不同劑量的藥物使用之后基因表達譜之間的相似性發(fā)現(xiàn)不同藥物之間相似的作用方式及藥物的新作用。他們發(fā)現(xiàn)PHA-690509,、PHA-793887和PHA-848125等可以抑制CDK,并預(yù)測法舒地爾可以促進細胞自噬[11]。

DTome (Drug-Target interactome tool)是一個基于Web的工具,它利用Web查詢候選藥物,然后提取整合包括藥物不良反應(yīng)之間、藥物-靶點、藥物-基因以及靶點/基因-蛋白質(zhì)相互作用關(guān)系4種類型的相互作用關(guān)系構(gòu)建網(wǎng)絡(luò)[18]。Chu LH等人構(gòu)建的外周動脈疾病(Peripheral Arterial Disease,PAD)的蛋白質(zhì)相互作用網(wǎng)絡(luò),可將該網(wǎng)絡(luò)與藥物-靶點關(guān)系相連接識別PAD潛在的藥物靶點。其中使用的藥物-靶點關(guān)系就是從DTome從Drugbank[19]和PharmGKB[20]中提取到的。該研究發(fā)現(xiàn)了一些潛在的可以治療PAD的促血管生成藥(如尿激酶和卡維地洛)和抗炎藥(如ACE抑制劑和maraviroc)及PAD的藥物作用靶點[21]。目前也出現(xiàn)了一些整合了命名體識別、關(guān)系抽取和網(wǎng)絡(luò)構(gòu)建功能的工具。如HiPub可以自動識別和注釋文本中的的基因、蛋白、藥物等實體,并以文本中識別實體之間的關(guān)系構(gòu)建網(wǎng)絡(luò)。該工具的特點是允許用戶手動添加相關(guān)文獻的實體,允許用戶自定義實體,并且提供其他資源的鏈接供用戶了解新的實體及關(guān)系[22]。

4 應(yīng)用實例

近年來已經(jīng)出現(xiàn)了大量利用文本挖掘技術(shù)進行藥物重新定位的研究。Zhang M從OMIM和PubMed數(shù)據(jù)庫中獲取阿爾茲海默癥(AD)發(fā)病機制相關(guān)數(shù)據(jù),從DrugBank和Therapeutic Target數(shù)據(jù)庫中獲取藥物-靶點數(shù)據(jù),再使用公用的“組學(xué)”數(shù)據(jù)(包括基因組學(xué)、表觀基因組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)數(shù)據(jù))生成抗-AD蛋白列表。列表中包含524種AD相關(guān)蛋白質(zhì),其中18種可以作為75種現(xiàn)存藥物新的候選靶點。他們開發(fā)了一個排序算法對抗-AD靶點進行排序,發(fā)現(xiàn)CD33和MIF可以作為現(xiàn)存的7種藥物的最強的候選靶點,也發(fā)現(xiàn)了7種抑制抗-AD靶點的藥物,即這些藥物可被重新定位用于治療AD的認知癥狀[23]。

Sun P等總結(jié)了近年利用計算機方法進行藥物重新定位的研究,介紹了一些可使用的數(shù)據(jù)資源和一種基于n-聚類的新的數(shù)據(jù)融合模型,將模型與語義文本挖掘進行銜接。文章評價結(jié)果顯示,利用藥物-基因-疾病三角關(guān)系結(jié)合復(fù)雜的文獻分析是一種為藥物重新定位識別新的候選藥物的好方法[24]。

5 結(jié)語

隨著文獻的迅速增長,越來越多的知識將被隱藏在海量信息中。信息復(fù)雜程度的不斷增加也會使文本挖掘技術(shù)面臨更多困難,同時越來越多的相關(guān)工具及加工過的數(shù)據(jù)庫也不斷出現(xiàn),為人們提供更多解決問題的途徑。現(xiàn)在利用文本挖掘進行藥物重新定位可使用的大部分工具只能用于執(zhí)行其中一到兩個步驟。隨著人們對應(yīng)用文本挖掘進行藥物重新定位研究的不斷深入,將會出現(xiàn)越來越多的整合工具,更便于人們利用,以發(fā)現(xiàn)藥物新的適應(yīng)癥。

文本挖掘為信息分析提供了利器,更有利于信息專業(yè)人員有針對性地為生物醫(yī)學(xué)提供咨詢服務(wù)、開展專題研究。藥物重新定位只是其中的一個案例,醫(yī)學(xué)信息專業(yè)人員應(yīng)抓住機會,充分利用手中掌握的資源和工具,站到生物醫(yī)學(xué)數(shù)據(jù)挖掘的前沿。

猜你喜歡
數(shù)據(jù)庫文本
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)庫
財經(jīng)(2017年15期)2017-07-03 22:40:49
數(shù)據(jù)庫
財經(jīng)(2017年2期)2017-03-10 14:35:35
數(shù)據(jù)庫
財經(jīng)(2016年15期)2016-06-03 07:38:02
數(shù)據(jù)庫
財經(jīng)(2016年3期)2016-03-07 07:44:46
數(shù)據(jù)庫
財經(jīng)(2016年6期)2016-02-24 07:41:51
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
論《柳毅傳》對前代文本的繼承與轉(zhuǎn)化
人間(2015年20期)2016-01-04 12:47:10
主站蜘蛛池模板: 国产精品网址你懂的| 国产欧美日韩18| 亚洲AⅤ波多系列中文字幕| 亚洲欧洲日产无码AV| 国产手机在线ΑⅤ片无码观看| 国产精品毛片一区视频播| 国产AV无码专区亚洲精品网站| 国产亚洲精品91| 亚洲无码精品在线播放| 一级一级一片免费| 久久综合色视频| 日韩在线网址| 在线播放精品一区二区啪视频| 欧美国产日本高清不卡| 国产精品冒白浆免费视频| 色综合天天操| 亚洲男人的天堂久久香蕉 | 日本午夜精品一本在线观看| 国产精品所毛片视频| 欧美中文字幕在线二区| 国产欧美综合在线观看第七页| 波多野结衣的av一区二区三区| 青青久视频| 久久亚洲国产一区二区| 美女扒开下面流白浆在线试听 | 国产精品99r8在线观看 | 99久久精品视香蕉蕉| 亚洲美女一区| 噜噜噜久久| 高清乱码精品福利在线视频| 国产农村1级毛片| 欧美五月婷婷| 国产性生交xxxxx免费| 无码中文字幕精品推荐| 亚洲精品免费网站| 久久综合色视频| 最新国产在线| 免费jjzz在在线播放国产| 免费a级毛片视频| 日本在线国产| 国产成人高清精品免费5388| 97国产精品视频人人做人人爱| 黄色污网站在线观看| 色综合五月婷婷| 她的性爱视频| 喷潮白浆直流在线播放| 一级黄色网站在线免费看| 久久免费观看视频| 亚洲成人黄色在线| 久久这里只有精品66| vvvv98国产成人综合青青| 91精品啪在线观看国产| 欧美va亚洲va香蕉在线| 亚洲精品无码不卡在线播放| 亚洲精品国产成人7777| 久久精品66| 国内精品免费| 动漫精品中文字幕无码| 国产九九精品视频| 制服无码网站| 青青久在线视频免费观看| 国产99视频精品免费视频7| 日韩国产精品无码一区二区三区| 亚洲毛片一级带毛片基地| 在线观看亚洲人成网站| 国产福利一区在线| 激情六月丁香婷婷| 思思99热精品在线| 亚洲欧美极品| 午夜欧美在线| 国产剧情伊人| 天堂在线亚洲| 久草性视频| 国产亚洲精久久久久久久91| 亚洲高清无码精品| www亚洲天堂| 国产人人乐人人爱| 热re99久久精品国99热| 国产精品白浆在线播放| 国产成人综合网| 日韩a级毛片| 国产一区二区三区夜色|