,
藥物重新定位(Drug Repositioning)指藥物新適應癥的開發,即利用相關技術方法對已有藥物進行重新篩選、組合或改造從而發現其新用途的過程[1]。新藥的開發需要經歷多次研發試驗以及臨床試驗,因此需要消耗大量人力、物力和財力。但是對已存在藥物進行重新定位,發現其新用途可以大大減少資源消耗,避免新藥可能帶來的風險。因此對藥物的重新定位研究已成為當今很多研究人員和開發商關注的熱點[2]。
“文本挖掘”技術為藥物重新定位提供了新思路。Marti A.Hearst 將文本挖掘定義為使用計算機從不同的文字資源中自動抽取信息,發現之前不存在的信息[3]。因此使用文本挖掘技術可以從大量文本集合中預測新的關系,發現新知識。
近年來越來越多的學者嘗試用文本挖掘技術發掘不同藥物作用機制,不同疾病病理機制甚至不同藥物副作用之間的相似性,以預測藥物新的適應癥,進行藥物重新定位。本文介紹了文本挖掘在藥物重新定位研究中的基本步驟和近年來利用文本挖掘技術進行藥物重新定位常用的工具及部分成功范例。
伴隨著文本挖掘技術的進步,研究人員使用文本挖掘進行藥物重新定位的研究也越來越多。筆者以([“Drug Repositioning”Mesh]) OR“Drug Discovery”[Mesh]) AND “Data Mining”[Mesh]為檢索策略,在PubMed數據庫中檢索到相關文獻200篇。使用中國醫科大學醫學信息學院崔雷教授等人自主研發的書目共現分析系統(Bibliographic Item Co-Occurrence Matrix Builder, BICOMB)[4]提取出這些文獻的發表年代,統計不同年代的論文數量;剔除2016年發表的文獻后,剩余197篇。對2009年到2015年發表的文獻量進行累計統計,發現該類文獻累積量近年來呈直線型增長(圖1),說明近年來該領域的發展越來越受到重視。

圖1 2009-2015年利用文本挖掘進行藥物重新定位相關文獻累計增長
近年來,研究人員主要利用以下3種原理及方法發現藥物新的適應癥。一是通過發現某些生物大分子具有相似的結構預測它們可能與相同的藥物結合,進而預測藥物可以治療一些其他病理機制相似的疾病[5-6];二是通過發現藥物之間的相同副作用,假設這些藥物可以用于相同的疾病,從而推測藥物新的適應癥[7-10];三是構建藥物與藥物、藥物與靶點等物質之間的網絡關系推測藥物新的適應癥,如不同藥物作用之后基因表達譜具有相似性,從而預測藥物對某些基因的作用,進而假設藥物的新適應癥[11]。
對藥物進行重新定位的文本挖掘包括信息檢索、命名體識別、關系抽取、網絡構建等基本步驟,但是對藥物重新定位研究更加注重藥物之間、藥物與靶點之間的網絡構建,并在發現藥物新作用上更有其特殊的工具和算法。
使用文本挖掘技術進行藥物重新定位的一般流程見圖2。

圖2 使用文本挖掘進行藥物重新定位研究的一般流程
信息檢索包括選擇合適的數據庫、制定正確的檢索策略、實施檢索3個步驟。研究者在該過程中得到關于該研究領域的相關信息,是文本挖掘的第一步,也是以后各步驟的重要基礎。
生物醫學最常使用的檢索系統是PubMed,它包含MEDLINE數據庫中全文和摘要等資源。如研究人員從MEDLINE數據庫下載或收集某些期刊(如JournalofOncology)一段時間內發表的關于腫瘤的全部文獻,并對它們進行分類、關系抽取、信號過濾,使用信號優先算法從文獻中提取藥物副作用的內容,挖掘出大量藥物副作用;對得到的數據進行統計學分析,將通過統計學分析有意義的藥物副作用與FDA中記錄的藥物副作用比較,發現大量的藥物副作用在FDA中沒有記錄;再經過綜合相關分析發現,具有相似或者相同副作用的抗癌藥物之間可能在作用方式、毒性之間具有相似性,據此預測這些藥物可用于相同的疾病,進而發現藥物的新作用[7-10]。
除了科學文獻外,其他文獻資源,如專利、病例報告、FDA中的藥物信息等也是生物醫學領域信息的重要來源。如有研究人員從FDA藥品說明書中抽取描述藥物副作用部分,從中發現相關描述藥物副作用的句子和語法樹,并從這些語法樹集合中提取與藥物副作用相關的句法模式;然后他們又使用模式排序算法從中找到精確度和召回率較高的句法模式,并使用這些模式從MEDLINE數據庫中抽取藥物副作用,結果發現大部分藥物副作用是FDA藥品說明書上沒有記載的[7]。
除了文獻資源外,文本挖掘研究的一個新動態是與生物大分子數據庫進行整合。如研究人員通過使用某些工具(TargetHunter等)在一些生物大分子數據庫中(如ChEMBL[12]、Protein Data Bank)發現一些結構相似的蛋白或者其他有機分子,進而預測這些分子可與相同的藥物或者配體結合,由此發現這些藥物可用于其他一些病理機制相似的疾病,從而發現藥物的新作用[5-6]。可以通過綜述[13]了解更多此方面應用的例子。
命名體識別是將文獻中表示某一特定概念的一個名詞或者一個名詞集標記并表示出來。由于一個生物實體可用多個不同關鍵詞表示,因此不僅需要識別出基因、蛋白、藥物等實體的名稱,還要將概念與某一個特定的生物實體標識映射,即將文獻集中所有表示某一特定概念的關鍵詞都發掘出來[14]。
目前也出現了很多用于命名體識別的工具,如Whatizit (http://www.ebi.ac.uk/webservices/whatizit),可以識別出使用者輸入的文本(MEDLINE摘要等模塊)中的術語,并將其與生物醫學數據庫中相對應的實體名進行鏈接[15]。
Reflect (http://reflect.ws )主要用于標識基因、蛋白質以及一些小分子的名稱,使用者輸入名稱后,系統可以列出該名稱在網絡中的各種表達方式,及其結構序列信息,供研究者使用[16]。
關系抽取即利用特定工具或者方法將文獻中有關系的命名體連接起來,如可以提取出藥物與藥物、藥物與靶點等的關系,將多種實體根據相關關系進行連接便可構成網絡。
Mantra(Mode of Action by Network Analysis,http://mantra.tigem.it)可用于構建藥物網絡(節點是藥物,邊的距離值代表藥物之間的相似性)。用戶可直接輸入一種藥物作為參考藥物,提交之后系統會自動檢索該藥物在Mantra數據庫中與該藥物作用方式相似的藥物構建藥物網絡,并提供可視化網絡視圖,用戶可根據藥物之間距離值大小及其是否屬于同一團體發現與參考藥物有相似作用的新藥物[17]。如Francesco Iorio等人使用Mantra構建藥物網絡的原理是通過不同藥物或者不同劑量的藥物使用之后基因表達譜之間的相似性發現不同藥物之間相似的作用方式及藥物的新作用。他們發現PHA-690509,、PHA-793887和PHA-848125等可以抑制CDK,并預測法舒地爾可以促進細胞自噬[11]。
DTome (Drug-Target interactome tool)是一個基于Web的工具,它利用Web查詢候選藥物,然后提取整合包括藥物不良反應之間、藥物-靶點、藥物-基因以及靶點/基因-蛋白質相互作用關系4種類型的相互作用關系構建網絡[18]。Chu LH等人構建的外周動脈疾病(Peripheral Arterial Disease,PAD)的蛋白質相互作用網絡,可將該網絡與藥物-靶點關系相連接識別PAD潛在的藥物靶點。其中使用的藥物-靶點關系就是從DTome從Drugbank[19]和PharmGKB[20]中提取到的。該研究發現了一些潛在的可以治療PAD的促血管生成藥(如尿激酶和卡維地洛)和抗炎藥(如ACE抑制劑和maraviroc)及PAD的藥物作用靶點[21]。目前也出現了一些整合了命名體識別、關系抽取和網絡構建功能的工具。如HiPub可以自動識別和注釋文本中的的基因、蛋白、藥物等實體,并以文本中識別實體之間的關系構建網絡。該工具的特點是允許用戶手動添加相關文獻的實體,允許用戶自定義實體,并且提供其他資源的鏈接供用戶了解新的實體及關系[22]。
近年來已經出現了大量利用文本挖掘技術進行藥物重新定位的研究。Zhang M從OMIM和PubMed數據庫中獲取阿爾茲海默癥(AD)發病機制相關數據,從DrugBank和Therapeutic Target數據庫中獲取藥物-靶點數據,再使用公用的“組學”數據(包括基因組學、表觀基因組學、蛋白質組學、代謝組學數據)生成抗-AD蛋白列表。列表中包含524種AD相關蛋白質,其中18種可以作為75種現存藥物新的候選靶點。他們開發了一個排序算法對抗-AD靶點進行排序,發現CD33和MIF可以作為現存的7種藥物的最強的候選靶點,也發現了7種抑制抗-AD靶點的藥物,即這些藥物可被重新定位用于治療AD的認知癥狀[23]。
Sun P等總結了近年利用計算機方法進行藥物重新定位的研究,介紹了一些可使用的數據資源和一種基于n-聚類的新的數據融合模型,將模型與語義文本挖掘進行銜接。文章評價結果顯示,利用藥物-基因-疾病三角關系結合復雜的文獻分析是一種為藥物重新定位識別新的候選藥物的好方法[24]。
隨著文獻的迅速增長,越來越多的知識將被隱藏在海量信息中。信息復雜程度的不斷增加也會使文本挖掘技術面臨更多困難,同時越來越多的相關工具及加工過的數據庫也不斷出現,為人們提供更多解決問題的途徑。現在利用文本挖掘進行藥物重新定位可使用的大部分工具只能用于執行其中一到兩個步驟。隨著人們對應用文本挖掘進行藥物重新定位研究的不斷深入,將會出現越來越多的整合工具,更便于人們利用,以發現藥物新的適應癥。
文本挖掘為信息分析提供了利器,更有利于信息專業人員有針對性地為生物醫學提供咨詢服務、開展專題研究。藥物重新定位只是其中的一個案例,醫學信息專業人員應抓住機會,充分利用手中掌握的資源和工具,站到生物醫學數據挖掘的前沿。