999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

藥物靶標作用關系預測結果評價及查詢驗證

2019-09-16 02:51:04余冬華郭茂祖劉曉燕
計算機研究與發展 2019年9期
關鍵詞:數據庫評價方法

余冬華 郭茂祖,2,3 劉曉燕 程 爽

1(哈爾濱工業大學計算機科學與技術學院 哈爾濱 150001)2(北京建筑大學電氣與信息工程學院 北京 100044)3(建筑大數據智能處理方法研究北京市重點實驗室(北京建筑大學) 北京 100044)4(中國工程物理研究院材料所 四川綿陽 621900)

藥物研發是醫藥界的驅動力,也引起了學術界的研究熱潮,計算機輔助藥物設計是對傳統的實驗型藥物發現的補充,加速了新藥開發進程,縮短藥物研發時間,降低藥物研發成本,同時提升藥物研發成功率.

網絡藥理學(network pharmacology)[1-2]和藥物重定位(drug repositioning)[3-4]顛覆了傳統的藥物研發理念,完善了藥物靶標作用關系(drug-target interaction)預測的理論基礎,為計算機輔助藥物設計提供了新思路,加速了藥物發現與設計.隨著公開數據庫KEGG[5],DrugBank[6],ChEMBL[7]等中的可用數據增多,很多預測藥物靶標作用關系的計算方法也被提出[8-13].其主要思路為:建立合適的藥物靶標數據,構建作用關系預測方法并做出合理的評價,然后進行實際作用關系預測.這些計算方法彌補了實驗方法中的時間消耗和高昂成本投入的缺陷.

Yamanishi等人[14]在2008年基于KEGG數據庫建立了Enzyme,IC(ion channel),GPCR(G -protein-coupled receptor),NR(nuclear receptor)四個藥物靶標作用關系數據集(包括藥物靶標作用關系矩陣、藥物-藥物相似度矩陣、靶標-靶標相似度矩陣),其中,已經驗證的藥物靶標作用關系用1表示,未知作用關系的藥物靶標對(unknown interaction)用0表示,受到廣泛接受及認同,Google學術顯示引用次數為467次,被認為是藥物靶標作用關系預測模型的標準檢驗數據集.2009年,Bleakley等人[15]在上述4個數據集的基礎上,提出了經典的二分局部模型(bipartite local models, BLM)藥物靶標作用關系預測方法,并把其當作二分類模型,采用ROC(receiver operating characteristic curve)曲線及曲線下方面積(area under curve, AUC)作為該方法的評價標準.

該數據集的建立促使了很多預測方法的誕生,而AUC評價標準也對后續方法產生了重要影響.然而,該評價需要將未知作用關系的藥物靶標對視為負例,這是一種不合理的假設,因為很多未知的作用關系可能實際上存在相互作用關系,只是到目前為止,仍沒有被實驗所證實.況且,預測方法的目標就是需要將潛在的作用關系預測出來,即將作用關系0預測成1.盡管如此,這種不合理的評價方式也一直在延續.作為一種彌補手段,會將預測結果中極有可能的藥物靶標對(比如TopN,即按照預測的藥物靶標對作用關系可能性從大到小排序,取前N對)在數據庫中查詢驗證.Laarhoven等人[16]提出GIP-RLS(Gaussian interaction profile-regularized least squares)方法后,用AUC及AUPR(area under precision-recall curve)進行了評價.對于需要預測的藥物靶標作用關系,僅對每個數據集Top 20查驗過KEGG,DrugBank,ChEMBL數據庫.Gonen[17]提出的KBMF2K(kernelized Bayesian matrix factori-zation with twin kernels)預測方法,用AUC進行評價,且僅對每個數據集Top 5查驗過KEGG,DrugBank,ChEMBL數據庫.Mei等人[18]提出BLMNII(bipartite local models with neighbor-based interaction-profile)預測方法后,用AUC及AUPR進行了評價,而沒有對預測的藥物靶標對進行數據庫的查詢驗證,也就沒有驗證所預測的作用關系中是否存在已經被實驗驗證的藥物靶標對.Hao等人[19]提出的RLS-KF(regularized least squares with kernel fusing)預測方法,用AUC及AUPR進行評價,僅對NR數據集中預測Top 100對藥物靶標進行數據庫查詢驗證,雖然其AUC值接近于1,對于二分類模型來說,接近于1的AUC值表示該模型預測接近于完全正確,但對于NR數據集來說,直到Top 100時,才有31對藥物靶標已經獲得了生物化學實驗驗證,對于目前可以查詢到的已驗證的藥物靶標對來說,仍然有9對不包含在內,這也表明,如此之高的預測精度,在實際預測中遠未達到理想結果.Luo等人[20]提出DTINet(network integra-tion pipeline for drug-target interaction)預測方法,也用AUC及AUPR進行了模型評價,并對預測結果的Top 150藥物靶標對進行了數據庫查詢驗證,特別地,選擇了極有可能具有作用關系的COX inhibitory進行了生物化學實驗驗證,實驗結果證實了DTINet模型的預測準確.Hao等人[21]提出DNILMF(dual-network integrated logistic matrix factorization)預測方法,用AUC及AUPR評價該模型,采用與Yamanishi等人[14]相似的方式收集了一個新數據集,在最后的預測結果中,僅對Top 5的藥物靶標對進行了查詢驗證.Olayan等人[22]提出DDR(novel method that improves the drug-target interaction prediction accuracy)預測方法,在方法的評價方面,舍棄了AUC評價,而選擇加權平均AUPR評價,并且對預測中的Top 25進行了查詢驗證.Peng等人[23]提出PreNNDS(drug-target identification mode by integrating neighbor interac-tion profiles, nonnegative matrix factorization, discriminative low-rank representation, and sparse representation classification into a unified frame-work)預測方法,僅采用AUPR進行評價,與其他文章按照預測得分(或概率)選擇TopN個藥物靶標對進行查詢驗證不同,Peng 等人選擇了2個靶標(ID分別為hsa1132及hsa1124)所對應的Top 20的藥物進行查詢驗證,同樣地,選擇了2個藥物(ID分別為D00255及D00195)所對應的Top 20的靶標進行查詢驗證.Liu等人[24]提出NRLMF(neighbor-hood regularized logistic matrix factorization)預測方法后,用 AUC及AUPR進行評價,該文在KEGG,DrugBank,ChEMBL,Matador數據庫中查詢驗證了4個數據集中Top 1 000的藥物靶標對,因此,其給出了Top 10,Top 30,Top 50的評價結果.然而,其并未提供可以快速高效地對如此大量的未知作用關系藥物靶標對查詢驗證的方法,無法減輕后續學者研究該問題的工作量.實際上,對于Enzyme,IC,GPCR,NR四個數據集來說,Top 1 000仍然是未知藥物靶標作用關系中很小的一部分.多種方法的查詢驗證TopN值總結見表1:

Table 1 The Checked Top N Values of Various Methods表1 各種方法查詢驗證Top N值

因此,如何驗證這些預測結果的準確性是研究者面臨的一個挑戰,在目前有限條件下,考慮到時間消耗及實驗成本,不可能對所有未知的藥物靶標作用進行生物化學實驗驗證.綜合現有的各種評價方法,一種可行的方式就是用AUC及AUPR驗證預測方法可行性及預測精度,并利用數據共享,如公開數據庫DrugBank,KEGG,ChEMBL,提供的很多藥物靶標之間的作用關系數據,將預測的作用關系逐對在數據庫中進行查詢驗證,確認該未知的作用關系是否已經被相關實驗驗證.這種方式得到了學術界普遍認可.然而,現有的方法也僅僅查詢驗證TopN藥物靶標對,因為查詢驗證是一個重復且耗時的工作,且未知作用關系的藥物靶標對占預測總數的絕大多數,而更為合理的驗證預測結果的方式為:對所有未知作用關系的藥物靶標對在數據庫上查詢驗證一遍.

針對上述問題,本文不僅為藥物靶標作用關系驗證提供一種高效、便捷、可行的查詢驗證方法DTcheck(drug-target check),并利用DTcheck查詢的結果對4個標準數據集及AUC評價做了分析,主要貢獻歸納為

1) 結合網絡爬蟲特性,設計DTcheck查詢驗證方法并實現.

2) 基于KEGG,DrugBank,ChEMBL數據庫,通過DTcheck將4個數據集中已經驗證的藥物靶標作用關系補充完整.

3) 對于(批量)提供KEGG DRUG ID及KEGG GENES ID的藥物靶標對,DTcheck可以在線查詢并返回其在KEGG,DrugBank,ChEMBL數據庫中的驗證結果.

4) 利用DTcheck查詢的結果,重新分析了BLM方法的預測結果,探討了ROC曲線評價藥物靶標作用關系的不合理性,并引入TopN評價指標,實際結果表明AUC值低的BLMd在預測新的藥物靶標作用關系時要優于AUC值高的BLMmax,給AUC評價的不合理性提供了依據.

Fig. 1 Technical route and flow of DTcheck圖1 DTcheck 技術路線及流程

1 DTcheck查詢驗證關鍵問題及解決思路

Yamanishi等人[14]提供的標準數據集中采用KEGG ID標注藥物及靶標,而DrugBank,ChEMBL有其自己的ID體系.如藥物D02441(KEGG DRUG ID)在DrugBank對應的ID為DB00311,在ChEMBL中對應的Compound ID為CHEMBL18,而靶標hsa766(KEGG GENE ID)需要與UniProt數據庫[25]中的P43166(UniProt ID)對應起來,通過DrugBank中的藥物或者ChEMBL中的藥物(或化合物)查詢到的對應靶標,會提供對應的UniProt ID.因此,其中一個關鍵問題就是需要將3個數據庫中提供的不同ID合理對應起來.

藥物靶標作用關系是成對出現的,如D02441~hsa766,因此,在查詢驗證過程中,可通過D02441在KEGG DRUG中查找到對應靶標hsa766,也可在DrugBank中通過DB00311查找到對應靶標P43166(UniProt ID),而hsa766與P43166代表同一個靶標,即不同的ID代表同一個對象.相對應地,也可以從靶標hsa766出發,從KEGG GENE中查找到藥物D02441.因此,另一個關鍵問題就是在查詢驗證中,需要對藥物靶標對進行雙向查詢驗證.

由于KEGG DRUG中提供了該藥物在ChEMBL及DrugBank中的對應ID和相應的網頁鏈接,因此,利用爬蟲抓取數據的特性,讀取該藥物在KEGG DRUG中所提供的對應靶標ID后,需要額外讀取該藥物在其他2個數據庫中的ID及鏈接.而在KEGG GENE中查詢的數據僅是該靶標是否有對應的藥物即可.因此,在藥物靶標對的雙向查詢驗證中,可以優先查詢靶標,然后查詢藥物.

從KEGG DRUG中讀取該藥物在ChEMBL,DrugBank中的鏈接后,可以獨立地進行查詢,然后將查詢結果合并,最后核對待驗證的藥物靶標對.KEGG DRUG提供的ChEMBL鏈接可能會有多個,需要遍歷所有可能鏈接,讀取該鏈接返回的ChEMBL Target信息及其跳轉鏈接,就可以查詢到該藥物對應靶標的UniProt ID.從KEGG DRUG還可以讀取該藥物的DrugBank跳轉鏈接,利用爬蟲訪問該鏈接,獲取返回信息,從其返回信息中讀取Targets,Enzymes,Carriers,Transporters四個版塊信息所提供的UniProt ID即可.這樣就可以獲取該藥物在ChEMBL,DrugBank兩個數據庫中所對應靶標的UniProt ID.

靶標的UniProt ID與KEGG GENE ID并不一樣,后者也是4個標準數據集所提供的ID,因此,需要先將UniProt ID轉換成KEGG GENE ID才能核查待驗證的藥物靶標對的作用關系是否已經被證實.此時可以借助UniProt數據庫提供的ID mapping功能,將靶標的UniProt ID轉換成KEGG GENE ID,這一步的實現需要借助爬蟲發送數據請求并獲取返回信息的特性.

2 DTcheck查詢驗證技術路線

解決了DTcheck查詢驗證中遇到的關鍵問題,本文設計了如圖1所示的技術路線流程,其代碼鏈接為https:github.comYu123456DTcheck.從圖1中可以看出,雙向查詢分成2個部分獨立查詢,最終需要將2部分查詢結果合并,而3個數據庫之間,需要先從KEGG DRUG中獲取DrugBank,ChEMBL數據庫的跳轉鏈接,然后依次獲取相應數據庫中的靶標信息,而從這2個數據庫中返回的靶標是UniProt ID,為了與待驗證的藥物靶標對核對,需要增加一步ID轉換,把UniProt ID轉換成KEGG GENE ID.

3 預測結果評價及查詢驗證分析

Yamanishi等人[14]于2008年建立了Enzyme,IC,GPCR,NR四個標準數據集,如表2所示.其中,drug-target interactions代表當時已經驗證的藥物靶標作用關系;unknown interaction代表當時未知的藥物靶標作用關系;從最后2行已知與未知藥物靶標作用關系具體數值來看,未知作用關系遠多于已知作用關系.該數據集從建立至今已有10年之久,在這期間有很多作用關系得到生物實驗驗證,本文采用DTcheck查詢KEGG,DrugBank,ChEMBL三個數據庫,將新增的作用關系補充完整.伴隨這4個數據集,Bleakley等人[15]于2009年提出了經典的BLM預測方法,并用AUC進行評價,本文將依據DTcheck查詢到的結果,重新探討AUC評價的不合理性,并采用TopN中已經被驗證的藥物靶標對的數目重新分析預測結果.

Table 2 Drug-Target and Their Interactions表2 藥物靶標及其作用關系信息

3.1 數據集已驗證作用關系補充

經過DTcheck的查詢,每個數據集都可以找到新驗證的藥物靶標對,如表3所示.從增長率(increased ratio)來看,新藥物靶標關系增加最快的數據集為GPCR;新發現的藥物靶標對數最多的卻是Enzyme數據集,達到907對;雖然NR藥物靶標對的數目最少,但也將近增加一半,達到40對.

Table 3 Drug-Target and Their Increased Interactions表3 藥物靶標數據集新增作用關系

表4給出了NR數據集的DTcheck查詢到的40對已經驗證的藥物靶標作用關系.其中,DrugID,TargetID分別表示藥物、靶標的ID;C,D分別表示在ChEMBL,DrugBank數據庫中查詢到該藥物靶標對作用關系;K需要做一個區分,在KEGG欄中,表示通過藥物找到了對應的靶標,在KEGGh欄中,則表示通過靶標找到了對應的藥物;空白表示對應數據庫中未查詢到相關信息.表4中出現大量空白,表明3個數據庫之間的信息并沒有完全同步,因此,必須查詢每一個數據庫,避免遺漏.對于NR數據集來說,DrugBank提供的已驗證作用關系最多,其次是KEGG,最后才是ChEMBL.

Table 4 New Increased Drug-Target Interactions of NR表4 NR數據集新增藥物靶標關系

Continued (Table 4)

Note: The blank indicates that the interaction relationship has not been queried yet.

由于Enzyme,GPCR,IC這3個數據集查詢到的新增作用關系數目較多,限于篇幅,不宜在文中直接給出,其查詢的相應結果見https:github.comYu123456Drug-targetChecked.

3.2 BLM方法預測結果查詢驗證及評價分析

BLM可以細分為3個子方法,即BLMd,BLMt,BLMmax,其中BLMmax是取BLMd,BLMt二者預測的較大值.Bleakley等人[15]依據AUC(如表5所示,較優者黑體表示)評價指出,在3個方法中,BLMmax性能最好,BLMd性能最差.

Table 5 AUC of 4 Datasets表5 AUC 評價值

Note: The boldface represents the best one of the three methods.

從AUC評價來看,BLMmax非常顯著地優于BLMd,因此,BLMmax對新藥物靶標作用關系的預測結果也應該優于BLMd,然而,表6卻展現出截然相反的結論.在TopN評價中,從相同的N中找到更多驗證關系者性能更優,在表6中較優者已經加粗表示.在Top 50之前的每一個TopN中,BLMd預測正確的藥物靶標對均多于BLMmax;在Top 50至Top 1 000之間,才出現后一種方法優于前一種方法的趨勢,如Top 1 000時,BLMmax預測正確的藥物靶標對的數目多于BLMd.然而,開發藥物靶標作用關系預測方法的初衷是為實驗生物化學家提供有實質指導作用的建議,即盡可能少的實驗下找到真正的作用關系,因為用生物實驗驗證藥物靶標作用關系既耗時又費錢,因此,Top 50評價會是一個更優的選擇.從這個方面來說,BLMd優于BLMmax,這也表明僅用AUC評價藥物靶標預測模型不合理.

Table 6 Comparing New Interaction of Top N Between BLMmax and BLMd表6 BLMmax 與 BLMd 中Top N中新作用關系比較

Note: The boldface represents the better interaction between BLMd and BLMmax.

4 總 結

本文利用爬蟲特性,設計并實現了DTcheck在KEGG,DrugBank,ChEBML數據庫上高效、便捷的藥物靶標作用關系查詢驗證,利用DTcheck實現對標準數據集新增作用關系的擴展補充,基于BLM方法的預測結果,說明了AUC評價藥物靶標作用關系預測的不合理性,及TopN可以給出更加合理的評價.本文提供的藥物靶標對在線查詢驗證思路及實現,大大節省研究者查詢驗證時間,使得在方法的驗證中不僅僅限于每個數據集僅查詢預測排序靠前的少數藥物靶標對,有利于更準確地評價藥物靶標預測方法.

DTcheck也有待于繼續擴展,目前僅僅查詢KEGG,DrugBank,ChEMBL三個數據庫,實際上,Matador,SuperTarget等數據庫也可以查詢到一些相關作用關系.我們將會繼續對此工作擴展,以期DTcheck更具有廣泛性.

猜你喜歡
數據庫評價方法
SBR改性瀝青的穩定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
數據庫
財經(2017年2期)2017-03-10 14:35:35
可能是方法不對
數據庫
財經(2016年15期)2016-06-03 07:38:02
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
基于Moodle的學習評價
主站蜘蛛池模板: 婷五月综合| 激情综合网激情综合| 亚洲福利一区二区三区| 一本大道无码日韩精品影视| www.91中文字幕| 亚洲综合在线最大成人| 热这里只有精品国产热门精品| 视频一本大道香蕉久在线播放| 一个色综合久久| 日韩精品毛片人妻AV不卡| 女人18毛片水真多国产| 日本三级欧美三级| 欧类av怡春院| 无码网站免费观看| 五月婷婷丁香色| 深爱婷婷激情网| 欧美影院久久| 久久99热这里只有精品免费看| 国模粉嫩小泬视频在线观看| 欧美精品aⅴ在线视频| 免费毛片网站在线观看| 婷婷色一二三区波多野衣| 亚洲欧美日韩中文字幕一区二区三区| 美女免费精品高清毛片在线视| 激情综合婷婷丁香五月尤物| 久久久久国色AV免费观看性色| 国产H片无码不卡在线视频| 国产福利影院在线观看| 麻豆AV网站免费进入| 91亚洲视频下载| 91福利片| 午夜a视频| 伊人查蕉在线观看国产精品| 成人福利在线免费观看| 小13箩利洗澡无码视频免费网站| jizz在线免费播放| 亚洲天堂区| 日本色综合网| www.亚洲国产| 无码国产偷倩在线播放老年人| 国产成人精品一区二区不卡 | 日韩黄色在线| 亚洲第一视频免费在线| 视频一本大道香蕉久在线播放| 最新无码专区超级碰碰碰| 亚洲an第二区国产精品| 亚洲精品麻豆| 六月婷婷精品视频在线观看| 99热这里只有免费国产精品| 久精品色妇丰满人妻| 久久综合色播五月男人的天堂| 色妞永久免费视频| 日韩在线中文| 国产精品v欧美| 亚洲国产亚综合在线区| AV网站中文| 99在线视频免费| 国产精品永久免费嫩草研究院| 91成人试看福利体验区| 国产成人AV大片大片在线播放 | 国产精品精品视频| 国产黄网永久免费| 精品国产成人三级在线观看| 手机永久AV在线播放| 一本久道久久综合多人| 亚洲香蕉久久| 国产jizz| 97成人在线观看| 亚洲天堂精品在线| 好紧太爽了视频免费无码| 免费a级毛片18以上观看精品| 啪啪免费视频一区二区| 欧美成人午夜视频免看| 日韩欧美国产精品| 亚洲国产天堂久久综合| 全裸无码专区| 亚洲欧美在线综合一区二区三区| 日韩精品成人网页视频在线| a天堂视频| 亚洲热线99精品视频| 午夜精品一区二区蜜桃| 一区二区午夜|