雷涵清,蔣亞健,習智威,張萬成,陳 明
(湖南師范大學信息科學與工程學院,長沙 410081)
傳統藥物設計方法往往依賴于大規模的生化實驗,而藥物研發出來后又需要一定的實驗周期審核才能夠生產上市。這樣一來,應對疾病的藥物不僅研發成本高,而且耗時耗力,也就進一步為患者得到及時救治增加了難度。為了改善這一現狀,學者專家們提出了結合計算機科學與生化信息學等科學,實現計算機輔助藥物設計。通過計算方法對藥物重定位進行理性設計,可以為大規模試驗篩選提供線索,進一步降低成本。
藥物-靶標相互作用(Drug-target interaction,DTI)預測無論是在藥物研發過程中還是在對已有藥物的重定位方面都有著重大意義。現階段對DTI預測問題的研究方法眾多,在處理藥物靶標關系預測問題時,將其轉化為鏈路預測問題是一個比較常用的研究手段。其中一大類是基于特征的方法,分別計算藥物與靶標的特征向量,進一步通過相似性或距離函數將藥物-藥物和靶標-靶標相似度度量結合起來,進行DTI預測。基于矩陣分解的方法在DTI預測任務上也有較高的準確度,它們主要依賴于藥物-靶標網絡結構。近年來,深度學習方法的出色表現讓其在藥物發現方面的應用也不斷增加。相比于淺層模型,基于深度學習的DTI預測方法表現得更為出色。
現有研究大多是以二分類的形式來進行鏈路預測,即確定藥物靶標之間是否有連接。實際上,藥物和靶標之間的作用模式是多樣的:它可以激活或抑制靶標,它可以作為協同劑或拮抗劑,增效劑或阻斷劑,誘導劑或抑制劑等。盡管在具體模式上有所不同,且靶標類型也有不用類別(包括蛋白質、大分子、核酸、小分子等),但這些作用方式可以大致劃分為積極或消極。將這些模式表征為藥物-靶標二分圖的邊的符號,將有助于藥物重定位設計。
符號圖在生物信息領域已經廣泛使用,包括藥物互作用關系、藥物-靶標網絡數據分析。本文利用符號網絡進一步細化藥物-靶標網絡,將DTI問題轉化為符號網上的鏈路預測,預測邊的存在性以及該邊的符號屬性,從而推斷出潛在的藥物-靶標關系。本文引入符號網絡上的邏輯回歸和隨機游走這兩項技術來解決該問題,它們都是新近發展的符號鏈路預測新方法。預測結果呈現出良好的指標,表明該思路的可行性。
大多數DTI預測方法主要依賴于藥物-靶標二分圖的拓撲結構及從組成成分的本體中獲得的信息。許多藥物具有共同的靶標,但是作用模式不盡一致。本文考慮了相互作用的具體模式,根據它們的類型定義出符號網絡。
我們從DrugBank中搜集數據,發現靶向藥物靶向機制的多種模式:它可以激活或抑制靶標,它可以作為激動劑或拮抗劑,增效劑或阻斷劑,誘導劑或抑制劑等。盡管作用于不同類別的靶標(例如蛋白質、大分子、核酸、小分子等),但它們大致可以分為積極或消極作用。表1列出了藥物靶標之間的作用類型劃分結果,將activator、agonist等類型劃分為正作用,以標簽+1表示,將inhibitor、antagonist等類型劃分為負作用,以標簽-1表示。一些類別無法納入符號分類,例如“調節劑”,“粘合劑”等,不在本文的考慮范疇之內,留待以后研究。

表1 藥物-靶標作用模式的符號化
最終形成一個二分圖(,,),其中={,,…,d }表示使用到藥物節點,={,,…,t}表示靶標節點,={e,=1…,=1…}表示與之間連接的邊,根據上面的作用劃分對e進行了符號設定。如圖1所示,藥物-靶標網絡的關系預測是指:已知一個上述形式的二分圖,預測出一些潛在的藥物-靶標互作用邊,并指出它們的符號屬性。

圖1 DTI預測問題
本文選用了符號網絡上最近發展的兩種鏈路預測方法:基于邏輯回歸的監督分類與符號圖隨機游走,它們都以平衡理論為基礎。
由于符號網絡的相關研究最初集中于社會學領域,Heider等基于社會心理學探討了人作為認知主體的三角關系中的消極關系與積極關系的相互作用模式,被后來的Cartwight等用圖論語言進行描述。最基礎的平衡理論以三個節點加以刻畫,具有奇數條負邊的三角形是不平衡的,具有偶數條邊的三角形是平衡的。Derr等將其推廣至異構符號網絡。如圖2所示,取四個節點為最小的異構單元,總共可以構成7個不同的模式,其中前5個屬于平衡結構,后2個屬于不平衡結構。

圖2 異構符號圖平衡理論示意圖
利用監督分類預測DTI,是指針對已知鏈接e,分別抽取藥物d 和靶標t的特征表征,使用(d,t)作為樣本點的特征、e的符號作為樣本標簽,訓練得到一個分類器。本文利用邏輯回歸模型來訓練樣本,預測潛在的DTI的符號屬性。該算法的關鍵在于如何抽取(d ,t)的特征。本文對以d 和t作為端點的帶符號蝶形(見圖2)進行計數,分別統計其平衡蝶形數與不平衡蝶形數,將這兩個數目作為(d ,t)樣本點的特征。
由于二部網絡的分布不平穩,不易收斂,無法直接使用隨機游走。Derr等基于平衡理論構建了藥物集合的鄰接矩陣P∈和靶標集合的鄰接矩陣P∈,使用這兩個鄰接矩陣建立鄰接矩陣∈,作為進行隨機游走的單部符號網絡。





其中為使隨機游走偏向于符號二部網絡的真正鏈接的參數。


這里采用的隨機游走為帶重啟隨機游走,設定重啟概率參數為,則有:

本文在兩個網絡上進行測試,它們都是從Drugbank中所獲取的。表2列出了關于它們的統計。

表2 數據集的統計
第一個網絡來自于文獻[9],它是從較早版本的Drugbank抽取的數據。包括1178個藥物,578個靶標,2599條作用關系數據,其中1506條負邊、1093條正邊。
第二個網絡是本文從最新的DrugBank網站上獲取的。包括1020個藥物,1244個靶標,3639條作用關系數據,其中2590條負邊、1049條正邊。
我們使用AUC核和1評價指標來衡量計算結果,它們的值越大,結果越好。隨機選擇20%的數據作為測試,剩余的80%作為訓練,實驗進行20次。利用5折交叉驗證完成每一次實驗,然后統計平均結果。所有算法參數設定均為文獻的默認參數。算法的代碼來自于文獻[9]:https://github.com/DSE-MSU/signed-bipartite-networks。將兩個算法結果進行比較,如表3所示。

表3 指標統計
上述結果表明,這三個算法在DTI預測中都有不錯的表現,說明基于符號網絡來進行DTI預測具有可行性。其中,邏輯回歸算法的表現相對較好,隨機游走算法次之。
利用計算方法進行DTI符號預測,是發現藥物與靶蛋白間反應類型的一個有潛力的方法,對于藥物醫學具有重要意義。本文將這類DTI預測問題視為符號網絡上的符號預測問題。利用邏輯回歸和隨機游走兩個算法進行DTI預測,結果表明,符號網絡在該問題上表現良好,具有可行性。下一步,我們將考慮納入多模態的節點屬性,利用異構圖神經網絡進一步提升本文的結果。