黃群富,丁長松,2
(1 湖南中醫藥大學 信息科學與工程學院,長沙 410208;2 湖南省中醫藥大數據分析實驗室,長沙 410208)
中醫臨床經驗豐富、療效顯著,但對中藥成分、治療靶點的作用機制仍知之甚少,給臨床精準治療帶來了極大挑戰。然而,中藥具有多成分、多靶點等特點,很多潛在成分與靶點間的關系尚未明確。通過生物實驗,分別從中藥的成分研究其作用靶點花費的時間、經濟成本大且難以實現。因此,研究快速高效的中藥成分-靶點相互作用預測方法亟不可待。
中藥靶點發現的關鍵,在于探究中藥多成分與多靶點的相互作用關系。現有的定量結構活性關系方法預測中藥靶點方法,主要以分子指紋、分子描述符結合機器學習為主[1],忽略了中藥、成分、靶點3者之間的潛在聯系,不利于模型的泛化調用。目前,網絡分析已廣泛應用于疾病分類、生物醫療、新藥研發等領域,其有效性已在實踐中得到驗證。如:Hao等[2]針對藥物-靶點相互作用,提出一種雙網絡集成邏輯矩陣分解的相似性度量方法;于亞運等[3]基于分子指紋相似度構建中藥成分-靶點相互作用分類模型。此類方法的準確度很大程度依賴于分子結構相似性。近年來,深度神經網絡(Deep Neural Network,DNN)結合傳統算法已成功應用于海量、復雜的藥物-靶點網絡拓撲結構分析[4]。如:使用DNN 和因子分解機實現自動學習特征的高階及低階表達式[5];利用XGBoost 確定藥物分子指紋非冗余特征[6],并通過DNN 提高藥物靶點分類模型精度等。
本文針對傳統中藥靶點預測忽略中藥、成分、靶點之間的潛在聯系和藥物-靶點網絡研究中存在特征提取不全、過于依賴結構相似性的問題,提出了一種基于中藥-成分-靶點(Traditional Chinese Medicine-Ingredient-Target,TCMIT)3 層異構網絡的中藥靶點預測方法。利用結構相似性和關聯矩陣構建TCMIT 異構網絡,使用數學統計算法提取網絡拓撲特征,并結合深度學習建立TCMIT-DNN 中藥成分-靶點相互作用分析模型,通過異構網絡從分子維度分析中藥治療疾病的現代物質基礎。
基于成分SMILES 相似性、靶點氨基酸序列相似性,以及已知相互作用的中藥-成分、成分-靶點關系,構建TCMIT 3 層異構網絡。采用重啟隨機游走、高斯核算法,分別提取層內相似性網絡和層間異構網絡的拓撲特征;結合信息熵,分別融合成分、靶點特征矩陣,并利用DNN 構建分類模型。本文整體框架如圖1 所示。

圖1 融入“中藥-成分-靶點”異構網絡特征的深度學習預測中藥靶點框架Fig.1 Prediction of traditional Chinese medicine targets based on deep learning on integrated “TCM-ingredient-target” network features
令D ={d1,d2,…,dI} 表示中藥集合;I為中藥總數;C ={c1,c2,…,cJ} 表示中藥包含的成分集合;J為成分總數;T ={t1,t2,…,tK} 表示種屬來源于Human 物種的靶點集合;K為靶點總數。
利用Jaccard 算法[7],分別計算成分擴展連通性指紋向量的結構相似性,構建成分相似矩陣SIMingre∈RJ×J。公式如下:

式中,ci、cj分別表示兩種成分的指紋向量。
利用史密斯-沃特曼(Smith-Waterman)算法[8],計算兩個不等長氨基酸序列的相似性,構建靶點結構相似矩陣SIMtarget∈RK×K。公式如下:

式中,空位罰分數w設為2,若當前對比的兩個元素相同,則s為3,否則s為-3。
中藥、成分、靶點分別作為3 個相似性網絡的節點,根據節點間的相互作用關系,定義連接中藥層與成分層的鄰接矩陣M∈RI×J、連接成分層和靶點層的鄰接矩陣N∈RJ×K。當矩陣中存在相互作用關系時編碼為1,否則編碼為0。編碼為1 表示異構網絡相應的節點間存在連邊,編碼為0 則不存在連邊,分別構建“中藥-成分”、“成分-靶點”異構網絡;以成分層為連接層,將“中藥-成分”、“成分-靶點”異構網絡融合為TCMIT 3 層異構網絡(如圖1 中第三部分所示)。
中藥成分-靶點相互作用的預測過程,可被視為節點同時在成分層相似性網絡和靶點層相似性網絡隨機游走的過程。重啟隨機游走(Random Walk with Restart,RWR),對于解決具有多種異構拓撲結構的生物網絡計算具有一定優勢[7],可利用相似性網絡中的拓撲相似性構建RWR相似矩陣。以成分層網絡為例:
定義成分層轉移概率矩陣TC∈RJ×J,其中TC(ci,cj)為隨機游走過程中,成分節點i到達j的概率,計算公式如下:


利用藥物靶點的相互作用關系,計算藥物高斯核相互作用屬性(Gaussian Interaction Profile,GIP)相似性方法[9],同時計算“中藥-成分”和“成分-靶點”異構網絡間拓撲結構相似性GIPingre∈RJ×J和GIPtarget∈RK×K。以GIPingre為例,計算公式如下:

其中,f(ci)表示在鄰接矩陣M中,成分ci與所有中藥的對應關系;γd為控制核寬度的調節參數;J為成分集合的總數;的值則是根據使用高斯核的經驗而設置。
計算相似矩陣信息熵可獲得其攜帶多少信息,信息熵越小表示該相似矩陣中隨機信息越少,從而能為特征矩陣提供更大、更豐富的信息量。在異構網絡中,使用信息熵算法融合各特征矩陣,降低矩陣中數據噪聲的影響。以矩陣SIMtarget∈RK×K為例,信息熵計算如下:

其中,P(ti,tj)表示靶點節點i和j在網絡中相連的概率值,計算公式如下:

SIMingre、RWRingre、RWRtarget、GIPingre、GIPtarget矩陣的信息熵值計算與SIMtarget矩陣類似。根據熵值確定各矩陣融合權重,分別將成分和靶點的結構信息、相似性網絡拓撲信息、異構網絡拓撲信息線性融合,構建成分特征矩陣FEAingre∈RJ×J和靶點特征矩陣FEAtarget∈RK×K。融合公式如下:

其中,FEAingre(i,j) ∈[0,1]表示成分ci與cj經信息融合后的值,FEAtarget(i,j) 與其類似。
DNN 采用多層神經網絡結構,將復雜映射分解為一系列嵌套的簡單映射,以逐層抽象實現從局部特征到整體特征提取解決復雜問題。異構網絡的拓撲屬性可表示為節點的特征向量,利用DNN 的非線性擬合能力構建TCMIT-DNN 模型,預測異構網絡上中藥成分和靶點的相互作用。當鄰接矩陣N(i,j)=1 時,表示ci與tj存在相互作用,則將ci與tj視為中藥成分-靶點對正例樣本(y =1),當鄰接矩陣N(i,j)=0 時,則將其視為負例樣本(y =0),樣本特征向量v定義如下:

其中,FEAingre(i,:) 表示矩陣FEAingre的第i行,FEAtarget(j,:) 表示矩陣FEAtarget的第j行。因此,FEAingre(i,:) 和FEAtarget(j,:) 經concat(·)拼接后,生成(J +K)維的樣本特征向量v,J和K分別為成分、靶點數據集總數。
TCMIT-DNN 模型由一個輸入層、3 個隱含層和一個輸出層組成。樣本特征向量v由輸入層神經元流向下一層神經元,通過3 個隱含層的非線性函數運算后傳遞至輸出層,輸出v預測為正例和負例的概率值。
本文采用的數據來源于中藥藥理學數據庫和藥物化學數據庫。在BindingDB 數據庫(網址http://www.bindingdb.org/)中收集所有包含Human 物種來源的靶點,共計2 135 個,將靶點信息在TCMID 數據庫(網址http://www.megabionet.org/)中查詢其具有相互作用的成分,共計1 633 個,將成分信息在Herb 數據庫(網址http://herb.ac.cn/)查詢其具有所屬關系的中藥,共計1 558個,并收集成分SMILES(Simplified Molecular Input Line Entry Specification,SMILES)信息及靶點氨基酸序列信息。
2.2.1 建立TCMIT-DNN 分類模型
中藥集合D、成分集合C、靶點集合T的數量I、J、K分 別 為1 558、1 633、2 135,由Jaccard 和Smith-Waterman算法分別計算中藥成分和靶點的結構相似性,構建結構相似矩陣SIMingre∈RJ×J和SIMtarget∈RK×K,并結合中藥-成分和成分-靶點的關聯關系構建TCMIT 異構網絡。在RWR 算法中,初始隨機游走矩陣主對角線的值為1,其余值為0;重啟概率a設置為0.5;基于成分-成分和靶點-靶點網絡構建具有相似性網絡拓撲特征的矩陣RWRingre∈RJ×J和RWRtarget∈RK×K。在GIP 算法中,調節核寬度的參數設置為1,基于中藥-成分和成分-靶點網絡構建具有異構網絡拓撲特征的矩陣GIPingre∈RJ×J和GIPtarget∈RK×K;分別計算SIMingre、RWRingre、RWRtarget、GIPingre、GIPtarget和SIMtarget矩陣的信息熵值,并確定特征矩陣融合權重,結果見表1。融合后生成中藥成分特征矩陣FEAingre∈RJ×J和靶點特征矩陣FEAtarget∈RK×K,并將中藥成分、靶點結合鄰接矩陣N∈RJ×K拼接生成中藥成分-靶點對,作為DNN 的輸入。

表1 相似矩陣信息熵值Tab.1 Information entropy of similarity matrix
中藥成分-靶點對存在相互作用的38 286 條數據作為正例樣本集,將中藥成分和靶點隨機組合,可以獲取344.816 9 萬條未知標簽的組合樣本數據,并在未知標簽的數據中隨機選取與正例樣本集數量相同的作為負例樣本集[2]。生成正例和負例樣本集后,將其混合并打亂生成76 572*3 768 的樣本數據,按比例8 ∶1 ∶1 劃分訓練集、驗證集和測試集。
本文選用python3.7 編程語言結合Pytorch 框架建立TCMIT-DNN 模型。模型為5 層網絡結構,輸入層神經元數為中藥成分ci與靶點tj特征向量維數之和,共計3 768 個;隱含層神經元數分別為128、64、32;輸出層神經元數為2 個;采用非線性激活函數ReLU,學習率設為0.001,batch_size 一次性輸入模型中的樣本數設為64,epochs 數據訓練輪次設為50;模型的損失函數loss采用交叉熵(Cross Entropy Loss),其公式如(13):

式中,n為樣本數量,yi表示第i個中藥成分-靶點對的實際標簽,正例為1,負例為0,pi表示樣本i預測為正例標簽的概率。
2.2.2 模型性能指標
為檢驗TCMIT-DNN 模型的分類結果并對模型進行評估,遵循二分類模型評估指標,采用ROC曲線下面積(Area Under the ROC Curve,AUC)、準確率(Accuracy,ACC)和F1 值(F-Measure)從不同角度評估模型性能。
2.3.1 消融實驗
為檢驗TCMIT-DNN 模型整合異構網絡拓撲特征的有效性,分別使用包含傳統屬性特征的STRDNN 模型、包含層內相似性網絡拓撲特征的RWRDNN 模型、包含層間異構網絡拓撲特征的GIPDNN 模型進行對比;為檢驗信息熵融合相似矩陣的有效性,使用相似矩陣融合權重取均值的ENTDNN 模型進行對比。各模型相似矩陣融合權重見表2,實驗結果見表3。

表3 5 種算法性能比較Tab.3 Performance comparison of 5 algorithms
在相同測試集、實驗參數和評價標準下,使用信息熵整合網絡拓撲特征的TCMIT-DNN 模型AUC值、F1 值、ACC值均為最高,較傳統屬性特征STRDNN 模型分別提升了4%、5.6%、5.4%。結果表明,本文整合異構網絡拓撲特征,有助于中藥成分-靶點相互作用分析模型性能提升,同時信息熵算法有利于降低相似矩陣數據噪聲的影響。
2.3.2 與基線模型對比
為檢驗TCMIT-DNN 模型在中藥成分-靶點相互作用分析優越性,將其與近年來基于指紋相似度常用的隨機森林(Random Forest,RF)模型[3]、梯度提升樹(Gradient Boosting Decision Tree,GBDT)模型[10]、支持向量機(Support Vector Machine,SVM)模型[11]進行對比實驗。RF、GBDT、SVM 模型采用成分和靶點結構相似性作為輸入,利用網格搜索法尋找最優參數組合,TCMIT-RF、TCMIT-GBDT、TCMIT-SVM 分別為RF、GBDT、SVM 模型在使用TCMIT 3 層異構網絡策略后的模型,其中分類模型的參數保持一致。RF 分類模型的參數為:子樹的數量為100,最大深度為10;GBDT 分類模型的參數為:子樹的數量為50,最大深度為5,子采樣系數為0.7;SVM 分類模型的參數為:懲罰系數C為1,核函數為線性核函數。
由表4 可知,在相同測試集上的評價指標表明,TCMIT-DNN 具有最高的AUC、F1值和準確率,TCMIT-GBDT和TCMIT-RF 模型效果稍差,TCMITRF 模型效果較差。究其原因,是由于TCMIT-DNN模擬人腦的工作原理建立多個函數單元,以及其強大的非線性擬合能力,能很好地模擬成分和靶點的子結構,并有效處理具有空間拓撲特征的不規則數據,通過驗證集調整確定網絡結構參數,建立高精度判別模型。實驗結果還表明,在對中藥成分和靶點數據進行TCMIT 3 層異構網絡的構建和網絡特征提取后,GBDT、SVM 和RF 模型的性能均有不同程度的提升。其中,TCMIT 網絡結合DNN 模型效果最好,表明TCMIT 異構網絡策略能有效提取中藥多成分、多靶點之間的潛在關聯特征,從而提升中藥成分與靶點相互作用的分類性能。

表4 常用算法性能比較Tab.4 Performance comparison of common algorithms
以黃芪為例基于TCMIT-DNN 模型預測中藥成分和靶點的關系。將黃芪的成分信息按TCMIT 異構網絡策略編碼后,輸入模型得到預測靶點,并利用Cytoscape 軟件構建黃芪成分-靶點網絡,由網絡圖的度篩選出重要潛在靶點,并通過藥物化學、藥理等理論分析結果,以此驗證TCMIT-DNN 模型的有效性。
利用預測結果構建黃芪成分-靶點網絡,計算黃芪成分-靶點網絡圖的度值,并以排序前10 的靶點作為最終的潛在靶點,最終結果見表5。

表5 黃芪靶點預測結果分析Tab.5 Analysis of target prediction results of Huangqi
將結果進行中藥化學數據庫驗證,以及從DrugBank、OMIM 數據庫和文獻中獲取靶點功能和已知藥物進行分析。分析結果表明,NQO1、ABCB1、AURKB、ADRB1 均得到中藥化學數據庫驗證,在其余靶點中,HRH1 基因大量表達于平滑肌和神經元中參與覺醒、情緒和激素分泌的控制,靶向HRH1有助于早期治療一些自身免疫性疾病[12];Huai等[13]發現,KAT8 通過促進I 型干擾素的產生,保護突變小鼠抗病毒感染;DDX1 基因與抗病毒免疫應答、腫瘤發生發展密切相關[14];LIPE 的缺失會導致胰島素抵抗、糖尿病的風險增加[15];ADAMTS13 是一種多結構域蛋白酶,其缺陷會導致微血管過程觸發血小板和內皮細胞的補體激活,從而引發血栓性微血管病[16]。上述結果體現了黃芪鎮靜、增強免疫力、抗突變、抗病毒、抗腫瘤、降血糖、預防周圍血管病變的藥理作用。
中藥治療通過多成分、多靶點、多環節、多途徑綜合調節,作用于機體治療疾病,其作用機理具有明顯的空間拓撲結構,且其拓撲結構具有明顯的異構特性。現有的基于分子結構相似性分析中藥成分-靶點相互作用的方法忽略了中藥、成分、靶點3 者之間的復雜關系,導致分析結果不夠精準。本研究通過TCMIT3 層異構網絡建立中藥、成分、靶點3 者之間的聯系,并利用數學統計結合深度學習技術預測中藥靶點。實驗表明所有對比模型結合TCMIT 異構網絡策略時分類性能均得到提升,其中TCMITDNN 模型均優于其他常用模型,并將模型有效應用于黃芪的中藥靶點預測。本研究的中藥靶點虛擬篩選方法充分利用了不同特征的優勢,降低了傳統依賴于結構相似性特征和單一描述符的風險,同時擬合了中藥多成分、多靶點之間潛在聯系,減輕特征提取的影響,有望應用于分子維度分析中藥的現代物質基礎。