999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度信念網絡的CYP450 2C9抑制性分類

2019-04-01 13:12:00李自臣史新宇田生偉
計算機應用與軟件 2019年2期
關鍵詞:分類特征實驗

李自臣 史新宇 禹 龍 田生偉 王 梅 李 莉

1(烏魯木齊職業大學信息工程學院 新疆 烏魯木齊 830002)2(新疆大學軟件學院 新疆 烏魯木齊 830008)3(新疆大學網絡中心 新疆 烏魯木齊 830046)4(新疆醫科大學藥學院 新疆 烏魯木齊 830011)

0 引 言

吸收、分布、代謝、排泄和毒性問題是造成臨床醫藥化合物失敗的主要因素,約有70%的藥物在臨床試驗中失敗或退出市場[1]。其中,新陳代謝決定一個化合物進入人體的命運,并最終控制該化合物是否具有毒副作用。細胞色素P450酶是藥物代謝酶中的一個家族,它是肝臟中藥物代謝的主要位點,負責人體90%以上的臨床藥物代謝[2]。在代謝第一階段,細胞色素P450酶的亞型主要通過氧化反應,修改各種各樣的基質,使他們有更強的水溶性且易于被消除[3]。

CYP2C9作為細胞色素P450第二亞家族中的一個重要成員,在人體肝臟中,約占全部的CYP450蛋白總量的20%,并且已存在于市場上的16%的臨床藥物由它負責代謝。例如抗驚厥類藥物、抗凝血類藥物、非甾體抗炎藥及其他種類的藥物等。它的抑制作用可能會導致藥物較低的代謝速率及等離子體濃度的增加,并進一步導致藥物產生毒性作用。因此,在早期的藥物篩選和安全評價中,區分CYP2C9的抑制性和非抑制性成為重要的研究課題。

近年來,基于機器學習的QSAR建模方法已廣泛應用于CYP450酶的抑制性分類。文獻[4]以Three-Point Pharmacophoric (3PP) 分子指紋特征作為SVM模型的輸入,對1 100個化合物訓練,在包含238個化合物的測試集上實現CYP2C9的抑制性分類。Cheng等[5]分別使用偏最小二乘判別分析法和SVM方法,結合兩種基于分子指紋的描述符實現對CYP2C9的抑制性分類。李蘭婷等[6]采用逐步判別分析法和K-均值聚類分析法(K-Means cluster analysis method)建立模型,對81個化合物進行訓練和測試,取得了較好的效果。然而,這些方法大多基于有監督的淺層學習模型,其性能依賴分子特征的選擇,容易出現維數災難和局部最優等問題。

本文利用深度學習思想,提出了基于DBN的CYP2C9抑制性分類模型。通過堆疊多層受限玻爾茲曼機(RMB),利用其組合低層數據特征并充分挖掘分布式特征的能力,對分子特征進行更本質的學習。采用反向傳播神經網絡(BP)對多層RBM進行有監督的微調,完成對CYP2C9的抑制性分類。通過與淺層學習模型SVM和ANN進行對比,本文所提模型克服了淺層模型容易出現維數災難和局部最優等問題,驗證了深度信念網絡模型對CYP2C9抑制性分類的有效性。

1 相關工作

1.1 數據源

本文所獲取的數據集源于文獻[7],它從PubChem BioAssay數據庫中收集了13 908個結構多樣的化合物(PubMed ID:AID410),為避免樣本的重復和錯誤,所有化合物都經過處理和檢驗。原始數據集中包含一些信息,例如分子ID、記錄ID、化合物的SIMLES結構,以及CYP2C9的抑制性和非抑制性標識。本文選取13 000條數據,并以4∶1的比例將全部數據集分為訓練集和測試集。數據集的詳細類別分布見表1。全部實驗采用五折交叉驗證評估模型的性能,避免實驗的隨機性和偶然性。數據集可從Online Chemical Modeling Environment (OCMEM)中免費下載。

表1 訓練集和測試集的詳細類別分布

1.2 分子指紋

分子指紋技術是描述化合物結構屬性的一種方法,通過檢測分子結構中一些特定子結構(即分子結構片段)是否存在,從而把分子結構轉化為一系列二進制指紋序列[8]。目前,有多種不同形式分子指紋,如FP2、FP3、FP4指紋、MACCS指紋、Estate指紋、Pubchem指紋,以及Daylight指紋等。

1.3 分子指紋生成

本文采用新加坡國立大學Yap等[9]開發的PaDEL-Descriptor描述符計算軟件。該軟件當前可計算797個描述符(1維和2維663個,3維134個)及10種不同類型的分子指紋。該軟件免費且開源,有便于用戶使用的圖形用戶界面,可運行在多個平臺,接受多種類型的文件格式。利用該軟件生成了常用的PubChem和MACCS分子指紋,其中MACCS根據166位結構片段詞典進行編碼產生二進制字符串。這些結構特征包括原子類型、化學鍵類型、原子環境類型與結構性質等。用0和1來表示分子中相關結構特征信息的存在與缺失,即當分子中存在某一結構特征時,就在預定義結構特征位點構成的位串(詞典)中相應位置標記為1,否則標記為0[10]。

1.4 分子指紋預處理

分子指紋維度過高,會增加模型的計算量和運行時間。為避免分子特征冗余,本文按以下規則對分子指紋特征進行篩選:(1) 去除重復特征;(2) 去除全為零的特征;(3) 去除標準差等于零的特征。具體實現過程如下:

算法:分子指紋預處理

i為單個樣本,num為樣本數量,c為特征個數

1. foriindatas.num:

2. ifdata[i].std()==0:remove.append(i)

3.c=datas.feature.num

4. foriinrange(c)

5.v=datas[i]

6. forjinrange(i+1,c):

7. ifequal(v,datas[j]):remove.append(c[j])

2 模型介紹

2.1 深度信念網絡(DBN)

深度神經網絡DNN利用多層神經網絡訓練模型,不僅能克服一些淺層機器學習模型的局限性,盡可能使用較少參數實現復雜函數逼近,而且有很強的自學習能力。同時,它能從原始高維特征中抽取出多層分布表示。DBN作為DNN的一種,由Hinton于2006年提出,已被廣泛應用于多個領域[11]。DBN由多層RBM和BP網絡組成。DBN訓練過程分兩步:預訓練和微調。首先,采用無監督學習方式對RBM每一層訓練,保證當特征向量被映射到不同特征空間時,特征信息能盡可能多的保留;然后利用最后一層BP網絡以有監督訓練方式微調整個DBN網絡權重值。它以RBM輸出向量作為自身輸入向量訓練一個實體關系分類器。DBN結構如圖1所示。

圖1 DBN模型結構

2.2 受限玻爾茲曼機(RBM)

受限玻爾茲曼機是一個生成式隨機神經網絡,由Hinton和Sejnowski于1986年提出[12]。它由可見單元和隱單元組成,這些單元是二值變量,狀態為0或1。全部神經網絡是一個二部圖,可見層和隱藏層之間全連接,層內之間無連接。RBM結構如圖2所示。

圖2 RBM的結構

圖2中,可以看到RBM包含4個可見單元(由v表示)和3個隱藏單元(由h表示),w是一個4×3矩陣,它表示可見層和隱藏層之間邊的權重。受統計學能量函數概念的啟發, RBM引入能量函數的概念:“聯合配置(v,h)”,被定義為:

(1)

式中:θ是RBM的一個參數,表示為{W,a,b};w表示可見層的基向量;b表示隱藏層的基向量。根據玻爾茲曼分布,可見單元和隱藏單元的聯合概率如下:

(2)

Z(θ)是一個歸一化因子(也稱為配分函數),采用sigmoid激活函數,公式如下:

(3)

學習RBM的任務是求出參數θ的值,以擬合給定的訓練數據,參數θ可以通過最大化RBM在訓練集上的對數似然函數 (P(v))學習得到,P(v)可由式(4)得到。最大化P(v)等同于最大化log(P(v))=L(θ),如式(5)所示。

(4)

(5)

其中:可見層節點集合的邊緣分布為Pθ(v),然而計算Pθ(v)非常困難。因此,Hinton等提出了對比散度算法解決這一問題。

經過這一步,RBM提取出的特征向量作為BP模型的輸入。BP網絡可以微調整個DBN網絡。它的訓練過程主要分為兩步:一是前向傳播,將輸入特征向量沿輸入端傳播至輸出端;二是反向傳播,將BP網絡的輸出結果與正確結果比較得到誤差,然后將誤差從輸出端反向傳播至輸入端。

2.3 DBN模型對CYP2C9的分類流程

基于DBN模型的CYP2C9抑制性和非抑制性分類包含三個部分:數據預處理、DBN訓練過程以及CYP2C9的分類過程。DBN的整個分類流程如圖3所示。首先,用分子計算軟件生成分子指紋特征并由SPSS19.0軟件進行特征預處理。然后,根據2.2節介紹的算法訓練DBN模型。它包括兩個階段:一是基于無標簽數據訓練多層RBM;二是采用BP網絡微調整個DBN模型的參數。最后使用測試集評估模型的分類性能。

圖3 DBN模型對CYP1A2的分類流程

3 實驗與分析

3.1 模型評估標準

對二分類模型,有很多公認指標判定模型的性能。本文采用特異性(式(6))、敏感度(式(7)),總的分類準確率(式(8))以及馬修斯相關系數(式(9))作為模型的評估標準。

SP=TN/(TN+FP)×100%

(6)

SE=TP/(TP+FN)×100%

(7)

(8)

(9)

其中,MCC常用于二分類檢測,為驗證測試實驗結果是否平衡,其值在-1~1之間,越接近1模型評價效果越好。這些評估標準通過統計TP、FN、FP和TN的個數計算得出。TP表示真實值為抑制性,預測結果也是抑制性;FN表示真實值為抑制性,預測結果是非抑制性;FP表示真實值為非抑制性,預測為抑制性;TN表示真實值為非抑制性,預測也為非抑制性。

3.2 DBN、SVM和ANN參數信息

本文模型運行在Windows7系統上,使用MATLAB完成仿真實驗。計算機的配置為:Intel i3處理器,4 GB內存,主頻率為2.4 GHz。為得到模型最優分類性能,采用不同參數組合做了大量實驗。表2列出了DBN和BP模型的詳細初始化參數信息。

表2 DBN和BP的初始化參數信息

表2中,hiddensize表示隱藏層神經元個數;numepochs表示訓練迭代次數;momentum表示RBM初始化動量;alpha表示模型訓練過程中初始化學習率;batchsize表示每一次訓練批量處理樣本個數。對于SVM模型,采用LIBSVM (3.2版本,網址:http://www.csie.ntu.edu.tw/~cjlin/libs vm)實現仿真。為獲取SVM最優分類性能,內核函數和代價因子的選擇非常重要。可選內核參數有:linear、polynomial、RBF和sigmoid function。因RBF參數具有高效性和較低復雜性,選擇RBF作為SVM內核參數,代價因子為5。對ANN模型,采用和BP相同參數。

3.3 DBN層數對分類結果的影響

在深度學習模型中,選擇合適的DBN網絡深度對CYP2C9的抑制性分類精度有一定影響。我們嘗試了不同DBN網絡結構(RMB的層數從1層到5層)。實驗結果如表3所示。

表3 不同DBN層數在測試集上的準確率

從表3可以看出,隨著DBN模型層數增加,當模型的層數從1層到3層時,模型總的分類準確率有所提升(準確率從76.5%增加到80.6%)。當模型的層數從3層到5層時,模型總的分類準確率均有不同程度的下降。而且,模型層數的增加會使得訓練過程更加復雜、計算時間也隨之增加。因此,在后續的實驗中,經過多方面的考慮,我們設置DBN的隱藏層層數為3。

3.4 PubChem和MACCS描述符對實驗的影響

選擇不同的分子指紋作為模型輸入對CYP2C9的抑制性分類精度有一定影響。本文實驗采用僅使用PubChem特征,僅使用MACCS特征,以及兩者的特征組合分別作為模型的輸入驗證不同特征組合下模型的分類性能。實驗結果如圖4所示。

圖4 不同特征下的分類準確率

從圖4中可以看出,PubChem和MACCS分子指紋特征組合作為模型的輸入(模型分別為SVM、ANN和DBN),三個模型都獲得了最好的分類性能。它們各自總的分類精度分別為78.3%、78.0%、80.6%,高于僅使用MACCS特征所得到的準確率:74.6%、75.7%、76.1%,以及僅使用PubChem特征所得到的分類準確率:75.1%、76.6%、77.7%。實驗結果表明:PubChem和MACCS特征組合給模型帶來了新的信息,并且增加了模型的分類性能。同時將MACCS特征加入模型中提升了模型的分類性能,這一結果說明MACCS特征信息對CYP2C9的抑制性分類有積極影響。Michielan等[3]也得到了類似的結論:分子指紋特征對構建CYP2C9的抑制性分類模型具有重要貢獻。因此實驗證明了將PubChem和MACCS分子特征組合作為模型的輸入可以進一步提升其分類準確率。

3.5 模型對比試驗

為驗證DBN模型對CYP1A2抑制性和非抑制性分類的有效性,基于相同的數據集和特征,將它與ANN和SVM模型進行了比較。以準確率和馬修斯相關系數(MCC)作為衡量標準,結果分別如圖5和圖6所示。

圖5 DBN、ANN和SVM的分類準確率

圖6 DBN、ANN和SVM的MCC系數

從圖5和圖6能夠得出,隨著數據量的增加,DBN、SVM以及ANN模型的分類準確率和馬修斯相關系數均有所提升。實驗結果表明,模型在豐富和大量的樣本條件下能夠學習更加多樣的特征,進而提升了分類準確率。當數據量增加到13 000條時,相較于SVM和ANN,DBN模型獲得了最好的分類準確率。原因是:不同于ANN、DBN模型避免了權重值隨機分配,采用無監督預訓練學習過程,可以提供一個更合適的初始值,從特征中抽取出多級的分布式表示,可以更好地挖掘分子結構的規律性。同時,DBN模型是一個深層網絡結構,當問題規模變得更加復雜時,它能克服一些淺層神經網絡相對較弱的泛化能力及容易陷入過擬合的問題。

4 結 語

本文基于一個相對較大且結構多樣的數據集,采用深度信念網絡探討了分子結構與區分CYP2C9的抑制性判別關系,驗證了不同分子指紋特征對模型分類結果的影響。同時與ANN和SVM進行比較,驗證了DBN模型對CYP2C9抑制性分類的有效性。因此,本文的研究有助于在藥物研發階段對CYP1A2的抑制性進行快速評估,對新藥篩選具有一定的指導作用。

猜你喜歡
分類特征實驗
記一次有趣的實驗
分類算一算
如何表達“特征”
做個怪怪長實驗
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
NO與NO2相互轉化實驗的改進
主站蜘蛛池模板: 天堂网亚洲系列亚洲系列| 亚洲V日韩V无码一区二区| 自拍中文字幕| 色综合五月婷婷| 久久精品国产电影| 成人午夜免费观看| 欧美日韩激情| 波多野结衣久久精品| 99久久精品免费看国产免费软件 | www.99精品视频在线播放| 99热这里只有精品免费| 风韵丰满熟妇啪啪区老熟熟女| 国产成人亚洲欧美激情| 久久网欧美| 久久国产精品嫖妓| 亚洲综合九九| 九九热在线视频| av天堂最新版在线| 91蜜芽尤物福利在线观看| 亚洲精品无码久久久久苍井空| 久久动漫精品| 欧美日韩在线国产| 欧美v在线| 国产无套粉嫩白浆| 国产成人无码AV在线播放动漫| 色噜噜狠狠色综合网图区| 福利在线不卡一区| 在线色综合| 老司国产精品视频91| 国产永久在线视频| 中文字幕伦视频| 国产玖玖玖精品视频| 亚洲一级毛片| 国产一区免费在线观看| 亚洲中文在线看视频一区| 日韩精品少妇无码受不了| 国产精品va| 日韩无码真实干出血视频| 精品超清无码视频在线观看| 欧美97欧美综合色伦图| 国产AV无码专区亚洲A∨毛片| 午夜福利亚洲精品| 第九色区aⅴ天堂久久香| 成人福利一区二区视频在线| 国产女人在线| 日韩精品久久无码中文字幕色欲| 91成人在线观看| 亚洲性一区| 97av视频在线观看| 多人乱p欧美在线观看| a色毛片免费视频| 成人另类稀缺在线观看| 久久综合亚洲鲁鲁九月天| 国产专区综合另类日韩一区| 九九视频在线免费观看| 欧美性色综合网| 日韩麻豆小视频| 欧美亚洲欧美| 天天做天天爱天天爽综合区| 亚洲V日韩V无码一区二区| 2021精品国产自在现线看| v天堂中文在线| 亚洲色图欧美在线| 国产精品自在在线午夜| aaa国产一级毛片| 亚洲婷婷六月| 91福利在线看| 麻豆精品视频在线原创| 日本午夜精品一本在线观看 | 国产AV无码专区亚洲A∨毛片| 五月六月伊人狠狠丁香网| 午夜福利在线观看入口| 人妻精品久久无码区| 国产91成人| 久热re国产手机在线观看| 国产男人的天堂| 中文字幕久久亚洲一区| 日韩精品亚洲人旧成在线| 亚洲Av综合日韩精品久久久| 亚洲国产清纯| 色婷婷亚洲综合五月| 国产91精品最新在线播放|