999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機(jī)器學(xué)習(xí)的成纖維細(xì)胞生長因子受體激酶抑制劑虛擬篩選模型

2023-06-25 09:56:22丁俊濤劉博吳建章李物蘭
關(guān)鍵詞:模型

丁俊濤,劉博,吳建章,李物蘭

1.溫州醫(yī)科大學(xué) 第一臨床醫(yī)學(xué)院(信息與工程學(xué)院),浙江 溫州 325035;2.溫州醫(yī)科大學(xué)附屬眼視光醫(yī)院,浙江 溫州 325000

成纖維細(xì)胞生長因子受體(fibroblast growth factor receptors, FGFR)是一種在許多生物學(xué)過程中發(fā)揮重要作用的受體酪氨酸激酶,包括FGFR1、FGFR2、FGFR3、FGFR4四種亞型[1]。FGFR信號傳導(dǎo)的異常激活在不同類型腫瘤(如膽管癌、子宮內(nèi)膜癌、尿路上皮癌和肺癌等)的發(fā)生和進(jìn)展中起重要作用[2-4],F(xiàn)GFR抑制劑具有治療這些疾病的潛力。目前FGFR激酶家族中已有3種小分子靶向抑制劑在近三年被批準(zhǔn)用于癌癥治療[5],但是隨后發(fā)現(xiàn)它們均表現(xiàn)出較強(qiáng)的高血磷癥、腹瀉等不良反應(yīng),因此急需尋找出新穎先導(dǎo)化合物骨架用于改構(gòu)成安全性更好的抑制劑。

在新藥發(fā)現(xiàn)領(lǐng)域,與實驗篩選相比,虛擬篩選方法在經(jīng)濟(jì)成本、時間效率上極具優(yōu)勢[6]。目前虛擬篩選可分為傳統(tǒng)經(jīng)典的計算機(jī)輔助藥物設(shè)計(computer aided drug design, CADD)[7]和現(xiàn)代新穎的人工智能藥物設(shè)計(artificial intelligence drug design, AIDD)[8]。在面對千萬級以上大數(shù)據(jù)庫的虛擬篩選方面,AIDD的效率遠(yuǎn)高于CADD。在已報道的FGFR抑制劑中,部分是基于CADD的新藥發(fā)現(xiàn),未見基于AIDD的抑制劑研究。因此,本研究建立了基于AIDD的FGFR激酶抑制劑虛擬篩選模型,選擇FGFR四種受體中與腫瘤等疾病關(guān)系密切的FGFR1,將AIDD篩選得到的化合物用CADD進(jìn)一步進(jìn)行了FGFR1激酶抑制劑的虛擬篩選和分子動力學(xué)模擬研究,旨在為FGFR抑制劑的研究提供高效AIDD篩選模型和苗頭化合物。

1 材料和方法

1.1 FGFR激酶抑制劑數(shù)據(jù)整理由于FGFR1-4激酶結(jié)構(gòu),尤其是FGFR1-3,高度相似,因此目前已報道的FGFR激酶抑制劑絕大部分是泛FGFR抑制劑。將BindingDB公共藥物實驗數(shù)據(jù)集[9]導(dǎo)入Mysql[10]軟件進(jìn)行整理查詢,獲得2196條FGFR激酶抑制劑實驗數(shù)據(jù),并將半數(shù)抑制濃度小于100 nmol/L的記為活性數(shù)據(jù),標(biāo)簽值為1,其余的記為非活性數(shù)據(jù),標(biāo)簽值為0。在對數(shù)據(jù)進(jìn)行清洗、去重、標(biāo)簽等操作后,最終得到活性數(shù)據(jù)1275條,非活性數(shù)據(jù)921條,作為后續(xù)處理和訓(xùn)練的數(shù)據(jù)集合。

1.2 分子的特征工程采用兩種分子特征表示方法:①分子指紋MACCS[11]:包含166位分子指紋,指紋中的每一位都代表特定的子結(jié)構(gòu),可使用RDKit 根據(jù)分子的簡化分子線性輸入規(guī)范(simplified molecular input line entry system, SMILES)[12]計算獲得;②分子描述符:使用RDKit根據(jù)分子SMILES計算獲得,內(nèi)容包括分子量、脂水分配系數(shù)、拓?fù)錁O性表面積和可旋轉(zhuǎn)鍵數(shù)等,從不同角度描述分子性質(zhì),RDKit描述符合共有206維。

1.3 基于機(jī)器學(xué)習(xí)虛擬篩選模型的構(gòu)建采用隨機(jī)森林和支持向量機(jī)兩種機(jī)器學(xué)習(xí)方法建立虛擬篩選模型:①隨機(jī)森林:建立由決策樹組成的“森林”,利用多棵決策樹的結(jié)果對樣本進(jìn)行訓(xùn)練并預(yù)測的分類器,通過Sklearn[13]完成模型建立并對隨機(jī)森林超參數(shù)進(jìn)行調(diào)試和訓(xùn)練。②支持向量機(jī):使用監(jiān)督學(xué)習(xí)模式對輸入數(shù)據(jù)進(jìn)行二元分類的線性分類器,其算法核心思想是求解輸入數(shù)據(jù)的最大邊距超平面以完成分類。使用Sklearn完成模型構(gòu)建并完成訓(xùn)練測試。隨機(jī)森林和支持向量機(jī)兩種模型的構(gòu)建都通過Python和Sklearn完成,模型的整體結(jié)構(gòu)包括化合物特征提取、數(shù)據(jù)載入、劃分測試集和驗證集、模型擬合訓(xùn)練、參數(shù)迭代調(diào)整以及最終的活性預(yù)測。

1.4 基于機(jī)器學(xué)習(xí)虛擬篩選模型的評價指標(biāo)使用準(zhǔn)確率、精準(zhǔn)率、召回率、曲線下面積(area under curve, AUC)4個指標(biāo)驗證機(jī)器學(xué)習(xí)模型在數(shù)據(jù)集上的綜合性能。對于二分類問題,預(yù)測結(jié)果有4種劃分,分別是:真陽(true positive, TP)、真陰(true negative, TN)、假陽(false positive,FP)、假陰(false negative, FN)。本研究中所用的指標(biāo)計算方法如下:

準(zhǔn)確率:所有預(yù)測正確(TP與TN)占總的比率,用于判斷模型預(yù)測分類是否準(zhǔn)確。

精準(zhǔn)率:預(yù)測為正且實際為正占全部預(yù)測為正的比率。

召回率:預(yù)測為正且實際為正占全部實際為正的比率。

AUC:對受試者工作特征曲線(receiver operating characteristic curve, ROC)進(jìn)行積分計算,用來定量描述分類器的好壞,AUC的值越大則分類性能越強(qiáng)。

1.5 基于分子對接的虛擬篩選在用機(jī)器學(xué)習(xí)模型篩選獲得潛在的活性化合物后,選擇FGFR家族中的FGFR1,進(jìn)一步采用兩級遞進(jìn)的基于分子對接的虛擬篩選,即依次用Autodock Vina軟件[14]和Glide 方法的XP(Extra Precision)精度進(jìn)行FGFR1激酶抑制劑的虛擬篩選。使用的模板蛋白結(jié)構(gòu)從PDB網(wǎng)站獲取,蛋白結(jié)構(gòu)的PDBID為4V05[15]。對蛋白結(jié)構(gòu)模型進(jìn)行加氫、能量優(yōu)化等操作后,以模型內(nèi)包含的AZD4547的結(jié)合位置為中心,選取60 ?×60 ?× 60 ?大小的格子作為對接的區(qū)域進(jìn)行虛擬篩選。

1.6 分子動力學(xué)模擬使用Gromacs2020.4軟件進(jìn)行分子動力學(xué)模擬,使用Charmm36力場[16]為復(fù)合體系的每個蛋白質(zhì)生成拓?fù)浜蛥?shù)文件,小分子配體使用CGenff力場參數(shù)。然后將體系溶解于TIP3P十二面體水盒中,距離體系表面10 ?處,加入適量的反離子使體系中和,接著采用最陡下降法進(jìn)行能量最小化50000步,然后進(jìn)行100 ps的NVT (Canonical Ensemble,恒定粒子數(shù)、體積和溫度)模擬和100 ps的NPT(Constant-pressure Constant-temperature,恒定粒子數(shù)、壓力和溫度)模擬,溫度限制在300 k,最后用MD模擬每個系統(tǒng)的NPT,持續(xù)時間為500 ns。所有仿真步驟均為 2 fs,軌跡每2 ps保存1次,以供后續(xù)分析。

2 結(jié)果

2.1 BindingDB中活性化合物理化性質(zhì)分析對BindingDB庫內(nèi)實驗數(shù)據(jù)進(jìn)行分析,庫內(nèi)化合物分子質(zhì)量的分布有一定的差異(見圖1A),活性化合物的分子量分布大多集中在442~557之間,且其中位數(shù)略高于非活性化合物,符合類藥性五原則對于分子量的要求。化合物的拓?fù)錁O性表面積 (topological polar surface area, tPSA)分布也有一定差異(見圖1B),活性化合物的tPSA較高,集中在89~117之間。另外,活性化合物的定量評估類藥性(quantitative estimate of drug-likeness,QED)多集中于0.5,而非活性化合物集中于0.4(見圖1C),說明活性化合物有更好的成藥性。最后,活性化合物結(jié)構(gòu)中成環(huán)多數(shù)為5個,而非活性化合物則為4個(見圖1D)。環(huán)的數(shù)量也可以導(dǎo)致化合物親疏水性質(zhì)和與靶點親和力的變化。

圖1 BindingDB數(shù)據(jù)庫FGFR1實驗數(shù)據(jù)理化性質(zhì)統(tǒng)計分析

2.2 模型評價通常認(rèn)為,準(zhǔn)確率和AUC值大于0.75,分類器有較好的準(zhǔn)確性和分類效果。在FGFR激酶抑制劑的模型中,隨機(jī)森林相比于支持向量機(jī)在準(zhǔn)確率、精準(zhǔn)率、召回率有更好的表現(xiàn)(見表1)。從ROC曲線來看,隨機(jī)森林拐點更靠近左上角(見圖2),說明隨機(jī)森林算法有更好的預(yù)測性能。

表1 機(jī)器學(xué)習(xí)模型評價指標(biāo)

圖2 機(jī)器學(xué)習(xí)模型的ROC曲線

2.3 虛擬篩選結(jié)果虛擬篩選的化合物庫來自陶素公司提供的包含1300萬個小分子的虛擬化合物庫。針對該庫使用隨機(jī)森林方法進(jìn)行第一級的虛擬篩選,將預(yù)測陽性概率為0.999以上的化合物認(rèn)為是潛在的活性化合物,共計篩選獲得10340個潛在的活性化合物,約占總數(shù)的0.7%,耗時約28.3 h。 隨后對10340 個化合物用Autodock Vina軟件和Glide方法逐級篩選FGFR1激酶抑制劑。用Autodock Vina軟件得到打分值小于-9.00 kcal/mol的分子共395個,占比3.8%。用Glide法從395個化合物中篩選得到3個打分小于-9.80 kcal/mol的化合物,占比0.76%。其對接打分值如表2所示,最優(yōu)化合物的打分結(jié)果為-11.12 kcal/mol。AZD4547(見圖3A)、化合物a(見圖3B)、化合物b(見圖3C)均與FGFR1激酶ALA-101形成氫鍵作用,分子都伸入口袋內(nèi)部疏水口袋,化合物a、化合物b以及AZD4547與FGFR1結(jié)合模式相同[17]。化合物a和b與陽性對照AZD4547一樣與FGFR1激酶蛋白有著較多的氫鍵相互作用,不同的是,化合物c僅由疏水作用維持結(jié)合(見圖3D),沒有與FGFR1形成氫鍵相互作用,也沒有鹵鍵等相互作用,導(dǎo)致其與FGFR1的結(jié)合效果較差。此 外,化合物a上Cl和F分別和殘基LYS-19、VAL-29形成鹵鍵,推測與FGFR1的結(jié)合力較AZD4547更好。

表2 隨機(jī)森林、Vina和Glide XP虛擬篩選結(jié)果

圖3 FGFR1激酶(PDBID為4V05)與AZD4547(A)、化合物a(B)、化合物b(C)、化合物c(D)的結(jié)合模式

2.4 分子動力學(xué)模擬結(jié)果將模板蛋白的配體AZD4547 與打分最高的3 個潛在活性化合物進(jìn)行 100 ns的分子動力學(xué)模擬分析。通過MM/GBSA方法對4個體系的較為穩(wěn)定的時間段70~80 ns進(jìn)行結(jié)合自由能計算(見圖4、表3),其中AZD4547結(jié)合自由能最優(yōu),總的結(jié)合自由能為-46.72 kcal/mol,化合物a總的結(jié)合自由能為-38.13 kcal/mol,化合物b總的結(jié)合自由能為-42.87 kcal/mol,化合物c總的結(jié)合自由能為-13.68 kcal/mol,結(jié)合圖3中4個化合物的結(jié)合模式,說明氫鍵和鹵鍵是提升化合物與FGFR1親和力的關(guān)鍵,化合物d與FGFR1沒有氫鍵作用,所以結(jié)合自由能較高。對比結(jié)合口袋位置氨基酸殘基能量貢獻(xiàn)情況(見圖5),其中LEU21、VAL29、ALA49這3個殘基在4個體系中都貢獻(xiàn)了較多的結(jié)合自由能,從結(jié)合自由能角度解釋了化合物a、b、c的結(jié)合情況與AZD4547較為相似。但是化合物c與其他化合物不同的是,ASP178削弱了結(jié)合自由能,這也是化合物c結(jié)合自由能較差的一個關(guān)鍵因素。對比4組體系的均方根偏差(root mean square deviation,RMSD)(見圖6),4個小分子化合物在口袋內(nèi)較為穩(wěn)定,其中化合物a較AZD4547有更好的穩(wěn)定性,其RMSD波動范圍較小;化合物b與AZD4547相比波動性較大,但波動范圍均未超過0.4 ?;化合物c穩(wěn)定性最差,它們的RMSD結(jié)果與前期分子對接的結(jié)果相吻合。

表3 FGFR1與4種化合物結(jié)合的自由能情況(kcal/mol)

圖5 FGFR1激酶化合物復(fù)合體系在70~80 ns時氨基酸貢獻(xiàn)自由能統(tǒng)計

圖6 FGFR1激酶化合物體系分子動力學(xué)模擬的RMSD

3 討論

近年由于人工智能的蓬勃發(fā)展,越來越多的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)被應(yīng)用于藥物發(fā)現(xiàn)。在激酶領(lǐng)域中,受體酪氨酸激酶家族已有較為成功的人工智能結(jié)合發(fā)現(xiàn)藥物案例。在人工智能與新藥發(fā)現(xiàn) 中,主要困難在于藥物活性數(shù)據(jù)與陰性數(shù)據(jù)的缺乏,目前較為成功的案例如血管內(nèi)皮生長因子受體、表皮生長因子受體往往是具備較多實驗測試數(shù)據(jù)的靶點[18-20]。而本研究的FGFR抑制劑目前數(shù)據(jù)相對缺少,現(xiàn)有數(shù)據(jù)庫中活性數(shù)值模糊,對該領(lǐng)域機(jī)器學(xué)習(xí)發(fā)展有較大掣制,且尚未見有利用人工智能發(fā)現(xiàn)FGFR抑制劑的相關(guān)報道。因此本研究在數(shù)據(jù)準(zhǔn)備時,對已有藥物數(shù)據(jù)庫和文獻(xiàn)抑制劑數(shù)據(jù)進(jìn)行整理,并將其用于人工智能模型構(gòu)建和藥物篩選。本研究中使用的隨機(jī)森林和支持向量機(jī)兩種機(jī)器學(xué)習(xí)模型的準(zhǔn)確率分別為0.878和0.770,AUC分別是0.952和0.840,這表明本研究構(gòu)建的模型較好。與支持向量機(jī)算法構(gòu)建的模型相比,隨機(jī)森林構(gòu)建的模型在準(zhǔn)確率、精準(zhǔn)率、召回率方面總體更優(yōu)。同時機(jī)器學(xué)習(xí)模型從1300萬個小分子化合物庫篩選獲得10340個潛在的活性化合物,耗時約28.3 h,這說明機(jī)器學(xué)習(xí)模型在面對較大虛擬篩選藥物庫時可以快速準(zhǔn)確地從中篩選出可能的先導(dǎo)化合物,快速縮小篩選范圍,節(jié)約時間和經(jīng)濟(jì)成本,提高效率。

分子動力學(xué)模擬是一種有效分析小分子化合物與激酶結(jié)合模式和結(jié)合能力的方法。通過分子動力學(xué)模擬并計算激酶和化合物的結(jié)合自由能,a和b的圖6 FGFR1激酶化合物體系分子動力學(xué)模擬的RMSD結(jié)合自由能與AZD4547相近,在理論上說明化合物a、b可能有接近AZD4547的抑制活性。將結(jié)合自由能分解,最優(yōu)的3個化合物的結(jié)合自由能主要貢獻(xiàn)來源于范德瓦爾斯力,其次是靜電力,由于化合物a的靜電力貢獻(xiàn)較小,導(dǎo)致其最終的自由能情況較差。這說明對化合物的改造可以通過增強(qiáng)靜電力的貢獻(xiàn)和維持疏水作用來提升化合物抑制活性。對化合物周圍的氨基酸殘基能量貢獻(xiàn)進(jìn)行分析,在整個過程中,LEU21、ALA101兩個殘基對結(jié)合能的貢獻(xiàn)在幾個化合物體系中均有呈現(xiàn),說明LEU21、ALA101兩個殘基是主要影響該系列先導(dǎo)化合物和FGFR1結(jié)合的關(guān)鍵殘基,在化合物b和FGFR1的復(fù)合體系中,GLU108和ASP178兩個殘基對結(jié)合能的貢獻(xiàn)起到反作用,這說明這兩個殘基可能阻礙化合物和FGFR1結(jié)合,因此化合物b的結(jié)合能較其他3個化合物相比更高。上述結(jié)果表示該模型的虛擬篩選性能較好。

總之,本研究提供了一種基于機(jī)器學(xué)習(xí)的FGFR激酶抑制劑虛擬篩選模型,其可以短時間內(nèi)高效篩選規(guī)模較大的小分子庫,快速高效地獲得潛在活性的FGFR激酶抑制劑。

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機(jī)模型
提煉模型 突破難點
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達(dá)及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产一二三区视频| 五月激情综合网| 区国产精品搜索视频| 97人妻精品专区久久久久| 91久久精品日日躁夜夜躁欧美| 久久99国产乱子伦精品免| 亚洲精品在线观看91| 国产激情无码一区二区三区免费| 国内熟女少妇一线天| 人人91人人澡人人妻人人爽| 国产免费久久精品99re丫丫一| 久久无码av三级| 久久综合伊人 六十路| 亚洲av成人无码网站在线观看| 亚洲国产成人久久精品软件| 久久性妇女精品免费| 91精品情国产情侣高潮对白蜜| 国产成人1024精品| 国产制服丝袜无码视频| 久久久成年黄色视频| 天天综合天天综合| 国产日韩欧美一区二区三区在线| 亚洲第一天堂无码专区| 欧美第九页| 福利在线不卡| 99精品高清在线播放| 国产H片无码不卡在线视频| 国产AV无码专区亚洲精品网站| 在线观看亚洲天堂| 亚洲欧美国产高清va在线播放| 国产日韩欧美在线播放| 国产成人精品亚洲77美色| 久青草免费视频| 成人第一页| 欧美性爱精品一区二区三区| 欧美一级一级做性视频| 国产粉嫩粉嫩的18在线播放91| 国产欧美日韩va另类在线播放 | 久久不卡精品| 99这里只有精品免费视频| 国产精品无码AV中文| 久久香蕉国产线看观看式| 国产一区二区三区在线观看视频| 伊人久久福利中文字幕| 亚洲第一视频网| 亚洲综合色婷婷| 性69交片免费看| 九色综合伊人久久富二代| 人人妻人人澡人人爽欧美一区| 亚洲va在线∨a天堂va欧美va| 日韩黄色大片免费看| 精品视频一区二区三区在线播| 成人亚洲天堂| 国产黄网站在线观看| 五月婷婷伊人网| 黄色不卡视频| 亚洲第一区在线| AV熟女乱| 三区在线视频| 日本亚洲欧美在线| 国产精品综合久久久| 精品成人一区二区三区电影| 国产理论一区| 亚洲午夜天堂| 国产乱子精品一区二区在线观看| 欧美97色| 久久久久亚洲Av片无码观看| 国产精品3p视频| 国产18页| 中国特黄美女一级视频| 青青青草国产| 91无码网站| 国产精品一区二区无码免费看片| 欧美专区在线观看| 久久精品一卡日本电影| 国产经典免费播放视频| 亚洲第一视频网| 国产区精品高清在线观看| 91九色国产porny| 激情在线网| 婷婷亚洲综合五月天在线| 视频一区视频二区日韩专区|