999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于2D模型的藥物小分子篩選方法

2021-04-15 03:59:18徐其鳳羅桂林
計算機應用與軟件 2021年4期
關鍵詞:實驗信息

徐其鳳 馮 林* 余 游 羅桂林

1(四川師范大學計算機科學學院 四川 成都 610101)2(四川大學生物治療國家重點實驗室 四川 成都 610041)

0 引 言

分子是化合物的基礎,化合物的合成和活性化合物的篩選是藥物研發的重點和難點,即使在生物化學技術飛速發展的今天,如何篩選出最合適的分子,一直是藥物研發領域面臨的挑戰性問題之一。

一方面,在生物領域中,Jencks[1]構建了基于片段的篩選方法(FBDD)理論框架;被批準上市的BRAF-V600E激酶抑制劑Vemurafenib[2]則是FBDD方法的一個典型成功案例,Vemurafenib從初始的片段篩選到被FDA批準上市僅耗費了6年;Winter等[3]描述了一種使用X射線結晶學的片段篩選活動,在Ras:SOS復合體上發現了三個片段結合位點;Liang等[4]使用FBDD和QSAR研究,首次完全合成了一種溴化酪氨酸次級代謝產物,它是一種有效的p38α抑制劑,具有抗癌作用;Erlanson等[5]對近20年來FBDD的發展進行研究,討論了其研究步驟,并顯示FBDD概念如何滲透和加強藥物發現工作的,指出FBDD已成為藥物研發的主流方法之一。

另一方面,隨著計算機技術的發展和大數據技術的應用,提升生物化學數據處理能力,縮短藥物研發周期,成為了眾多研究者關注的熱點[6-7],并成功利用計算機技術解決了部分難題,如預測分子屬性[8-9]、檢驗化學反應結果[10]、處理醫學圖像和數據[11-12]。Lusci等[13]通過考慮與分子圖的所有可能的頂點中心非循環方向相關聯的遞歸神經網絡的集合,解決分子的無向循環圖轉化為有向無環圖的問題,并在四個基準數據上進行了測試;Urban等[14]則將視線聚焦于輸入數據問題,提出了Inner和Outer兩種方法;Olivecrona等[15]提出了一種基于序列的生成模型方法,用于生成不同類型分子的生成模型,給出了結合無監督機器學習方法設計新化合物的新思路。

以上大多數研究方法解決了各種生物化學和生物醫學上的一些問題,如醫學圖像識別和分類、分子性質預測、抑制劑的發現。但是,在解決藥物小分子篩選方面還存在不足:(1) 現有研究大多未進行分子分量區分,研究過程將大分子、中分子和小分子一概而論,不利于挖掘小分子的特有特征。(2) 存在研究復雜、耗時長、解決問題單一和算法復雜度高等問題。(3) FBDD大多只從生物化學角度進行研究。針對上述問題,本文從小分子2D存儲的SDF文件出發,提出一種基于2D模型的藥物小分子篩選方法(SMS-2D),利用計算機技術進行片段篩選。首先,輸入分子片段P和小分子數據庫文件,對數據進行預處理,將分子片段P和數據庫文件轉化為比對小分子信息MP和小分子數據集W;其次,每次取小分子數據集W中的一個小分子信息Mi,計算Mi與比對小分子Mp的包含度αi;然后,篩選出包含度αi大于或等于閾值α的小分子,并存入小分子數據集W′;最后,輸出小分子數據集W′中的所有小分子信息,并進行可視化處理。

1 理論基礎

1.1 FBDD

目前高通量篩選(HTS)是藥物篩選的主要方法,但是大型復合庫的收集、維護和篩選較為復雜和困難,且HTS在新目標篩選時命中率低。針對上述問題,基于片段的篩選方法FBDD開始逐漸成為藥物研發的主流方法。不同于HTS,FBDD從分子結構的一個片段結構出發。在藥物分子結構中,分子的每一個片段都有其特殊作用。近年來,研究者們將目光聚焦在分子片段上,旨在通過研究分子片段來得到新的藥物分子。FBDD的優勢在于可以結合一個蛋白的多個位點或者多個蛋白,在這樣的情況下,即使分子片段是弱結合,但具有高篩選命中率,這種優勢在面對復雜靶標時尤為明顯,并且使片段庫的收集和維護更便捷,這使得小型學術機構也能從事藥物發現工作。FBDD的應用范圍非常廣泛,從化學生物學到計算化學,從抑制劑的發現到潛在位點的尋找,FBDD都取得了不錯的進展。

1.2 分子表示

分子常用的表示分為以下三種:圖像表示(分子結構式)、線性編碼(如SMILES串、WLN等)和文本信息編碼(如MOL、SDF等)。

1) 圖像表示。圖像表示方法的優點是能夠直觀的觀察分子的結構,缺點在于所需存儲空間大,且小分子信息遺失多,且無法對分子的某一物理化學屬性進行分析。

2) 線性編碼表示。它將化學結構轉化為一棵樹,使用一串字符來描述一個三維的化學結構。線性編碼表示的優點是具有唯一性、所需存儲空間少,缺點是不利于子結構檢索。

3) 文本信息編碼表示。文本信息編碼指使用文本方式存儲分子的相關信息,其描述如表1所示。它具有存儲空間少、便于提取各種細節信息等優點,缺點在于不夠直觀。本文使用文本信息編碼表示的SDF文件進行實驗。SDF是由MDL公司開發的、最常見的化學數據文件存儲格式,專門用于分子結構信息表示。SDF文件分為結構數據和理化數據兩部分,結構數據包括原子信息和鍵值信息,以字符“END”作為結束標志;理化數據包括分子ID、分子物理屬性等信息,以字符“$$$$”作為結束標志。SDF可以以二維和三維兩種不同的形式存儲分子信息。

表1 NADPH的SDF文件及描述

續表1

2 SMS-2D描述

2.1 問題表述

前期基礎研究中,四川大學生物治療國家重點實驗室通過腸道EV68病毒3C蛋白的酶活實驗研究發現某小分子B中的片段結構H對腸道EV68病毒3C蛋白的活性有抑制作用,可能小分子B中的分子片段H起關鍵作用,然而細胞毒性實驗結果表明小分子B細胞毒性較大,不能直接應用于臨床實驗。實驗室根據此結果提出一種假設,在現有的藥物大數據中還存在尚未被發現的包含了分子片段H的小分子,并合理猜測這些小分子可能具備同樣的效果。但是,如何從海量藥物大數據中篩選出包含與分子片段H相似分子片段的藥物小分子成為難點。

目前,實驗室主要采用人工篩選方法,但人工篩選存在耗時、效率低、藥物篩選周期長等問題,因此利用計算機技術解決該問題成為新思路。計算機技術不僅能夠降低新藥開發成本,減少人力損耗,更能縮短新藥研發周期,對促進降糖藥物研發具有重要意義。

本文利用計算機技術對藥物自動化篩選進行了研究,利用計算機技術在海量藥物大數據中篩選出包含與分子片段H具有相似分子片段的小分子,并將篩選結果交由四川大學生物治療國家重點實驗室進行生物實驗驗證,測試這些小分子是否具有效果。

由于保密要求,所以本文以還原型煙酰胺腺嘌呤二核苷酸磷酸NADPH為例進行實驗,NADPH的分子結構如圖1所示。為便于對算法性能進行測試,選取NADPH中的兩個不同分子片段P1和P2進行實驗。P1和P2的分子結構如圖2所示。

圖1 NADPH2D分子結構式

(a) 片段P1 (b) 片段P2圖2 NADPH的分子片段

2.2 相關定義

為了便于敘述和理解,本文將以數學形式定義與SMS-2D方法相關的基本概念。

定義1小分子數據集。一個小分子數據集W是一個二元組W=(U,M),其中:U表示小分子數據集名稱,M=(M1,M2,…,MN)表示小分子信息的集合。

定義2小分子信息。一個小分子信息M是一個四元組M=(id,K,m,n),其中:id表示該小分子的查詢ID;K=(k1,k2,…,kn)表示小分子化學鍵信息的集合;m表示小分子含有原子的個數;n表示小分子含有的化學鍵的個數。

定義3化學鍵信息。一個化學鍵信息對k是一個四元組k=(X1,X2,B,T),其中:X1、X2表示形成化學鍵的兩個原子;B表示兩個原子形成化學鍵的數目,例如單鍵表示為1,雙鍵表示為2;T表示化學鍵在小分子中的轉向。

定義5查全率與準確率。給定小分子數據集W=(U,M)、比對小分子Mb=(idb,Kb,mb,nb)與包含度閾值α,設小分子數據集W=(U,M)中含有與Mb=(idb,Kb,mb,nb)包含度大于等于α的個數為Z,從W=(U,M)中篩選出小分子數據集W′=(U′,M′):

2.3 算法流程

SMS-2D流程如圖3所示,總共分為四個步驟:第一步輸入分子片段P和小分子數據庫文件;第二步對數據進行轉換,從化學描述方式轉換為小分子信息和小分子數據集;第三步進行包含度計算,篩選符合條件的小分子;第四步輸出結果。

圖3 SMS-2D算法流程

2.4 算法步驟

SMS-2D算法步驟如下:

輸入:分子片段P及小分子數據集,兩者都以SDF文件格式輸入。

輸出:小分子數據集。

Step1讀取分子片段P和小分子數據集。

(1) 讀取分子片段的原子信息、鍵值信息和ID,存入line中;

(2) 讀取數據集中每一個小分子的原子信息、鍵值信息和ID,以“$$$$”作為小分子信息的結束符號。

Step2將輸入的分子片段P和小分子數據庫文件轉化成小分子信息Mp=(idp,Kp,mp,np)和小分子數據集W=(U,M)。

(1) 讀取小分子P的原子信息第四列數據,即元素信息,存入線性表atom[]中;

(2) 讀取鍵值信息的全部數據,存入線性表bond[]中;

(3) 將數組bond[]中第一列和第二列數據按序號替換為數組atom[]中相應的原子;

(4) Foriinbond[]:

kpi=bond[i]

End For

(5) 讀取小分子P的數據ID設為idp,原子個數設為mp,原子鍵個數設為np;

(6) 輸出小分子信息Mp=(idp,Kp,mp,np);

(7) 重復Step 2中的步驟(1)-步驟(4),將小分子數據集中的所有小分子數據轉化小分子信息,輸出小分子數據集W=(U,M)。

Step3依次計算小分子數據集中每個小分子信息Mi=(idi,Ki,mi,ni)與Mp=(idp,Kp,mp,np)的包含度。

ForMiinM:

按照定義4計算出αi=η(M1,M2)

End For

輸出所有小分子與Mp的包含度:(α1,α2,…,αn)。

Step4篩選出包含度大于等于閾值α的小分子信息,并存入小分子數據集W′=(U′,M′)中。

Step5輸出篩選出的小分子數據集W′=(U′,M′)。算法停止。

2.5 算法復雜度分析

對于本文的SMS-2D,數據轉化的時間復雜度為O(Ki×Kn) ,Ki為鍵值信息的總行數,Kn為鍵值信息的列數;小分子包含度計算的時間復雜度為O(N×Mn),N為數據集的數據量,Mn為小分子信息Mp的大小。在藥物小分子數據集中,由于O(N×Mn)>O(Ki×Kn),因此SMS-2D的時間復雜度為O(N×Mn)。SMS-2D的空間復雜度由Step 2中的atom[]和bond[]的大小決定,atom[]的空間復雜度為mp,bond[]的空間復雜度為4np,所以SMS-2D的空間復雜度為O(Mp+4np)。

3 實 驗

3.1 實驗環境

本文實驗所采用的硬件環境為AMD Ryzen 3 PRO 2200G with Radeon Vega Graphics 3.50 GHz處理器,RAM大小為8 GB;軟件環境為Windows 10系統,Python編程語言,ChemDraw14.0軟件。

3.2 數據源

本文實驗所使用小分子數據集如表2所示。

表2 數據集信息

3.3 實驗設計

為了驗證本文SMS-2D的效果,實驗分成實驗一和實驗二兩個部分。實驗一為SMS-2D性能測試:在四個數據集上進行了兩次實驗,第一次實驗篩選的分子片段為片段P1,第二次實驗篩選的分子片段為片段P2。每次實驗都記錄下算法的運行時間和符合要求的小分子數量,輸出結果并分析。實驗二為算法查全率測試:為驗證SMS-2D算法的查全率,將事先準備的60個虛構小分子作為驗證數據加入數據集,輸出結果進行比較分析。

3.4 實驗一:算法性能測試

實驗一對SMS-2D算法的性能進行測試,包括算法的運行時間和輸出結果。本文分別對分子片段P1、P2進行實驗,對比分析了SMS-2D算法在四個規模不同的數據集上的表現,并給出在包含度閾值α=1和α=0.75下的實驗結果,實驗結果如表3、表4所示。

表3 分子片段P1實驗結果表

表4 分子片段P2實驗結果表

從表3和表4可以看出,不同數據集中符合要求的小分子數量不一,且結果集數量與數據集數量不成正比關系。包含度閾值α的大小決定了結果集的規模,α越大,結果集規模越??;反之,結果集規模越大。但α越小,輸出結果與分子片段P的包含程度就越低,實驗結果的實際意義就越小,所以選用合適的α至關重要。從輸出的小分子數量分析,符合要求的小分子數量相較于數據集而言占比非常小,即需要在海量數據中篩選出少量符合要求的小分子。SMS-2D算法的轉化時間和比對時間較短,通過表中數據可得出數據集數量與時間的關系:t≈n(萬條)×1.5(秒)。算法所用時間與數據集大小成正比,與輸出結果數無緊密聯系。總體而言,無論數據量的大小,算法運行時間都非常短暫,即使是百萬級的數據也僅僅只需要300 s,如果采用人工篩選的方法處理同樣規模的數據則會耗費長達幾月的時間。因此,相較于人工方法,SMS-2D算法能高效篩選出符合要求的藥物小分子,節省大量時間。

3.5 實驗二

通過SMS-2D算法可以找出各個數據集中包含有與分子片段P1具有相似分子片段的小分子,但是這樣無法確定算法的查全率,不能保證是否存在漏選。為了對算法的查全率進行測試,本文在實驗一的基礎上增加一個測試步驟,加入了驗證數據,其步驟如下:

Step1利用化學軟件ChemDraw設計了30個包含分子片段P1的小分子和30個從其他數據庫獲取的未包含分子片段P1的小分子作為驗證數據,設計時盡量保證除分子片段P1之外的其余結構具有較大的差異性。

Step2將60個小分子隨機插入到數據集中。

Step3設定包含度閾值α=1,運行算法,輸出符合要求的小分子在數據集中的ID,查看輸出結果中包含多少驗證數據,以此對SMS-2D算法的查全率進行估計。

實驗二結果如表5所示。

表5 實驗二驗證結果表(α=1)

實驗二在四個數據集中隨機插入了60個的驗證數據,其中自主設計的30個驗證數據復雜度不一,分子片段P1的位置隨機。從表5可以看出,對于不同大小的數據集,SMS-2D算法都能找出30個包含了分子片段P1的驗證數據,且未找出其余30個未包含分子片段P1的驗證數據,由此可得推論:在包含度閾值α=1時,SMS-2D算法具備100%的查全率。

為對SMS-2D算法的準確率進行測試,本文對DrugBank數據集在包含度閾值α=1時的輸出結果進行評估。評估發現,輸出的結果中包含完整的分子片段P1和P2,由此推論:在包含度閾值α=1時,SMS-2D算法具備100%的準確率。

3.6 結果可視化

為了便于后續生物實驗的進行,利用軟件ChemDraw對輸出結果進行可視化操作。首先,根據小分子ID在對應的數據集中找到小分子,輸出其SDF文件;其次,將SDF文件導入ChemDraw軟件,轉存為PNG格式的分子結構圖。分子結構圖相較于SDF文件更加直觀明了。表6和表7分別給出了分子片段P1和P2在不同閾值下的部分可視化輸出結果。

表6 輸出結果可視化圖(α=1)

表7 輸出結果可視化圖(α=0.75)

表6和表7中黑色方框內為與分子片段P1或P2相似的部分。由結果可視化圖可知,當α=1時,輸出的小分子中包含有完整的分子片段;當α=0.75時,輸出的小分子中包含分子片段的部分結構。

4 結 語

化合物的合成和活性化合物的篩選是藥物研發的重點和難點,在此過程中,藥物小分子的篩選至關重要。本文的主要貢獻如下:基于分子的2DSDF存儲文本,提出了一種基于2D模型的藥物小分子篩選方法SMS-2D。仿真實驗結果證明:SMS-2D能夠應用于各個數據集的2DSDF文件藥物篩選,并能夠快速全面地搜索出目標小分子,保證高查全率。目前,SMS-2D藥物篩選方法正用于四川大學生物治療國家重點實驗室的藥物小分子篩選中,與實驗室先前的人工篩選方法相比,SMS-2D大幅度地減少了藥物研發過程中的小分子篩選時間,縮短藥物研發周期。SMS-2D仍存在兩個不足之處:一是其只能應用于2D的SDF文件;二是分子片段不宜太大,所涉及的原子最好不超過12個。未來將把研究重點放在分子的三維結構上,以三維SDF文件為研究對象,深入挖掘分子結構關系,期望能更高效率地進行小分子篩選。

猜你喜歡
實驗信息
記一次有趣的實驗
微型實驗里看“燃燒”
做個怪怪長實驗
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
《實驗流體力學》征稿簡則
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 一级一毛片a级毛片| 亚洲日韩AV无码一区二区三区人| 在线国产你懂的| 午夜三级在线| 国产精品内射视频| 亚洲激情区| 国产激爽大片在线播放| 色播五月婷婷| 欧洲熟妇精品视频| 一级爱做片免费观看久久| 亚洲精品中文字幕无乱码| 成年人免费国产视频| 亚洲欧美不卡中文字幕| 青青久久91| 国产网友愉拍精品| 国产欧美日韩资源在线观看| 美女扒开下面流白浆在线试听| www精品久久| 99久久精品国产自免费| 国产精品流白浆在线观看| 动漫精品啪啪一区二区三区| 国产精品无码久久久久久| 丰满人妻被猛烈进入无码| 有专无码视频| 国产无遮挡猛进猛出免费软件| 激情综合网址| 狠狠色狠狠色综合久久第一次| 国产色偷丝袜婷婷无码麻豆制服| 精品国产中文一级毛片在线看 | 丰满人妻久久中文字幕| 国产精品19p| 国产白浆一区二区三区视频在线| 第一区免费在线观看| 夜色爽爽影院18禁妓女影院| a毛片在线播放| 久热中文字幕在线| 午夜国产在线观看| 成人亚洲视频| 尤物在线观看乱码| 五月婷婷导航| 免费人欧美成又黄又爽的视频| 亚洲色图欧美| www亚洲天堂| 国产女人喷水视频| 免费无码网站| 精品无码国产一区二区三区AV| 欧洲亚洲欧美国产日本高清| 国产成人啪视频一区二区三区| 99re在线免费视频| 久久人人爽人人爽人人片aV东京热| 日韩AV手机在线观看蜜芽| 欧美性精品不卡在线观看| 亚洲成肉网| 国产最爽的乱婬视频国语对白| 999精品视频在线| 激情综合婷婷丁香五月尤物| 91免费国产高清观看| 欧美成人亚洲综合精品欧美激情| 国产色婷婷| 天堂va亚洲va欧美va国产| 国产成人免费视频精品一区二区| 欧美色图久久| 欧美午夜在线播放| 亚洲大学生视频在线播放| 亚洲国产成人精品无码区性色| 亚洲国产第一区二区香蕉| 直接黄91麻豆网站| 免费jizz在线播放| 在线观看av永久| 精品少妇三级亚洲| 国产一区二区三区精品欧美日韩| 国产一级毛片yw| 国产精品不卡片视频免费观看| 国产伦精品一区二区三区视频优播| 欧美日韩动态图| 美女无遮挡免费视频网站| 亚洲一级毛片免费看| 蝴蝶伊人久久中文娱乐网| 啪啪永久免费av| 国产欧美在线观看一区| 激情五月婷婷综合网| 亚瑟天堂久久一区二区影院|