王也,王昊晨,晏明皓,胡冠華,汪小我
(清華大學自動化系,合成與系統(tǒng)生物學研究中心,教育部生物信息學重點實驗室,北京信息科學與技術國家研究中心,北京 100084)
隨著合成生物學與生物信息技術的迅猛發(fā)展,促成了生命密碼從對自然的探索到人工合成的質變[1],使得人工分子的設計與合成生物系統(tǒng)的構建成為了可能。近年來人工合成的生物分子序列,例如藥物小分子、DNA調控元件、蛋白質分子等,在醫(yī)療[2-4]、化工[5-6]、農業(yè)[7]等領域有著廣泛的應用[8]。早期的生物序列設計手段主要聚焦于對天然序列進行隨機突變[9-10]或者基于功能模塊的組合進行篩選[11-12],存在一定的局限性:一方面,潛在的序列隨著序列長度的增加構成了一個指數(shù)增長的空間。以DNA 調控序列為例,僅100 個堿基長度的DNA 序列的潛在的堿基組合達到了4100,即存在約1060種潛在的待測序列,遠超出目前任何實驗文庫(約106~8復雜度)的篩選能力[13]。蛋白質序列由于氨基酸的豐富組成,潛在的序列空間更廣闊,同時還需考慮折疊構象等復雜約束,通過局部的修改來獲得新功能十分困難[14]。另一方面,由于人工突變后的序列與天然序列間存在很高的相似度,易與宿主細胞產生相互影響,通過隨機突變的搜索方式難以保證合成生物系統(tǒng)的絕緣性和遺傳穩(wěn)定性[11]。
近年來,人工智能技術的迅猛發(fā)展為生物序列的智能設計提供了新的機遇。由于生物數(shù)據(jù)本身的高維特性以及數(shù)據(jù)中隱含模式的復雜性,深度學習算法在挖掘重要生物學特征、探求特征之間隱含的復雜關系等方面表現(xiàn)出了獨特的優(yōu)勢[15]。隨著各類生物組學數(shù)據(jù)的不斷積累,基于深度學習的預測模型在生命科學領域已展現(xiàn)出廣闊的應用前景[16]。如在處理基因組數(shù)據(jù)場景下DNA 序列motif 的識別發(fā)現(xiàn)[17],基因元件相互作用的預測[18],基因表達量預測[19-20]以及基因調控網(wǎng)絡的預測等[21]。
在人工智能研究領域,以變分自編碼器(variational auto-encoder,VAE)[22]、生成對抗網(wǎng)絡(generative adversarial network,GAN)[23]等為代表的深度生成式模型的研究近年來取得了重大突破。深度生成式模型可以從高維數(shù)據(jù)樣本中提取重要的特征與特征組合規(guī)律,并據(jù)此生成海量的全新樣本,在圖像、音頻數(shù)據(jù)的生成中已取得了重大進展[24-26]。基于人工智能的設計模型,已逐漸被應用于藥物研發(fā)[27-28]、對未知化學反應的探索[5]等方向,成功實現(xiàn)了小分子藥物[29-30]、基因調控序列[31]新型人工蛋白質以及基于CRISPR 編輯技術的guide RNA設計[32-34]等的合成設計[35-36]。
不同于傳統(tǒng)的設計手段在天然序列的局部進行小范圍探索,智能算法可提取生物數(shù)據(jù)的復雜特征并與尋優(yōu)算法相結合,利用生物特征的低維表示,針對特定生物學功能進行定向優(yōu)化[37]。通過對潛在序列空間的探索與尋優(yōu),實現(xiàn)生物序列的智能化、自動化設計(圖1)。在降低了搜索實驗負擔的同時,提高了生物分子序列設計和優(yōu)化的效率[38]。因此,深入研究生物序列設計的智能算法,有利于在更廣闊的空間中高效設計生物分子,幫助促進生物分子的快速進化。
本文主要綜述了智能算法在生物序列設計中的應用,重點介紹在生物分子設計中常用的深度生成式模型,包括生成對抗網(wǎng)絡[23]、變分自編碼器[22]、遞歸神經(jīng)網(wǎng)絡等。在此基礎上,系統(tǒng)總結了各類生物分子的智能尋優(yōu)策略與評估方法,以及將智能算法應用于生物數(shù)據(jù)中的挑戰(zhàn)與發(fā)展方向。
從模式識別角度分析生物序列設計中的共性的問題:前人的研究發(fā)現(xiàn),特定功能的生物分子序列會形成高維序列空間中的低維流形[39]。例如,2018 年的一篇關于氨基酸序列的研究證實,來自不同細菌的氨基酸序列組成的序列空間中,大腸桿菌的同一氨基酸家族的突變體序列會形成低維流形[40];針對藥物小分子的研究也發(fā)現(xiàn),具有視黃醇受體活性的脂肪酸分子,在高維序列空間中可形成低維流形[30];在DNA 序列的設計中也有報道發(fā)現(xiàn)編碼抗菌肽的DNA 序列在化學性質空間中形成低維流形[41]等。因此,生物序列的設計問題從算法上可歸結為從潛在的高維序列空間中,尋找由特定功能的生物序列組成的低維流形問題。

圖1 是否利用智能算法指導進行生物分子設計的比較Fig.1 Biomolecular design with or without machine learning-guided search
利用智能算法進行全新生物分子序列設計的基本思路是將離散、高維的生物分子序列空間映射到低維、連續(xù)的特征表示空間,通過表示空間對潛在人工分子進行尋找和篩選[42-43]。這一方面可以降低直接對生物分子序列和結構進行設計的復雜度,同時提高人工分子設計的有效性比例,降低大規(guī)模文庫搜索的實驗成本;另一方面,與定量評估以及尋優(yōu)算法相結合,可對具有特定優(yōu)良性能的生物分子進行定向優(yōu)化。由于生物分子具有復雜的序列模式,除了每個位置獨立的原子或堿基特征以及兩兩間的相互作用以外,其遠距離相互作用特征往往難以被準確捕捉和描述。而利用機器學習算法的特征提取能力,可捕獲生物分子的基本單位如堿基、氨基酸或原子間的遠距離相互作用[40]。以此為指導,可高效探索表示空間中潛在的分子序列,從而設計人工分子。除此以外,通過對生成的分子建立定量評價體系,將智能設計的人工分子擴充到天然生物分子序列庫中,可優(yōu)化性能預測模型,進一步縮短對新分子探索的周期[39,44]。
在人工智能領域中,深度生成式模型由于具有強大的模擬數(shù)據(jù)分布的能力,可通過從低維數(shù)據(jù)表示中采樣和尋優(yōu)設計全新的人工樣本[45],因此近年來在生物序列的智能設計中有著廣泛的應用。生物分子設計中常用的深度生成式框架主要包括生成對抗網(wǎng)絡,變分自編碼器和遞歸神經(jīng)網(wǎng)絡等(圖2),我們將探討這些模型各自的特點與在生物序列設計中的應用。
生成對抗網(wǎng)絡(generative adversarial network,GAN)由Goodfellow等[23]在2014年提出,其通過生成器和判別器的對抗來估計概率分布并生成同訓練樣本位于類似分布中的新樣本。在生物序列設計中,生成對抗網(wǎng)絡框架已應用于核酸序列[41]、蛋白質[46]和小分子藥物[47]等的設計。生成對抗網(wǎng)絡不能獲得生物序列在高維序列空間的顯式分布,但通過生成器與判別器的自我博弈,可生成與天然生物分子位于類似分布的全新人工分子序列。在DNA 序列設計與藥物分子設計中,研究人員通過將生成對抗網(wǎng)絡與t-SNE[48]、主成分分析等的降維方法相結合,對生物序列的物理化學特征如長度、帶電量等進行降維,可觀察到算法生成的全新序列與天然生物分子具有相似的化學特征分布[30,41]。例如,在2019 年的一篇文獻[41]中,作者利用GAN 設計編碼蛋白的人工DNA 序列:以服從低維正態(tài)分布的向量作為生成器的輸入,生成器產生的DNA 序列與來自Uniprot[49]數(shù)據(jù)庫中超過3655 條的天然蛋白編碼序列共同作為判別器的輸入,訓練GAN 生成編碼蛋白的人工DNA 序列。之后在序列的物理化學特征表示空間中對序列做t-SNE 降維,發(fā)現(xiàn)新設計的序列與天然序列位于相似的空間分布中。作者結合抗菌性能預測模型與GAN 進行了的抗菌劑編碼序列的循環(huán)優(yōu)化設計,每輪模型生成的排名靠前的人工序列再次作為真實序列輸入判別器。通過在獨立預測器上進行人工序列的性能評估,得到最終設計的人工序列中40.2%為具有抗菌活性的編碼序列。

圖2 生物分子序列生成任務中常用的深度生成模型Fig.2 Deep generative models commonly used in biomolecule sequence generation
變分自編碼器(variational auto-encoder,VAE)是利用具有自編碼器結構的神經(jīng)網(wǎng)絡構造的有向概率圖模型。在生物序列的設計中,Gómez-Bombarelli 團隊[43]首次將基于VAE 的生成式模型引入小分子藥物序列的設計中。在VAE 的基礎上,藥物設計領域已開發(fā)出針對不同的分子序列表示方式(如藥物的SMILES 結構[50]、3D 結構[51]、原子的三維立方網(wǎng)格[51]、分子特征的二值向量[52]等)不同輸入形式的藥物序列設計算法,以及針對多靶標設計的條件變分自編碼器[53]。例如,2018 年Lim 等[53]使用化合物的油水分配系數(shù)、氫鍵供體性質等性質作為條件向量輸入,利用分子序列(對分子的SMILES表示進行獨熱編碼,獲得輸入向量)與條件向量成對輸入到VAE 中,最終生成了分別達到5類不同理化性能指標的人工化合物分子。通過引入對抗思想形成對抗自編碼器(adversarial auto-encoder,AAE)框架,可進一步提高在結構上合理藥物序列的比例[54]。
循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network,RNN)是自然語言處理中經(jīng)典的序列數(shù)據(jù)生成模型[55]。其中長短期記憶結構(long-short term memory,LSTM)可學習并決定過去的信息保留與否[56]。門循環(huán)單元(gate recurrent unit,GRU)的網(wǎng)絡結構則更為簡化,通常可獲得與LSTM類似的效果[55]。在生物序列的設計問題中,研究發(fā)現(xiàn),以化合物分子的SMILES 表示作為輸入,基于RNN 的方法可學習到分子序列語法與化學空間的低維分布[57]。對于長度分布差異較大的序列,RNN 具有獨特的優(yōu)勢。例如,2019 年Alley 等[58]利用基于LSTM的模型,通過對神經(jīng)網(wǎng)絡各層信息的平均化整合,獲得了病毒、細菌、植物、哺乳動物等物種中各類蛋白質序列的特征表示,從而形成通用的蛋白序列表示空間,并利用該表示空間與綠色熒光蛋白的熒光強度模型相結合,進行綠色熒光蛋白序列的人工設計,對于蛋白質序列的優(yōu)化具有重要的意義。
現(xiàn)有的深度生成式模型具有不同的優(yōu)勢與特點,因此在生物序列設計中適應于不同的應用方向。生成對抗網(wǎng)絡可以生成比變分自編碼器更加尖銳的數(shù)據(jù)分布[23],生成與原序列位于相似高維分布中的人工序列。但不能獲得顯式的數(shù)據(jù)分布,并且易出現(xiàn)模式崩潰現(xiàn)象,即生成的樣本之間相似度過高,影響人工生物序列的多樣性[59]。對抗自編碼器則將生成對抗網(wǎng)絡的對抗思想引入變分自編碼器,盡量使得隱層的分布與先驗分布接近。但AAE 和VAE 利用最大似然法擬合分子的整體分布[22],分布擬合任務的收斂較困難[60]。循環(huán)神經(jīng)網(wǎng)絡可靈活處理不定長的生物序列,但通常模型規(guī)模大,所需訓練時間長,且生物分子序列相比于自然語言生成的場景,缺乏成熟的語義嵌入網(wǎng)絡。在生物序列生成時容易出現(xiàn)堿基的重復,因此相對于僅含4類堿基的核酸,更適合于化合物分子團等單元數(shù)目較多的生物序列的生成。
如何合理整合與利用不同的智能模型的優(yōu)勢,針對各類生物分子序列的特點,提取重要的生物學特征,形成生物序列的特征表示空間,對于各類生物分子序列的智能設計與優(yōu)化具有重要的意義[61]。
為了對特定性能進行優(yōu)化,在通過智能算法獲得低維的特征表示空間后,可與遷移學習、強化學習等算法相結合,在表示空間針對特定性能對生物分子進行尋優(yōu)。同時,對于不同類型的分子,由于其結構對功能的影響,也存在不同的分子輸入表示形式(表1)。

表1 深度生成式模型與優(yōu)化算法結合的應用研究Tab.1 Applications for deep generative models combined with optimization algorithms
遷移學習是一類常用的機器學習方法,其通過將針對某一任務開發(fā)的模型、策略作為初始點,經(jīng)過微調重新使用在另一任務的模型中。在一些場景下,具有特定功能的分子往往數(shù)據(jù)量較小,無法直接進行預測模型的訓練與優(yōu)化。遷移學習方法將生物數(shù)據(jù)庫中各類生物序列整合,對模型進行預訓練,再針對特定性能的分子,如特定疾病的靶向藥物或分子抑制劑等對模型進行精調(fine-tuning),從而對這些分子進行擴充設計與探索。例如,研究人員利用RNN 對數(shù)據(jù)庫中約10 萬條無性能偏好的生物分子進行了預訓練,并遷移學習到約1 萬條具有活性的分子上進行精調,最終可以再發(fā)現(xiàn)416 種已證明具有活性的藥物分子[57]。在一些藥物設計的案例中,特定的靶標化合物數(shù)目非常有限的情況下,遷移學習進行定向優(yōu)化也取得了較好的效果。例如,研究人員在豐富的藥物數(shù)據(jù)庫上預訓練生成器,之后遷移學習到25 種維甲酸和過氧化物酶體增殖受體激動劑上進行精調,最終成功合成了5 種新的有效藥物分子[30]。
遷移學習可以靈活地適配不同的智能設計框架,為人工分子的性能優(yōu)化提供了重要的思路。但基于遷移學習的優(yōu)化方法獲得的人工分子,將與現(xiàn)存特定性能的分子位于類似分布中,最終性能優(yōu)化提升的效果會受到一定的限制。
利用生物分子性能的預測模型,可在強化學習框架下,對特定性能的生物序列進行定向優(yōu)化[66]。例如,有研究利用藥物性能預測網(wǎng)絡對人工分子性能進行打分,在強化學習的框架下,對藥物分子的溶解溫度與其作為JAK2 抑制劑的性能進行定向優(yōu)化,成功獲得了一批性能超越天然分子的藥物分子序列[39]。2019 年,研究人員基于GAN 框架,利用靶向和非靶向的藥物作為正負樣本進行強化學習,在表示空間針對DDR1的抑制能力進行定向優(yōu)化設計,歷時僅21 天設計出了DDR1抑制劑的新藥候選分子。對在實驗室合成的6 個潛在新藥分子進行生化初篩后,對4 個具有活性的分子進行體外細胞實驗,其中2個化合物展現(xiàn)了顯著的DDR1抑制能力[67]。
近年來,基于強化學習的優(yōu)化算法在小分子藥物設計中展現(xiàn)出了巨大的潛力。伴隨著各類生物分子的性能預測模型準確性的逐步提高,未來基于強化學習的框架在不同生物序列中的優(yōu)化將成為重要的研究方向。
對于生物分子序列,可使用基于決策樹搜索的方法進行生成與優(yōu)化。其中,蒙特卡洛樹搜索(Monte Carlo tree search,MCTS)是一種在缺乏強啟發(fā)的情況下常用的基于樹的序列搜索方法[68],主要包含4個步驟:選擇,拓展,模擬和反向傳播更新。利用蒙特卡洛搜索可以從頭開始同時生成與優(yōu)化生物分子:選定當前最可能的決策,如碳原子或其他化學結構組成單位如苯環(huán),隨后采用隨機搜索進行模擬,用以模擬完整序列的延伸結果。通過對多次采樣的結果進行平均,反向傳播回相應的節(jié)點,可學習獲得決策成功的概率。因此,在訓練完成后可通過基于策略的抽樣生成新的序列。
在生物分子序列設計中,有研究通過MCTS與RNN、VAE 相結合,利用不同的神經(jīng)網(wǎng)絡來進行分子有效性預測,成功實現(xiàn)了藥物序列的設計。例如通過利用RNN 網(wǎng)絡進行延伸模擬,實現(xiàn)了對藥物分子性能(如正辛醇-水分配系數(shù)等)的優(yōu)化[27]。在化學反應的智能設計中,利用蒙特卡洛搜索與人工神經(jīng)網(wǎng)絡相結合的方法,以高于傳統(tǒng)設計方法3 倍的搜索效率,成功設計了2 倍數(shù)目的目標分子生成反應[5]。
基于樹搜索方法的序列設計可實現(xiàn)生物序列的生成與尋優(yōu),但其依賴于性能預測模型的統(tǒng)計得分作為序列生成的指導,且往往不考慮表示空間的分布,因此更適用于具有較為準確的性能預測模型[69],但表示空間分布的可解釋性較弱的生物序列設的設計。
貝葉斯優(yōu)化方法可針對任意連續(xù)表示空間進行建模。以分子在連續(xù)隱空間的表示作為輸入,通過多次重復高斯過程進行探索,計算采樣函數(shù)的值,最終以將采樣函數(shù)最大化值,作為優(yōu)化分子。例如,研究人員利用稀疏高斯過程[70]對VAE 生成的隱空間進行了貝葉斯優(yōu)化[63],結果顯示人工分子與天然分子在相對位置比對的相似度大于0.6 的情況下,人工分子的設計成功率超過83%。
基于貝葉斯優(yōu)化的分子尋優(yōu)方案,不依賴于具體的預測模型指導,但需要在分子具有良好的連續(xù)隱空間表示基礎上,進行基于高斯過程的探索和尋優(yōu)。因此通常適用于基于自編碼器的深度生成式模型(如VAE和AAE)。
將性能預測模型與生物分子表示相結合,可以實現(xiàn)對連續(xù)隱空間基于梯度的定向優(yōu)化。利用生成模型獲得的表示空間,與預測模型相連接,計算分子的性能分值對于分子表示的梯度,并將梯度回傳到表示空間,可以指導表示空間的尋優(yōu)方向。例如在藥物設計中,研究人員將VAE 與性能預測器相結合,利用編碼器將化合物序列映射到低維表示空間,使用預測器對隱空間中化合物的性能進行預測。最終利用性能得分對于分子表示的梯度,指導隱空間的尋優(yōu)方向進行定向優(yōu)化[43]。在基因元件設計中,研究人員測定了基于酵母中元件基序(Motif)設計的數(shù)十萬條啟動子序列的表達活性,以此訓練卷積神經(jīng)網(wǎng)絡預測模型。之后利用基于基因表達活性的梯度回傳的方式指導啟動子設計,產生了大量的具有特定功能與序列多樣性的啟動子元件[71]。
綜上,包括遷移學習、強化學習等在內的離散與連續(xù)尋優(yōu)的方法,在生物分子的序列中均取得了較大的進展。在蛋白質設計領域,基于Rosetta 算法評分[72]的采樣方式是常用的蛋白質序列與骨架的優(yōu)化方法。在實際的生物分子應用中,可將不同的尋優(yōu)方案進行整合優(yōu)化。例如,將遷移學習的精調與強化學習的框架相結合,在精調到特定的性能分布后,利用強化學習進一步優(yōu)化提升生物分子的性能[67]。除此以外,在對單一性能進行優(yōu)化的基礎上,通過設計各類條件輸入,例如目標狀態(tài)下重要基因的表達譜[73]、現(xiàn)有特定功能的分子序列[74]、目標性能值[75]等,生成式模型可設計不同類型的生物分子,形成依賴條件輸入的生物分子定向設計[53,76]。
為了對生物序列進行準確的預測與優(yōu)化,可以綜合各種組學數(shù)據(jù)的信號輸入[77],利用進化過程中的序列進行數(shù)據(jù)增強[78]。另外,深度生成式模型也可作為對訓練數(shù)據(jù)進行增強的數(shù)據(jù)生成器[79],通過從不同角度豐富訓練數(shù)據(jù),進一步提高預測模型的準確性[80]。從計算層面,可以發(fā)揮智能算法強大的特征提取能力的優(yōu)勢[81],在樣本數(shù)量受限的情況下,進行無監(jiān)督或半監(jiān)督的序列特征提取[82],通過模型解析可以幫助人們發(fā)現(xiàn)新的重要生物學特征[83-84],為人工生物系統(tǒng)的構建提供重要支撐。
利用深度生成式模型進行定向優(yōu)化,需要篩選多樣性較高、與天然分子相似性較低、滿足目標需求(如表達量、靶點或組織特異性)的人工分子。合適的評估體系的設計有利于提高目標分子的設計成功率和篩選效率[85]。下面列出的是目前在生物序列設計領域中一些常用的評估指標,可為其他評估尚未成熟的生物序列設計問題提供思路(表2)。
從生成的生物分子是否與天然分子位于類似分布的角度,可從人工分子的合理性、多樣性、新穎性等方面進行評估。在藥物設計領域,對設計的序列進行性能預測具有相對標準化的定量評估指標,如基于二維分子印跡[86]的Tanimoto 距離[87],可以衡量設計的生物序列之間的相似性。RDkit 包可以初步檢測是否為結構合理的藥物序列[88]。在蛋白設計領域,可以利用Rosetta 算法對設計的人工蛋白進行評估、篩選與優(yōu)化[89]。除此以外,可使用在性能預測等任務中表現(xiàn)魯棒的神經(jīng)網(wǎng)絡對智能設計的生物序列進行評價。例如類似于圖片生成領域中可利用圖片分類問題常用的特征提取網(wǎng)絡InceptionNet[90]對生成結果進行評價,藥物設計領域則利用預訓練的藥物深度神經(jīng)網(wǎng)絡ChemNet 的隱層對生成結果進行評價。研究人員據(jù)此提出利用Frechet ChemNet Distance(FCD)來衡量生成式模型設計的藥物序列p(·)與天然藥物序列pw(·)之間的距離[91]。為了獲得每個分子的數(shù)學表示,以ChemNet的倒數(shù)第2層作為序列的分布。假設隱層表示滿足多維高斯分布,計算模型設計藥物序列的高斯分布p(·)的均值和方差則為(m,C),天然藥物序列的高斯分布pw(·)均值和方差則為(mw,Cw)。可由此計算出二者的Frechet Distance(Wasserstein-2 Distance),用于評估智能設計的生物分子的多樣性以及是否與真實分子之間有類似的化學性質。與之對應的,在人工蛋白設計的問題中,可以利用大量實驗測試繪制的經(jīng)驗性蛋白適應度分布(fitness landscape),對設計的人工蛋白質與多肽鏈進行分布一致程度的評估[92-93]。
針對優(yōu)化性能目標的評估,可利用單獨訓練的預測模型對生成的生物序列進行評價。除此以外,從生物序列再發(fā)現(xiàn)的角度,計算重設計的恢復比例,即從訓練集中分出一部分生物序列作為測試集,計算生成的序列與測試集序列的重合比例。例如,在2018 年的一篇文章中[57],作者使用了1239 個藥物序列訓練循環(huán)神經(jīng)網(wǎng)絡生成藥物分子,其中28%的分子可在測試集中出現(xiàn),并與測試集的藥物分子位于相似的低維流形上,驗證了藥物分子設計的有效性。

表2 深度生成式模型進行生物序列設計的常用評價指標Tab.2 Evaluation criteria for deep generative model designed biomolecular sequences
對于滿足計算評估指標的生物分子,可通過分子生化方法進行人工合成,利用批量生化實驗,如大規(guī)模平行報告系統(tǒng)[94]、細胞外給藥技術等,測試智能設計的分子的有效性。2018 年有研究人員[74]將條件對抗自編碼器設計的300 000 個候選JAK2 激酶抑制劑進行docking 篩選[95]、分子動力學篩選后獲得了100個潛在序列。之后利用專家知識篩選后的抑制劑分子,通過胞外給藥曲線測定的方法,成功獲得了1 種具有JAK2 激酶抑制劑活性,且同時不具備其他對照蛋白(如JAK3 激酶)活性的藥物分子序列。
目前生化實驗篩選的通量與潛在的序列空間相比仍非常有限。利用智能算法與生化實驗測試相結合的方式,搭建智能算法與生化測試的循環(huán)優(yōu)化設計框架,可以提高生物序列的設計效率[96]。例如,我們利用GAN 設計大腸桿菌啟動子序列的設計,經(jīng)過第1 輪計算篩選與生化實驗測試后,利用測得的人工啟動子的活性結果,對啟動子活性預測模型進行迭代優(yōu)化,最終智能設計的人工啟動子序列設計成功率超過了70%[31]。進一步,我們基于深度學習模型搭建了啟動子設計軟件Gpro,提供了啟動子智能化、模塊化的設計平臺[97]。
為了更加精確、穩(wěn)定地調控細胞內的生化反應,滿足對不同生命活動調控的需求,需要對生物序列進行人工設計與優(yōu)化,這是合成生物學面臨的重要的科學問題[98]。由于生物序列的復雜性,智能算法在該類問題中具有獨特的優(yōu)勢:不同于傳統(tǒng)的設計手段在天然序列的局部進行小范圍探索,智能算法可以通過提取生物數(shù)據(jù)的復雜特征,并在這些生物特征的指導下,實現(xiàn)自動化、批量化、端到端的智能設計。因此,伴隨著智能算法的發(fā)展,與生物序列測試數(shù)據(jù)的積累,在數(shù)據(jù)與模型的共同驅動下,生物分子的設計將打開全新的篇章。
針對不同的生物序列,利用智能算法進行自動設計,面臨著不同的挑戰(zhàn)。表3從數(shù)據(jù)量、常用的智能設計模型等角度比較了在這些應用領域進行智能設計的挑戰(zhàn)與潛在的發(fā)展方向。在藥物小分子序列設計領域,計算評估的指標相對比較完善,但分子的有機合成需考慮的因素仍較為復雜。盡管有研究利用整合智能算法與先驗規(guī)則的框架,對化合物分子的合成線路進行自動設計[101],對設計出的分子進行有機合成仍然是藥物開發(fā)的限速步驟。因此如何綜合各類生化指標,將藥物分子合成線路的設計融入到生物序列的智能設計中,是未來重要的研究方向。在特定功能蛋白質的設計中,由于對其三維折疊的構象等性能的預測仍缺乏準確性,目前探索的范圍仍然有限。如何利用蛋白質序列與結構的表示空間,結合物理化學約束模型,進行蛋白質的智能設計與優(yōu)化,仍然是尚未解決的重要問題,在未來具有廣闊的應用前景。在核酸序列的設計中,核酸序列的合成約束相對小分子化合物與蛋白質更少,但各類核酸序列的生物學功能迥異,并且與細胞內復雜的蛋白質調控網(wǎng)絡存在相互作用,同時尚缺乏系統(tǒng)規(guī)范的性能評估體系。其中,DNA 序列設計的研究主要關注于轉錄調控序列和用于微芯片的DNA 探針、針對編碼抗菌肽基因的DNA 序列等的設計。因此,如何對基因組的順式調控元件與反式作用因子等不同層次的信號進行建模整合,成為研究的關鍵。

表3 對藥物分子、蛋白質和核酸序列進行智能設計的優(yōu)勢與挑戰(zhàn)Tab.3 Advantages and challenges of intelligent design for drug molecules,proteins and nucleic acid sequences
在生物序列設計問題中,一方面不同生物序列的智能設計面臨著各自的挑戰(zhàn);另一方面,人工生物序列作為合成生命系統(tǒng)的重要信息寫入載體,其如何與胞內復雜的多層次調控之間相互影響,尚待研究。未來人工生物序列的智能設計需充分考慮生物系統(tǒng)具有多層次的調控高度耦合的復雜特性,通過對不同層次的生物序列進行設計,從系統(tǒng)的角度利用生物序列對天然生物系統(tǒng)中不同層次的調控進行干預,實現(xiàn)生物序列與系統(tǒng)底盤環(huán)境的整體智能適配與優(yōu)化。這將為人工生物序列的設計與合成生命系統(tǒng)的構建向著高通量、智能化、自動化的方向發(fā)展提供重要支撐。