999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學(xué)習(xí)的蛋白質(zhì)設(shè)計研究綜述

2023-12-31 00:00:00李巖夏雨
科技創(chuàng)新與應(yīng)用 2023年20期

摘 "要:在生命科學(xué)領(lǐng)域,蛋白質(zhì)工程是創(chuàng)造具有改進或新功能蛋白質(zhì)問題的關(guān)鍵。該文總結(jié)近幾年深度學(xué)習(xí)輔助蛋白質(zhì)工程研究的發(fā)展,主要介紹相關(guān)的語言模型和生成模型,還從序列和結(jié)構(gòu)的角度介紹相關(guān)的研究及目前存在的問題。最后對深度學(xué)習(xí)輔助蛋白質(zhì)工程研究的未來發(fā)展進行展望。

關(guān)鍵詞:深度學(xué)習(xí);蛋白質(zhì)工程;語言模型;生成模型;蛋白質(zhì)序列;蛋白質(zhì)結(jié)構(gòu)

中圖分類號:Q816 " " " "文獻標(biāo)志碼:A " " " " "文章編號:2095-2945(2023)20-0021-05

Abstract: In the field of life science, protein engineering is the key to creating proteins with improved or new functions. This paper summarizes the development of deep learning-assisted protein engineering in recent years, mainly introduces the related language models and generation models, and traces related research and existing problems from the in terms of sequence and structure. Finally, the future development of deep learning-assisted protein engineering research is prospected.

Keywords: deep learning; protein engineering; language model; generate mode; protein sequence; protein structure

20世紀90年代早期,Chen等[1]開創(chuàng)了定向進化(Directed evolution)的方法,用于設(shè)計新的和更理想的酶。隨著對高通量(High-throughput screening)藥物篩選的重視程度不斷提高,用于高通量藥物篩選操作設(shè)備和檢測儀器都有了長足發(fā)展[2-3],但由于序列空間巨大,想要從成千上萬的蛋白質(zhì)中篩選出功能性突變,仍然需要漫長的篩選周期,甚至需要耗費大量人力,并且人員之間的操作誤差無法避免,無法實現(xiàn)標(biāo)準化。高通量測序技術(shù)的不斷進步為自然序列多樣性提供了前所未有的數(shù)據(jù)。如何避開漫長的研發(fā)周期且更有效地探索出蛋白質(zhì)序列進化的秘密成為許多研究者感興趣的研究方向。

高性能計算設(shè)備的進步,使得深度學(xué)習(xí)模型在大量數(shù)據(jù)中建模成為可能。近年來,自然語言處理與計算機視覺領(lǐng)域依托海量的數(shù)據(jù)發(fā)展出各種各樣的深度學(xué)習(xí)模型[4-6],這些技術(shù)的發(fā)展極大地推進了人工智能的進程。同樣,交叉學(xué)科研究人員已經(jīng)開始利用深度學(xué)習(xí)方法來建模大型生物數(shù)據(jù)集,以促進生物學(xué)的發(fā)展。深度學(xué)習(xí)是機器學(xué)習(xí)中一個重要的研究分支,可以使用不同的架構(gòu)來實現(xiàn)。深度學(xué)習(xí)的每一層都能夠逐步提取特征并將其傳遞給下一層,通過對每一層輸入進行加工,以提取數(shù)據(jù)中更高階的特征,其中使用反向傳播算法改變內(nèi)部參數(shù)來發(fā)現(xiàn)大數(shù)據(jù)集中的復(fù)雜結(jié)構(gòu)。以輸入數(shù)據(jù)是否標(biāo)記可以將深度學(xué)習(xí)分為監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。深度學(xué)習(xí)可以將復(fù)雜、數(shù)量龐大的非結(jié)構(gòu)化數(shù)據(jù)通過神經(jīng)網(wǎng)絡(luò)提煉成抽象的、高層次的表示。其優(yōu)點在于可以復(fù)用特征,并且隨著層數(shù)的加深,可以獲取更加抽象的特征。因此深度學(xué)習(xí)具有更高的能力和靈活性。

1 相關(guān)模型

蛋白質(zhì)工程旨在原有蛋白質(zhì)的基礎(chǔ)上創(chuàng)造出具有改進或新功能的蛋白質(zhì)變體。深度學(xué)習(xí)的模型為人類理解和改造蛋白質(zhì)提供了有利的工具。目前數(shù)據(jù)庫中大量的蛋白質(zhì)序列為訓(xùn)練一個蛋白質(zhì)語言模型提供了數(shù)據(jù)的支持。實驗表明,語言模型可以應(yīng)用于一系列的蛋白質(zhì)理解和設(shè)計任務(wù),并且在這方面的研究也取得了很大的成績。蛋白質(zhì)序列空間中的優(yōu)化是極具挑戰(zhàn)性的,因為搜索空間很大、離散且非結(jié)構(gòu)化。蛋白質(zhì)工程的生成性建模試圖對數(shù)據(jù)的分布進行建模,關(guān)鍵是理解和控制該模型學(xué)習(xí)到的生物物理特性,從而生成與模型訓(xùn)練相似屬性的新樣本。

1.1 "語言模型

通過幾十年的發(fā)展,自然語言處理(NLP)技術(shù)已經(jīng)發(fā)展到可以對大量無標(biāo)簽文本進行自主學(xué)習(xí),能夠很好地捕捉到文本信息,并且在知識問答、機器翻譯、情感分析、語音識別等領(lǐng)域得到了充分地應(yīng)用。而將與NLP相關(guān)的模型和技術(shù)遷移到具有大量數(shù)據(jù)的蛋白質(zhì)序列上來研究其功能也已經(jīng)被證明具有可行性。如圖1所示。近年來,為更好地理解和解釋蛋白質(zhì)序列所表現(xiàn)的功能信息,預(yù)訓(xùn)練語言模型越來越多地應(yīng)用于蛋白質(zhì)工程。

大型語言模型能夠?qū)W習(xí)到序列攜帶的各種不同的信息,并且魯棒性和泛化性較強,見表1,不同任務(wù)的蛋白質(zhì)語言模型訓(xùn)練時往往需要大量的數(shù)據(jù)作為支持。ESM-1b是一個大容量Transformer語言模型[7],從2.5億個蛋白質(zhì)序列中的860億個氨基酸學(xué)習(xí)生物內(nèi)在特性,其蛋白質(zhì)的二級結(jié)構(gòu)以及空間結(jié)構(gòu)可以在表示中識別,并且空間中的度量結(jié)構(gòu)符合從物理化學(xué)到遠程同源的尺度上的組織原則。蛋白質(zhì)生成語言模型ProGen[8]利用大約2.8億個的基于分類和關(guān)鍵字標(biāo)簽的蛋白質(zhì)序列進行無監(jiān)督序列生成,提供了進化多樣性序列生成。Elnaggar等[9]對來自2億個蛋白質(zhì)序列的800億個氨基酸訓(xùn)練了2個自回歸語言模型和2個自動編碼器模型,并且對21億個蛋白質(zhì)序列的3 930億個氨基酸訓(xùn)練了一個語言模型(ProtTrans),表明無監(jiān)督的語言模型可以學(xué)習(xí)到蛋白質(zhì)生物物理學(xué)的基本特征,并且驗證了語言模型升級到由更多數(shù)據(jù)支持的更大模型的優(yōu)勢。UniRep模型[10]通過對未標(biāo)記的氨基酸序列進行建模,將蛋白質(zhì)的基本特征提取到語義豐富、結(jié)構(gòu)、進化和生物物理基礎(chǔ)良好的統(tǒng)計表示中,能夠很好地預(yù)測天然和從頭設(shè)計的蛋白質(zhì)穩(wěn)定性。遷移學(xué)習(xí)利用大量未標(biāo)記的蛋白質(zhì)序列進行預(yù)訓(xùn)練,提取到一般蛋白質(zhì)具有的特征和表示,再利用現(xiàn)存的少量標(biāo)記數(shù)據(jù)微調(diào)模型,使模型能夠適應(yīng)特定問題的下游任務(wù)。TAPE模型[11]評估了預(yù)訓(xùn)練語言模型在結(jié)構(gòu)預(yù)測、遠程同源性檢測以及蛋白質(zhì)工程上5個任務(wù)的嵌入表現(xiàn),發(fā)現(xiàn)并沒有一個模型適合所有的任務(wù)。在大而多樣的蛋白質(zhì)序列數(shù)據(jù)庫上的預(yù)訓(xùn)練語言模型可以預(yù)測蛋白質(zhì)功能的實驗測量,而無需進一步地監(jiān)督,可以直接應(yīng)用于一系列的蛋白質(zhì)理解和設(shè)計任務(wù)。雖然大量的蛋白質(zhì)語言模型證明可以捕獲一般蛋白質(zhì)序列上下文,但蛋白質(zhì)數(shù)量龐大不代表齊全,所以對于許多特定的、正在設(shè)計的蛋白質(zhì)仍然有一定的挑戰(zhàn)。

1.2 "生成模型

利用深度生成模型從已知的功能蛋白序列中學(xué)到進化特性,可以在空間中生成新的蛋白序列,從而獲得尚未開發(fā)的功能序列多樣性,并且可以最大限度地減少對大量非功能蛋白序列變體的測試需求。

深度生成模型能夠?qū)W習(xí)樣本數(shù)據(jù)的聯(lián)合概率分布,捕獲數(shù)據(jù)分布的底層信息和處理存在隱變量的樣本,同時生成具有訓(xùn)練數(shù)據(jù)特性的新樣本。表2列舉了生成模型的一些具體任務(wù)。Anand等[12]提出一種利用深度生成模型進行三維結(jié)構(gòu)生成和恢復(fù)的新方法,使用生成對抗網(wǎng)絡(luò)(GANs)來生成新的蛋白質(zhì)結(jié)構(gòu),并且使用訓(xùn)練過的模型還可以用以預(yù)測損壞蛋白質(zhì)結(jié)構(gòu)的缺失部分。Greener等[13]使用條件變分自編碼器(CVAE)來生成以所需特性為條件的蛋白質(zhì)序列,將潛在的銅和鈣結(jié)合位點添加到非金屬結(jié)合蛋白中。Shin等[14]開發(fā)了一種自回歸生成模型,在不需要序列比對的情況下,利用天然序列中攜帶的信息了解特定位置氨基酸的限制,通過自回歸似然來建模和設(shè)計抗體的互補性決定區(qū)。Repecka等[15]設(shè)計了一種基于自注意力的生成性對抗網(wǎng)絡(luò)變體ProteinGAN,直接從復(fù)雜的多維氨基酸序列空間學(xué)習(xí)蛋白質(zhì)序列的進化關(guān)系和自然蛋白質(zhì)序列多樣性,并生成具有天然物理性質(zhì)的高度多樣的新序列變體。Xian等[16]針對缺乏標(biāo)記的訓(xùn)練數(shù)據(jù),提出了一個條件生成模型,該模型結(jié)合了VAE和GAN的優(yōu)勢,通過無條件的判別器學(xué)習(xí)了未標(biāo)記圖像的邊緣特征分布。還通過將其反轉(zhuǎn)回到像素空間對其進行可視化,以證明學(xué)到的特征是可以解釋。

這些利用潛在變量管理的生成過程可以直接用于將生成偏向于序列空間的特定區(qū)域,或者通過從目標(biāo)序列的潛在表示附近采樣,再或者通過促進基于優(yōu)化的策略,在潛在空間中搜索具有理想屬性的新序列。

2 "蛋白質(zhì)建模

利用深度學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)從蛋白質(zhì)中有效地學(xué)習(xí)到蛋白質(zhì)-功能的映射關(guān)系,就必須構(gòu)建合理的深度學(xué)習(xí)模型。通常情況下,想要從序列中直接獲得序列-功能的映射關(guān)系時,往往需要整個家族或利用多序列比對技術(shù)搜索同源序列。這些序列往往攜帶了關(guān)于蛋白質(zhì)家族性質(zhì)的信息,從這些序列數(shù)據(jù)中進行表征學(xué)習(xí)或特征學(xué)習(xí)可以更好地為下游任務(wù)的預(yù)測或分類提供表示。設(shè)計具有特定功能是蛋白質(zhì)工程最終的目的,而結(jié)構(gòu)作為決定蛋白質(zhì)獨特功能的重要信息往往是不能被忽略的。但目前由于三維結(jié)構(gòu)信息的解析難度之大,使得利用深度學(xué)習(xí)更多的研究導(dǎo)向了對蛋白質(zhì)三維折疊結(jié)構(gòu)的預(yù)測,并且大多蛋白質(zhì)結(jié)構(gòu)預(yù)測的準確性取決于數(shù)據(jù)庫中可用的同源蛋白質(zhì)序列的數(shù)量。

2.1 "以序列為基礎(chǔ)建模

核酸測序技術(shù)的進步產(chǎn)生了大量的蛋白質(zhì)序列數(shù)據(jù),蛋白質(zhì)數(shù)據(jù)庫的巨大擴展為新的蛋白質(zhì)設(shè)計方法提供了機會,并且深度學(xué)習(xí)越來越多地用于蛋白質(zhì)工程,這些方法尋求從自然序列變異中直接學(xué)習(xí)序列-功能關(guān)系。蛋白質(zhì)的一個序列即一個信息載體,將所有蛋白質(zhì)序列看成一個知識庫進行全局學(xué)習(xí),就是學(xué)習(xí)這些信息的共同特征,將這些特征映射到適合的空間,通過這些嵌入可以推斷出一些看不見的序列。

自然序列變異為功能蛋白質(zhì)中氨基酸序列的結(jié)構(gòu)和生物物理約束提供了豐富的信息來源。受自然語言處理的啟發(fā),蛋白質(zhì)序列被看作一種文本信息,目前大部分的蛋白質(zhì)語言模型均是以序列為研究對象。由于目前大量的蛋白質(zhì)仍然未能解析出三維結(jié)構(gòu)信息,只有少部分蛋白質(zhì)可以直接通過結(jié)構(gòu)信息進行設(shè)計新的蛋白質(zhì)。Biswas等[17]通過從自然蛋白質(zhì)序列景觀中提取信息,學(xué)習(xí)自然的潛在表示,使用最少24個功能分析的突變序列來構(gòu)建精確的虛擬適應(yīng)度景觀。Riesselman等[18]借鑒了自然語言處理和語音合成的最新進展,開發(fā)了一種利用殘差因果擴張卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)的生成深度神經(jīng)網(wǎng)絡(luò)驅(qū)動的生物序列自回歸模型,該模型可以捕獲到功能約束,并且不依賴于顯式的對齊結(jié)構(gòu)。Ding等[19]利用家族序列在潛在空間中的分布,學(xué)習(xí)蛋白質(zhì)適應(yīng)度景觀,預(yù)測了蛋白質(zhì)突變穩(wěn)定性,并量化穩(wěn)定性在蛋白質(zhì)進化過程中的重要性。表明可在潛在空間序列的分布附近找到具有相似適應(yīng)性景觀的點,并且通過VAE模型的解碼器得到新變體序列。Hawkins-Hooker等[20]針對未對齊序列和對齊序列分別開發(fā)了獨立的VAE模型,表明在多序列比對數(shù)據(jù)上訓(xùn)練的版本更可信地再現(xiàn)了家族成員在進化過程中獲得并維持的結(jié)構(gòu)和功能約束的統(tǒng)計特征。Russ等[21]描述了一個過程來學(xué)習(xí)純粹從進化序列數(shù)據(jù)中指定蛋白質(zhì)的約束條件,設(shè)計和構(gòu)建合成基因庫,并使用定量互補分析測試其在體內(nèi)的活性。基于序列的統(tǒng)計模型足以指定蛋白質(zhì),并提供對巨大空間的功能序列的訪問。

很多深度學(xué)習(xí)的模型已被證明可以學(xué)習(xí)到蛋白質(zhì)序列中包含的關(guān)于進化、功能、生物化學(xué)特征以及生物約束等特征。雖然有監(jiān)督的方法使得蛋白質(zhì)的研究取得了非常大的進步,但為這些序列獲得有意義的標(biāo)簽和注釋需要大量的實驗資源投資,以及需要學(xué)習(xí)大量相關(guān)的專業(yè)知識。在蛋白質(zhì)序列數(shù)據(jù)上訓(xùn)練的模型已被證明可以學(xué)習(xí)有助于各種下游任務(wù)的有生物學(xué)意義的表示,但其在新蛋白質(zhì)設(shè)計中直接使用的潛力在很大程度上仍未探索。

2.2 "以結(jié)構(gòu)為基礎(chǔ)建模

在自然進化和選擇過程中,蛋白質(zhì)分子需要在結(jié)構(gòu)的“穩(wěn)定性”和“可變性”之間達成某種平衡,這種競爭和平衡在蛋白質(zhì)結(jié)構(gòu)和功能層面上對應(yīng)著相關(guān)的臨界特性,從而展現(xiàn)出蛋白質(zhì)分子的共有結(jié)構(gòu)特征。同一個家族的蛋白質(zhì)結(jié)構(gòu)是相似的,同一個蛋白質(zhì)空間相鄰的氨基酸是互相影響、共同進化的。在氨基酸的相互作用下,蛋白質(zhì)會自發(fā)形成三維結(jié)構(gòu)進而發(fā)揮其特有的生物功能。在三維結(jié)構(gòu)中,氨基酸的相互作用維系了蛋白質(zhì)的三維結(jié)構(gòu)。生物醫(yī)學(xué)領(lǐng)域的眾多挑戰(zhàn),包括開發(fā)治療疾病的創(chuàng)新療法,依賴于對蛋白質(zhì)結(jié)構(gòu)和功能的理解。在結(jié)構(gòu)生物信息學(xué)中,人們致力于預(yù)測蛋白質(zhì)的功能和結(jié)構(gòu)特性,這些結(jié)構(gòu)特性直接決定了一個獨特的功能。將蛋白質(zhì)的三維結(jié)構(gòu)作為輸入,深度學(xué)習(xí)通過在大數(shù)據(jù)支持下擴大感受野,為高階統(tǒng)計和潛力提供了最簡單、也是最通用的近似和參數(shù)化方法。常見的基于結(jié)構(gòu)的蛋白質(zhì)數(shù)據(jù)庫包括PDB、SCOP、Pfam、CATH等。

由于結(jié)構(gòu)與功能的要求,蛋白質(zhì)分子在進化的過程中,蛋白質(zhì)鏈上2個不同位點的氨基酸類型變化往往存在著關(guān)聯(lián),這種關(guān)聯(lián)是由于氨基酸互補性突變導(dǎo)致的,通常稱為蛋白質(zhì)的共進化特性[22]。同一個家族的蛋白質(zhì)結(jié)構(gòu)是相似的,同一個蛋白質(zhì)空間相鄰的氨基酸是互相影響、共同進化的。關(guān)聯(lián)較強的殘基對在蛋白質(zhì)的折疊和執(zhí)行生物學(xué)功能起著非常關(guān)鍵的作用,有助于蛋白質(zhì)分子維持整體結(jié)構(gòu)穩(wěn)定性并實現(xiàn)特定的生物學(xué)功能[23]。因此對蛋白質(zhì)序共進化位點的預(yù)測研究對提高蛋白質(zhì)結(jié)構(gòu)預(yù)測精度,揭示蛋白質(zhì)分子的功能和進化機制,從而利用生成模型生成更優(yōu)特性的蛋白質(zhì)突變體至關(guān)重要。2013年De等[24]認為共同進化是進化的重要組成部分,傾向于在蛋白中引入調(diào)節(jié)蛋白之間關(guān)系的協(xié)調(diào)性改變,有助于維持生態(tài)和分子網(wǎng)絡(luò)的結(jié)構(gòu)。以協(xié)同進化原則為基礎(chǔ)的計算方法,可以對蛋白結(jié)構(gòu)、蛋白功能和蛋白質(zhì)相互作用進行分析和預(yù)測。2015年Braun等結(jié)合進化信息和迭代采樣策略進行準確的蛋白質(zhì)結(jié)構(gòu)預(yù)測。蛋白質(zhì)殘基接觸預(yù)測能夠為蛋白質(zhì)結(jié)構(gòu)預(yù)測提供非常有價值的信息。2018年Adhikari等使用兩級深度卷積神經(jīng)網(wǎng)絡(luò)改進蛋白質(zhì)接觸預(yù)測,可以從蛋白質(zhì)的整個輸入信息中一次性預(yù)測出蛋白質(zhì)中的所有接觸。CASP(Critical Assessment of Protein Structure Prediction)是蛋白質(zhì)結(jié)構(gòu)預(yù)測科學(xué)共同體舉辦的競賽,每次競賽優(yōu)勝者的水平基本代表了當(dāng)前世界結(jié)構(gòu)預(yù)測的最高水準。2019年Li等在 CASP13 中使用深度殘差神經(jīng)網(wǎng)絡(luò)集成多個原始協(xié)同進化特征用于接觸圖預(yù)測,并通過詳細的數(shù)據(jù)分析表明端到端訓(xùn)練管道的強度是由于敏感的MSA構(gòu)造和協(xié)同進化特征集成的先進策略。2020年AlphaFold在CASP14上脫穎而出,其在近2/3的預(yù)測結(jié)果達到中低分辨率的實驗精度,幾乎解決了單域蛋白質(zhì)折疊預(yù)測問題。之后,David Baker領(lǐng)導(dǎo)的學(xué)術(shù)團隊開發(fā)了RoseTTAFold,其性能幾乎與AlphaFold相當(dāng)。2021年Li等通過將互補協(xié)同進化特征與CASP14中的深度殘差網(wǎng)絡(luò)耦合來預(yù)測蛋白質(zhì)殘基間接觸和距離,認為可以提供可靠的距離潛力從頭算蛋白質(zhì)折疊。

大量的文獻表明,表示空間中的度量結(jié)構(gòu)符合從物理化學(xué)到遠程同源的尺度上的組織原則,并且二級和三級蛋白質(zhì)結(jié)構(gòu)可以在表示中識別。這些表示所捕獲的結(jié)構(gòu)性質(zhì)在折疊中得到了廣泛的應(yīng)用。尤其在單域蛋白質(zhì)折疊,AlphaFold預(yù)測的正確性超過了90%,促進了新功能蛋白質(zhì)的設(shè)計。但是對于多結(jié)構(gòu)域蛋白質(zhì)、四元復(fù)合物和蛋白質(zhì)配體復(fù)合物,這些依舊超出了當(dāng)前系統(tǒng)的范圍。這可能與結(jié)構(gòu)解析的數(shù)量有關(guān)。因此,研究小樣本甚至零樣本預(yù)測模型仍然是一種可行的方案。

3 "結(jié)論與展望

無論是蛋白質(zhì)語言模型更廣泛的兼容性,還是生成模型對目標(biāo)數(shù)據(jù)的直接建模,都加快了探索新蛋白質(zhì)的研究進度。利用大數(shù)據(jù)和深度學(xué)習(xí)的優(yōu)勢,降低領(lǐng)域知識的依賴,不局限于非必要的約束,探索與真實蛋白相似性質(zhì)的、潛在的、新的蛋白序列。大而多樣的蛋白質(zhì)序列數(shù)據(jù)包含了豐富的信息,但利用深度學(xué)習(xí)的方法更準確地提取到序列中的結(jié)構(gòu)信息是有很大空間。目前,無論是從序列數(shù)據(jù)還是結(jié)構(gòu)數(shù)據(jù)入手,許多模型的成功都離不開大量同源序列的支持,少樣本的數(shù)據(jù)仍然是未來發(fā)展的重點。

參考文獻:

[1] CHEN K, ARNOLD F. Tuning the activity of an enzyme for unusual environments: sequential random mutagenesis of subtil-isin E for catalysis in dimethylformamide[J]. PNAS,1993(90):5618-5622.

[2] BLEICHER K H, B?魻HM H J, MULLER K, et al. Hit and lead generation: beyond high-throughput screening[J].Nature re-views Drug discovery, 2003, 2(5): 369-378.

[3] MACARRON R, BANKS M N, BOJANIC D, et al. Impact of high-throughput screening in biomedical research[J].Nature reviews Drug discovery, 2011, 10(3):188-195.

[4] WU Z, JOHNSTON K E, ARNOLD F H, et al. Protein sequence design with deep generative models[J].Current opinion in chemical biology, 2021(65): 18-27.

[5] HIRANUMA N, PARK H, BAEK M, et al. Improved protein structure refinement guided by deep learning based accuracy estimation[J].Nature communications, 2021,12(1):1340.

[6] DING W, NAKAI K, GONG H. Protein design via deep learning[J].Briefings in bioinformatics, 2022, 23(3): bbac102.

[7] RIVES A, GOYAL S, MEIER J, et al. Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences[J].bioRxiv, 2019(10): 622803.

[8] MADANI A, MCCANN B, NAIK N, et al. Progen: Language modeling for protein generation[J].arXiv preprint arXiv,2004(3497): 2020.

[9] ELNAGGAR A, HEINZINGER M, DALLAGO C, et al. ProtTrans: Towards cracking the language of Life's code through self-supervised deep learning and high performance computing[J].arXiv preprint arXiv,2007(06225).

[10] ALLEY E C, KHIMULYA G, BISWAS S, et al. Unified rational protein engineering with sequence-based deep representation learning[J].Nature methods, 2019, 16(12): 1315-1322.

[11] RAO R, BHATTACHARYA N, THOMAS N, et al. Evaluating protein transfer learning with TAPE[J].Advances in neural information processing systems, 2019:32.

[12] ANAND N, HUANG P. Generative modeling for protein structures[J].Advances in neural information processing systems, 2018:31.

[13] GREENER J G, MOFFAT L, JONES D T. Design of metalloproteins and novel protein folds using variational autoencoders[J].Scientific reports, 2018, 8(1): 16189.

[14] SHIN J E, RIESSELMAN A J, KOLLASCH A W, et al. Protein design and variant prediction using autoregressive generative models[J].Nature communications, 2021, 12(1): 2403.

[15] REPECKA, DONATAS. \"Expanding functional protein sequence spaces using generative adversarial networks.\" [J]. Nature Machine Intelligence, 2021 (4): 324-333.

[16] XIAN Y, SHARMA S, SCHIELE B, et al. f-vaegan-d2: A feature generating framework for any-shot learning[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2019: 10275-10284.

[17] BISWAS S, KHIMULYA G, ALLEY E C, et al. Low-N protein engineering with data-efficient deep learning[J].Nature methods, 2021, 18(4): 389-396.

[18] RIESSELMAN A, SHIN J E, KOLLASCH A, et al. Accelerating protein design using autoregressive generative models[J].BioRxiv, 2019: 757252.

[19] DING X, ZOU Z, BROOKS III C L. Deciphering protein evolution and fitness landscapes with latent space models[J].Nature communications, 2019, 10(1): 5644.

[20] HAWKINS-HOOKER A, DEPARDIEU F, BAUR S, et al. Generating functional protein variants with variational autoencod-ers[J].PLoS computational biology, 2021, 17(2): e1008736.

[21] RUSS W P, FIGLIUZZI M, STOCKER C, et al. An evolution-based model for designing chorismate mutase enzymes[J].Science, 2020, 369(6502): 440-445.

[22] 史瑾璇.基于共進化分析的蛋白質(zhì)網(wǎng)絡(luò)統(tǒng)計特征與臨界行為研究[D].揚州:揚州大學(xué),2020.

[23] LI Y, ZHANG C, BELL E W, et al. Deducing high-accuracy protein contact-maps from a triplet of coevolutionary matrices through deep residual convolutional networks[J].PLoS computational biology, 2021, 17(3): e1008865.

[24] DE JUAN D, PAZOS F, VALENCIA A. Emerging methods in protein co-evolution[J].Nature Reviews Genetics, 2013, 14(4): 249-261.

主站蜘蛛池模板: 亚洲伦理一区二区| 国产精鲁鲁网在线视频| 欧美精品在线看| 国产毛片片精品天天看视频| 亚洲综合天堂网| 美女亚洲一区| 亚洲综合专区| 欧美色视频在线| 91在线免费公开视频| 热久久这里是精品6免费观看| 国产中文一区a级毛片视频| 老司机精品99在线播放| 欧美视频二区| 免费人成黄页在线观看国产| 日本a级免费| 久草青青在线视频| 在线综合亚洲欧美网站| 亚洲国产精品无码久久一线| 试看120秒男女啪啪免费| 国产肉感大码AV无码| 真人高潮娇喘嗯啊在线观看| 国产成人a在线观看视频| 亚洲综合婷婷激情| 久久黄色毛片| 亚洲精品国产成人7777| 亚洲综合中文字幕国产精品欧美 | AV不卡国产在线观看| 伊人久久大香线蕉综合影视| 一级爆乳无码av| 久草视频福利在线观看| 日本一区二区三区精品国产| 天天躁日日躁狠狠躁中文字幕| 亚洲成aⅴ人在线观看| 99在线视频免费| 欧洲成人免费视频| 国产极品嫩模在线观看91| 在线高清亚洲精品二区| 亚洲AⅤ综合在线欧美一区| 亚洲天堂视频网站| 精品国产一区91在线| 亚洲综合久久成人AV| www.日韩三级| 日本尹人综合香蕉在线观看 | 久久综合九色综合97网| 国产你懂得| 亚洲黄色成人| 在线综合亚洲欧美网站| 伊人成人在线| 亚洲AV免费一区二区三区| 天天色综网| 天堂成人av| 日韩a在线观看免费观看| 综合五月天网| 国产大片喷水在线在线视频 | 欧美一级视频免费| 久久婷婷五月综合色一区二区| 国产女人爽到高潮的免费视频| 久久超级碰| 久久免费视频6| 国产区网址| 制服无码网站| 国产永久无码观看在线| 日韩av手机在线| 91小视频在线| 国产无码精品在线| 99激情网| 制服丝袜国产精品| 久久精品人妻中文系列| 伊人精品视频免费在线| 久久久亚洲色| 69视频国产| 国产高潮视频在线观看| 国产日产欧美精品| 亚洲精品图区| 国产高清无码麻豆精品| 色综合中文字幕| 国产欧美视频在线| 超级碰免费视频91| 国产va在线观看| 婷婷亚洲综合五月天在线| 午夜成人在线视频| 99这里只有精品免费视频|