999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

AlphaFold和蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)

2024-09-30 00:00:00郭貝一郭曉強(qiáng)
科學(xué) 2024年5期

蛋白質(zhì)是生命活動(dòng)的物質(zhì)基礎(chǔ),亦可看作生命的存在形式。蛋白質(zhì)擁有廣泛的生物學(xué)功能,包括結(jié)構(gòu)組分(膠原蛋白)、催化功能(酶)、調(diào)節(jié)作用(激素)、物質(zhì)運(yùn)輸(血紅蛋白)、機(jī)械收縮(肌動(dòng)蛋白)、機(jī)體免疫(抗體)等,進(jìn)而參與幾乎所有生命過(guò)程,如分子水平的DNA復(fù)制和轉(zhuǎn)錄、蛋白質(zhì)翻譯、物質(zhì)與能量代謝等,以及細(xì)胞層面的精卵融合、細(xì)胞增殖和分化、細(xì)胞凋亡和壞死、細(xì)胞衰老和細(xì)胞通信等,其重要性不言而喻。

盡管蛋白質(zhì)種類(lèi)多樣,但它們都是由20種基本氨基酸組成,區(qū)別在于不同的氨基酸排列順序,這一特征稱(chēng)為一級(jí)結(jié)構(gòu),亦稱(chēng)初級(jí)結(jié)構(gòu),但這種線(xiàn)性結(jié)構(gòu)需經(jīng)過(guò)充分折疊形成空間三維結(jié)構(gòu),亦稱(chēng)高級(jí)結(jié)構(gòu)。結(jié)構(gòu)決定功能是許多學(xué)科的基本原則,生命科學(xué)也不例外,因此蛋白質(zhì)結(jié)構(gòu)研究在生命科學(xué)領(lǐng)域占據(jù)舉足輕重的位置[1]。

蛋白質(zhì)結(jié)構(gòu)研究

1819年,構(gòu)成蛋白質(zhì)的第一種氨基酸亮氨酸分離成功,1936年最后一個(gè)氨基酸蘇氨酸成功鑒定,前后跨越100多年,這說(shuō)明了蛋白質(zhì)研究的艱巨性。

1953年,英國(guó)生物化學(xué)家桑格(F. Sanger)借助新出現(xiàn)的各種氨基酸和多肽分離方法和自己創(chuàng)造的氨基酸顯色反應(yīng),確定了胰島素兩條多肽鏈的氨基酸序列,1955年又確定了二硫鍵位置,獲得1958年諾貝爾化學(xué)獎(jiǎng)。

1957年,英國(guó)生物化學(xué)家肯德魯(J. C. Kendrew)借助X-射線(xiàn)晶體衍射技術(shù)首次確定肌紅蛋白三維結(jié)構(gòu),兩年后他的同事佩魯茨(M. F. Perutz)確定血紅蛋白三維結(jié)構(gòu),兩人分享1962年諾貝爾化學(xué)獎(jiǎng)。通過(guò)這兩項(xiàng)諾貝爾獎(jiǎng)也可看出蛋白質(zhì)結(jié)構(gòu)研究的重要性,從成果取得到獲獎(jiǎng)只有3~5年。與此對(duì)應(yīng),作為分子生物學(xué)里程碑成果的DNA雙螺旋結(jié)構(gòu)解析則等待了9年(如提前認(rèn)可,富蘭克林的悲劇可能就可避免)。

蛋白質(zhì)結(jié)構(gòu)研究一直是諾貝爾化學(xué)獎(jiǎng)青睞的對(duì)象,至今已頒發(fā)十余次獎(jiǎng)項(xiàng),既包括重要蛋白(或復(fù)合物)的解析,也包括新技術(shù)或新方法的突破,因此該領(lǐng)域長(zhǎng)期來(lái)看是生命科學(xué)前沿和焦點(diǎn)。

隨著許多蛋白質(zhì)結(jié)構(gòu)被解析,科學(xué)界考慮將這些信息進(jìn)行存檔以便利科研人員使用。1971年,在美國(guó)冷泉港實(shí)驗(yàn)室舉辦的一次蛋白質(zhì)晶體學(xué)研討會(huì)上,由布魯克海文國(guó)家實(shí)驗(yàn)室漢密爾頓(W. Hamilton)倡導(dǎo)建立蛋白質(zhì)數(shù)據(jù)庫(kù)(Protein Data Bank, PDB),最初只包含7種蛋白質(zhì)結(jié)構(gòu)信息,是生命科學(xué)領(lǐng)域第一個(gè)開(kāi)放獲取的數(shù)字資源。磁共振波譜和冷凍電鏡等新技術(shù)的發(fā)明和完善,大大加快了蛋白質(zhì)結(jié)構(gòu)解析的步伐,PDB內(nèi)信息也得到了快速增長(zhǎng),2014年突破了10萬(wàn)種。然而這一數(shù)量相比已知的上億種蛋白質(zhì)顯得微不足道,因此研究人員開(kāi)始嘗試用理論方法直接由初級(jí)結(jié)構(gòu)獲取高級(jí)結(jié)構(gòu)信息[2]。

蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)

1961年,美國(guó)生物化學(xué)家安芬森(C. B. Anfinsen)借助核糖核酸酶變性-復(fù)性實(shí)驗(yàn)得出結(jié)論:蛋白質(zhì)初級(jí)結(jié)構(gòu)決定高級(jí)結(jié)構(gòu)(安芬森定律)。安芬森定律清晰地說(shuō)明蛋白質(zhì)空間結(jié)構(gòu)并非隨機(jī)形成,而是根植于氨基酸的線(xiàn)性順序,該定律成為蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的理論基礎(chǔ)。安芬森在1972年諾貝爾獎(jiǎng)獲獎(jiǎng)感言中提出一個(gè)愿景:將來(lái)有一天僅從氨基酸序列就能預(yù)測(cè)任何蛋白質(zhì)的三維結(jié)構(gòu)。從蛋白質(zhì)初級(jí)結(jié)構(gòu)預(yù)測(cè)高級(jí)結(jié)構(gòu)的過(guò)程較為復(fù)雜,是結(jié)構(gòu)生物學(xué)和理論生物學(xué)領(lǐng)域最具挑戰(zhàn)性的課題,它吸引了眾多科研人員前赴后繼嘗試解決這一難題。

蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)主要有兩種策略,基于模板建模(template-based modeling, TBM)和無(wú)模板建模(template-free modeling, FM)[3]。TBM又稱(chēng)同源建模,它利用新蛋白質(zhì)初級(jí)結(jié)構(gòu)與PDB中已有三維結(jié)構(gòu)蛋白質(zhì)的氨基酸序列比對(duì)結(jié)果為基礎(chǔ)構(gòu)建模型,并進(jìn)一步完善,準(zhǔn)確性取決于新蛋白質(zhì)和PDB中蛋白質(zhì)的進(jìn)化距離,如果PDB缺乏新蛋白類(lèi)似結(jié)構(gòu)域的已知結(jié)構(gòu),則無(wú)法生成準(zhǔn)確模型。FM又稱(chēng)從頭計(jì)算方法,利用能量函數(shù)計(jì)算氨基酸空間相互作用,最終從所有可能結(jié)構(gòu)中選取最佳形式,依靠分子動(dòng)力學(xué)模擬獲得蛋白質(zhì)折疊方式,該法對(duì)小分子量蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)還算準(zhǔn)確,但隨著蛋白質(zhì)復(fù)雜性增加逐漸變得無(wú)能為力。

1994年,美國(guó)計(jì)算生物學(xué)家莫爾特(J. Moult)和菲德利斯(K. Fidelis)為推動(dòng)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域的快速發(fā)展,啟動(dòng)了蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)關(guān)鍵評(píng)估(Critical Assessment of Structure Prediction, CASP)活動(dòng),這是兩年舉辦一次的競(jìng)賽或選拔賽,旨在評(píng)選蛋白質(zhì)結(jié)構(gòu)建模中的最新和最佳技術(shù)。組織者向參與者提供目標(biāo)蛋白質(zhì)的氨基酸序列,據(jù)此預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),與此同時(shí)還采取實(shí)驗(yàn)方法獲取蛋白質(zhì)結(jié)構(gòu),最終將二者進(jìn)行對(duì)比獲得全局距離測(cè)試(global distance test, GDT)評(píng)分。為保證結(jié)果客觀(guān)性,整個(gè)過(guò)程為雙盲,即參與者和評(píng)審員互不知曉。GDT是百分制,用于評(píng)判結(jié)構(gòu)預(yù)測(cè)的精準(zhǔn)度,超過(guò)90分則非常理想,達(dá)到實(shí)驗(yàn)數(shù)據(jù)級(jí)別。在第一屆競(jìng)賽中,當(dāng)時(shí)的方法對(duì)在已知數(shù)據(jù)庫(kù)有類(lèi)似模板的蛋白質(zhì)的理論預(yù)測(cè)尚算完美,但對(duì)無(wú)模板的則堪稱(chēng)災(zāi)難,GDT得分只有20分。即使到2016年第12屆競(jìng)賽也只升高到40分,與預(yù)期還有極大差距,以至莫爾特悲觀(guān)地認(rèn)為,有生之年這個(gè)問(wèn)題可能都難以解決,但不久人工智能(artificial intelligence, AI)技術(shù)的加入,使得問(wèn)題得到了完美的答案。

人工智能發(fā)展

智能,又稱(chēng)智力,是人類(lèi)所特有的復(fù)雜認(rèn)知能力并在此基礎(chǔ)上進(jìn)行學(xué)習(xí)形成概念、理解和應(yīng)用邏輯以及推理等。AI則是利用計(jì)算機(jī)或機(jī)器人模擬人類(lèi)智能完成一系列復(fù)雜任務(wù)的過(guò)程,如推理等。

1950年,英國(guó)數(shù)學(xué)家圖靈(A. M. Turing)在論文“計(jì)算機(jī)和智能”中首次討論建造智能機(jī)器和測(cè)試智能的方式,賦予機(jī)器借鑒人腦信息加工、理性設(shè)計(jì)和科學(xué)決策的能力,奠定了AI的理論基礎(chǔ)。1956年,在美國(guó)達(dá)特茅斯舉辦的學(xué)術(shù)會(huì)議上,麥卡錫(J. McCarthy)首次提出AI一詞,并相信將來(lái)會(huì)制造出像人類(lèi)思考和推理的機(jī)器。在隨后的時(shí)間里,AI取得了一系列重要進(jìn)展,特別是進(jìn)入21世紀(jì)以來(lái)更是突飛猛進(jìn),智能水平日趨強(qiáng)大,這里重點(diǎn)介紹機(jī)器學(xué)習(xí)(machine learning, ML)。

機(jī)器學(xué)習(xí)是人工智能的分支,主要基于數(shù)據(jù)進(jìn)行算法開(kāi)發(fā)和研究,通過(guò)學(xué)習(xí)已有數(shù)據(jù)而推廣到新數(shù)據(jù),從而可在無(wú)明確指令情況下執(zhí)行任務(wù),進(jìn)一步發(fā)展出更高級(jí)的深度學(xué)習(xí)(deep learning, DL),可在盡量減少人工干預(yù)的前提下實(shí)現(xiàn)對(duì)非結(jié)構(gòu)化數(shù)據(jù)(如文本或圖像)的學(xué)習(xí),在視覺(jué)加工、語(yǔ)言處理和語(yǔ)音識(shí)別等領(lǐng)域得到了廣泛應(yīng)用。

深度學(xué)習(xí)的研究歷史可追溯到1943年,美國(guó)神經(jīng)生理學(xué)家麥卡洛克 (W. S. McCulloch)和年輕邏輯學(xué)家皮茨(W. H. Pitts)構(gòu)建出第一個(gè)基于模擬人腦的神經(jīng)網(wǎng)絡(luò)(neural network)模型,它可以基于神經(jīng)元的活動(dòng)特性進(jìn)行簡(jiǎn)單的邏輯運(yùn)算。神經(jīng)網(wǎng)絡(luò)由多層結(jié)構(gòu)組成,包含輸入層、一個(gè)或多個(gè)隱藏層和輸出層。只有三層的稱(chēng)為基本神經(jīng)網(wǎng)絡(luò),三層以上的為深度神經(jīng)網(wǎng)絡(luò),是深度學(xué)習(xí)的基礎(chǔ)。

經(jīng)過(guò)后續(xù)發(fā)展和完善,神經(jīng)網(wǎng)絡(luò)逐漸成為諸多AI設(shè)計(jì)的基礎(chǔ),人們開(kāi)始嘗試應(yīng)用于蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)。比如2016年出現(xiàn)的循環(huán)幾何網(wǎng)絡(luò)(recurrent geometric network, RGN)和后續(xù)發(fā)展的神經(jīng)能量模型和優(yōu)化(neural energy modeling and optimization, NEMO)等,這些方法取得了初步成功。

天才少年

哈薩比斯(D. Hassabis)出生于英國(guó)倫敦,童年就展現(xiàn)出過(guò)人天賦。4歲時(shí),哈薩比斯就能熟練掌握國(guó)際象棋技巧并戰(zhàn)勝父親和叔叔,13歲成為國(guó)際象棋大師,并在國(guó)際比賽中與成年人對(duì)弈。哈薩比斯還表現(xiàn)出與年齡不相稱(chēng)的邏輯運(yùn)算天賦,8歲時(shí)應(yīng)用電腦進(jìn)行游戲編程,隨著年齡增長(zhǎng),他決定將計(jì)算機(jī)應(yīng)用于更高級(jí)的智力比拼,因此希望從事人工智能方面的工作。17歲時(shí),他設(shè)計(jì)并編程了銷(xiāo)量數(shù)百萬(wàn)、屢獲殊榮的游戲《主題公園》。

1994年,哈薩比斯進(jìn)入劍橋大學(xué)學(xué)習(xí),3年后以年級(jí)第一名的成績(jī)獲得計(jì)算機(jī)學(xué)士學(xué)位。1998年,哈薩比斯創(chuàng)立電子游戲公司Elixir Studios,先后創(chuàng)作出《共和國(guó):革命》《邪惡天才》等多款暢銷(xiāo)游戲。

2005年,哈薩比斯在游戲領(lǐng)域證明自己的能力后,決定研究人腦機(jī)制以證明AI的巨大潛力,因此重返學(xué)術(shù)界,進(jìn)入倫敦大學(xué)學(xué)院攻讀認(rèn)知神經(jīng)科學(xué)博士學(xué)位,主要研究記憶和健忘的分子機(jī)制。哈薩比斯發(fā)現(xiàn)大腦海馬區(qū)損傷會(huì)導(dǎo)致健忘癥,并減弱聯(lián)想功能和情景記憶,這項(xiàng)成果被《科學(xué)》周刊列為2007年十大科學(xué)突破之一。2009年,哈薩比斯獲得博士學(xué)位后,前往美國(guó)哈佛大學(xué)和麻省理工學(xué)院開(kāi)展博士后研究,進(jìn)一步充實(shí)自己的知識(shí)。

2010年,哈薩比斯等人在倫敦創(chuàng)立人工智能公司DeepMind,將公司使命定義為解決“智能問(wèn)題”,繼而使用人工智能“解決其他一切問(wèn)題”。哈薩比斯擔(dān)任公司首席執(zhí)行官(CEO),將自己在神經(jīng)科學(xué)和機(jī)器學(xué)習(xí)方面的知識(shí)與計(jì)算機(jī)科學(xué)相結(jié)合,致力于構(gòu)建新型人工智能機(jī)器。DeepMind的快速發(fā)展引起科技巨頭谷歌的注意,并于2014年以超過(guò)65億美元價(jià)格被谷歌收購(gòu),哈薩比斯仍擔(dān)任DeepMind的CEO。

哈薩比斯認(rèn)為圍棋是機(jī)器學(xué)習(xí)的理想挑戰(zhàn)目標(biāo),他們開(kāi)發(fā)成功AlphaGo,在2015年以5∶0比分擊敗歐洲圍棋冠軍,第二年再以4∶1比分擊敗世界冠軍李世石(Lee Sedol),證明了AlphaGo的強(qiáng)大能力。AlphaGo的成功也榮膺2016年《科學(xué)》周刊評(píng)選的年度十大科學(xué)突破之一。

人機(jī)對(duì)戰(zhàn)的巨大成功促使哈薩比斯決定進(jìn)一步挑戰(zhàn)自身,這次不再關(guān)注游戲,而是生物學(xué)問(wèn)題。哈薩比斯利用AI解決生物學(xué)問(wèn)題的想法由來(lái)已久,但苦于找不到理想切入點(diǎn)而遲遲未能啟動(dòng),蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)無(wú)疑是一個(gè)最佳選擇。DeepMind為此成立了一個(gè)開(kāi)展蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的小團(tuán)隊(duì),由于蛋白質(zhì)空間結(jié)構(gòu)的形成主要通過(guò)折疊(fold)方式完成,該團(tuán)隊(duì)開(kāi)發(fā)的人工智能系統(tǒng)被命名為AlphaFold。

AlphaFold的首次突破

AlphaFold采用深度學(xué)習(xí)基礎(chǔ)上的FM預(yù)測(cè)策略,共三個(gè)系統(tǒng)。首先是建模系統(tǒng),利用神經(jīng)網(wǎng)絡(luò)和強(qiáng)大運(yùn)算能力基于能量最低原理預(yù)測(cè)蛋白質(zhì)內(nèi)各氨基酸殘基之間的空間距離,產(chǎn)生一系列結(jié)構(gòu)片段(類(lèi)似二級(jí)結(jié)構(gòu)),初步組裝出三維結(jié)構(gòu);其次是優(yōu)化系統(tǒng),對(duì)建模結(jié)構(gòu)進(jìn)行再計(jì)算的重復(fù)操作以提升精確度;最后是輸出系統(tǒng),產(chǎn)生最終三維結(jié)構(gòu)。

2018年,AlphaFold參與了第13屆CASP競(jìng)賽,牛刀初試就技?jí)喝盒郏翢o(wú)爭(zhēng)議地榮膺冠軍寶座,復(fù)雜蛋白GDT平均達(dá)到60分,成功預(yù)測(cè)出給定的43種蛋白質(zhì)中的25種,第二名僅預(yù)測(cè)出3種[6]。這項(xiàng)成就使哈薩比斯的工作第三次榮膺《科學(xué)》周刊評(píng)選的年度十大科學(xué)突破之一。

AlphaFold盡管較傳統(tǒng)方法有較大突破,但仍存在諸多不足,如預(yù)測(cè)結(jié)果精確度尚待提高,距離90分以上(完美預(yù)測(cè))仍有較大差距;預(yù)測(cè)結(jié)構(gòu)平均分辨率為0.66納米(大于0.3納米時(shí),僅顯示蛋白質(zhì)鏈的輪廓),與實(shí)驗(yàn)方法所得最佳分辨率0.1納米(原子半徑尺度,該分辨率下可清晰展示單個(gè)原子位置)也存在上升空間。

DeepMind公司決定改進(jìn)AlphaFold系統(tǒng),但經(jīng)過(guò)6個(gè)月嘗試后卻遠(yuǎn)遠(yuǎn)未達(dá)預(yù)期,不得不開(kāi)始重新調(diào)整思路,首先進(jìn)行人事變動(dòng)。

江珀(J. M. Jumper)出生于美國(guó)阿肯色州小石城,2007年在范德比爾特大學(xué)獲得理學(xué)學(xué)位,隨后在獎(jiǎng)學(xué)金資助下進(jìn)入劍橋大學(xué)攻讀理論凝聚態(tài)物理學(xué)博士學(xué)位,但不久發(fā)現(xiàn)對(duì)此并無(wú)太大興趣,因此選擇退學(xué)并加入一家從事蛋白質(zhì)結(jié)構(gòu)計(jì)算機(jī)模擬的公司,工作中逐漸對(duì)理論生物學(xué)產(chǎn)生濃厚興趣。2011年,江珀重新回到學(xué)校,進(jìn)入芝加哥大學(xué)跟隨著名理論化學(xué)家弗里德(K. F. Freed)和索斯尼克(T. R. Sosnick)攻讀理論化學(xué)博士,將機(jī)器學(xué)習(xí)策略用于蛋白質(zhì)動(dòng)力學(xué)研究。2017年,江珀畢業(yè)獲得博士學(xué)位,獲悉DeepMind公司正在開(kāi)展蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方面研究,投遞申請(qǐng)后很快得到答復(fù),當(dāng)年10月加入公司,成為蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)小組的重要成員。

在A(yíng)lphaFold遲遲未能取得進(jìn)一步突破之時(shí),哈薩比斯意識(shí)到江珀在蛋白質(zhì)物理和機(jī)器學(xué)習(xí)方面跨學(xué)科背景的重要性,他們進(jìn)行了深入交流,最終達(dá)成共識(shí),采用新思路改進(jìn)原有設(shè)計(jì)。2018年7月,江珀被提拔為AlphaFold項(xiàng)目主管,全面負(fù)責(zé)總體工作。

AlphaFold2再度完善

江珀帶領(lǐng)年輕團(tuán)隊(duì)對(duì)AlphaFold最初版本進(jìn)行了重新梳理,在此基礎(chǔ)上展開(kāi)全面調(diào)整和改進(jìn),對(duì)每個(gè)細(xì)節(jié)給予挖掘以期達(dá)到盡善盡美。比如,他們引入空間立體結(jié)構(gòu)和進(jìn)化理念、整合已有蛋白質(zhì)結(jié)構(gòu)的詳細(xì)信息如原子半徑和鍵角等、完善機(jī)器有效學(xué)習(xí)策略以利于從有限數(shù)據(jù)中提取最大信息,特別是拋棄傳統(tǒng)算法的束縛,更強(qiáng)調(diào)空間靠近而非線(xiàn)性相鄰等。沒(méi)有任何一種改進(jìn)對(duì)最終結(jié)果有決定性影響,但正是這些奇妙新想法的完美結(jié)合,才最終實(shí)現(xiàn)真正意義的突破。

AlphaFold改進(jìn)系統(tǒng)(亦稱(chēng)AlphaFold2)分為三個(gè)操作進(jìn)程。第一進(jìn)程,通過(guò)查詢(xún)多個(gè)蛋白質(zhì)的氨基酸序列數(shù)據(jù)庫(kù)構(gòu)建輸入序列的多序列比對(duì)集(multisequence alignment, MSA)(MSA表征)。MSA的基本邏輯是同一功能蛋白質(zhì)由于進(jìn)化緣故,氨基酸序列會(huì)出現(xiàn)較大差異(如人肌紅蛋白和鴿子肌紅蛋白只有25%的氨基酸序列相同),但基本結(jié)構(gòu)高度相似,據(jù)此作為結(jié)構(gòu)預(yù)測(cè)的基礎(chǔ)。同時(shí),通過(guò)查詢(xún)蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)庫(kù)構(gòu)建輸入序列各氨基酸空間相互關(guān)系的矩陣(成對(duì)表征)。第二進(jìn)程,上述兩組信息(進(jìn)化信息和空間信息)在一個(gè)編碼器(evoformer)上進(jìn)行處理,cB/Vi/goMYNWTFZcotgrOA==得出一個(gè)粗略的結(jié)構(gòu)假設(shè),然后返回最初狀態(tài)進(jìn)行測(cè)試和完善(該過(guò)程稱(chēng)為迭代),要求結(jié)構(gòu)假設(shè)同時(shí)滿(mǎn)足MSA表征和成對(duì)表征,且二者之間相互交流,共同糾正和改進(jìn)最初假設(shè)結(jié)構(gòu)的不足。第三進(jìn)程是輸出蛋白質(zhì)三維結(jié)構(gòu)。

深度學(xué)習(xí)過(guò)程中,研究者使用PDB中已有的17萬(wàn)種蛋白質(zhì)結(jié)構(gòu)信息進(jìn)行訓(xùn)練。AlphaFold2反復(fù)將預(yù)測(cè)結(jié)果與真實(shí)結(jié)構(gòu)進(jìn)行對(duì)比,使二者之間逐漸接近,最終使系統(tǒng)吸收并完全掌握蛋白質(zhì)折疊原理。AlphaFold2還能對(duì)預(yù)測(cè)結(jié)構(gòu)給出可信程度,類(lèi)似于考試估分,數(shù)值越高意味著與真正結(jié)構(gòu)差距越小。AlphaFold2成功的另一因素是DeepMind強(qiáng)大的運(yùn)算能力,這是絕大多數(shù)學(xué)術(shù)團(tuán)體和小公司都難以達(dá)到的目標(biāo)。

2020年,AlphaFold2在第14屆CASP競(jìng)賽上進(jìn)一步大殺四方,在給定預(yù)測(cè)蛋白質(zhì)中GDT平均得分92.4,遠(yuǎn)超所有競(jìng)爭(zhēng)對(duì)手;對(duì)高難度蛋白預(yù)測(cè)GDT平均得分87,比第二名高出25分。2021年7月15日,詳細(xì)描述AlphaFold2內(nèi)容的論文在《自然》周刊在線(xiàn)發(fā)表[7],至今引用近萬(wàn)次。DeepMind不久還公布算法供全球研究人員免費(fèi)使用。這項(xiàng)成就被《科學(xué)》周刊評(píng)選為2021年度十大科學(xué)突破之首,蛋白結(jié)構(gòu)預(yù)測(cè)也成為《自然-方法學(xué)》2021年度方法[8]。

AlphaFold2的發(fā)展和應(yīng)用

AlphaFold2解決了蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)問(wèn)題,目前雖無(wú)法做到盡善盡美,但大多數(shù)情況下對(duì)非結(jié)構(gòu)解析專(zhuān)業(yè)的普通研究者而言已經(jīng)足夠。尤為重要的是,當(dāng)研究人員獲得感興趣蛋白質(zhì)序列時(shí)能夠在幾天甚至幾小時(shí)內(nèi)獲得完美結(jié)構(gòu)信息,而不再需要數(shù)月甚至數(shù)年時(shí)間和數(shù)百萬(wàn)美元的花費(fèi),對(duì)生命科學(xué)研究而言,就是難以置信的突破。

當(dāng)然,AlphaFold2有不足之處,比如,對(duì)內(nèi)在無(wú)序結(jié)構(gòu)(它們?cè)谙喾蛛x等多個(gè)過(guò)程發(fā)揮重要作用)的預(yù)測(cè)效果較差。因?yàn)樽畛醯脑O(shè)計(jì)目標(biāo)是對(duì)單個(gè)蛋白質(zhì)結(jié)構(gòu)進(jìn)行預(yù)測(cè),但蛋白質(zhì)發(fā)揮作用時(shí)往往是以復(fù)合物或小分子結(jié)合狀態(tài)存在,為此,DeepMind公司和其他研究團(tuán)隊(duì)又開(kāi)發(fā)出其他版本作為補(bǔ)充,如AlphaFold Multimer和RosettaTTAFold等。

AlphaFold2已展示出強(qiáng)大的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)能力,2021年完成人類(lèi)所有蛋白質(zhì)的結(jié)構(gòu)預(yù)測(cè);2022年7月,獲得2億多種蛋白質(zhì)的預(yù)測(cè)結(jié)構(gòu),并已進(jìn)入數(shù)據(jù)庫(kù)供免費(fèi)使用[9,10]。DeepMind公司最近推出AlphaFold3版本,可高準(zhǔn)確度和高精度預(yù)測(cè)蛋白質(zhì)復(fù)合物、蛋白質(zhì)-核酸、蛋白質(zhì)與小分子配體等三維結(jié)構(gòu)[11],進(jìn)一步加大適用范圍。

在基礎(chǔ)研究領(lǐng)域,原來(lái)研究新蛋白功能需要依賴(lài)于X-射線(xiàn)衍射或冷凍電鏡,高昂的費(fèi)用和技術(shù)門(mén)檻使大多數(shù)實(shí)驗(yàn)室望而卻步,目前該問(wèn)題得到了有效解決。聯(lián)合AlphaFold2和冷凍電鏡成功解析核孔復(fù)合物結(jié)構(gòu)這一成果對(duì)理解細(xì)胞核內(nèi)外物質(zhì)進(jìn)出機(jī)制具有重要意義。

在應(yīng)用研究領(lǐng)域,現(xiàn)代藥物研發(fā)很大程度上依賴(lài)于蛋白質(zhì)結(jié)構(gòu)信息,但諸多感興趣藥物靶點(diǎn)蛋白尚未用實(shí)驗(yàn)方法解析出來(lái),結(jié)構(gòu)預(yù)測(cè)的突破無(wú)疑解決了這一瓶頸,必將極大推動(dòng)新藥研發(fā)進(jìn)程。蛋白質(zhì)人工設(shè)計(jì)如抗體和疫苗篩選是一個(gè)重要領(lǐng)域,傳統(tǒng)方法是先設(shè)計(jì)出多種組合后,通過(guò)實(shí)驗(yàn)進(jìn)行反復(fù)驗(yàn)證,過(guò)程煩瑣耗時(shí),但通過(guò)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)則會(huì)大大縮短研究周期。

深遠(yuǎn)影響

蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的突破可歸因于天時(shí)、地利和人和的共同結(jié)果。天時(shí)上,高速發(fā)展的人工智能和層出不窮的新方法是AlphaFold的理論基礎(chǔ),PDB中快速增加的蛋白質(zhì)結(jié)構(gòu)是深度學(xué)習(xí)的材料基礎(chǔ);地利上,背靠谷歌公司強(qiáng)大的運(yùn)算能力;人和上,公司聚集了一批富有朝氣和探索精神的年輕人,以及哈薩比斯與江珀卓越的領(lǐng)導(dǎo)才能和創(chuàng)新能力,成功也就水到渠成。

近年來(lái),AI在如火如荼地快速發(fā)展,取得一系列重大突破,如ChatGPT、Sora等,其智能程度逐漸提升,正在改變著人類(lèi)的生活方式和科研的研究模式。AlphaFold無(wú)疑是優(yōu)秀代表之一,可看作是AI發(fā)展的一個(gè)縮影。

AlphaFold解決了困擾生命科學(xué)多年的一個(gè)重大難題,并有望為其他生物學(xué)問(wèn)題解決提供借鑒。大數(shù)據(jù)已成為當(dāng)前科學(xué)發(fā)展的重要特征,如基因組測(cè)序結(jié)果和海量論文等,借助AI工具解決生命科學(xué)問(wèn)題已成為一個(gè)重要方向。AlphaFold成功的另一層意義在于激勵(lì)年輕人要敢于挑戰(zhàn)自我。

AlphaFold2的成功也為哈薩比斯和江珀兩位科學(xué)家?guī)?lái)眾多科學(xué)榮譽(yù)。他們先后分享威利生物醫(yī)學(xué)科學(xué)獎(jiǎng)(2022年)、生命科學(xué)突破獎(jiǎng)(2023年)、蓋爾德納國(guó)際獎(jiǎng)(2023年)、拉斯克基礎(chǔ)醫(yī)學(xué)研究獎(jiǎng)(2023年)等[12],也將是近幾年諾貝爾自然科學(xué)類(lèi)獎(jiǎng)的熱門(mén)人選。

(致謝:本文寫(xiě)作中獲得周耀旗老師重要建議,在此表示誠(chéng)摯的感謝。)

[1]Sklar J. QnAs with Demis Hassabis and John M. Jumper: Winners of the 2023 Albert Lasker Basic Medical Research Award. Proc Natl Acad Sci USA, 2023, 120(39): e2313816120.

[2]Rothman J E. Starting at Go: Protein structure prediction succumbs to machine learning. Proc Natl Acad Sci USA, 2023, 120(39): e2311128120.

[3]Kuhlman B, Bradley P. Advances in protein structure prediction and design. Nat Rev Mol Cell Biol, 2019, 20(11): 681-697.

[4]Zhou Y, Litfin T, Zhan J. 3=1+2: How the divide conquered de novo protein structure prediction and what is next? Natl Sci Rev, 2023, 10(12): nwad259.

[5]Jumper J, Hassabis D. The protein structure prediction revolution and its implications for medicine: 2023 Albert Lasker Basic Medical Research Award. JAMA, 2023, 330(15): 1425-1426.

[6]Senior A W, Evans R, Jumper J, et al. Improved protein structure prediction using potentials from deep learning. Nature, 2020, 577(7792): 706-710.

[7]Jumper J, Evans R, Pritzel A, et al. Highly accurate protein structure prediction with AlphaFold. Nature, 2021, 596(7873): 583-589.

[8]Marx V. Method of the Year: Protein structure prediction. Nat Methods, 2022, 19(1): 5-10.

[9]Thornton J M, Laskowski R A, Borkakoti N. AlphaFold heralds a data-driven revolution in biology and medicine. Nat Med, 2021, 27(10): 1666-1669.

[10]Borkakoti N, Thornton J M. AlphaFold2 protein structure prediction: Implications for drug discovery. Curr Opin Struct Bio, 2023, 78: 102526.

[11]Abramson J, Adler J, Dunger J, et al. Accurate structure prediction of biomolecular interactions with AlphaFold 3. Nature, 2024, 630(8016): 493-500.

[12]Sosnick T R. AlphaFold developers Demis Hassabis and John Jumper share the 2023 Albert Lasker Basic Medical Research Award. J Clin Invest, 2023, 133(19): e174915.

關(guān)鍵詞:AlphaFold 蛋白質(zhì) 結(jié)構(gòu)預(yù)測(cè) 人工智能 ■

主站蜘蛛池模板: 亚洲精品国产精品乱码不卞| 精品国产黑色丝袜高跟鞋 | 日本人妻一区二区三区不卡影院| 亚洲国产91人成在线| av在线5g无码天天| 国产在线欧美| 91精品日韩人妻无码久久| 久久无码av一区二区三区| 久久黄色视频影| 91精品国产无线乱码在线| 国产成人无码Av在线播放无广告 | 91在线丝袜| 青草精品视频| 亚洲第一页在线观看| 亚洲电影天堂在线国语对白| 免费三A级毛片视频| 欧美啪啪视频免码| 欧美爱爱网| 精品无码视频在线观看| 91亚洲精品国产自在现线| YW尤物AV无码国产在线观看| 亚洲九九视频| 99热这里只有精品在线播放| 国产精品亚洲αv天堂无码| 国产免费网址| 国产欧美日韩在线在线不卡视频| 欧美在线三级| 国内精品小视频在线| 在线播放91| 四虎永久在线精品国产免费| 国产SUV精品一区二区| 亚洲一区二区三区麻豆| 国产成人艳妇AA视频在线| 国产人成在线观看| 欧美特黄一免在线观看| 欧美成人精品一区二区| 国产女主播一区| 国产91麻豆视频| 午夜精品一区二区蜜桃| 亚洲成aⅴ人片在线影院八| 夜夜操国产| 亚洲精选高清无码| 亚洲日韩精品欧美中文字幕| 内射人妻无码色AV天堂| 久久精品人妻中文视频| 亚洲天堂免费在线视频| 亚洲日韩高清在线亚洲专区| 亚洲三级网站| 天天躁狠狠躁| 无码专区第一页| 国产在线观看91精品亚瑟| 亚洲欧美日韩精品专区| 欧美国产日韩在线| 中文字幕亚洲电影| 日韩高清成人| 91福利在线观看视频| 欧美一道本| 国产精品极品美女自在线网站| 国产视频一区二区在线观看| 无码一区二区波多野结衣播放搜索| 欧洲高清无码在线| 黄色福利在线| 欧美有码在线| 1级黄色毛片| 麻豆AV网站免费进入| 97一区二区在线播放| 国产午夜看片| 欧美日韩精品一区二区在线线| 夜夜拍夜夜爽| 一级成人a做片免费| 99免费视频观看| 国产成人亚洲精品无码电影| 1024国产在线| 在线播放91| 欧美成人午夜影院| 精品亚洲欧美中文字幕在线看| 亚洲精品在线影院| 欧美天堂在线| 久久综合九九亚洲一区| 欧美另类视频一区二区三区| 国产在线观看99| 日本91在线|