長期以來,化學家們一直夢想著全面了解和掌握生命的化學工具——蛋白質。
而現在,這個夢想已經觸手可及。德米斯·哈薩比斯和約翰·江鉑成功地利用人工智能預測了幾乎所有已知蛋白質的結構。戴維·貝克學會了如何掌握生命的組成元素,并創造出了全新的蛋白質。他們的發現潛力巨大。
答案是——蛋白質的存在,蛋白質通常由 20 種氨基酸組成,這些氨基酸可以以無數種方式組合在一起。利用儲存在 DNA 中的信息作為藍圖,氨基酸在我們的細胞中被連接成長長的鏈。
然后蛋白質的魔法就發生了:氨基酸鏈扭曲并折疊成獨特的三維結構,這種結構有時是獨一無二的。這種結構賦予了蛋白質功能。其中一些成為化學建筑材料,可以創建肌肉、角或羽毛,而另一些則可能成為激素或抗體。許多蛋白質形成酶,這些酶以驚人的精度驅動生命的化學反應。位于細胞表面的蛋白質也很重要,它們充當細胞與其周圍環境之間的通信渠道。
生命的化學構建——這20種氨基酸——所蘊含的潛力之大,無論怎樣強調都不為過。2024年諾貝爾化學獎就是要在一個全新的水平上理解和掌握它們。
一半獎項授予了德米斯·哈薩比斯和約翰·江鉑,他們利用人工智能成功地解決了化學家們50多年來一直在努力解決的問題:從氨基酸序列預測蛋白質的三維結構。這使得他們能夠預測幾乎所有已知的2億種蛋白質的結構。
另一半獎項授予了戴維·貝克。他開發了計算機化方法,實現了許多人認為不可能的事情:創造以前不存在的蛋白質,并且這些蛋白質在許多情況下具有全新的功能。
2024 年諾貝爾化學獎表彰的是兩項不同的發現,但正如你將看到的,它們之間有著密切的聯系。要了解今年的獲獎者所克服的挑戰,我們必須回顧一下現代生物化學的黎明時期。
自19世紀以來,化學家們就知道蛋白質對生命過程很重要,但直到 20 世紀 50 年代,化學工具才足夠精確,研究人員才開始更詳細地探索蛋白質。劍橋大學的研究人員 John Kendrew 和 Max Perutz 在 20 世紀 50 年代末取得了突破性發現,他們成功地使用了一種稱為 X 射線晶體學的方法,展示了蛋白質的第一個三維模型。他們因這一發現獲得了 1962 年諾貝爾化學獎。
隨后,研究人員主要使用 X 射線晶體學(通常需要付出大量努力)成功繪制了約 20 萬種不同蛋白質的圖像,這為 2024 年諾貝爾化學獎奠定了基礎。

美國科學家 Christian Anfinsen 早在 1961 年就做出了另一項早期發現。他使用各種化學技巧,設法使現有蛋白質展開,然后又折疊起來。有趣的是,蛋白質每次都恢復到完全相同的形狀。他得出結論,蛋白質的三維結構完全由蛋白質中的氨基酸序列決定。這使他獲得了 1972 年諾貝爾化學獎。
然而,Christian Anfinsen 的邏輯中存在一個悖論,另一位美國人 Cyrus Levinthal 在 1969 年指出了這一點。他計算出,即使蛋白質只由 100 個氨基酸組成,理論上蛋白質也可以采取至少 1047 種不同的三維結構。如果氨基酸鏈隨機折疊,那么找到正確的蛋白質結構需要比宇宙的年齡還要長的時間。而實際上,在細胞中,這個過程只需要幾毫秒。那么氨基酸鏈實際上是如何折疊的呢?
這個悖論表明,蛋白質折疊是一個預先確定的過程。而且——重要的是——蛋白質折疊的所有信息都必須存在于氨基酸序列中。
上述見解導致了另一個決定性的認識——如果化學家們知道蛋白質的氨基酸序列,他們應該能夠預測蛋白質的三維結構。這是一個令人興奮的想法。如果他們成功了,他們就不再需要使用繁瑣的 X 射線晶體學,并可以節省大量時間。他們還將能夠為所有無法使用 X 射線晶體學獲得的蛋白質生成結構。
這些邏輯結論向生物化學的偉大挑戰發出了挑戰:預測問題。
為了促進該領域的更快發展,1994 年研究人員啟動了一個名為“蛋白質結構預測關鍵評估”(CASP)的項目,該項目發展成了一場競賽。每兩年,來自世界各地的研究人員都會獲得剛剛確定結構的蛋白質的氨基酸序列。然而,參賽者無法獲知這些結構。挑戰是根據已知的氨基酸序列預測蛋白質結構。
CASP 吸引了許多研究人員,但解決預測問題被證明非常困難。研究人員在比賽中輸入的預測與實際結構之間的對應關系幾乎沒有改善。突破發生在 2018 年,當時一位棋壇大師、神經科學專家和人工智能先驅進入了該領域。

讓我們快速了解一下德米斯·哈薩比斯的背景:他 4 歲開始下圍棋,13 歲時就達到了大師水平。在青少年時期,他開始從事程序員和成功的游戲開發者職業。他開始探索人工智能,并從事神經科學,在那里他做出了幾項革命性的發現。他利用對大腦的了解來開發更好的 AI 模型。2010 年,他與人共同創立了 DeepMind,這是一家開發了流行棋盤游戲的人工智能模型的公司。該公司于 2014 年被谷歌收購,兩年后,DeepMind 在全球范圍內引起了關注,因為該公司實現了許多人當時認為的人工智能的圣杯:擊敗世界圍棋冠軍。
然而,對德米斯·哈薩比斯來說,圍棋不是目標,而是開發更好的人工智能模型的手段。取得這一勝利后,他的團隊已準備好解決對人類來說更重要的問題,因此他們在 2018 年注冊了第 13 屆 CASP 競賽。

在前幾年,研究人員為 CASP 預測的蛋白質結構,其準確率最高達到 40%。德米斯·哈薩比斯團隊使用其 AI 模型 AlphaFold,達到了近 60%。他們獲勝了,優異的結果讓許多人感到意外——這是意外的進步,但解決方案仍然不夠好。為了取得成功,預測的準確率必須與目標結構相比達到 90%。
德米斯·哈薩比斯和他的團隊繼續開發 AlphaFold,然而,不管他們多么努力,算法始終無法完全實現。殘酷的事實是,他們已經走到了死胡同。團隊疲憊不堪,但一位相對較新的員工對如何改進 AI 模型有決定性的想法:約翰·江鉑。
約翰·江鉑對宇宙的迷戀使他開始學習物理學和數學。然而,在 2008年,當他開始在一家使用超級計算機模擬蛋白質及其動力學的公司工作時,他意識到物理知識可以幫助解決醫學問題。
約翰·江鉑在2011年開始攻讀理論物理學博士學位時,將他對蛋白質的新興趣帶到了他的工作中。為了節省計算機容量(這在大學里非常短缺),他開始開發更簡單、更巧妙的蛋白質動力學模擬方法。很快,他也接過了生物化學重大挑戰的戰旗。2017年,他剛剛完成博士學位,就聽說 DeepMind 在極度保密的情況下開始預測蛋白質結構。他向他們發送了一份求職申請。他對蛋白質模擬的經驗意味著他對如何改進 AlphaFold 有創造性想法,因此,在團隊開始原地踏步后,他得到了賞識。約翰·江鉑和 德米斯·哈薩比斯共同領導了徹底改革 AI 模型的工作。
新版本——AlphaFold2——體現了約翰·江鉑對蛋白質的了解。團隊還開始使用最近人工智能取得巨大突破背后的創新:稱為“Transfor06348c20cdbec42e4a9561f59f872cd8mer”的神經網絡。這些網絡能夠以比以前更靈活的方式在大量數據中找到模式,并且可以有效地確定應該關注什么才能實現特定目標。
該團隊在大規模已知蛋白質結構數據庫和氨基酸序列中訓練 AlphaFold2,新的 AI 架構在第十四屆 CASP 競賽開始時就開始交付良好的結果。
2020 年,當 CASP 的組織者評估結果時,他們意識到生物化學 50 年的挑戰已經結束。在大多數情況下,AlphaFold2 的表現幾乎與 X 射線晶體學一樣出色,這令人震驚。2020 年 12 月 4 日,CASP 的創始人之一 John Moult 在比賽結束時問道——接下來是什么?
我們將在后面回答這個問題。現在,我們將回到過去,關注 CASP 的另一位參與者。讓我們介紹 2024 年諾貝爾化學獎的另一半,它涉及從零開始創建新蛋白質的藝術。
當戴維·貝克在哈佛大學開始學習時,他選擇了哲學和社會科學。然而,在進化生物學課程中,他遇到了現在經典的教科書《細胞分子生物學》的第一版。這導致他改變了人生方向。他開始探索細胞生物學,最終他對蛋白質結構產生了濃厚的興趣。1993 年,當他開始在華盛頓大學西雅圖分校擔任研究員時,他接受了生物化學的重大挑戰。他使用巧妙的實驗開始探索蛋白質是如何折疊的。這為他提供了見解,他帶著這些見解,在 20 世紀 90 年代末開始開發可以預測蛋白質結構的計算機軟件:Rosetta。
戴維·貝克于1998年使用 Rosetta 在 CASP 競賽中首次亮相,與其他參賽者相比,它表現得非常好。這一成功導致了一個新的想法——可以使用 Rosetta 的反向功能。與其在 Rosetta 中輸入氨基酸序列并輸出蛋白質結構,他們應該能夠輸入所需的蛋白質結構并獲得其氨基酸序列的建議,這將使他們能夠創建全新的蛋白質。
在蛋白質設計領域,研究人員創建具有新功能的定制蛋白質始于 20 世紀 90 年代末。在許多情況下,研究人員調整了現有的蛋白質,以便它們能夠分解有害物質或作為化學制造行業中的工具。
然而,天然蛋白質的范圍有限。為了增加獲得具有全新功能的蛋白質的潛力,戴維·貝克希望從頭開始創建蛋白質。正如戴維·貝克所說,如果你想建造一架飛機,你不應該從修改一只鳥開始;相反,你應該了解空氣動力學的第一原理,并根據這些原理建造飛行器。
構建全新蛋白質的領域被稱為從頭設計(de novo design)。戴維·貝克團隊繪制了一種具有全新結構的蛋白質,然后讓 Rosetta 計算哪種氨基酸序列可以生成所需的蛋白質。為此,Rosetta 搜索了所有已知蛋白質結構的數據庫,并尋找與所需結構相似的蛋白質短片段。利用蛋白質能量分布的基礎知識,Rosetta 對這些片段進行了優化,并提出了氨基酸序列。
為了研究軟件的成功程度,戴維·貝克團隊將建議的氨基酸序列的基因引入了細菌中,這些細菌產生了所需的蛋白質。然后他們使用 X 射線晶體學確定了蛋白質結構。
結果表明,Rosetta 真的可以構建蛋白質。從頭設計的蛋白質 Top7 幾乎完全具有他們設計的預期結構。
Top7 對從事蛋白質設計的研究人員來說是一個驚喜。那些以前創建過從頭開始設計的蛋白質的人只能模仿現有結構。Top7 的獨特結構在自然界中不存在。此外,由 93 個氨基酸組成的蛋白質,比以前使用從頭開始設計方法產生的任何蛋白質都要大。
戴維·貝克于2003年發表了這項發現。這是令人驚嘆的發展的第一步。此后,他的實驗室中涌現出了許多令人矚目的蛋白質創造。他還發布了 Rosetta 的代碼,因此全球的研究團體都在繼續開發該軟件,尋找新的應用領域。
是時候為2024年諾貝爾化學獎畫上圓滿的句號了。

5ZWKbs1KTxil6sRKbBGMwBrT+hCDuS7L3SZkb5OXkgM=曾經需要+fRWFy+N7nhadI4VtMRPT3uK29OAQNUjLsBscYuz+p8=花費數年時間的工作,現在只需幾分鐘。
當德米斯·哈薩比斯和約翰·江鉑證實 AlphaFold2 真的起作用時,他們計算了所有人類蛋白質的結構。然后,他們預測了迄今為止地球上已知的幾乎所有 2 億種蛋白質的結構。
DeepMind還開源了AlphaFold2 的代碼,任何人都可以訪問它。該 AI 模型已成為研究人員的金礦。到 2024年10月,AlphaFold2 已被來自190個國家的 200 多萬人使用。以前,獲得蛋白質結構通常需要數年時間,現在只需幾分鐘就能完成。該 AI 模型并不完美,但它會估計它生成的結構的正確性,因此研究人員知道預測的可靠性如何。
2020 年 CASP 競賽結束后,當 戴維·貝克意識到基于 Transformer 的 AI 模型的潛力時,他將其中一個添加到 Rosetta 中,這也有助于從頭開始設計蛋白質。近年來,戴維·貝克實驗室一個接一個地涌現出了令人驚嘆的蛋白質創造。
蛋白質作為化學工具的驚人多功能性體現在生命的巨大多樣性中。我們現在可以如此輕松地可視化這些小型分子機器的結構,這令人難以置信;這使我們能夠更好地了解生命的運作方式,包括某些疾病是如何發展的、抗生素耐藥性是如何發生的,以及某些微生物是如何分解塑料的。
能夠創建具有新功能的蛋白質也同樣令人驚嘆。這可能導致新的納米材料、靶向藥物、疫苗的更快速開發、小型傳感器和更環保的化學工業——這只是人類最受益的一些應用領域。
◎ 來源|學術頭條