
“AlphaFold”摘得諾獎,業界似乎早有預感,可謂眾望所歸。不過諾貝爾化學獎揭曉那一刻,人們還是有些疑惑:為何列在首位、獲得1/2獎項的成果是“計算蛋白質設計”?
“在蛋白質設計領域中,戴維·貝克是泰山北斗級的存在,他20多年持續進行著基礎性開拓,使人類對蛋白質的理解與掌控達到了前所未有的高度?!鄙虾?萍即髮W教授許文青介紹,戴維開發了一系列計算機方法,創造出許多以前不存在、具有全新功能的蛋白質,這在過去被認為是“不可能的事”。
要知道在AI介入之前,蛋白質的從頭設計是一項極為艱苦、成功率很低的工作。不過在過去20多年中,結構生物學積累下了海量數據,為基于AI的蛋白質結構預測和蛋白質設計做好了“臨門一腳”的鋪墊。
2020年,“AlphaFold2”踢開了革命性的“臨門一腳”。在上??萍即髮WiHuman研究所單一兵教授看來,這可以說是“天時、地利、人和”交匯的產物。通過精妙地深度學習多年積累的大量蛋白質結構和序列,這一AI模型在短短一兩年內將蛋白質結構的預測準確率從不足40%提升到90%以上,幾乎可以預測所有已知的2億種蛋白質結構。
事實上,基于氨基酸序列預測蛋白質的三維結構,在很長一段時間被認為是“太陽底下最難的科學問題之一”。DeepMind公開了“AlphaFold2”的代碼,至今已有來自190個國家的200多萬人使用了它。以前要想獲得蛋白質結構通常需要數年,而現在只需幾分鐘。
戴維的博士生、上海科技大學生命科學與技術學院研究員豆佳宜提到,“AlphaFold2”已經成為蛋白質設計工作中常用的科研工具之一,戴維的實驗室也在用。許文青說,利用這一模型,蛋白質設計的成功率有了質的飛躍——現在從頭設計蛋白質結構,針對想要的部分功能,每個項目總能挑出幾個較好的設計進一步優化。
自從“AlphaFold”問世,Deepmind公司的這一模型就被視為“AI for Science”的應用典范。
“蛋白質結構預測,可以說是分子生物學的一個‘圣杯’問題?!鼻迦A大學生命科學學院副教授張強鋒認為,“AlphaFold2”是用AI端到端神經網絡算法,在一定程度上解決了這一“困擾科學界50年的難題”。去年,“AlphaFold”開發者就獲得拉斯克獎,說明它獲得了科學界的普遍認可。
復旦大學復雜體系多尺度研究院院長馬劍鵬教授表示:“我曾提出AlphaFold是諾獎級的貢獻,但沒想到這么快就獲獎了?!痹谒磥?,從2018年“AlphaFold”亮相,到“AlphaFold2”被美國《科學》雜志評為2020年十大科學突破之一,再到今年5月發布的“AlphaFold3”,其每一次版本更新都可以說是諾獎級別的飛躍。尤其是“AlphaFold3”,直接改變了上一代版本的核心架構,用“擴散模塊”取代了上一代中非常重要的“結構模塊”。
在許文青看來,即使發展到“AlphaFold3”,將蛋白質與一些小分子、核酸的相互作用,乃至蛋白質修飾等功能加了進去,AI在抗體和藥物設計、小分子動態模擬,以及在復雜結構模擬等方面仍有較大發展空間。
張強鋒認為,這恰恰體現出AI加速進入主流科學界的足跡——科學家正對AI提出源源不斷的需求,“相信未來AI會成為科學探索的核心工具,也將會獲得更多的諾貝爾獎,今年只是一個開端”。
在AI 介入之前,蛋白質的從頭設計是一項極為艱苦、成功率很低的工作。不過在過去20多年中,結構生物學積累下了海量數據,為基于AI 的蛋白質結構預測和蛋白質設計做好了“臨門一腳”的鋪墊。
無論是“85后”的約翰·江珀,還是年過花甲的戴維·貝克,在熟悉他們的人眼中,都具有專注而純粹的特點。在科學的前沿探索中,這似乎是永不過時的品質。
過去20年,戴維每年都會在《自然》《科學》《細胞》上發表好幾篇論文。許文青曾與戴維在華盛頓大學共事多年,每次經過他的辦公室,經常會看到戴維想問題想到出神,“似乎永遠專注在最重要的研究上”。
在豆佳宜心目中,戴維始終保持著“資深研究生”的學術年輕態,這或許是導師常年“高產”的秘訣所在——他不僅親自帶項目、做實驗,還會為了課題向學生請教,“他很少出去開會,幾乎天天能在實驗室看到他,有空就喜歡去西雅圖周邊爬山,堪稱那里的野營‘活地圖’”。
約翰·江珀在本科剛畢業、攻讀博士前,曾在位于紐約的德邵研究所工作了三四年,有一段在單一兵領導的項目團隊中的工作經歷?!八馨察o,性格溫和卻很有想法。”單一兵覺得,江珀是那種“喜歡做大問題,一攬子解決所有問題”的科學家,“不得不說,哈薩比斯相當有魄力,敢于重用看起來無甚資歷的年輕人,才使約翰能在短短幾年中脫穎而出”。
當然,DeepMind的成功離不開谷歌人財充足的“大兵團作戰”。馬劍鵬認為,對于一項從0到1的基礎研究,要給予充足的經費支持和發展空間。他表示,蛋白質預測領域目前展現出來的潛力是無窮的,一定要加大投入、久久為功。
◎ 來源|文匯報