蛋白質是生物體的基本組成部分,也是最重要的生物功能大分子,擁有多樣的生物學功能,幾乎每一步生命過程都有它們的身影,從物質代謝到能量生成,從生長發育到細胞通信等。結構是功能的基礎,蛋白質結構的奧秘是生命科學領域最迫切需要解決的核心問題之一,至今已有十余項蛋白質相關成果榮獲諾貝爾化學獎[1],其重要性不言而喻。
蛋白質是一種由基本單位——氨基酸構成的生物大分子。為研究方便蛋白質結構被賦予層次化屬性:有一級、二級、三級、四級結構之分。

氨基酸
氨基酸是蛋白質的基本組成單位。顧名思義,氨基酸就是既有氨基又有羧基的有機物。構成蛋白質的天然氨基酸共20種(差別在于側鏈的R基團不同),除甘氨酸外,其他都為L-α-氨基酸。一個氨基酸的氨基可與另一個氨基酸的羧基發生脫水縮合反應生成二肽,形成的化學鍵稱肽鍵。多個氨基酸發生類似反應生成多肽,分子量較大的多肽通常稱為蛋白質,二者間并無嚴格界限。
蛋白質一級結構
一級結構又稱初級結構,指蛋白質鏈狀分子中氨基酸的線性排列順序,它是不同蛋白質差異的基礎。1955年,英國生物化學家桑格(F.Sanger)完成了胰島素兩條多肽鏈一級結構的測序及二硫鍵位置的確定,榮獲1958年諾貝爾化學獎。
蛋白質二級結構
二級結構指蛋白質部分主鏈形成的局部結構。1951年,美國理論化學家鮑林(L.Pauling,1954年諾貝爾化學獎獲得者)和生物化學家科里(R.B.Corey)提出了二級結構的兩種主要形式:α-螺旋和β-折疊。
蛋白質三級結構
三級結構指一條多肽鏈構成的完整三維結構,即包括主鏈形成的框架結構,并涵蓋側鏈之間的相對位置。1957年,英國生物化學家肯德魯(J.C.Kendrew)首次確定肌紅蛋白三級結構,分享了1962年諾貝爾化學獎。
蛋白質四級結構
四級結構指兩條或兩條以上獨立多肽鏈構成的完整空間結構。1959年,英國生物化學家佩魯茨(M.F.Perutz)首次確定血紅蛋白四級結構,分享1962年諾貝爾化學獎。
蛋白質空間結構的實驗研究
為解析蛋白質空間結構(三級和四級結構),而先后開發出的X-射線晶體衍射、磁共振波譜、冷凍電鏡等眾多技術,由于其高昂的費用、漫長的時間和高技術門檻等限制,使得蛋白質空間結構研究主要由少數實驗室完成,至今實驗解析的蛋白質空間結構只有幾十萬種。
相較而言,一級結構測定較為容易,特別是多個物種基因組計劃的完成和運用中心法則從DNA堿基序列推導蛋白質中氨基酸的序列,至今已破譯上億種蛋白質的一級結構,二者之間的巨大差異使研究人員決定另辟蹊徑。
一級結構決定高級結構
1961年,美國生物化學家安芬森(C.B.Anfinsen)借助核糖核酸酶變性-復性實驗得出結論:蛋白質初級結構決定高級結構(安芬森定則),他因此分享了1972年諾貝爾化學獎。安芬森定則清晰地說明了蛋白質空間結構并非隨機形成,而是根植于蛋白質一級結構,這一規律成為蛋白質結構預測的理論基礎。
蛋白質結構預測
1970年代開始,研究人員開始嘗試進行蛋白質結構預測研究,但一直進展緩慢,直到21世紀初,隨著計算機的應用和人工智能技術的發展,該領域取得了一系列重大突破,尤以2024年3位諾貝爾獎獲得者的貢獻最為突出。蛋白質結構預測有兩種策略:一是正向預測,即從一級結構推測空間結構;一是反向預測,即從三維結構反推氨基酸序列,又稱蛋白質計算設計。
蛋白質理論預測發展已有較全面描述[1],這里簡要介紹。
蛋白質數據庫(proteindatabank,PDB)
1971年建立PDB,目的在于隨時收集采用實驗方法解析的各種蛋白質空間結構信息,以供全球研究人員方便使用,它是蛋白質結構預測的重要基礎。最初只有7種蛋白質結構信息,2014年已突破10萬種,且還在快速增加,已成為結構預測取得一系列重大突破的原動力。
結構預測基本策略
策略主要有同源建模和從頭計算。同源建?;诓煌鞍踪|間一級結構保守性,從結構已被解析的蛋白質推測新蛋白質結構。從頭計算是依據最終形成的蛋白質三維結構能量最低原理,利用能量函數計算不同結構的能量值獲得最終結構。兩種方法相輔相成,在結構預測發展過程中取得了一定成功,但整體效果并不理想。
蛋白質結構預測關鍵評估(CASP)
1994年,為推動蛋白質結構預測而發起的每兩年舉辦一次的全球競賽,為研究人員創建了聚集一堂分享該領域新進展的機會。主辦方將未解結構的蛋白質氨基酸序列交給參賽者進行預測,同時與實驗專家合作進行測定,最終將預測結構與實驗測定的結構進行對比,判定預測準確度。評判標準為全局距離測試(globaldistancetest,GDT)評分,GDT采用百分制,分數越高則意味著理論預測精確度越高。該項賽事為研究人員提供了一個廣泛交流的平臺,促使大家群策群力,共同推進結構預測的進步。
自CASP舉辦以來,蛋白質結構預測方面確實取得一系列進展,但距離預期仍差距巨大,如2016年第12屆CASP(CASP12)中,對無模板蛋白質預測的GDT得分只有40分。但2018年CASP迎來了革命性突破,GDT一躍達到60多分,其原因是基于人工智能技術AlphaFold(簡稱AF)的橫空出世。
第一代AF的成功
哈薩比斯(D.Hassabis)是計算機和認知神經領域的專家,于2010年主導成立DeepMind公司,最初是想開發棋類游戲的人工智能模型,公司于2014年被谷歌收購,但基本架構不變。兩年后,DeepMind引起全球轟動,源于開發的人工智能工具AlphaGo擊敗了圍棋世界冠軍。哈薩比斯決定挑戰更大的難題,那就是用人工智能方法解決蛋白質的折疊問題,因此成立AF項目組。2018年,哈薩比斯領導的團隊基于卷積神經網絡深度學習策略構建第一代AF(AF1),使預測準確度大幅提升。AF1利用PDB已有的結構進行訓練,生成基于多重序列比對所得氨基酸間空間距離圖(確切地說,是距離概率分布圖),它們提供的信息足夠充足,從而可以在此基礎上構建出蛋白質三維結構。相較于先前的方法,AF1確實是一個巨大進步,但所得結果與實驗測定的蛋白質結構在精度方面仍有較大差距。哈薩比斯團隊繼續完善AF1,期待進一步突破,但殘酷的現實是該方法遇到了瓶頸。無論如何改進都無法更近一步,江珀(J.M.Jumper)的加入破解了這一難題。
第二代AF重大突破
江珀是一位理論化學博士,專長于蛋白質動力學的深度學習策略研究,2017年10月加入DeepMind公司并于2018年7月成為AF項目主管,開啟新征程。江珀對AF1進行了大刀闊斧的改進,擯棄卷積神經網絡而啟用轉換器(transformer)架構,同時引入深度學習中廣泛使用的注意力機制(attentionmechanism)。第二代AF(AF2)包括兩個主要模塊,分別是進化轉換器(evoformer)和結構(structure)。進化轉換器同時處理多序列比對表示(不同物種比對序列構成的二維矩陣)和氨基酸對表示(20種氨基酸對構成的二維矩陣)產生的信息,重要的是深度學習過程中兩個數集之間相互交換信息并及時更新,從而實現共同進化。然后,結構模塊直接應用氨基酸對表示和目標氨基酸序列構建三維骨架結構,每種氨基酸的核心原子(N-Cα-C)定義為一種三角形。隨后通過空間旋轉和位置移動產生主鏈結構,再進一步確定側鏈構象,從而初步得到預測的三維結構,此結構多次回傳到進化轉換器進行改進,最終直接輸出三維結構[2]。
在2020年的CASP14中,AF2展現出更大成功,不僅大幅領先其他預測方法,復雜蛋白GDT得分達到90(這一數值預示與實驗所測結構相當),且在分辨率方面(約1?)也媲美實驗所得結構。AF2的成功表明,哈薩比斯和江珀已將人工智能神經網絡工具在蛋白質結構預測方面應用得出神入化,可視為對蛋白質結構重大科學問題(困擾蛋白質結構學家達60年之久)的首次突破。AF2源代碼的公開進一步增加了其影響力,促使它在全球被廣泛測試和驗證,從而在基礎科學問題解決和藥物研發等領域發揮了推動作用。2024年,DeepMind公司進一步推出第三代AF,在原有精準度基礎上增加了使用范圍,如預測蛋白質復合物、蛋白質-核酸/小分子配體等三維結構。
蛋白質在自然界數量眾多,其神奇的功能引起科學界的極大興趣,其巨大的應用潛力更是成為關注的焦點。但天然蛋白存在諸多缺陷,如催化反應有限、穩定性差和半衰期短等,因此新型蛋白質就成為科學家研究的重要方向。目前新型蛋白質制備主要有兩種策略:一是定向進化(天然蛋白質的修改),這一方法的實現使美國科學家阿諾德(F.H.Arnold)分享了2018年諾貝爾化學獎;另一種是理性設計。

蛋白質理性設計又有兩種方式,一種是組合策略,另一種是從頭設計。組合策略就是把兩種或多種蛋白質的局部結構進行合理的組合,從而產生嵌合體,這種策略在實際中已廣泛應用,像基因編輯工具ZFN和TELAN技術,免疫學的人源化抗體和CART技術等,這種方法可看作對自然界已有蛋白質的“簡單”拼接。從頭設計則是設計并制備出自然界中不存在的具有全新氨基酸序列的蛋白質。
分子設計一直是化學家研究的重要內容,如2016年諾貝爾化學獎授予紹瓦熱(J.Sauvage)、斯托達特(J.F.Stoddart)和費林加(B.L.Feringa)三位科學家就是表彰他們在“分子機器的設計與合成”方面的貢獻。這些都是小分子設計,與此相比,作為大分子的蛋白質其設計難度就相當巨大,因此長期不被看好。
蛋白質從頭設計研究開始于1970年代,長期以來進展緩慢,一是蛋白質設計本身就是一種巨大挑戰,二是當時蛋白質結構解析剛起步,被闡明的蛋白質結構極為有限,從而大大限制了結構信息的借鑒。所以研究之初,從頭設計被認為是不可能完成的任務,直到1980年代才有所改觀,先后經歷了手動設計、計算設計和模型設計三個階段。
手動設計
利用簡單生物物理原理并結合經驗進行設計。20種氨基酸可歸類為疏水性(h)和極性(p)兩類,其不同類別的組合與蛋白質二級結構存在一定對應關系(基于經驗)。如“hpphppp”匹配α-螺旋,“hphp”匹配β-折疊等。1979年,格特(B.Gutte)基于此設計出一個35個氨基酸的RNA結合蛋白。1988年,里根(L.Regan)和德格拉多(W.F.DeGrado)構建了一個4螺旋蛋白[3],其在水溶液中具有協同折疊的球狀結構,且非常穩定,成為蛋白質設計史上的第一個里程碑。
計算設計
通過數學方程定義主鏈構象,并結合側鏈重排算法設計完整序列。1997年,達希亞特(B.I.Dahiyat)和梅奧(S.L.Mayo)利用這一策略設計出人工鋅指結構,與天然鋅指結構的28個氨基酸相比,僅有6個氨基酸相同(表明為全新結構),磁共振波譜證明最終結構與設定非常符合,這標志著蛋白質從頭設計史上又一個重要里程碑。但是,該法主要局限于短序列。
模型設計
又稱基于碎片和生物信息學的計算設計,主要源于PDB中越來越多的蛋白質結構信息。PDB中特定蛋白質的完整結構信息被分解成不同形狀的結構碎片,每個碎片都賦予序列偏好和相互作用模式,這些碎片可根據人類需求重新組裝出新型結構的蛋白質。這一階段始于21世紀初,多位科學家做出了卓越貢獻,其中以貝克(D.Baker)的工作最為顯著。
1962年,貝克出生于美國西雅圖的一個學術家庭,父親馬歇爾(MarshallBaker)是物理學家,母親馬西婭(MarciaBaker)是地球物理學家,可謂名副其實“學二代”。在哈佛大學期間,貝克最初的專業是哲學和社會科學,然而在修完發育生物學課程并閱讀《雙螺旋》一書后,他的興趣在最后一學年轉向了生物學。1984年,他進入加州大學伯克利分校,師從細胞生物學家謝克曼(R.Schekman,2013年諾貝爾生理學或醫學獎獲得者),以酵母為材料研究囊泡的運輸機制。
1989年博士畢業后,貝克進入加州大學舊金山分校結構生物學家阿加德(D.Agard)的實驗室進行博士后研究。他在細胞組織和分子結構方面的訓練為將來從事蛋白質設計工作奠定了基礎。1993年,貝克進入西雅圖華盛頓大學醫學院的生物化學系建立團隊,采用常規實驗方法如質譜和磁共振波譜研究蛋白質結構。與此同時,他還將研究范圍擴大到計算機建模,這為蛋白質折疊產生三維結構,以及這些結構與蛋白質功能的相關性研究提供了關鍵見解。此時,他決定挑戰生物化學領域的重大難題之一——蛋白質結構預測。
貝克在蛋白質結構預測研究過程中開發出計算平臺羅塞塔(Rosetta)[4]。羅塞塔將PDB中具有相似局部序列的無關結構碎片進行組裝,同時優化序列和結構以適應目標主鏈構象;計算中使用了蒙特卡洛優化、能量函數,并考慮范德華力、氫鍵和溶劑效應等因素。羅塞塔參加了1998年的CASP3,比賽中表現良好,成功預測了給定序列的空間結構,算得上一大進步,但整體效果不佳。提升羅塞塔的效果就需要消耗更多計算資源,此時小科研團隊就顯得捉襟見肘,難以應付,貝克為此啟動了一個名為“羅塞塔@家園”的項目,讓全球志愿者在自己電腦上協助計算,群策群力逐步改進程序。但遺憾的是,羅塞塔在結構預測方面遲遲沒有大的突破。貝克團隊卻意外發現反向使用羅塞塔卻較為成功,就是根據給定蛋白質的結構信息來獲取氨基酸序列。貝克的研究也從最初的結構預測轉向理性設計,并率先獲得成功,算得上“失之東隅,收之桑榆”。

2003年,貝克及同事完成了93個氨基酸的蛋白Top7從頭設計和合成,并得到實驗確認[5]。這是蛋白質從頭設計領域第一個真正意義上的突破,理由是:一是分子量大,93個氨基酸遠超以前的設計;二是精確性高,預定結構與最終結構高度一致;三是創新性強,Top7蛋白與天然蛋白質同源性極低,是一種自然界不存在的全新人工蛋白;四是設計難度大,PDB中可供參考的信息非常有限,真正的從頭設計。這次成功使科學界普遍接受了蛋白質從頭設計的可行性,但這一策略是否具有通用性,特別是能否用于具生理功能蛋白質的設計呢?
貝克團隊隨后進一步改進羅塞塔程序,提高性能,并嘗試從頭設計功能蛋白,首先選擇具有催化功能的酶。2008年,貝克等人首次實現了酶的計算設計,最終獲得的人工酶催化反應速率遠快于非酶促反應,但與天然酶相比,整體效率尚存在不足[6],借助阿諾德定向進化策略最終獲得更高活性酶。這一成果說明從頭設計功能蛋白的可行性,但在策略上尚需進一步完善。
貝克團隊結合從頭設計領域的最新進展和自己團隊的經驗,對設計策略進行了全面提升,并通過合成一系列新性能的人工蛋白質證明其方法的可行性。他們首先嘗試設計配體結合蛋白,獲得的類固醇結合蛋白具有高親和力和高選擇性,進一步結合其他方法將親和力從納摩爾提升至皮摩爾的水平。2016年,他們創造出具有自我組裝能力的二十面體病毒樣顆粒,蛋白質分子量達兆道爾頓,直徑24~40納米[7]。他們還在多個應用領域設計出新功能蛋白,如蛋白質開關和傳感器等[8],特別需要提及的是,新型冠狀病毒感染流行期間,他們還設計出用于診斷和治療的新蛋白質,為疫苗研發提供了重要的幫助。
天然蛋白質都是基于適應特定自然環境而長期選擇的產物,不可避免會存在諸多缺陷,而從頭設計則可有效規避部分問題,所設計和合成的人工蛋白質具有更好的穩定性和新性能,增加了實用性[9]。
需補充的是,為更好地進行計算設計,天然結構的借鑒是必不可少的一環。因此,貝克團隊也在時刻關注蛋白質結構預測方面的進展。在哈薩比斯和江珀引入人工智能開發出有效的AF2后,貝克也將人工智能策略引入到羅塞塔程序,從而獲得自己的蛋白質結構預測工具[10],進一步反哺蛋白質設計方面的工作。
2024年諾貝爾化學獎的兩項成果堪稱完美互補,一項是認識蛋白質,一項是改造蛋白質,且都是在更高緯度實現突破。在化學家眼中,蛋白質是一種略顯“不普通”的重要生物大分子,而蛋白質在生命科學乃至醫學領域則具有更為舉足輕重的地位,所以解決蛋白質結構問題無疑對化學和生理學與醫學均具有重要價值,因此他們獲得諾貝爾獎實至名歸?;瘜W更看重普適性(蛋白質整體研究),而生理學或醫學更偏向特殊性(某種或某類蛋白質研究),看來授予化學獎顯然更合適。
任何科學突破都非一朝一夕或單純極少數天才人物的貢獻,而是一代代科學家前赴后繼、長期探索和積累的結果。從上面的介紹可清晰看出結構生物學、蛋白質合成、計算機科學、人工智能等領域的科學家均發揮了重要作用,2024年的三位獲獎者正是在借鑒和吸收前人成果基礎上并結合自身敏銳的洞察力和卓越的創造力實現了集成式創新,而這些成果又為將來的新突破奠定了重要基礎。
蛋白質結構預測的成功為揭開眾多生命奧秘和開發新型藥物提供了強大工具,而蛋白質計算設計則為這種原本重要的生物大分子賦予了更強大的功能,拓展了其應用范圍。后續的研究和應用都將在推動人類健康事業發展和提升生活質量方面發揮重大作用,從而體現諾貝爾獎頒發的真諦——造福人類。
總之,貝克、哈薩比斯和江珀在蛋白質計算設計與蛋白質結構預測領域的卓越貢獻,其影響極為深遠(有些很難預測),他們開啟了生物化學和生物學研究的新紀元,使我們能夠以前所未有的方式理解和利用蛋白質,這將對人類的生活和生產帶來重大改變。
(本文部分內容參考了諾貝爾獎官方網站的信息,在此表示感謝!)
[1]郭貝一,郭曉強.AlphaFold和蛋白質結構預測.科學,2024,76(5):39-44.
[2]JumperJ,EvansR,PritzelA,etal.HighlyaccurateproteinstructurepredictionwithAlphaFold.Nature,2021,596(7873):583-589.
[3]ReganL,DeGradoWF.Characterizationofahelicalproteindesignedfromfirstprinciples.Science,1988,241(4868):976-978.
[4]SimonsKT,BonneauR,RuczinskiI,etal.AbinitioproteinstructurepredictionofCASPIIItargetsusingROSETTA.Proteins,1999,Suppl3:171-176.
[5]KuhlmanB,DantasG,IretonGC,etal.Designofanovelglobularproteinfoldwithatomic-levelaccuracy.Science,2003,302(5649):1364-1368.
[6]JiangL,AlthoffEA,ClementeFR,etal.Denovocomputationaldesignofretro-aldolenzymes.Science,2008,319(5868):1387-1391.
[7]BaleJB,GonenS,LiuY,etal.Accuratedesignofmegadaltonscaletwo-componenticosahedralproteincomplexes.Science,2016,353(6297):389-394.
[8]LanganRA,BoykenSE,NgAH,etal.Denovodesignofbioactiveproteinswitches.Nature,2019,572(7768):205-210.
[9]HuangPS,BoykenSE,BakerD.Thecomingofageofdenovoproteindesign.Nature,2016,537(7620):320-327.
[10]BaekM,DiMaioF,AnishchenkoI,etal.Accuratepredictionofproteinstructuresandinteractionsusingathree-trackneuralnetwork.Science,2021,373(6557):871-876.
關鍵詞:諾貝爾化學獎蛋白質結構預測從頭設計■