張嘉暉
(中國科學技術大學生命科學學院,合肥 230027)
蛋白質計算一直以來都是科學領域中的重要課題,而近年來其與機器學習的結合,更是極大地推進了相關學科的發展.本綜述主要討論了機器學習在四個重要的蛋白質計算領域內的研究進展,這四個領域包括:分子動力學模擬、結構預測、性質預測和分子設計.分子動力學模擬依賴于力場參數,準確的力場參數是分子動力學模擬的必需品,而機器學習可以幫助研究者得到更加準確的力場參數.在分子動力學模擬中,機器學習也可以從復雜的體系中以較小的代價計算出所需求解的自由能.結構預測一般是給定蛋白質序列預測其結構.結構預測復雜度高、數據量大,而這恰恰是機器學習所擅長的.在機器學習的協助下,近年來科研人員已經在單個蛋白質三維結構預測上取得了不錯的成果.性質預測則是指通過給定的已知蛋白質信息,推斷其可能擁有的性質,這對于蛋白質的研究也是至關重要的.更具挑戰性的是分子設計,雖然近年來機器學習在蛋白質設計上取得突破,但這一領域還有很大空間值得探索.本綜述將針對以上四點分別展開論述,并對蛋白質計算中的機器學習研究進行展望.
蛋白質(protein)是生命的關鍵物質基礎之一.研究它們對理解生命體系、探究生命進程和治療疾病有著重大意義[1–3].由于時間與空間尺度、復雜度和可控性以及實驗成本等原因,只依靠實驗方法對蛋白質進行研究是不夠的,用計算方法對蛋白質的研究可彌補實驗研究的不足[4,5].對蛋白質實施計算研究主要有四種目的:研究蛋白質的結構、運動或相互作用細節(通常是通過分子動力學模擬)[6];給定蛋白質的序列來預測其空間結構[7];給定蛋白質的序列等信息來預測某些重要性質[8];以及設計滿足一定條件或功能的蛋白質[9].這四個領域在近年來彼此融合,相輔相成,使得蛋白質計算研究達到了一個新的高度[10,11],被人們寄予了厚望.然而,因其具有時間與空間尺度大、復雜度高和數據量大等特點,發展計算蛋白質研究仍然是一項具有挑戰性的任務[12–16].
另一方面,近年來機器學習(machine learning)的迅速崛起已對許多領域產生了意義深遠的影響[17–19].機器學習是人工智能(artificial intelligence,AI)的一個重要分支,通過使用算法讓計算機系統從數據中學習和改進,而無需明確編程[17].機器學習利用模型對輸入數據的解析和理解,從而進行預測、決策或生成,而不僅僅是按照嚴格定義的任務指令執行[17].機器學習任務有多種類型,包括監督學習、無監督學習、半監督學習和強化學習.在監督學習中,算法從標記的訓練數據中學習,然后將所學知識應用于新的、未見過的數據[20].無監督學習中,算法通過在沒有事先標簽的數據中尋找隱藏的結構或關系來進行學習[21].半監督學習介于這兩者之間,當部分數據被標記時就會使用[22].強化學習涉及到一個智能體,它通過與環境的交互和反饋來學習最佳行為策略[23].深度學習是機器學習的一種特殊形式,它基于人工神經網絡,并借鑒了人腦神經元連接的方式[24].深度學習可以處理大規模、高維度的數據,包括圖片、音頻和文本等,已廣泛應用于圖像識別、自然語言處理、語音識別以及許多其他領域[25].機器學習正在計算蛋白質研究領域內發揮著越來越重要的作用,這是因為機器學習是一種數據驅動的方法,它具有處理大規模、復雜性和高維度數據的獨特能力,這使得機器學習在解決傳統蛋白質計算中的一些問題方面具有優勢[26].機器學習與蛋白質計算的結合可以加速人類理解生命、改造生命的過程.
本綜述介紹機器學習在蛋白質的分子動力學模擬(第2 節)、蛋白質的結構預測(第3 節)、蛋白質的性質預測(第4 節)和蛋白質的分子設計(第5節)四方面的研究進展,并對機器學習與蛋白質計算結合進行了總結與展望(第6 節).首先討論如何使用機器學習技術優化和解析分子動力學模擬,這可以幫助人們更加深入地了解蛋白質的動態結構.隨后,探討如何利用機器學習進行準確的蛋白質結構預測,這對于理解蛋白質的空間結構和功能至關重要.接下來,探究機器學習在給定蛋白序列情況下對蛋白性質的預測.第5 節則聚焦于如何在復雜的蛋白質分子設計工程問題上應用機器學習.蛋白質的功能通常通過其動態結構決定,而不僅僅依賴于靜態結構.因此,結構預測與動力學模擬的融合正在成為一個重要的研究方向[10].例如,預測出的蛋白質結構可以作為動力學模擬的初始結構,以探索蛋白質的動態行為和活性狀態.借助分子動力學模擬,科學家們可以更直觀地了解分子間的相互作用,從而優化新設計的蛋白質分子.同時,機器學習方法也被用于動力學模擬的數據分析,以指導新分子的設計[27].而理解蛋白質的結構是設計新藥物或調控其功能的關鍵,將結構預測與分子設計相結合,可以幫助我們更好地理解靶點分子的結構特性,并據此設計出高效的候選藥物[28].最后,設計出的蛋白序列必須滿足一些必要的性質要求,例如水溶性和免疫原性[29,30].因此機器學習在這四個領域內的應用不僅促進了各自領域的發展,也促進了這四個領域走向融合,協同發展.結構預測、性質預測、分子設計和動力學模擬之間的交叉融合為我們提供了在原子分辨水平全面解析生物現象的可能,使我們能夠在多個層次上理解和操縱生物系統.第6 節總結并展望了機器學習與蛋白質計算結合的未來,強調了跨領域融合的重要性,并展望了未來可能的研究方向和挑戰.筆者認為,機器學習算法的進步和生物大數據的快速增長,將在更深、更廣泛的層面上推動這四個領域的融合與協同發展,從而開啟新的科學發現和應用的可能.
分子動力學模擬是一種通過計算遵從牛頓運動定律的多粒子系統(如蛋白質體系)的時間演化,以了解其物理性質的重要方法[6].在分子動力學模擬中,分子被視為一組相互作用的粒子,通過數值仿真這些粒子隨時間變化的軌跡,可以分析系統的宏觀性質.給定恰當的初始條件和相應的相互作用勢能后,可通過數值求解牛頓運動方程實現模擬.分子動力學模擬在多個領域有廣泛的應用,包括但不限于物理、化學、生物學及材料科學.例如,化學家可以利用分子動力學模擬預測反應途徑[31];物理學家則可能深入探究固態物理的世界[32];生命科學研究人員能更好地理解蛋白質折疊和其他生物大分子的動態行為[6,13,33].盡管分子動力學模擬擁有巨大的潛力,但也需要注意其局限性.首先,分子動力學模擬的可信度取決于力場參數的準確性,而實際上人們很難用傳統方法獲取相對準確的力場參數.機器學習的介入,對這些問題的解決起到了極大的幫助[34,35].其次,對體系進行準確的自由能計算是一個很具挑戰性的任務.本節將針對機器學習與上述兩點的結合,逐條展開論述,介紹相應的研究進展.
在分子動力學模擬中,力場(force field)是一個至關重要的概念.力場指的是一種用于描述和計算分子系統內各原子間相互作用力的數學模型[36–38].具體來說,力場包含了各種類型的相互作用項,如鍵長、鍵角、二面角、范德瓦耳斯作用和靜電作用等.每種相互作用項都對應一個能量函數.力場的總能量為所有相互作用項能量之和.而在分子動力學模擬中,正是通過對力場給定的能量函數求導,而得到系統在這一時刻受的力,并據此得出分子系統在下一時刻的位置和速度,從而模擬出分子的動態行為.傳統的力場參數通常由第一性原理(first principles)[39]計算和實驗數據[40]得到,但由于復雜性、靈活性、適應性、時間效率等因素的制約,越發地需要機器學習幫助我們獲取和優化力場參數[35,41].
首先,我們指出,數據驅動的機器學習方法在蛋白質等生物分子研究領域內的核心思想和基于第一性原理的量子力學方法是非常相似的[42].如圖 1 所示,機器學習和量子力學都經歷了從準確而難以求解到近似而容易求解的蛻變.實際上,無論是量子力學,還是機器學習,如圖 1 的上半部分所示,都在致力于應用數學工具對所需預測的量進行一個盡可能準確的預測,然而那將導致不可承受的計算量,于是人們分別對量子力學和機器學習做了近似,使它們能勝任復雜體系的計算(圖 1).而量子力學和機器學習具體的近似法則,都是從無限到有限,從復雜到簡單,這說明了第一性原理計算和機器學習計算在原理和方法上的相關性.具體而言,如果取圖中的m 為能量,那么訓練出來的神經網絡便可以作為一個力場使用.用這種方法所生成的力場一般是平滑可微的,這就使得原子受的力可求,從而為機器學習生成的力場在分子動力學模擬中的應用提供了保障.然而,需要注意的是,機器學習生成的力場有時是不滿足能量守恒約束的,使用機器學習生成能量守恒的分子力場目前仍是一個具有挑戰性的課題[35].
使用機器學習生成分子力場的一般步驟如下.首先,需要獲取或生成一組訓練數據.這些數據應包含各種可能的分子構型和對應的能量及力.數據可能來自實驗測量、第一性原理計算或已有的經驗力場模擬.然后,需要選擇一種特征描述符來表示分子系統.特征描述符應能夠唯一且有效地描述分子的結構.常見的特征描述符包括原子間距離、鍵角、二面角等.接下來,選擇合適的機器學習模型(例如神經網絡)并用前兩步獲得的數據進行訓練.在模型訓練好之后,進行優化和驗證以確保其泛化能力.優化可能涉及調整模型超參數、增加訓練數據等.驗證通常通過將模型預測結果與獨立的測試數據集進行比較來完成.最后,可以使用訓練好的機器學習模型來生成新的力場.這個力場將被用于更大規模或更長時間尺度的分子動力學模擬.
分子動力學模擬用于定量預測的一個核心任務是計算自由能[31,43,44].自由能的定義式為
由(1)式可知,自由能可以理解為反應路徑上的加權平均勢能.研究體系的自由能或自由能變化對理解體系的狀態和反應路徑有舉足輕重的作用[45].
對于生物大分子體系,結合自由能是一個經典而具有挑戰性的課題[46].Bitencourt-Ferreira 和de Azevedo[47]通過機器學習的方法,對蛋白質-配體的結合吉布斯自由能(Gibbs free energy)進行了預測.訓練一個神經網絡,直接從復合物的原子坐標預測出結合自由能是極其困難的,因此在該項研究工作中,他們采用了AutoDock Vina[48]的評分作為起點來預測蛋白質-配體復合物的吉布斯自由能,即訓練一個神經網絡,輸入AutoDock Vina的評分,輸出預測結合吉布斯自由能.這篇工作的思路雖然簡單,但確極大地提高了蛋白質-配體結合吉布斯自由能預測的準確性,為結合蛋白的設計與篩選提供了一個更優的平臺.
除了結合自由能之外,反應自由能也是非常重要的研究方向[49].Pan 等[50]完成了一項運用機器學習預測酶反應自由能的工作.該工作中,研究者們結合了量子力學與分子動力學(QM/MM)[51],通過構建一個神經網絡,將兩者計算出的體系屬性(電勢、受力與坐標)輸入至神經網絡中,并以此還原出體系能量和受力.這么做的好處是,通過少量相對昂貴的QM/MM 計算,使用神經網絡擬合出能反映體系的動力學要素的量,并在后續的工作中以計算成本較低的神經網絡為基礎進行化學反應的模擬.該項工作中,他們使用了雨傘采樣(umbrella sampling)[43]的方法構建反應路徑并計算體系沿著反應路徑的自由能.
機器學習在蛋白質相關的分子體系的自由能計算中還有著許多其他的應用.2017 年Riniker[52]提出了一種新的端點方法來預測溶解自由能和分配系數,主要思路是: 對分子進行分子動力學模擬,在不同環境(真空和溶劑)中提取一些屬性,如勢能、體積等;將每個屬性的分布表示成指紋,使用平均值、標準差和中位數.2020 年Bennett 等[53]結合分子動力學模擬和機器學習來預測小分子的自由能變化,他們使用MD 模擬計算了15000 個小分子從水到環己烷的轉移自由能變化,作為機器學習模型的訓練數據.2021 年Bertazzo 等[54]提出了一個結合增強采樣、機器學習和定制算法的半自動化工作流,以計算配體-受體結合的平均勢能和標準結合自由能,該方法在主客體系和GSK-3β 蛋白-配體復合物上得到了驗證.這些應用不僅在各自所在的特定的科學研究領域做出了重要貢獻,更是推進了機器學習在自由能計算這一大方向的發展.
在給定初始結構的情況下,第2 節中討論的分子動力學模擬可以在蛋白質的研究中起到強大的作用.然而,在很多情況下,我們僅僅知道蛋白質的序列,而并不知道它們的結構.這種現象主要被歸結于檢測技術的成熟度、條件苛刻度和對應的時間成本[55].事實上,我們知道的蛋白質序列信息要遠遠多于蛋白質結構信息[56].這時,為了通過計算研究已知序列、未知結構的蛋白質的性質和行為,就需要對具有該序列的蛋白質進行結構預測.由于蛋白質的復雜度高,使用機器學習預測其結構成為近年來的一個潮流[57].本節針對機器學習預測蛋白質的二級、三級和四級結構分別展開討論.
蛋白質的二級結構是由氫鍵穩定的規則結構,這些氫鍵是在蛋白質的主鏈之間形成的.研究生物大分子的二級結構具有重要的意義,因為二級結構是構成三級和四級結構的基本元素,且往往與生物大分子的功能密切相關.而通過已知的一級結構信息,可以預測其可能的二級結構,這對于理解生物大分子的功能和進行分子設計都非常重要.
對于蛋白質分子,盡管目前很多三級結構預測模型已經表現得足夠好[58–60],但專注于二級結構預測仍然有其重要性和必要性.與三級結構預測相比,二級結構預測的計算成本較低.對于大規模或復雜的蛋白質系統,二級結構預測可能是更實用的選擇;二級結構是蛋白質功能的重要決定因素之一.對二級結構的研究可以幫助我們更好地理解蛋白質的功能機制;通過二級結構預測,可以更好地理解蛋白質氨基酸序列與其結構之間的關系,這對于蛋白質設計和工程也非常重要.
在蛋白質分子的二級結構機器學習預測中,人們主要選取三種模式的神經網絡: 循環神經網絡(recurrent neural network,RNN)[61]、卷積神經網絡(convolutional neural neteork,CNN)[62]與混合神經網絡[63](即結合了循環神經網絡和卷積神經網絡).循環神經網絡方法充分利用了一級結構的序列特征,通過學習序列之間的先后次序,發現其和蛋白質二級結構間的復雜關系,從而進行蛋白質二級結構預測[64,65].而卷積神經網絡則專注于提取序列的局部信息,并對其進行分析、整合,以此來提取所關注的一段序列與二級結構間的對應關系[66].混合神經網絡方法則是在神經網絡中同時使用了循環神經網絡結構和卷積神經網絡結構,這使得預測的準確性有所提升[67,68].
蛋白質的三級結構預測至關重要,因為蛋白質的三級結構往往決定了其功能、穩定性、與其他分子間的相互作用以及與某些疾病的相關性等[69].目前主流的機器學習蛋白質三級結構預測軟件(例如AlphaFold2[58])的實際工作流程較為復雜,這里只介紹其核心思想.AlphaFold2 的結構示意圖如圖 2 所示.從圖 2 可以看出,當把序列輸入給模型后,模型首先會做兩件事情: 從基因數據庫中獲取多序列比對以及從結構數據庫中獲取成對信息模版.在生物信息學中.多序列比對[70](multiple sequence alignment,MSA)是一種常用的方法,它可以將3 個或更多的生物序列(通常是蛋白質或核酸)對齊,以識別這些序列之間的相似性.通過多序列比對,研究人員能夠識別保守的序列區域、協變區域,這些區域在物種間或者基因家族成員間具有高度的相似性、共進化性,可能對蛋白質的結構和功能有著至關重要的意義.簡而言之,多序列比對作為輸入,相比于單個序列而言,多出了額外的與蛋白結構相關的信息,可以幫助對蛋白質的三維結構進行推斷.在圖 2 中,輸入的序列與多序列比對信息被轉化為了一個多序列比對表象的矩陣,這個矩陣可以被粗略地理解為包含了序列進化信息.

圖2 AlphaFold2 的結構圖Fig.2.Architecture of AlphaFold2.
另一方面,可以看到二維的成對矩陣和成對信息模版被模型轉化成了成對表象矩陣.這個矩陣包含著豐富的殘基間信息,如殘基間的距離和相對方向.然后,模型通過基于注意力機制[71]的evoformer模塊將多序列比對表象矩陣和成對表象矩陣的信息結合起來,反復更新兩者.最后兩者通過結構模塊,從每個殘基的局部信息和殘基間信息中通過學習提取關鍵數據,生成最終的蛋白質的每個原子的三維坐標.注意,生成過程并不是一次完成的,而是需要反復迭代三次.
蛋白質的四級結構研究至關重要,因為它們對生物體的正常運作有著重要影響,這有助于深入研究生物大分子的功能和調控,并對藥物設計做出必要的指導[72,73].蛋白質分子間的相互作用主要由以下幾種非共價作用組成: 氫鍵、離子鍵、范德瓦耳斯力和疏水相互作用[74].生物大分子間的相互作用主要取決于表面基團的化學性質、幾何結構、動態結構等因素.要想正確地預測蛋白質的四級結構,就必須處理大量高維信息,而這正是機器學習所擅長的.
傳統的蛋白質對接預測軟件大多是基于分數,例如ZDOCK[75],是使配體遍歷受體附近的每一個位置和自身的每一個方向,通過經驗公式對每一個構象進行打分,最終選定分數最高的幾個構象作為備選答案.然而,這種方法具有著一定的劣勢,例如打分的機制往往存在很多經驗項,用于擬合的實驗數據過少以及計算速度過慢等.目前雖然已有關于RNA-蛋白質復合物的四級結構預測軟件Open Complex[76],但相關文章尚未發表,因此本小節主要介紹著名的蛋白質四級結構預測軟件Alpha Fold-Multimer[77].
由于極高的復雜度和更大的搜索空間,蛋白質的四級結構預測遠比三級結構預測要困難.有學者曾調整過AlphaFold 的輸入,增加了虛擬的空位或者連接基團,多鏈蛋白質強行轉化成單鏈蛋白質,再進行結構預測[78–81].其道理在于,雖然四級結構中的鏈與鏈之間失去了骨架的鏈接,但蛋白質鏈間殘基之間相互作用的物理本質和同一條鏈上距離較遠的殘基之間的相互作用的物理本質是一樣的.而AlphaFold-Multimer 也是采用了同樣的思想,只不過摒棄了空位和連接基團的引入[77].
AlphaFold-Multimer 基本框架和AlphaFold是一樣的,但主要做了如下幾點改變: 第一,對輸入進行了改變,采用了一種針對多鏈蛋白更加科學的構建多序列比對的方法,其主要原理是分別生成不同序列的多序列比對,再在此基礎上生成基于基因組的和基于系統發育的多鏈多序列比對[82](如圖 3 所示),并對結果進行整合.第二,對損失函數(表征機器學習中預測值與真實值之間的差距)進行了修改,考慮了含有相同鏈的蛋白中鏈與鏈之間的交換效應;修正了AlphaFold 中的幀對齊點誤差損失的上限以優化訓練時的梯度信號;額外增加了鏈質心損失以防不同的鏈被預測到重疊的位置上.第三,對訓練流程進行了改進,為了緩解計算資源的局限性,AlphaFold-Multimer 對蛋白質進行剪裁,并訓練AlphaFold 系統來處理全長蛋白質的裁剪片段,這些裁剪區域最多可達384 個殘基的連續塊.

圖3 AlphaFold-Multimer 的多序列比對構建方法Fig.3.Construction of MSA used in AlphaFold-Multimer.
生物分子的結構決定了它們的性質[83],但絕大多數情況下,僅憑人類的推理,很難從復雜的結構信息中提取到重要的依據來判定生物分子的性質,因此需要借助機器學習的力量[8,83,84]從復雜的序列等信息中提取出所需的性質信息.由于實驗成本的原因,僅從序列信息推理得到蛋白質分子的性質,是人們長久以來希望實現的.在蛋白質的種種性質中,水溶性、免疫原性和熱穩定性尤為重要.本節將針對這三點性質的預測逐一討論.
蛋白質的水溶性主要取決于其自身的氨基酸組成和空間結構[85].一般來說,富含親水性氨基酸殘基(如賴氨酸、精氨酸、谷氨酸等)的蛋白質,水溶性較好,這些親水性殘基能與水分子形成氫鍵,提高蛋白質的溶解度;含有較多疏水性氨基酸殘基(如纈氨酸、異亮氨酸、苯丙氨酸等)的蛋白質,水溶性較差,這些疏水性殘基難以與水分子接觸,使蛋白質不溶于水;蛋白質的空間結構也影響其溶解性,緊密折疊的球狀蛋白較易溶解,而松散的隨機卷曲蛋白溶解度較低,這是因為緊密結構能使更多親水基團暴露于水分子之間.蛋白質溶解時,也會發生構象變化,一些原本隱藏在內部的親水基團會暴露出來,提升蛋白質的溶解度.雖然以上經驗會為預測蛋白質的水溶性提供一些幫助,但由于蛋白質自身的復雜性,依然需要借助機器學習的力量來完成蛋白質水溶性預測工作.
DeepSol[86]是一款基于卷積神經網絡的蛋白質水溶性預測軟件,在這個軟件中,蛋白質序列被當作唯一的輸入傳遞給卷積神經網絡,而模型的輸出則是一個大于0 小于1 的實數,分數越大表示模型認為該序列越有可能來自一個可溶的蛋白質.EPSOL[87]是近年來另一款具有代表性的蛋白質水溶性預測軟件,它比DeepSol 的結果更加準確,但是也需要輸入更多的信息以幫助其進行判斷,例如蛋白質的二級結構和溶劑可及性(solvent accessibility).
預測蛋白質的水溶性可以幫助我們: 解釋蛋白質的物理化學性質;指導蛋白質的提取和純化;為蛋白質的功能研究提供參考;輔助蛋白質藥物的藥效學研究;指導蛋白質工程設計以及分析蛋白質的穩定性和折疊行為.這些對于蛋白質研究都是極其重要的.
蛋白質的免疫原性[88]指的是某種蛋白質所具有的誘導免疫反應并激活免疫系統的能力.簡單來說,就是某些蛋白質能夠被人體免疫系統識別為“外來抗原”,并觸發體液免疫和細胞免疫反應以清除這種抗原.雖然研究表明,蛋白質的免疫原性與密碼子(codon)[89]和翻譯后修飾(post-translational modification,PTM)[90]都有關系,但其與蛋白質本身的關系依然有跡可循[91],而機器學習正是一個解釋這種復雜關系的極好工具.
2019 年Smith 等[92]訓練了一個機器學習模型(基于線型回歸),基于腫瘤抗原的免疫原性本質特征,來預測新抗原的免疫原性.在該研究中,學者在兩種腫瘤小鼠模型中驗證了該預測模型的效果,證明了它可以用于選擇有治療作用的抗原表位,并在TCGA 全癌癥數據集中分析了高免疫原性新抗原與腫瘤微環境免疫特征的關聯,發現在結腸腺癌和肺腺癌中存在顯著關聯.最后提供了證據支持一種預測的移碼新抗原能夠驅動抗腫瘤的細胞免疫反應,提示移碼抗原也可能成為潛在的治療靶點.另一方面,針對疫苗的免疫原性研究也同樣重要.2020 年Gonzalez-Dias 等[93]總結和討論了使用系統疫苗學和機器學習方法來預測疫苗免疫原性和不良反應的技術,并概述了不同的機器學習算法在這個框架中的應用,如支持向量機、神經網絡、隨機森林等,還探討了一些目前在該領域的挑戰,如變量混雜的處理、獲取更多高質量數據的需要等.
通過對蛋白質的免疫原性的預測可以評估蛋白質作為候選疫苗、藥物的潛力.對于代替性蛋白質藥物,需要在設計的過程中降低其免疫原性,避免集體產生抗體促使藥物失效,也避免機體產生不必要的免疫反應.但對于疫苗,需要提高其免疫原性,以最大程度激發機體的免疫反應.總之,免疫原性的預測對醫用蛋白質有著舉足輕重的作用.
蛋白質的熱穩定性由很多因素共同決定[94].通常情況下,α-螺旋和β-折疊通常較之無規律卷曲更熱穩定.疏水相互作用也能提高蛋白質的熱穩定性;氫鍵和離子鍵的數量越多,越有利于熱穩定性;蛋白質表面暴露的非極性殘基越多,熱穩定性越低;多聚體的形成有利于提高蛋白質的熱穩定性;蛋白質本身的殘基比例也會影響其熱穩定性,例如富含脯氨酸、蘇氨酸的蛋白質熱穩定性較差.雖然有著很多簡單的經驗可以推斷蛋白質的熱穩定性,鑒于蛋白質序列、結構的高度復雜性,依然需要機器學習來輔助預測蛋白質的熱穩定性.
TemStaPro 是近年來被公開的一款基于深度學習預測蛋白質熱穩定性的軟件[95].在這款軟件的架構中,開發者們巧妙地使用了遷移學習(transfer learning),直接從復雜的蛋白質語言模型(protein language models,PLM)[96,97]獲得被解碼的信息,并構建一個小型的神經網絡用于預測最終的序列熱穩定性.該模型可以判斷給定序列在一定溫度以上是否依然具有熱穩定性,預測結果是一個大于0 小于1 的實數,數值越大,代表越可能具有熱穩定性.
預測蛋白質在體溫環境下的穩定性和降解情況對蛋白藥物的設計很重要,提高熱穩定性可以延長其體內半衰期.除此之外,預測和改善工業用酶的熱穩定性,以擴展其在工業生產過程中的適用溫度范圍和使用壽命,可以減少酶的更換和處理成本.
生物分子設計是一個涉及修改自然存在的生物分子或創建新分子以實現特定功能的科學領域,而其中最受人矚目的方向之一便是蛋白質設計[98].分子設計的一般流程如下: 第1 步,確定目標,明確并理解所期望的分子的功能或性質;第2 步,選取適當算法和模型;第3 步,生成候選分子,這一步會產生大量備選分子;第4 步,篩選和評估,即通過計算方法來評估分子的功能和性質,篩選出最可能成功的幾個分子;第5 步,驗證和測試,對選中的分子進行實驗,評估實驗結果是否達到預期;第6 步,優化和修改,即基于實驗結果,對分子或算法進行進一步優化,必要時,將對所設計的分子進行迭代改進.本節將從幾個不同方面介紹蛋白質設計.
要對蛋白質進行從頭設計不是一件容易的事,因為蛋白質本身結構復雜,而功能與結構的關系也復雜[98].而蛋白質設計,實際上就是一個優化問題:
因為我們把骨架結構設計和序列設計進行了拆分,因此可以認為它們是最終設計出的蛋白質的兩個因素:
因為功能直接由結構決定,因此在蛋白質從頭設計中,人們通常從設計蛋白質的骨架結構開始[99,100],即在給定的條件下找到最有可能符合該條件的骨架結構:
不是所有的骨架都可以被自然氨基酸生成的,要想生成符合自然規律的骨架,就必須遵守一定的規則[99].因此,一個直觀的想法便是,如果能以某種方式,通過機器學習的力量,學習到自然存在的蛋白質骨架應該具有什么樣的特征,那么就可以不斷地向應有的特征的方向調整所生成骨架的相應特征,這樣就會得到符合自然法則的蛋白質骨架結構.進一步地,如果能把自然存在的蛋白質統計意義上的特征表征成一種基于統計(而非物理)的能量項,那么理論上以這個能量項為基礎,就可以通過動力學模擬的方法自發生成符合自然規律的蛋白質骨架結構.SCUBA 模型[99]正是基于此思想.
SCUBA 的核心功能是在與序列無關的骨架結構空間中,通過尋找能量最低點的方法找到預測的最優骨架結構,而后續的基于結構的序列設計工作則交給其他模型.在SCUBA 這項工作中,研究者們將統計能量進行了拆分,并逐項通過臨近點計數-神經網絡的方法進行訓練以獲得相應的連續可微分的能量函數[99].臨近點計數-神經網絡方法的訓練是基于有監督學習的,其核心思想就是通過神經網絡的強大泛化性將粗糙的統計散點數據轉化為連續可微的能量函數.
另一方面,擴散模型(diffusion models)[101]作為一款生成模型,近年來在眾多領域都做出了突出的貢獻[102,103].于是,基于擴散模型的蛋白質骨架結構從頭設計模型也應運而生[100,104].擴散是一個自發的熵增過程,在機器學習中的擴散,通常是指在訓練過程中逐步地為原始數據添加噪音,最終將得到一個純粹的噪音.而擴散模型所做的便是通過學習每一步擴散過程中增加的那一部分噪音與數據分布之間的關系,從而生成一個逆向的神經網絡,逐步預測被注入噪音后的數據最可能的原來的樣子.這樣,只給定隨機噪音,逆向神經網絡就能自發地生成一個與訓練數據高度相似的數據.
RFdiffusion 的核心思想是對RoseTTAFold[60]進行了微調,使之能完成圖中所示的特殊的三維結構預測任務.初始時刻,骨架原子坐標是隨機的.在每一步中,RFdiffusion 會根據本步的骨架坐標,通過微調后的RoseTTAFold 生成一個虛擬的預測結果,然后根據這個虛擬的預測結果推測出上一個擴散步驟中被加入的噪音,依此推測出上一個擴散步驟的骨架坐標.如此,最終可以得到擴散尚未開始時的骨架原子坐標.另一方面,人們也一直在嘗試不需要在結構預測模型的基礎上進行微調的基于擴散模型的蛋白質結構生成模型[104,105].其中SCUBA-D[104]模型結合了生成對抗模型和擴散模型各自的生成質量高、創新性大等優勢,在蛋白從頭設計領域做出了突出的貢獻.
在設計好蛋白質的骨架結構之后,就需要找到可以滿足該骨架結構的序列.需要做的實際上便是最大化如下概率:
由于蛋白質的空間結構復雜,且序列空間很大,因此借助機器學習的力量對給定骨架結構的蛋白質進行序列設計是一個很好的選擇.
在ABACUS[106,107]模型中,學者們通過遍歷大量已知結構的蛋白,學習到了統計意義上的在特定結構下,某個位置上是某個氨基酸的概率以及某兩個位置上是某兩個氨基酸的聯合概率,再通過e=-lnP的方法將統計意義上的概率轉化為統計意義上的能量.隨后,學者們將統計意義上的能量與經驗化的物理意義上的能量(原子間相互作用等)進行加和,得到了最終的能量表達式.初始的蛋白序列是一條完全隨機的序列,隨后ABACUS對序列在序列空間進行蒙特卡羅模擬,以能量函數的變化來判斷是否保留每一步的突變,最終在進行足夠多步后,得到一個足夠好的序列.目前,基于ABACUS 的工作依然在繼續,研究人員正在試圖通過解碼與殘基自身和該殘基相鄰的所有殘基空間結構、相對位置信息,來還原位置序列的蛋白質結構中每一個殘基的氨基酸類型.
而在ProteinMPNN[108]中,研究者們則使用了圖神經網絡(graph neural networks,GNN)[109]的框架,如圖 4 所示.在該模型中,一個蛋白質骨架結構被理解為一張圖,其中圖的節點代表著蛋白質中的每一個氨基酸,而每一條邊則代表著氨基酸對之間的空間信息,這里選用了N,Cα,C,O,Cβ之間的距離.模型由兩部分組成,骨架編碼器負責讀取骨架的空間信息,而序列解碼器則負責將編碼器處獲得的信息解碼成序列.
傳統的蛋白質設計方案先對骨架結構進行設計,再對蛋白序列進行設計,得到的蛋白序列如(5)式所示,而實際上,總的結果相當于:
對比(2)式和(3)式可以發現,這里的搜索空間變少了,而限制條件變多了,因此有
上述討論說明,比起傳統的先設計蛋白質骨架結構,再對蛋白的序列進行設計的方案,直接對蛋白質的骨架結構和序列信息進行協同設計往往更能設計出符合要求的蛋白質.另一方面,結構序列協同設計也更加靈活,如當需要固定被設計的蛋白中的某部分骨架結構或某些氨基酸類型時,就可以在協同設計中直接將這些變量固定.而這種任務常常是在設計分子間相互作用下的蛋白質[110,111]時所面對的.

圖4 ProteinMPNN 模型核心思想示意圖Fig.4.Main idea of ProteinMPNN.
2022 年,Shi 等[112]提出了一款基于協同設計思想的蛋白質從頭設計機器學習模型.模型結構如圖 5 所示,在該模型中,通過輸入初始被設計蛋白的每個殘基的性質(例如二級結構)和殘基間性質(例如是否接觸)的信息,使用基于注意力機制[71]的算法進行不斷迭代,最終設計出符合要求的蛋白質.在該模型中,初始序列和骨架結構都是未知的,而模型通過學習自然存在的蛋白質的結構和序列,可以做到生成最可能在自然界中穩定存在的滿足設計要求的蛋白質.然而,Shi 等指出該模型最大的問題是,目前還不確定該模型能否自發設計出超越現有蛋白質拓撲結構的蛋白.該模型的輸入是一串指定序列局部信息的數組和一個指定序列連接信息的矩陣,而這通常就包含了蛋白質足夠多的信息.這樣就使得模型有點不那么像是一個生成模型,反而有些像一個回歸模型.但毫無疑問的是,這項工作為蛋白質結構序列協同設計提供了很好的理論支持.在設計蛋白-蛋白相互作用的蛋白質時,很多時候需要協同地考慮一些接觸位點的空間結構和氨基酸類型,這時,協同設計便會發揮其強大的功能.

圖5 蛋白質結構序列協同設計的一種機器學習模型示意圖Fig.5.Illustration of a machine learning model of protein structure-sequence co-design.
蛋白質計算與機器學習的結合在近年來取得了飛速的發展[113,114],這使得生物學本身與生物信息學、生物物理學和生物化學等交叉學科獲得了極大的突破.機器學習對蛋白質計算領域的介入,使我們可以更好地認識自然,理解自然,進而改造自然.本綜述的第2 節、第3 節和第4 節體現了對自然生命分子和生命過程的認識和理解,而第5 節則體現了對自然生命分子和生命過程的改造.正如第1 節中討論的那樣,認識自然和改造自然不是彼此獨立的,而是相互交匯的.在認識和理解了一個生物現象之后,便要對其向好的方向進行改造,而這往往會讓我們發現更多需要被認識的新的生物現象.
然而,機器學習在蛋白質計算,尤其是蛋白質分子設計領域還有著許多需要解決的問題.首先,我們觀察到,通過現有的蛋白質骨架從頭設計軟件設計出的骨架非常傾向于生成剛性結構域,而較少生成對調節蛋白動態性質至關重要的環(loop)區.另一方面,現有的序列設計軟件通常也會極大程度考慮結構的靜態穩定性而不是動態性質.因此最終設計出的蛋白大多都非常剛性,很難滿足一些特定的要求,例如設計出有活性的酶,因為酶的活性是與其動態性質息息相關的[115].未來蛋白質設計的發展趨勢將會更加注重設計蛋白的柔性和活性,盡可能地設計出柔軟的“器官”,而不是堅硬的“零件”.
放眼未來,人們會利用機器學習設計出更多經濟實用的藥物.例如,由于mRNA 易于合成且在人體內可以長期地表達特定蛋白,在近年來已成為最受關注的新興藥物之一[116].而在分別理解了蛋白質結構預測、蛋白質設計、RNA 結構預測和密碼子優化[117]等mRNA 設計后,便可以考慮蛋白-mRNA 協同設計,即根據需要的蛋白的功能,將蛋白的功效和mRNA 的翻譯效率協同考慮,直接設計出相應的藥用mRNA 序列.雖然這比獨立設計蛋白質和RNA 都要困難很多,但在機器學習的幫助下,這個難題終將被攻克.
比起單個生物分子,人們往往更加關注生物分子體系,尤其是生物大分子間的相互作用[57,118].在未來,隨著機器學習算法的提升和硬件性能的提高,人們將可以研究更加細節化的生物大分子間相互作用,也能預言尺度更大、數量更多的生物大分子間相互作用,從而漸漸實現從分子到分子間,再從分子間到體系的突破,最終實現精準快速的細胞尺度模擬.
目前機器學習與蛋白質計算的結合已取得了眾多突破性的進展,本綜述主要總結了機器學習在蛋白質的分子動力學模擬、結構預測、性質預測和分子設計中的實現,希望能以此為相關領域研究者提供參考并激發廣大科研工作者對本領域的興趣.
感謝中國科學技術大學生命科學學院劉海燕老師在寫作過程中給予我充分的幫助和支持.