曹 衛 潘憲明
(清華大學生命科學院,蛋白質科學教育部重點實驗室,北京 100084)
蛋白質是生命活動的主要承擔者和體現者,一切生命活動都離不開蛋白質,了解蛋白質功能的基本方法之一是研究其三維結構。高通量測序技術的發展使蛋白質序列信息呈指數增長,相對地,蛋白質結構數據的增長速度遠遠低于其序列數據的增長速度[1]。蛋白質結構主要通過X射線晶體學(X-ray crystallography)、核磁共振(nuclear magnetic resonance, NMR)和冷凍電鏡(cryo-electron microscopy,cryo-EM)等方法解析, 雖然這些方法可以產生高分辨率和高質量的蛋白質結構,但是耗時、昂貴且不適用于所有蛋白質。隨著計算領域技術的進步,人工智能在生物學中的應用日益廣泛,因此,用計算的方法從蛋白質序列出發預測結構是非常必要的。
蛋白質結構非常復雜,結構化學家從概念上將蛋白質結構分為四個“層次”。一級結構是由氨基酸脫水縮合組成的多肽鏈;二級結構描述了局部區域的一般三維(3D)形式,這些區域與蛋白質的其余部分獨立地組織成重復出現的結構片段,多肽鏈最主要的局部構象是α 螺旋(α helices)和β 片層(β sheets),不規則形狀也是蛋白質結構和功能的重要組成部分,通常稱其為環區(loop);三級結構是一條多肽鏈的3D結構,即每個原子的3D坐標;四級結構指其亞基之間是如何定向和排列的,也就是說四級結構僅適用于多亞基蛋白質[2]。
20 世紀70 年代初期Anfinsen[3]進行的經典實驗表明,蛋白質正確折疊所需的所有信息均包含在其氨基酸序列中。……