使用中間層受監(jiān)督的自編碼器探索蛋白質(zhì)的構(gòu)象空間*

2024-01-06 10:24:14陳光臨張志勇

物理學(xué)報(bào) 2023年24期

陳光臨張志勇

(中國(guó)科學(xué)技術(shù)大學(xué)物理系,合肥 230026)

1 引言

蛋白質(zhì)的功能與其結(jié)構(gòu)和動(dòng)態(tài)構(gòu)象變化密切相關(guān)[1].為了獲得蛋白質(zhì)分子的結(jié)構(gòu),人們開(kāi)發(fā)出了各種實(shí)驗(yàn)和預(yù)測(cè)技術(shù).X射線(xiàn)晶體衍射[2]和冷凍電鏡技術(shù)[3]可以解析高分辨率的蛋白質(zhì)分子結(jié)構(gòu),而核磁共振[4]可以提供分子中的原子距離等信息.此外,小角X射線(xiàn)散射[5]、化學(xué)交聯(lián)[6]和熒光共振能量轉(zhuǎn)移[7]等技術(shù)可以從不同的角度給出蛋白質(zhì)分子的各種結(jié)構(gòu)信息.基于人工智能的結(jié)構(gòu)預(yù)測(cè)方法,如AlphaFold2[8]和RoseTTAFold[9],可以直接根據(jù)氨基酸序列預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu).這些方法在獲取蛋白質(zhì)靜態(tài)結(jié)構(gòu)時(shí)十分有效,但是不易得到蛋白質(zhì)的動(dòng)態(tài)變化信息.

計(jì)算模擬方法,例如分子動(dòng)力學(xué)(molecular dynamics,MD)模擬,是研究蛋白質(zhì)分子動(dòng)態(tài)變化的重要工具[10].MD方法用半經(jīng)驗(yàn)的能量函數(shù)來(lái)描述原子間的相互作用,在經(jīng)典力學(xué)的框架下對(duì)蛋白質(zhì)分子進(jìn)行模擬.從一個(gè)已知的分子結(jié)構(gòu)出發(fā),通過(guò)迭代求解運(yùn)動(dòng)方程,得到分子動(dòng)態(tài)變化的過(guò)程.為了確保結(jié)果的可靠性,通常要求對(duì)整個(gè)構(gòu)象空間充分采樣.但由于分子模擬的結(jié)果服從玻爾茲曼統(tǒng)計(jì),在生理?xiàng)l件下,對(duì)高能構(gòu)象的采樣十分困難,這一問(wèn)題通常需要引入增強(qiáng)采樣等方法來(lái)解決[11].模擬的另一個(gè)問(wèn)題來(lái)自分子力場(chǎng),它是對(duì)分子間相互作用的一種近似描述,因而必然存在一定的誤差.力場(chǎng)選擇不合適可能會(huì)導(dǎo)致模擬結(jié)果表現(xiàn)出與實(shí)際情況不同的傾向[12],即使經(jīng)過(guò)大量計(jì)算后達(dá)到了充分采樣的要求,也無(wú)法正確描述生物大分子的動(dòng)態(tài)變化.這種情況下,可以先盡可能多地產(chǎn)生不同的構(gòu)象,再驗(yàn)證其合理性.

近年來(lái),機(jī)器學(xué)習(xí)方法的快速發(fā)展為解決分子模擬中的采樣和力場(chǎng)問(wèn)題提供了新思路[13,14].自編碼器是一種生成神經(jīng)網(wǎng)絡(luò),最初用于計(jì)算機(jī)圖形領(lǐng)域[15],目前也應(yīng)用于探索蛋白質(zhì)分子的構(gòu)象空間[16].自編碼器由編碼器和解碼器組成,高維的蛋白質(zhì)結(jié)構(gòu)信息經(jīng)過(guò)編碼器壓縮得到低維空間的隱變量,再經(jīng)過(guò)解碼器重構(gòu)出蛋白質(zhì)結(jié)構(gòu),同時(shí)要求重構(gòu)的結(jié)構(gòu)與輸入的結(jié)構(gòu)盡可能一致.訓(xùn)練完成后,只需要向解碼器輸入隨機(jī)數(shù)據(jù),就可以構(gòu)建出不同的蛋白質(zhì)構(gòu)象.由于自編碼器在訓(xùn)練過(guò)程中只要求數(shù)據(jù)成功重構(gòu),中間層的隱變量沒(méi)有明確的含義,而構(gòu)象生成是從中間層的數(shù)據(jù)開(kāi)始的,因此探索構(gòu)象空間的方向也是不確定的,有時(shí)可以找到各種不同的構(gòu)象,有時(shí)只能得到不感興趣或不合理的構(gòu)象.為了解決上述問(wèn)題,一種常用的方案是對(duì)中間層的結(jié)果進(jìn)行一些限制.

本研究設(shè)計(jì)了一個(gè)有監(jiān)督的自編碼器模型.將一些反應(yīng)坐標(biāo)引入到自編碼器中,要求其在重構(gòu)蛋白質(zhì)結(jié)構(gòu)的同時(shí),中間層的數(shù)據(jù)要與給定的反應(yīng)坐標(biāo)接近,從而使構(gòu)象空間的探索在給定的方向上進(jìn)行.將該模型運(yùn)用到兩個(gè)多結(jié)構(gòu)域蛋白,噬菌體T4溶菌酶和腺苷酸激酶,探索得到的蛋白質(zhì)構(gòu)象空間覆蓋了目前已知的實(shí)驗(yàn)結(jié)構(gòu).通過(guò)引入合理的反應(yīng)坐標(biāo)和實(shí)驗(yàn)數(shù)據(jù),建立有監(jiān)督的自編碼器模型,有望成為探索蛋白質(zhì)構(gòu)象空間的有效工具.

2 方法

2.1 中間層受監(jiān)督的自編碼器模型

為了實(shí)現(xiàn)在給定方向的構(gòu)象空間探索,使用Pytorch2.0設(shè)計(jì)了一個(gè)中間層受監(jiān)督的自編碼器(圖1).該模型的整體結(jié)構(gòu)與普通的自編碼器相似,由編碼器和解碼器組成.其中編碼器是一個(gè)多層的全連接神經(jīng)網(wǎng)絡(luò),在輸入層之后每一層的維數(shù)分別是2048,512,128,32,8,2,解碼器也是多層全連接網(wǎng)絡(luò),其結(jié)構(gòu)與編碼器對(duì)稱(chēng),每一層的維數(shù)依次是2,8,32,128,512,2048,輸出層的維數(shù)與編碼器輸入層相同.除了最后一層外,編碼器和解碼器的每一層都使用了ReLU作為激活函數(shù),而最后一層則使用Sigmoid激活函數(shù),以控制輸出結(jié)果的范圍.這一模型的參數(shù)量很少,對(duì)計(jì)算資源的要求較低.

圖1 中間層受監(jiān)督的自編碼器示意圖Fig.1.Schematic of supervised-AE.

不同于無(wú)監(jiān)督的自編碼器,將監(jiān)督學(xué)習(xí)引入自編碼器的中間層,訓(xùn)練時(shí)使用的損失函數(shù)形式如下:

其中Loutput為輸出層的損失函數(shù),用來(lái)描述重構(gòu)后的結(jié)構(gòu)與輸入結(jié)構(gòu)之間的差距;Lmidden為中間層的損失函數(shù),描述中間層數(shù)據(jù)與輸入結(jié)構(gòu)對(duì)應(yīng)的反應(yīng)坐標(biāo)之間的差距.只使用反應(yīng)坐標(biāo)往往不能準(zhǔn)確地描述和重構(gòu)整個(gè)分子結(jié)構(gòu),只能反映結(jié)構(gòu)的某些特征,因此模型需要在正確提取反應(yīng)坐標(biāo)和成功重構(gòu)分子結(jié)構(gòu)之間找到平衡.引入了權(quán)重因子ω來(lái)調(diào)整兩者對(duì)損失函數(shù)的貢獻(xiàn),ω較大時(shí),中間層對(duì)損失函數(shù)的貢獻(xiàn)更大,模型會(huì)傾向得到給定的反應(yīng)坐標(biāo),而重構(gòu)分子結(jié)構(gòu)的效果會(huì)變差,反之,ω較小時(shí),模型可以完成分子結(jié)構(gòu)的重構(gòu),但中間層的數(shù)值不一定接近給定的反應(yīng)坐標(biāo).本文中,該因子的值設(shè)定為100.

2.2 數(shù)據(jù)獲取

訓(xùn)練模型的數(shù)據(jù)來(lái)自MD模擬.模擬的體系分別是噬菌體T4溶菌酶(T4 lysozyme,T4L)和大腸桿菌腺苷酸激酶(adenylate kinase,AdK).T4L及其突變體在PDB數(shù)據(jù)庫(kù)中有大量晶體結(jié)構(gòu),其結(jié)構(gòu)變化主要體現(xiàn)在N端結(jié)構(gòu)域和C端結(jié)構(gòu)域之間口袋的打開(kāi)和關(guān)閉(圖2(a)).AdK可以分為CORE,LID以及AMPbd三個(gè)結(jié)構(gòu)域,分別在CORE和LID,以及CORE和AMPbd之間形成兩個(gè)口袋.在酶的催化過(guò)程中,口袋的打開(kāi)和關(guān)閉十分重要(圖2(b)).這兩個(gè)蛋白分子的動(dòng)態(tài)構(gòu)象變化已經(jīng)研究得比較充分,適合用來(lái)驗(yàn)證我們的模型.

圖2 本研究中使用的兩種蛋白質(zhì)分子的不同結(jié)構(gòu) (a) T4L的閉合(不透明)和打開(kāi)(透明)結(jié)構(gòu),紫色為α螺旋,黃色為β折疊;(b) AdK的閉合(不透明)和打開(kāi)(透明)結(jié)構(gòu),不同顏色表示不同的結(jié)構(gòu)域Fig.2.Different structures of the two proteins in the work.(a) The close (opaque) and open (transparent) state of T4L.α-helix is colored in purple and β-sheet is colored in yellow.(b) The close (opaque) and open (transparent) state of AdK.Different domains are colored in different colors.

根據(jù)蛋白質(zhì)分子的結(jié)構(gòu)變化特征,計(jì)算相應(yīng)的反應(yīng)坐標(biāo)作為監(jiān)督引入到自編碼器的中間層.從T4L及其突變體的晶體結(jié)構(gòu)中選取能夠反映其構(gòu)象變化的41個(gè)結(jié)構(gòu),消除它們之間的平動(dòng)和轉(zhuǎn)動(dòng)后,使用Cα原子的坐標(biāo)進(jìn)行主成分分析.特征值最大的2個(gè)主成分分別對(duì)應(yīng)T4L的開(kāi)閉和扭轉(zhuǎn)運(yùn)動(dòng),其占比分別為86%和6%.因此使用這2個(gè)主成分作為反應(yīng)坐標(biāo),可以較好地描述T4L分子的運(yùn)動(dòng)[17].AdK的結(jié)構(gòu)變化主要表現(xiàn)為結(jié)構(gòu)域的相對(duì)運(yùn)動(dòng),因此可以選取CORE-LID和COREAMPbd結(jié)構(gòu)域的質(zhì)心距離作為反應(yīng)坐標(biāo)[18].

分子動(dòng)力學(xué)模擬使用GROMACS-2023版本進(jìn)行[19].從PDB數(shù)據(jù)庫(kù)中分別選取T4L的打開(kāi)(PDB編號(hào)2LZM[20])和關(guān)閉(PDB編號(hào)178L[21])結(jié)構(gòu),以及AdK的打開(kāi)(PDB編號(hào)1AKE[22])和關(guān)閉(PDB編號(hào)4AKE[23])結(jié)構(gòu)作為模擬的初始構(gòu)象.為了驗(yàn)證模型是否受分子力場(chǎng)的影響,每一組模擬都分別使用了AMBER99SB力場(chǎng)/OPC水模型的組合[24,25]以及CHARMM36m力場(chǎng)/TIP3P水模型的組合[26].將分子放入正十二面體的周期性盒子中,同一分子的不同體系使用同樣大小的盒子,以避免盒子尺寸對(duì)模擬結(jié)果的影響.向體系中填充水分子,并加入離子直到電荷平衡.先后用2000步最速下降法和1000步共軛梯度法進(jìn)行能量最小化,然后在NPT系綜下進(jìn)行100 ps的位置約束MD模擬,以平衡系統(tǒng)的溫度和壓強(qiáng),隨后進(jìn)行NPT模擬以獲取訓(xùn)練模型的數(shù)據(jù).AdK在沒(méi)有結(jié)合配體時(shí)無(wú)法維持關(guān)閉狀態(tài),因此在模擬中額外加入了結(jié)構(gòu)域距離的位置限制.所有模擬的步長(zhǎng)均為2 fs,使用LINCS算法約束氫原子參與的化學(xué)鍵,分別用V-rescale[27]和C-rescale算法控制系統(tǒng)的溫度和壓強(qiáng),非鍵相互作用中靜電相互作用通過(guò)PME[28]算法計(jì)算,范德瓦耳斯力則做截?cái)嗵幚?截?cái)嗑嚯x為1 nm.

由于不要求充分采樣,每組用于產(chǎn)生訓(xùn)練數(shù)據(jù)的模擬僅進(jìn)行100 ns,每10 ps保存一個(gè)結(jié)構(gòu),共保存10000個(gè).消除不同結(jié)構(gòu)之間的平動(dòng)和轉(zhuǎn)動(dòng)變化后,提取主鏈部分的原子,即N,Cα,C,O的笛卡爾坐標(biāo)作為模型的輸入,同時(shí)計(jì)算出每個(gè)結(jié)構(gòu)的反應(yīng)坐標(biāo)作為標(biāo)簽.在開(kāi)始訓(xùn)練之前,還需要對(duì)數(shù)據(jù)進(jìn)行歸一化處理,數(shù)據(jù)的每一個(gè)維度都分別被放縮到0.2與0.8之間,這一區(qū)間Sigmoid函數(shù)的斜率較大,有利于模型訓(xùn)練更快達(dá)到收斂.

2.3 利用有監(jiān)督的自編碼器探索蛋白質(zhì)構(gòu)象空間

將模擬軌跡整理為數(shù)據(jù)集,從中隨機(jī)取出80%作為訓(xùn)練集,剩余的20%作為測(cè)試集.以平方誤差作為損失函數(shù),用Adam優(yōu)化器[29]進(jìn)行訓(xùn)練,遍歷訓(xùn)練集500次,初始學(xué)習(xí)率為 1×10-4,并隨著遍歷次數(shù)以 1×10-8的速率減小.完成訓(xùn)練后,在 [0.05,0.95]×[0.05,0.95] 的范圍內(nèi)均勻選取10000個(gè)點(diǎn)作為自編碼器中間層隱空間的數(shù)據(jù)點(diǎn),將這些點(diǎn)輸入解碼器構(gòu)建出對(duì)應(yīng)的蛋白質(zhì)分子主鏈結(jié)構(gòu).模型訓(xùn)練和數(shù)據(jù)生成的相關(guān)運(yùn)算在RTX 3090Ti上運(yùn)行.

由于生成的結(jié)構(gòu)并不總是合理的,通過(guò)兩種判據(jù)對(duì)其進(jìn)行篩選.其一是蛋白質(zhì)的主鏈二面角取值需要滿(mǎn)足一定的規(guī)律,這一規(guī)律通常用Ramachandran圖來(lái)描述,將大量已知蛋白質(zhì)結(jié)構(gòu)的Ramachandran 圖的統(tǒng)計(jì)結(jié)果[30]作為參考,與模型生成的蛋白質(zhì)結(jié)構(gòu)的Ramachandran 圖進(jìn)行比較,若90%以上處于合理區(qū)間,則認(rèn)為該結(jié)構(gòu)的主鏈二面角分布是合理的.其二是不同原子之間不能存在空間沖突,使用分子模擬工具OpenMM[31]對(duì)分子結(jié)構(gòu)進(jìn)行一小段能量最小化,如果最終原子間的力比較小,就可以認(rèn)為該分子不存在空間沖突.考慮到這一步需要頻繁進(jìn)行,與其他分子模擬工具相比,使用直接運(yùn)行在Python中的OpenMM可以節(jié)省大量用于初始化模擬引擎的時(shí)間.由于模型僅產(chǎn)生主鏈部分的原子坐標(biāo),并非完整的分子,用ParmEd工具[32]將力場(chǎng)參數(shù)中非主鏈的部分刪去,同時(shí)將所有原子的電荷設(shè)置為0,在能量最小化時(shí)僅保留化學(xué)鍵和范德瓦耳斯力.能量最小化不僅可以篩選掉明顯不合理的結(jié)構(gòu),還可以對(duì)結(jié)構(gòu)中的一些鍵長(zhǎng)鍵角的錯(cuò)誤進(jìn)行修正.

模擬得到的構(gòu)象空間分布十分有限,在此基礎(chǔ)上進(jìn)行構(gòu)象空間探索也因此受到限制.為了進(jìn)一步擴(kuò)大構(gòu)象空間探索的范圍,將模型生成的結(jié)構(gòu)與原有數(shù)據(jù)集的一半合并成新的數(shù)據(jù)集,并重復(fù)進(jìn)行模型訓(xùn)練和構(gòu)象空間探索.隨著探索范圍逐漸擴(kuò)大,模型生成的不合理結(jié)構(gòu)逐漸增加,構(gòu)象空間的探索效率也隨之下降,因此只重復(fù)上述流程3次.

3 結(jié)果與討論

3.1 T4L構(gòu)象空間探索結(jié)果

以T4L的模擬軌跡作為訓(xùn)練集,進(jìn)行訓(xùn)練以及構(gòu)象空間探索,整個(gè)流程耗時(shí)僅20 min.探索結(jié)果如圖3所示,由于使用不同力場(chǎng)得到的模擬軌跡不同,構(gòu)象空間探索的區(qū)域也有所不同,整體上看使用AMBER99SB力場(chǎng)/OPC水模型的探索范圍更大.不過(guò)使用兩種力場(chǎng)得到的探索范圍都可以覆蓋包括所有參考晶體結(jié)構(gòu)在內(nèi)的訓(xùn)練集附近的區(qū)域,例如可以找到與PDB編號(hào)為173L晶體結(jié)構(gòu)[21]十分相似的構(gòu)象(圖4(a)),RMSD為0.7 ?.此外,探索結(jié)果中還可以看到大幅度的構(gòu)象變化,例如閉合狀態(tài)與打開(kāi)狀態(tài)的不同(圖4(b)),以及兩個(gè)結(jié)構(gòu)域的相對(duì)轉(zhuǎn)動(dòng)角度不同(圖4(c)).

圖3 T4L的構(gòu)象空間探索結(jié)果 (a) 使用AMBER99SB力場(chǎng)/OPC水模型;(b)使用CHARMM36m力場(chǎng)/TIP3P水模型Fig.3.Results of conformational space exploration of T4L:(a) With AMBER99SB/OPC;(b) with CHARMM36m/TIP3P.

圖4 探索到的不同T4L構(gòu)象 (a) PDB編號(hào)173L的晶體結(jié)構(gòu)(不透明)與探索到的相似結(jié)構(gòu)(透明);(b) 開(kāi)合程度不同的兩個(gè)構(gòu)象;(c) 扭動(dòng)情況不同的兩個(gè)構(gòu)象;紫色為α螺旋,黃色為β折疊Fig.4.Different T4L conformations explored: (a) PDB:173L(opaque) and a similar structure explored;(b) two conformations with different degrees of opening and closing;(c) two conformations with different degrees of twisting.α-helix is colored in purple and β-sheet is colored in yellow.

雖然模型生成的結(jié)構(gòu)都通過(guò)了二面角分布的檢驗(yàn),以及鍵長(zhǎng)鍵角和空間沖突的修正,但依然存在一些不合理的情況,如生成的結(jié)構(gòu)中二級(jí)結(jié)構(gòu)含量顯著低于晶體結(jié)構(gòu)和模擬軌跡中二級(jí)結(jié)構(gòu)的含量.為了驗(yàn)證模型產(chǎn)生結(jié)構(gòu)的合理性,我們使用kmeans算法,根據(jù)反應(yīng)坐標(biāo)將探索結(jié)果分為50組,取每一組最靠近中心的構(gòu)象作為代表,用tleap補(bǔ)全側(cè)鏈,然后進(jìn)行100 ns約束Cα原子的MD模擬,從而在不改變反應(yīng)坐標(biāo)的情況下修復(fù)二級(jí)結(jié)構(gòu).除少數(shù)情況由于側(cè)鏈存在空間沖突而失敗外,大部分代表構(gòu)象的二級(jí)結(jié)構(gòu)得到修復(fù)(圖5(a)和圖5(b)),DSSP[33]計(jì)算表明修復(fù)后二級(jí)結(jié)構(gòu)含量基本可以接近模擬軌跡的水平(圖5(c)).還計(jì)算了每個(gè)代表構(gòu)象與同組各構(gòu)象的主鏈RMSD,所有RMSD數(shù)值都小于2 ? (圖5(a)和圖5(b)),這說(shuō)明二級(jí)結(jié)構(gòu)的缺失只是由一些局部的偏差導(dǎo)致的,模型生成的大多數(shù)結(jié)構(gòu)都可以通過(guò)簡(jiǎn)單修正得到合理的結(jié)果,而側(cè)鏈可能存在空間沖突的情況則需要進(jìn)一步改進(jìn)模型來(lái)解決.

圖5 T4L構(gòu)象探索結(jié)果的合理性檢驗(yàn) (a) 使用AMBER99SB力場(chǎng)/OPC水模型;(b) 使用CHARMM36m力場(chǎng)/TIP3P水模型;(c) 修復(fù)后各代表構(gòu)象的二級(jí)結(jié)構(gòu)含量,參考值為模擬軌跡的平均值Fig.5.Plausibility check of T4L conformational exploration results: (a) With AMBER99SB/OPC;(b) with CHARMM36m/TIP3P;(c) secondary structure counts of each representative conformation after fixing,the reference is the average value of the simulated trajectory.

在上述流程中,閉合與打開(kāi)兩段模擬軌跡都被用于模型的訓(xùn)練.還測(cè)試了僅使用打開(kāi)狀態(tài)的模擬軌跡訓(xùn)練的情況(圖6),雖然探索區(qū)域由于訓(xùn)練集減少而縮小,但是仍然可以覆蓋包括閉合狀態(tài)在內(nèi)的各個(gè)晶體結(jié)構(gòu).

圖6 僅從打開(kāi)狀態(tài)出發(fā)的T4L構(gòu)象探索結(jié)果Fig.6.Results of T4L conformational exploration from the open state only.

3.2 AdK構(gòu)象空間探索結(jié)果

以AdK的模擬軌跡作為訓(xùn)練集,進(jìn)行訓(xùn)練以及構(gòu)象空間探索.結(jié)果如圖7所示,除了訓(xùn)練集中包含的完全關(guān)閉和完全打開(kāi)狀態(tài)外,還可以從中找到LID結(jié)構(gòu)域單獨(dú)打開(kāi)(圖8(a))和AMPbd結(jié)構(gòu)域單獨(dú)打開(kāi)的結(jié)構(gòu)(圖8(b)).

圖7 AdK的構(gòu)象空間探索結(jié)果 (a) 使用AMBER99SB力場(chǎng)/OPC水模型;(b)使用CHARMM36m力場(chǎng)/TIP3P水模型Fig.7.Results of conformational space exploration of AdK: (a) With AMBER99SB/OPC;(b) with CHARMM36m/TIP3P.

圖8 探索到的不同AdK構(gòu)象Fig.8.Different AdK conformations explored.

對(duì)AdK構(gòu)象探索結(jié)果的合理性進(jìn)行了檢驗(yàn),結(jié)果如圖9所示.在使用CHARMM36m力場(chǎng)/TIP3P水模型時(shí),修復(fù)后二級(jí)結(jié)構(gòu)含量與模擬軌跡相當(dāng),而使用AMBER99SB力場(chǎng)/OPC水模型時(shí),雖然也能修復(fù)到較高的水平,但與前者相比顯著偏低.這表明與CHARMM36m相比,AMBER99SB力場(chǎng)/OPC水模型的組合使蛋白質(zhì)結(jié)構(gòu)更加容易發(fā)生變化,探索構(gòu)象空間的范圍更大,同時(shí)二級(jí)結(jié)構(gòu)也會(huì)有一定的破壞,更適用于柔性較強(qiáng)的蛋白質(zhì)分子.

圖9 AdK構(gòu)象探索結(jié)果的合理性檢驗(yàn) (a) 使用AMBER99SB力場(chǎng)/OPC水模型;(b)使用CHARMM36m力場(chǎng)/TIP3P水模型;(c) 修復(fù)后各代表構(gòu)象的二級(jí)結(jié)構(gòu)含量,參考值為模擬軌跡的平均值Fig.9.Plausibility check of AdK conformational exploration results: (a) With AMBER99SB/OPC;(b) with CHARMM36m/TIP3P;(c) secondary structure counts of each representative conformation after fixing,the reference is the average value of the simulated trajectory.

值得注意的是,大部分構(gòu)象與其所在組的中心構(gòu)象之間的RMSD較小,除少數(shù)不合理構(gòu)象外,大部分RMSD較大的構(gòu)象都在模擬產(chǎn)生的訓(xùn)練集中.這意味著模型產(chǎn)生的構(gòu)象僅包含反應(yīng)坐標(biāo)相關(guān)的信息,而在與反應(yīng)坐標(biāo)正交的自由度上沒(méi)有表現(xiàn)出差異.這是由自編碼器自身的性質(zhì)決定的,對(duì)于相同的輸入總是會(huì)給出相同的輸出,而實(shí)際上如模擬軌跡反映的一樣,相同的反應(yīng)坐標(biāo)下,構(gòu)象仍應(yīng)該有一定的變化空間,這些空間是自編碼器無(wú)法探索的.因此,反應(yīng)坐標(biāo)的選取對(duì)該模型的效果至關(guān)重要.若要解決這一問(wèn)題,可以將自編碼器換成變分自編碼器,學(xué)習(xí)構(gòu)象系綜而非單個(gè)分子的特征,從而體現(xiàn)相同反應(yīng)坐標(biāo)下的差異.

以上結(jié)果是使用常規(guī)的自編碼器難以獲得的.將引入反應(yīng)坐標(biāo)監(jiān)督的自編碼器換成無(wú)監(jiān)督的自編碼器,對(duì)AdK的構(gòu)象空間進(jìn)行探索,結(jié)果如圖10所示.自編碼器需要從訓(xùn)練集中學(xué)習(xí)反應(yīng)坐標(biāo),這在采樣不足的情況下非常困難.通常情況下,自編碼器只能提取兩組軌跡的差異,并完成對(duì)兩種狀態(tài)之間的構(gòu)象空間探索,但是無(wú)法探索其他區(qū)域,例如圖8所示的單個(gè)結(jié)構(gòu)域打開(kāi)的構(gòu)象.引入反應(yīng)坐標(biāo)作為監(jiān)督的改進(jìn),使得自編碼器不再需要提取反應(yīng)坐標(biāo),從而可以在采樣不足的情況下工作.

圖10 使用普通自編碼器探索AdK的構(gòu)象空間Fig.10.Exploring the conformational space of AdK with a common self-encoder.

4 結(jié)論

本文對(duì)使用自編碼器探索蛋白質(zhì)構(gòu)象空間的方法進(jìn)行了改進(jìn),將監(jiān)督學(xué)習(xí)引入自編碼器的中間層,并使用改進(jìn)后的方法對(duì)T4L和AdK的構(gòu)象空間進(jìn)行探索,達(dá)到了預(yù)期的效果.結(jié)果表明這一改進(jìn)使該方法可以在有限采樣的情況下,僅使用很少的計(jì)算資源,就可以大范圍探索蛋白質(zhì)的構(gòu)象空間.

雖然模型只能生成構(gòu)象,并不能給出構(gòu)象的生物學(xué)意義以及動(dòng)力學(xué)過(guò)程,但是如果對(duì)特定體系引入實(shí)驗(yàn)信息,就可以篩選出具有生物學(xué)意義的構(gòu)象,以便進(jìn)行下一步的研究.對(duì)于實(shí)驗(yàn)信息較少的蛋白質(zhì)分子,可以直接通過(guò)模型生成有潛在研究?jī)r(jià)值的構(gòu)象,然后從這些構(gòu)象出發(fā)進(jìn)行MD模擬,研究蛋白質(zhì)分子的動(dòng)態(tài)過(guò)程,進(jìn)而預(yù)測(cè)可能的生物學(xué)意義.這種策略與僅依靠MD模擬的構(gòu)象空間采樣相比,效率更高.

在測(cè)試模型時(shí),發(fā)現(xiàn)了進(jìn)一步的改進(jìn)空間.通過(guò)對(duì)模型生成構(gòu)象的篩選和修正,可以確保構(gòu)象的合理性,但同時(shí)也降低了生成構(gòu)象的效率.考慮直接將對(duì)構(gòu)象合理性的要求引入模型的損失函數(shù)中,從而省去篩選和修正的過(guò)程.由于模型中只有蛋白質(zhì)的主鏈部分,有可能出現(xiàn)側(cè)鏈不合理情況,需要對(duì)不同氨基酸殘基做不同修正或在模型中使用完整的蛋白質(zhì)分子.對(duì)于模型生成的構(gòu)象無(wú)法表現(xiàn)出反應(yīng)坐標(biāo)之外變化的問(wèn)題,可以嘗試使用變分自編碼器.最后,反應(yīng)坐標(biāo)決定了構(gòu)象空間探索的方向,結(jié)合實(shí)驗(yàn)數(shù)據(jù)選取合適的反應(yīng)坐標(biāo)對(duì)模型的效果十分重要.基于這些思路,將繼續(xù)對(duì)該模型進(jìn)行發(fā)展和完善.

感謝中國(guó)科學(xué)技術(shù)大學(xué)超算中心張運(yùn)動(dòng)提供的硬件和軟件技術(shù)支持.