999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

分子體系自由能地貌圖的變分分析及AI 算法實現(xiàn)*

2024-04-02 08:25:06杜泊船田圃2
物理學(xué)報 2024年6期
關(guān)鍵詞:體系方法

杜泊船 田圃2)?

1) (吉林大學(xué)生命科學(xué)學(xué)院,長春 130012)

2) (吉林大學(xué)人工智能學(xué)院,長春 130012)

精確描述復(fù)雜分子體系的自由能地貌圖是理解和操控其行為,并進(jìn)一步實現(xiàn)分子設(shè)計制造工業(yè)化的重要基礎(chǔ).刻畫高維空間自由能地貌圖的主要挑戰(zhàn)是其往往在不同時空間尺度上具有多個層次,每個層次都可能有不止一個亞穩(wěn)態(tài)被相應(yīng)的自由能壘分開,且跨越路徑有可能不止一條.另外很多體系涉及非線性行為,這使得理論解析和直接使用分子模擬都有很大困難.針對這些挑戰(zhàn),多年來研究者們發(fā)展了多種多樣的增強(qiáng)采樣方法,但往往需要很多經(jīng)驗選擇和操作,從而一方面使得研究進(jìn)程較為緩慢,另一方面也讓誤差控制成為困難.變分雖然在物理、統(tǒng)計和工程中已經(jīng)被廣泛應(yīng)用并取得巨大成功,但在復(fù)雜分子體系中的應(yīng)用卻隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展剛剛開始.本文將對這些探索性工作的主要方向、進(jìn)展和局限進(jìn)行簡要總結(jié),也對將來的可能發(fā)展給出展望,希望能夠激發(fā)更多對基于變分的分子體系自由能地貌圖人工智能算法的關(guān)注和努力,促進(jìn)大分子藥物、分子生物機(jī)器等實踐應(yīng)用的發(fā)展.

1 引言

大多數(shù)復(fù)雜分子,尤其是生物大分子體系,都是通過構(gòu)象變化或者在一定尺度上的相變實現(xiàn)其功能的[1–6].和諸多分子的實驗合成與表征測試過程相比較,一方面分子模擬的代價往往更低廉;另一方面很多生物大分子復(fù)合體的大量合成非常困難甚至不可能,或者在能夠獲取的前提下動態(tài)表征很難實現(xiàn).因此分子模擬被廣泛用于研究復(fù)雜分子體系[7–9].決定分子體系各種行為的基礎(chǔ)是對應(yīng)的自由能地貌圖,因此對其準(zhǔn)確刻畫成為必要.實現(xiàn)這一目標(biāo)的主要挑戰(zhàn)是復(fù)雜分子體系一般不止一個亞穩(wěn)態(tài)并且相互之間有較高的自由能壘.所以對典型的復(fù)雜分子體系(如核糖體),想要從全原子分子模擬中完成所有亞穩(wěn)態(tài)的充分采樣,觀察對應(yīng)的構(gòu)象變化過程往往需要生成毫秒級甚至更長時間的模擬軌跡[10].這對百萬或更多原子的分子體系一方面算力需求很難滿足,另一方面在高維空間中理解所生成的軌跡也很不容易.因此人們發(fā)展了各種各樣的增強(qiáng)采樣方法[11–26]和軌跡降維分析方法[27].增強(qiáng)采樣方法大致可以分為兩大類,一類是保持分子體系的玻爾茲曼分布不變,通過改變溫度加速分子體系跨越能壘的方法[12,13].另外一類則是通過加持偏置力/勢(bias force/potential)(如元動力學(xué)方法[8]、自適應(yīng)偏置力方法[28]),這類方法的主要依據(jù)是雖然一般分子體系的總自由度數(shù)目成千上萬甚至更多,但在跨越能壘的時間尺度上很多局部的原子運動都由于時間尺度的分離而成為近似白噪聲,使得體系在對應(yīng)時空間尺度的運動可以用較少的反應(yīng)坐標(biāo)(reaction coordinates,RC)或者集合自由度(collective variable,CV)成功描述,下文中統(tǒng)稱集合自由度(CV).這類采樣算法的主要困難是集合自由度的構(gòu)建沒有系統(tǒng)的方法和步驟,研究者往往依靠物理直覺選擇部分體系自由度進(jìn)行組合嘗試.由于我們生活中感受到的都是三維空間中的物理存在,所以在體系維度升高后直覺判斷的準(zhǔn)確性會大打折扣.如何準(zhǔn)確地構(gòu)建有效的CV是目前復(fù)雜分子體系模擬中尚未解決的重大挑戰(zhàn)之一.集合自由度空間中主要有3 類互相關(guān)聯(lián)的問題,其一是準(zhǔn)確描述體系的集合自由度的構(gòu)建;其二是繪制出該空間內(nèi)主要亞穩(wěn)態(tài)所在的構(gòu)象空間位置和統(tǒng)計權(quán)重,并計算不同亞穩(wěn)態(tài)之間的轉(zhuǎn)化速率;其三是構(gòu)建不同亞穩(wěn)態(tài)之間的過渡路徑.這幾類問題的傳統(tǒng)應(yīng)對策略已經(jīng)被多個優(yōu)秀綜述覆蓋[14,29–41],本文主要簡述變分及其神經(jīng)網(wǎng)絡(luò)實現(xiàn)在這些領(lǐng)域的應(yīng)用,限于作者所熟悉研究工作的范圍,會遺漏一些優(yōu)秀的研究進(jìn)展,在此表示歉意.

本文的內(nèi)容組織如下,首先將對CV、變分和神經(jīng)網(wǎng)絡(luò)及自動微分進(jìn)行簡要說明,其次對目前已有的針對復(fù)雜分子體系自由能地貌圖的主要變分構(gòu)造方法加以討論,再次對這些基于變分的和其他CV 相關(guān)的神經(jīng)網(wǎng)絡(luò)方法進(jìn)行比較分析,最后展望將來的發(fā)展.

2 集合變量、相關(guān)神經(jīng)網(wǎng)絡(luò)架構(gòu)、自動微分和變分簡介

對一個在給定溫度T和勢能U(R) 下的分子體系,用R表示其 3N-3 維坐標(biāo),則平衡態(tài)玻爾茲曼分布為μ(R∫)=e-βU(R)/Z,其中β=(kBT)-1為逆溫度,Z=dRe-βU(R)為配分函數(shù),kB為玻爾茲曼常數(shù).在較長時間尺度上,這個分子體系的動力學(xué)一般可以使用比 3N維度低很多也平滑很多的d(d?N) 維自由能面描述,對應(yīng)一組由原來坐標(biāo)R的函數(shù)構(gòu)建的新變量s(R)=(s1(R),s2(R),···,sd(R)),分子體系自由能在這個低維空間也可表示為

人們通常稱這組新變量s(R) 為集合變量,δ(·) 表示δ函數(shù).

神經(jīng)網(wǎng)絡(luò)是目前人工智能技術(shù)浪潮的核心理論方法,簡而言之是由多個神經(jīng)元組成的復(fù)合函數(shù)網(wǎng)絡(luò).每個神經(jīng)元可以接受不同維度的輸入,經(jīng)過線性組合和非線性激活函數(shù)作用后輸出.雖然原則上神經(jīng)元之間的連接可以是任意的,但受視神經(jīng)分層分布的啟發(fā)和隨之帶來的并行計算方便,常用的各種神經(jīng)網(wǎng)絡(luò)架構(gòu)都是層狀結(jié)構(gòu).神經(jīng)網(wǎng)絡(luò)最有力的特點是只需要一個隱藏層,足夠多神經(jīng)元組成的網(wǎng)絡(luò)就可以無限逼近任意函數(shù)映射,這就是著名的萬能逼近理論(universal approximation theorem)[42–44].但這個理論并沒有指出如何在有限的神經(jīng)元數(shù)目的情況下有效擬合各種映射,所以其發(fā)現(xiàn)雖然在很大程度上增強(qiáng)了人們使用神經(jīng)網(wǎng)絡(luò)擬合各種函數(shù)映射的信心,卻并沒有迅速推動其在諸多實際問題中的應(yīng)用.后來多種神經(jīng)網(wǎng)絡(luò)架構(gòu)(卷積[45]、循環(huán)[45]、殘差[46]、注意力機(jī)制transformer[47]和擴(kuò)散模型[48])的發(fā)展推動了神經(jīng)網(wǎng)絡(luò)在多個學(xué)科領(lǐng)域應(yīng)用的爆發(fā).當(dāng)然另外一個不可或缺的基礎(chǔ)是自動微分的發(fā)現(xiàn)[49]和在神經(jīng)網(wǎng)絡(luò)中的成功應(yīng)用[50],這使得理論上基于任意階導(dǎo)數(shù)的優(yōu)化方法都能夠被有效用來訓(xùn)練神經(jīng)網(wǎng)絡(luò)參數(shù),當(dāng)然實際應(yīng)用中由于算力和內(nèi)存限制,人們往往限于使用基于一階和二階導(dǎo)數(shù)的優(yōu)化方法,諸多具體實例和相關(guān)文獻(xiàn)可以參考 PyTorch 中的 Optim 模塊.如下所述,在眾多神經(jīng)網(wǎng)絡(luò)架構(gòu)中,分子體系自由能地貌圖刻畫中應(yīng)用最為廣泛的是自編碼器(auto-encoder)架構(gòu)[51](如圖1 所示),該架構(gòu)把高維輸入映射到一個低維空間的降維部分被稱為編碼器(encoder),而隨后從低維逆向映射到高維(一般與輸入同維度以方便訓(xùn)練)空間的部分則被稱為解碼器(decoder).這顯然與人們試圖在更低維度空間理解復(fù)雜分子體系的目標(biāo)在形式上較為吻合.雖然在架構(gòu)形式上非常相似,但變分自編碼器(variational auto-encoder,VAE)[52]的目標(biāo)和訓(xùn)練過程卻與自編碼器顯著不同,其中的隱變量(z)是個概率分布而非特定構(gòu)型.如果分別用?和ψ表示編碼器和解碼器網(wǎng)絡(luò)中的參數(shù),q?(z|x)和pθ(x) 表示隱變量(z)和(x)的分布,則似然函數(shù)可表述如下:

圖1 自編碼器神經(jīng)網(wǎng)絡(luò)架構(gòu)示意圖,藍(lán)色部分表示編碼器(encoder)函數(shù) f(·),橙色部分表示解碼器(decoder)函數(shù) g(·),維度最低的綠色表示中間隱藏層(z),對自編碼器,損失函數(shù)是輸出()與輸入 xi 的差別的函數(shù)(也可以加正則化項,如參考文獻(xiàn)[58] (5)式所示),每一個輸入數(shù)據(jù)點對應(yīng)隱藏層空間的一個點Fig.1.Schematic representation of an auto-encoder neural network.The blue part on the left represents the encoder,the orange part on the right represents the decoder,and the middle green layer is the hidden layer (z).The loss is always a function of the difference between the input and the output vectors (xi and ),one may add some form of regularization when necessary (e.g.Eq.(5) in Ref.[58]).

其中,DKL(qφ(z|x)||pθ(z|x))≥0,所以Lθ,φ(x)=Eq?(z|x)[logpθ(x,z)-logq?(z|x)] 就是似然函數(shù)的下界,也稱為證據(jù)下界(evidence lower bound,ELBO)或變分下界,是變分優(yōu)化的目標(biāo),而非自編碼器中解碼器輸出構(gòu)型與數(shù)據(jù)中實際構(gòu)型差別的函數(shù).為了對隨機(jī)隱變量(z)對自動微分,Waterfall等[53]發(fā)展了二次參數(shù)化技巧(reparameterization trick).

變分的歷史非常悠久,也是諸多理工科研究生的必修課程內(nèi)容.變分在物理、統(tǒng)計和工程領(lǐng)域都已經(jīng)取得了非常廣泛和成功的應(yīng)用[49,54],如量子力學(xué)中的 Releigh-Ritz 方法[55]也正是本文中要討論的分子體系變分計算的基礎(chǔ).另外統(tǒng)計學(xué)中的大量應(yīng)用展示了變分推斷方法同采樣計算相比高效、收斂性較好和更容易擴(kuò)展的特點[56,57].在神經(jīng)網(wǎng)絡(luò)廣泛應(yīng)用之前,由于各種未知統(tǒng)計分布的解析和(或)參數(shù)化構(gòu)造較為困難,因此基于平均場的變分成為統(tǒng)計變分分析中最為常用的近似[56].但在分子模擬及其增強(qiáng)采樣中的應(yīng)用卻在最近十多年才陸續(xù)發(fā)生.原因主要有兩點,其一是和很多統(tǒng)計模型與工程應(yīng)用不同,分子體系中的集合變量很難找到直接的方程或模型解析描述,其二是傳統(tǒng)數(shù)值擬合方法(如最小二乘法[58])中導(dǎo)數(shù)計算昂貴且精度不高,各種優(yōu)化方法實現(xiàn)困難,而且在變量較多(大于10 個)時會收斂困難[53].不過最近十多年以來基于自動微分[49]的多個人工智能框架Pytorch[59],Tensorflow[60],PaddlePaddle[61]迅速發(fā)展成熟,與之伴隨的神經(jīng)網(wǎng)絡(luò)架構(gòu)[62]也得到了迅猛發(fā)展.這使得在擁有較為充足數(shù)據(jù)的前提下,任意函數(shù)的穩(wěn)健擬合成為可能,因此增強(qiáng)采樣和軌跡分析的變分應(yīng)用也隨之發(fā)展.傳統(tǒng)上人們探索復(fù)雜分子體系自由能地貌圖的主要手段是(加速)采樣,變分的突出優(yōu)點是用優(yōu)化取代采樣過程,從而顯著提高效率.現(xiàn)代神經(jīng)網(wǎng)絡(luò)架構(gòu)的強(qiáng)大擬合能力和基于自動微分的各種優(yōu)化方法的結(jié)合為變分在復(fù)雜分子體系中的應(yīng)用提供了巨大的潛力空間.這也正是本文想要討論的話題.

3 分子體系集合變量空間的變分方法

同物理學(xué)、工程和統(tǒng)計應(yīng)用比較,變分在復(fù)雜分子體系自由能地貌圖應(yīng)用相對較少,主要是近十多年的工作,不過目前正在迅速增長中.目前的發(fā)展大致可以分為利用轉(zhuǎn)移矩陣算子特征值和特征向量頻譜分解分析(spectral decomposition analysis)的變分構(gòu)建[63–68];基于自由能壘跨越概率時間關(guān)聯(lián)函數(shù)的變分[69–71];利用偏置勢(bias potential)的變分構(gòu)建[72];不受線性假設(shè)局限的可匯集性(lumpability)與可分解性(decomposobility)泛函變分構(gòu)建[73];基于過去-將來信息瓶頸的變分構(gòu)建[74,75];同時考慮粗粒化、集合變量和增強(qiáng)采樣的自適應(yīng)[76];以及直接利用變分自編碼器的分析[77],這些方法的簡要總結(jié)比較見表1.具體如下所述.

表1 復(fù)雜分子體系低維隱空間的變分方法簡要總結(jié),表中所述集合空間問題類別是指引言中提到的三類問題Table 1.A brief summary of variational methods for low-dimensional hidden spaces in complex molecular systems.The category of collective space problems mentioned in the table refers to the three types of problems defined in the introduction.

3.1 頻譜分解分析

在嚴(yán)格馬爾可夫過程和細(xì)致平衡假設(shè)下,針對給定的子態(tài)構(gòu)象空間劃分,Perez-Hernandez 等[65]發(fā)展了利用演化算子P(propagator)特征函數(shù)自相關(guān)構(gòu)建的變分實現(xiàn)了對最慢動力學(xué)過程集合變量(CV)的逼近,分子體系動力學(xué)可以被下式表述為演化算子特征函數(shù)?i(i=1,2,···,∞) 的疊加:

其中ti是和第i個特征值λi(τ)=e-τ/ti對應(yīng)的時間尺度,尖括號代表標(biāo)量積,〈ψi,ρt〉的結(jié)果表征概率密度ρt和ψi的重疊程度,體現(xiàn)了第i個特征函數(shù)對總體動力學(xué)的貢獻(xiàn).因為ψi=μ-1(x)?i,也可以認(rèn)為概率密度函數(shù)ρ是基于特征函數(shù)?i展開的.顯然隨著τ→∞,概率密度會趨于平衡態(tài),(3)式中只有第1 項有貢獻(xiàn),對應(yīng)于λ1=1 .如果人們感興趣的時間尺度τ?td+1,則分子體系的動力學(xué)主要取決于對應(yīng)于 (λ1,λ2,···,λd)的d個特征函數(shù),也對應(yīng)于前面(見方程(1)中的s(R) 定義)所說的d個集合變量.(3)式可近似為

對于分子體系坐標(biāo)的任意函數(shù)f(x),其自相關(guān)函數(shù)可以表述為

顯然如果取f=ψi(x),則

顯然(8)式中轉(zhuǎn)化過程χ0和χ1一般是非線性并且未知的.神經(jīng)網(wǎng)絡(luò)的可訓(xùn)練萬能逼近能力為其構(gòu)建未知轉(zhuǎn)換的提供了可能性.VAMPNets[67]正是在這種思考下構(gòu)建的.對于給定的χ0和χ1變換可以構(gòu)建3 個方差矩陣:

這些方差矩陣被用來構(gòu)建了一個VAMP-2 打分[66]:

該分值最大化時對應(yīng)在轉(zhuǎn)化后的低(d)維空間分子構(gòu)象分布被準(zhǔn)確復(fù)現(xiàn).以這個分值作為損失函數(shù)的神經(jīng)網(wǎng)絡(luò)通過訓(xùn)練就有可能實現(xiàn)從體系原始高維坐標(biāo)向低維空間較為準(zhǔn)確的映射,實際上起到了低維空間模糊分類器的功能,消除了前述變分理論[65]中對人工聚類及以前各個步驟的需求.具體實現(xiàn)架構(gòu)如圖2(a)所示[67].對丙氨酸二肽體系,Mardt 等[67]利用圖2(b)的特定架構(gòu),設(shè)定低維空間類別數(shù)目為6(也嘗試了從2—8 的其他類別數(shù)目),首先從250 ns 的分子動力學(xué)模擬軌跡中每皮秒提取一幀得到250000 個構(gòu)型,并通過和第一幀對齊除去分子的整體平移和旋轉(zhuǎn).使用十個重原子的三維空間(即長度為30 的向量)坐標(biāo)作為神經(jīng)網(wǎng)絡(luò)輸入,取延遲時間τ=40 ps (也嘗試了從4—32 ps的其他延遲時間),通過最大化VAMP 打分,成功實現(xiàn)了在二維二面角空間 (φ,ψ) 的構(gòu)象聚類.他們同時使用MSM 流程聚類,當(dāng)構(gòu)象類別數(shù)目小于20 時得到VAMP 打分都低于VAMPnets 的結(jié)果.此外Mardt 等[67]還嘗試分析了簡單雙勢阱和NTL9蛋白折疊軌跡,均展示了和原來人工復(fù)雜流程可比擬的準(zhǔn)確性,也說明這個思路有望在將來通過逐步發(fā)展真正實現(xiàn)自動分析分子模擬軌跡得到動力學(xué)特性的可能性.不過目前該方法還不夠成熟,尚不能用于多系綜組合數(shù)據(jù)[79–84],也不能有效集成模擬軌跡與相關(guān)實驗數(shù)據(jù),另外還缺乏嚴(yán)格清楚定義的誤差估算指標(biāo)[85–87].但該研究結(jié)合變分理論和非線性的神經(jīng)網(wǎng)絡(luò)擬合,取代了原來 MSM 方法管線中一系列復(fù)雜步驟,并在簡單體系中實現(xiàn)了首次成功應(yīng)用,是人工智能用于分析復(fù)雜分子體系軌跡的重要進(jìn)展.VAMPNets 的神經(jīng)網(wǎng)絡(luò)架構(gòu)較為簡單,鑒于圖神經(jīng)網(wǎng)絡(luò)[88–91]和注意力機(jī)制[92]在網(wǎng)絡(luò)型數(shù)據(jù)中的優(yōu)異表現(xiàn),考慮到復(fù)雜分子體系可以被視為由相互作用的單元構(gòu)成的網(wǎng)絡(luò)圖,Brooks 等[93]構(gòu)建了包含這兩種架構(gòu)要素的 GraphVAMPnet,該模型實現(xiàn)了更高精度的構(gòu)象嵌入表示,也能夠通過注意力機(jī)制給出蛋白質(zhì)中對結(jié)構(gòu)聚類起決定性作用的重要氨基酸.在20-氨基酸的 Trp-cage 蛋白,35-氨基酸的 Vilin 蛋白和 NTL9 蛋白軌跡上的成功應(yīng)用展示了這些神經(jīng)網(wǎng)絡(luò)構(gòu)架改變的好處.

圖2 (a) VAMPnets 構(gòu)建VAMP 打分((10)式)的神經(jīng)網(wǎng)絡(luò)總體架構(gòu)示意圖;(b)丙氨酸二肽軌跡分析實例中的典型神經(jīng)網(wǎng)絡(luò)架構(gòu),各層神經(jīng)元數(shù)目為 32-22-16-9-6,前兩層使用10%的dropout,除最后的softmax 層外,其余各層激活函數(shù)均使用Relu[67]Fig.2.(a) Schematic illustration of VAMP score construction from VAMPnets (see Eq.(10)).(b) A typical neural network architecture for analine dipeptide analysis,with the number of neurons being 32-22-16-9-6 for five layers.The first two layers utilized a 10% dropout.Relu was selected as the activation function for all layers except the last softmax layer[67].

隨著人們使用電子顯微鏡解析生物大分子復(fù)合體的能力越來越強(qiáng),如何解釋這些復(fù)合體的動力學(xué)過程變成了亟待解決的問題.為了增進(jìn)處理較大分子的能力并在將來能夠有可能延伸到大復(fù)合體,Noé等[94]結(jié)合獨立馬爾可夫分解方法(independent Markov decomposition,IMD)構(gòu)建了由多個獨立的VAMPNets 構(gòu)成的iVAMPNets.其中不同獨立模塊的劃分由一個可訓(xùn)練的MASK 實現(xiàn),通過競爭訓(xùn)練使每個不同的子網(wǎng)絡(luò)僅處理不與其他子網(wǎng)絡(luò)相互重疊的部分.雖然該方法在Synaptotagmin-C2A 蛋白質(zhì)分子中成功應(yīng)用,但顯然這種處理僅適用于不同子模塊間耦合程度較弱的情況,距離準(zhǔn)確描述不同組成分子之間有較強(qiáng)關(guān)聯(lián)的復(fù)雜復(fù)合體仍然有較大距離.利用VAMPNets 輸出的子構(gòu)象空間(狀態(tài))概率,Kleiman 和Shukla[68]嘗試了結(jié)合3 種不同后續(xù)處理,包括最小計數(shù)(least count,LC),多目標(biāo)強(qiáng)化學(xué)習(xí)(multiagent reinforcement learning-based,MA REAP)和最大熵(MaxEnt),顯著促進(jìn)了構(gòu)象空間搜索能力.這3 種方法的宗旨基本一致,就是利用前期生成的軌跡對VAMPNets 進(jìn)行初步訓(xùn)練后,在后續(xù)的采樣中按照上述不同標(biāo)準(zhǔn)聚焦前期采樣最少訪問的構(gòu)象空間,從而實現(xiàn)更進(jìn)一步的增強(qiáng)采樣.其中最大熵和VAMPNets 的結(jié)合在促進(jìn)采樣的同時消除了聚類步驟.

3.2 自由能壘跨越概率時間關(guān)聯(lián)函數(shù)的變分

弦方法[95–99]和過渡路徑理論(transition path theory,TPT)[40]致力于尋找不同亞穩(wěn)態(tài)之間過渡路徑及其過渡態(tài)的關(guān)鍵細(xì)節(jié).不過這些方法在得到最低自由能過渡路徑的同時,卻不能直接給出人們非常感興趣的路徑上任意一點的 自由能壘跨越概率.針對此問題,文獻(xiàn)[71,100]基于兩個亞穩(wěn)態(tài)之間的凈向前反應(yīng)通量構(gòu)造了自由能壘跨越概率時間關(guān)聯(lián)函數(shù),發(fā)展了通過變分最小化該函數(shù)獲得最佳過渡路徑并同時給出自由能壘跨越概率的方法.對兩個亞穩(wěn)態(tài) A和B,集合變量空間從A 到B 在時間步長τ基于算子Pτ(s′|s) 的向前演化可表示為

其中ρ(s,t)和ρ(s′;t+τ) 分別對應(yīng)于時刻t(t+τ)在路徑位置s(s′)處的概率密度.則自由能壘跨越概率q(s),即從s開始最終到達(dá)亞穩(wěn)態(tài)B 并且在此前從未到達(dá)亞穩(wěn)態(tài)A 的所有過渡路徑概率之和,可定義如下:

則凈向前(從 A到B)反應(yīng)流為

也可以表達(dá)為自由能壘跨越概率的自相關(guān)函數(shù):

其中二次方形式可以作為任意給定始末態(tài)時嘗試自由能壘跨越概率q(s′) 的變分優(yōu)化目標(biāo).該方法使用基組展開,通過優(yōu)化系數(shù)來達(dá)到變分優(yōu)化的目標(biāo),在模型雙勢阱問題中展示了簡化子空間(CV 空間)中理想一維反應(yīng)坐標(biāo)走向沿著 自由能壘跨越概率梯度,與高維空間中的 Kramers-Langer 理論[101,102]一致.文獻(xiàn)[100]是針對過渡路徑變分構(gòu)建的首次嘗試,并在雙勢阱問題和丙氨酸二肽中展示了應(yīng)用.由于變分函數(shù)限于選定基組函數(shù)的線性組合空間,其結(jié)果顯然會受到基組選擇和線性組合的制約.Chipot 等[69]將自由能壘跨越概率時間關(guān)聯(lián)函數(shù)的變分方法延伸到了神經(jīng)網(wǎng)絡(luò)(variational committor-based neural networks,VCN),從而可以擬合任意非線性映射.同基于特征值變分優(yōu)化的 VAMPNets 相比較,在雙勢阱體系和N-acetyl-N′-methylalanylamide 異構(gòu)化過程中均得到一致結(jié)果.不過顯著不同的是 VCN 需要已知始末態(tài),針對的目標(biāo)是一對始末態(tài)之間的過渡路徑,而 VAMPNets 則是從軌跡數(shù)據(jù)開始的無監(jiān)督學(xué)習(xí).另外一點是有時候人們最感興趣的慢過程可能不是分子體系中最慢的過程,這種情況下顯然VCN 更為適合.這兩類方法可以協(xié)同使用從而結(jié)合其各自優(yōu)勢,當(dāng)然也有可能在將來集成到更復(fù)雜的神經(jīng)網(wǎng)絡(luò)架構(gòu)中.

3.3 基于偏置勢的變分

在給定CV 的前提下,Valsson 和Parrinello[103]構(gòu)建了一個基于CV 空間偏置勢V(s) 的泛函:

其中p(s) 是一個自由選擇的目標(biāo)分布,這賦予人們使用該泛函的靈活性(當(dāng)然也伴隨著選擇的挑戰(zhàn)).該泛函是一個凸函數(shù)并且不隨偏置勢任意給定的有限常數(shù)的改變而變化.用F(s) 表示體系自由能,則當(dāng)V(s)=-F(s)-(1/β)logp(s) 時,泛函?[V] 取極小值,因此在選定p(s) 的前提下通過參數(shù)化的V(s),以?[V] 極小值為目標(biāo)的變分優(yōu)化即可求解自由能地貌圖.該方法使用線形基組組合在丙氨酸三肽分子中成功應(yīng)用.另外,該泛函同Kullback-Leibler (KL)散度(DKL)的關(guān)系如下所示[46,104,105]:

其中PV和P0分別是 偏執(zhí)勢為V和0 時體系的概率密度分布.由于凸函數(shù)特性,使得偏置勢與自由能面有確定關(guān)系的駐點也是其極值點.因此通過參數(shù)化偏置勢,就可以對參數(shù)實施變分優(yōu)化從而求解自由能面.這在原理上比元動力學(xué)采樣方法要高效很多,不過,其表現(xiàn)受限于所選CV 在較長時間尺度上描述自由能面的能力.為了克服對該泛函線性展開可能出現(xiàn)的一些麻煩(比如自由能變化劇烈的區(qū)域需要很多項才能實現(xiàn)較好擬合,集合變量增大時需要變分優(yōu)化的參數(shù)空間指數(shù)增長),Bonati 等[72]用神經(jīng)網(wǎng)絡(luò)表示偏置勢泛函,在給定的集合變量定義下通過優(yōu)化神經(jīng)網(wǎng)絡(luò)參數(shù)實現(xiàn),如下所示:

泛函數(shù)值微分需要統(tǒng)計平均((17)式中的尖括號表示系綜平均),因此需要采樣獲取.直接高精度確定最低點較為困難,因此Bonati 等[72]在實現(xiàn)過程選擇獲得達(dá)到一定近似程度的偏置勢,評判的標(biāo)準(zhǔn)選用了pV(s)和p(s) 在迭代次數(shù)n時的KL 散度距離:

顯然,此過程在數(shù)值實現(xiàn)中需要選定兩個參數(shù),一個是選定每次迭代計算KL 散度之間的模擬更新次數(shù),另一個是每次更新時學(xué)習(xí)率調(diào)整的幅度.為了集成CV 構(gòu)建和偏置勢優(yōu)化,Bonati 等[106]利用VAMPNets 的VAMP 打分作為損失函數(shù),利用深度神經(jīng)網(wǎng)絡(luò)和TICA (time-structure based independent component analysis)結(jié)合生成CV,隨后在更新的CV 空間采用OPES[100]增強(qiáng)采樣思路,實現(xiàn)了CV 優(yōu)化和自由能地貌圖收斂的迭代.他們在丙氨酸二肽、chignolin 蛋白折疊和材料結(jié)晶過程的成功展示了該方法的應(yīng)用[106].

3.4 基于可匯集性(lumpability)和可分解性(decomposability)的非線性變分描述

由于馬爾可夫假設(shè)和特征函數(shù)構(gòu)建中的線性假設(shè),基于頻譜分解分析的變分優(yōu)化無法正確處理非馬爾科夫過程[40]和線性無關(guān)特征函數(shù)之間的非線性關(guān)聯(lián),這些根本上的局限無法在后期變分優(yōu)化中被消除.針對這個問題,Bittracher 等[73]通過延伸過渡流形理論(transition manifold theory)發(fā)展了不包含任何線性假設(shè),只關(guān)注于長時間尺度分子體系行為,顯式包含誤差量且在可逆體系中互相等價的條件,lumpability和decomposability(詳見文獻(xiàn)[73]的definition 3.2,3.4),這兩個條件都可以作為損失函數(shù)變分.此外該變分在近似損失函數(shù)時只要求在集合變量子空間的稀疏采樣,而且損失函數(shù)的蒙特卡羅積分誤差取決于集合變量子空間而非原高維空間的方差,這會帶來巨大的算力節(jié)省.該理論和過渡路徑理論的連接仍然有待闡明.另外這些理論上的優(yōu)勢在百萬級甚至更大的復(fù)雜分子體系如何得以實現(xiàn)也有待于進(jìn)一步探索.

3.5 過去-將來信息瓶頸模型

Wang 等[74]將分子體系中的集合變量空間視為其演化過程中的過去-將來信息瓶頸(pastfuture information bottleneck,PIB[107,108]),對 給定分子體系任意時刻坐標(biāo)X和下一時刻坐標(biāo)X?t,通過瓶頸變量χ(與集合變量類似的分子體系低維空間描述)分別和編碼器P(χ|X) 與解碼器P(X?t|χ) 聯(lián)系 (注意文獻(xiàn)[74]中結(jié)果部分第1段把坐標(biāo)X誤解釋 為N個粒子 體系中的d維(1?d?N) 表示,容易引起混亂).PIB 的目標(biāo)是瓶頸變量χ相對于過去應(yīng)該盡量簡單但對于將來則應(yīng)該有盡可能好的預(yù)測力,Wang 等[74]據(jù)此構(gòu)建了如下優(yōu)化目標(biāo):

其中I(χ,X?t)和I(X,χ) 分別 表示瓶頸變量與X?t和X的互信 息,常數(shù)γ∈[0,∞) 用來平衡瓶頸變量χ的復(fù)雜程度和預(yù)測力.進(jìn)一步通過選擇確定性的線性編碼器,則第2 項可以忽略.他們?nèi)缓罄肎ibbs 不等式構(gòu)建了可變分優(yōu)化的PIB 下限近似:

其中H和C分別表示香農(nóng)和交叉熵,Q?為隨機(jī)深度神經(jīng)網(wǎng)絡(luò)構(gòu)建的解碼器.由于選擇Pθ為確定性線性編碼器,香農(nóng)熵項退出優(yōu)化目標(biāo),可得更新變分下界:

其中?為隨機(jī)神經(jīng)網(wǎng)絡(luò)中的變分優(yōu)化參數(shù).對平衡態(tài)軌跡{X1,···,XM+k}(Xn和Xn+k之間的時間間隔為 ?t),方程(20)可被離散為

其中χn從P(χn|Xn) 中采樣得到.對于有對應(yīng)偏置勢{V1,V2,···,VM+k}下模擬的軌跡則可在假設(shè)偏置勢不改變解碼器的情況下近似表述為

實際計算中Wang 等[74]選擇用坐標(biāo)的線性基組組合得到CV,首先對平衡態(tài)軌跡通過逐步增加 ?t觀察基組各項的權(quán)重變化,并取其趨于穩(wěn)定后最小的 ?t.隨后則按照方程(24)和(25)計算偏置勢并重新估算機(jī)組系數(shù),反復(fù)迭代:

其中w=eβVbias,Pu(χ) 是沒有偏置勢的情況下χ的平衡態(tài)分布.簡單的確定性線性編碼器在帶來方便的同時也在一定程度上限制了該方法的靈活性,但PIB 的優(yōu)點之一是原則上沒有其他線形假設(shè),不過在PIB 思路下(見(19)式)使用非線性編碼器后的變分優(yōu)化方法仍有待發(fā)展.該方法在苯-溶菌酶復(fù)合體模擬中獲得了成功,在幾百納秒的加速模擬中觀察到了幾百毫秒常規(guī)模擬所觀察到的解離過程.Beyerle 等[75]后來使用該方法成功描述了雙勢阱模型和苯甲酸在雙分子層膜中擴(kuò)散這兩個分別由能量和熵主導(dǎo)的過渡路徑,進(jìn)一步展示了該方法的穩(wěn)健性.

3.6 變分自適應(yīng)

與前述變分方法主要關(guān)注集合變量和偏置勢不同,對有明確集合變量的情況,Zhang 等[76]結(jié)合生成式深度學(xué)習(xí)和基于能量模型[109](energy based models,EBM)發(fā)展了對抗密度估計變分,直接計算自由能地貌圖中的概率密度分布.將平衡態(tài)真實自由能對應(yīng)的概率分布記為p,在集合變量空間的參數(shù)化自由能地貌圖和對應(yīng)的分布分別記為Fθ(s)和pθ(s),則KL 散度DKL(p||pθ)對θ的導(dǎo)數(shù)可表示為

其中〈f(x)〉p(x)表示函數(shù)f(x) 在分布p(x) 下的期望值.(26)式和對抗神經(jīng)網(wǎng)絡(luò)[76,110]高度相似,因此在原文中被稱為變分對抗密度估計 (variational adversarial density estimation,VADE).在實際操作中可以用粗粒化實驗數(shù)據(jù)PFG(s) 取代真是分布p.再通過粗粒化模擬計算〈β?θFθ(s)〉pθ(s).對于集合變量維度較高的情況,由于直接采樣計算代價過于昂貴,Zhang 等[76]通過加入可訓(xùn)練生成神經(jīng)網(wǎng)絡(luò)模塊作為神經(jīng)采樣器(neural sampler)qψ,采用下式實現(xiàn)變分訓(xùn)練:

加速分子體系自由能地貌圖統(tǒng)計概率分布參數(shù)的訓(xùn)練.對于沒有集合變量函數(shù)的更一般情況,通過加入了強(qiáng)化學(xué)習(xí)模式,較好地解決了固定偏置勢在動態(tài)采樣中尷尬的同時,實現(xiàn)了粗細(xì)兩個不同粒度的有效采樣補充.這些方法都被集成在SPONGE[111]平臺上.

3.7 變分自編碼器的直接應(yīng)用

上述構(gòu)建顯式變分優(yōu)化目標(biāo)函數(shù)的做法能夠給出更有效的物理圖像,神經(jīng)網(wǎng)絡(luò)主要用于擬合其中未知非線性映射過程.不過即使沒有直接顯式變分目標(biāo)函數(shù)的構(gòu)建,變分的思想依然可以被利用.最簡單的做法就是直接使用變分自編碼器VAE 架構(gòu)[77]對自己感興趣的目標(biāo)數(shù)值分布進(jìn)行優(yōu)化,同時在生成的隱空間(對應(yīng)于分子體系集合變量空間)展開一系列增強(qiáng)采樣的操作,必要時再引入迭代機(jī)制.

Ribeiro 等[112]發(fā)展了重配權(quán)變分貝葉斯增強(qiáng)采樣(reweighted auto encoded variational Bayes for enhanced sampling,RAVE)方法,通過隱空間分布和模擬的KL 散度優(yōu)化自編碼器,更新偏置勢模擬后迭代優(yōu)化直至收斂,實現(xiàn)了獨立于傳統(tǒng)方法的隱空間增強(qiáng)采樣.針對在MSM 模型中使用過渡路徑理論方法時會得到大量子狀態(tài)之間的路徑,從而使結(jié)果難以理解的困境,Qiu 等[113,114]利用VAE的數(shù)值分布變分優(yōu)化,在隱空間實現(xiàn)了類似過渡路徑的合并.該方法被成功應(yīng)用在兩個不同的簡單體系,分別是一對疏水粒子在水溶液中的聚集和Fip35WW 結(jié)構(gòu)域折疊路徑的分析中.利用VAE能夠有效預(yù)測編碼空間、隱空間和解碼空間概率密度的特性,Monroe 和Shen[115]發(fā)展了基于隱空間的蒙特卡羅移動建議方法,再通過編碼和解碼,從而實現(xiàn)在真實高維空間有效且高接受率的移動.該方法的突出優(yōu)點是直接滿足細(xì)致平衡要求,不需要一般偏置勢加速采樣生成軌跡后的權(quán)重調(diào)整,從而避免了與之伴隨的所有潛在問題和困難.這個思路和通過粗粒化模擬促進(jìn)(細(xì)粒度)全原子模擬[76],以及把低維子空間視為信息瓶頸[74,75]的具體方式雖然差別較大,但總體基本思路一致.不同粒度之間更加高效準(zhǔn)確的構(gòu)型映射和信息傳遞還有很大的方法學(xué)發(fā)展空間,這方面的新發(fā)展也大概率會顯著促進(jìn)復(fù)雜分子體系高精度多尺度模型的構(gòu)建.

4 其他神經(jīng)網(wǎng)絡(luò)方法在自由能地貌圖相關(guān)研究中的應(yīng)用

神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)的萬能逼近能力使得其在自由能面探索中從多個角度被加以應(yīng)用.其中很多工作都致力于獲得更好的集合變量以改善復(fù)雜體系的增強(qiáng)采樣.早在2005 年,Ma 和Dinner[116]就開始使用神經(jīng)網(wǎng)絡(luò)用來尋找復(fù)雜體系的反應(yīng)坐標(biāo).針對各種傳統(tǒng)降維方法不能直接把結(jié)果中的低維空間(集合)變量表達(dá)為原空間坐標(biāo)的問題,Chen 和Ferguson[117]利用自編碼器可以實現(xiàn)從高維輸入空間到低維隱空間之間的可訓(xùn)練映射,把通過已有軌跡數(shù)據(jù)訓(xùn)練生成的隱空間自由度作為集合變量,從而實現(xiàn)了對集合變量偏置勢通過自編碼器對高維空間坐標(biāo)的直接微分計算偏向受力,集成了集合變量的神經(jīng)網(wǎng)絡(luò)構(gòu)建和在加速采樣中的直接應(yīng)用,該方法在丙氨酸二肽和TrpCage 蛋白體系中被成功使用.與此類似,Chen 等[118]也采用自編碼器進(jìn)行降維訓(xùn)練獲得CV,然后通過自動微分把施加于CV 上的偏置勢傳遞到分子體系中去實現(xiàn)模擬采樣和自由能計算.

與使用變分優(yōu)化特征函數(shù)不同的另外一種思路是回歸方法.Wehmeyer 和Noé[119]嘗試了選擇對N個連續(xù)時間坐標(biāo)序列(Xt,Xt+τ,t=1,2,···,N)最小化回歸誤差[120–122]:

其中D和E分別為編碼器和解碼器.在對已有軌跡數(shù)據(jù)的時間序列坐標(biāo)構(gòu)型按照下式進(jìn)行均值歸零((28)式和(29)式)和白化((30)式和(31)式):

然后對處理后的坐標(biāo)優(yōu)化訓(xùn)練,實現(xiàn)編碼器降維和解碼器對原空間的映射:

通過訓(xùn)練過程中在輸出端使用相對輸入端t時刻的延后t+τ時刻坐標(biāo),也實現(xiàn)了演化的預(yù)測.對于在構(gòu)象空間中線性可分的不同亞穩(wěn)態(tài),該方法被證明同Koopman 模型[49,68]等價.但對非線性可分的體系,與PCA 和TICA 及人工構(gòu)造特征空間相比,文獻(xiàn)[119]的丙氨酸二肽體系顯示通過編碼器和解碼器的深度學(xué)習(xí)擬合則可以更好地處理.

Zhang 和Chen[123]針對不恰當(dāng)?shù)腃V 會在其正交空間出現(xiàn)亞穩(wěn)態(tài)簡并(degeneracy)從而導(dǎo)致對應(yīng)方向不能加速采樣的問題,發(fā)展了利用隨機(jī)動力學(xué)嵌 入(stochastic kinetic embedding,StKE)的半監(jiān)督學(xué)習(xí)方法增加對當(dāng)前信息最匱乏區(qū)域(current least informative regions,CLIRs)的主動學(xué)習(xí)采樣(active enhanced sampling,AES),這與Kleiman 和Shukla[68]在VAMPNets 輸出構(gòu)象類型采樣最少的部分增加后續(xù)采樣的思路類似.該方法成功在丙氨酸二肽和五肽met-enkephalin體系中從隨意給定的無效CV 開始,以較短時間實現(xiàn)了對自由能地貌圖的可靠采樣.Rydzewski和Valsson[124]提出的多尺度重配權(quán)重隨機(jī)嵌入(multiscale reweighted stochastic embedding,MRSE)則在此基礎(chǔ)上更進(jìn)一步,通過高斯混合模型描述高維特征空間和重配權(quán)重,實現(xiàn)對平衡態(tài)和偏置勢采樣數(shù)據(jù)在訓(xùn)練中的有效使用.該方法被Rydzewski和Valsson 應(yīng)用到-Brown Potential以及丙氨酸二肽和四肽體系,也已被整合到開源的PLUMMD 軟件包(https://www.plumed-nest.org/eggs/21/023/).類似地,Belkacemi 等[125]發(fā)展了利用自編碼器的自由能偏置勢迭代學(xué)習(xí) (free energy biasing and iterative learning with auto encoders,FEBILAE),該方法可以對在平衡態(tài)或者偏置勢下采樣的軌跡重配權(quán)重后作為自編碼器的輸入(既可以是原來構(gòu)象空間的,也可以是某種轉(zhuǎn)換之后的構(gòu)型).其中自編碼器的瓶頸層確定了CV 的維度,但顯然需要自行選擇,他們也給出了探索的建議.可能的問題是迭代收斂的CV 并不能保證自由能地貌圖的全局充分采樣.和大多數(shù)類似研究一樣,這類編碼過程不具備直接可解釋性,人們無從知道輸入構(gòu)型中不同的參數(shù)對CV 的貢獻(xiàn).雖然原則上可以間接從計算過程中的自動微分步驟獲取一定信息,但目前所有的方法中沒有提供這種分析.針對這個問題,Kikutsuji 等[126]利用模型無關(guān)的局部解釋(local interpretable model agnostic explanation,LIME)和沙普利加和解釋(shapley additive explanations,SHAP)框架,給出各個輸入量對RC 的貢獻(xiàn),能夠在一定程度上增進(jìn)我們對體系的直觀物理認(rèn)知.

Sun 等[127]發(fā)展了由一個降維編碼器,構(gòu)象分類器和勢能預(yù)測器組成的多任務(wù)CV 學(xué)習(xí)構(gòu)架,在幾個簡單測試系統(tǒng)(包括5DBrown model、丙氨酸二肽和金(110)晶面重建單元反應(yīng)體系)與單目標(biāo)訓(xùn)練優(yōu)化相比較展示了一定優(yōu)勢.與很多應(yīng)用中系統(tǒng)演化過程在原有高維空間進(jìn)行不同,隱空間模擬器[128](latent space simulator,LSS)在訓(xùn)練產(chǎn)生編碼器和解碼器后,在CV 空間快速展開系統(tǒng)演化,然后通過解碼器生成原有高維空間的細(xì)粒度軌跡.這些在隱空間或者集合變量空間進(jìn)行操作的思路是很多工作中利用自編碼器的重要方式.比大多數(shù)方法在諸如丙氨酸二肽或類似模型體系中展示更進(jìn)一步的是該方法在兩個較大體系(264 殘基的PROTAC 蛋白和DNA 序列5′-GCGGTTTCCGC-3′ 對應(yīng)的雙螺旋結(jié)構(gòu))獲得了較為成功的應(yīng)用.

Jung 等[129]以水溶液中離子的聚集和聚合物折疊為例,集成了深度學(xué)習(xí)和過渡路徑理論實現(xiàn)了復(fù)雜分子體系自組織模型的構(gòu)建、驗證和更新,并在此基礎(chǔ)上通過符號回歸總結(jié)出更容易理解的可觀測量連接,是分子復(fù)雜體系的深度學(xué)習(xí)和可解釋性方面有意義的嘗試和進(jìn)步.比變分求解自由能上界更進(jìn)一步,Zhao和Wang[130]用流匹配 (flow matching)同時求解上下界,從而提供更好地逼近目標(biāo)體系自由能的可能途徑.

鑒于生成式模型在語言圖像繪畫等方面的巨大成功[131],Janson 等[132]基于生成對抗模型和transformer 架構(gòu)訓(xùn)練的構(gòu)象系綜生成神經(jīng)網(wǎng)絡(luò)成功產(chǎn)生了訓(xùn)練數(shù)據(jù)集中沒有的內(nèi)秉無序蛋白(IDP)構(gòu)象,該過程與分子模擬直接采樣相比所用計算代價非常小,不過正確性依然有待進(jìn)一步在更多體系中驗證.

5 結(jié)論

綜上所述,變分方法處理分子體系自由能地貌圖目前已經(jīng)有了較多不同視角的嘗試,但還都限于在較為簡單的體系探索,和其他理論上不甚嚴(yán)格的刻畫分子體系自由能地貌圖的神經(jīng)網(wǎng)絡(luò)方法相比較也還沒有展示出明顯的系統(tǒng)優(yōu)勢.比如使用變分的VAMPNets[67]和使用回歸[119]兩種方法在丙氨酸二肽體系中就沒有明顯的表現(xiàn)差異.不過變分更嚴(yán)格的理論基礎(chǔ)有可能會讓誤差控制更加容易,也很可能會在將來較大分子體系的應(yīng)用和進(jìn)一步發(fā)展中體現(xiàn)出更多的優(yōu)勢.從理論方法的角度,現(xiàn)有的這些不同變分目標(biāo)函數(shù)都是為了更好地逼近分子體系自由能地貌圖的準(zhǔn)確描述,如何將它們集成并能夠依據(jù)應(yīng)用需求靈活選擇關(guān)注視角顯然是個有價值的任務(wù).當(dāng)前的變分和自編碼器模型中還有很多需要人工調(diào)節(jié)和嘗試的環(huán)節(jié),最為突出的就是目前的所有方法都不能通過自主學(xué)習(xí)優(yōu)化獲得自編碼器中間低維隱空間的適當(dāng)維度.另外變分計算本身原則上也可以在神經(jīng)網(wǎng)絡(luò)中數(shù)值實現(xiàn),從而有可能增加靈活性和可泛化能力,不過目前尚沒有見到這類嘗試,有可能是個有價值的發(fā)展方向.

從應(yīng)用的角度,目前最迫切需要解決的問題可能是將這些變分構(gòu)建向更大更復(fù)雜分子體系的延伸.從自由能地貌圖構(gòu)象空間的層次來看,超過兩個時空間尺度的體系顯然會帶來更多挑戰(zhàn),在同一個自由能地貌圖時空間尺度層次上,多個亞穩(wěn)態(tài)之間過渡路徑交匯的可能性和準(zhǔn)確處理也有待解決.這些問題的可靠處理在較大的復(fù)合體分子機(jī)器的理解中很有必要.

目前大模型的應(yīng)用如火如荼[133],不過在AI 的科學(xué)應(yīng)用領(lǐng)域尚沒有發(fā)力.主要原因之一是作為通用大模型訓(xùn)練素材的語音圖像材料非常豐富,而特定科學(xué)領(lǐng)域的數(shù)據(jù)一般都不夠豐富或者很多都難以理解.不過這些模型集成多模態(tài)的能力顯然對AI 在廣泛科學(xué)應(yīng)用中和特定的復(fù)雜分子體系中都有參考價值.已有的這些變分構(gòu)建方法,還有未來可能出現(xiàn)的其他新穎構(gòu)建,很可能在將來被統(tǒng)一到一個多目標(biāo)大模型中.

猜你喜歡
體系方法
構(gòu)建體系,舉一反三
探索自由貿(mào)易賬戶體系創(chuàng)新應(yīng)用
中國外匯(2019年17期)2019-11-16 09:31:14
學(xué)習(xí)方法
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
如何建立長期有效的培訓(xùn)體系
“曲線運動”知識體系和方法指導(dǎo)
“三位一體”德育教育體系評說
中國火炬(2010年7期)2010-07-25 10:26:09
主站蜘蛛池模板: 欧洲一区二区三区无码| 婷婷丁香色| 好吊色妇女免费视频免费| 亚洲精品中文字幕午夜| 国产亚洲欧美在线视频| 制服丝袜亚洲| 性欧美久久| 性色在线视频精品| 久久天天躁狠狠躁夜夜躁| 国产在线八区| 国产在线观看91精品亚瑟| 黄色网址免费在线| 欧美日韩激情| 又黄又湿又爽的视频| 亚洲视频欧美不卡| 99re在线免费视频| 亚洲免费播放| 亚洲a级毛片| 毛片视频网| 狠狠色综合久久狠狠色综合| 日韩欧美国产三级| 丁香综合在线| 国产在线一区视频| 国产亚洲精品精品精品| 国产一二三区在线| m男亚洲一区中文字幕| 老司机精品一区在线视频 | 一区二区三区国产| 国产精品极品美女自在线| 成人夜夜嗨| 最新国产麻豆aⅴ精品无| 亚洲视频四区| 成人国产精品网站在线看| 亚洲区欧美区| 国产爽歪歪免费视频在线观看| 成人在线第一页| 国产精品手机在线播放| 日韩av高清无码一区二区三区| 国产成人喷潮在线观看| 3D动漫精品啪啪一区二区下载| 欧美在线黄| 免费A级毛片无码免费视频| 亚洲精品国产综合99| 亚洲成在线观看| 亚洲成人网在线播放| 在线国产毛片手机小视频| 国产对白刺激真实精品91| 亚洲精品桃花岛av在线| 日韩精品无码不卡无码| 久久精品亚洲中文字幕乱码| 熟女成人国产精品视频| 久久亚洲天堂| 亚卅精品无码久久毛片乌克兰 | 无码日韩视频| www欧美在线观看| 日本精品中文字幕在线不卡| 亚洲AV无码乱码在线观看代蜜桃| 欧美中日韩在线| 91小视频在线播放| 麻豆精品在线| 午夜不卡视频| 综合色区亚洲熟妇在线| 亚洲视屏在线观看| 91在线高清视频| 国产情精品嫩草影院88av| 国产美女在线观看| 国产视频一区二区在线观看| 综合五月天网| 女人18毛片一级毛片在线 | 亚洲色欲色欲www网| 91精品国产情侣高潮露脸| 国产女人爽到高潮的免费视频| 任我操在线视频| 奇米精品一区二区三区在线观看| 91亚洲免费视频| 亚洲国产精品一区二区第一页免| AV不卡在线永久免费观看| 欧美精品亚洲精品日韩专| 亚洲精品第一在线观看视频| 亚洲欧洲美色一区二区三区| 99国产精品国产高清一区二区| 欧美第二区|