999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

蛋白質結構模型質量評估方法綜述*

2024-01-06 10:24:02劉棟崔新月王浩東張貴軍
物理學報 2023年24期
關鍵詞:結構方法質量

劉棟 崔新月 王浩東 張貴軍

(浙江工業大學信息工程學院,杭州 310014)

1 引言

蛋白質參與生命活動的各個過程,是生命體的重要組成部分.了解蛋白質結構可以進一步揭示生命過程中生物分子復雜的相互作用機制[1-3].經過實驗科學家近60年來巨大的努力,已經解析出了二十余萬種蛋白質結構.然而,由于生物實驗過程耗時長且成本較高,致使實驗解析結構僅占已知兩億多蛋白質序列數量的0.1%[4],因此,通過高效且準確的計算方法實現大規模蛋白質結構預測成為50多年來計算生物學家努力的方向[5].廣泛使用的Rosetta[6],I-TASSER[7]是蛋白質領域經典結構預測方法,隨著深度學習技術在該領域研究的廣泛應用,國內外學者陸續提出了RaptorX[8],trRosetta[9],AlphaFold2[5],PAthreader[10],ESMFold[11]等方法.尤其是DeepMind和Meta研究團隊基于Alpha-Fold2和ESMFold的方法,分別構建了約兩億預測結構的數據庫AlphaFold Protein Structure Database[12]和約七億預測結構的數據庫ESM Metagenomic Atlas[11].針對同一序列,上述方法預測出的結構存在顯著差異.為解決此類問題,模型精度估計或者模型質量評估方法(estimation of model accuracy,EMA)[13]就成為蛋白質結構預測流程中一個關鍵的環節.EMA方法主要目的是估計參考結構與預測模型在整體拓撲(全局結構)和殘基級別(局部結構)相似的程度,并能夠進一步實現模型單殘基、連續殘基塊的拓撲精修,常用的指標包括GDT-TS[14],TM-score[15],lDDT[16],CAD[17],SG[18]等.

Moult等[19]1994年創立的蛋白質結構預測的關鍵評估(CASP) 被譽為蛋白質結構預測領域的奧林匹克競賽.CASP每兩年舉辦一次,目前開展了15屆,已經成為蛋白質結構預測技術發展的風向標[20,21].在2006年CASP7中引入了模型質量評估方法的評測,這足以說明EMA方法對結構預測的重要性.此外,另一個重要的國際賽事CAMEO[22]自CASP12之后引入了每周在線的自動盲測評估服務器,成為CASP兩年間評測的重要補充平臺.值得一提的是,AlphaFold2在CASP14中取得巨大的突破,使得單體結構預測幾乎到達了實驗解析的精度[23].因此,在CASP15中接觸預測、優化和單體模型質量評估被取消,而新增RNA結構、蛋白質與配體復合物、復合物結構及其界面的質量評估類別[24],對于復合物評估,除了全局結構與局部結構的精度估計之外,還新增接觸界面精度估計,如DockQ[25]和QS-score[26].

自CASP7至目前為止,已經開發出許多蛋白質模型質量評估方法和在線服務器,如圖1所示.本文梳理了最近5年主流的模型質量評估方法,主要分為共識方法(多模型方法)、準單模型方法、單模型方法[27].共識方法假設正確的結構包含在重復結構模式集合中,通過聚類提取來自多個方法或不同模板生成的蛋白質結構模型的共識信息,代表性方法有Cheng課題組開發的MULTICOM系列[28-30],Xu和Shang課題組開發的MUfoldQA系列[31,32]等.在CASP7—15評測中,共識方法在大多數情況下都比單模型方法表現得更好.準單模型方法將單個模型輸入的便利性與共識方法預測能力的優勢相結合,通過內部參考結構生成方法產生的一組蛋白質結構對預測模型進行評分,代表性的方法有McGuffin課題組[33-35]開發的ModFOLD系列等.單模型方法基于單一蛋白質模型特征提取(序列信息、幾何結構、理化信息),通過神經網絡來評估殘基或者拓撲的質量.隨著機器學習和深度學習技術在蛋白質結構預測領域廣泛、深入地應用,單模型方法在性能逐漸與多模型方法持平甚至超越,成為EMA方法中一個熱點研究方向,代表性的方法主要有Baker課題組[27]開發的DeepAcc Net系列、Elofsson課題組[36,37]開發的ProQ系列,Venclovas課題組[38-40]開發的Voro系列,楊建益課題組[41]開發的Yang_TBM,張貴軍課題組[42-44]開發的DeepUMQA系列等.

圖1 在CASP中主流的模型質量評估方法Fig.1.Mainstream model quality assessment methods in CASP.

本文將按順序介紹CASP和CAMEO,其次詳細討論蛋白質模型質量評估的指標體系,包括單體蛋白、復合物的評估指標以及綜合性能分析指標.然后,對近5年來主流的共識方法、準單模型方法和單模型方法進行梳理,并介紹CASP15的復合物模型質量評估方法.考慮到深度學習對蛋白質領域的影響,本文重點討論單模型方法中的數據集、蛋白質特征和網絡架構這三個方面,并介紹了本課題組近年來在模型質量評估方面所開展的一些工作.最后,分析給出了蛋白質模型質量評估方法所面臨的一些關鍵挑戰,并對未來可能的發展趨勢進行了展望.

2 國際蛋白質結構預測的關鍵評估競賽(CASP)和全球連續自動模型評估競賽(CAMEO)

CASP[19]自1994年以來,已成功舉辦了15屆.CASP為研究團隊提供了一個客觀測試蛋白質結構預測方法的平臺,并為研究團隊和軟件用戶提供了對蛋白質結構建模最新技術水平的獨立評估.在CASP7中引入了蛋白質模型質量評估的評測,其中蛋白質模型結構由三維結構預測組提交,為評估模型質量方法提供了測試數據集.CASP的評估過程分為兩個階段.在第1階段,通過共識方法為每個蛋白質目標選擇約20個蛋白質結構模型,覆蓋了整個模型質量范圍進行評估;在第2階段,選擇前150個模型用于質量評估.在這兩個階段中,EMA方法需要評估每個模型的全局拓撲質量和殘基級別的局部質量[45,46].第1階段的結果僅用于與第2階段的結果比較,以確定EMA方法是否是單模型方法[47].在每屆CASP比賽中,表現最好的EMA方法通常代表了蛋白質質量評估領域的最新發展水平.

此外,瑞士生物信息研究所和巴塞爾大學聯合舉辦CAMEO[48]是一個全球持續進行的蛋白質結構預測平臺,被認為是蛋白質結構預測領域最重要的比賽之一.CAMEO中每位參賽者每周對由世界范圍內的結構生物學家最新破解出的20個蛋白質結構進行預測.在CAMEO-QE中,預測出的結構由模型質量評估參賽者進行評估并在線提交.多年來,CASP和CAMEO不斷進步和相互促進,為EMA研究帶來了新的思路和方法,并推動了這一領域的不斷突破和發展.

3 蛋白質模型質量的評估指標

蛋白質結構的準確性和可靠性對于理解生命活動過程至關重要.為了評估計算方法的性能,必須使用有效的評估指標來衡量蛋白質模型的質量.這些評估指標能夠判斷蛋白質模型與實驗解析結構之間的相似程度,并識別模型中可能存在的結構缺陷或誤差,從而進一步改進和優化模型.此外,蛋白質評估指標對于蛋白質設計和藥物設計等領域也具有重要意義.隨著多年來蛋白質結構領域的發展,衍生出了多種評估指標,特別是在最近CASP或CAMEO比賽中采用的指標.總體上來講,這些指標大致分為“單體結構質量評估指標”和“復合物結構質量評估指標”,其中單體結構質量評估指標主要側重于局部評估指標和全局評估指標,下面將分別介紹一些常用的評估指標及其應用場景.

3.1 單體結構質量評估指標

對于CASP評估者而言,其中一個主要挑戰是定義合適的數值指標,以量化預測與實驗結構之間的準確度.在CASP評估過程中,研究者通過評估預測模型質量來反映結構預測技術的最新水平[16].均方根誤差(root mean square deviation,RMSD)在CASP早期作為主要評估標準[49,50],然而RMSD存在極易受到預測不準確區域的異常值影響、對模型中的缺失部分不敏感、對參考結構的疊加具有較高依賴性的問題[17].為了更為客觀地評估蛋白質結構模型的質量,研究者相應提出了多種評估指標來綜合描述蛋白質結構的質量.

GDT-score (global distance test score)[14]從CASP4引入以來一直被廣泛使用.GDT-score通過將預測與實驗參考結構進行疊合后,計算模型結構中某種原子(如Cα)落在實驗結構對應位置的某個閾值范圍內所得到最大的原子數目.通常GDTHA使用的閾值為0.5,1,2和4 ?,GDT-TS使用的閾值為1,2,4和8 ?,計算公式[14]如下:

其中Mp是預測模型;Mr是參照模型;P1?P2?P4和P8是Mp中的Cα原子與Mr的Cα原子距離小于1,2,4和8 ?的概率.此外,根據所比較的原子類型,分為使用側鏈的原子GDC_SC[51]和全原子GDC_ALL.與RMSD相比,局部低精度的原子不會對質量分數產生顯著影響.然而,GDT-score對于蛋白質的大小具有依賴性.當蛋白質序列的長度較短時,它可能接近于隨機選擇結構模型.這種顯著依賴于序列長度的現象使得評分絕對值大小可能變得毫無意義[15].此外,GDT-score評估中的缺失片段會導致較低的質量得分,而類似于GDTscore這種基于全局疊加比對的度量方法,其主要局限性在具有多個結構域的柔性蛋白質時更為突出.全局剛體疊合會由最大的結構域主導,因此較小的結構域無法正確匹配,導致不合適的質量分數.而且結構域相對位置輕微變化(在生物學上可能是可以忽略的)可能會強烈影響GDT-score.這導致在CASP中需要將蛋白質模型分割成評估單元(AU)來減少結構域的影響,并對其進行單獨評估.

TM-score[15]利用蛋白質長度相關的數值來消除之前評估指標中對于蛋白質長度的依賴性.其次,與設置特定距離閾值并僅計算低于閾值誤差的部分不同,TM-score會對齊預測模型與參考結構之間所有殘基對進行評估,計算公式[15]如下:

其中Laligned和Lref分別是對齊的預測和參考結構的序列長度,di是指預測蛋白中的殘基與參考蛋白中相應殘基之間的距離,d0(Lref) 是用來歸一化di的距離.由于TM-score是基于兩個結構之間單個疊加比對計算得出的分數,當蛋白質長度依賴性對模型評估沒有影響時,GDT-score可以在多個閾值距離下進行評估,綜合考慮了更多的結構信息,從而提供了更全面的相似性度量[17].

一般來講,單體蛋白全局結構模型質量的評估指標是從整體拓撲上比較預測結構與參考結構的相似度,而局部結構質量評估指標能夠細致地分析蛋白質中局部區域的結構特征和穩定性,幫助研究者們識別和定位潛在的結構問題和缺陷.

為了更好地理解單體蛋白質主鏈中局部原子的相互作用,驗證其立體化學的合理性.lDDT(local distance difference test)[16]通過比較參考結構中一定范圍內較近的、不屬于同一殘基的原子對之間的距離進行計算.如果模型中的距離與參考結構中的距離在一定的閾值范圍內(如0.5,1,2和4 ?),則被認為是符合要求的距離.通過計算保留距離的比例,可以得到預測模型的lDDT.其能夠捕獲結合位點中的局部幾何結構,并且對結構域的方位變化不敏感,使得絕對值分數具有指導性的意義.并且,該指標可用于進一步指導結構模型的精細修正和拓撲微調.

由于蛋白質的空間結構是通過殘基的相互作用形成,而這種互作模式可以用空間結構上的接觸表示.因此,通過量化蛋白質模型結構的接觸預測相對于參考結構偏差,并且不需要兩個結構之間的對齊,從而避免一些疊合對齊的問題.基于接觸面積差異的評估指標接觸區域差異CAD (contact area difference)[17],它通過計算殘基之間的接觸面積差異來量化模型與參考結構之間的接觸,計算公式[17]如下:

其中i和j代表預測模型和參考結構中的殘基,G是參考結構中的接觸殘基對的集合,T(i,j)和M(i,j)分別表示參考結構和預測模型中的接觸面積.CADscore可以單獨考慮殘基主鏈和側鏈,具有處理模型中缺失殘基的能力,并且類似于GDT-score,能夠對完整和不完整的模型進行排名.此外,另一個指標是Sphere Grinder (SG)[18],通過簡單直觀的方式識別預測模型中不正確的區域.

對于單體蛋白質模型的質量評估,局部指標和全局指標相互彌補,有效地揭示蛋白質模型的局部和整體結構質量,并為蛋白質結構預測提供更可靠的指導.

3.2 復合物結構質量評估指標

隨著人工智能技術在單體結構預測領域的突破,之前的評估指標更適用于描述單體結構的質量,而研究的重點逐步向復合物轉移.為了探究蛋白質與蛋白質之間的相互作用,研究者們設計了專門用于復合物(多聚體)的評估指標,這對于預測復合物的結構發展至關重要.

蛋白質相互作用的關鍵評估競賽(CAPRI)旨在評估蛋白質對接方法和預測蛋白質與蛋白質相互作用關系[52].CAPRI引入Fnat,LRMS和iRMS指標用于評估模型[25].Fnat衡量了預測復合物界面中在實驗參考結構中界面接觸殘基所占的比例,界面接觸被定義為兩個相互作用的蛋白質(受體和配體)之間任意一對重原子之間的距離在5 ?以內.LRMS是在將預測和參考復合物的受體(兩個蛋白質中較大的一個)進行疊合比對后,計算配體(較小的蛋白質)預測和參考復合物的RMSD.LRMS是一個全局指標,取決于配體的大小.因此,在接觸界面區域的匹配情況中,它可能不是一個較好的評估指標.iRMS僅針對接觸界面殘基的RMSD,其接觸界面的殘基距離范圍重新定義為10 ?以內,即Fnat定義界面閾值的兩倍.雖然這些評估指標可以量化蛋白質對接模型質量的不同方面,但在對模型排序、模型質量與評分函數的相關性分析以及在機器學習算法中作為目標函數時存在一定限制.因此,需要綜合考慮多個指標,以更準確地評估模型的質量.DockQ[25]將Fnat,LRMS和iRMS綜合到一個介于0到1之間的單一評估指標中,可以更加定量地評估蛋白質對接模型的質量,計算公式[25]如下所示:

其中 RMSscaled表示與LRMS或iRMS(RMS)中的任何一項相對應的縮放后的 RMS 偏差,di是一個縮放因子,d1用于 LRMS,d2用于 iRMS.Fnat被定義為預測的復合物界面中保留的原生界面接觸的比例.在評估CAPRI中的蛋白模型時,DockQ幾乎可以重現原始的CAPRI分類,這意味著不需要使用閾值對預測模型進行分類,并且可以使用Z-score來評估模型質量,類似于CASP中使用的方法.

在蛋白質與蛋白質對接模型評估指標的發展歷程中,主要集中在二聚體的相互作用.然而,對于多聚體(鏈數大于兩條)需要將其分解為二聚體可能需要大量的比較工作,并且可能會缺失一些整體結構的接觸界面殘基.因此,研究者設計了QSscore[26],用于量化界面之間的相似性,該相似性取決于共同的界面接觸.其能夠區分不同的多聚體結構和結合模式,計算公式[26]如下所示:

其中d代表殘基之間的歐式空間Cβ距離,|di-dj|代表相對誤差(將12 ?作為最大誤差),w是加權函數.當涉及的所有殘基都被“映射”時,形成的接觸被定義為s.而那些接觸但未被“映射”的殘基對,或者只在其中一個寡聚體中形成接觸被定義為n-s.這里所提及的“映射”是指一個復合物中的蛋白質鏈與另一個復合物中蛋白質鏈之間的對應關系.QS-score能夠評估組裝界面的質量,適用于比較鏈的相對方位.在最近的CASP15中,評估者還使用界面接觸分數(ICS)和接觸區域分數(IPS)來評估模型.ICS以F1-score[53]的形式計算,用于衡量預測的鏈間接觸的精準率和召回率之間的關系.IPS則通過計算模型預測的接觸殘基與參考結構接觸殘基之間的部分,得出Jaccard[54]系數.

伴隨著結構預測領域的發展,復合物結構的評估逐漸變得尤為關鍵.復合物的評估指標可以從多個獨立計算卻相關的指標綜合成一個評估指標,并且可以從二聚體拓展到多聚體的評估指標.

3.3 評估結構精度估計的指標

模型質量評估(EMA)是CASP重要的組成部分,理想情況下,EMA方法可以提供與計算的評估指標分數相關的模型質量估計.在CASP14之前的比賽中約有70多種參賽方法[55],這凸顯了模型質量評估對蛋白質結構預測的重要性,并且研究人員通常將模型質量估計整合到建模流程.蛋白質模型的精度估計包括了每個模型的全局精度評估和每個殘基的局部精度估計.此外,CASP對參賽組進行分別排名,這些排名通常使用多個評估指標綜合計算得出.

評估全局結構精度估計包含Top1 loss[47],AUC(area under the curve)[56],相關性和絕對誤差分析.Top1 loss用于對比蛋白質結構預測模型的精度估計,并選擇排名第一的模型作為最佳模型.在不同指標下,計算選定的最佳模型與實際最佳模型質量的絕對誤差.相關性分析使用Pearson和Spearman[57]來評估預測全局模型與真實模型質量之間的相關性.通過絕對誤差分析(MAE或MSE),分析不同指標下模型質量預測值與真實值之間的差異.AUC[56]用于判斷預測模型質量是否可以接受,它通過計算ROC曲線下的面積衡量模型的性能,而ROC曲線則反映了在不同質量閾值下,準確和不準確模型的真陽性率和假陽性率之間的關系.

局部結構精度評估是在評估單元(EUs)[47]級別進行.ASE(average S-score error)[47]是通過計算每個殘基的S-score誤差的平均值來評估:

其中第i個殘基的S-score誤差是對預測模型中評估單元 (EU) 的第i個Cα原子的預測距離誤差(ei)和實際距離誤差 (di) 之間的差值.通過LGA[14]在評估單元的疊合后,使用S-function函數來計算,N是評估單元中的殘基數目.ULR (unreliable local region)[47]是由預測模型中3個或更多連續殘基組成的區域,其在最佳疊合下與相應參考結構的殘基之間的距離偏差超過3.8 ?.相隔一個殘基的兩個ULR將合并為一個ULR.確定ULR后,計算它們的準確度和覆蓋率,并在實際ULR邊界上以及在兩個殘基以內的預測被認為是準確預測.對于每個CASP評估組,通過調整閾值計算以最大化平均F1-score[53].在CASP中,組的排名往往是根據蛋白質目標的評估指標對應平均Z-score統計,其中每個組的Z-score是對每個目標的結果計算的均值和標準差,將Z-score設置為-2—2.

隨著AlphaFold2在單體結構預測方面的巨大進展,幾乎解決了單體結構預測問題,促使CASP15將重點轉向復合物的預測和模型質量評估.其中,整體模型拓撲質量評估采用GTD-Score和TMScore指標;鏈間相互作用質量評估采用DockQ和QS-Score進行衡量;界面接觸殘基質量評估采用CAD-Score,lDDT,PatchQS和PatchDockQ[24]指標衡量.CASP參賽組的性能往往是通過這些指標對應的Pearson,Spearman,AUC和Loss進行綜合加權給出最終排名.

在蛋白質結構預測領域,質量評估對于建模過程具有重要意義.質量評估指標提供了一種客觀、量化的方法來評估模型的準確性和質量,同時為改進和優化建模過程提供了指導和依據.

4 蛋白質模型質量方法

在最近的CASP中,研究者已經開發了許多方法,包括共識、準單模型和單模型的質量評估方法,主要步驟如圖2所示.此外,鑒于復合物模型評估的重要性,我們回顧了CASP15中的復合物質量評估方法.最后,介紹了本課題組近年來在模型質量評估方面開展的工作.

圖2 模型質量評估三類方法示意圖Fig.2.Schematic diagram of three methods of model quality assessment.

4.1 數據集

訓練數據集在神經網絡中起著至關重要的作用,它是神經網絡學習和理解模式的基礎[58].通過訓練數據,神經網絡可以從中學習到輸入與輸出之間的關聯性,使其能夠對新數據進行準確的預測和推斷.豐富、多樣且代表性的訓練數據可以幫助神經網絡克服過擬合和欠擬合等問題,提高模型的泛化能力和穩定性.因此,對基于神經網絡的蛋白質模型質量評估而言,高質量數據集需要包含不同精度的結構并且達到一定程度的數量,這可以使網絡學習到蛋白質的結構與質量的潛在映射關系.

CASP1-CASP15數據集由每屆參加CASP結構預測組提交的模型構成.每個蛋白質目標至少包含150個預測結構,這些結構的精度各不相同,往往被用于訓練和測試模型.截止至2023年6月28日,CAMEO-QE數據已經持續評估了74704個蛋白質預測模型,針對每個蛋白質目標的模型數大約為10個,相比于CASP,模型的相似度較高且預測難度較低.AlphaFoldDB和ESM Metagenomic Atlas分別是AlphaFold2與ESMfold預測的高精度蛋白質模型數據庫.雖然大部分結構還未通過實驗解析出來,但是這兩個數據集對于蛋白質結構領域的研究具有重要的意義.Zhanglab服務器中非冗余的蛋白質目標所生成的誘餌結構包含3DRo bot數據集、I-TASSER數據集、QUARK數據集等.而DeepAccNet,GNNRefine,DeepUMQA,Deep UMQA3,GraphCPLMQA和GraphGPSM這些方法都采用大致相同的數據集制作思路: 從PDB庫中篩選出一批非冗余的蛋白質目標,通過不同的方法生成預測模型結構(Decoys)用于訓練神經網絡.在開發基于深度學習模型質量評估的方法,往往可以組合這些數據進行訓練,如表1所列.

表1 模型質量評估的蛋白質結構數據集(誘餌)Table 1.Protein structure dataset (Decoys) for model quality assessment.

4.2 共識方法

共識方法在CASP蛋白質模型精度評估上具有顯著優勢.Cheng課題組[28-30]開發的MULTICOM系列結合了各種質量評估技術,包括半聚類方法、單模型機器學習方法以及組合方法.其中,MULTI COM-cluster和MULTICOM-construct[29]在CASP質量評估測試中表現優異.MULTICOM系列評估方法通過結合來自12種不同EMA方法(9種單模型方法和3種多模型方法)以及1種蛋白質接觸預測方法(DNCON2[47])的預測結果,生成10個質量分數作為預訓練深度神經網絡的輸入特征.對于MULTICOM-construct,這10個質量分數取平均值.而MULTICOM-cluster則將13個初步預測結果和10個DNNs預測結果的組合輸入另一個DNN,進一步預測最終的質量分數.該研究方法表明,使用殘基與殘基接觸特征可以顯著提高該方法的性能.在MULTICOM-AI[16]中,基于深度學習技術和共進化分析,新增了殘基間距離特征,其計算一組結構模型中的殘基距離與DeepDist[30]預測的距離之間的相關性.此外,MULTICOM-AI還使用了基于DNCON4生成殘基間接觸特征.

Xu和Shang課題組開發的MUfoldQA[31,32]系列方法,在CASP13中涵蓋了MUfoldQA_M和MUfoldQA_T兩種方法,其核心思想是利用一組參考模型對每個候選模型進行評分.它們之間的區別在于選擇參考模型和計算給定一組參考模型的候選模型評分方式.MUfoldQA結合了準單模型的質量評估方法,首先通過在PDB數據庫中搜索蛋白質序列來獲得一組模板.然后,從候選模型中選擇一個子集作為參考模型,并根據與模板的相似性對每個參考模型進行評分.最后,每個候選模型根據其與參考模型的相似性進行評分,并考慮到參考模型的評分進行加權.此外,MUfoldQA_G[59]結合了蛋白質模板和參考模型的信息,以優化最大化皮爾遜相關系數的QA指標.MUfoldQA_Gr通過重采樣訓練數據并訓練模型,學習到更好的共識模式,同時最小化了平均GDT-TS誤差.MUfoldQA_G將MUfoldQA_Gr和MUfoldQA_Gp的結果相結合,使最終的預測結果接近MUfoldQA_Gr的低平均GDT-TS誤差,并保持與MUfoldQA_Gp結果相同皮爾遜相關系數.

McGuffin開發的ModFOLDclust2[60]是一種基于自動聚類的領先方法,用于對局部和全局模型的質量評估.ModFOLDclust2服務器在CASP9-CASP14中測試的方法基本相同.ModFOLDclust2最初的開發目標是減少計算代價,并提供比Mod FOLDclust[61]更高的預測精度.ModFOLDclust2的全局質量分數為ModFOLDclustQ和ModFOLD clust全局質量評估分數的平均值.為了進行全面的比較模型,使用了一種修改后的無結構比對的Q-measure[62].ModFOLDclust2的殘基的質量評估分數是直接從ModFOLDclust中獲取.

楊建益課題組[41]開發QDistance(Yang_TBM)是基于trRosetta預測的殘基間距離估計全局和局部質量.QDistance使用trRosetta預測查詢蛋白的殘基間距離和結構模型.為了預測每個模型的全局質量評估分數,設計了三組特征,包括基于2D距離矩陣比對、勢能分數和其他單一QA方法以及1D結構特征比較的特征.這些特征被輸入到線性回歸模型中,以預測GDT_TS.為了進行局部QA預測,首先選擇排名靠前的模型(根據預測的GDT_TS分數),然后使用共識分析來推斷每個模型的局部質量分數.

clustQ是Bhattacharya課題組[63]基于加權距離比較的無超聚(superposition-free)方法評估質量.clustQ對在序列中相隔較遠的殘基,分配了較高的權重.這類殘基之間相互作用相對于局部短程相互作用提供了更多的信息,并且使用基于Qscore[62]擴展的WQ-score對模型之間進行了配對比較,以估計預測模型質量精度.

此外,UOSHAN[64]是基于聚類SARTclust_G和SARTclust_L的評估方法.在全局和局部評分中,根據SART_G分數對預測模型進行排名,形成一個包含前N個模型的參考集合.然后,將待評估模型與參考集合中的所有模型進行TM-score比對.對于全局評分,計算N個比較得到的GDT_TS分數,并使用SARTclust_G對這些分數進行加權平均.對于局部評分,計算相應殘基之間的N個距離值,然后使用SARTclust_G對這些S-score進行加權平均.MESHI_consensus[65]是基于Light-GBM[66]隨機森林回歸器,利用結構、序列和共識特征來估計蛋白質模型的質量.

4.3 準單模型方法

共識方法在CASP測試中表現出色,因為它們能夠利用多個模型之間的信息來生成更準確的預測.然而,共識方法的性能很大程度上受候選模型池質量和全面性的影響.如果候選模型池質量較低或缺乏全面性,那么共識方法的性能可能會受到影響.鑒于共識方法的局限性,準單模型方法通過參考其內部方法生成的一組蛋白質結構來評估預測模型,從而避免了依賴于候選模型池的問題.

McGuffin[35]開發ModFOLD系列方法作為準單模型方法在CASP測試中表現出色,其中ModF OLD6[67],ModFOLD7[68]和ModFOLD8[33]在CASP評測中表現突出.它們具有類似的工作流程,通過使用不同的單模型和準單模型方法對蛋白質模型進行獨立評估,并生成局部質量評分.這些局部質量評分被視為特征,并輸入到神經網絡中,以推導出最終的預測的全局評分.ModFOLD6采用了多個評估方法,如ProQ2[36]、接觸距離一致性(CDA)、二級結構一致性(SSA)、無序B-factor一致性(DBA)、ModFOLD5(MF5s)和ModFOLDclustQ(MFcQs).在ModFOLD6[69]中,為了提高局部質量預測的準確性和單模型排名的一致性,它采用了與之前類似的十種單模型和準單模型方法.Mod FOLD7還提供了兩個版本,分別是在排序Top 1模型方面表現最好的ModFOLD7-rank和在反映估計絕對誤差方面表現良好的ModFOLD7-cor.ModFOLD8[35]結合了來自13種評估方法(包括9個單模型和4個準單模型)進一步發揮多個單模型和準單模型方法的各自優勢提高預測準確性.

此外,QMEANDisco[70]利用與同源模型結構的距離分布,使用訓練神經網絡將多模板DisCo分數和單模型QMEAN[71]分數加權組合,得到QMEANDisCo復合分數.

4.4 單模型方法

隨著機器學習和深度學習的發展,在蛋白質領域單模型評估方法得到越來越多關注與研究.這些方法只需要一個模型作為輸入,并能夠表現出與共識方法相似或更好的性能.單模型方法可以分為基于傳統機器學習和基于深度學習的評估方法,并鑒于深度學習對蛋白質領域的影響,將對基于深度學習模型評估方法從特征、網絡以及架構展開描述.

基于傳統機器學習的單模型質量評估方法通常使用多種特征作為輸入,包括基于能量的特征、基本的物理化學特征和統計特征.例如SVMQA[72]方法則將基于勢能的特征和基于一致性的特征作為輸入,使用隨機森林算法預測全局質量.此外,還通過改變特征組合改善質量得分.MESHI-enrich-server,MESHI-corr-server和MESHI-server使用機器學習訓練的3種不同損失函數分析對該方法性能的影響.

對基于深度學習的單模型質量評估而言,蛋白質模型特征和網絡架構對于方法的性能有關鍵影響.特征可以顯性刻畫蛋白質的屬性,其中包括蛋白質的結構特征和非結構特征.對于結構的特征,3DCNN[73]僅利用3D結構的原始原子密度作為特征,沒有進行任何特征調整.Ornate[74]表示基于體素化特征的蛋白質拓撲結構,這些體素化特征根據骨架中原子的方向構建立方圖,描繪了殘基及其鄰域.Atom-ProteinQA設計了兩個提取幾何和拓撲原子級關系模塊.幾何感知模塊捕捉輸入蛋白質的幾何特征,生成細粒度的原子級預測,基于化學鍵構建原子級圖通過拓撲感知模塊的消息傳遞并行輸出殘基級別的預測.這些方法通過低維空間關系來表示蛋白質幾何模型結構.

對于非結構特征,ProQ3D[75]采用了基于Rosetta能量項的兩個特征,即全原子Rosetta能量項和粗粒化中心點Rosetta能量項.Venclovas課題組[38]開發的VoroMQA,將統計勢的概念與原子球的Voronoi[76]分割相結合評估模型質量.其將蛋白質結構表示為一組原子球,每個球具有對應于原子類型的范德瓦耳斯半徑分配的空間區域,并使用Voronoi面和球面的三角表示,接觸面積被計算為對應三角的面積.其中,VoroMQA-A通過使用SCWRL4[77]重構其側鏈對輸入模型進行預處理,而VoroMQA-B在評估之前不會修改輸入模型.此外,特別是,序列信息中在包含潛在的蛋白質進化關系,可以提高模型評估的準確性.ProQ4[78]使用多序列比對的統計信息熵提升原有評估的精度.Bhattacharya-QDeepU(QDeep[79]的變體方法)使用從全基因組序列數據庫與宏基因組數據庫合并生成的多序列比對信息(MSA)進行訓練.Voro CNN-GEMME使用GEMME[80]計算了每個殘基的共進化描述符,其預測了在該序列位置發生突變對其他每個氨基酸的影響程度,GEMME的輸入也是MSA信息.DeepAccNet-MSA[27]通過trRosetta[9]網絡將MSA信息轉換為幾何約束特征輸入神經網絡預測質量分數.

深度學習網絡可以捕獲蛋白質內部的潛在聯系.Venclovas課題組[81]開發VoroMQA-dark是基于部分VoroMQA,通過神經網絡(NN)來預測局部(每殘基)CAD-score值.其針對每個氨基酸殘基輸出包括3個CAD-score: CAD-score-level0是基于涉及中心殘基的所有氨基酸殘基間接觸;CAD-score-level1是基于涉及至少一個來自中心殘基的第一層鄰居(直接鄰居)的所有氨基酸殘基間接觸;CAD-score-level2是基于中心殘基的直接鄰居和直接鄰居的鄰居與所有氨基酸殘基之間的間接接觸來計算的.輸入向量已經進行了預卷積操作,最終只使用了一個全連接隱藏層.VoroCNN[40]是一種基于深度卷積神經網絡的模型質量評估方法,它處理無向加權圖表示的蛋白質模型.為了處理這些圖,VoroCNN由一個基于消息傳遞圖卷積層和一個池化層組成.此外,VoroCNN-GDT網絡輸出層之前增加了一個1D卷積層,以實現在蛋白質序列上有更好的局部質量預測的平滑性.Bhattacharya課題組[79]提出的QDeep (Bhattacharya-QDeep)采用堆疊式深度 ResNet估計模型在四個不同距離閾值1,2,4和8 ?下每殘基的誤差.其中,4個ResNet網絡獨立訓練.DeepQA[82]使用多個特征(包括能量、物理化學性質和結構信息)輸入到深度置信網絡中預測質量,該網絡由受限玻爾茲曼機(RBM)[83]隱藏層和邏輯回歸層構成的網絡結構.AngularQA[84]將原子結構信息轉化為二面角和鍵長,并將序列信息通過LSTM[85]神經網絡輸入.它使用每個殘基作為時間步,預測模型的質量,并考慮LSTM單元的返回值.GraphQA[86]使用圖卷積網絡并使用與ProQ4相同的特征,將蛋白質分子轉化為具有旋轉不變性的圖形來評估質量.tFold[87]通過更改消息傳遞網絡(MPNN)[88]的圖形通用架構,學習了殘基之間的相互作用對模型進行評分.

通過構建編解碼可以更好地利用神經網絡的模塊,以實現更準確的預測.Baker課題組[27]開發的DeepAccNet是基于一維、二維和三維特征的模型,在不同層次上反映蛋白質模型.它通過對三維原子網格在旋轉不變的局部框架中對每個殘基周圍執行三維卷積操作來捕捉高分辨率原子空間結構.二維特征提取了模型結構中所有殘基對的信息,包括Rosetta殘基間的相互作用項,進一步描述原子間相互作用的細節,而殘基與殘基的距離和角度特征提供了較低分辨率的結構信息.在每個殘基水平上的一維特征包括氨基酸序列、主鏈扭轉角和Rosetta殘基能量項.該網絡使用三維卷積評估局部原子環境,然后通過二維卷積提供全局環境來預測蛋白質的局部質量,并預測每個殘基的質量精度和蛋白質模型中殘基間的距離誤差,并利用這些預測來指導蛋白質結構的精修和優化.此外,AlphaFold2通過Evoformer編碼序列信息,并在Structure模塊解碼中預測原子坐標和結構的質量.

4.5 復合物結構模型評估方法

在CASP15中,模型質量評估從單體質量評估轉移到復合物的質量評估.MULTICOM_qa是結合了基于深度學習鏈間接觸預測和界面接觸概率評分的方法,使用一個蛋白質目標的多聚體模型池作為輸入,預測它們的全局質量得分.并使用MMalign[89]將多聚體模型相互比對,并計算模型與池中其他模型之間的平均TM-score作為模型質量的度量.此外,對于每個多聚體目標蛋白質,使用基于深度學習方法[18]預測的多聚體殘基間接觸或距離,計算鏈間殘基接觸的概率,并將其平均值作為模型全局質量的另一個度量.最后,通過加權計算得到池中每個多聚物模型的最終預測質量得分.MULTICOM_egnn基于DProQA[90]將多聚體模型作為輸入并將其表示為三維圖,使用門控圖Transformer架構預測DockQ質量分數.此外,MULTICOM_deep采用類似的方式.

McGuffin課題組[91]開發了ModFOLDdock的三種變體: ModFOLDdock,ModFOLDdockR和ModFOLDdockS.這些變體結合了一系列單模型、聚類和深度學習方法形成共識來計算評估復合物質量.ModFOLDdock優化了預測分數與參考分數的相關性,ModFOLDdockR優化了挑選Top 1模型的能力,而ModFOLDdockS使用MultiFOLD方法從輸入序列生成參考模型集,并使用多個評分方法將每個模型與參考集進行比較.

MUFold和MUFold2[32]結合AlphaFold-Multimer[92]作為蛋白質復合物質量評估的方法.MU Fold采用了基于AlphaFold-Multimer預測結果的單階段機器學習方法,而MUFold2則采用了兩階段機器學習方法.在MUFold2中,首先使用Alpha Fold-Multimer的輸出結果訓練一個模型進行初始預測,然后使用第二個預訓練的模型生成更準確的預測結果.

VoroIF-jury[93]包含了兩種界面評分方法: 一種是通用的基于原子間接觸面積的能量勢函數,該勢函數是從蛋白質界面的VoroMQA勢能函數推導出來的;另一種VoroIF-GNN[93]方法是基于接受由Voronoi鑲嵌派生的蛋白質鏈間界面接觸圖的圖注意力網絡(GAT)預測復合物模型中的殘基級別界面精度.此外,APOLLO[94]使用基于能量模型(EBM)來評估整體折疊、界面準確性以及界面殘基的置信度得分.

4.6 DeepUMQA系列

張貴軍課題組在最近幾年開發了DeepUMQA系列、GraphGPSM等模型質量局部及全局評估方法.基于DeepUMQA[42-44]系列算法開發的Guijun-Lab-RocketX服務器與基于GraphGPSM[95]算法開發的GuijunLab-Threader服務器首次參加了2022年舉行CASP15,并表現出了不錯的性能.

DeepUMQA[42]基于超快速形狀識別(USR)[96]來補充對于描述殘基級別的拓撲信息可能不足的情況,其能夠與深度學習方法相結合進一步反映殘基級別拓撲的特征來提高模型質量評估的性能.體素化方法有效地描述了殘基的局部結構信息,但它并未完全反映殘基與整體結構之間的拓撲關系.此外,體素化特征向量的計算和三維卷積非常復雜且耗時.因此,通過選擇適當的一組原子間距離,可以幾乎不增加額外的計算成本快速捕捉蛋白質結構的拓撲信息.具體而言,考慮了四個參考位置有效代表蛋白質結構中心和邊界關系,并利用它們之間的距離子集構建蛋白質整體結構的拓撲關系.

DeepUMQA2[44]是基于DeepUMQA的顯著改進版本.在基于之前特征基礎上,結合了來自多序列比對的序列信息和同源模板的結構特征,對模型的潛在屬性進行表征.DeepUMQA2首先根據輸入模型的序列進行多序列比對(MSA)和同源模板搜索,然后提取序列特征和模板結構特征,并與輸入模型相關特征結合,形成初始殘基對信息.通過基于三角乘法更新和軸向注意機制的網絡迭代更新殘基對信息.然后,使用兩個分支網絡分別預測殘基間距離偏差和接觸圖(閾值為15 ?),進一步計算模型的每個殘基的準確性.

DeepUMQA3[97]適用于評估蛋白質復合物模型質量的方法.在DeepUMQA和DeepUMQA2的基礎上,為復合物結構設計了新的特征,并使用改進的深度神經網絡預測了每個殘基的lDDT和界面殘基的準確性.DeepUMQA3在CASP15的蛋白質復合物界面殘基準確性估計中名列第一,參見圖3.其Web服務器為蛋白質復合物提供了快速準確的界面殘基準確性預測和每個殘基的lDDT預測服務.對于待評估的復合物結構,DeepUMQA3從三個層次描述它: 整體復合物特征、單體內特征和單體間特征.在整體復合物層次上,將整個復合物視為一個大的單體結構.考慮到蛋白質復合物在序列上是不連續的,提取了與殘基順序無關的特征,包括整體USR、殘基體素化、殘基間距離和方向以及氨基酸性質.在單體內層次上,分別提取了每個單體的特征,包括由ESM-1b[98]生成的序列嵌入、二級結構和Rosetta能量項.在單體間層次上,使用單體間成對序列的注意力圖描述了單體之間的序列關系.此外,設計了單體間USR來描述一個單體中殘基與其他單體的拓撲關系.這三個層次的特征被輸入帶有三角形更新和軸向注意力的深度卷積神經網絡,以預測殘基間距離偏差和閾值為15 ?的殘基間接觸圖,從而計算每個殘基的lDDT和界面殘基準確性.

圖3 (a) lDDT,CAD,PatchDockQ和PatchQS的平均Z分數之和,CASP15官方公布各個小組在界面殘基精確度估計排名(數據來自https://predictioncenter.org/casp15).CASP15中DeepUMQA3的組名稱為“GuijunLab-RocketX”;(b) 針對CASP15,每個蛋白質目標上的預測的lDDT質量與真實lDDT質量的Pearson相關性,其中,白色方框是均值,中間橫線是中位數Fig.3.(a) The sum of average Z-scores of lDDT,CAD,PatchDockQ and PatchQS,CASP15 officially announces the ranking of each group in the interface residue accuracy estimation (data from https://predictioncenter.org/casp15).The group name of DeepUMQA3 in CASP15 is “GuijunLab-RocketX”.(b) Pearson correlation of predicted and true lDDT quality on each protein target.The white box is the mean and the middle horizontal line is the median.

在DeepUMQA系列算法基礎上,張貴軍課題組[99]進一步結合圖耦合網絡開發了GraphCP LMQA算法.算法利用蛋白質語言模型的嵌入來評估殘基級別的蛋白質模型質量.GraphCPLMQA由圖編碼模塊和基于變換的卷積解碼模塊組成.在編碼模塊中,利用具有ESM蛋白質語言模型提取序列和高維幾何結構的潛在關系表示,能夠捕捉蛋白質模型的序列和結構特征的重要信息.在解碼模塊中,利用提取的嵌入表示和低維特征推斷蛋白質結構與質量之間的映射關系.為了增強局部結構和整體拓撲之間的關聯性,設計了三角定位和殘基級別接觸順序特征.其中,三角定位基于DeepUMQA中的USR引入了殘基之間方向的信息,可以更為充分地描述蛋白質局部空間的結構.接觸序(contact order)[100]用于描述整體拓撲的復雜性,并擴展到殘基級別特征以描述局部結構之間的復雜性.這些特征有助于捕捉蛋白質模型的局部結構元素與全局折疊模式之間的關系.通過結合圖編碼模塊和基于變換的卷積解碼模塊,能夠評估蛋白質模型的殘基級別的質量.GraphCPLMQA持續參加了一年的CAEMO (https://www.cameo3d.org),結果如下表2所列.

表2 CAMEO-QE: 模型質量評估性能(數據來自官網2022-6-24—2023-6-17)Table 2.CAMEO-QE: Model Quality Evaluation Performance (Data from official website 2022-6-24-2023-6-17).

此外,本課題組[95]還開發了全局質量評估模型GraphGPSM,該模型利用高斯徑向基函數對原子級別的主鏈特征進行編碼,基于DeepUMQA的USR,Rosetta能量項、距離和方向、序列的獨熱編碼以及殘基的位置嵌入來描述蛋白質結構.這些特征被配置到初始圖的節點和邊上,并與坐標嵌入相結合,構建了EGNN[101]的初始架構.通過堆疊EGNN架構形成了一個密集的消息傳遞網絡.最后,通過多層感知器(由Dropout層、激活函數和線性層組成)生成結構模型的全局評分.特別地,GraphGPSM(GuijunLab-Threader)在CASP15性能如表3所列.

表3 在所有蛋白質目標與CASP15服務器的性能比較(數據來自GraphGPSM)Table 3.Performance comparison with CASP15 server on all protein targets (data from GraphGPSM).

深度學習在蛋白質模型質量評估領域得到廣泛應用,并成為主流技術,評估質量的效果也顯著提升.回顧模型質量評估方法,可以得出以下幾點結論:

1) 近三年來開發出的單模型方法大多都是基于深度學習.尤其,與之前CASP中最佳的單模型方法以及CASP中最佳的多模型方法相比,CASP14上最佳單模型方法(DeepAccNet和DeepAccNet-MSA)在全局結構準確性評估方面取得顯著的提升.雖然,在CASP15全局質量評估和接口界面評估中最好的兩種方法分別是MULTICOM_qa和ModFOLDdock這兩種共識方法.但是,在局部接觸界面的質量評估方法基于深度學習的DeepUMQA3相比于排名第二的共識方法具有顯著的優勢,單模型方法依然是未來的發展趨勢.

2) 從CASP13—CASP15模型質量評估的參賽組可以看出: 在CASP13中分別有51個和29個參賽組提交了全局和局部精度估計;在CASP14中分別有72個和38個參賽組提交了對全局和局部精度估計;在CASP15中分別有22個,13個和17個參賽組提交了全局,局部和接觸界面精度估計.從CASP13至CASP14對于評估質量的參賽組的數量呈現上升的趨勢,但是從CASP14至CASP15的參賽數量非常明顯的減少.這可能的原因是: ①對于復合物的模型質量評估,很多之前的參賽組并沒有開發出相應的方法.②現階段復合物的結構模型質量評估依舊存在挑戰.

3) 通過深度學習的發展歷程可以看出,在網絡層面,從ProQ3D簡單的幾層神經網絡逐步引入了更加復雜的模型,即3DCNN的3維卷積網絡、AngularQA的LSTM網絡、GraphQA的圖神經網絡、GraphGPSM的等變圖網絡,DeepUMQA2的注意力機制網絡以及編解碼模塊AlphaFold2或者GraphCPLMQA.在特征層面,距離圖的特征和序列編碼向表征局部空間結構,全局拓撲結構和進化信息設計特征描述蛋白質模型,如USR,體素化,MSA多序列比對信息等.這表明深度網絡的架構和蛋白質特征對網絡模型性能的提升產生關鍵作用.

5 模型質量評估方法的挑戰與發展趨勢

模型質量評估方法在蛋白質結構預測中扮演著關鍵角色,并持續成為該領域的研究熱點.然而,這一領域依然面臨許多挑戰,以下從單體模型評估、復合物模型評估和模型評估的共性問題三個方面進行討論.

在單體模型評估方面,盡管AlphaFold2已經取得了卓越的精度,但對于缺乏多序列比對(MSA)數據或模板質量較低的情況,建模精度仍存在局限性.目前關鍵問題在于如何區分高質量模型(如AlphaFold2生成的模型)和低質量模型,并評估高質量模型中需要改進的相對不正確區域.此外,目前蛋白質預測的結構數據庫規模龐大,如Alpha-Fold Protein Structure Database (~2億)和ESM Metagenomic Atlas (~7億).雖然這些預測結構有自評估的質量分數,但是這些分數與預測的結構相關性依然需要提升,特別是在局部區域.如何通過模型質量評估合理利用這些預測數據促進生物學研究值得深思.

在復合物評估方面,研究者們面臨著許多需要進一步探索的問題,這些問題源于復合物結構的復雜性和多樣性.首先,復合物的質量評估需要解決基于深度學習的方法如何構建適當的訓練數據集的問題.由于復合物模型可能包含多個鏈,而蛋白質結構數據庫中主要以雙鏈結構為主,如何有效地收集和組織復合物結構數據,以便用于訓練深度學習模型.其次,復合物的結構通常比單體結構更加復雜和龐大,其復雜性意味著在網絡訓練過程中需要更大的計算和內存資源,并且訓練時間可能會顯著增加.最后,復合物評估指標體系的建立和應用也需要進一步發展.目前,許多復合物的評估指標仍在沿用單體結構的評估方法,然而復合物具有獨特的結構和功能特征,需要開發適用于復合物質量評估的專用指標,以更好地反映復合物的質量和功能特性,并促進復合物結構預測領域的進一步發展.

除了在單體和復合物評估中面臨的挑戰之外,模型評估中還存在一些共性問題需要解決.首先,對于模型的質量評估,傳統上常常依賴于多序列比對(MSA)和模板的信息來提高評估的準確性.然而,在某些情況下,蛋白質的序列可能缺乏足夠的相關信息或者沒有相關的模板結構可供參考.因此,如何僅僅利用蛋白質的單序列和結構本身的信息來評估模型的質量成為一個重要的問題.其次,在模型評估中,有時會發現模型的結構在局部區域被認為是較低質量的,然而卻缺乏對這些局部結構進一步處理的方法.如何在模型評估的基礎上進行結構的精修成為一個需要關注的問題.

綜上所述,未來模型質量評估的趨勢將聚焦于復合物模型結構的評估.借助深度學習網絡和最新技術的融合,以及對復合物模型的結構和序列特征進行工程化的探索,以揭示不同類型復合物的互作方式.同時,引入更加全面和合理的評估指標體系,將進一步推動復合物結構預測的發展,并為模型評估提供更加可靠和準確的基礎.這一努力的成果將為蛋白質領域帶來更為深入的認知和應用前景,為研究者揭示復合物結構的復雜性和功能特征提供更精準的工具和方法.

猜你喜歡
結構方法質量
“質量”知識鞏固
《形而上學》△卷的結構和位置
哲學評論(2021年2期)2021-08-22 01:53:34
質量守恒定律考什么
論結構
中華詩詞(2019年7期)2019-11-25 01:43:04
做夢導致睡眠質量差嗎
論《日出》的結構
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
質量投訴超六成
汽車觀察(2016年3期)2016-02-28 13:16:26
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 国产欧美日韩在线一区| 日韩av手机在线| 久久免费视频6| 美女一区二区在线观看| 熟女日韩精品2区| 欧美啪啪网| 亚洲 日韩 激情 无码 中出| 亚洲天堂网2014| 国产九九精品视频| 色香蕉网站| 91在线激情在线观看| 97se亚洲综合在线| 天堂网亚洲综合在线| 在线视频精品一区| 免费 国产 无码久久久| 婷婷99视频精品全部在线观看| 国产精品香蕉在线观看不卡| 国产va在线观看| 亚洲日本中文字幕天堂网| 欧美a网站| 国产一区三区二区中文在线| 亚洲第一成年网| 亚洲欧美激情小说另类| 草草影院国产第一页| 国产青青操| 2022国产无码在线| 一级黄色网站在线免费看| 亚洲av无码专区久久蜜芽| 成人午夜福利视频| 亚洲成人播放| 亚洲国产日韩在线成人蜜芽| 亚洲高清在线天堂精品| 激情视频综合网| 幺女国产一级毛片| 都市激情亚洲综合久久| 亚州AV秘 一区二区三区| 亚洲综合日韩精品| 制服丝袜一区二区三区在线| 亚洲天堂网在线视频| 久久青草精品一区二区三区| 国产色爱av资源综合区| 国产香蕉在线| 先锋资源久久| 国产特一级毛片| 国产在线一区视频| 日本精品视频一区二区| 精品综合久久久久久97超人| 啪啪永久免费av| 午夜激情婷婷| 亚洲国产精品一区二区高清无码久久| 欧美怡红院视频一区二区三区| 国产va在线| 日韩午夜福利在线观看| 亚洲一级毛片免费观看| 99偷拍视频精品一区二区| 亚洲精品视频免费看| 免费人成又黄又爽的视频网站| 日韩精品资源| 国产爽妇精品| 成人午夜视频免费看欧美| 国产在线啪| 欧美中文字幕在线二区| 国产午夜人做人免费视频中文 | 91亚洲精品第一| 成人国产免费| 亚洲欧洲日韩综合色天使| 国产一级α片| 国产在线自在拍91精品黑人| 色婷婷在线影院| 最新日本中文字幕| 国产9191精品免费观看| 久久久久国产精品免费免费不卡| 亚洲精品制服丝袜二区| 91精品亚洲| 欧美日韩在线观看一区二区三区| 乱人伦视频中文字幕在线| 亚洲综合一区国产精品| 熟妇丰满人妻| 人妻出轨无码中文一区二区| 成人国产精品2021| 超碰免费91| 中文成人在线|