蛋白質序列比對方法的研究進展

2012-01-04 06:09:00邵明峰陳俐娟向明禮

成都工業學院學報 2012年4期

邵明峰，雷凱，陳俐娟，向明禮

(四川大學華西醫院生物治療國家重點實驗室，成都 610041)

蛋白質是生命體中不可或缺的組成成分。除具有諸多生物化學功能外，蛋白質還參與新陳代謝、運輸、免疫響應、信號傳導、細胞周期等生理過程并發揮重要作用。蛋白質的三維結構，不僅有助于從分子水平上了解其功能和作用，而且在基于靶點的藥物設計中更有舉足輕重的作用。根據疾病治療靶點的三維結構，可以設計出針對該靶點的特異性抑制劑［1］。但僅依賴實驗測定的蛋白質三維結構數據，難以滿足藥物設計的需要。因此在蛋白質的氨基酸序列與空間結構甚至是功能相關區域間建立聯系，從理論上預測蛋白質三維結構便成為滿足上述要求的唯一途徑［2］。在所有經氨基酸序列預測蛋白質三維結構的方法中，同源建模被認為是預測最準確［3］、結果最可靠［4］、應用最成功［5］、使用得最廣泛［6］的一種方法，其大致流程［7］如圖1所示。而序列比對是同源建模的關鍵步驟之一，在很大程度上決定著同源建模的準確性［8］。

圖1 同源建模流程

序列比對試圖準確地重現目標蛋白與模板蛋白在結構相似區域的氨基酸殘基之間的對應關系。但除非在兩者間有著非常緊密的親緣關系，否則就可能存在結構差異很大的區域［7］。由于這樣的區域的存在，序列比對需要找出目標蛋白與模板蛋白間所有在結構關系和進化關系上相對應的氨基酸，且不考慮有結構差異的區域［7］。因此要得到一個準確的序列比對結果并不容易。本文對不同情況下的蛋白質序列比對方法、比對結果評價、比對結果優化等方面進行詳細論述，并介紹相關方面的最新進展。

1 基于序列的比對方法

如果目標蛋白的氨基酸序列與模板蛋白的氨基酸序列在統計學上顯著相似，那么可以認為它們始于共同的進化源(evolutionary origin)，有相似的三維結構［9］。蛋白間進化距離(evolutionary distance)的遠近，可以用它們間的序列同源性(sequence identity)來定量表示，也可以定性描述。把序列間的同源性關系劃分成3個區域［3］:同源性高于25%的區域叫作“白晝(daylight)區”，介于10% ～25%間的區域叫作“黃昏(twilight)區”，而同源性低于10%的區域叫作“午夜(midnight)區”。根據序列同源性所在的區域來定性描述蛋白進化遠近關系。

探尋蛋白質間不同親疏的進化關系需要復雜程度各異的序列比對方法。當目標蛋白與模板蛋白氨基酸序列間的同源性落在白晝區時，采用雙序列(pairwise sequence)比對。雙序列比對是最簡單的序列比對方法。當同源性達到40%以上且比對的序列間沒有因“插入”或“刪除”操作而導致的空隙(gap)時，可以得到很準確的比對結果。在雙序列比對中，應用最廣的比對搜索工具當屬BLAST(Basic Local Alignment Search Tool)。BLAST不僅運行速度快，而且其同源推論具有堅實的統計基礎［10］。FASTA和Search在序列比對和序列數據庫搜索中也有著廣泛的應用。針對BLAST孤立地考慮序列中各個殘基的情況，近年來發展了新的CS-BLAST方法［11］。該方法根據前后臨近殘基的情況考慮了在特定位置進行取代的可能性。這使得CSBLAST方法不僅對于同源性的檢測更加敏感，而且能顯著提高序列比對結果的質量。

當目標蛋白與模板蛋白序列間的同源性落在黃昏區，它們間的進化關系更為疏遠時，雙序列比對不足以可靠地鑒別其間的同源性并給出準確的比對結果。此時需采用借助了多序列比對信息的輪廓－序列(profile-sequence)［12］比對方法。這類方法為參與比對的一組同源相關序列構建了綜合統計模型，能夠顯示哪些位置是保守的，哪些位置是變化的，在哪里最可能發生“插入”或“刪除”。根據保守位置可以定義蛋白家族的成員;非保守的位置上殘基的變化，則用于區分蛋白家族成員。PSI-BLAST是目前應用最廣的輪廓—序列比對方法。它用BLAST作初始比對搜索，然后將比對結果返回，再用最高得分匹配的多序列比對構建一個特定位置得分矩陣(PSSM)。在新一輪的BLAST搜索中，用剛構建的PSSM去置換普通的替換矩陣。根據BLAST比對搜尋返回的結果，再重新構建新的PSSM。每循環一次，新獲得的得分高于預定閾值的氨基酸序列被補充進來，輪廓調整一次。如此循環多次后，越來越多的遠親序列(distantly related sequences)被補充進來，在豐富了輪廓的同時，還繼續保持輪廓對氨基酸序列家族的特殊性。這使得PSI-BLAST成為強大的序列比對搜索工具。

隱馬爾可夫模型(HMM)也屬于基于輪廓的方法［3］，其區別在于它用概率理論來引導如何設置所有的得分參數［3］。此外HMM為在輪廓的每一個位置的“插入”和“刪除”提供了額外的概率數據。在所有輪廓—序列比對方法中，HMM表現最好［3］。最知名的HMM—序列比對搜索軟件有HMMER和SAM等。然而，HMM—序列方法也有很大的局限性。如同PSI-BLAST，HMM也是孤立地考慮序列中各個殘基的情況，這就無法捕獲蛋白序列中可能存在的高階相關性。同時，由于比PSI-BLAST更慢且無法設計一個像在PSIBLAST中那樣流暢運行的迭代流程，所以基于HMM—序列的序列比對搜索還沒有被廣泛運用。

當目標蛋白與模板蛋白序列間的同源性位于午夜區時，表明二者間的進化距離相當遙遠。對此用雙序列比對、輪廓—序列比對或HMM—序列比對等方法都無法檢測其進化關系。而基于輪廓—輪廓或HMMHMM的方法則能對其進行辨別［12］。這類方法試圖通過2個序列輪廓間的比較來回答2個序列家族是否進化相關的問題。這使得對序列同源性的檢測具有了非常高的靈敏度，而且能在一定程度上提高序列比對的準確性［13］。基于輪廓—輪廓比較的表現最好有 COMPASS、COMA 和 PROCAIN［12－13］;而 HHsearch和 PRC是基于HMM-HMM方法的代表［12－13］。目前，基于輪廓的方法和基于HMM的方法都在發展中，其間的表現難分伯仲。如前所述，基于輪廓—輪廓和HMM-HMM的方法都是孤立地考慮序列中各個殘基的情況，這顯然不是蛋白序列信息的最優表征。而從CS-BLAST相對于BLAST的表現來看，如果在基于輪廓—輪廓和基于HMM-HMM的方法中，考慮前后臨近殘基的環境因素，將會進一步增加其同源性檢測的靈敏度，提高序列比對的準確性［14］。

2 元數據方法

與基于序列的比對方法不同，元數據(meta)方法［15－17］試圖通過整合不同算法的結果，為目標蛋白序列找到最恰當的三維結構模板，從而得到最準確的序列比對。這類方法是伴隨著CASP蛋白結構預測比賽(The Critical Assessment of protein Structure Prediction)的舉行而誕生的。始于1994年的該比賽，每2年舉辦一次。在前四屆的比賽中發現了一些有趣的現象［15］:如正確的蛋白質折疊構象的預測結果通常出現在一個參賽服務器中;沒有任何一個參賽服務器能夠可靠地將錯誤預測與較差預測(得分低于某個閾值的預測)區分開來;正確模型混雜在高得分模型中但其得分卻低于許多錯誤模型的得分等。預測專家從中認識到:為了得到更好的預測結果，必須對大量相互獨立的預測方法的預測結果進行分析。不同的預測方法適合于不同的靶點［15］，而到底哪些方法適合哪些靶點，卻是無法預先確定的。預測專家希望通過對結果的分析，從不同預測方法所得到的結果中提取有用信息，以確定到底是最高得分的模型是正確模型呢，還是得分稍低的模型更為準確，或者在某種方法所對應的結果里根本就沒有正確模型。這種想法通過自動化計算加人工干預的策略得以實現并在CASP比賽中獲得了成功［16］。這表明，把各服務器的計算結果作為整體綜合考慮的“元數據”方法效果更佳，“元數據”方法從此成為最成功的預測方法［15－17］。I-TASSER［18］是這類方法的代表，它將多個輪廓—輪廓比較算法的結果進行整合，用于檢測恰當的三維結構模板集，并得到一系列序列比對結果。之后經過結構構建、模型評價和模型優化的循環迭代，將初始比對得到的連續片段重新集合成完整模型［7］。從一定程度上講，I-TASSER代表的不僅是元數據方法，更是一類用于遠同源性檢測(for distant homology detection)，并具有結構模擬和評價功能的元數據服務器(meta-server)的代表。在最近的幾次CASP蛋白結構預測比賽中，I-TASSER均進入最優秀的預測服務器行列［18］。

3 比對結果的評價與改進

通常，經搜索序列數據庫得到的蛋白質序列比對結果都稍有不足。除非目標蛋白與模板蛋白間序列同源性超過40%且幾乎沒有因“插入”或“刪除”操作而導致的空隙。否則序列比對結果的可靠性都需要謹慎評價［7］。隨著進化距離的不斷增大，同源蛋白間在結構和序列方面的相似度越來越低，因而其同源性檢測難度越來越大。表面上看，目標蛋白與模板蛋白間的序列相似度越低，據此所得的序列比對結果準確性越差。但事實上，在序列相似性、比對的統計學顯著性以及比對結果的準確性之間，沒有這么簡單的關聯關系。特別是在遠同源性個例中，目標蛋白與模板蛋白間序列間的相似度不能作為衡量序列比對結果準確性的指標，比對的統計學高度顯著也不意味著比對結果的高度準確。

序列比對結果本身不能告訴我們哪個序列區域的比對是可靠比對，哪個區域的比對需要調整。但為了提高序列比對的質量，必須弄清楚在比對結果中哪些比對區域是可靠的、哪些區域需要優化、或者用不同的模板或模板片段重新比對。早期的用于鑒別可靠比對區域的方法，主要用于雙序列比對。如Mevissen等［19］用算法的魯棒性參數，將包含某個殘基對的最佳序列比對得分與去掉某個殘基對后的最佳序列比對得分進行比較，來檢驗序列比對結果的可靠性。對基于輪廓或基于HMM方法所進行的序列比對，最簡單的判別方法是對輪廓—輪廓比對或HMM-HMM比對中的每個位置進行打分。研究表明［20］，包含高得分位置的區域對應于正確的比對。對比對結果的正確性進行評判的常用方法是評估特定區域的比對穩定性［21］，這可以通過生成足夠多的比對變異來實現。生成比對變異，可以用單一方法從同一個序列數據集衍生出眾多次優比對，或者對現有同源序列空間采樣實現比對多樣化;也可以用多種方法得到多種相應的比對結果［7］。無論用哪種方法來產生比對變異，結果一致的區域就是比對結果可靠的區域。導致結果不一致的因素很多，同源性差、有插入/刪除或者明顯的構象變化等，都能導致比對結果的不一致。

序列比對結果的改進有多種方法。多序列比對(MSA)是其中之一［3，14］，它不是用來檢測同源序列，而是用來比對用其他方法已經鑒別出來的同源序列。給定一組同源氨基酸序列，MSA方法就構建一個多序列比對，將進化關系上相一致的氨基酸殘基排成一列。通過多序列比對，建立同源性搜索和序列比對的輪廓或HMM［13］。許多基于MSA的方法采用漸進比對策略，把多序列比對變成了一系列雙序列比對。它先基于雙序列間的相似性構建近似比對引導樹(guide tree)，優先比對那些進化關系最近的序列，然后這些被比對的序列再相互逐一比對。漸進比對策略的不足之處是在初始的雙序列比對階段或在構建引導樹時的錯誤得不到糾正而且還會在整個比對過程中繼續傳播。利用一致性信息或采用迭代優化，是克服上述不足的一種方法。T-Coffee［22］是一個采用一致性打分方法的例子。一般來講，基于一致性打分的方法比基于迭代優化的方法更準確，但需要更大的計算資源。

用多種方法的組合或引入附加的信息，也是提高序列比對質量的一種有效方法。附加信息可以是進化信息，也可以是結構信息。M-Coffee［22］是采用多種方法組合用以提高比對質量的一個例子。它將其他多序列比對方法的比對結果收集起來，組成一個庫，再進行比較和組合，得到一個新的一致性的序列比對結果。PROMALS［23］是采用一系列附加信息以提高比對質量的例子:它是先用PSI-BLAST檢測序列的同源性獲得“輪廓”，并據此預測序列的二維結構，然后反過來用所預測的二維結構信息強化輪廓—輪廓比較，從而提高序列比對質量。

4 序列比對新動向

序列比對是否準確，還將在目標蛋白的三維結構構建后接受進一步驗證。事實上，序列比對一直是蛋白質三維結構同源建模的一個瓶頸。如何在序列比對的不可靠區域得到正確的序列比對結果，仍然是一項艱難的工作，相應的探索研究也從來沒有停下。

2011年，Di Tommaso等［13，22］在T-Coffee服務器上運用同源性延伸(homology extension)的方法對跨膜蛋白遠親序列進行了準確比對。同源性延伸是一種涉及數據庫搜索的方法［13］。在這種方法中，常規的每一個序列都用從近同源序列獲得的輪廓來代替。這樣，每個序列的每個位置都變成了多序列比對的一列。Di Tommaso等認為，他們的比對結果的準確度之所以比當時最準確的比對方法如PROMALS［23］等都還高，那是因為PSI-Coffee的功勞［22］。PSI-Coffee是T-Coffee基于同源性延伸的另一個版本。

最近，Khazanov等［24］從消除初始比對中的比對錯誤入手，把高斯加權 RMSD技術與播種(seed extension)算法運用到序列比對中，發展了同源蛋白的結構疊合和序列比對HwRMSD技術。在常規方法中，初始比對階段出現的序列比對錯誤會在后續的比對過程中繼續傳播。運用高斯加權RMSD進行結構疊合。根據這種疊合，用播種算法能夠得到正確的序列比對。對于那些基于序列和基于結構的比對方法都無法得出正確比對結果的遠同源序列以及構象差異較大的序列，HwRMSD能給出正確的比對結果。

5 總結與展望

Dickson等［25］從尋找初始比對中的比對錯誤著手提高序列比對的質量。要找出序列比對中的錯誤是很困難的。因為序列比對和對比對質量的評價，都是基于序列保守這一原理的。Dickson等采用了與序列保守不相關的局域共變(local covariation)的統計方法來鑒別序列比對中的錯誤。共變統計被用來表征2個氨基酸殘基是否是共同進化的。共同進化的氨基酸殘基受控于一種被約束的氨基酸變化機制。高的局域共變得分意味著2個位置是等同的。通過將錯誤比對的片段重新比對，減小局域共變，得到了有結構證據支撐的新的比對結果。

蛋白質三維結構特別是重要疾病靶點的三維結構對于基于靶點的藥物設計至關重要。它是靶向性藥物設計的關鍵。同源建模是最可靠的蛋白質三維結構預測方法。目標蛋白與模板蛋白間的序列比對，是同源建模流程中的關鍵環節。

根據目標蛋白與模板蛋白序列間的同源性高低，選擇不同的比對方法，并在評價比對結果的基礎上進一步優化序列比對比對，可以得到合理的比對結果。

如果目標蛋白與模板蛋白間的進化關系相當疏遠，序列間的同源性落在“午夜區”，那么要獲得準確的比對結果是很難的。對于這樣的目標蛋白，基于輪廓—輪廓或HMM-HMM的方法，以及元數據方法有較好的表現。

在對序列比對結果進行優化時，增加額外的進化信息或結構信息，可以提高比對質量。而新的方法，如同源性延伸搜索［22］，用高斯加權RMSD結合播種算法［24］消除序列初始比對中存在的錯誤，用與序列保守不相關的局域共變［25］統計方法鑒別出初始比對中的錯誤再重新比對等，都在為獲得高質量的序列比對結果做出令人期待的貢獻。

［1］GARCIN E D，ARVAI A S，ROSENFELD R J，et al.Anchored plasticity opens doors for selective inhibitor design in nitric oxide synthase［J］.Nat Chem Biol，2008，4(11):700 －707.

［2］HOSSAIN M M.Fish antifreeze proteins:Computational analysis and physicochemical characterization［J］.Int Curr Pharm J，2012，1(2):18 － 26.

［3］LIU T，TANG G W，CAPRIOTTI E.Comparative modeling:the state of the art and protein drug target structure prediction［J］.Comb Chem High Throughput Screen，2011，14(6):532 －547.

［4］VINO S，DILSHAD J，SUKHWAL A.Evolutionary analysis of SEC23A Gene and homology modeling in Zebrafish［J］.Drug Invention Today，2011，3(3):22－25.

［5］ANDRADE D V G，G ES-NETO A，JUNIOR M C，et al.Comparative modeling and QM/MM studies of cysteine protease mutant of Theobroma cacao［J］.Int J Quantum Chem，2012，112(9):3164 －3168.

［6］BHATTACHARYA D，CHENG J.3Drefine:Consistent protein structure refinement by optimizing hydrogen bonding network and atomic-level energy minimization［J］.Proteins，2012:DOI:10.1002/prot.24167.

［7］VENCLOVAS C.Methods for Sequence-Structure Alignment［M］.Clifton，NJ:Springer，2012:55 －82.

［8］S DING J.Protein homology detection by HMM-HMM comparison［J］.Bioinformatics，2005，21(7):951 －960.

［9］LENGAUER T，ZIMMER R.Protein structure prediction methods for drug design［M］.Oxford:Oxford Univ Press，2000:275 －288.

［10］KARLIN S，ALTSCHUL S F.Methods for assessing the statistical significance of molecular sequence features by using general scoring schemes［J］.Proc Nati Acad Sci USA，1990，87(6):2264 －2268.

［11］BIEGERT A，S DING J.Sequence context-specific profiles for homology searching［J］.Proc Nati Acad Sci USA，2009，106(10):3770 －3775.

［12］BRAMUCCI E，PAIARDINI A，BOSSA F，et al.PyMod:sequence similarity searches，multiple sequence-structure alignments，and homology modeling within PyMOL［J］.BMC Bioinformatics，2012(13)1 －6.

［13］CHANG J M，DI TOMMASO P，TALY J F，et al.Accurate multiple sequence alignment of transmembrane proteins with PSI-Coffee［J］.BMC Bioinformatics，2012，13(S4):1-7.

［14］DAGA P R，PATEL R Y，DOERKSEN R J.Template-based protein modeling:recent methodological advances［J］.Curr Top Med Chem，2010，10(1):84－94.

［15］BUJNICKI J M，FISCHER D.‘Meta’Approaches to Protein Structure Prediction［M］.Berlin:Springer-Verlag，2004:23 －34.

［16］BUJNICKI J M，ELOFSSON A，FISCHER D，et al.Structure prediction meta server［J］.Bioinformatics，2001，17(8):750 －751.

［17］BUJNICKI J M.Protein-structure prediction by recombination of fragments［J］.ChemBioChem，2006，7(1):19 －27.

［18］ROY A，KUCUKURAL A，ZHANG Y.I-TASSER:a unified platform for automated protein structure and function prediction［J］.Nat Protoco，2010，5(4):725－738.

［19］MEVISSEN H T，VINGRON M.Quantifying the local reliability of a sequence alignment［J］.Protein Eng，1996，9(2):127 －132.

［20］TRESS M L，JONES D，VALENCIA A.Predicting reliable regions in protein alignments from sequence profiles［J］.J Mol Biol，2003，330(4):705 －718.

［21］CHEN H，KIHARA D.Estimating quality of template-based protein models by alignment stability［J］.Protein，2008，71(3):1255 －1274.

［22］DI TOMMASO P，MORETTI S，XENARIOS I，et al.T-Coffee:a web server for the multiple sequence alignment of protein and RNA sequences using structural information and homology extension［J］.Nucleic acids research，2011，39(S2):13-17.

［23］PEI J，GRISHIN N V.PROMALS:towards accurate multiple sequence alignments of distantly related proteins［J］.Bioinformatics，2007，23(7):802－808.

［24］KHAZANOV N A，DAMM‐GANAMET K L，QUANG D X，et al.Overcoming sequence misalignments with weighted structural superposition［J］.Protein，2012:DOI:10.1002/prot.24134.

［25］DICKSON R J，GLOOR G B.Protein Sequence Alignment Analysis by Local Covariation:Coevolution Statistics Detect Benchmark Alignment Errors［J］.PLoS one，2012，7(6):e37645.