楊雷 唐降龍
摘要:蛋白質互作可用來研究細胞過程、分子功能和人類相關疾病。高通量的生物學實驗提供的蛋白質互作數據含有大量的錯誤和缺失,可用計算方法加以完善。針對單一的計算方法預測蛋白質互作遇到的準確性波動問題,本文提出一種基于寬進嚴出策略獲取可靠蛋白質互作的框架模型。根據設置的使用原則,該框架模型可以整合多種計算方法,共同對抗原始互作數據集中存在的噪聲數據干擾,以及單一計算方法應用的生物學背景知識偏差。基于該框架模型預測的蛋白質互作具有多重生物學意義,提高了預測的可靠性和穩定性。
關鍵詞:蛋白質互作; 框架模型; 方法整合; 可靠預測
中圖分類號:TP39141 文獻標識碼:A文章編號:2095-2163(2014)04-0050-04
Abstract:Protein-protein interactions can provide insight in the studying of cellular processes, molecular functions and human diseases. Protein interactions derived from biological experiments contain numerous noise and deficient data, which can be improved by computational approaches. A framework model based on loose in and strict out strategy is proposed to predict reliable protein interactions, overcoming the problem of accuracy fluctuation based on a single predicting method. According to applied rules of the framework model, it can integrate various computational approaches to confront the interference of noise from original datasets and the deviation of the applied basic of biological knowledge together. Protein interaction predictions oriented from the framework own multiply biological significance, producing the improvement of the reliability and stability.
Key words:Protein-protein Interaction; Framework Model; Approach Integration; Reliable Predictions
0引言
對于每一種生物而言,蛋白質是生物功能的主要體現者,其相互之間均以一種明確設定的方式相互作用來協調幾乎所有的細胞過程,以獲得相對完整的蛋白質互作映射,同時構建一個或若干個蛋白質互作網絡,實現從系統水平上直觀可見地研究組織功能,進而發現人類疾病的致病機理并尋找基因治療的藥物靶點[1]。迄今為止,高通量的生物學實驗技術則為蛋白質互作提供了相應的數據基礎,雖然其中的大部分互作數據準確可靠,但不同物種之間的互作數據在質量和數量上卻仍然存在較大差別。例如酵母的互作數據相對完整,而人類的缺口則較大;尤其是,在已有的數據中還會包含著數量不等的錯誤互作。基于以上分析,為了克服生物學實驗方法勞動量大、花費高、費時多和數據冗余等缺點,研究引入了計算方法以修補互作數據。目前,針對已有的蛋白質互作數據和不同的生物學背景知識或假設,已經設計了大量的計算方法[2]。但卻有許多計算方法面臨著如下三個問題的困擾,具體表述為:
(1)健壯性。同一種計算方法基于不同物種、特征和數量的互作數據集時,預測結果的穩定性波動較大,尤其在原始蛋白質互作網絡中存在假陽性互作干擾的情況下。
(2)可信性。計算方法是基于某種生物學知識或假設對蛋白質互作進行預測或評估,這些生物學背景可能只是針對特別的物種和某種特征的數據集合保持有效,而對另外一些數據卻會失去效用,也就是其預測結果只是在一定程度上才能成立。
(3)可執行性。通常,計算方法在使用時要設置參數,有時還要根據數據集的具體情況調整設置,使用起來相對復雜。
例如,有一類計算方法根據遺傳信息的相似性來預測蛋白質互作。即由蛋白質A和B互作,而蛋白質B與C遺傳信息相似,則即可推斷蛋白質A與C趨向互作。但在推斷該結論時卻可能遭遇如下問題:
(1)這個生物學假設未必成立,正如蛋白質復合物中的蛋白質傾向發生互作,但在復合物中的每對蛋白質之間卻不一定都能表現為互作。
(2)假如當這個生物學背景知識成立時,那么蛋白質B與C要在多大程度上相似才可做出如上推斷,卻還沒有找到統一標準,而且也會難于確定。
(3)如果蛋白質A與B是假陽性互作,那么推斷出的蛋白質A與C在很大程度上也可能是假陽性互作。通常而言,相似度是一個設定的閾值,若其設定值較高,則預測標準也較為嚴格,對原始數據要求亦會較高,預測的互作數量較少但可信度卻會很高;反之,則預測的互作數量較大而假陽性互作也會較多。相應于以上問題的出現,本文即提出一種能夠獲取蛋白質可靠互作預測的框架模型。
1預測可靠互作的框架模型
1.1整合多種方法模式第4期楊雷,等:基于寬進嚴出策略的可靠蛋白質互作預測框架模型智能計算機與應用第4卷
為了保證生物學背景知識或假設對已知數據集的準確可靠性,可以采用引入或結合多種生物學知識的方法,現給出兩種主要模式,具體如圖1所示。其中,圖1(a)表示基于已知蛋白質互作數據集,采用一種計算方法,而引入多個生物學知識或特征信息,并在滿足背景知識時即可產生預測集合。圖1 (b)則表示分別采用多種計算方法產生一個預測候選集合,又針對候選集合引入多個評估方法,而當滿足所有評估方法時,將會確定最終的預測集合。這兩種模式產生的蛋白質互作均已滿足多種生物學背景知識,且其預測可靠性也較高。但是,兩種模式卻也存在著一定的缺點。圖1(a)的模式要滿足多種生物學知識,也要確定各個背景知識之間的關聯關系,具體操作較為復雜;同時,適應不同特征的互作數據集性能也會較差,容易產生預測過擬合,并導致預測困難。而圖1(b)的模式用于產生預測候選集合雖然并不困難,但在滿足多種評估方法時卻會容易去除真陽性互作;而且,多種方法如何組合也仍然需要更為詳細而深入的研究探討。
1.2寬進嚴出框架模型
本文建立的寬進嚴出框架模型是基于圖1(b)模式并施以限定條件的改進,即在產生候選集合中只選用一種預測方法,而在評估候選集合時則需根據預測候選集合的可靠性,選擇一到四種評估方法。而且,基于已知的蛋白質互作數據,該模型的運行實現則可分為如下兩步:
(1)寬進。首先基于某種生物學知識或假設產生預測候選集合,并在預測的過程中適當放寬方法限定,包括方法中的閾值參數,以利于產生數量相對較多的蛋白質互作。寬進步驟可以有針對性地簡化預測方法,達到使用簡便的目的。
(2)嚴出。采用一個或多個生物學知識或假設的評估辦法,設置相對嚴格的過濾限定閾值參數,對預測候選集合進行篩選。這樣獲得的預測結果即會同時滿足多個生物學意義要求,從而達到預測結果可信的目的。
寬進嚴出框架是一個通用的策略模型,可以組合多種計算方法來預測蛋白質互作。根據預測方法所采用的生物學背景知識或假設的可靠性程度,可將其分為四個等級,即優、良、中和差。其中,對于預測可靠程度較高的互作,即可采用較少的評估方法進行修正;反之,則需要采用較多的評估方法予以修正。因此,對于每種可靠等級產生的預測,就需要引入數量不等的評估方法以確保預測結果的準確性,具體實現如圖2所示。雖然評估方法越多,產生的蛋白質互作預測越可靠,但卻并不能過多采用,因為這樣極易去除真陽性互作。通過預測方法的可靠性評級,而且結合適量的評估方法,即能獲取高可靠的蛋白質互作。
2寬進嚴出框架的使用原則
在使用寬進嚴出框架模型前,首先要確定預測蛋白質互作方法的可靠性等級,然后根據可靠性等級選擇評估方法的數量。而且,通過預測方法所采用的生物學背景知識,所有計算方法預測都將分配在前三個可靠等級中。當蛋白質互作原始數據的可靠性稍弱時,計算方法的預測級別就會隨之降低一級;也就是說,只要作為基礎的互作數據相對可靠,所采用的評估方法將不會超過三個。另一方面,采用評估方法的數量也與預測方法中的閾值設定有關。如果預測方法中設置了較嚴格的閾值,那么可靠性級別就會提高,從而減少選擇評估方法的數量;反之,則會增加評估方法的選擇數目。通常,為了避免評估方法選擇和使用的復雜性,其數量一般不會超過四個。
在確定預測方法后,選擇評估方法時則要遵循一個重要原則:預測方法和評估方法之間要滿足兼容性,而評估方法之間則要滿足互補性。如果評估方法和預測方法不兼容,那么修正預測的互作時,評估方法就會將預測互作的大部分施以去除處理。如果用兩種預測交疊率極低的方法相互驗證,就幾乎不會產生任何互作結果。因此,在使用寬進嚴出框架預測蛋白質互作前,就需要知道每種預測方法所依據的知識或假設的可信強度,以及使用方法所涉及的信息和適用范圍。
3基于寬進嚴出框架的預測和評估方法綜述
在使用寬進嚴出框架預測蛋白質互作前,首先要確定每種預測方法基于知識或假設的可信強度,然后確定方法之間的兼容性和互作性。而在時下的眾多文獻中,預測蛋白質互作方法分類卻有所不同,例如在文獻[3]中,從結構、基因組和生物學相關性三方面實現了分類。根據這三種分類,本文即將預測可信強度劃分為與之對應的一到三級,分別是基于結構的互作預測可信度為優,基于基因信息的預測方法為良,其它的基于生物學知識方法則為中。圖3就隨之列舉了寬進嚴出策略模型的使用實例。
3.1預測方法的可靠等級
在預測互作部分中,基于結構[4](structures)和域[5](domains)的方法可信級別為優,基于序列(sequence)信息(包括基因比對,基因簽名和基因融合等)[6]和共進化[7](co-evolution)可信級別為良,而基于拓撲結構屬性[8](topology)可信級別則為中。而機器學習方法即可以用這些生物學知識作為特征,利用已知互作數據作為訓練集進行預測。例如,Bayesian網絡[9]、馬爾科夫模型方法[10]、隨機森林決策[11]和支持向量機[12]等。
3.2評估方法的兼容性
在評估蛋白質互作過程中,上面提到的生物學知識、假設和機器學習方法也可以用來評估。除此以外,生物學的可靠性測度還包括:分子功能和細胞位置[13]、基因本體論(GO)術語注釋[14]、蛋白質復合物[15]和基因表達[16];網絡拓撲測度更包括:局部測度IG1[17],IG2[18]和聚類系數[19],表達功能一致性的鄰居測度CD-Dist[20]和FSWeight[21],路徑替換測度IRAP[22]。只是每種評估方法都有其對應的局限性和適用范圍,即一定的針對性。比如,GO注釋幾乎兼容大部分預測方法,但本身注釋并不完全;基因共表達方法并不適用于對直接物理互作的評估;而蛋白質復合物評估方法與酵母雙雜交方法獲得的蛋白質互作交集很小,也不能混用。通常情況,拓撲類方法與其它生物學方法兼容性較好,因此可以選擇性使用。
4結束語
為了獲取高質量的蛋白質互作預測,本文提出了一種基于寬進嚴出策略的預測蛋白質互作的框架模型。該框架模型提供了一種可以整合多種計算方法預測互作的原則,即要滿足方法間的兼容性和互補性。在使用該框架時,根據計算方法的預測背景知識進行可信度分級,以此為依據選擇評估方法的類型和數量。在基于已知互作數據預測時,多個方法可以同時發揮作用,其優點表現在:
(1)每種方法均可以進行簡化,根據自己的角色放寬或加強參數設置。
(2)多個方法共同對抗原始互作數據集中存在的噪聲,達到預測穩定。
(3)預測結果滿足多種生物學意義,更加可靠。
在文獻[23]中,其預測蛋白質互作的實質采用了寬進嚴出框架模型。在寬進步驟中,應用團(極大完全子網)預測蛋白質互作,而在嚴出步驟使用GO術語進行評估修正。由于團的結構極為嚴格,并且在閾值選擇上采用了最高限度(僅差一邊),所以可靠等級為優。預測過程比較簡單,結果可靠,能夠克服拓撲方法預測的不穩定問題。從另一方面講,該框架模型以犧牲預測的數量來換取預測的準確性,這種犧牲對于計算方法補充實驗方法獲得的互作數據是值得的。
參考文獻:
[1]SCHRATTENHOLZ A,SOSKIC V.What does systems biology mean for drug development? [J]Current Medicinal Chemistry, 2008,15(15):1520-1528.
[2]THEOFILATOS K A,DIMITRAKOPOULOS C M,TSAKALIDIS A K,et al.Computational approaches for the prediction of protein-protein interactions: a survey [J].Current Bioinformatics, 2011,6(4):398-414.
[3]SKRABANEK L,SAINI H K,BADER G D,et al.Computational prediction of protein-protein interactions [J].Molecular Biotechnology, 2008,38(1):1-17.
[4]ALOY P,BOTTCHER B,CEULEMANS H,et al.Structure-based assembly of protein complexes in yeast [J].Science, 2004,303(5666):2026-2029.
[5]NYE T M W,BERZUINI C,GILKS W R,et al.Statistical analysis of domains in interacting protein pairs [J].Bioinformatics, 2005,21(7):993-1001.
[6]MARCOTTE E M,PELLEGRINI M,NG H L,et al. Detecting protein function and protein-protein interactions from genome sequences [J].Science,1999,285(5428):751-753.
[7]LEWIS A C F,SAEED R,DEANE C M.Predicting protein-protein interactions in the context of protein evolution [J].Molecular Biosystems,2010,6(1):55-64.
[8]LIU G M,LI J Y,WONG L S.Assessing and predicting protein interactions using both local and global network topological metrics [J].Genome Informatics,2008,21:138-149.
[9]ASTHANA S,KING O D,GIBBONS F D,et al.Predicting protein complex membership using probabilistic network reliability [J].Genome Research, 2004,14(6):1170-1175.
[10]LETOVSKY S,KASIF S.Predicting protein function from protein/protein interaction data: a probabilistic approach [J].Bioinformatics, 2003,19:i197-i204.
[11]QI Y J,KLEIN-SEETHARAMAN J,BAR-JOSEPH Z.Random forest similarity for protein-protein interaction prediction from multiple sources [J].Pacific Symposium on Biocomputing, 2005,2005:531-542.
[12]BEN-HUR A,NOBLE W S.Kernel methods for predicting protein-protein interactions [J].Bioinformatics,2005,21:I38-I46.
[13]PARK B,HAN K.A reliability measure of protein-protein interactions and a reliability measure-based search engin [J].Computer Methods in Biomechanics and Biomedical Engineering, 2009,13(1):97-104.
[14]MAHDAVI M A,LIN Y H.False positive reduction in protein-protein interaction predictions using gene ontology annotations [J].Bmc Bioinformatics, 2007, 8:262.
[15]EDWARDS A M,KUS B,JANSEN R,et al.Bridging structural biology and genomics: assessing protein interaction data with known complexes [J].Trends in Genetics,2002,18(10):529-536.
[16]YANO K.Improved prediction of protein interaction from microarray data using asymmetric correlation [J].Proceedings of the International Conference on Computational Science (Iccs), 2011,4:1072-1081.
[17]SAITO R,SUZUKI H,HAYASHIZAKI Y.Interaction generality, a measurement to assess the reliability of a protein-protein interaction [J].Nucleic Acids Research, 2002,30(5):1163-1168.
[18]SAITO R,SUZUKI H,HAYASHIZAKI Y.Construction of reliable protein-protein interaction networks with a new interaction generality measure [J].Bioinformatics, 2003,19(6):756-763.
[19]GOLDBERG D S,ROTH F P.Assessing experimentally derived interactions in a small world [J].Proceedings of the National Academy of Sciences of the United States of America,2003,100(8):4372-4376.
[20]BRUN C,CHEVENET F,MARTIN D,et al.Functional classification of proteins for the prediction of cellular function from a protein-protein interaction network [J].Genome Biology,2004, 5(1):R6.
[21]CHUA H N,SUNG W K,WONG L.Exploiting indirect neighbours and topological weight to predict protein function from protein-protein interactions [J].Bioinformatics, 2006,22(13):1623-1630.
[22]CHEN J,HSU W,LEE M L,et al.Increasing confidence of protein interactomes using network topological metrics [J].Bioinformatics, 2006,22(16):1998-2004.
[23]YANG L,TANG X L.Protein-protein interactions prediction based on iterative clique extension with gene ontology filtering [J].The Scientific World Journal,2014,2014:523-634.