李 彬,欒悉道,王 鑫,李學(xué)勇
(長沙大學(xué)信息與計算科學(xué)系,湖南長沙410022)
近期的實(shí)驗(yàn)發(fā)展,如酵母雙雜交實(shí)驗(yàn)[1]、串聯(lián)親和純化[2]以及質(zhì)譜法[3]已導(dǎo)致經(jīng)產(chǎn)生了許多高質(zhì)量、大規(guī)模的PPI(蛋白質(zhì)相互作用)數(shù)據(jù).這些數(shù)據(jù)對于識別蛋白質(zhì)復(fù)合物奠定了基石.蛋白質(zhì)復(fù)合物對于了解細(xì)胞的功能組織,從而執(zhí)行其生物學(xué)功能具有非常重要的作用.
然而,由于相關(guān)實(shí)驗(yàn)技術(shù)的局限性和蛋白質(zhì)相互作用匹配的動態(tài)自然性質(zhì),從這些高通量的生物實(shí)驗(yàn)得到的PPI網(wǎng)絡(luò)中,相當(dāng)一部分相互作用包含假陽性[4].研究[5]表明,經(jīng)過篩選的酵母雙雜交數(shù)據(jù)集中,假陽性相互作用的比例達(dá)到50%.這些實(shí)驗(yàn)數(shù)據(jù)中產(chǎn)生的錯誤將對進(jìn)一步研究PPI網(wǎng)絡(luò)帶來負(fù)面影響.為減少PPI網(wǎng)絡(luò)中的假陽性,現(xiàn)已提出了幾種計算方法預(yù)測蛋白質(zhì)間的相互作用.其中大部分方法借助多種生物信息[6,7],有些方法則依靠統(tǒng)計評分功能[8,9]來計算的蛋白質(zhì)系譜概要文件的上下文相似性,采用機(jī)器學(xué)習(xí)技術(shù)[10]預(yù)測蛋白質(zhì)相互作用網(wǎng)絡(luò)或使用支持向量機(jī)方法[11]構(gòu)建監(jiān)督分類來識別相互作用的蛋白質(zhì).
為評估高通量蛋白質(zhì)相互作用的可靠性,現(xiàn)已提出許多計算方法.一些方法被設(shè)計用于評估酵母蛋白質(zhì)相互作用網(wǎng)絡(luò)的整體誤差率[12,13].相互作用數(shù)據(jù)的比較顯得尤為困難,因?yàn)樗麄兺鶃碜圆煌臈l件,呈現(xiàn)出不同的形式.因此,我們采用一些更為復(fù)雜的方法來評估單個相互作用的可靠性[14,15].一些基因組信息,如基因??注釋,基因表達(dá)等已被用于該方法中,而另一些僅使用PPI網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu).
盡管這些計算方法和實(shí)驗(yàn)技術(shù)取得了長足的進(jìn)步,我們?nèi)圆豢赡軜?gòu)建一個絕對可靠的PPI網(wǎng)絡(luò).所以,對于PPI網(wǎng)絡(luò)的應(yīng)用,如復(fù)合物的識別、蛋白的功能預(yù)測、關(guān)鍵蛋白質(zhì)的識別以及蛋白質(zhì)復(fù)合物的檢測等,相比評估可靠性或減少假陽性,允許假陽性的存在顯得更具有必要性和重要性.為了提高預(yù)測精度,一些算法考慮到PPI網(wǎng)絡(luò)的可靠性,并對PPI網(wǎng)絡(luò)中的相互作用進(jìn)行加權(quán).例如,CDdistance[16]和 FSWeight[17]兩種加權(quán)方式,權(quán)值根據(jù)相互作用的兩個蛋白質(zhì)的共同鄰居數(shù)量計算.他們已被證實(shí)具有較好的性能.即使對于加權(quán)PPI網(wǎng)絡(luò)上運(yùn)行的這些算法,相互作用的權(quán)重通常代表蛋白質(zhì)相互作用的優(yōu)先級,描述的一個子圖或者蛋白質(zhì)仍與非加權(quán)網(wǎng)絡(luò)中相同,一些方法引入了加權(quán)度.然而,當(dāng)大量的蛋白質(zhì)相互作用數(shù)據(jù)出現(xiàn)時,這些方法不足以得到令人滿意的結(jié)果.
本文考慮PPI網(wǎng)絡(luò)中相互作用的可靠性,構(gòu)建一個非確定性的PPI網(wǎng)絡(luò),其中每個相互的可靠性通過一個存在概率表示.我們提出了一種改良的蛋白質(zhì)復(fù)合物識別方法.我們將改良的方法和有代表性的最先進(jìn)的復(fù)合物識別方法作比較.這些方法包括 MCL[18],CMC[16],COACH[19]和 Cluste rONE[20].實(shí)驗(yàn)結(jié)果表明,我們提出的方法在準(zhǔn)確性和統(tǒng)計意義上明顯優(yōu)于這些算法.
Gavin[21]等已對復(fù)合物組織結(jié)構(gòu)做了深入研究.研究結(jié)果顯示,一個復(fù)合物應(yīng)該由一個核心組成部分和附件構(gòu)成.核心蛋白質(zhì)是高度共表達(dá)的,每個附件綁定到核,從而形成具有生物特性的復(fù)合物.因此,本文提出的改良的蛋白質(zhì)復(fù)合物識別方法基于核-附件的思想.方法主要包括四個步驟:
(1)計算PPI網(wǎng)絡(luò)中每組相互作用間的概率及每個蛋白質(zhì)在其鄰居圖(即某一蛋白質(zhì)的所有鄰接蛋白質(zhì)構(gòu)成的子圖,包括這些蛋白質(zhì)間存在的相互作用)內(nèi)的支持度,所有蛋白質(zhì)根據(jù)支持度降序排列.
對于任意一組相互作用ei,其相應(yīng)的存在概率計算如下:
pi=Nic/Nimax其中Nic是相互作用ei的兩個蛋白質(zhì)共同鄰居數(shù)量,Nimax是兩個蛋白質(zhì)共同鄰居數(shù)量的最大值.Nimax等于兩個蛋白質(zhì)度的最小值減1.
蛋白質(zhì)在某一相互作用網(wǎng)絡(luò)內(nèi)的支持度定義為:
給定一個蛋白質(zhì)相互作用網(wǎng)絡(luò)G=(V,E,P)及蛋白質(zhì)va∈V,其中V={v1,v2,…,vn}是蛋白質(zhì)構(gòu)成的集合,E={e1,e2,…,em}是蛋白質(zhì)相互作用構(gòu)成的集合,P={p(e1),p(e2),…,p(em)}是相互作用對應(yīng)的概率值.蛋白質(zhì)va在相互作用網(wǎng)絡(luò)G內(nèi)的支持度定義為:,其中|V|是G中蛋白質(zhì)的個數(shù).
在本步驟中,相互作用網(wǎng)絡(luò)G是某一蛋白質(zhì)及其所有鄰接蛋白質(zhì)構(gòu)成的子圖,包括這些蛋白質(zhì)間存在的相互作用.
所有蛋白質(zhì)在其鄰居圖內(nèi)的支持度的平均值A(chǔ)vg_RD被計算,作為步驟3中判定附件蛋白質(zhì)能否加入核的閾值.
(2)從第一個蛋白質(zhì)開始,逐漸增加鄰居蛋白質(zhì)來形成具有高凝聚力和低耦合性的候選核.這一過程對所有的蛋白質(zhì)不斷重復(fù)直到產(chǎn)生了不重復(fù)的核心集.
該方法中,所有蛋白質(zhì)都享有成為種子的機(jī)會.對于每一個選定的種子蛋白質(zhì),初始核僅包括種子蛋白質(zhì).對于該種子蛋白質(zhì)的鄰接蛋白質(zhì),嘗試將其加入核,若核的稠密度超過設(shè)定的閾值CT,則保留該鄰接蛋白質(zhì),否則,將該鄰接蛋白質(zhì)從候選核中移除.候選核的稠密度為所有相互作用的概率值總和.種子蛋白質(zhì)的所有鄰居蛋白質(zhì)都被訪問之后,就可以形成一個高內(nèi)聚的候選核,其內(nèi)部各個蛋白質(zhì)間聯(lián)系比較緊密.
本方法中,每一個核不僅要求內(nèi)部比較稠密,同時要求核中蛋白質(zhì)與外部蛋白質(zhì)間的聯(lián)系應(yīng)該比較松散.為此,對于候選核中的蛋白質(zhì),若某一蛋白質(zhì)與核外其他蛋白質(zhì)的聯(lián)系相比內(nèi)部蛋白質(zhì)間的聯(lián)系更加緊密,則移除該蛋白質(zhì),同時被標(biāo)記為DISCARD狀態(tài).候選核中所有蛋白質(zhì)均被處理之后所保留的蛋白質(zhì)便形成一個真正意義上的核.
(3)添加附件蛋白質(zhì)到核形成蛋白質(zhì)復(fù)合物,其中附件蛋白質(zhì)與核的期望支持度大于指定的閾值.
只有步驟2中被標(biāo)記為DISCARD的蛋白質(zhì)才有可能成為附件蛋白質(zhì)被添加到核.
對于選定的附件蛋白質(zhì),步驟3會將其與所有核做比較,若附件蛋白質(zhì)在某核內(nèi)的支持度超過步驟1中得到的閾值A(chǔ)vg_RD,則將附件蛋白質(zhì)添加到該核中.
(4)計算產(chǎn)生的復(fù)合物相互間的重疊率,當(dāng)重疊率超過指定的閾值時,移除那些具有更低的稠密度或者更小尺寸的復(fù)合物.
對于識別的兩個復(fù)合物A和B,兩者的重疊率的計算公式如下[19]:

本方法中重疊率的閾值設(shè)為0.8[21].
本文數(shù)據(jù)集采用酵母PPI網(wǎng)絡(luò),因?yàn)榻湍窹PI網(wǎng)絡(luò)是所有物種中最完整和可靠的.本文在DIP[22]數(shù)據(jù)集上運(yùn)行本方法和其他四種算法:MCL,CMC,COACH和 ClusterONE.DIP數(shù)據(jù)集發(fā)布日期為2012年8月18號,包含4895個蛋白質(zhì)和21776組蛋白質(zhì)間的相互作用.為了評估識別的蛋白質(zhì)復(fù)合物,本文采用CYC2008作為已知復(fù)合物集,CYC2008包含408個通過生物方法預(yù)測得到的復(fù)合物.本文主要從準(zhǔn)確率、召回率和P-Value值分析對幾種算法進(jìn)行對比分析.為了公平對比,在運(yùn)行其他四種算法時,相應(yīng)的參數(shù)均按照作者的建議設(shè)定為最優(yōu)值.本次實(shí)驗(yàn)設(shè)定CT=0.05.
為評估識別方法有效性,將從酵母蛋白質(zhì)網(wǎng)絡(luò)中識別出來的復(fù)合物與已知復(fù)合物進(jìn)行比較分析.算法識別出來的復(fù)合物與已知復(fù)合物的匹配程度OS根據(jù)公式(1)計算得到.
對于已知復(fù)合物數(shù)據(jù)集中的復(fù)合物KC,若識別出的復(fù)合物PC與之匹配程度OS(PC,KC)超過給定閾值,則稱該已知復(fù)合物被標(biāo)識,一般地,該閾值設(shè)置為0.2[19].
算法的準(zhǔn)確率(Precision)和召回率(Recall)是用來評估復(fù)合物識別方法的兩個重要指標(biāo).準(zhǔn)確率是指識別的復(fù)合物中被標(biāo)識的數(shù)量與識別的復(fù)合物總量的比值;召回率是指已知復(fù)合物中被標(biāo)識的復(fù)合物數(shù)量與已知復(fù)合物總數(shù)的比值.
綜合準(zhǔn)確率和召回率兩個方面,提出了F-Score,它是準(zhǔn)確率和召回率的調(diào)和平均值,計算公式如(2)所示

表1給出了各種方法識別的復(fù)合物的基本信息.其中,Number表示各種識別的復(fù)合物總數(shù),MKC是指識別的復(fù)合物中被標(biāo)識的復(fù)合物數(shù)量,MPC是指已知復(fù)合物中被標(biāo)識的復(fù)合物數(shù)量,PerfectNumber是完美匹配的復(fù)合物數(shù)量,即OS=1.

表1 各方法識別的復(fù)合物基本信息
從表1可見,本文提出的方法識別的復(fù)合物中被標(biāo)識的數(shù)量及完美匹配數(shù)量均居榜首.本方法與COACH方法均能使已知復(fù)合物中被標(biāo)識的復(fù)合物數(shù)量達(dá)到最大值(221).對比識別的復(fù)合物總數(shù),COACH方法和MCL方法識別的復(fù)合物總數(shù)均超過本方法.這說明我們的方法具有更高的效率.
圖1顯示各種方法在DIP數(shù)據(jù)集中識別的復(fù)合物計算的Precision、Recall和F-Score對比分析.

圖1 各方法的結(jié)果對比分析
圖1顯示,在DIP數(shù)據(jù)集中,我們的方法能得到最高的準(zhǔn)確率、召回率和F-sccore值,這是我們的方法識別的復(fù)合物具有最高的MKC和MPC,而識別的復(fù)合物總數(shù)并非最多.我們方法的F-Score值分別比COACH、MCL、CMC和ClusterONE 提高了 23.59%,42.31%,53.09%和 92.88%.
本文采用GO功能富集分析評價識別的復(fù)合物的統(tǒng)計和生物特性.GO注釋是一種非常有效的評估蛋白質(zhì)相互作用可靠性的資源.GO::TermFinder是一個軟件模塊集合,決定共享的一組基因的統(tǒng)計學(xué)顯著特性.為了確定是否任意的GO條目能以一種超過偶然機(jī)會的頻率注釋特定領(lǐng)域的基因列表,GO::TermFinder通過一種超幾何分布計算P-value值.如果P-value越小,越接近0,則說明復(fù)合物能夠隨機(jī)出現(xiàn)這種功能的概率就越低,當(dāng)然可能更有生物學(xué)意義.同一個復(fù)合物內(nèi)的蛋白質(zhì)通常具有相同或相似的功能.一般將P-value的最小值對應(yīng)的功能作為該復(fù)合物的主要功能.通過給每個識別的復(fù)合物賦予其P-value最小時對應(yīng)的功能,可以識別未知蛋白質(zhì)的功能.一般地,若一個復(fù)合物的P-value<0.01,則認(rèn)為這個復(fù)合物是顯著的.研究指出,顯著的復(fù)合物數(shù)量在識別的復(fù)合物總數(shù)中所占的比例可以用于評價各個算法的整體性能.另外,P-score值也是另外一種有效的評價手段,其定義如下所示:

表2顯示各種方法在DIP數(shù)據(jù)集上識別的復(fù)合物的顯著性統(tǒng)計信息.

表2 各方法預(yù)測的復(fù)合物的顯著性統(tǒng)計信息
其中,#PM表示算法識別的復(fù)合物總數(shù),#SC表示顯著的復(fù)合物數(shù)量,即P-value<0.01的復(fù)合物數(shù)量.表2顯示,我們的方法識別的復(fù)合物具有最高的顯著性復(fù)合物比例和最大的P-score值.我們方法的 P-score值相比 COACH、CMC、ClusterONE 和 MCL,分別提高了25.15%、45.11%、26.09%和77.82%.這說明我們的方法識別的復(fù)合物具有最強(qiáng)生物統(tǒng)計意義.
從表2中,我們還可以發(fā)現(xiàn)一個有趣的事實(shí):CMC方法的Proportion高于COACH和ClusterONE方法,然而,CMC的P-score確低于 COACH和 ClusterONE.原因在于,雖然COACH和ClusterONE識別的復(fù)合物中顯著性復(fù)合物的比例不如CMC,但是兩種方法得到的顯著性復(fù)合物具有更小的P-value值.

表3 方法識別的復(fù)合物的實(shí)例
表3是識別的復(fù)合物實(shí)例.OS表示復(fù)合物匹配率,#SC表示正確匹配的蛋白質(zhì)個數(shù),第四列列舉了組成復(fù)合物的所有蛋白質(zhì),其中,加粗部分表示被匹配的蛋白質(zhì).
步驟(2)中,為了對候選核進(jìn)行篩選,本文引入自定義參數(shù)CT描述子圖的稠密度.圖2顯示了CT取不同值,F(xiàn)-score變化情況.
從圖2可以看出,當(dāng)CT=0.1時,算法得到最高的FScore值.綜合考慮完全匹配的復(fù)合物數(shù)量和F-Score值,本文設(shè)定 CT=0.05.

圖2 參數(shù)CT的影響
基于蛋白質(zhì)間的相互作用存在不可靠性,本文構(gòu)建一個非確定蛋白質(zhì)相互作用網(wǎng)絡(luò),相互作用的可靠性通過概率值表示,從而盡量消除假陽性或者降低假陽性帶來的負(fù)面.提出了一種改良的蛋白質(zhì)復(fù)合物識別方法.通過準(zhǔn)確率、召回率和P-value幾個方面對比分析改良的方法和幾種經(jīng)典的復(fù)合物識別方法.實(shí)驗(yàn)結(jié)果表明,提出的改良方法具有更高的預(yù)測準(zhǔn)確率,算法識別的復(fù)合物具有更強(qiáng)的生物統(tǒng)計特性.
[1]Ito T,Chiba T,Ozawa R,et al.A comprehensive two-h(huán)ybrid analysis to explore the yeast protein interactome[J].PNAS,2001,(8):4569-4574.
[2]Rigaut G,Shevchenko A,Rutz B,et al.A generic protein purification method for protein complex characterization and proteome exploration[J].Nature Biotechnology,1999,(10):1030-1032.
[3]Ho Y,Gruhler A,Heilbut A,et al.Systematic identification of protein complexes in Saccharomyces cerevisiae by mass spectrometry[J].Nature,2002,(6868):180-183.
[4]Mrowka R,Patzak A,Herzel H.Is there a bias in proteome research?[J].Genome research,2001,(12):1971-1973.
[5]Mering C V,Krause R,Snel B,et al.Comparative assessment of large-scale data sets of protein-protein interactions[J].Nature,2002,(6887):399-403.
[6]Tsoka S,Ouzounis C A.Prediction of protein interactions:metabolic enzymes are frequently involved in gene fusion[J].Nature Genetics,2000,(2):141-142.
[7]Wojcik J,Schchter V.Protein– protein interaction map inference using interacting domain profile pairs[J].Bioinformatics,2001,(1):296-305.
[8]Yamada T,Kanehisa M,Goto S.Extraction of phylogenetic network modules from the metabolic network[J].BMC Bioinformatics,2006,(1):130.
[9]Wu J,Kasif S,DeLisi C.Identification of functional links between genes using phylogenetic profiles[J].Bioinformatics,2003,(12):1524-1530.
[10]Albert I,Albert R.Identification of functional links between genes using phylogenetic profiles[J].Bioinformatics,2004,(12):3346-3352.
[11]Lo S,Cai C,Chen Y,et al.Effect of training datasets on support vector machine prediction of protein ‐ protein interactions[J].Proteomics,2005,(4):876-884.
[12]Deane C M,Salwiński L,Xenarios I,et al.:Protein interactions two methods for assessment of the reliability of high throughput observations[J].Molecular& Cellular Proteomics,2002,(5):349-356.
[13]D'haeseleer P,Church G M.Estimating and improving protein interaction error rates[A].Proceedings of Computational Systems Bioinformatics Conference[C].IEEE,2004:216-223.
[14]Gilchrist M A,Salter L A,Wagner A.A statistical framework for combining and interpreting proteomic datasets[J].Bioinformatics,2004,(5):689-700.
[15]Mering V C,Krause R,Snel B,et al.Comparative assessment of large-scale data sets of protein– protein interactions[J].Nature,2002,(6887):399-403.
[16]Liu G,Wong L,Chua H N.Complex discovery from weighted PPI networks[J].Bioinformatics,2009,(15):1891-1897.
[17]Chua H N,Sung W K,Wong L.Exploiting indirect neighbours and topological weight to predict protein function from protein–protein interactions[J].Bioinformatics,2006,(3):1623-1630.
[18]Enright A J,Dongen S V,Ouzounis C A.An efficient algorithm for large-scale detection of protein families[J].Nucleic Acids Research,2002,(7):1575-1584.
[19]Wu M,Li X,.Chee-Keong K,et al.A core-attachment based method to detect protein complexes in ppi networks[J].BMC Bioinformatics,2009,(1):169.
[20]Nepusz T,Yu H,Paccanaro A.Detecting overlapping protein complexes in protein-protein interaction networks[J].Nature Methods,2012,(5):471-475.
[21]Gavin A,Aloy P,Grandi P,et al.Proteome survey reveals modularity of the yeast cell machinery[J].Nature,2006,(7084):631-636.
[22]Xenarios I,Salwinski L,Duan X J,et al.DIP,the database of interacting proteins:A research tool for studying cellular networks of protein interactions[J].Nucleic acids research,2002,(1):303-305.