999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于復(fù)合物信息和亞細(xì)胞定位信息的關(guān)鍵蛋白質(zhì)識(shí)別

2020-07-14 00:05:48毛伊敏章宇盟
科學(xué)技術(shù)與工程 2020年17期
關(guān)鍵詞:關(guān)鍵信息方法

毛伊敏,章宇盟,胡 健

(1.江西理工大學(xué)信息工程學(xué)院,贛州 341000;2.江西理工大學(xué)應(yīng)用科學(xué)學(xué)院,贛州 341000)

關(guān)鍵蛋白質(zhì)一般是指通過基因剔除式突變將其移除后會(huì)造成生物體相關(guān)功能缺失,并導(dǎo)致生物體生病或無法生存的蛋白質(zhì)[1]。早期,在關(guān)鍵蛋白質(zhì)研究方面,主要是通過生物實(shí)驗(yàn)方法進(jìn)行預(yù)測(cè),例如RNA干擾、單基因敲除、條件基因敲除。雖然該類方法的預(yù)測(cè)準(zhǔn)確率高,但存在操作復(fù)雜、耗時(shí)成本代價(jià)高等缺陷。因此,研究人員逐漸轉(zhuǎn)向基于生物計(jì)算的預(yù)測(cè)方法。隨著高通量蛋白質(zhì)組技術(shù)、計(jì)算機(jī)相關(guān)技術(shù)的迅猛發(fā)展以及蛋白質(zhì)相互作用數(shù)據(jù)日益完善,這使得通過基于計(jì)算機(jī)的計(jì)算方法來識(shí)別關(guān)鍵蛋白質(zhì)成為可能。

Jeong等[2]在2001年就指出,在蛋白質(zhì)相互作用網(wǎng)絡(luò)(PPI)中,存在著“中心-致死性”法則,即在PPI中鄰居節(jié)點(diǎn)較大的蛋白質(zhì)對(duì)細(xì)胞的生存起著非常重要的作用。Yu等[3]經(jīng)過研究蛋白質(zhì)相互作用(protein-protein interaction,PPI)網(wǎng)絡(luò)相關(guān)數(shù)據(jù)發(fā)現(xiàn),關(guān)鍵蛋白質(zhì)的平均度值大約是非關(guān)鍵蛋白質(zhì)的兩倍。基于這些網(wǎng)絡(luò)拓?fù)涮卣鳎姸嗷谕負(fù)渲行男缘年P(guān)鍵蛋白質(zhì)識(shí)別方法相繼被提出,如度中心性(degree centrality,DC)[4]方法、接近度中心性(closeness centrality,CC)[5]方法、介數(shù)中心性(betweenness centrality,BC)[6]方法、子圖中心性(subgraph centrality,SC)[7]方法、特征向量中心性(eigenvector centrality,EC)[8]、信息中心性(information centrality,IC)[9]方法、方法、鄰居中心性方法(network centrality,NC)[10]和局部連通中心性方法(local average connectivity,LAC)[11]。由于在PPI網(wǎng)絡(luò)中存在大量的假陽性和假陰性數(shù)據(jù)(噪聲數(shù)據(jù)),使直接利用拓?fù)渲行男蕴卣鱽碜R(shí)別關(guān)鍵蛋白質(zhì)的方法有缺陷;同時(shí),這些中心性的方法也忽略了關(guān)鍵蛋白質(zhì)本生固有的生物屬性[12]。因此,為進(jìn)一步提高關(guān)鍵蛋白質(zhì)的預(yù)測(cè)精度,研究者將一種生物信息或多種生物信息融入PPI網(wǎng)絡(luò)中。Li等[13]和Tang等[14]基于基因表達(dá)信息分別提出一種名為PeC(integrate ECC and person correlation)和WDC(weighted degree centrality)的關(guān)鍵蛋白質(zhì)預(yù)測(cè)方法;Peng等[15-16]基于蛋白質(zhì)同源信息和蛋白質(zhì)域信息,將其與蛋白質(zhì)在PPI網(wǎng)絡(luò)中的拓?fù)涮匦韵嘟Y(jié)合,提出UDoNC(united the domain features and the normalized ECC)和ION(the integration of the properties of orthologous and the features of neighbors)關(guān)鍵蛋白質(zhì)預(yù)測(cè)方法;除此之外,研究者還提出基于蛋白質(zhì)在復(fù)合物內(nèi)的參與程度來衡量PPI網(wǎng)絡(luò)的可靠性以及關(guān)鍵蛋白質(zhì)與復(fù)合物之間緊密程度。胡賽等[17]通過計(jì)算兩個(gè)蛋白質(zhì)共享結(jié)構(gòu)域的概率和共享復(fù)合物的概率以構(gòu)建高可靠性加權(quán)PPI網(wǎng)絡(luò);Zhao等[18]利用PPI網(wǎng)絡(luò)的模塊化特性挖掘重疊的復(fù)合物,并通過計(jì)算蛋白質(zhì)在復(fù)合物內(nèi)的加權(quán)度來衡量蛋白質(zhì)的關(guān)鍵性。Qin等[19]提出了基于局部密度、介數(shù)中心性(BC)和復(fù)合物度中心性(in-degree centrality of complex,IDC)的關(guān)鍵蛋白質(zhì)識(shí)別算法LBCC。雖然基于復(fù)合物信息的關(guān)鍵蛋白質(zhì)識(shí)別取得了一定的成效,但只考慮了蛋白質(zhì)在復(fù)合物內(nèi)的參與程度,忽略了蛋白質(zhì)的關(guān)鍵性與復(fù)合物參與頻率成正相關(guān)性這一特性。目前,基于拓?fù)涮匦缘年P(guān)鍵蛋白質(zhì)識(shí)別算法雖然取得了一定的成效,但是通過高通量生物技術(shù)獲得的大規(guī)模蛋白質(zhì)相互作用網(wǎng)絡(luò)數(shù)據(jù)中存在較高比例的噪聲數(shù)據(jù)和不完備數(shù)據(jù),以及基于復(fù)合物信息的關(guān)鍵蛋白質(zhì)預(yù)測(cè)方法對(duì)復(fù)合物信息考慮不夠全面導(dǎo)致關(guān)鍵關(guān)鍵蛋白質(zhì)識(shí)別的準(zhǔn)確性不高等缺陷,仍是亟待解決的問題。

針對(duì)以上問題,現(xiàn)提出一種名為基于復(fù)合物信息和亞細(xì)胞定位信息(united protein complexes and subcellular locallizations,PCSL)的關(guān)鍵蛋白質(zhì)預(yù)測(cè)方法。主要開展以下3個(gè)方面工作:①融合PPI網(wǎng)絡(luò)的拓?fù)鋵傩浴⑸飳傩院涂臻g屬性3個(gè)方面構(gòu)建加權(quán)網(wǎng)絡(luò),以降低原始PPI網(wǎng)絡(luò)中噪聲數(shù)據(jù)和不完整數(shù)據(jù)對(duì)關(guān)鍵蛋白質(zhì)預(yù)測(cè)精度的負(fù)面影響,其中拓?fù)鋵傩杂眠吘奂禂?shù)計(jì)算,生物屬性用生物功能相似性計(jì)算,空間信息用亞細(xì)胞定位信息計(jì)算;②基于復(fù)合物信息和亞細(xì)胞定位信息,綜合考慮復(fù)合物參與頻度和空間位置重要性,提出一種蛋白質(zhì)關(guān)鍵性度量,以提高關(guān)鍵蛋白質(zhì)預(yù)測(cè)精度;③基于加權(quán)PPI網(wǎng)絡(luò),利用改進(jìn)的CPPK算法對(duì)PPI網(wǎng)絡(luò)進(jìn)行尋優(yōu)操作,以提升關(guān)鍵蛋白質(zhì)挖掘的效率。

1 PCSL方法

針對(duì)蛋白質(zhì)PPI網(wǎng)絡(luò)中存在大量噪聲,現(xiàn)有大多關(guān)鍵蛋白識(shí)別方法對(duì)蛋白質(zhì)關(guān)鍵性描述不全面以及關(guān)鍵蛋白質(zhì)挖掘效率不高等問題,提出一種新的關(guān)鍵蛋白質(zhì)預(yù)測(cè)方法PCSL。首先該方法基于邊聚集系數(shù)、GO功能相似性和空間位置重要性,提出一種綜合性邊權(quán)值度量對(duì)PPI網(wǎng)絡(luò)進(jìn)行加權(quán),從而構(gòu)建加權(quán)網(wǎng)絡(luò);然后,綜合考慮復(fù)合物參與度和復(fù)合物參與頻率,提出一個(gè)名為復(fù)合物參與頻度的度量,以更全面地描述關(guān)鍵蛋白質(zhì)與復(fù)合物之間的緊密聯(lián)系,然后結(jié)合復(fù)合物參與頻度和亞細(xì)胞定位信息,提出一個(gè)新的衡量蛋白質(zhì)關(guān)鍵性的公式;最后,基于應(yīng)用于PPI網(wǎng)絡(luò)的CPPK尋優(yōu)算法,對(duì)其擴(kuò)張策略進(jìn)行改進(jìn),利用聚集度設(shè)計(jì)一個(gè)試探策略,避免CPPK算法陷入局部最優(yōu),以提高挖掘關(guān)鍵蛋白質(zhì)的效率。

1.1 構(gòu)建加權(quán)網(wǎng)絡(luò)

由于高通量方法獲得的蛋白質(zhì)相互作用數(shù)據(jù)中存在假陽性、假陰性和不完整性(噪聲),因此僅僅依靠PPI網(wǎng)絡(luò)的拓?fù)涮匦詠碜R(shí)別關(guān)鍵蛋白質(zhì)較依賴于網(wǎng)路本身,限制了關(guān)鍵蛋白質(zhì)識(shí)方法的性能。因此,基于PPI網(wǎng)路的拓?fù)涮匦院偷鞍踪|(zhì)生物功能相似性,結(jié)合PPI網(wǎng)絡(luò)的空間屬性(亞細(xì)胞定位信息),對(duì)原始PPI網(wǎng)絡(luò)進(jìn)行加權(quán),以提升原始PPI網(wǎng)絡(luò)的可靠性。

1.1.1 PPI網(wǎng)絡(luò)的拓?fù)涮匦?/p>

邊聚集系數(shù)[20]是網(wǎng)絡(luò)拓?fù)涮匦灾械闹匾环N,不僅考慮了邊在網(wǎng)絡(luò)中的重要程度,還能評(píng)估節(jié)點(diǎn)u、v鄰居之間的緊密程度,且能較好地識(shí)別PPI網(wǎng)絡(luò)中的關(guān)鍵蛋白質(zhì)。邊聚集系數(shù)的定義為

(1)

式(1)中:tanu、v表示節(jié)點(diǎn)u、v共同構(gòu)成三角形的個(gè)數(shù);du、dv分別表示節(jié)點(diǎn)u、v的度。

1.1.2 PPI網(wǎng)絡(luò)的生物功能相似性

考慮到兩個(gè)蛋白質(zhì)之間的功能相似程度越高,它們之間相互作用就越可靠[21]。已有研究表明,若兩個(gè)蛋白質(zhì)的共享的GO功能注釋越多,它們的生物功能相似程度越高。因此用GO語義相似度描述蛋白質(zhì)之間的功能相似度,其計(jì)算公式為

(2)

式(2)中:|Gu|和|Gv|分別表示蛋白質(zhì)u、v的GO功能注釋集合的大小;|Gu∩Gv|表示蛋白質(zhì)u、v之間的GO功能注釋交集的大小。

1.1.3 PPI網(wǎng)絡(luò)的空間屬性

由于現(xiàn)有的大多數(shù)關(guān)鍵蛋白質(zhì)預(yù)測(cè)方法都是從PPI網(wǎng)絡(luò)的拓?fù)涮匦院蜕飳傩詢蓚€(gè)方面去衡量蛋白質(zhì)之間的可靠性,忽略了PPI網(wǎng)絡(luò)的空間屬性,對(duì)蛋白質(zhì)相互作用關(guān)系考慮不夠全面。文獻(xiàn)[22]表明,如果兩個(gè)蛋白質(zhì)出現(xiàn)在同一細(xì)胞區(qū)域,它們之間的關(guān)系就越可靠。因此,用Lin描述兩個(gè)蛋白質(zhì)之間的可靠性,其計(jì)算公式為

(3)

式(3)中:Lu和Lv分別表示蛋白質(zhì)u、v的亞細(xì)胞定位信息集合;Lu∩Lv為蛋白質(zhì)u、v之間的亞細(xì)胞定位信息交集。

為避免人為產(chǎn)生的假陰性的負(fù)面影響,綜合考慮PPI網(wǎng)絡(luò)的拓?fù)洹⑸锾匦院涂臻g屬性,提出一種綜合性邊權(quán)值度量公式:

ESL(u,v)=[ECC(u,v)+1][Sim(u,v)+

1][Lin(u,v)+1]

(4)

1.2 蛋白質(zhì)關(guān)鍵性度量

1.2.1 復(fù)合物參與頻度

由于基于復(fù)合物信息的關(guān)鍵蛋白質(zhì)識(shí)別方法大多用蛋白質(zhì)在復(fù)合物內(nèi)的參與程度來衡量關(guān)鍵蛋白質(zhì)與復(fù)合物之間的緊密聯(lián)系,忽略了蛋白質(zhì)的關(guān)鍵性與復(fù)合物參與頻率(蛋白質(zhì)出現(xiàn)在復(fù)合物的頻率)之間的相關(guān)性[18],為更加準(zhǔn)確描述蛋白質(zhì)的模塊化特性,綜合考慮復(fù)合物參與度[19]和復(fù)合物參與頻率兩個(gè)方面,提出復(fù)合物參與頻度來衡量蛋白質(zhì)與復(fù)合物之間的緊密聯(lián)系,其計(jì)算公式為

(5)

1.2.2 空間位置重要性

已有研究表明,蛋白質(zhì)的關(guān)鍵性不僅僅與PPI網(wǎng)絡(luò)的生物屬性相關(guān),還與蛋白質(zhì)的空間位置相關(guān)。因此,充分利用亞細(xì)胞定位信息對(duì)關(guān)鍵蛋白質(zhì)預(yù)測(cè)有重要意義。從PPI網(wǎng)絡(luò)角度描述,蛋白質(zhì)的關(guān)鍵性與細(xì)胞位置的置信水平相關(guān)[23];從蛋白質(zhì)合成過程角度描述,蛋白質(zhì)的關(guān)鍵性與細(xì)胞位置本身相關(guān)[24]。綜合以上兩點(diǎn),提出一種利用空間信息衡量蛋白質(zhì)關(guān)鍵性的度量公式:

(6)

式(5)中:li(v)表示蛋白質(zhì)v所在的細(xì)胞區(qū)域;Sli(v)表示對(duì)應(yīng)細(xì)胞區(qū)域中蛋白質(zhì)集合;Smax表示所有細(xì)胞區(qū)域中蛋白質(zhì)數(shù)量最大的集合;LI(li)表示相應(yīng)細(xì)胞區(qū)域的關(guān)鍵指數(shù)[24]。

鑒于蛋白質(zhì)的關(guān)鍵性與復(fù)合物、空間位置密切相關(guān),為了提高關(guān)鍵蛋白質(zhì)預(yù)測(cè)精度,將復(fù)合物參與頻度、空間位置重要性用線性組合模型整合。整合之后的蛋白質(zhì)關(guān)鍵性的度量式為

(7)

1.3 關(guān)鍵蛋白質(zhì)識(shí)別

現(xiàn)有的大多數(shù)關(guān)鍵蛋白質(zhì)識(shí)別方法都是首先根據(jù)蛋白質(zhì)的某種重要性指標(biāo)(如局部中心性LAC)排序,然后取前P個(gè)。雖然這樣做可以識(shí)別關(guān)鍵蛋白質(zhì),但是這些方法都需要逐一計(jì)算頂點(diǎn)的某種指標(biāo)并排序,無形中大大增加了計(jì)算量。為提高關(guān)鍵蛋白質(zhì)挖掘的效率,引入CPPK尋優(yōu)算法[25],并對(duì)其擴(kuò)張策略進(jìn)行改進(jìn)。

1.3.1 CPPK算法的改進(jìn)

由于CPPK算法本質(zhì)上是一種貪心算法,為避免該算法容易陷入局部最優(yōu)的缺陷,設(shè)計(jì)一種試探策略來實(shí)現(xiàn)跳出局部最優(yōu)的目的。試探策略大致思想如下:在種子節(jié)點(diǎn)擴(kuò)張之前,先計(jì)算種子的聚集度[26],如果聚集度大于或等于閾值?,則向其鄰居擴(kuò)張,如果聚集度小于閾值?,則從剩余的蛋白質(zhì)集合中隨機(jī)選取一個(gè)聚集度大于或等于閾值?的蛋白質(zhì)作為種子。

1.3.2 改進(jìn)的CPPK算法描述

輸入:加權(quán)PPI網(wǎng)絡(luò)G,部分已知關(guān)鍵蛋白質(zhì)集合K,需要預(yù)測(cè)的關(guān)鍵蛋白質(zhì)數(shù)量n

輸出:包含n個(gè)關(guān)鍵蛋白質(zhì)的集合ES

ES=Φ,TES=Φ

For each node∈G

Compute C(node)

ES=K

WHILE(|ES|< n)

For each node∈K

TES=TES∪{u|max(PSLC(u)),u∈Nnode}

If(|ES|+|TES|<=n)

ES=ES∪TES

For each node∈TES

If(C(node)

Delete node from TES,select one in unprocessed proteins

K=TES

Else

Descend TES according to PSLC

ES=ES∪TESn-|ES|

Output ES

2 實(shí)驗(yàn)結(jié)果與分析

2.1 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)所用的計(jì)算機(jī)配置為windows 7操作系統(tǒng),Inter i5雙核處理器,2.6 GHz主頻和8 G內(nèi)存。實(shí)驗(yàn)所用的程序代碼用python編寫,用IPython進(jìn)行解釋和交互。

2.2 標(biāo)準(zhǔn)實(shí)驗(yàn)數(shù)據(jù)集的選取

由于酵母PPI網(wǎng)絡(luò)數(shù)據(jù)相對(duì)比較完善。因此以酵母蛋白質(zhì)網(wǎng)絡(luò)為研究對(duì)象,并展開相關(guān)實(shí)驗(yàn)。實(shí)驗(yàn)所需數(shù)據(jù)介紹如下。

(1)PPI數(shù)據(jù)集。酵母PPI網(wǎng)絡(luò)數(shù)據(jù)從DIP數(shù)據(jù)庫(kù)[27]中下載,經(jīng)過數(shù)據(jù)預(yù)處理后得到5 093個(gè)蛋白質(zhì),24 743條相互作用關(guān)系邊。

(2)亞細(xì)胞定位信息。酵母蛋白的亞細(xì)胞定位數(shù)據(jù)分為11類,從COMPARTMENTS[28]中下載獲得。

(3)標(biāo)準(zhǔn)關(guān)鍵蛋白質(zhì)集合。通過整合MIPS[29]、SGD[30]、DEG[31]和SGDP[32]4個(gè)數(shù)據(jù)庫(kù)得到標(biāo)準(zhǔn)關(guān)鍵蛋白質(zhì)數(shù)據(jù),共有1 285個(gè)關(guān)鍵蛋白質(zhì)(1 167個(gè)關(guān)鍵蛋白質(zhì)出現(xiàn)在酵母PPI中)。

(4)酵母蛋白質(zhì)GO注釋信息[33]下載自基因本體數(shù)據(jù)庫(kù)(2016年12月24日的版本),它主要包括3部分:生物過程、分子組件和分子功能。

(5)蛋白質(zhì)復(fù)合物。蛋白質(zhì)復(fù)合物集合從文獻(xiàn)[34]中下載得到,其由CM270、CM425、CYC408和CYC428這4種蛋白質(zhì)復(fù)合物集合整合。

2.3 標(biāo)準(zhǔn)參數(shù)α對(duì)關(guān)鍵蛋白識(shí)別的影響

在PCSL方法中,蛋白質(zhì)的關(guān)鍵性評(píng)分由兩部分組成:①蛋白質(zhì)的復(fù)合物參與頻度得分;②蛋白質(zhì)的空間位置得分。由參數(shù)α調(diào)節(jié)兩種不同得分重要性的比重,其中α的取值范圍為[0,1],如表1所示。當(dāng)α為1時(shí),蛋白質(zhì)的關(guān)鍵性僅取決于由復(fù)合物信息決定的復(fù)合物參與頻度得分;當(dāng)α為0時(shí),蛋白質(zhì)的關(guān)鍵性僅依靠蛋白質(zhì)的空間位置。

表1 不同參數(shù)α對(duì)識(shí)別關(guān)鍵蛋白質(zhì)數(shù)量的影響比較Table 1 The number of true essential proteins correctly identified by PCSL with different α

從表1可以看出,當(dāng)α的取值范圍為[0.3,0.5]時(shí),PCSL方法的關(guān)鍵蛋白質(zhì)的識(shí)別數(shù)目較多。特別是當(dāng)α值為0.4時(shí),PCSL方法識(shí)別的關(guān)鍵蛋白質(zhì)最多。因此將α值設(shè)置為0.4。

2.4 關(guān)鍵蛋白質(zhì)預(yù)測(cè)方法性能比較分析

2.4.1 不同比例關(guān)鍵蛋白質(zhì)預(yù)測(cè)數(shù)量比較

為評(píng)估PCSL方法的關(guān)鍵蛋白質(zhì)識(shí)別性能,首先,只與基于拓?fù)涮卣鞯闹行男苑椒―C、BC、SC、EC、IC、LAC進(jìn)行比較,驗(yàn)證PCSL方法中通過融合拓?fù)涮匦浴⑸锕π阅芟嗨菩院蛠喖?xì)胞定位信息而構(gòu)建的加權(quán)PPI網(wǎng)絡(luò)是否更加可靠,且有助于提高關(guān)鍵蛋白質(zhì)識(shí)別準(zhǔn)確率;其次,與基于拓?fù)鋽?shù)據(jù)和基因表達(dá)數(shù)據(jù)的預(yù)測(cè)方法PeC、WDC比較,以檢驗(yàn)PCSL方法是否降低了對(duì)原始蛋白質(zhì)相互作用網(wǎng)絡(luò)本身的依賴;最后,與基于復(fù)合物信息的關(guān)鍵蛋白質(zhì)預(yù)測(cè)方法LBCC比較,證明本文提出的蛋白質(zhì)關(guān)鍵性度量是否能夠識(shí)別更多的蛋白質(zhì)。實(shí)驗(yàn)中,為得到較為精確的對(duì)比結(jié)果,首先將本文提出的PCSL方法應(yīng)用于酵母PPI網(wǎng)絡(luò)上,計(jì)算各個(gè)比例下關(guān)鍵蛋白質(zhì)的個(gè)數(shù);然后,利用以上提到的10種關(guān)鍵蛋白質(zhì)預(yù)測(cè)方法,根據(jù)各自的節(jié)點(diǎn)重要性指標(biāo)對(duì)候選蛋白質(zhì)集合進(jìn)行降序操作,得到一組根據(jù)各自節(jié)點(diǎn)重要性指標(biāo)值降序排列的候選關(guān)鍵蛋白質(zhì)集合;最后,選取每個(gè)候選關(guān)鍵蛋白質(zhì)集合前1%、5%、10%、15%、20%、25%的候選蛋白質(zhì)與一組標(biāo)準(zhǔn)關(guān)鍵蛋白質(zhì)集合進(jìn)行比較,獲取各方法在不同規(guī)模下預(yù)測(cè)正確的關(guān)鍵蛋白質(zhì)數(shù)量。圖1所示為各方法識(shí)別候選集前1%~前25%中的關(guān)鍵蛋白質(zhì)數(shù)量。

圖1 PCSL與其他方法在不同規(guī)模樣本中識(shí)別出的關(guān)鍵蛋白質(zhì)數(shù)量Fig.1 The number of true essential proteins predicted by PCSL and other ten methods on DIP datase

從圖1中可以明顯看出,PCSL方法要優(yōu)于其他10種預(yù)測(cè)方法,尤其是在前1%、5%、10%的候選關(guān)鍵蛋白質(zhì)集合當(dāng)中,預(yù)測(cè)關(guān)鍵蛋白質(zhì)的準(zhǔn)確率分別達(dá)到了86.3%、76.9%、63.5%。在僅基于PPI網(wǎng)絡(luò)拓?fù)涮卣鞯闹行姆椒ㄖ校憩F(xiàn)最好的是方法LAC,PCSL方法與其相比,關(guān)鍵蛋白質(zhì)預(yù)測(cè)精準(zhǔn)率分別提高了29.4%、15.7%、11.0%、8.0%、4.5%、3.1%,其說明了PCSL方法構(gòu)建的加權(quán)PPI網(wǎng)絡(luò)擁有較高的可靠性;與融合基因表達(dá)信息的中心方法PeC相比,關(guān)鍵蛋白質(zhì)預(yù)測(cè)精準(zhǔn)率分別提高了9.8%、10.2%、6.5%、8.5%、8.2%、9.1%,并且在關(guān)鍵蛋白質(zhì)候選集規(guī)模為1%、5%、15%的情況下,PCSL方法優(yōu)勢(shì)明顯,PCSL方法降低了對(duì)原始PPI網(wǎng)絡(luò)的依賴;與預(yù)測(cè)性能表現(xiàn)最佳的基于蛋白質(zhì)復(fù)合物信息的預(yù)測(cè)方法LBCC相比,隨著候選關(guān)鍵蛋白質(zhì)規(guī)模的增加,PCSL方法的優(yōu)勢(shì)保持穩(wěn)定。這說明PCSL方法在預(yù)測(cè)關(guān)鍵蛋白質(zhì)的過程中,其不但能進(jìn)一步提高預(yù)測(cè)方法的精度,還能提升挖掘關(guān)鍵蛋白質(zhì)的效率。相比于其他10種關(guān)鍵蛋白質(zhì)預(yù)測(cè)方法,PCSL方法之所以性能較好,是因?yàn)槠洳坏芡ㄟ^構(gòu)建的加權(quán)網(wǎng)絡(luò)減少PPI網(wǎng)絡(luò)的噪聲的負(fù)面影響,而且從復(fù)合物信息和亞細(xì)胞定位信息兩個(gè)角度考慮蛋白質(zhì)的關(guān)鍵性,同時(shí)有通過改進(jìn)CPPK尋優(yōu)算法提升挖掘關(guān)鍵蛋白質(zhì)的效率。

2.4.2 統(tǒng)計(jì)指標(biāo)分析

為進(jìn)一步分析PCSL方法的性能,基于文獻(xiàn)[21]中的敏感度(SN)、特異性(SP)、陽性預(yù)測(cè)值(PPV)、陰性預(yù)測(cè)值(NPV)、F-測(cè)度(F-measure)和準(zhǔn)確率(ACC)這6個(gè)統(tǒng)計(jì)指標(biāo)與其他10種預(yù)測(cè)方法進(jìn)行比較實(shí)驗(yàn)。由于從DIP數(shù)據(jù)庫(kù)下載的酵母PPI網(wǎng)絡(luò)中僅有1 167個(gè)關(guān)鍵蛋白,因此選取排序后的前1 167個(gè)蛋白質(zhì)作為候選關(guān)鍵蛋白質(zhì),并對(duì)比各方法在6個(gè)統(tǒng)計(jì)指標(biāo)值,以深入分析PCSL方法的識(shí)別性能。由于現(xiàn)有方法預(yù)測(cè)準(zhǔn)確率提升幅度不大,為盡可能表現(xiàn)出各指標(biāo)的精度,避免各指標(biāo)數(shù)據(jù)重合,對(duì)指標(biāo)數(shù)據(jù)保留小數(shù)點(diǎn)后4位。PCSL方法與其他10種方法的比較結(jié)果如表2所示。

從表2可以看出,相比于其他方法,PCSL方法的6個(gè)指標(biāo)均有所提升。與預(yù)測(cè)性能最差的中心方法CC相比,6項(xiàng)指標(biāo)分別高出16.34%、4.96%、16.34%、4.96%、16.34%和7.65%,與最好的方法LBCC相比各項(xiàng)指標(biāo)仍具有較好優(yōu)勢(shì)。PCSL方法預(yù)測(cè)性能比其他10種預(yù)測(cè)方法更好的原因主要有兩點(diǎn):一是本文構(gòu)建的加權(quán)PPI網(wǎng)絡(luò)不僅降低了對(duì)原始PPI網(wǎng)絡(luò)的依賴和網(wǎng)絡(luò)中噪聲數(shù)據(jù)帶來的負(fù)面影響,提高了網(wǎng)絡(luò)的真實(shí)性和可靠性,而且從拓?fù)涮匦浴⑸锾匦院涂臻g屬性3個(gè)方面考慮蛋白質(zhì)之間的緊密聯(lián)系;二是本方法綜合考慮復(fù)合物信息和亞細(xì)胞定位信息來衡量蛋白質(zhì)的關(guān)鍵性。

表2 PCSL方法與其他10種方法的統(tǒng)計(jì)指標(biāo)比較Table 2 Comparison of the SN,SP,PPV,NPV,F and ACC between PCSL and other ten methods

3 結(jié)論

將關(guān)鍵蛋白質(zhì)識(shí)別方法的主要挑戰(zhàn)歸納為3個(gè)方面:①如何降低PPI網(wǎng)絡(luò)中假陽性和假陰性數(shù)據(jù)的負(fù)面影響,從而構(gòu)建更加真實(shí)可靠的PPI網(wǎng)絡(luò);②如何有效地整合多元生物和其他PPI網(wǎng)絡(luò)相關(guān)信息,設(shè)計(jì)一個(gè)能夠較好地衡量蛋白質(zhì)關(guān)鍵性的度量方式;③如何選擇合理的選擇計(jì)算算法,以提升挖掘關(guān)鍵蛋白質(zhì)的效率。

為改善關(guān)鍵蛋白質(zhì)識(shí)別方法識(shí)別準(zhǔn)確率不高的問題,首先利用PPI網(wǎng)絡(luò)的拓?fù)涮匦浴O功能相似性和空間屬性構(gòu)建可靠的加權(quán)網(wǎng)絡(luò);其次,基于復(fù)合物信息和亞細(xì)胞定位信息設(shè)計(jì)一種衡量蛋白質(zhì)關(guān)鍵性的度量;最后,設(shè)計(jì)一種應(yīng)用于PPI網(wǎng)絡(luò)尋優(yōu)的試探策略,以提升挖掘關(guān)鍵蛋白質(zhì)的效率。實(shí)驗(yàn)結(jié)果表明,利用DIP數(shù)據(jù)集進(jìn)行關(guān)鍵蛋白質(zhì)預(yù)測(cè)精度比較,PCSL方法的識(shí)別準(zhǔn)確率高于被比較的10種預(yù)測(cè)方法。

猜你喜歡
關(guān)鍵信息方法
高考考好是關(guān)鍵
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
展會(huì)信息
獲勝關(guān)鍵
NBA特刊(2014年7期)2014-04-29 00:44:03
生意無大小,關(guān)鍵是怎么做?
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
健康信息(九則)
祝您健康(1987年2期)1987-12-30 09:52:28
主站蜘蛛池模板: 国产午夜福利在线小视频| 国产精品女同一区三区五区| 亚洲人成人无码www| 国产精品视频白浆免费视频| 国产真实乱了在线播放| 无码一区18禁| 久996视频精品免费观看| 亚洲国产中文综合专区在| 波多野结衣久久精品| 亚洲精品视频网| 青青草原偷拍视频| 国产人成网线在线播放va| 国产成人精品免费av| 亚洲精品高清视频| 久久国产精品波多野结衣| 九九热精品在线视频| 亚洲成人黄色网址| 国产色婷婷| 国产精品国产三级国产专业不| 露脸一二三区国语对白| 亚洲二三区| 日本道中文字幕久久一区| a网站在线观看| 婷婷午夜天| 国产欧美日韩另类| 欧美午夜在线视频| 国产91高跟丝袜| 日韩精品毛片| 99无码中文字幕视频| 欧美成一级| 三级毛片在线播放| 亚洲另类第一页| 成人免费午间影院在线观看| 在线免费a视频| 国产在线一区视频| а∨天堂一区中文字幕| 国产一级毛片yw| 亚洲日韩精品无码专区97| 18禁不卡免费网站| 亚洲成人精品久久| 国产精品免费露脸视频| 一本色道久久88亚洲综合| 2020久久国产综合精品swag| 538国产视频| 狠狠色噜噜狠狠狠狠奇米777| 久久一日本道色综合久久| 国产一级毛片网站| 99热精品久久| 香蕉视频国产精品人| 免费高清毛片| 国产一级妓女av网站| 精品91自产拍在线| 无码精品福利一区二区三区 | 欧美高清国产| 国产精品香蕉在线| 88av在线| 免费在线色| 亚洲中文字幕无码mv| 亚洲无码免费黄色网址| 欧美一区国产| 国产午夜精品鲁丝片| 国产又粗又猛又爽| 五月婷婷精品| 99热最新网址| 日韩av电影一区二区三区四区| 精品久久人人爽人人玩人人妻| 啊嗯不日本网站| 日韩精品成人网页视频在线| 国产人免费人成免费视频| 国产精品3p视频| 欧美日韩国产在线观看一区二区三区| 国产在线精彩视频二区| 黄片在线永久| 91色老久久精品偷偷蜜臀| 免费可以看的无遮挡av无码| 毛片基地美国正在播放亚洲| 黄色成年视频| 波多野结衣一区二区三区四区视频| 精品伊人久久久久7777人| 亚洲综合色区在线播放2019| 99久久亚洲综合精品TS| 在线五月婷婷|