徐周波 ,楊 健 ,劉華東 ,2*,黃文文
(1.廣西可信軟件重點(diǎn)實(shí)驗(yàn)室(桂林電子科技大學(xué)),廣西桂林541004; 2.桂林電子科技大學(xué)機(jī)電工程學(xué)院,廣西桂林541004)
(?通信作者電子郵箱yj18677311628@163.com)
蛋白質(zhì)是構(gòu)成生命體的關(guān)鍵成分,是細(xì)胞中大多數(shù)生物過(guò)程的重要參與者。由于蛋白質(zhì)很少以獨(dú)立個(gè)體的方式實(shí)現(xiàn)生物功能,即在一個(gè)細(xì)胞的生物過(guò)程中所涉及的蛋白質(zhì)一般以蛋白質(zhì)復(fù)合物等形式來(lái)實(shí)現(xiàn)特定的生物功能。識(shí)別、預(yù)測(cè)生物體中的蛋白質(zhì)復(fù)合物對(duì)研究生物進(jìn)程有著重要意義。如何通過(guò)計(jì)算的方法快速、有效地識(shí)別具有生物學(xué)功能的復(fù)合物成為一項(xiàng)關(guān)鍵的科學(xué)問(wèn)題。
蛋白質(zhì)相互作用(Protein-Protein Interaction,PPI)[1]網(wǎng)絡(luò)通常由圖的模型來(lái)表示,蛋白質(zhì)復(fù)合物可認(rèn)為是PPI網(wǎng)絡(luò)中的一個(gè)稠密子圖。van Dongen[2]通過(guò)隨機(jī)游走的方法提出了蛋白質(zhì)復(fù)合物檢測(cè)的馬爾可夫聚類(Markov CLustering,MCL)算法,MCL算法具有較強(qiáng)的魯棒性,能夠適應(yīng)網(wǎng)絡(luò)變化,但是準(zhǔn)確性較低,且無(wú)法識(shí)別重疊簇。Bader等[3]提出的分子復(fù)合物檢測(cè)(Molecular COmplex DEtection,MCODE)算法通過(guò)對(duì)頂點(diǎn)賦值并選取種子節(jié)點(diǎn),迭代地從種子節(jié)點(diǎn)向外擴(kuò)張加入新節(jié)點(diǎn),最終形成簇,MCODE算法可以產(chǎn)生有重疊的簇,但產(chǎn)生簇的個(gè)數(shù)較少,使得某些復(fù)合物包含的蛋白質(zhì)數(shù)量過(guò)大。Nepusz等[4]提出了基于重疊鄰居的擴(kuò)展聚類(Cluster with Overlapping Neighborhood Expansion,ClusterONE)方法,該算法可以有效檢測(cè)PPI網(wǎng)絡(luò)中重疊的蛋白質(zhì)復(fù)合物,但算法精準(zhǔn)度及敏感度較低。Liu等[5]提出了基于極大團(tuán)的聚類方法(Clustering based on Maximal Clique,CMC),該算法運(yùn)用極大團(tuán)理論從PPI網(wǎng)絡(luò)中挖掘蛋白質(zhì)復(fù)合物,CMC算法提高了預(yù)測(cè)的準(zhǔn)確性,但對(duì)小規(guī)模復(fù)合物檢測(cè)效果較差,敏感度較低。Wang等[6]提出的一種快速層級(jí)聚類算法(fast Hierarchical Clustering algorithm for functional modules discovery in Protein INteraction,HC-PIN)是通過(guò)各個(gè)節(jié)點(diǎn)的公共鄰居節(jié)點(diǎn)個(gè)數(shù)來(lái)計(jì)算出邊的聚類系數(shù),從而找出聚類系數(shù)較高的復(fù)合物,HC-PIN雖然提高了精準(zhǔn)度,但同樣存在敏感度較低的問(wèn)題。此外,上述方法均未考慮復(fù)合物內(nèi)部拓?fù)浣Y(jié)構(gòu)特點(diǎn)。Wu等[7]提出基于核心-附屬結(jié)構(gòu)方法(Core-Attachment based method,COACH)結(jié)合蛋白質(zhì)復(fù)合物的拓?fù)浣Y(jié)構(gòu),先檢測(cè)出核心蛋白質(zhì),然后將附屬蛋白質(zhì)連接到核心蛋白質(zhì)上,該方法考慮到了蛋白質(zhì)結(jié)構(gòu)上的特點(diǎn),一定程度上提高了預(yù)測(cè)的準(zhǔn)確性。Zhao等[8]提出了一種基于不確定圖模型的蛋白質(zhì)復(fù)合物檢測(cè)方法(Detecting Complex based on Uncertain graph model,DCU),改善了 COACH 方法。Jamali等[9]提 出 了 加 權(quán) 核 心 -附 屬 方 法(Weighted COACH,WCOACH),利用生物特性先對(duì)蛋白質(zhì)交互網(wǎng)絡(luò)賦予權(quán)重,在此基礎(chǔ)上運(yùn)用COACH算法,近一步提高了預(yù)測(cè)的準(zhǔn)確性。
近年來(lái),一些基于已知蛋白質(zhì)復(fù)合物信息的監(jiān)督學(xué)習(xí)方法開始運(yùn)用于蛋白質(zhì)復(fù)合物的挖掘[10]。這類算法主要分為3步驟:1)從已知的蛋白質(zhì)復(fù)合物中抽取有效的特征,并以矩陣形式存儲(chǔ);2)訓(xùn)練出監(jiān)督學(xué)習(xí)分類模型或者得分函數(shù)來(lái)判定所挖掘出的蛋白質(zhì)復(fù)合物的置信度;3)以訓(xùn)練出的模型為導(dǎo)向,搜索蛋白質(zhì)復(fù)合物[11]。例如,以貝葉斯網(wǎng)絡(luò)(Bayesian Network,BN)[12]為訓(xùn)練模型及基于回歸模型(Regression Model,RM)的蛋白質(zhì)復(fù)合物挖掘算法[13]都是以訓(xùn)練出的模型來(lái)對(duì)所挖掘出的蛋白質(zhì)復(fù)合物進(jìn)行評(píng)分判定。基于神經(jīng)網(wǎng)絡(luò)(Neural Network,NN)[14]模型預(yù)測(cè)復(fù)合物是一種半監(jiān)督的學(xué)習(xí)方法,結(jié)合深度學(xué)習(xí)原理從而通過(guò)構(gòu)建神經(jīng)網(wǎng)絡(luò)模型來(lái)對(duì)蛋白質(zhì)復(fù)合物進(jìn)行預(yù)測(cè)。
然后采用中國(guó)綜合社會(huì)調(diào)查(CGSS)當(dāng)中對(duì)社會(huì)信任水平測(cè)評(píng)的問(wèn)題對(duì)參與者的近鄰信任水平進(jìn)行測(cè)量。問(wèn)題為“在不直接涉及金錢利益的一般社會(huì)交往/接觸中,您覺(jué)得您的近鄰當(dāng)中可以信任的人多不多呢”,答案為“絕大多數(shù)不可信”“多數(shù)不可信”“可信者與不可信者各半”“多數(shù)可信”“絕大多數(shù)可信”,分別賦值為1~5 。另外,也同時(shí)考察了參與者對(duì)陌生人、親戚、朋友的信任水平。
然而,真實(shí)的PPI網(wǎng)絡(luò)中存在大量的不確定性,并且已知的蛋白質(zhì)復(fù)合物數(shù)據(jù)并不完備,所以現(xiàn)存的監(jiān)督模型在準(zhǔn)確性上還有待提高。本文提出了XGBoost模型與復(fù)合物拓?fù)浣Y(jié)構(gòu)信息相結(jié)合的搜索方法(XGBoost model based for Predicting protein complex,XGBP),有效彌補(bǔ)了傳統(tǒng)無(wú)監(jiān)督挖掘算法和監(jiān)督學(xué)習(xí)算法的不足。通過(guò)實(shí)驗(yàn)分析,該算法在精準(zhǔn)度、敏感度、F-measure方面顯示出良好的性能。
定義1 圖數(shù)據(jù)模型可以表示為一個(gè)三元組G=(V,E,W),其中V是頂點(diǎn)集合,E是邊集,W:E→[0,1]是一個(gè)函數(shù),它給每條邊e=(u,v)∈E賦予一個(gè)權(quán)重。
定義2 給定一個(gè)子圖C,其模塊度Q可定義為:

XGBoost[16]是 Boosting算法的其中一種,近年來(lái)被廣泛使用于數(shù)據(jù)挖掘領(lǐng)域。Boosting算法的思想是將許多弱分類器集成在一起形成一個(gè)強(qiáng)分類器。因?yàn)閄GBoost是一種提升樹模型,所以它是將許多樹模型集成在一起,形成一個(gè)很強(qiáng)的分類器,有效避免了樹模型的過(guò)擬合,并在分類精度上也遠(yuǎn)優(yōu)于單個(gè)分類器。
第五,發(fā)揮養(yǎng)老領(lǐng)域社會(huì)組織的公益服務(wù)功能。非營(yíng)利性的特征是社會(huì)組織區(qū)別于企業(yè)重要特征,社會(huì)組織能夠保證養(yǎng)老事業(yè)的公益性和福利性,從而克服養(yǎng)老領(lǐng)域資金和人員的不足。為此,各發(fā)達(dá)國(guó)家也充分發(fā)揮非營(yíng)利組織志愿者的積極性。如日本,有超過(guò) 10000個(gè)養(yǎng)老志愿者服務(wù)協(xié)會(huì)在從事服務(wù)于老年人的工作。大量的志愿者的出現(xiàn),大大減輕了日本這個(gè)過(guò)渡老齡化的國(guó)家的養(yǎng)老負(fù)擔(dān)。
將XGBoost模型應(yīng)用于蛋白質(zhì)復(fù)合物搜索過(guò)程,首先要訓(xùn)練出蛋白質(zhì)復(fù)合物的分類模型;再在蛋白質(zhì)網(wǎng)絡(luò)中選取種子節(jié)點(diǎn),運(yùn)用貪心算法的思想,遍歷加入其鄰居節(jié)點(diǎn),使其模塊度達(dá)到最大,輸出候選蛋白質(zhì)復(fù)合物;最后將候選蛋白質(zhì)復(fù)合物放入所訓(xùn)練出的模型進(jìn)行預(yù)測(cè)分類。
本文將XGBP算法與目前較為經(jīng)典的八種算法,包括MCODE、MCL、CMC、HC-PIN、COACH、ClusterONE、DCU以及WCOACH在 DIP[18]和 Krogan[19]兩個(gè)酵母菌相互作用網(wǎng)絡(luò)相比較(見(jiàn)表3所示)。蛋白質(zhì)復(fù)合物標(biāo)準(zhǔn)庫(kù)采用了CYC2008[20]和MIPS標(biāo)準(zhǔn)庫(kù),兩個(gè)標(biāo)準(zhǔn)庫(kù)分別由408個(gè)復(fù)合物和428個(gè)復(fù)合物所組成。
葉萬(wàn)軍[24]對(duì)黃土進(jìn)行CT和SEM試驗(yàn),發(fā)現(xiàn)凍融環(huán)境下試樣微結(jié)構(gòu)如內(nèi)部微裂隙、孔洞等不斷發(fā)育演化,試樣孔徑不斷增大,微裂紋、微孔洞隨之生成,大顆粒不斷分解成小顆粒,顆粒間的連接作用減弱,造成細(xì)觀尺度試樣高密度區(qū)不斷減小,中、低密度區(qū)不斷增大,這一過(guò)程弱化了土的強(qiáng)度。這類似于堆石料在受外界環(huán)境如壓力作用下,粗骨料的逐漸破碎,骨架結(jié)構(gòu)的破壞,顆粒間的咬合作用減弱,細(xì)顆粒逐漸填充孔隙,顆粒進(jìn)一步被壓實(shí),峰值強(qiáng)度的提高與變形的增大相類似,卻又因?yàn)榱Φ男问蕉胁煌?/p>
首先,從種子節(jié)點(diǎn)集合S中選取s,Nv(s)為s的鄰居節(jié)點(diǎn)集合,此時(shí)模塊度Q(C)=0。n∈Nv(s),C'=C∪{n},如果Q(C')>Q(C),則將點(diǎn)n加入簇C中,并更新C=C'。遍歷集合Nv(s)中所有頂點(diǎn),直至Q(C)的值達(dá)到最大,形成簇,即蛋白質(zhì)復(fù)合物。對(duì)種子節(jié)點(diǎn)集S中每個(gè)頂點(diǎn)執(zhí)行上述操作,獲得蛋白質(zhì)復(fù)合物候選集合candidate_set。
11.1 出芝前管理:埋土揚(yáng)沙后,蓋嚴(yán)棚膜,不蓋遮陽(yáng)網(wǎng),以增加棚內(nèi)溫度。7天后再噴一次重水,土壤含水量50%~60%,空氣相對(duì)濕度80%~90%。出芝前應(yīng)保持覆土干而不燥,濕而不粘;晴天每天噴粗水一次,陰天隔日噴細(xì)水一次。溫度超過(guò)30℃加蓋遮陽(yáng)網(wǎng)或稻草簾。
本文使用MIPS[17]標(biāo)準(zhǔn)庫(kù)中頂點(diǎn)總數(shù)大于2的蛋白質(zhì)復(fù)合物作為正樣本,負(fù)樣本為隨機(jī)生成的子圖。考慮到樣本數(shù)目不足以及保證正負(fù)樣本分布一致,本文將每個(gè)正樣本對(duì)應(yīng)隨機(jī)生產(chǎn)大小相同的20個(gè)負(fù)樣本。將正負(fù)樣本結(jié)合得到模型的訓(xùn)練集D。構(gòu)造完訓(xùn)練集后,將訓(xùn)練集作為輸入放入XGBoost模型進(jìn)行訓(xùn)練。XGBoost模型的最佳參數(shù)使用網(wǎng)格搜索的方法確定,本文使用的各個(gè)參數(shù)如表2,模型迭代次數(shù)設(shè)置為500次。模型訓(xùn)練結(jié)束后,得出各個(gè)特征在訓(xùn)練過(guò)程中的重要性如圖1所示。
其中:TP(True Negative)為所預(yù)測(cè)復(fù)合物中與標(biāo)準(zhǔn)庫(kù)中復(fù)合物相匹配的(所預(yù)測(cè)復(fù)合物與標(biāo)準(zhǔn)庫(kù)中復(fù)合物通過(guò)式(2)計(jì)算OS>w,w為所設(shè)定閾值)復(fù)合物的數(shù)量;FP(False Positive)為所預(yù)測(cè)復(fù)合物總數(shù)量減去TP;TN(True Negative)為所預(yù)測(cè)正確的非蛋白質(zhì)復(fù)合物的數(shù)量;FN(False Negative)為標(biāo)準(zhǔn)庫(kù)中未被預(yù)測(cè)的復(fù)合物數(shù)量。閾值w通常設(shè)置為0.2[10],本文中采取同樣閾值。

表1 提取的特征Tab.1 Extracted features

圖1 各個(gè)特征在XGBoost模型中的重要性Fig.1 Importance of each feature in XGBoost model

表2 實(shí)驗(yàn)參數(shù)設(shè)定Tab.2 Experimental parameter setting
在真實(shí)PPI網(wǎng)絡(luò)中節(jié)點(diǎn)度分布服從冪律分布,頂點(diǎn)度較高的節(jié)點(diǎn)在網(wǎng)絡(luò)中起到了關(guān)鍵作用。將頂點(diǎn)度作為選取種子節(jié)點(diǎn)的一種簡(jiǎn)單而常見(jiàn)的選取法則,本文將大于平均度的頂點(diǎn)作為種子節(jié)點(diǎn),通過(guò)計(jì)算可得種子節(jié)點(diǎn)集合S。
為了避免在算法執(zhí)行過(guò)程中兩個(gè)復(fù)合物高度重合,造成冗余。本文將蛋白質(zhì)復(fù)合物候選集中重合得分超過(guò)閾值T,并且模塊度較小的復(fù)合物丟棄。復(fù)合物A和B的重合得分定義如下:
含VSC-HVDC的交直流電網(wǎng)最優(yōu)潮流計(jì)算中,一般以降低網(wǎng)損或發(fā)電成本作為優(yōu)化目標(biāo)。這里采用機(jī)組發(fā)電成本之和最小作為目標(biāo)函數(shù),即:
許多方法將蛋白質(zhì)復(fù)合物認(rèn)為是PPI網(wǎng)絡(luò)中的一個(gè)稠密子圖,本文也使用該方法來(lái)偵測(cè)蛋白質(zhì)復(fù)合物。本文使用式(1)作為計(jì)算模塊度的依據(jù),該定義結(jié)合了簇的結(jié)構(gòu)性質(zhì)及邊的權(quán)值來(lái)衡量簇的密度。一個(gè)簇不僅與其他簇相分離,并且簇內(nèi)邊的權(quán)值總和應(yīng)當(dāng)大于簇外邊的權(quán)值總和,即weightin(C)>weightout(C)

為了更好評(píng)估蛋白質(zhì)復(fù)合物預(yù)測(cè)的質(zhì)量,本文將所預(yù)測(cè)的蛋白質(zhì)復(fù)合物與標(biāo)準(zhǔn)庫(kù)中的蛋白質(zhì)復(fù)合物進(jìn)行比較。精準(zhǔn)度(Precision)和敏感度(Sensitivity)是用來(lái)評(píng)價(jià)預(yù)測(cè)質(zhì)量的重要指標(biāo)。精準(zhǔn)度是指識(shí)別的復(fù)合物中被標(biāo)識(shí)的復(fù)合物數(shù)量與識(shí)別的復(fù)合物總量的比值;敏感度是指已知復(fù)合物中被標(biāo)識(shí)的復(fù)合物數(shù)量與已知復(fù)合物總數(shù)的比值:


為了方便模型訓(xùn)練,本文將所提取的特征表示為向量的形式,該向量共有16維即提取了16個(gè)特征,共可分為7大類,具體為:1)節(jié)點(diǎn)個(gè)數(shù);2)圖的密度;3)頂點(diǎn)度的統(tǒng)計(jì);4)聚類系數(shù);5)通過(guò)三角形數(shù)統(tǒng)計(jì);6)緊密中心性統(tǒng)計(jì);7)中介中心性統(tǒng)計(jì)。所提取的特征如表1所示。

表3 兩個(gè)蛋白質(zhì)互作用網(wǎng)絡(luò)Tab.3 Two protein-protein interaction networks
將去重后的candidate_set向量化后作為輸入,放入訓(xùn)練好的XGBoost模型中,對(duì)候選集合中的蛋白質(zhì)復(fù)合物進(jìn)行分類預(yù)測(cè),去除candidate_set中置信度小于0.5的蛋白質(zhì)復(fù)合物,所保留的蛋白質(zhì)復(fù)合物即為最終預(yù)測(cè)結(jié)果。具體算法流程如算法2所示。

2.1 克氏原螯蝦品質(zhì)變化 使用液體冷卻介質(zhì)急速凍結(jié)和常規(guī)冷凍克氏原螯蝦并在色澤、體表、肌肉、氣味以及湯汁方面對(duì)其進(jìn)行評(píng)定,結(jié)果如圖1所示。由圖1可見(jiàn),使用液體冷卻介質(zhì)急速凍結(jié)的克氏原螯蝦在-18 ℃冷凍貯藏30 d后,感官品質(zhì)顯著高于常規(guī)冷凍克氏原螯蝦組(P<0.05)。
綜合精準(zhǔn)度和敏感度兩個(gè)方面,提出了F-measure,它是精準(zhǔn)度和敏感度的調(diào)和平均值,計(jì)算公式如式(5)所示:
在偵查決策過(guò)程中,為了實(shí)現(xiàn)偵查目的,人們往往追求最優(yōu)決策,進(jìn)而根據(jù)最優(yōu)決策來(lái)實(shí)施偵查行為。所謂最優(yōu)決策,是指從全部可行方案中選出的能實(shí)現(xiàn)目標(biāo)的最優(yōu)方案。但是偵查所面對(duì)的是復(fù)雜多變的刑事案件,且在偵查過(guò)程中存在著偵查人員與犯罪分子之間的活力對(duì)抗,因而偵查最優(yōu)決策往往很難實(shí)現(xiàn),因而偵查決策大多數(shù)屬于一種滿意原則下的決策。

圖2給出了在Krogan數(shù)據(jù)集下各種算法的精準(zhǔn)度、敏感度和F-measure。蛋白質(zhì)復(fù)合物標(biāo)準(zhǔn)庫(kù)采用CYC2008。從圖2可以看出,XGBP算法在三項(xiàng)指標(biāo)中取得良好的效果,精準(zhǔn)度(0.53)在該數(shù)據(jù)集上并未取得很好表現(xiàn),敏感度(0.6)及F-measure(0.57)均好于其余算法。

圖2 各算法在Krogan數(shù)據(jù)集性能對(duì)比Fig.2 Performance comparison of each algorithm on Krogan dataset
為了進(jìn)一步分析結(jié)果,本節(jié)將使用MIPS標(biāo)準(zhǔn)庫(kù)來(lái)代替CYC2008標(biāo)準(zhǔn)庫(kù)。本文在Krogan數(shù)據(jù)集上測(cè)試上述算法,結(jié)果如表4所示。

表4 MIPS標(biāo)準(zhǔn)庫(kù)上各種方法的復(fù)合物識(shí)別結(jié)果Tab.4 Complex identification result of each algorithmon MIPSlibrary
從表4可看出,XGPB算法正確預(yù)測(cè)出蛋白質(zhì)復(fù)合物的數(shù)量最多(375),在標(biāo)準(zhǔn)庫(kù)中所預(yù)測(cè)的蛋白質(zhì)復(fù)合物數(shù)量較少,F(xiàn)-measure最高(0.53)。
在DIP數(shù)據(jù)集上測(cè)試上述算法,各項(xiàng)指標(biāo)如圖3所示。XGBP算法與傳統(tǒng)挖掘算法相比較在多個(gè)數(shù)據(jù)集上均取得良好指標(biāo)。
本節(jié)中,XGBP算法與BN、SVM、RM三種算法在DIP數(shù)據(jù)集上進(jìn)行比較。四種算法均采用MIPS標(biāo)準(zhǔn)庫(kù)中蛋白質(zhì)復(fù)合物為正樣本用于模型訓(xùn)練。BN、RM、SVM模型參數(shù)分別參照文獻(xiàn)[12-14]中參數(shù)所設(shè)置。實(shí)驗(yàn)結(jié)果如表5。從表5可以看出,與三種監(jiān)督學(xué)習(xí)算法相比,XGBP在精準(zhǔn)度、敏感度、F-measure上均取得最好效果。

圖3 各算法在DIP數(shù)據(jù)集的性能對(duì)比Fig.3 Performance comparison of each algorithm on DIPdataset

表5 MIPS標(biāo)準(zhǔn)庫(kù)上各監(jiān)督算法的復(fù)合物識(shí)別結(jié)果Tab.5 Complex identification result of each supervised algorithmon MIPSlibrary
針對(duì)目前監(jiān)督學(xué)習(xí)與非監(jiān)督學(xué)習(xí)挖掘算法的不足,本文提出了一種基于XGBoost的搜索算法。該算法結(jié)合了非監(jiān)督學(xué)習(xí)中利用復(fù)合物的結(jié)構(gòu)信息與監(jiān)督學(xué)習(xí)的方法,有效提高了蛋白質(zhì)復(fù)合物挖掘的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明,該算法與目前流行的監(jiān)督學(xué)習(xí)算法與非監(jiān)督學(xué)習(xí)算法相比較在F-measure上取得較好的效果。但與傳統(tǒng)非監(jiān)督學(xué)習(xí)算法相比,在精準(zhǔn)度上還有待提高,下一步工作將以此為方向,進(jìn)一步完善該算法。