高盼盼 王寧 周雪忠 劉光明 王惠欣



摘要:鑒于網絡醫學中尚未有對疾病分類與功能蛋白模塊功能同質性分析之間關系的研究,展開以下研究工作:首先,利用Mesh、String9等數據庫中的數據構建了基因關系網絡;其次,采用基于優化模塊度的模塊劃分方法(如BGLL、非負矩陣分解(NMF)等聚類算法)對基因關系網絡進行了劃分;再次,對劃分出來的模塊進行了GO富集分析,通過對高致病拓撲模塊和低致病拓撲模塊的GO富集分析的比較,發現了疾病分類和蛋白模塊功能特性在生物過程、細胞組分、分子功能等方面存在重要的生物學提示;最后,分析了疾病分類的拓撲模塊的功能特性,通過對網絡拓撲性質如平均度、密度、平均最短路徑長度等方面的分析得到了各模塊的功能特點數據,進一步揭示了疾病分類和功能模塊之間的相關關系。
關鍵詞:網絡醫學;疾病分類;GO富集分析;蛋白功能模塊;拓撲模塊;Mesh;String9
中圖分類號:TP399
文獻標志碼:A
0引言
近年來,隨著復雜網絡在生物醫學領域的應用逐步廣泛,網絡醫學為疾病分子層面的研究提供了平臺。隨著遺傳學和基因組學的進步和發展,高通量蛋白質相互作用數據的產生推進了疾病和致病基因之間的關聯研究。由于人類細胞內的分子組件間在功能上具有相互依賴性,所以很少有疾病是由單一基因異常而導致的結果,現在大量的研究發現疾病是各組織器官系統間的細胞內和細胞間各種復雜的網絡的局部異常導致的。所以網絡醫學的發展不僅方便研究者可以借助生物分子網絡比較系統地去探索導致某一疾病的分子復雜性,也可用于探索截然不同的表型疾病間潛在的分子關系,同時網絡醫學的研究發展也可以用于識別疾病目前尚未發現的致病基因。
網絡醫學在最近幾十年已經得到越來越多的生物醫學研究者的關注。Barabasi等[1]對人類疾病網絡的特性進行了相關的研究,提出了拓撲模塊、功能模塊、疾病模塊這三種模塊存在共同的元素,同時還分析了如何利用網絡結構進行基因預測,提出了基于邊的方法、疾病模塊的方法和隨機傳播算法;Sharan等[2]從蛋白質的近鄰分析、馬爾可夫隨機場和基于模塊的方法三個方面進行了蛋白質功能的預測;Lin等[3]對擴張心臟病進行了動態蛋白致病模塊的分析,提出了一種新的框架來分析蛋白質相互作用(Protein-Protein Interaction,PPI)數據,并且成功找到了該病的蛋白功能模塊。
我們發現上述研究主要集中在:對單個蛋白功能的預測,預測某個疾病的致病基因,為特定疾病尋找致病模塊。目前還沒有針對疾病分類進行功能蛋白模塊的研究。通用的疾病分類體系是Mesh主題詞分類,Zhou等[4]構建了人類疾病的表型網絡并進行了詳細的分析。在網絡醫學領域中還存在著如下的問題:
1)蛋白模塊在基因本體(Gene Ontology,GO)上的分析;
2)疾病分類與蛋白功能模塊關聯關系的研究;
3)網絡拓撲特性與疾病分類之間的關系。
本文將在人類蛋白相互作用網絡基礎上運用基于模塊度的優化算法,如:BGLL[5]、非負矩陣分解(Nonnegtive Matrix Factorization, NMF),從Mesh疾病分類的角度結合拓撲模塊富集的GO術語、致病基因相對比Ratio值以及一些常用的拓撲特性對人類疾病分類和人類互作網絡拓撲模塊的功能進行同質性分析。
1基本概念及常用聚類算法
2數據的來源及整理
采用Mesh給出的疾病名稱為標準名稱,基因部分采用National Center for Biotechnology Information(NCBI)提供的人類基因數據,Comparative Toxicogenomics Database(CTD)、ClinVar、DisGeNet和DiseaseConnect四個數據源整合疾病與基因之間的關系,最后去掉重復數據,得到137308條關系數據,包括2896個疾病及15735個基因。
STRING 9.1 提供了蛋白質與蛋白質相互作用關系,并使用Score值量化,篩選出與人類有關且Score大于700的記錄,然后將其映射到NCBI中,最終得到436326條記錄,基因數是13734?;蜿P系網絡生成過程如圖1。
3疾病分類相關拓撲模塊的GO功能分析
本章利用BGLL和NMF算法對基因關系網絡進行劃分,通過BGLL劃分后得到314個模塊,通過NMF得到301個模塊,并計算了兩種方式劃分下的模塊的一致性,結果如圖2所示。所謂模塊的一致性就是指用不同的劃分方法劃分網絡,然后計算模塊的一致性,也就是說對于基因A、B、C,用BGLL劃分在一個模塊中,而用NMF也被劃分也在一個模塊中,這就叫模塊的一致性。
從圖2中可以看到,用不同方法劃分的模塊的一致性大于0.6的有78.095%,可以認為用不同聚類算法得到的模塊具有一致性。下面只對BGLL劃分的模塊進行詳細的疾病分類和蛋白質功能同質性分析。
3.1基于人類互作網絡的BGLL社區劃分
使用BGLL算法將基因基因網絡進行社團劃分,得到314個拓撲模塊。該算法的最終劃分結果的模塊度是0.378,模塊劃分算法比較合理。圖3是模塊4的網絡結構示意圖。
分析圖4、5可以發現,人類疾病在拓撲模塊功能方面有明顯的表達傾向,人類疾病與拓撲模塊之間的多樣性一致,通過社團劃分方法得到的人類互作網絡拓撲模塊能夠有效地反映出其在人類疾病方面的功能性特征。
3.3高致病拓撲模塊的GO富集分析
為了更好地探究人類疾病與網絡劃分的拓撲模塊之間的關系,從Ratio特殊值入手,分析拓撲模塊在人類疾病表達中所起的作用。由3.2節可知,Ri=1.409的模塊{55,59,82,95,102,109,111,123,127,132,144,163,192,201,218,232,237,250,251,257,261},表示模塊Mi的基因全是致病基因,將Ri=1.409的模塊稱為“高致病拓撲模塊”。然后對這些模塊進行GO富集分析,表1是對這些模塊的基因富集在GO術語上的情況,其中“null”代表這些模塊沒有富集到GO term上,故其后一列的P-value無計算值。
觀察表1可知,模塊95和模塊257在GO上三個分支的富集P-value都大于0.01,即GO富集效果不好,因此說明這兩個模塊在GO上沒有進行顯著的富集。但是除此以外,其他的模塊的GO富集效果都比較好,而且這些模塊大部分都與重要的功能特性相關,并且在基因的表達和拓撲模塊功能性的表達方面也有重要的表現。因此可以說明致病基因相對比值(Ratio)較大時,拓撲模塊的功能與人類疾病緊密相關。
表2~4分別是從生物過程(biological process, bp)、細胞組分(cellular component, cc)、分子功能(molecular function, mf)三個方面對高致病拓撲模塊的GO分析的部分模塊在GO術語上的情況的結果展示。從表中可以看出,這些拓撲模塊富集的GO與重要的功能特性相關,比如模塊55,生物過程方面,該拓撲模塊富集到GO:0006590,且P-value為3.91E-10,遠小于0.01,很有代表性,表明模塊55是與甲狀腺激素產生的過程有密切聯系的功能模塊;在細胞組分方面,拓撲模塊富集到GO:0016021,且P-value為0.005631863,小于0.01,與整合膜有密切關系;分子功能方面,拓撲模塊富集到GO:0016174,P-value為3.09E-05,遠小于0.01,在分子功能NAD(P)H氧化酶發揮作用中起到至關重要的作用。
如果模塊55的基因發生突變,將對與之緊密相關的生物過程、細胞組分、分子功能產生影響,因而人類疾病與55模塊有很大可能性的關聯。其他高致病拓撲模塊也有類似的關系,因此可以說明,拓撲模塊與重要的生物功能特性有密切關聯。
3.4低致病拓撲模塊的GO富集分析
本節分析Ratio的取值等于0的模塊在人類疾病表達中所起的作用。模塊{155,158,260,262,280,286,296,297,
311,312,313}致病基因相對比值Ri=0,表示拓撲模塊的基
因全部為非致病基因,稱這些模塊為低致病拓撲模塊。然后對這些模塊進行GO富集分析,以便去探究拓撲模塊內基因富集在GO術語上的情況。GO分析從生物過程、細胞組分、分子功能三個方面進行,表5中P-value加下劃線的值是小于0.01的值,其余的都是大于0.01的P-value值。
表5中,“null”代表這些模塊沒有富集到GO term上,觀察可知只有模塊272的GO分析三個方面的P-value值均小于0.01,說明三個方面富集效果較好的只有模塊272,模塊272與化學刺激參與嗅覺感知檢測的功能、等離子體膜、電壓門控離子通道的活性有關,從而說明該拓撲模塊在生物功能上的意義比較明顯,對人類疾病的影響比較大;但是在實際數據中該模塊中包含的致病基因很少,我們推斷出現這種現象是因為目前蛋白互作數據的缺失和與疾病相關的基因的不完整,因此可以根據272模塊中的蛋白為現在未知疾病基因的預測提供理論支持。拓撲模塊富集到GO上的比較少,而大部分P-value小于0.01,說明該拓撲模塊在GO過程的三個方面的功能性特征基本關系一般,并不能代表模塊在其相應的GO富集的功能特性,因而,這些拓撲模塊在人類疾病中起不到關鍵的功能作用。
3.5較高與較低致病拓撲模塊的功能比較
表6記錄的是Ratio值大于1.2和Ratio值小于0.8的拓撲模塊對應的GO術語的P-value小于0.01在其范圍內的比例。比如,R>1.2時bp比例為0.877193指的是在R>1.2范圍內的模塊中GO分析的生物過程中P-value小于0.01的模塊的數量占R>1.2的模塊數量的比例。
從表6中可以看出,拓撲模塊在R>1.2和R<0.8范圍內,GO分析在生物過程bp、細胞組學cc、分子功能mf方面的富集比例有非常明顯的差別。這種情況說明,較高致病拓撲模塊的功能富集度比較低致病模塊的功能富集度要高,同時也就說明了人類疾病與較高致病拓撲模塊的功能具有較高的同質性。
4人類互作網絡拓撲性質的功能同質性分析
現在的PPI數據和疾病基因數據只發現了大概10%左右,由于數據的不完整性和噪聲數據的影響,所以在對疾病進行深層次研究時借助于疾病網絡可以有效地幫助我們去探索人類疾病的分子生物機制。
目前有研究表明人類疾病的致病基因在PPI網絡中并不是隨機分布的,而是趨向于集中在某個連接相對緊密的局部模塊中,也就是疾病模塊,這也說明一旦發現了疾病的部分致病基因,那么從網絡醫學的角度就可以推論出現在已經發現的基因的鄰居也有很大的可能是致病基因。
為了更好地理解疾病模塊,對疾病模塊的幾個拓撲特性進行了分析,以便分析疾病模塊的功能特性與拓撲特性之間的相互關系。本文主要使用了平均度、密度、平均最短路徑、closeness中心性和betweenness中心性幾個主要的網絡屬性應用于人類互作網絡來探索疾病分類的功能特性與人類互作網絡拓撲特性之間的相互關系。
4.1平均度
度是衡量網絡中節點的一個重要屬性,是指連接到某個節點的總的邊數。在PPI網絡中,度比較高的節點稱為hub節點,是由疾病的必須基因進行編碼的。平均度是衡量網絡中節點與其他節點連接的程度的統計量。
在人類互作網絡劃分出的314個模塊中,平均度的值分布如圖6所示。
圖6中:橫軸是平均度值,縱軸是平均度對應的模塊度數。從圖6中可以看出,平均度明顯大于一般值的模塊只有一個,其對應的為模塊271,其他較大平均度值依次對應的是模塊145、143、172、303、167,而其余大部分模塊的平均度值都比較小,均小于50。這說明人類互作網絡的拓撲模塊中hub模塊相對于普通模塊少得多,并且在不同范圍的介數中心性有明顯的差別,總體呈冪律分布,體現了人類互作網絡劃分出的拓撲模塊有多樣性的特征。也說明不同的疾病模塊、疾病分類在拓撲功能的表達中具有明顯差異性,而hub模塊271對于疾病的影響非常大,該模塊可用于對多種疾病的研究。
4.2密度
網絡的密度表示網絡中節點間的邊與同樣節點數目的網絡中的節點數的比例,體現的是網絡的邊密度。在人類互作網絡劃分出的314個模塊中,密度的值分布如圖7所示。
圖7中:橫坐標代表的是密度分布值,縱坐標代表的是坐標值為某一值的模塊數,從圖7中可看出,不同密度范圍的模塊數目具有多樣性,大部分模塊密度比較小,明顯較大密度的拓撲模塊不多。密度大于0.8的拓撲模塊依次是模塊34、144、271、39、205、227、19、260、286、311,而其余大部分模塊的密度值都比較小,均小于0.50。這說明人類互作網絡的拓撲模塊中高密度模塊相對于普通模塊少得多,并且在不同范圍的密度有明顯的差別,總體分布不規律,體現了人類互作網絡劃分出的拓撲模塊有多樣性的特征。
4.3平均最短路徑長度
平均最短路徑描述了網絡中節點間的平均分離程度,模塊中的平均最短距離值越小說明該模塊內的節點連接越緊密,模塊所對應的子網的直徑越小。劃分出的314個模塊的平均最短路徑的值分布如圖8所示。
圖8中:橫坐標代表的是平均最短路徑長度值,縱坐標代表的是平均最短路徑為某個值的模塊數,
從圖8中可看出,不同平均最短路徑長度取值范圍的模塊數目具有多樣性,大部分模塊平均最短路徑長度在(1.7,3.3)范圍,模塊平均最短路徑長度明顯較大和明顯較小的拓撲模塊并不多,總體呈正態分布。而網絡中明顯較?。ㄐ∮?.5)的平均最短路徑長度比網絡中明顯較大(大于3.5)的拓撲模塊數量要多,說明網絡中模塊內的節點連接緊密的拓撲社團相對較多。
5結語
本文針對疾病所關聯的拓撲模塊功能同質性問題,采用MeSH疾病分類術語本體,采用比較成熟的聚類算法對來自整合的人類全局基因關系網絡進行了了拓撲模塊劃分,并采用基因本體(GO)富集分析方法。最后通過比較分析發現,相較沒有疾病相關的拓撲模塊,具有顯著疾病相關的拓撲模塊在生物過程、細胞組分、分子功能等方面具有顯著差異,從而為疾病的分子網絡研究提供了重要啟示。另外,對于疾病分類的拓撲模塊的功能同質性分析,只進行了GO同質性分析,還可以進行更多的功能分析;同時對于網絡的拓撲特性,可以將其結合相應的疾病分類、同質性結果等進行多角度的聯合分析來共同輔助拓撲模塊的功能同質性分析。
參考文獻:
[1]BARABSI A-L, GULBAHCE N, LOSCALZO J. Network medicine: a network-based approach to human disease [J]. Nature Reviews Genetics, 2011, 12(1): 56-68.
[2]SHARAN R, ULITSKY I, SHAMIR R. Network-based prediction of protein function [J]. Molecular Systems Biology, 2007, 3(1): 88.
[3]LIN C-C, HSIANG J-T, WU C-Y, et al. Dynamic functional modules in co-expressed protein interaction networks of dilated cardiomyopathy [J]. BMC Systems Biology, 2010, 4(4): 138.
[4]ZHOU X, MENCHE J, BARABSI A-L, et al. Human symptoms-disease network [J]. Nature Communications, 2014, 5: 4212.
[5]BLONDEL V D, GUILLAUME J-L, LAMBIOTTE R, et al. Fast unfolding of communities in large networks [J]. Journal of Statistical Mechanics: Theory and Experiment, 2008, 2008: P10008
[6]NEWMAN M E, GIRVAN M. Finding and evaluating community structure in networks [J]. Physical Review E, 2004, 69(2): 026113.
[7]李樂,章毓晉.非負矩陣分解算法綜述[J].電子學報,2008,36(4):737-743. (LI L, ZHANG Y J. A survey algorithms of non-negative matrix factorization [J]. Acta Electronica Sinica, 2008, 36(4): 737-743.)
[8]LEE D D, SEUNG H S. Learning the parts of objects by non-negative matrix factorization [J]. Nature, 1999, 401(6755): 788-791.
[9]CAI D, HE X, HAN J, et al. Graph regularized non-negative matrix factorization for data representation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 33(8): 1548-1560.
[10]黃鋼石,陸建江,張亞非.基于NMF的文本聚類方法[J].計算機工程,2004,30(11):113-114. (HUANG G S, LU J J, ZHANG Y F. Text clustering method based on non-negative matrix factorization[J].Computer Engineering, 2004, 30(11): 113-114.)
[11]YANG S, YE M. Multistability of α-divergence based NMF algorithms [J]. Computers & Mathematics with Applications, 2012, 64(2): 73-88.