999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

加權(quán)關(guān)聯(lián)共表達(dá)網(wǎng)絡(luò)在篩選致病候選基因上的優(yōu)勢分析

2013-10-27 02:30:57汪偉平汪曉銀華中農(nóng)業(yè)大學(xué)理學(xué)院湖北武漢430070
關(guān)鍵詞:關(guān)聯(lián)方法

王 駿,汪偉平,汪曉銀 (華中農(nóng)業(yè)大學(xué)理學(xué)院,湖北 武漢 430070)

周 磊 (華中農(nóng)業(yè)大學(xué)生命科學(xué)技術(shù)學(xué)院,湖北 武漢 430070)

加權(quán)關(guān)聯(lián)共表達(dá)網(wǎng)絡(luò)在篩選致病候選基因上的優(yōu)勢分析

王 駿,汪偉平,汪曉銀 (華中農(nóng)業(yè)大學(xué)理學(xué)院,湖北 武漢 430070)

周 磊 (華中農(nóng)業(yè)大學(xué)生命科學(xué)技術(shù)學(xué)院,湖北 武漢 430070)

面對多基因疾病的致病基因篩選的難題,加權(quán)關(guān)聯(lián)共表達(dá)網(wǎng)絡(luò)模型作為一種新的基于圖論和統(tǒng)計學(xué)的生物信息挖掘方法,較其他傳統(tǒng)方法以其較好的預(yù)測精確度,完備的生物學(xué)理論以及實現(xiàn)的簡潔可行,有著較好應(yīng)用前景。重點將加權(quán)關(guān)聯(lián)共表達(dá)網(wǎng)絡(luò)與基于網(wǎng)絡(luò)距離和基于疾病表性相似性這2大主流方法進(jìn)行實例對比分析,以體現(xiàn)加權(quán)關(guān)聯(lián)共表達(dá)網(wǎng)絡(luò)在致病候選基因篩選上的優(yōu)勢性。

加權(quán)關(guān)聯(lián)共表達(dá)網(wǎng)絡(luò);基于網(wǎng)絡(luò)距離法;基于疾病表性相似性;致病候選基因

人類疾病的基因組學(xué)研究已進(jìn)入到多基因疾病這一難點。由于多基因疾病既是最常見的又是人們了解最少的人類遺傳疾病,它們是多個基因相互作用所致,往往又不遵循孟德爾遺傳規(guī)律。這方面的研究需要在人群和遺傳標(biāo)記的選擇、數(shù)學(xué)模型的建立、統(tǒng)計方法的改進(jìn)等方面進(jìn)行艱苦的努力[1]。

多基因疾病的遺傳異質(zhì)性,基因上位顯性,低外顯率,表達(dá)多變性和基因多效性,以及環(huán)境因素的影響,這些因素使得尋找復(fù)雜疾病基因異常困難[2]。同時傳統(tǒng)疾病基因識別方法存在諸多局限性。一方面需要耗費大量人力物力搜集樣本并獲取數(shù)據(jù),而另一方面在實際中其定位精度往往難以滿足要求。

以真實生物系統(tǒng)為對象,通過建立一個能夠很好地反映生物系統(tǒng),具有有限參數(shù)的數(shù)學(xué)模型,并提供有效的計算方法,對限定關(guān)聯(lián)基因組區(qū)域的基因進(jìn)行排序,篩選出與給定疾病最相關(guān)的基因,是目前解決這一問題的有效途徑。

1 基于網(wǎng)絡(luò)的疾病基因預(yù)測方法

由于基因與疾病關(guān)系在生物學(xué)上的復(fù)雜性,基于網(wǎng)絡(luò)的疾病基因預(yù)測模型被越來越多的學(xué)者所認(rèn)可和接受。基于網(wǎng)絡(luò)的疾病基因預(yù)測方法大體分為2類:基于網(wǎng)絡(luò)距離的方法和基于疾病表性相似性的網(wǎng)絡(luò)方法。這些方法的不同之處在于其基本假設(shè)和具體實現(xiàn)。

致病基因預(yù)測的一般框架如下:對給定的n個候選基因,其中包含一個或多個致病基因,預(yù)測的目標(biāo)是通過某種模型賦予每個候選基因一個得分,使得致病基因得分盡量高。

1.1基于網(wǎng)絡(luò)距離的方法

基于網(wǎng)絡(luò)距離的方法的基本假設(shè)如下:同種疾病的致病基因在網(wǎng)絡(luò)中相互靠近。如果已知部分致病基因,則可根據(jù)其他基因到致病基因的距離對其他基因進(jìn)行排序。如果沒有已知疾病基因,則需要依賴更多的數(shù)據(jù)[3]。

1)依賴已知致病基因 由于大約一半的人類疾病有至少一個已知的致病基因,對于這類疾病,對候選基因的打分可以看作一個信號在網(wǎng)絡(luò)中傳播的過程:已知致病基因作為信號源發(fā)出信號,信號沿著網(wǎng)絡(luò)中的路徑從一個節(jié)點傳播到相鄰節(jié)點,并且隨著傳播的進(jìn)行即距離的增加,信號逐漸減弱。網(wǎng)絡(luò)中其他節(jié)點接收到的信號強弱則可以作為基因與疾病關(guān)系強度的一個估計。于是問題轉(zhuǎn)化為如何定義和使用網(wǎng)絡(luò)中的距離,方法有最近鄰近法和最短路徑法2種。

最近鄰近法僅考慮直接相互作用的基因,即一階鄰居之間距離為 1,而其余為無窮,實質(zhì)是一種“數(shù)鄰居”的策略:如果一個基因周圍有很多致病基因,則該基因也很有可能是致病基因。該策略的性能依賴于相互作用數(shù)據(jù)(基因網(wǎng)絡(luò))的選取,不同基因網(wǎng)絡(luò)數(shù)據(jù)之間的差別很大,但都大大優(yōu)于隨機挑選的結(jié)果。

最短路徑法更適用與不同基因在同一個蛋白復(fù)合體中,而不是同一個通路中。以最短路徑長度作為距離可以考慮到所有聯(lián)通的節(jié)點之間的影響。修正了最近鄰方法中的一些局限性,2個能相關(guān)的基因并不一定直接相互作用。這2個可能在同一個生物過程的不同時刻起作用,但仍然導(dǎo)致相同的疾病。

2)不依賴已知致病基因 基于網(wǎng)絡(luò)距離的方法在沒有'先驗基因'情況下雖然可依據(jù)同樣的假設(shè),即疾病的致病基因相互之間存在緊密關(guān)聯(lián),來預(yù)測其致病基因。前提是至少有2個存在致病基因的連鎖區(qū)間,同時需要依賴更多的數(shù)據(jù),在預(yù)測的精確度上可能效果不如已知致病基因的情形。

1.2基于疾病表性相似性的網(wǎng)絡(luò)方法

基于疾病表性相似性的網(wǎng)絡(luò)方法的基本假設(shè)如下:功能相關(guān)的基因?qū)е卤硇拖嗨频募膊 <床粌H同一種疾病的致病基因傾向于緊密相關(guān),相似疾病的致病基因之間也存在一定程度的關(guān)聯(lián)[4]。

一個疾病可以用一組描述其臨床癥狀的詞匯來表示。基于這點,可以通過量化2個疾病之間癥狀的重合來量化其相似性,稱之為疾病的表型相似性。van Driel[5]等通過文本挖掘的方式計算了5080 種人類疾病之間兩兩的表型相似性。Lage[6]等提出了一種加權(quán)的最近鄰法,將表型相似性與最近鄰法相結(jié)合,即待研究基因致病的可能性由最近鄰所包含的致病基因決定,每個致病基因的權(quán)重為該基因?qū)е碌募膊∨c所研究的疾病之間的表型相似性。

2 加權(quán)關(guān)聯(lián)共表達(dá)網(wǎng)絡(luò)

使用網(wǎng)絡(luò)模型分析的思想雖已達(dá)到共識,但傳統(tǒng)方法中也存在著很多不完善的地方,致病基因預(yù)測的一般輸入數(shù)據(jù):疾病表型即疾病臨床表現(xiàn)、蛋白質(zhì)相互作用關(guān)系以及疾病與基因的關(guān)聯(lián)信息數(shù)據(jù)。而以上研究中使用的網(wǎng)絡(luò)基本為基因網(wǎng)絡(luò)和疾病網(wǎng)絡(luò),還有它們的關(guān)聯(lián)網(wǎng)絡(luò)。在基因網(wǎng)絡(luò)中,節(jié)點代表基因,而邊代表基因或其編碼的蛋白質(zhì)之間的相互作用。在疾病網(wǎng)絡(luò)中,節(jié)點代表疾病,邊代表疾病之間的表型重疊[7]。

但在實際中,蛋白質(zhì)相互作用關(guān)系數(shù)據(jù)并不算完備,疾病與基因的關(guān)聯(lián)信息只是部分目前已知的有顯著關(guān)系的基因與疾病。即其方法最終的精確度一定程度上取決于作為輸入的已知信息量的大小。也正如基于網(wǎng)絡(luò)距離的方法,必須依賴至少一個已知的致病基因才有較好的應(yīng)用。基于疾病表性相似性的網(wǎng)絡(luò)方法,其預(yù)先輸入的表型相似性矩陣也是較主觀的,雖然給最近鄰法加了權(quán)重,但仍避免不了最近鄰法的局限性。

新的已知信息的補充和完善有一定的客觀性,對于科學(xué)研究來說,用已知或先驗來預(yù)測未知,其實現(xiàn)過程方法不論如何改進(jìn),已知或先驗的信息量大小及其客觀性對預(yù)測精度有較大影響的事實是不會變的。那么不需要過多的已知或先驗信息,僅提高樣本量就能提高精度,并且理論完備符合生物學(xué)原理的方法是有待探討的。加權(quán)關(guān)聯(lián)共表達(dá)網(wǎng)絡(luò)正是這樣一種方法[8-9],以下結(jié)合實例說明。

3 實例分析

3.1數(shù)據(jù)預(yù)處理

所需數(shù)據(jù)為目標(biāo)疾病的所有n個致病候選基因在不同個體樣本上的基因表達(dá)譜,近年來隨著DNA微陣列技術(shù)的發(fā)展,在基因表達(dá)譜的提取上帶來了便利。由此得到矩陣X=(xij)n×m,n表示致病候選基因數(shù)目,m為樣本數(shù),每個基因即為網(wǎng)絡(luò)結(jié)點。另外樣本特征T=(tk)1×m,tk可取一定范圍內(nèi)的實數(shù),表示疾病狀態(tài)。

由于相似性變換與通過實驗得到的基因表達(dá)譜具有一致性,即能在盡量小的信息損失下生成基因間的相似性矩陣,具體可以使用Pearson或Jacknife的相關(guān)性檢驗系數(shù),最后得到相似性矩陣(Sij)n×n。

3.2鄰接陣轉(zhuǎn)換

加權(quán)網(wǎng)絡(luò)的實質(zhì)從圖論的觀點來說為賦權(quán)圖,即表現(xiàn)為基因的鄰接矩陣,將(Sij)n×n向鄰接陣轉(zhuǎn)換,轉(zhuǎn)化函數(shù)一般采用Sigmoid和Power,得到鄰接矩陣(aij)n×n。

值得說明的是,上述轉(zhuǎn)化函數(shù)的參數(shù)的選取是依據(jù)構(gòu)建出的網(wǎng)絡(luò),符合最佳貼近無尺度拓?fù)渚W(wǎng)絡(luò)的原則,即選參中使用了回歸的方法,這也是該方法的創(chuàng)新之一。

近年來很多復(fù)雜網(wǎng)絡(luò)被發(fā)現(xiàn)有無尺度拓的特性,表現(xiàn)為在其結(jié)點度分布沒有一個特定的平均值指標(biāo),即大多數(shù)節(jié)點的度在此附近,度分布時,其遵守冪律分布。在視圖中表現(xiàn)為大部分節(jié)點只有少數(shù)幾個連結(jié),而某些節(jié)點卻擁有與其他節(jié)點的大量連結(jié)。目前已證實生物代謝網(wǎng)絡(luò)也具有上述性質(zhì)。即該基因共表達(dá)網(wǎng)絡(luò)建立時應(yīng)以滿足生物網(wǎng)絡(luò)具有的無尺度拓?fù)涞臉?biāo)準(zhǔn),否則建立的網(wǎng)絡(luò)是違背生物學(xué)原理。在此假設(shè)下采用冪律分布的表征特點經(jīng)行回歸的方法選取構(gòu)建網(wǎng)絡(luò)時的參數(shù)。

3.3拓?fù)渲丿B差異性量度矩陣

3.4網(wǎng)絡(luò)聚類和模塊識別

對差異性度量矩陣采用系統(tǒng)聚類或?qū)哟尉垲惖姆椒ǎM(jìn)行模塊識別。模塊是指具有高度拓?fù)渲丿B性質(zhì)的集群。生物學(xué)解釋為導(dǎo)致外部病癥急劇變化的基因會聚集在一起。

圖1 基因的聚類分析及模塊顏色標(biāo)注

圖2 模塊與致病特性的相關(guān)性

圖1是以糖尿病致病基因篩選為例,依據(jù)基因的差異性量度矩陣進(jìn)行層次聚類的樹狀圖,圖1的顏色標(biāo)注表示不同樹狀分支所屬的模塊。實例所選基因數(shù)為7023個,最終得到13個模塊,說明基因的聚類效果好,很好的構(gòu)建出了符合生物代謝網(wǎng)絡(luò)無尺度的特性。即模型既符合生物學(xué)假設(shè),并且對原始數(shù)據(jù)經(jīng)行變換后,使其變成了易于反映數(shù)據(jù)內(nèi)部本質(zhì)特征的形式,對后續(xù)的數(shù)據(jù)分析工作帶來了便利。

3.5關(guān)聯(lián)外部信息

模塊核心基因E定義為該模塊內(nèi)的基因的表達(dá)矩陣的第一主成份基因。

模塊關(guān)系指數(shù)MMblue(i):

MMbiue(i)=cor(xi,Eblue)

描述基因i與blue模塊的模塊核心基因Eblue的相關(guān)性。模塊重要性度量即為該模塊的核心基因與樣本特征T的相關(guān)性,即不同基因的致病可能性的得分。

為了區(qū)分方便,分別為模塊命名并計算其樣本特征T的相關(guān)性(見圖2),找到與外部病癥相關(guān)最高的模塊,同時可以得出該模塊中各基因的致病得分,得到數(shù)目比其他方法少的致病基因,為后續(xù)進(jìn)一步的生物實驗設(shè)計提供了依據(jù)。

4 結(jié) 語

綜上所述,加權(quán)關(guān)聯(lián)共表達(dá)網(wǎng)絡(luò)與傳統(tǒng)基因網(wǎng)絡(luò)方法相比,不需要過多的已知或先驗信息,僅提高樣本量就能提高精度,并且采用最新生物網(wǎng)絡(luò)的無尺度特性的假設(shè)建立簡單可行模型,通過事實證明了其在致病候選基因篩選上的優(yōu)勢。

[1]龐樂君.基因組學(xué)和蛋白質(zhì)組學(xué)對新藥研發(fā)的影響[D].中國人民解放軍軍事醫(yī)學(xué)科學(xué)院,2005.

[2]范巍.基因分型錯誤對病例對照方法估計疾病外顯率的影響研究[D]. 楊凌:西北農(nóng)林科技大學(xué),2011.

[3]彭佳揚.代謝網(wǎng)絡(luò)中功能模塊挖掘和進(jìn)化分析研究[D].長沙:中南大學(xué),2011.

[4]王宗堯.基于蛋白質(zhì)網(wǎng)絡(luò)的人類遺傳致病基因預(yù)測算法研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2011.

[5]van Driel M A. A new web-based data miningtool for the identification of candidate genes for human genetic disorders[J].EurJ Hum Genet,2003,11: 57-63.

[6]Lage K, Karlberg E O, Storling Z M, et al. A human phenome-interactome network of protein complexes implicated in genetic disorders[J].Nature Biotechnology,2007, 25: 309-316.

[7]Zhang B, Horvath S.A general framework for weighted gene co-expression network analysis[J]. Statistical Applications in Genetics and Molecular Biology,2005,4(1):1128-1128.

[8]Langfelder P,Horvath S.WGCNA: an R package for weighted correlation network analysis[J].BMC Bioinformatics,2008,9(1):559-559.

[9]Li A, Horvath S.Network neighborhood analysis with the multi-node topological overlap measure[J]. Bioinformatics,2007, 23(2): 222-231.

2012-11-26

湖北省自然科學(xué)基金項目(2011CDB152);國家大學(xué)生創(chuàng)新性實驗計劃項目(1210504024)。

王駿(1990-),男,碩士生,現(xiàn)主要從事數(shù)學(xué)建模方面的研究工作。

汪曉銀(1971-),男,博士,教授,現(xiàn)主要從事數(shù)學(xué)建模方面的教學(xué)與研究工作;E-mail:wxywxq@163.com。

O29

A

1673-1409(2013)04-0036-04

[編輯] 洪云飛

猜你喜歡
關(guān)聯(lián)方法
不懼于新,不困于形——一道函數(shù)“關(guān)聯(lián)”題的剖析與拓展
“苦”的關(guān)聯(lián)
“一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
學(xué)習(xí)方法
奇趣搭配
智趣
讀者(2017年5期)2017-02-15 18:04:18
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 国产乱码精品一区二区三区中文| 国产精品浪潮Av| 尤物视频一区| 精品国产91爱| 免费人欧美成又黄又爽的视频| 91精品国产91久无码网站| 91视频免费观看网站| 久久黄色免费电影| 久久婷婷六月| 中文字幕无码制服中字| 精品人妻无码中字系列| 亚洲天堂视频在线观看免费| 婷婷色一二三区波多野衣| 亚洲欧美不卡视频| 精品1区2区3区| 亚洲妓女综合网995久久| 午夜日本永久乱码免费播放片| 亚洲中文久久精品无玛| 日本手机在线视频| 中国黄色一级视频| 国产精品污视频| 欧美中文字幕在线播放| 国产三级成人| 中国丰满人妻无码束缚啪啪| 麻豆国产在线观看一区二区| 婷婷99视频精品全部在线观看| 国产成人福利在线| 99久久国产综合精品2020| 免费人成网站在线高清| av在线5g无码天天| 亚洲三级视频在线观看| 波多野结衣一区二区三区88| 亚洲an第二区国产精品| 国产午夜人做人免费视频中文 | 亚洲日本中文字幕乱码中文| 九九这里只有精品视频| 永久毛片在线播| 日韩精品中文字幕一区三区| 中文字幕资源站| 国产在线观看高清不卡| 女人18毛片一级毛片在线 | 亚洲最黄视频| 91视频国产高清| 伊人欧美在线| 亚洲经典在线中文字幕| 影音先锋丝袜制服| 免费一级α片在线观看| 亚洲国产日韩在线成人蜜芽| 国产精品亚洲综合久久小说| 国产成人久视频免费| 欧美色香蕉| 中文字幕亚洲乱码熟女1区2区| 国产91视频观看| 亚洲国产午夜精华无码福利| 欧美成一级| 久久久久无码精品国产免费| 日本成人不卡视频| 三上悠亚一区二区| 国产欧美日韩精品综合在线| 欧洲免费精品视频在线| 青青青亚洲精品国产| 99视频在线观看免费| 亚洲首页国产精品丝袜| 国产jizz| 久久精品人妻中文视频| аv天堂最新中文在线| 2020久久国产综合精品swag| 无码电影在线观看| 2020精品极品国产色在线观看| 国产va在线观看免费| 亚洲日韩精品无码专区| 91九色国产在线| 中文字幕啪啪| 国内99精品激情视频精品| 国产一区二区三区夜色| 波多野吉衣一区二区三区av| 国产SUV精品一区二区6| 国产欧美日韩在线一区| 国产精品xxx| 国产欧美日韩在线一区| 国产91成人| 日韩欧美高清视频|