999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于bootstrap方法的貝葉斯網絡結構學習算法在構建基因調控網絡中的應用*

2015-03-09 11:13:04哈爾濱醫科大學衛生統計教研室150081李海龍柯朝甫
中國衛生統計 2015年2期
關鍵詞:方法

哈爾濱醫科大學衛生統計教研室(150081) 李海龍 侯 艷 柯朝甫 李 康

基于bootstrap方法的貝葉斯網絡結構學習算法在構建基因調控網絡中的應用*

哈爾濱醫科大學衛生統計教研室(150081) 李海龍 侯 艷 柯朝甫 李 康△

目的探討基于bootstrap重抽樣方法的貝葉斯網絡結構學習算法構建網絡的性能,并將其應用于卵巢癌基因表達譜數據分析。方法通過模擬實驗和實例驗證本文給出的算法構建網絡的有效性,同時將這種算法應用于構建基因調控網絡。結果模擬實驗顯示,在樣本量較小的情況下,基于bootstrap算法構建的貝葉斯網絡明顯優于普通貝葉斯方法構建的網絡;實例分析結果也表明,應用本文的方法能夠得到有價值的網絡結構。結論應用本文給出的算法能夠在樣本量較少的情況下得出準確度較高的網絡,同時能夠給出網絡結構中各條邊置信度的估計值。

貝葉斯網絡 結構學習 bootstrap

貝葉斯網絡是一種概率圖形模型,它能夠發現變量之間潛在的依賴關系。其模型構建可分為三個步驟:①網絡變量的確定;②網絡結構學習;③參數估計[1-2]。貝葉斯網絡的結構學習是根據原始數據,通過一定的搜索策略找到得分最高的網絡結構,得分高說明網絡結構能夠很好地代表數據中變量間的調控關系[3]。然而,實際中由于樣本量不足,常常出現一些結構不同而得分相近的網絡,難以從得分相近的網絡中分辨出哪一種結構更接近真實網絡[4-5]。此外,一般的結構學習方法難以根據評價指標來評價網絡結構的可靠程度。本文將貝葉斯網絡結構學習方法與bootstrap重抽樣方法相結合,通過設定閾值得到包含高置信度邊的網絡,并與一般的結構學習方法相比較,考察其有效性。最后運用本文給出的方法對卵巢癌基因表達譜數據進行分析,做出生物學解釋。

原理與方法

1.貝葉斯網絡結構學習

貝葉斯網絡是一個有向無環圖,可以表示成一組隨機變量的聯合概率分布。形式上一組隨機變量X={X1,…,Xn}的貝葉斯網絡可以用B=(G,θ)表示,其中第一個成分θ表示一個有向無環圖,圖中節點代表隨機變量,節點之間的邊代表變量之間的直接依賴關系。第二個成分θ,代表一組量化網絡的參數θ=(θ1,θ1,…,θm′),m′>m以條件概率分布的形式表示,即θi=PB(Xi|pa(Xi)),其中pa(Xi)表示變量Xi在圖G中的父節點集。貝葉斯網絡B給一組變量X定義的聯合概率分布:

貝葉斯網絡結構學習可以歸結為:對于給定的數據訓練集D,尋找一個網絡B使之能與數據集D最匹配。解決這個問題最常用的方法就是引入一個得分函數來評價對應訓練集所得網絡的擬合程度,然后根據得分搜索到最優網絡。本文采用BIC得分函數,并運用貪婪爬山法(greed hill-climbing)結合隨機重搜索得分最高的網絡結構,這種方法能夠避免陷入局部最優。

網絡的得分使用BIC準則確定,BIC得分越大,構建的網絡越好,其計算公式為

其中N為數據的總例數,d為網絡的參數個數。

2.bootstrap方法置信度估計

對于網絡G的結構,感興趣的特征可以是某條有向邊X→Y,也可以是無向邊X-Y。總之,可以將這些邊用字母fij來表示,并通過網絡結構的函數轉換成集合{0,1}表示,fij=0表示節點Xi和節點Xj不連接,fij=1表示兩節點連接,簡記為f。

PN(f)表示貝葉斯網絡B中抽到一個任意兩節點是否相連網絡的概率。如果結構學習過程一致,則希望當樣本量N足夠大時,pN(f)會收斂于f(G)。也就是說,如果真實網絡結構G中確實存在節點相連特征f,則它的置信度應該接近1,相反如果不存在則應該接近于0。

使用bootstrap估計置信度的方法是通過對數據集有放回地重抽樣,然后通過對多個bootstrap數據集進行學習得出多個網絡,在這多個網絡中任意兩節點相連接(包括方向)的頻率就是其置信度估計。算法的過程如下:

M(bootstrap重抽樣次數),Fs(得分函數),t(閾值)

Output:G,包含概率大于閾值有向邊Xi→Xj的圖形Fori=1 toMdo

有放回地從數據D中抽取N個觀測得到數據集Di

根據Di通過得分函數Fs指導的學習算法得出得分最高的網絡結構Gi

end

模擬實驗

模擬數據來源于已知的真實網絡結構,目的是檢驗bootstrap平均模型的有效性,即將bootstrap方法中高置信度特征與真實網絡中的特征進行比較,若bootstrap平均模型包含了大部分原真實網絡中存在的邊,并具有較高置信度,則能說明該方法的有效性。

1.模擬實驗1

根據已給定的網絡結構產生相應的模擬數據(參見圖1)。網絡包含7個隨機變量(節點)和7條邊,根據此網絡結構產生10000個觀測,其中變量均服從正態分布。每次從數據集中隨機抽出100例樣本作為結構學習的數據集,重復抽樣得到100個數據集,分別用典型的貝葉斯網絡結構學習方法以及貝葉斯網絡的bootstrap方法分別對一個數據集進行結構學習得出網絡,重復實驗100次。

采用基于信息準則的BIC得分函數確定最優網絡[4],搜索過程采用貪婪爬山法,bootstrap重抽樣次數為300次。為了避免陷入局部最優,在搜索過程中結合隨機重啟搜索。通過這個過程嘗試尋找能使得分提高最多的網絡結構,直到結構的改變無法繼續提高得分為止。一旦爬山法陷入局部最優,算法將隨機擾動網絡結構中的邊(添加、刪除和反向)并重新開始搜索。在重啟一定次數后終止搜索,選出得分最高的網絡作為結果。最后,根據設定的三個不同的閾值t=0.5,0.7,0.9,將pN(f)≥t的所有連接邊輸出得到最終結果網絡。模擬使用R軟件包bnlearn[6]和編程實現。

評價構建網絡的指標分別使用真陽性數目、假陽性數目、假陰性數目、真陰性數目、靈敏度、特異度和準確度,其中準確度為真陽性邊占陽性邊的比例,相當于診斷試驗中的陽性預測值。計算這些指標時需要對100次實驗的結果取平均值,表1給出了使用不同方法和取不同閾值的網絡評價結果,即分別使用普通的貝葉斯方法(origin)和取不同閾值t的基于bootstrap的貝葉斯方法。

圖1 模擬實驗1的真實網絡關系圖

表1 使用不同方法和取不同閾值的網絡評價結果

2.模擬實驗2

使用ICU-Alarm網絡模擬數據。該數據產生于ICU-Alarm網絡模型,此模型是機器學習中網絡學習問題的經典模型,廣泛應用于評價網絡學習方法。ICU-Alarm網絡模型包含37個隨機變量,46條邊。在樣本量N=100,300,600,1000下比較網絡學習的結果,每個樣本量下抽取100個數據集,重復實驗100次。然后,分別使用普通的貝葉斯網絡模型和基于bootstrap的貝葉斯方法構建網絡,并對其進行評價。

模擬實驗評價結果見圖2。結果顯示:使用基于bootstrap的貝葉斯方法得到網絡模型明顯優于使用普通貝葉斯網絡模型。同時可以看到,當樣本量增加時,構建的網絡的結構學習越來越準確,即真陽性邊增加,假陽性和假陰性的邊減少;另外,提高閾值,真陽性和假陽性邊減少,但容易漏掉真實邊,說明合理設定閾值的必要性。由于真實邊(46條)相對于網絡所有可能邊(1332條)要少很多,因此不同方法的特異度均接近于1,假陽性率均低于3%。

實例分析

為了研究卵巢癌的分子生物學機制,本研究通過對卵巢癌患者基因表達數據進行分析并構建貝葉斯網絡,從網絡中得出基因之間的調控關系,并結合生物功能和通路數據庫查詢以及查閱文獻,對網絡進行生物學解釋,從基因組學的角度為卵巢癌的發病機制提供線索[7]。

本研究從TCGA數據庫下載570例卵巢癌患者基因表達譜數據,以及8例健康對照數據[8]。全基因組表達譜數據一共測得12042個基因的表達值,由于基因的數目過多,需要先篩選出與卵巢癌相關的基因,再對這部分基因構建貝葉斯網絡。對分析變量的篩選不僅能提高建模的效率,也使構建的網絡更加合理,有助于對其進行解釋。本研究使用基于Wilcoxon秩和檢驗的置換檢驗[8],進行1000次置換,篩選出P<0.05(校正后)的基因一共744個。繼而,對這部分基因進行KEGG通路富集分析,結果有12個基因顯著富集在p53信號通路中。

將映射上這個通路的12個基因的表達數據整理出來,并對數據構建貝葉斯網絡。貝葉斯網絡的搜索過程采用貪婪爬山搜索法,再結合bootstrap重抽樣方法對網絡特征進行置信度估計,重抽樣次數設為1000次以保證結果的穩定性。將閾值設定為0.8,結果如圖3所示,其中節點代表富集于p53信號通路中的基因,灰色的節點代表樞紐基因(Hub Gene),信度大于0.8小于1的邊用虛線表示,信度等于1的邊用實線表示。

圖3 利用bootstrap方法構建的卵巢癌基因調控網絡

為了驗證bootstrap方法置信度評價的可信程度,本研究通過隨機重排列每個基因的測量值產生一個新的數據集。在這樣一個數據集中,基因彼此之間是獨立的,所以我們并不期望能從中找出真實的邊。具體做法如下,對每個基因下的所有測量值隨機打亂順序產生新的數據集,對此數據進行學習構建貝葉斯網絡,結合bootstrap方法得出每條邊的置信度,重復100次這樣的實驗。結果見圖4,圖中實線為真實數據下不同置信度水平下有向邊的數目,虛線表示隨機重排列數據下有向邊的數目,橫軸表示置信度閾值,縱軸表示大于等于對應置信度閾值的有向邊數目。正如預期,對隨機數據集構建的網絡中邊的置信度普遍比較低。如圖4所示,比較原始數據集和隨機數據集在不同置信度下的邊數,可以看出原始數據的邊數分布在高置信度區域有更長更重的尾部。當置信度大于0.2時,兩條分布曲線出現間隔,隨著置信度的增大間隔也越來越大,即在原始數據上得到的網絡關系具有一定的可信度,說明貝葉斯網絡的bootstrap估計方法確實能夠發現大量的網絡關系。

圖3中構建的貝葉斯網絡反映了基因之間的調控關系,通過查詢已有的基因/蛋白互作網絡數據庫[9-10](如STRING,GENEMANIA等),貝葉斯網絡中基因調控關系80%以上得到支持。圖3中RRM 2基因受多個基因調控,可以將它定義為樞紐基因。已有大量文獻報道該基因與卵巢癌的診斷,預后以及化療有關[11-12],它所編碼的蛋白構成氧化還原酶,能催化核苷酸還原成脫氧核苷酸的反應,為DNA合成提供前體準備。圖3中另外一個樞紐基因CHEK1調控多個基因,該基因與卵巢癌有密切聯系[13-14],其編碼的蛋白屬于絲氨酸/蘇氨酸蛋白激酶家族,在DNA損傷反應中起著重要作用。

圖4 100次重復實驗不同閾值下網絡中邊的數目比較

討 論

本研究的目的是驗證貝葉斯網絡的bootstrap估計方法的性能,并將其應用于癌癥基因組數據的分析,揭示基因之間的調控關系。通過模擬實驗將貝葉斯網絡bootstrap方法與一般結構學習方法的結果進行比較,驗證了改進后方法的性能。此外,貝葉斯網絡bootstrap方法能給出網絡中邊的置信度,這可以為研究者提供更多的信息。通過模擬實驗我們檢驗了置信度可以作為評價特征真實性的度量。本研究得出以下幾點結論:①bootstrap估計是謹慎可靠的,在高置信度的情況下網絡幾乎不包含假陽性。②當數據集樣本量較少(相對其所要推斷的模型復雜度)時,本文給出的bootstrap方法相比原始方法新方法能夠得出更準確的結果。③閾值的設定十分重要,它直接影響最終結果,要根據實際情況設置,如果實際中想發現更多的網絡關系,可選較小的閾值(如t=0.3),如果想得到更可信的網絡關系,則應選取大的值(如t=0.7)。總之,建立生物學網絡可以更好地驗證差異變量,揭示變量之間的因果關系,本文將bootstrap方法應用于貝葉斯網絡估計,獲得了較為理想的結果,更深入的問題有待進一步研究。

1.游項云,李康.貝葉斯網絡方法在基因調控研究中的應用.中國衛生統計,2009,26(1):83-86.

2.范麗珺,游頂云,張旺,等.貝葉斯因果關系網絡模型在斷面調查數據中的應用.中國醫院統計,2010,17(2):97-100.

3.虞慧婷,吳騁,柳偉偉,等.基于貝葉斯網絡的原發性肝癌預后影響因素相互關系研究.中國衛生統計,2008,25(1):10-14.

4.Friedman N,Goldszmidt M,Wyner A.Data analysis with Bayesian networks:A bootstrap approach.Proceedings of the Fifteenth conference on Uncertainty in artificial intelligence.Morgan Kaufmann Publishers Inc.,1999:196-205.

5.Broom BM,Do KA,Subramanian D.Model averaging strategies for structure learning in Bayesian networks with limited data.BMC Bioinformatics,2012,13(Suppl 13):S10.

6.Scutari M.Learning Bayesian networks with the bnlearn R package. arXiv preprint arXiv:0908.3817,2009.

7.Friedman N,Linial M,Nachman I,Pe’er D.Using Bayesian networks to analyze expression data.J Comput Biol,2000,7(3-4):601-620

8.Bell D,Berchuck A,Birrer M,et al.Integrated genomic analyses of ovarian carcinoma.Nature,2011,474(7353):609-615.

9.Warde-Farley D,Donaldson SL,Comes O,et al.The GeneMANIA prediction server:biological network integration for gene prioritization and predicting gene function.Nucleic Acids Res,2010,38(Web Server issue):W 214-220.

10.Franceschini A,Szklarczyk D,Frankild S,et al.STRING v9.1:proteinprotein interaction networks,with increased coverage and integration. Nucleic Acids Res,2013,41(Database issue):D808-815.

11.Ferrandina G,Mey V,Nannizzi S,et al.Expression of nucleoside transporters,deoxycitidine kinase,ribonucleotide reductase regulatory subunits,and gemcitabine catabolic enzymes in primary ovarian cancer. Cancer Chemother Pharmacol,2010,65(4):679-686.

12.Zhang M,Wang J,Yao R,et al.Small interfering RNA(siRNA)-mediated silencing of the M2 subunit of ribonucleotide reductase:a novel therapeutic strategy in ovarian cancer.International Journal of Gynecological Cancer,2013,23(4):659-666.

13.Connell CM,Shibata A,Tookman LA,et al.Genomic DNA damage and ATR-Chk1 signaling determine oncolytic adenoviral efficacy in human ovarian cancer cells.J Clin Invest,2011,121(4):1283-1297.

14.Kumar G,Breen EJ,Ranganathan S.Identification of ovarian cancer associated genes using an integrated approach in a Boolean framework. BMC Syst Biol,2013,7:12.

(責任編輯:鄧 妍)

The Application of Bayes Network Structure Learning Algorithm Based on Bootstrap Method to the Construction of Gene Regulatory Networks

Li Hailong,Hou Yan,Ke Chaofu,et al.(Department of Medical Statistics,Harbin Medical University(150081),Harbin)

ObjectiveTo explore the performance of Bayes network structure learning algorithm based on bootstrap method in network construction,and to apply it to the analysis of ovarian cancer gene expression data.MethodsThe efficiency of the algorithm given in this article was testified with simulation data and gene expression data,and meanwhile this algorithm was used to construct gene regulatory networks.ResultsBayes network structure learning based on bootstrap method performed better than the general Bayes network in the case of small sample sizes,as shown in simulation tests;the results of gene expression data analysis also indicated that this algorithm could provide valuable network structures.ConclusionBayes network structure learning algorithm based on bootstrap method can establish highly precise network models even with small sample sizes,and meanwhile provide the confidence estimates of each edge in the network.

Bayes network;Structure learning;Bootstrap

*高等學校博士學科專項基金(2012230711004);國家自然科學基金(81172767)

△通信作者:李康,E-mail:likang@ems.hrbmu.edu.cn

猜你喜歡
方法
中醫特有的急救方法
中老年保健(2021年9期)2021-08-24 03:52:04
高中數學教學改革的方法
河北畫報(2021年2期)2021-05-25 02:07:46
化學反應多變幻 “虛擬”方法幫大忙
變快的方法
兒童繪本(2020年5期)2020-04-07 17:46:30
學習方法
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
最有效的簡單方法
山東青年(2016年1期)2016-02-28 14:25:23
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 最新日韩AV网址在线观看| 三上悠亚在线精品二区| 中日韩欧亚无码视频| 国产极品粉嫩小泬免费看| 亚洲欧美成人在线视频| 午夜福利免费视频| 亚洲成人精品久久| 992tv国产人成在线观看| 欧美视频在线观看第一页| 国产亚卅精品无码| 久久综合成人| 国产精品思思热在线| 亚洲精品视频免费观看| 久久久久国产精品熟女影院| 国产精品露脸视频| 露脸一二三区国语对白| 国产美女精品在线| 99热最新在线| 亚洲综合一区国产精品| 91色在线视频| 国产精品毛片一区视频播| 91久草视频| 国产办公室秘书无码精品| 亚洲欧洲国产成人综合不卡| 久久一级电影| 亚洲欧美日韩综合二区三区| 色播五月婷婷| 欧美日韩在线国产| 福利一区三区| 国产精品性| 人妻夜夜爽天天爽| 青青草国产精品久久久久| 91九色国产porny| 国产女人18毛片水真多1| 91年精品国产福利线观看久久| 黄色污网站在线观看| 日韩在线欧美在线| 日韩免费成人| 國產尤物AV尤物在線觀看| 特级做a爰片毛片免费69| 国产精品视频久| 欧美精品xx| 欧美一级高清片久久99| 亚洲综合久久一本伊一区| 国产欧美精品专区一区二区| 国产激爽大片高清在线观看| 三级视频中文字幕| 免费不卡视频| 国产欧美日韩另类| 在线另类稀缺国产呦| 久久免费视频6| 成人蜜桃网| 亚洲 日韩 激情 无码 中出| 伊人蕉久影院| 91精品专区国产盗摄| 婷婷99视频精品全部在线观看| 国产精品短篇二区| 国产av剧情无码精品色午夜| 亚洲国产精品美女| 成年看免费观看视频拍拍| 国产精品视频免费网站| 国内精品视频| 亚洲精品手机在线| 丝袜美女被出水视频一区| 成人毛片在线播放| 波多野结衣一区二区三视频 | 伊人色婷婷| 91青青草视频在线观看的| 一区二区三区高清视频国产女人| 国产网站一区二区三区| 久久人体视频| 精品国产成人三级在线观看| 国产高清免费午夜在线视频| 国产人人射| 国产成人无码AV在线播放动漫| 精品国产成人三级在线观看| 欧美激情第一区| 青青青国产免费线在| 国产一级无码不卡视频| 免费jjzz在在线播放国产| 国产亚洲精久久久久久久91| 久久综合伊人 六十路|