999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

DiffRank-RF差異網絡分析方法的研究與應用*

2019-11-12 12:22:34蔡雨晴李軼群王文杰
中國衛生統計 2019年5期
關鍵詞:差異方法

蔡雨晴 李軼群 徐 歡 宋 微 楊 凱 王文杰 李 康△

1.哈爾濱醫科大學衛生統計學教研室(150081)2.哈爾濱工業大學生命科學與技術學院

差異表達分析常被用于各種疾病標志物的篩選研究中,如傳統的t檢驗、顯著性分析(significance of microarrays,SAM)檢驗、偏最小二乘(pa least square,PLS)等方法。然而,這些方法主要是通過比較不同分組之間基因表達均值的差異篩選標記物,忽視了物質之間的相互調控關系,致使研究結果不夠穩定或檢驗效率低。在組學研究中,由于基因調控和蛋白質的互相作用,很有可能在表達量上還沒有呈現出明顯差別時,在調控關系上已經發生了一定的改變。差異網絡分析方法更加注重不同分組情況下調控關系和網絡拓撲結構的差別,并由此篩選出具有潛在生物學意義的標記物。本文提出DiffRank-RF差異網絡分析方法,通過模擬實驗評價該方法的準確性和適用條件,并與傳統的變量篩選方法進行比較,最后應用于乳腺癌實際數據,得到相應的分析結果。

原理與方法

1.基本思想

隨機森林方法提高了預測精度,對多重共線性不敏感。利用隨機森林(random forest,RF)回歸模型,可以建立任一變量Xk對其它變量的回歸模型:

Xk=RF(X1,X2,…,Xk-1,Xk+1,…,Xm)+ε

網絡共有m個變量,其中ε為模型的殘差。根據衡量變量重要的VIM值作為有向連接兩節點的權重,可以建立RF網絡[1]。利用R包randomForest即可實現通過隨機森林回歸構建網絡。

差異網絡分析使用DiffRank[2]算法。首先根據隨機森林(RF)構建網絡,再結合網絡拓撲結構的局部指標連接權重(connectivity)、度(degree)以及全局指標最短路徑(shortest path)等統計量發現導致網絡差異的重要變量。連接權重即變量之間的關聯強弱,可用RF建網得到的VIM值度量,并用連接邊線的粗細表示權重大小(見圖1)。度是在網絡中某一變量的連接邊數量,圖1中可見變量G1的度為5。DiffRank-RF算法將被分析節點的所有直接連接點的權重進行相加得到網絡局部測量指標ΔC。最短路徑是指變量間權重之和最小的一條連接路徑,DiffRank-RF計算經過節點的最短路徑數量占所有最短路徑數量的比值來表示節點的中介中心性(between centrality,BC),可以分析網絡中所有節點(包括直接連接點和間接連接點)對被分析節點的影響。當節點的度或連接權重較小,卻經過網絡的多數最短路徑時,仍可認為該節點是網絡中的重要節點,ΔBC值能夠反映這一現象。

2.統計量計算

DiffRank-RF計算局部結構改變測量指標ΔC和全局結構改變測量指標ΔBC的公式分別為

圖1 網絡示例圖

(1)

(2)

(3)

其中,A和B分別代表兩個不同分組情況下隨機森林回歸所構建的網絡,分別包含N個變量。VIM是隨機森林得到的變量重要性評分,表示變量v與其它相連變量的連接權重。πvi為變量v在網絡中第i次迭代的差異評分,用參數λ結合兩部分指標,λ取值范圍為[0,1],可根據模擬試驗選取不同情況下合適的λ值。任一變量的π初始值可設為1/N,結果收斂時循環停止。SPv(s,t)可表示為通過變量v的一個N×N矩陣,在網絡中任意兩變量s、t的最短路徑若通過變量v,則在矩陣中用1表示,否則用0表示。ΔBC(v)計算通過變量v的最短路徑數量來反映變量v在網絡中的中介中心性。基于每一變量的差異評分π給所有變量排序,π越大表示在差異網絡中貢獻最大,即所篩選的差異位點。

模擬研究

1.模擬實驗目的:通過模擬實驗評價DiffRank-RF算法在不同樣本量情況下篩選差異位點的準確性和穩定性,同時與SAM、PLS方法進行比較,探討DiffRank-RF算法最優的適用范圍和λ參數設置。

2.模擬實驗設置:有向模擬網絡設置20個變量和25條有向邊(見圖2),包括變量間的線性調控和非線性調控關系和交互作用,其中線性關系由線性方程產生,相關系數為隨機產生的固定值,誤差從正態分布中隨機抽樣,非線性關系在線性基礎上指數形式產生。實驗設置樣本量分別為50,100,200,500和1000。對樣本數據應用隨機森林回歸方法構建兩個網絡,通過DiffRank-RF進行差異網絡分析,分別使用AUC值及預測準確率(PRE)指標與SAM和PLS方法進行比較。以上過程隨機重復100次。

3.閾值選擇:隨機森林構建網絡時,VIM值通過置換檢驗可以得到其均值的隨機分布,選取95%分位數為閾值以判斷節點之間是否存在真實邊。在進行預測準確率比較時,選取PLS結果中VIP、SAM得分、DiffRank-RF結果秩次排在前5位的變量為預測差異變量。

圖2 有向網絡模擬實驗設置條件

4.模擬實驗結果:表1模擬實驗結果顯示,在AUC評價中,DiffRank-RF方法在λ=0.5時隨樣本量增加AUC值增加最明顯,但穩定性較差(見圖3A),λ=1時穩定性最優,綜合看來λ=0.75效果最好,且DiffRank-RF不管λ取何值時,效果都優于SAM和PLS方法。隨樣本量逐漸增加,DiffRank-RF、SAM和PLS方法AUC值都越高,當樣本量大于200時效果趨于平緩,PRE指標在DiffRank-RF方法λ=0.75時要優于其他情況(圖3B)。

表1 DiffRank-RF差異網絡分析與SAM、PLS比較結果

圖3 DiffRank-RF差異網絡分析與SAM、PLS的準確性比較

實例分析

數據來源:TCGA數據庫中531例乳腺癌患者及63例對照的mRNA基因表達數據,選取p53信號通路進行分析。分別選取λ=0、0.75和1,對這條通路內所有基因進行DiffRank-RF差異網絡分析,分析結果見表2。

結果顯示,DiffRank-RF差異網絡分析方法λ取0和0.75時篩選的變量有較大重疊,而與λ=1時相比差別較大;同時可以看到DiffRank-RF方法篩選的變量與傳統的SAM和PLS相比差別較大,幾乎無重疊。SAM和PLS兩種方法之間篩選出的結果則十分相近。

表2 乳腺癌與對照數據使用三種方法篩選變量的結果(排序前10)

通過文獻查閱,CDK4是細胞周期中G1-S期調控的中心基因,已發現CDK4的高表達廣泛存在于人類的多種腫瘤中,CDK4的異常表達與腫瘤的發生密切相關。CDK4、CDKN2A(p16)和CDK2同屬于CDK家族與細胞周期調控有關的基因,其中CDKN2A是CDK4的抑制因子,阻止細胞進入S期,同時對CDK2也有抑制作用[3],有研究表明CDKN2A改變會影響乳腺癌患者的生存和預后[4]。PTEN是繼p53后另一個較為廣泛地與腫瘤發生關系密切的基因,對細胞周期進展和細胞凋亡有重要作用,同時,PTEN與CDK2抑制劑(CDKN1A)對卵巢癌細胞生長抑制具有協同作用[5]。在細胞凋亡的調控過程中,CASP3和CASP8發揮了關鍵作用,其中CASP3的高表達與乳腺癌生存時間有顯著性關系[6]。使用GeneMINIA[7]基因/蛋白互作網絡數據庫可以將篩選出的基因畫出網絡圖,圖4給出了DiffRank-RF方法在λ=0.75時的網絡示意圖。

圖4 DiffRank-RF分析結果在GeneMINIA中的關系示意圖

討 論

傳統的差異基因篩選方法主要是根據基因表達量在不同分組中的差異進行篩選。實際的基因網絡有可能其表達量改變不大,但其調控關系發生變化,此時傳統方法有較低的檢驗效率,本文給出的DiffRank-RF方法則能夠充分反映不同組間調控網絡的差異,篩選出重要的基因。

已有的多種網絡構建方法中,隨機森林方法能夠識別變量之間的非線性關系和交互作用,且隨機森林可以構建有向網絡。由于基因之間的調控通常為有向的,因此DiffRank-RF方法具有明顯的優勢。

DiffRank-RF算法根據λ不同取值能夠發現網絡中不同功能的基因,當λ=1時,基因排序靠前,表明該基因與直接關聯基因的調控關系較強或直接關聯基因數量較多,即在網絡局部作用較大;當λ=0時,基因排序靠前,表明其在網絡中的中介中心性較高,可被視為網絡的中心基因,參與網絡的全局調控。需要注意:當變量數目較少時,網絡中的最短路徑數量也會相對減少,此時全局指標(最短路徑算法)應用有限,應更多的利用連接權重進行差異網絡分析,λ可適當取較大的值;而當變量數目較多時,結合全局指標能夠納入更多生物學信息,此時建議λ取值0.75。

本文在篩選變量時,主要根據評價統計量值的大小排序選擇最前面的基因。為了能夠對其進行檢驗,可以使用置換檢驗的方法,根據檢驗的P值進行篩選。

猜你喜歡
差異方法
相似與差異
音樂探索(2022年2期)2022-05-30 21:01:37
找句子差異
學習方法
DL/T 868—2014與NB/T 47014—2011主要差異比較與分析
生物為什么會有差異?
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
M1型、M2型巨噬細胞及腫瘤相關巨噬細胞中miR-146a表達的差異
主站蜘蛛池模板: 免费毛片视频| 国产精品自在自线免费观看| 国产成人综合亚洲欧美在| 国产精品不卡片视频免费观看| 91久久偷偷做嫩草影院| 国产尤物视频网址导航| 亚洲午夜福利在线| 一本色道久久88综合日韩精品| 中文字幕人妻av一区二区| AV无码一区二区三区四区| 久草性视频| 亚洲精品在线观看91| 蜜臀av性久久久久蜜臀aⅴ麻豆| 67194在线午夜亚洲| 欧美a在线视频| 国产成人在线小视频| 国产美女在线观看| 欧美成人aⅴ| 免费a在线观看播放| 国产综合精品日本亚洲777| 欧美一级高清片久久99| 国产精品三级专区| 国产成人一区| 亚洲IV视频免费在线光看| 久久永久精品免费视频| 国产理论一区| 午夜国产精品视频| 青青青视频蜜桃一区二区| 一区二区日韩国产精久久| 亚洲成人动漫在线| 欧美日韩在线亚洲国产人| 国产成人精品高清不卡在线| 精品国产福利在线| 欧美成人A视频| 亚洲品质国产精品无码| 伊人精品视频免费在线| 国产成人精品午夜视频'| 中文国产成人久久精品小说| 美臀人妻中出中文字幕在线| 亚洲欧美极品| 精品天海翼一区二区| 亚洲色大成网站www国产| 久久精品人人做人人| 91精品国产丝袜| 色综合天天操| 丁香六月激情综合| 国产精品毛片在线直播完整版| 亚洲人成网站在线播放2019| av在线5g无码天天| 色久综合在线| 国产丝袜啪啪| 青青草原国产| 国产91线观看| 中文字幕一区二区人妻电影| 免费在线国产一区二区三区精品| 国产亚洲视频播放9000| 国产精品视频第一专区| 久久精品无码一区二区日韩免费| 青青草国产一区二区三区| 国产尤物视频在线| 老司国产精品视频| 一本大道香蕉久中文在线播放| 国产丝袜无码一区二区视频| 最新亚洲人成无码网站欣赏网 | 国产福利免费视频| 经典三级久久| 亚洲视频在线网| 国产资源免费观看| 国产丰满大乳无码免费播放| 国产欧美日韩综合一区在线播放| 亚洲人成网址| 国产在线观看精品| 国产在线视频导航| 成年人免费国产视频| 一本二本三本不卡无码| 丁香六月激情综合| 久久国产亚洲偷自| 精品无码一区二区在线观看| 久久视精品| 亚洲日本中文字幕乱码中文| 55夜色66夜色国产精品视频| 成人av专区精品无码国产|