999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

貝葉斯網潛變量模型在抑郁患者單核苷酸多態性(SNPs)研究中的應用*

2012-07-27 09:30:12張韶凱張巖波張克讓
中國衛生統計 2012年5期
關鍵詞:分析信息模型

張韶凱 張巖波△ 張克讓 孫 寧 徐 勇

復雜性狀疾病(complex diseases)是指由多種基因控制、遺傳因素與環境因素相互作用的疾病,如糖尿病、高血壓、抑郁癥等。人類基因組單體型結構及應用的研究,在過去幾年取得了很大進步,但是仍存在很多問題有待解決。伴隨單體型數據的劇增,更為迫切需要的是發展更為有效的設計與統計分析手段,從而在研究中考慮到更多的多態位點、更復雜的性狀、單體域間的連鎖、系譜信息等問題,使得我們對單體型、單體域的研究更為有效與完善〔1〕。貝葉斯網潛變量分析既可以有效地體現單體型和高維SNPs的綜合效應,又可以充分發揮貝葉斯網絡結構分析的特征,分析SNPs復雜的網絡結構關系,是分析大規模基因數據的一種有效的方法。本文采用基于貝葉斯(Bayesian)網絡的潛變量模型來進行高維度基因組數據的分析。

資料與方法

1.資料來源

研究資料為山西醫科大學第一醫院抑郁障礙性疾病的單核苷酸多態性SNPs檢測數據,每個研究對象分別測量7個SNP,一共檢測了801個個體。SNPs檢測指標見表1。

2.研究方法

采用Bayesian網絡的潛變量模型對數據進行分析。分析工具采用LANTERN潛變量分析軟件,該軟件由香港科技大學計算機科學工程學系開發。

(1)貝葉斯網潛類模型

貝葉斯網絡是變量之間概率依賴關系的一種圖形表示形式,每個節點代表一個隨機變量,結點之間的線表示結點間存在概率依賴關系,且依賴的程度是一個概率參數。貝葉斯網絡由網絡結構和條件概率分布兩部分組成。貝葉斯網潛類模型是由潛變量和顯變量組成的貝葉斯網。在實際工作中,潛變量代表沒有觀測到的潛在因子,顯變量Y1,Y2…,Yn代表潛在因子的外部表現。比如X代表個人的“社會經濟地位”,Y可以代表職業、學歷、收入等社會經濟地位的的外在體現。變量X可以取不同的數值,這些不同的數值代表不同的類別,這些類別不能觀測到,所以稱之為潛在類別(latent class)。假如X代表的是“社會經濟地位”,那么潛在類別就是“社會經濟地位高(的人群)”、“社會經濟地位低(的人群)”等。潛類模型與樸素貝葉斯模型具有相同的網絡結構,不同的是潛類模型中的類別變量是潛變量,而樸素貝葉斯網模型中的類別變量是顯變量。

表1 抑郁障礙性疾病患者SNPs指標

(2)潛類模型的可識別性

由于模型存在冗余部分,使得模型變得不可識別,所以應當盡量去掉這些冗余部分,得到一個最簡約的模型。一個模型是否為最簡模型,可以用正則性來判斷。Goodman(1974)提出在潛類模型中,如果其潛變量的個數|X|和其顯變量的個數|Yi|(i=1,2,…,n)滿足如下關系〔2〕:

則稱潛類模型是正則的。

新動能就是新一輪科技革命和產業變革中形成的經濟社會發展新動力,包括新技術、新產業、新業態、新模式等等。舊動能是指低效率、低質量、高耗能、高污染的傳統產業和傳統經營管理模式。新舊動能轉換就是通過新的科技革命和產業變革中形成經濟社會發展新動力,用新技術、新產業、新業態、新模式等轉換更迭傳統以資源和政府為導向的經濟發展模式。新舊動能轉換既來自“無中生有”的新技術、新業態、新模式,也來自“有中出新”的傳統產業改造升級。兩者相輔相成、有機統一。

(3)潛類模型學習

潛類模型學習是從一組顯變量數據Y1,Y2,…,Yn,出發,確定兩方面內容:①潛變量的類別;②潛變量X的概率分布P(X)及每個顯變量的條件概率P(Yi/X)。確定潛變量的類別等于確定潛類的個數,確定P(X)及P(Yi/X)就是確定每個潛類的統計特性。因此,潛類分析可以看作是一種基于模型的聚類分析〔3〕。

(4)參數估計

貝葉斯網參數學習是指對于給定的貝葉斯網模型結構η和數據集D,利用先驗知識確定貝葉斯網絡模型各節點的條件概率θ。常見的參數學習方法對貝葉斯網絡和數據集做了一些假定〔4〕:①變量是類別變量;②全局和局部獨立;③樣本獨立同分布。常用的貝葉斯網絡參數學習方法有最大似然估計、貝葉斯估計和期望最大化算法。

(5)模型的選擇

評分函數是用來指導模型選擇的標準。設η是數據D的一個貝葉斯潛變量模型,模型η相對于數據D擬合的優劣可以用評分函數來衡量,即以評分函數作為標準來選擇模型。潛變量模型常用的評分有BIC,AIC,HVL,BICe,CS 等〔5-6〕。

(6)模型優化

結果分析

經過分析后得到的最優貝葉斯網潛變量模型結構,模型中含有一個潛變量X,X的類別為2,表示綜合考慮7個SNPs的整體效應,可以將人群總的分為兩類,每個類別代表不同特征的人群。模型中與潛變量相連的7個SNPs為顯變量,它們與潛變量的關系由每一條直線表示,線的粗細代表每個SNP與潛變量X的兩兩互信息,即與X的相關度,線越粗,代表互信息量越大,與潛變量X的關系越密切。從得到的模型結構圖中可以看出,與潛變量X關系最為密切的SNP為rs11568817和 rs130058,其次為 rs6298,其余的 SNPs與潛變量X的相關度比較小。

圖1是包含每個SNP與潛變量X的互信息和累積信息覆蓋度的信息曲線。為了解釋潛變量X的含義,LANTERN會選取若干個與潛變量X相關度最高的顯變量,并基于這些顯變量來進行解釋。累積信息覆蓋度決定了所得到的解釋結果覆蓋了多少潛變量X所包含的信息。累積信息覆蓋度越高,選取的顯變量就越多,解釋結果所覆蓋的潛變量X的信息也就越多,但是,隨著模型選取的顯變量個數的增加,所得到的解釋結果也就越復雜。因此,在一般情況下,累積信息覆蓋度的默認值選為95%。

圖1 各SNP的信息曲線

為考察每個SNP的互信息,將所有的SNPs都納入,因此信息覆蓋度達100,重復抽樣次數默認值10000,分析得到圖1中的信息曲線圖。圖中橫軸從左到右是7個SNPs顯變量,左側的縱軸是互信息的絕對值,右側的縱軸則是信息覆蓋度的大小。下方的曲線是各顯變量與潛變量X的兩兩互信息或者相關度的大小。從左到右,各顯變量X與潛變量的相關度呈下降趨勢。上方的曲線是當截取到各顯變量時它們與潛變量X的累積互信息的大小。顯然,截取的顯變量越多,累積互信息越大,但是到達一定程度時,累積互信息量不再增加。從數據分析后得到的信息曲線可以看出,兩兩互信息量最大的SNP是rs1156881,其次是rs130058和rs6298,其余的SNPs與潛變量的互信息量很小。各個SNPs的信息情況見表2。從表中可以看出,rs1156881與rs130058兩者的累積互信息量就能夠達到95%以上,rs5569,rs2242446,rs6295與 rs6313幾乎不提供任何信息,說明這些SNPs的在診斷抑郁癥方面的價值不大。

表3-4是各SNP在潛變量X中的類概率分布表。表3是潛變量X的類別為1時各SNP的類概率分布,潛變量X的先驗類別概率為0.216,表4是潛變量X的類別為2時各SNP的類概率分布,潛變量X的先驗類別概率為0.784。類概率分布解釋了潛變量與顯變量之間的關系,可以幫助研究者解釋潛變量各類別的內容和性質〔7〕。潛變量X的各類別概率總和為1。本例中潛變量第二個類別所占的比重(0.784)遠大于第一個類別的比重(0.216),超過全體樣本的一半,說明潛變量的第二個類別對7個SNPs的影響較大。具體到每一個 SNP中,由于 rs5569,rs2242446,rs6295與rs6313的信息量為0,所以可以判斷這4個SNPs在兩組之間的類概率分布差異應該不明顯,而從它們的類概率分布表中得出的結論與此一致。比如rs613,它在潛變量類別為1時的條件概率分別為0.23,0.50和0.27,在潛變量類別為2時的條件概率分別為0.22,0.50和0.27,基本上是一樣的,因此,潛變量在這個SNP上并不具有特異性,即該SNP并不能作為劃分抑郁癥病人類別的依據。其余3個信息量為0的 SNPs與rs613類似。相反,rs11568817,rs130058和rs6298的類概率分布在潛變量的不同類別上存在差異,這與它們的互信息量的大小也是一致的,我們可以根據這三個SNPs來對所有的抑郁癥病人進行合理歸類。從表4可以看出,導致我們潛變量模型中潛在類別含義不同的正是從屬于HTR1B基因(5-羥色胺受體1B基因)的3個SNPs。

表2 各SNP的信息情況

表3 各SNP的類概率分布表(X=1,先驗概率=0.216)

表4 各SNP的類概率分布表(X=2,先驗概率=0.784)

按照累積信息覆蓋度達95% 的原則,rs11568817和rs130058的累積信息覆蓋度達到98%,能夠解釋潛變量幾乎所有的信息,因此我們選取這兩個SNPs來對抑郁癥患者進行合理的聚類與解釋。在潛變量X潛在類別為1的條件下,rs11568817和rs130058第2個狀態的條件概率分別為0.92和0.76,條件概率值遠遠大于其它類別的條件概率值,因此,潛變量XX在第一個類別上反映的是這兩個SNPs第二個狀態的信息。rs11568817第二個狀態為GT,rs130058第二個狀態為AT,都為雜合子,所以,在潛在類別為1的抑郁癥患者的SNPs中,以含rs11568817和rs130058的雜合子為主,此類患者占總患者人數的22%;在潛變量X潛在類別為2的條件下,rs11568817第三個狀態的條件概率值為0.98,rs130058第一個狀態的條件概率值為1,遠大于各自SNP其它狀態的條件概率,因此潛變量X在第二個類別上綜合反映的是rs11568817第三個狀態和rs130058第一個狀態的信息。rs11568817第三個狀態為TT,rs130058第一個狀態為AA,都為純合子,所以,在潛在類別為2的抑郁癥患者的SNPs中,以含rs11568817和rs130058的純合子為主,此類患者占總患者人數的78%。

討 論

實例分析中根據抑郁癥患者的7個SNPs,將患者分為兩個潛在類別。這兩個類別分別代表不同特征的抑郁癥患者,據此可以探索SNPs的整體效應,比如這些患者可能有不同藥物的反應,不同的行為特征等。實現在SNPs變量水平上的降維和個體水平上的聚類以后,根據不同患者類別的不同特征,可以針對性的采取不同的個性化治療方案。

除了對被研究的患者進行分類以外,我們還能利用得到的貝葉斯網潛變量模型對新加入的患者進行歸類。歸類的方法是考慮新加入患者的每個SNPs狀態,將這些狀態賦值以后,代入到貝葉斯網潛變量模型中,模型會根據這些狀態的具體情況,獲得概率預測值,將新加入患者進行歸類,為基因治療提供重要依據。

單核苷酸基因多態性與單體型的研究在探討復雜性疾病的遺傳機理,遺傳風險與藥物反應不同中有著重要的意義,已經成為了許多領域研究的焦點。基于貝葉斯網絡的潛變量模型為多基因,多位點SNPs數據的分析提供了一種新的思路。貝葉斯網潛變量分析可以有效的體現高維度SNPs的整體效應,充分發揮貝葉斯網絡結構分析的特征來分析SNPs與疾病之間復雜的結構關系,是分析高維基因數據的一種有效方法。

此外,貝葉斯網潛變量模型研究結果可以用多種方式陳列,從不同側面反映數據的內在結構,結果解釋簡單,并且通過類概率分布情況,我們可以一目了然的看出各類別概率。

1.李婧,潘玉春,李亦學,等.人類基因組單核苷酸多態性和單體型的分析及應用.遺傳學報,2005,32(8):879-889.

2.Goodman L A.Exploratory latent structure analysis using both identifiable and unidentifiable models.Biometrika,1974(61):215-231.

3.張巖波.潛變量分析.北京:高等教育出版社,2009.

4.張連文,郭海鵬.貝葉斯網引論.北京:科學出版社,2006,204-220.

5.Geiger D,Heckerman D,et al.Asymptotic model selection for directed networks with hidden variables.In Proceedings of the twelfth annual conference on uncertainty in artificial intelligence(UAI-96).San Francisco:Morgan Kaufmann Publishers,1996:283-290.

6.Cheesman P,Stutz J.Bayesion classification:Theory and results.In PSUM Fayyad G piatetsky Shapiro,R Uthrusamy,editors.Advances in Knowledge Discovery and Data Mining.Menlo Park:The AAAI Press,1995:153-180.

7.裴磊磊,張巖波,張克讓,等.抑郁癥單核苷酸多態性(SNPs)分布特征的潛在類別分析.中國衛生統計,2010,27(1):7-10.

猜你喜歡
分析信息模型
一半模型
隱蔽失效適航要求符合性驗證分析
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
電力系統及其自動化發展趨勢分析
3D打印中的模型分割與打包
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 国产办公室秘书无码精品| 在线观看精品自拍视频| 欧美第二区| 青青操国产视频| 99热最新网址| 国产欧美性爱网| 国产手机在线观看| 永久免费av网站可以直接看的| 亚洲第一av网站| 午夜人性色福利无码视频在线观看 | 亚洲AV无码乱码在线观看代蜜桃| 国产一区免费在线观看| 国内熟女少妇一线天| 欧美激情,国产精品| 国产精品一线天| 亚洲娇小与黑人巨大交| 久久免费精品琪琪| 亚洲精品人成网线在线| 亚洲精品不卡午夜精品| 亚洲经典在线中文字幕| 久久福利网| 热久久国产| 亚欧美国产综合| 国产日本欧美亚洲精品视| 国内a级毛片| 一区二区三区成人| 全午夜免费一级毛片| 亚洲综合极品香蕉久久网| 国产99视频在线| 国产亚洲精品资源在线26u| 国产对白刺激真实精品91| 亚洲三级成人| 美美女高清毛片视频免费观看| 手机精品福利在线观看| 91精品免费高清在线| 国产激情在线视频| 亚洲欧洲日韩综合| 欧美一级夜夜爽www| 这里只有精品免费视频| 亚洲第七页| 欧美中文字幕在线播放| 亚洲欧美另类中文字幕| 日韩麻豆小视频| 日本色综合网| 欧美第二区| 夜夜操天天摸| 国产一级裸网站| 极品国产在线| 亚洲最黄视频| 亚洲色偷偷偷鲁综合| 成人午夜在线播放| 精品欧美一区二区三区久久久| 天堂亚洲网| 好紧好深好大乳无码中文字幕| 成年看免费观看视频拍拍| 国产欧美成人不卡视频| 欧美不卡在线视频| 天天摸夜夜操| 欧美日韩资源| 亚洲黄色激情网站| 无码内射在线| 亚洲永久免费网站| 丰满人妻被猛烈进入无码| 久久精品欧美一区二区| 少妇人妻无码首页| www中文字幕在线观看| 国产熟睡乱子伦视频网站| 天堂成人av| 亚洲成在人线av品善网好看| 高潮毛片无遮挡高清视频播放| 国产aaaaa一级毛片| 亚洲天堂福利视频| 丁香综合在线| 美美女高清毛片视频免费观看| 日本亚洲成高清一区二区三区| 欧美一区二区自偷自拍视频| 亚洲另类第一页| 国产极品粉嫩小泬免费看| 在线观看免费AV网| 丰满人妻久久中文字幕| 久久a毛片| 亚洲国产精品一区二区高清无码久久|