999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

潛在類別模型和主成分法在稀有變異關聯分析中的應用比較*

2018-07-16 06:15:00皮路程冀曉慧李麗霞郜艷暉
中國衛生統計 2018年2期
關鍵詞:關聯分類模型

皮路程 卜 濤 冀曉慧 趙 麗 李麗霞 劉 麗 郜艷暉

廣東藥科大學公共衛生學院統計學教研室(510310)

【提 要】 目的 比較潛在類別模型和主成分法在稀有變異遺傳關聯研究中的統計性能。方法 利用GAW17數據庫,通過集合策略將同一基因中的稀有變異合并成一個新變量,以基因為分析單位,分別運用潛在類別模型和主成分法構建常見變異和集合后稀有變異的分類潛變量或主成分,再應用線性回歸模型分析基因對定量性狀的整體效應,評價兩種方法的I類錯誤和效能。結果 潛在類別模型的I類錯誤(0.040~0.085)均不高于主成分法(0.040~0.190)。對強效應的稀有變異和常見變異,即使存在多個無關聯稀有變異,潛在類別模型也能很好地分類且效能(1.000)不低于主成分法(0.990~1.000);但稀有或常見變異效應弱時主成分法效能(0.635)高于潛在類別模型(0.200)。對多數非關聯基因,潛在類別模型不收斂。結論 和主成分法類似,潛在類別模型也可和稀有變異的集合策略結合,通過構建遺傳變異數據的分類潛變量,進行稀有變異的遺傳關聯研究。分析定量性狀時兩法均可識別較強效應的稀有變異和常見變異。人群中遺傳變異分布無異質性時,潛在類別模型常不收斂,提示遺傳變異和性狀無關聯。

隨著二代測序技術的快速發展,大量含稀有變異(rare variants,RV)的遺傳數據應運而生。如次等位基因頻率(minor allele frequency,MAF)低于5%時,傳統關聯性分析方法效能極低[1]。近年學者提出將感興趣區域(region of interest,ROI)內的稀有變異集合(collapsing)再進行后續分析的方法統稱為負擔檢驗(burden test)[2-3]。但負擔檢驗常忽視位點間的連鎖不平衡,面對存在連鎖不平衡的高維遺傳數據,Kazma[4]提出潛變量(latent variable)降維的思路,將主成分與集合方法(principal components and collapsing,PCC)結合,以聚集稀有和常見變異的遺傳信息來提高分析效能。然而PCC法需假設遺傳模式,而以處理分類變量為優勢的潛在類別模型(latent class model,LCM)[5-6]基于異質性將人群分類,應用于遺傳關聯研究時不依賴遺傳模式假設,同時達到降維目的。本研究將集合策略與LCM結合,應用于GAW17(genetic analysis workshop 17)數據庫[7-8],并和PCC方法進行比較,為稀有變異遺傳關聯研究提供統計學方法的支持。

材料與方法

1.數據來源

GAW17數據庫包含了697 例多種族無血緣個體的常見變異和稀有變異的真實數據,及基于遺傳變異基因型和假定的表型關聯模擬了3個定量性狀(Q1、Q2和Q4)和一個二分類性狀(受累與否),協變量包括吸煙狀態、性別和年齡。每種表型模擬產生200個數據集。

2.表型和基因位點的確定

本研究將Q1和Q4用于分析,從GAW17數據庫選取Q1的遺傳變異包括VEGF(vascular endothelial growth factor)通路上的8個基因中38個SNPs。各基因分別包含1~11個功能性變異,其MAFs的范圍從0.07%到16.5%。Q1的剩余遺傳度為0.44。Q4的遺傳度為 0.70,但不受數據庫中任何遺傳變異的影響。

分析Q1時,選擇與Q1關聯的基因用于評價效能;同時選取無關聯基因用于評價I類錯誤。由于和Q1關聯的基因與Q4無關,因此分析Q4也用于評價I類錯誤。基因的納入標準為:(1)同時含常見變異和稀有變異;(2)僅選擇包含錯義突變 SNPs 的基因。最后納入四個Q1關聯基因(ELAVL4,FLT1,HIF3A,KDR)和四個非關聯基因(TMCC1,ZNF493,AKAP7,ALDH1A2)。各基因的常見和稀有變異及效應信息見文獻[7],歸納見表1。

表1 PCA與LCM的統計效能和Ⅰ類錯誤

a:N(true)為納入分析的SNPs個數(有關聯的SNPs個數);b:F(%):集合后的新變量頻率;c:稀有變異平均效應=稀有SNPs的效應之和/SNPs的個數;d:β為常見變異效應值;e:第一主成分解釋百分比;

3.分析過程及評價指標

對每個基因中的稀有變異,先采用指示賦值的集合策略將其合并,再與該基因中常見變異一起,分別應用主成分分析(principal component analysis,PCA)和潛在類別模型,得到第一主成份和分類潛變量。將第一主成分或分類潛變量在調整協變量的條件下分別對200次模擬的Q1和Q4擬合線性回歸模型,記錄每次調整協變量后第一主成分或分類潛變量回歸分析對應的P值,分別計算效能和 I 類錯誤。

主成分分析原理和潛在類別分析原理參見文獻[5-6]。LCM最優模型的選擇主要依據AIC(LL)和BIC(LL)指標,指標越小說明模型擬合越好,其中LL是指模型適配的對數似然值。

本研究中使用Latent GOLD 4.5[11]完成LCM,其余分析采用SAS 9.2[12]。

結  果

1.LCM的最優模型分類

Q1關聯的四個基因最優模型將人群都分為兩類(表2)。在Q1非關聯的四個基因中,僅基因ZNF493 可以將人群分為兩類,其余三個基因LCM模型不收斂(表3),提示人群在此基因上的分布無異質性。

表2 Q1關聯基因的LCM最優模型選擇

2.LCM與PCA方法的效能與Ⅰ類錯誤

四個關聯基因中,基因FLT1的常見變異和KDR的稀有變異效應較高,(平均)效應值分別為0.650和0.600,但稀有變異中均混有相當數量的非關聯變異,此時PCA和LCM的效能均接近或等于1.000。而基因ELAVL4、HIF3A的常見變異均無效應,稀有變異中前者平均效應為0.28,后者為0.12,且稀有變異中混有一半以上非關聯變異,此時PCA效能為0.635和0.060,LCM為0.200和0.065。此外表1也顯示每個關聯基因中常見變異和集合后的稀有變異有較強的關聯,關聯系數為0.88~0.99。

表3 非關聯基因的LCM最優模型選擇

Q1關聯基因的主成分或分類潛變量與Q4表型的200次回歸結果顯示,兩法的Ⅰ類錯誤均不超過0.05,LCM比PCA法略低。非關聯基因中除ZNF493外,LCM結果均未收斂,提示三個基因的分布在病例與對照組中無異質性,但PCA法將分類變量做連續變量處理,第一主成分解釋的百分比在66.27%~94.19%之間,可能高估了變異間的關聯,各基因Ⅰ類錯誤見表1。

討  論

眾多GWAS(genome-wide association studies)研究表明其識別出來的常見變異對于疾病遺傳風險的解釋仍較低,尋找低頻或稀有變異對疾病的貢獻是后GWAS時代的重要任務之一,已有研究表明疾病和低頻及稀有變異存在關聯,且具有很強的效應[9]。但此類遺傳數據具有頻率低、維度高、為分類變量,且變異間存在連鎖不平衡等特點,因此本研究在稀有變異集合策略的基礎上,以基因為分析單位,探討潛在類別模型在稀有變異關聯研究中的適用性。

應用集合策略將ROI內的稀有變異合并后再進行關聯分析,從而提高稀有變異的頻率,增加關聯研究的統計效能。目前常用的負擔檢驗有多變異集合法(combined multivariate and collapsing,CMC)[13],考慮變異權重的加權合計檢驗(weighted sum test,w-Sum)[14]和考慮變異效應方向的SSU (sum of the squares of the marginal score statistics)和SSUw(weighted form of sum of the squares of the marginal score statistics)[15-16]方法。但負擔檢驗并沒有考慮連鎖不平衡以及基因間的交互作用,而忽視這些遺傳結構會導致其統計性能降低,不能很好地反映變異與疾病之間的關聯[17]。

本研究采用PCA和LCM法提取主成分或構造分類潛變量進行降維。特別是LCM以處理分類變量為優勢,對數據降維的同時更好地了解變異分布,識別不同性狀群體間遺傳變異分布的異質性。若群體間不存在異質性時,模型不收斂,提示變異與疾病之間沒有關聯。目前該法在常見變異遺傳關聯研究中已有應用[18]。本研究將稀有變異的集合策略與LCM結合應用于GAW17數據,結果顯示各類情況下,LCM的I類錯誤均不高于PCA。而稀有變異和常見變異強效應時,即使混有較多無關聯變異,LCM仍可很好地對觀測進行分類,且效能不低于PCA;但稀有或常見變異弱效應時效能不高,這可能與稀有變異頻率或集合時混雜較多的無關聯變異有關。本研究采取指示賦值的集合策略,并沒有考慮稀有變異的方向以及權重,此外,LCM要求滿足局部獨立性假設,即在給定的潛在類別下顯變量之間相互獨立,否則可在模型中加入直接效應變量、刪掉冗余的外顯變量或采用潛在類別因子分析構建模型等[19],更多的理論和應用需要進一步研究。

猜你喜歡
關聯分類模型
一半模型
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
奇趣搭配
教你一招:數的分類
智趣
讀者(2017年5期)2017-02-15 18:04:18
主站蜘蛛池模板: 一本大道无码日韩精品影视| 国产亚洲欧美日韩在线一区| 九九久久99精品| 很黄的网站在线观看| 污网站免费在线观看| www.日韩三级| 无码高潮喷水专区久久| 日韩精品视频久久| 波多野结衣第一页| 99热这里只有免费国产精品| 波多野结衣AV无码久久一区| 亚欧美国产综合| 欧美精品xx| 国产香蕉在线视频| 国产性精品| 日韩av在线直播| 网友自拍视频精品区| 欧美亚洲网| 亚洲视频免费在线| 青青草国产一区二区三区| 欧美国产在线精品17p| 五月综合色婷婷| 婷婷六月天激情| 欧日韩在线不卡视频| 国产无人区一区二区三区| 日韩第九页| 亚洲男人的天堂在线观看| 日韩中文字幕亚洲无线码| 毛片免费视频| 波多野结衣一区二区三区AV| 日a本亚洲中文在线观看| 亚洲一区二区无码视频| 国产传媒一区二区三区四区五区| 在线免费无码视频| 综合网天天| 久久国产免费观看| 99热这里只有精品2| 少妇精品网站| 亚洲中文字幕手机在线第一页| 亚洲日韩国产精品综合在线观看| 色综合久久无码网| 成人午夜久久| 久久久久亚洲精品成人网 | 真实国产精品vr专区| 国产凹凸视频在线观看| 在线观看精品国产入口| 国产又色又爽又黄| 国产麻豆精品久久一二三| 亚洲国产成人综合精品2020| 国产综合精品日本亚洲777| 久久精品66| 伊人久久大香线蕉综合影视| 亚洲欧美人成电影在线观看| 国产成人做受免费视频| 国产精品第一区在线观看| 黑色丝袜高跟国产在线91| 尤物精品国产福利网站| 欧美亚洲第一页| 农村乱人伦一区二区| 久久五月天国产自| 欧美一级一级做性视频| 欧美亚洲欧美| 操操操综合网| 亚洲视频四区| 欧美日韩一区二区在线播放 | 欧美亚洲日韩不卡在线在线观看| 欧美视频二区| 国产成人禁片在线观看| 日韩精品资源| 亚洲日韩精品综合在线一区二区| 国产亚洲欧美日韩在线一区二区三区| 国产特级毛片aaaaaaa高清| 亚洲无码37.| 国产农村精品一级毛片视频| 少妇精品在线| 日韩黄色大片免费看| 亚国产欧美在线人成| 国产精品免费电影| 国产91小视频| 中国成人在线视频| 97视频免费看| 久久精品无码中文字幕|