999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

MetaCCA在多元表型與基因型相關(guān)分析中的應(yīng)用

2019-01-31 02:41:06賈曉燦楊永利施學(xué)忠
關(guān)鍵詞:分析

賈曉燦,楊永利,王 威,施學(xué)忠

1)鄭州大學(xué)公共衛(wèi)生學(xué)院衛(wèi)生統(tǒng)計(jì)學(xué)教研室 鄭州 450001 2)鄭州大學(xué)公共衛(wèi)生學(xué)院勞動(dòng)衛(wèi)生與職業(yè)病學(xué)教研室 鄭州 450001

過去十幾年,全基因組關(guān)聯(lián)分析(genome-wide association study, GWAS)在識(shí)別疾病的常見變異方面取得了巨大進(jìn)展,但越來越多的研究[1-2]結(jié)果表明罕見變異在復(fù)雜疾病的發(fā)生發(fā)展中同樣起著很大作用。單位點(diǎn)分析的GWAS忽略了不同表型之間的相關(guān)信息,因此不能有效識(shí)別復(fù)雜疾病中的罕見變異。MetaCCA也稱Summary statistics-based multivariate meta-analysis of genome-wide association studies using canonical correlation analysis[3],是利用典型相關(guān)分析(canonical correlation analysis, CCA)的原理,對(duì)GWAS的匯總統(tǒng)計(jì)結(jié)果進(jìn)行分析,以探討多個(gè)疾病表型與基因型之間的關(guān)系,從而為研究疾病的發(fā)病機(jī)制提供依據(jù)[3-6]。該文將重點(diǎn)介紹metaCCA的原理和實(shí)現(xiàn),并探討其在多元表型與基因型相關(guān)分析中的應(yīng)用前景。

1 MetaCCA簡(jiǎn)介

1.1MetaCCA的提出2005年Klein等[7]在Science雜志上首次報(bào)道了視網(wǎng)膜黃色雀斑的GWAS結(jié)果,并發(fā)現(xiàn)一個(gè)與視網(wǎng)膜黃色雀斑有顯著關(guān)聯(lián)的基因。此后,一系列針對(duì)人類復(fù)雜疾病或性狀的GWAS相繼開展,在肥胖、高血壓、高血脂、心血管系統(tǒng)疾病、腫瘤、神經(jīng)精神類疾病等諸多疾病方面取得了突飛猛進(jìn)的研究成果[8-10]。GWAS逐漸成為識(shí)別疾病遺傳變異最常用的方法,為眾多疾病的基因診斷及個(gè)體化治療提供了理論基礎(chǔ)。

GWAS是一種單因素分析方法,它只能分析一個(gè)單核苷酸多態(tài)性(single-nucleotide polymorphism,SNP)與一個(gè)表型之間的關(guān)系,忽略了多個(gè)SNP之間的內(nèi)部關(guān)聯(lián)性以及復(fù)雜疾病中多個(gè)表型之間的相關(guān)性,因此檢驗(yàn)效能有限[11-12]。隨著海量測(cè)序數(shù)據(jù)、基因表達(dá)數(shù)據(jù)、多維數(shù)據(jù)以及多元表型復(fù)雜疾病的出現(xiàn),GWAS的局限性也越來越凸顯。此外,GWAS分析的數(shù)據(jù)需要具體到個(gè)體水平上,由于個(gè)體水平上的測(cè)序成本高而且數(shù)據(jù)需保密,因此目前僅有部分GWAS的匯總結(jié)果得以公開。如何基于公開發(fā)表的GWAS匯總統(tǒng)計(jì)的數(shù)據(jù)庫(kù)識(shí)別復(fù)雜疾病中的罕見變異,已成為目前基因組學(xué)研究面臨的主要問題[13]。2015年,Cichonska等[3]首次在《Bioinformatics》雜志上提出metaCCA的方法。CCA是一種分別提取自變量集與因變量集的最大主成分,通過兩個(gè)主成分的相關(guān)關(guān)系推測(cè)自變量集與因變量集之間的相關(guān)關(guān)系的方法[14]。MetaCCA是對(duì)公開發(fā)表的GWAS的匯總結(jié)果進(jìn)行整理,利用傳統(tǒng)統(tǒng)計(jì)方法CCA,檢測(cè)多個(gè)SNP與多個(gè)疾病表型之間的關(guān)系。

1.2MetaCCA的優(yōu)點(diǎn)與傳統(tǒng)的GWAS相比,metaCCA有如下優(yōu)點(diǎn)。首先,metaCCA將多個(gè)GWAS結(jié)果匯總在一起,增大了樣本量,提高了檢驗(yàn)效能。其次,metaCCA利用的是已公開發(fā)表的GWSA數(shù)據(jù),不需要個(gè)體水平上的測(cè)序,是一個(gè)成本-效益較高的方法。最后,metaCCA借助于CCA的原理,既考慮到了基因型之間的內(nèi)部關(guān)聯(lián)性,又考慮到了疾病表型之間的相關(guān)性。而傳統(tǒng)的檢驗(yàn)多元表型與基因型相關(guān)性的方法是逐個(gè)對(duì)表型單之間與基因關(guān)聯(lián)性進(jìn)行檢驗(yàn),然后采用多重檢驗(yàn)校正。然而同一疾病的多元表型之間往往具有相關(guān)性,基于單個(gè)表型與基因型的關(guān)聯(lián)性分析難以全面揭示遺傳與復(fù)雜疾病的聯(lián)系[15]。利用多元表型變量間的相關(guān)性,從多元表型變量中提取類似主成分因子的策略進(jìn)行相關(guān)分析,是識(shí)別復(fù)雜疾病中罕見變異的有效方法[16]。

2 模型建立與實(shí)現(xiàn)

①∑XY由單個(gè)SNP與單個(gè)表型變量的回歸系數(shù)β的矩陣組成,β可由單變量GWAS的匯總統(tǒng)計(jì)結(jié)果獲得,其表達(dá)式為:

式(2)中,g為基因型變量個(gè)數(shù),一般為SNP個(gè)數(shù);p為表型變量個(gè)數(shù)。

需要注意的是,X和Y應(yīng)標(biāo)準(zhǔn)化轉(zhuǎn)換后才可以帶入計(jì)算,其標(biāo)準(zhǔn)化公式為:

式(3)中,N為樣本量,SEgp為βgp的標(biāo)準(zhǔn)誤,也可以由單變量的GWAS匯總統(tǒng)計(jì)結(jié)果獲得。

經(jīng)過以上步驟可得出總協(xié)方差矩陣,在將此協(xié)方差導(dǎo)入CCA模型之前,需要先判斷總協(xié)方差矩陣是否為半正定矩陣(positive semidefinite,PSD)。當(dāng)不滿足PSD時(shí),需要使用迭代方法對(duì)矩陣進(jìn)行降維,直至滿足PSD。此后,將總協(xié)方差矩陣進(jìn)行CCA,計(jì)算基因型與表型之間的典型相關(guān)系數(shù)r:

2.3軟件實(shí)現(xiàn)及程序包MetaCCA主要通過Plink軟件(http://zzz.bwh.harvard.edu/plink/download.shtml)及R中的metaCCA包(https://github.com/MoisesExpositoAlonso/metaCCA)實(shí)現(xiàn)。假設(shè)將原始GWAS匯總統(tǒng)計(jì)結(jié)果整理后得到一個(gè)樣本量為n、含1 000個(gè)SNP和10個(gè)性狀的數(shù)據(jù)集S_XY_full_study,則metaCCA的軟件實(shí)現(xiàn)過程如下:

plink2 --file hapmap3 --extract SNP_id --keep CEU_hapmap --r2 inter-chr with-freqs --ld-window-r2 0 --make-bed --out uppro

S_YY=estimateSyy(S_XY=S_XY_full_study)

輸出結(jié)果為10×10的相關(guān)系數(shù)矩陣。

③利用metaCCA包中的metaCcaGp函數(shù)進(jìn)行單個(gè)SNP(以rs123為例)與10個(gè)表型之間的相關(guān)分析,輸入數(shù)據(jù)為S_XY_full_study,代碼為:

result=metaCcaGp( nr_studies=1),

S_XY=list(S_XY_full_study),

std_info=0,

S_YY=list(estimateSyy(S_XY_full_study)),

N=n,

analysis_type=1,

SNP_id=(′rs123′)

輸出結(jié)果有三列,分別為“rs123”“典型相關(guān)系數(shù)r”和“-Log10P”

④假設(shè)rs123、rs125和rs127分布在基因A上,利用metaCCA包中的metaCcaGp函數(shù)進(jìn)行基因A與10個(gè)表型之間的相關(guān)分析。輸入數(shù)據(jù)為S_XX_study和S_XY_full_study,代碼為:

result=metaCcaGp(nr_studies=1),

S_XY=list(S_XY_full_study),

std_info=0,

S_YY=list(estimateSyy(S_XY_full_study)),

N=n,

analysis_type=2,

SNP_id=c(′rs123′,′125′,′rs127′),

S_XX=list(S_XX_study)

輸出結(jié)果有3列,分別為“rs123、rs125和rs127”(即基因A)、“典型相關(guān)系數(shù)r”和“-Log10P”。

3 MetaCCA在醫(yī)學(xué)中的應(yīng)用

3.1血脂水平相關(guān)基因的識(shí)別Cichonska等[3]利用3個(gè)芬蘭人群9個(gè)血脂表型的數(shù)據(jù)進(jìn)行了metaCCA分析并與個(gè)體水平上的GWAS和CCA結(jié)果進(jìn)行對(duì)比,納入的SNP有455 521個(gè)。與單變量GWAS結(jié)果相比,metaCCA的檢驗(yàn)效能較高。比如GWAS結(jié)果顯示USP1/DOCK7和FCGR2A/3A/2C/3B兩個(gè)區(qū)域的SNP與血脂水平相關(guān)(P<5×10-8);通過metaCCA進(jìn)一步驗(yàn)證了此結(jié)果,而且發(fā)現(xiàn)了位于PCSK9/BSND、CELSR2和GALNT2基因區(qū)域的位點(diǎn)?;蛩缴系姆治鲞x擇了5個(gè)基因,包括APOE、CETP、GCKR、PCSK9和NOD2,其中APOE、CETP、GCKR和 PCSK9已經(jīng)被之前的研究證實(shí)和血脂水平相關(guān),而NOD2未見報(bào)道。與個(gè)體水平上的CCA相比,metaCCA的結(jié)果比較準(zhǔn)確,所選擇的5個(gè)基因中,有4個(gè)基因結(jié)果的絕對(duì)誤差不超過0.2。

3.2精神疾病共有風(fēng)險(xiǎn)基因的識(shí)別精神疾病是一類以感知和認(rèn)知障礙導(dǎo)致行為、意志和情緒異常的復(fù)雜疾病。常見的精神疾病有精神分裂癥、雙相情感障礙、抑郁癥、孤獨(dú)癥和注意缺陷多動(dòng)癥[18]。從血液樣品中抽提出患者全基因組DNA,使用群體遺傳學(xué)知識(shí)和統(tǒng)計(jì)推斷技術(shù)尋找與疾病相關(guān)的遺傳變異,是研究復(fù)雜精神疾病遺傳變異的主要途徑[19]。已有的GWAS和生物通路分析均顯示這幾種常見精神疾病之間存在共有的遺傳風(fēng)險(xiǎn)位點(diǎn)和生物路徑[20-21]。本課題組[22-23]利用metaCCA對(duì)美國(guó)精神病學(xué)基因組學(xué)聯(lián)盟(Psychiatric Genomics Consortium,PGC,網(wǎng)址: http://www.med.unc.edu/pgc/)的數(shù)據(jù)進(jìn)行了統(tǒng)計(jì)分析,共發(fā)現(xiàn)37個(gè)多態(tài)性基因,其中13個(gè)已被報(bào)道與多種精神疾病相關(guān),4個(gè)被報(bào)道僅與一種精神疾病相關(guān),另有20個(gè)為新發(fā)現(xiàn)的基因。此外,基因功能富集分析結(jié)果顯示,這37個(gè)基因與黃素腺嘌呤二核苷酸結(jié)合、電壓門控鈣通路等多個(gè)路徑相關(guān)。這些被發(fā)現(xiàn)的基因?yàn)榫窦膊〉陌l(fā)病機(jī)制研究提供了線索。

4 MetaCCA的局限和挑戰(zhàn)

MetaCCA在多元表型與基因型數(shù)據(jù)關(guān)聯(lián)分析方面的應(yīng)用,很大程度上增強(qiáng)了人們對(duì)復(fù)雜疾病遺傳機(jī)制的理解,對(duì)于復(fù)雜疾病的預(yù)防、治療有較大的實(shí)際意義,但是,也存在一定的局限性。首先,metaCCA主要依賴統(tǒng)計(jì)分析,因此可能會(huì)出現(xiàn)假陽性結(jié)果,尤其是在基因和通路水平上,容易出現(xiàn)某個(gè)SNP和多個(gè)表型強(qiáng)相關(guān)而導(dǎo)致該SNP所在的基因或通路有意義,此時(shí)就需要其他基因水平的統(tǒng)計(jì)方法或多元統(tǒng)計(jì)方法對(duì)metaCCA的結(jié)果進(jìn)行篩選,或者結(jié)合基因功能分析結(jié)果綜合下結(jié)論。其次,metaCCA需要將多個(gè)GWAS結(jié)果整合在一起,而原有的GWAS選取的參照數(shù)據(jù)庫(kù)模板、最小等位基因頻率等處理因素可能不同,在數(shù)據(jù)篩選過程中,需控制或降低這些混雜因素的影響以及避免幾個(gè)研究之間樣本的重復(fù)。再次,metaCCA的核心思想是CCA,而CCA在納入變量時(shí)需要對(duì)原始變量進(jìn)行篩選,當(dāng)同一組內(nèi)的變量存在較強(qiáng)相關(guān)關(guān)系時(shí),一般建議刪除其中一個(gè)變量或?qū)⒆兞亢喜?,以得到更加合理的模型。因此,?duì)于metaCCA納入的基因型變量應(yīng)通過連鎖不平衡或線性模型等方法進(jìn)行篩選;對(duì)于表型變量,不僅要考慮臨床癥狀的相似性、生物路徑的相同性,還要考慮各變量之間相關(guān)性的強(qiáng)弱。最后,metaCCA的結(jié)果只能表明基因型與表型之間有無統(tǒng)計(jì)學(xué)關(guān)聯(lián),其生物學(xué)機(jī)制還需實(shí)驗(yàn)研究來證實(shí)。

5 小結(jié)

目前,對(duì)于metaCCA的研究雖處于起步階段,但已經(jīng)為人類復(fù)雜性遺傳疾病以及高維數(shù)據(jù)的研究打開了一扇大門。該方法具有高通量、低成本、不涉及候選基因等優(yōu)點(diǎn),是目前分析多元表型與基因型相關(guān)關(guān)系的有效途徑,也可應(yīng)用于基因組學(xué)、蛋白質(zhì)組學(xué)等方面的研究,從而為人類了解復(fù)雜性疾病的發(fā)病機(jī)制提供更多的線索,但其理論和方法還需在應(yīng)用中進(jìn)一步完善。

猜你喜歡
分析
禽大腸桿菌病的分析、診斷和防治
隱蔽失效適航要求符合性驗(yàn)證分析
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
經(jīng)濟(jì)危機(jī)下的均衡與非均衡分析
對(duì)計(jì)劃生育必要性以及其貫徹實(shí)施的分析
GB/T 7714-2015 與GB/T 7714-2005對(duì)比分析
出版與印刷(2016年3期)2016-02-02 01:20:11
網(wǎng)購(gòu)中不良現(xiàn)象分析與應(yīng)對(duì)
中西醫(yī)結(jié)合治療抑郁癥100例分析
偽造有價(jià)證券罪立法比較分析
主站蜘蛛池模板: 99er精品视频| 综合色88| 久热这里只有精品6| 久久久久夜色精品波多野结衣| 国产一区二区三区在线观看免费| 亚洲无码不卡网| 宅男噜噜噜66国产在线观看| 国产精品亚洲一区二区三区在线观看| 亚洲国产午夜精华无码福利| 欧洲av毛片| 亚洲无码免费黄色网址| 在线国产91| 91人妻在线视频| 992Tv视频国产精品| 任我操在线视频| 亚洲精品无码久久久久苍井空| 国产日韩欧美视频| 精品国产www| 欧美成人综合在线| 欧美成人精品一区二区 | 久久国产精品国产自线拍| 国产美女免费| 日韩欧美在线观看| 精品福利国产| 无码网站免费观看| 亚洲人在线| 91免费观看视频| 亚亚洲乱码一二三四区| 国产高清在线精品一区二区三区 | 亚洲狠狠婷婷综合久久久久| 亚洲精品国产成人7777| 秋霞国产在线| 狠狠色综合久久狠狠色综合| 亚洲综合极品香蕉久久网| 亚洲国产午夜精华无码福利| 亚洲爱婷婷色69堂| 亚洲天堂免费| 亚洲色图另类| 日韩毛片基地| 99精品国产电影| 久久无码av一区二区三区| 91毛片网| 亚洲成人在线网| 一级毛片免费的| 日本a级免费| 99成人在线观看| 在线日韩一区二区| 日日拍夜夜嗷嗷叫国产| 一本视频精品中文字幕| 永久免费AⅤ无码网站在线观看| 日韩精品无码免费一区二区三区 | 欧美不卡视频在线| 国产精品天干天干在线观看| 国产成人免费视频精品一区二区| 亚洲天堂免费| 免费毛片在线| 91在线精品麻豆欧美在线| 夜夜拍夜夜爽| 亚洲人成日本在线观看| 亚洲精品午夜天堂网页| 国产成本人片免费a∨短片| 91小视频在线| 超清无码熟妇人妻AV在线绿巨人| 亚洲人网站| 无码专区在线观看| 一级毛片视频免费| 亚洲嫩模喷白浆| 高清国产va日韩亚洲免费午夜电影| 亚洲国产91人成在线| 国产91麻豆视频| 伦伦影院精品一区| 又大又硬又爽免费视频| 日本精品中文字幕在线不卡| 国产精品成人啪精品视频| 国产真实乱了在线播放| 国产成人成人一区二区| 伊人久久福利中文字幕| 日韩在线欧美在线| 国产美女精品一区二区| 国产成人综合久久精品下载| 狠狠色综合网| 99精品伊人久久久大香线蕉|