阮培峰
(復旦大學計算機科學學院 上海 200433)
?
家系數據中罕見基因變異與疾病關聯分析的統計方法
阮培峰△
(復旦大學計算機科學學院上海200433)
【摘要】目的提出一種適應家系數據的序列核關聯檢驗(sequence kernel association test,SKAT)模型,以提高家系數據中檢驗罕見變異的統計模型的功效。方法提出一種適應家系數據的SKAT模型(adjusted SKAT,ADSKAT),通過對SKAT的原模型進行修改,加入表示家系結構的隨機作用向量,使得家系數據中親屬相關性的影響被考慮進模型,并且得出新的檢驗統計量對應的概率分布。結果在家系數據中,ADSKAT不僅有效地控制了一類錯誤的增長,并且比現有的識別罕見變異的GWAS統計模型有著更高的統計功效。結論ADSKAT是一種在家系數據中識別與疾病關聯的罕見變異的統計模型,具有廣泛的應用前景。
【關鍵詞】罕見基因變異;全基因組關聯分析 (GWAS);家系數據
全基因組關聯分析(genome-wide association study,GWAS)自從2005年被首次應用以來,已經發現并證實了超過2 000個與疾病或者性狀關聯的基因位點[1]。然而,通過GWAS識別的常見基因變異通常只能解釋一小部分的疾病成因和性狀遺傳。而罕見變異通常指等位基因頻率小于0.1%~1%的變異,在疾病和性狀的遺傳中可以起到非常重要的作用。常規的GWAS只對單個SNP進行檢驗,這樣的方法對罕見基因變異的檢驗就顯得效力不足[2]。針對這個問題,一些新方法被提出,比如Morgenthaler等在2007年[3]、Madsen等在2009年[4]以及Morris等在2010年[5]提出的負荷檢驗。這些方法將在事先定義的基因區域(例如基因,通路等)中所有罕見基因變異的信息壓縮成一個單一的變量,進而進行檢驗。但這些負荷檢驗都存在一些缺陷,它們均預設所有的罕見基因變異的作用方向和作用程度都是一致的。然而事實上,同一區域的不同變異的作用方向和程度往往是不同的。這樣就在負荷檢驗中導致了不必要的干擾,從而導致了檢驗效力的減弱。一些改進后的負荷檢驗,如Han等[6]、Hoffman等[7]以及Zawistowski等[8]在2010年提出的改進模型,它們不預設所有的罕見基因變異的作用方向和程度是相同的。但這些方法都引入了置換檢驗,用以檢驗統計顯著性。然而,置換檢驗對計算能力帶來了極大的挑戰,尤其是在全基因組層面上進行的檢驗。
Wu等[9]在2011年提出了序列核關聯檢驗(sequence kernel association test,SKAT)。這是一種基于回歸分析的用以檢驗罕見基因變異的方法,具有應用靈活及計算效率高等優點。SKAT對于基因變異的方向及作用程度沒有任何預設,同時,不同于使用置換檢驗的方法,SKAT可以解析地得出檢驗的P值。SKAT既可以對連續的表型進行關聯分析檢驗,也可以對二分的表型進行關聯分析檢驗。仿真數據實驗和真實數據實驗已經證明,SKAT比傳統的負荷檢驗有著更高的檢驗功效。
在致病基因的連鎖分析中,對于家系數據的研究是一種常見的研究手段[10-12]。然而,不加處理地將GWAS方法直接應用于家系數據中,比如常規的一般線性回歸、Logistic回歸或是SKAT,由于對家系數據中個體間的相關性的忽視,將導致統計檢驗中一類錯誤的增長。
本文中,ADSKAT通過對SKAT中假設檢驗的原假設進行修改,使得假設檢驗的原假設中包括家系結構對表型產生的影響,進而得出新的檢驗統計量對應的概率分布。ADSKAT的基本原理依然與SKAT一致,當不存在家系結構時,ADSKAT和SKAT是相同的。正因如此,ADSKAT和SKAT有著同樣高度的靈活性。無需置換檢驗也使得ADSKAT有著較高的計算效率。
通過在仿真數據的實驗可以看到,當沒有考慮家系數據中家系結構的關系時,SKAT中出現了統計檢驗一類錯誤增長的問題。相對地,ADSKAT并不受此種問題的困擾,一類錯誤一直控制在正常的范圍內。同時,在家系數據中,ADSKAT相對于SKAT方法也有著更高的檢驗功效。因而,在家系數據中檢驗與疾病關聯的罕見基因變異時候,ADSKAT是一種更為準確高效的方法。
資 料 和 方 法
假設有n個個體,在某個遺傳區域中有p個變異位點。對于第i個個體,yi表示其表型變量,Xi=(xi1,xi2,…,xim)表示協變量,Gi=(gi1,gi2,…,gip)表示在遺傳區域內p個變異位點的基因型。于是,對于連續型的表型,考慮如下半參數模型:
(1)
對于二分的表型,考慮一下如下半參數Logistic模型:
(2)
其中,α0為截距,α=[α1,α2,…,αm]′是協變量的回歸系數,f是一個半參數方程,由表達定理(representer therorem)[13],f可以由半正定核函數K決定:
函數K度量了第i個和第i′個個體間同一區域中p個變異的相似程度。理論上,任意一個半正定的函數K都可以用來當做這個核函數。若假設基因作用為線性,可以選擇線性核函數K,則:
則式(1)和式(2)分別可以表示為:
為檢驗罕見變異是否和疾病關聯,考慮原假設:f(Gi)=0。Liu等[14]在2008年闡明了核回歸和廣義線性混合模型之間的關系。令K為一個n×n的矩陣,第(i,j)個元素為K(Gi,Gj)。可以發現,f=Kγ,其中,f=[f1,f2…fn]′,則f可以被視為個體的隨機效應,服從任意均值為0、方差為τK的分布。注意到τ決定了罕見變異的效應,由此,H0:f(Gi)=0與H0:τ=0等價。參考既往文獻[15],檢驗H0:τ=0的統計量為:
另外,青海探索將繳存住房公積金事宜納入勞動合同、聘用合同文本正式條款,為自主繳存人員依法繳存住房公積金提供有力保障。同時,建立健全不繳、欠繳住房公積金“黑名單”制度,將未按規定建立住房公積金制度或拖欠繳納住房公積金的單位予以曝光,并納入人民銀行征信系統和政府信用信息平臺,對失信主體實施聯合懲戒。

適應家系數據的SKAT改進方法(adjustedSKAT,ADSKAT)在處理家系數據時,由于SKAT沒有將家系結構中個體的關聯性考慮進模型中,這樣的忽略會造成統計檢驗中一類錯誤的增長。為了避免這樣的問題出現,一個直觀的想法是,將由于家系結構而造成的影響包括進統計檢驗的原假設中,那么,通過拒絕原假設而得到的關聯基因,就不再受到家系結構中的相關性的影響,從而避免了一類錯誤的增長。
首先,以性狀為連續時為例,我們考慮在原半參數模型中加入表示家系結構的隨機作用的項ξ:
(3)
φ為表示家系關系的親屬關系矩陣(Kinship Matrix)。
此時,表型變量yi的方差為:
此時原假設變為:
此時,使用文獻[9]中相同的計算方法,統計檢驗量依然使用:
Q所服從的概率分布變為:

當性狀為二分的時,只要將線性模型變為Logistic模型即可:
基于家系數據的負荷檢驗為了進一步檢驗ADSKAT的檢驗功效,我們還將ADSKAT與另一種新穎的罕見變異關聯分析的方法(Family-basedrarevariantassociationtest,FARVAT)進行了比較。家系數據中,FARVAT的使用負荷檢驗結合方差組分檢驗,在家系數據中對罕見變異的檢驗獲得了良好的效果[16]。
數據集本文采用基因分析研討會(geneticsanalysisworkshop)發布的高血壓全基因組測序數據集(http://www.gaworkshop.org/gaw18/index.html)。數據集中包含來自20個家系的849人的血壓、年齡、性別以及他們的全基因組測序數據。全基因組測序中包含20萬個變異位點。在其發布的由此數據得到的仿真數據中,性別、年齡等協變量保持不變,血壓表型即舒張壓(DBP)和收縮壓(SBP)則按照真實數據中的遺傳可能性進行模擬,同時,模擬的DBP和SBP也因性別、年齡的不同而異。最后,根據淋巴細胞中的基因表達情況和血壓表型的關聯系數,選出了表型仿真數據中的功能基因。數據中共包含200份仿真數據。
結果
一類錯誤ADSKAT和SKAT在不同的顯著性水平下的經驗一類錯誤(empiricaltypeIerror)結果顯示(表1),如果直接將SKAT應用于存在家系結構的數據中,由于SKAT沒有考慮家系中個體的相關性,在各個顯著性水平下,一類錯誤都出現了增長的問題。相對應地,將家系結構考慮進模型的ADSKAT和FARVAT都很好地控制了一類錯誤的增長。

表1 不同的顯著性水平下ADSKAT、SKAT和
另外,如圖1所示,ADSKAT和FARVAT的P值基本服從均勻分布,但SKAT的P值分布中,越小的P值頻率越高,從中也可以部分解釋為什么SKAT會出現一類錯誤增長的結果。
檢驗功效我們分別對模擬數據中的SNPs的作用方向進行假設,在第一種情況下,80%的SNPs有著正效應,20%的SNPs有著負效應;在第二種情況下,50%的SNPs有著正效應,50%的SNPs有著 負效應;在第三種情況下,20%的SNPs有著正效應,80%的SNPs有著負效應。如表2所示,在3種假設情況下,通過對200個模擬數據集分別應用ADSKAT、SKAT和FARVAT,在顯著水平為0.05下得到的經驗檢驗功效都顯示,ADSKAT有著最高的檢驗功效。可以發現,DSKAT在控制了一類錯誤增長的同時,檢驗功效高于SKAT和FARVAT。在對存在家系結構的數據進行基因組關聯研究時,ADSKAT是一種更準確的檢驗罕見變異和疾病關聯的方法。
ADSKAT and FARVAT control the type I error well while SKAT suffers the inflation of type I error.
圖1ADSKAT、SKAT以及FARVAT的模擬數據試驗中SNPs的P值分布
Fig 1Distribution of ADSKAT,SKAT and FARVAT’sP-values in simulation

表2 模擬數據中應用ADSKAT、SKAT和FARVAT
Under all three scenarios,ADSKAT shows the highest empirical statistical power;both ADSKAT and FARVAT perform better than SKAT as they consider the pedigree structure in their models.
討論
本文提出了一種改進后的SKAT方法即ADSKAT,用以檢驗家系數據中和疾病或某些性狀相關聯的罕見基因變異。我們證明了ADSKAT是一種通用的進行罕見基因變異關聯分析的方法。當不存在家系結構時,ADSKAT和SKAT是等價的。正因如此,ADSKAT也繼承了SKAT靈活且計算效率較高的優點。
在仿真b實驗中,我們證明了在相互相關的數據中直接應用SKAT會導致一類錯誤的增長。這時,如果要使用SKAT,只能將相關的數據刪除,只對獨立的數據進行關聯分析。然而,這樣顯然會無謂地失去許多有用的信息,同時樣本量的減少也會導致檢驗功效的降低。相對地,應用ADSKAT并不需要減少樣本量。ADSKAT在控制一類錯誤的增長的同時,也有著較高的檢驗功效。可見,在檢驗罕見基因變異與疾病的關聯時,ADSKAT是一種更好的選擇。
盡管ADSKAT是為了進行罕見基因變異關聯分析而設計的,但它依然可以用來檢驗常見基因變異與疾病的關聯,或者同時進行常見/罕見基因變異的關聯分析。對于常見基因變異,我們可以將之視為(3)式中的固定效應,或者與罕見變異一起作為隨機效應來檢驗。
通過對權重的選擇,可以進一步提高ADSKAT檢驗的功效。
參考文獻
[1]VISSCHER PM,BROWN MA,MC CARTHY MI,etal.Five years of GWAS discovery[J].AmJHumGenet,2012,90(1):7-24.
[2]SCHORK NJ,MURRAY SS,FRAZER KA,etal.Common vs.rare allele hypotheses for complex diseases[J].CurrOpinGenetDev, 2009,19(3):212-219.
[3]MORGENTHALER S,THILLY WG.A strategy to discover genes that carry multi-allelic or mono-allelic risk for common diseases:a cohort allelic sums test (CAST)[J].MutatRes, 2007,615(1-2):28-56.
[4]MADSEN BE,BROWNING SR.A groupwise association test for rare mutations using a weighted sum statistic[J].PLoSGenet,2009,5(2):e1000384.
[5]MORRIS AP,ZEGGINI E.An evaluation of statistical approaches to rare variant analysis in genetic association studies[J].GenetEpidemiol,2010,34(2):188-193.
[6]HAN F,PAN W.A data-adaptive sum test for disease association with multiple common or rare variants[J].HumHered,2010,70(1):42-54.
[7]HOFFMANN TJ,MARINI NJ,WITTE JS.Comprehensive approach to analyzing rare genetic variants[J].PLoSOne,2010,5(11):e13584.
[8]ZAWISTOWSKI M,GOPALAKRISHNAN S,DING J,etal.Extending rare-variant testing strategies:analysis of noncoding sequence and imputed genotypes[J].AmJHumGenet,2010,87(5):604-617.
[9]WU MC,LEE S,CAI T,etal.Rare-variant association testing for sequencing data with the sequence kernel association test[J].AmJHumGenet,2011,89(1):82-93.
[10]FALK CT,RUBINSTEIN P.Haplotype relative risks:an easy reliable way to construct a proper control sample for risk calculations[J].AnnHumGenet,1987,51(3):227-233.
[11]OTT J.Statistical properties of the haplotype relative risk[J].GenetEpidemiol,1989,6(1):127-130.
[12]TERWILLIGER JD,OTT J.A haplotype-based haplotype relative risk’ approach to detecting allelic associations[J].HumHered,1992,42(6):337-346.
[13]KIMELDORF G,WAHBA G.Some results on Tchebycheffian spline functions[J].JMathAnalAppl,1971,33(1):82-95.
[14]LIU D,GHOSH D,LIN X.Estimation and testing for the effect of a genetic pathway on a disease outcome using logistic kernel machine regression via logistic mixed models[J].BMCBioinformatics,2008,9(1):292.
[15]ZHANG D,LIN X.Hypothesis testing in semiparametric additive mixed models[J].Biostatistics,2003,4(1):57-74.
[16]CHOI S,LEE S,CICHON S,etal.FARVAT:a family-based rare variant association test[J].Bioinformatics, 2014,30(22):3197-3205.
A statistical method for rare variants association studies in pedigree data
RUAN Pei-feng△
(SchoolofComputerScience,FudanUniveristy,Shanghai200433,China)
【Abstract】ObjectiveTo propose an adjusted sequence kernel association test (SKAT) model in order to identify rare variants for pedigree data which has higher statistical power.MethodsIn this paper,we proposed a SKAT model fitting pedigree data (ADSKAT).The SKAT model was modified by adding a random effect vector of pedigree structure into the model.Thus the influence of kinship correlation was taken into consideration in the new model.A new distribution of test statistics was defined.ResultsSimulations demonstrated that ADSKAT well controlled the inflation of type I error and achieved better statistical power than the existed mainstream methods for identifying disease-related rare variants.ConclusionsADSKAT has broad application prospects in the fields of identifying disease related rare variants in pedigree data.
【Key words】rare variants;genome-wide association study;pedigree data
(收稿日期:2015-10-12;編輯:張秀峰)
【中圖分類號】TP399,R181.2+3
【文獻標識碼】A
doi:10.3969/j.issn.1672-8467.2016.02.018
△Corresponding authorE-mail:pruan12@fudan.edu.cn