第二軍醫大學衛生統計學教研室 (200433)
宋嘉麒 金志超△ 賀 佳△
基因-疾病關聯研究常利用單核苷酸多態性(single nucleotide polymorphisms,SNPs)篩查與疾病相關的基因突變位點,然而由于樣本量和統計效能的問題,常常導致假陰性,利用meta分析對原始研究進行定量合并,能夠有效地提高統計效能。
在進行基因-疾病關聯研究meta分析時,常常遇到遺傳模型的假定問題。遺傳模型的假定問題既存在于原始文獻中,也存在于meta分析定量合并時。如果原始文獻中研究者主觀地進行了遺傳模型的假定,如假定為顯性或者隱形遺傳模型,在其結果中有可能只給出特定遺傳模型下的效應量(OR值),從而使meta分析作者無法同時獲得三種基因型的頻數,最終導致其在定量合并時也不得不采用原始文獻中的遺傳模型,或者將該研究剔除。Minelli,Salanti等人對遺傳模型的假定問題進行了較為深入的研究[1-2]。Salanti等人的研究已經能夠較好的處理上述兩種遺傳模型假定的情況[2],利用貝葉斯方法分析遺傳模型假定而存在的基因型合并問題。但是在實際研究當中,由于Salanti等人提出的貝葉斯方法較為復雜,且對于常用的回顧性似然未提供代碼(回顧性似然更適合采用病例對照研究的基因-疾病關聯研究[3]),使得此方法在實際應用中使用的并不廣泛。同時,Salanti等人在其研究中并未對遺傳模型的選擇提供結論。
本研究將在Minelli和Salanti等人研究的基礎上,利用回顧性似然和貝葉斯方法處理基因-疾病關聯研究meta分析中存在的原始文獻基因型合并的問題,構建一個遺傳模型選擇指示概率,以數據驅動估計各種典型遺傳模型存在的相應概率,最后提供相應的JAGS代碼和R代碼用以實現上述過程,為其他類似研究提供方法學支持。
常見的進行基因關聯研究的原始文獻會提供如表1所示的病例組和對照組的三種基因型的頻率,假定三種基因型分別時AA、Aa和aa。

表1 常見基因關聯研究的數據表現形式
表1中cni(n=1,2,3)表示納入的某原始研究病例組三種基因型頻率,病例組樣本量為ci,tni(n=1,2,3)為對照組三種基因型頻率,對照組樣本量為ti。病例組和對照組基因型頻率服從多項分布,可用(1)式和(2)式表示:
(1)
(2)


(3)
式中系數λ表示遺傳模型,λ=0表示隱性遺傳模型,λ=0.5表示共顯性遺傳模型,λ=1表示顯性遺傳模型。式(3)是在病例組和對照組所有基因型都可以從納入文獻中獲取的情況下使用,但在納入的原始文獻中,作者在分析時有可能對遺傳模型進行假定,得到的是一個對基因型頻數進行合并了的四格表,如表2所示。

表2 假定遺傳模型下合并基因型的基因關聯研究數據表現形式

(4)
在估計φi時,假設感興趣的等位基因A的頻率為κi,根據哈代-溫伯格平衡(Hardy-Weinberg equilibrium),φi=2(1-κi)/(2-κi)。相比利用極大似然估計等方法,貝葉斯方法在估計合并效應量θ時更方便,能夠方便地借助外部信息,如哈代-溫伯格平衡。
實例數據來自Huang等發表的關于ACE I/D基因多態性與腎移植預后關系的系統綜述[4],本實例選取了腎移植所致的急慢性排斥反應,共納入11項研究,其中9項提供了完全的基因型頻數,2個研究存在合并的基因型頻數(II和ID基因型存在合并)[5-6],其基本信息如表3所示。

表3 ACE I/D基因多態性對腎移植所致的急慢性排斥反應納入文獻基本信息
本研究采用貝葉斯常用軟件JAGS,并利用R軟件中的R2jags包調用執行。由于文章篇幅所限,本例中只提供關鍵的JAGS代碼,R代碼可通過郵件向通訊作者索取。JAGS完整代碼如下:
model{
#Complete studies
for(i in 1:9){
#Multinomial Likelihoods.matrix ′ca′ and ′co′ is 9*3
ca[i,1:3]~dmulti(p.case[i,1:3],tcase[i])
co[i,1:3]~dmulti(p.cont[i,1:3],tcont[i])
# 公式(3)
sum1[i]<-p.cont[i,1]+exp(lambda*theta[i])*p.cont[i,2]+exp(theta[i])*p.cont[i,3]
p.case[i,1]<-p.cont[i,1]/sum1[i]
p.case[i,2]<-exp(lambda*theta[i])*p.cont[i,2]/sum1[i]
p.case[i,3]<-exp(theta[i])*p.cont[i,3]/sum1[i]
for(k in 1:3){
p.cont[i,k]~dunif(0,1)
}
}
#Merged studies
for (i in 1:2){
#Multinomial Likelihoods.matrix ′ca.merg′ and ′co.merg′ is 9*2
ca.merg[i,1:2]~dmulti(p.casemerg[i,1:2],ca.n.merge[i])
co.merg[i,1:2]~dmulti(p.contmerg[i,1:2],co.n.merge[i])
#公式(4)
p.contr[i,1]<-p.contmerg[i,1]
p.contr[i,2]<-p.contmerg[i,2]*f[i]
p.contr[i,3]<-p.contmerg[i,2]*(1-f[i])
sum2[i]<-p.contmerg[i,1]+exp(lambda*theta[i+9])*f[i]*p.contmerg[i,2]+exp(theta[i+9])*(1-f[i])*p.contmerg[i,2]
p.case1[i,1]<-p.contr[i,1]/sum2[i]
p.case1[i,2]<-exp(lambda*theta[i+9])*p.contr[i,2]/sum2[i]
p.case1[i,3]<-exp(theta[i+9])*p.contr[i,3]/sum2[i]
for(k in 1:2){
p.contmerg[i,k]~dunif(0,1)
p.casemerg[i,k]~dunif(0,1)
}
#H-W平衡
f[i]<-2*(1-pa[i])/(2-pa[i])
pAA[i]<-(1-pa[i])*(1-pa[i])
n1[i]~dbin(pAA[i],co.n.merge[i])
pa[i]~dbeta(1,1)
}
for(i in 1:11){
theta[i]~dnorm(mean,prec)
}
# Priors information for effects and heterogeneity
mean~dnorm(0,0.0001)
tau ~ dnorm(0,1)I(0,) #半正態分布
prec=1/(tau*tau)
#Probability of genetic model,0:recessive model,0.5 co-dominant,1:dominant
d<-c(0,0.5,1)
p<-c(1/3,1/3,1/3)
K~dcat(p[])
lambda<-d[K]
#Results of interest
OR2<-exp(mean*lambda)
OR3<-exp(mean)
#probmodel[1]:recessive,probmodel[2]:co-dominant,probmodel[3]:dominant
for(g in 1:3){
probmodel[g]<-equals(K,g)
}
}
上述代碼的關鍵部分為涉及合并基因型的回顧性似然構建和編碼,對于τ還可以有其先驗分布,如dgamma(0.001,0.001)和dunif(0,10)等。
上述實例中,相對于基因型ACE D/D,攜帶有基因型I/I和基因型I/D的腎移植患者發生排斥反應風險無統計學意義,其OR值和95%置信區間分別為0.68 (0.41,1.02)和0.50(0.19,1.04),用以表示遺傳模型的系數λ及其95%置信區間為0.53 (0.50,1.00),其后驗概率密度分布如圖1所示。三種遺傳模型的概率分別為隱性遺傳模型為0%,顯性遺傳模型6.2%,共顯性遺傳模型為93.8%。研究間變異τ2=0.98。

圖1 表示遺傳模型的系數λ的后驗概率密度
另外,我們又選取了Ragland等發表的關于UCHL1 S/Y基因多態性與帕金森氏病發病風險關系的系統綜述[7],共納入18項研究,全部提供了完全的基因型頻數。首先用無遺傳模型約束的貝葉斯Meta分析方法[8-9]估計OR值,然后無放回地隨機抽取2個研究,合并S/Y和Y/Y基因型頻數,并用本研究方法估計OR值,并重復9次。結果如表4所示,相對于基因型S/S,基因型Y/Y的OR值為0.876~0.912,均值為0.895,與納入全部研究的估計結果0.894相近,基因型S/Y的OR值為0.649~0.734,均值為0.704,與納入全部研究的估計結果0.704相近。

表4 隨機合并S/Y和Y/Y基因頻數及全部研究OR值估計結果
本研究采用了貝葉斯方法處理了基因-疾病關聯研究meta分析中原始文獻中存在遺傳模型假定而帶來基因型合并問題。在meta分析過程中不假定基因
型,利用完整的研究和哈代-溫伯格平衡估計合并基因型中每個基因型的頻率,由于納入了所有原始文獻,未剔除存在合并基因型的研究,能夠提高統計檢驗效能。利用Ragland等人實例提供的完全數據表明本文方法估計OR值的穩定性、準確性以及精確性均較高。
同時,利用本研究的方法,在無充分生物學機制的基礎上,能夠利用數據驅動估計幾種經典遺傳模型的概率。利用meta分析的方法估計遺傳模型對于構建慢性傳染性疾病的發病或預后模型具有重要意義[2]。在宏觀環境危險因素的基礎上,利用合理的遺傳模型加入基因層面的影響因素,能夠使預測模型更為精確,能夠促進精準醫學的開展。
本研究存在的主要缺陷是哈代-溫伯格平衡在少量的研究中并不一定成立,因此需要考慮在哈代-溫伯格平衡不成立條件下的似然函數形式[10]。另外,本研究未對影響合并結果的其他因素如種族、檢測方法、性別等考慮在內,可以進一步考慮在貝葉斯框架下使用meta回歸,使得結果更為合理。