齊齊哈爾醫學院公共衛生學院流行病與衛生統計學教研室(161006)
葛 杰 賈月輝 韓云峰 謝志平 王 琪 鄭 毅 李繼媛 楊曉蕾△
【提 要】 目的 探討貝葉斯錯誤發現率(bayesian false-discovery probability,BFDP)在分子流行病學研究中的應用。方法 從理論和實際應用的角度說明BFDP的優勢及不足,采用R闡述BFDP的計算方法。結果 BFDP同時考慮了單核苷酸多態性的最小等位基因頻率及其與疾病的關聯強度,其相對于假陽性報告率(false positive report probability,FPRP)而言具有計算簡單、應用信息全面、方法學合理等優勢。結論 BFDP可以應用于SNP的篩選,但結果與真實情況可能存在一定的偏差,尚需進一步進行功能驗證以揭示SNP與疾病關聯的真實性。
隨著高通量測序技術的發展,分子流行病學研究中涌現了大量的基因組數據,因此一些復雜疾病的關聯性分析中需要進行假設檢驗的次數隨之增加。顯然這樣的多重比較會從統計學角度增大假陽性錯誤的發生概率。為了盡量控制這種假陽性錯誤又不至于損失數據信息而漏掉一些有意義的結果,目前常用錯誤發現率(false discovery rate,FDR)、假陽性報告率(false positive report probability,FPRP),或采用Bonferroni校正以減少假陽性錯誤的發生[1-3]。但有學者提出這些方法在對全基因組關聯(GWAS)數據進行分析時存在一定的弊端,而貝葉斯錯誤發現率(bayesian false-discovery probability,BFDP)則考慮了數據間的關聯性,且相對于FPRP而言具有計算簡單、應用信息全面、方法學合理等優勢,在分子流行病學研究中日益得到學者的重視和應用[4-5]。
在研究遺傳變異與疾病的關聯研究中,頻率論者一般認為無效假設H0是非隨機的,因此在計算H0的概率時需采用貝葉斯理論及方法。BFDP是一種基于貝葉斯模型的方法,其概率值的大小與先驗概率π0的選擇密切相關[6]。同時BFDP也反映了這樣一個事實:如果我們報告研究的關聯有意義,那么BFDP代表的是無效的概率,也就是說代表的是假陽性的概率。BFDP的計算式為:



現以logistic 回歸模型為例說明R軟件中計算BFDP的步驟:
(1)預先設定有真陽性關聯的SNP的BFDP臨界值,記為BFDPt,小于該值的SNP確定為非假陽性。BFDPt=R/(1+R),其中,R表示發生假陰性錯誤與發生假陽性錯誤的比值。例如R=4,則BFDPt=T=0.8,即以0.8作為截斷值判定某研究結果是否為假陽性結果,< 0.8為真陽性。
(2)設定有關聯的先驗概率值π0,注意不能選擇與其他混雜因素共同作用的先驗值,如0.7,0.6,0.5,0.01,0.001,0.00001等。值得注意的是,Wakefield等人給出的BFDP定義中的π0為無效假設成立時的先驗概率值,而在R中使用的是備擇假設成立的情況下的先驗概率值,因此其P0=(1-π0)/π0,與原有的公式互為倒數。
(3)給定OR值,一般為先驗概率第97.5%的OR值。例如,如果OR取1.5,那么我們認為OR值比1.5大的先驗概率為2.5%。
(4)首先根據每個SNP的ORi值及其95%可信區間計算斜率θi=log(ORi),標準誤se(logORi)=(log(ORi_U)-log(ORi))/1.96;令ORhi=1.5,則W=[log(ORhi)/1.96]2;r=W/[W+se(logORi)2];Zi=logORi/se(logORi);再由前述公式分別求出ABF,P0和BFDP。
(5)軟件選擇:BFDP的計算除了可以應用R或Rstudio中的gap包[7],還可以采用SAS編寫程序或Excel公式進行計算。
以一項乳腺癌的meta分析數據為例,該數據來源于DRIVE(Discovery,Biology,and Risk of Inherited Variants in Breast Cancer)(phs001265.v1.p1)[8],共納入28758乳腺癌患者和24349例對照的14項病例對照研究,這項基于通路的關聯研究中共分析了197個SNP與乳腺癌的關聯性,我們認為會有2~3個SNPs與癌癥發病有關。假定W=[log(1.5)/1.96]2,π0=0.9。


表1 依據BFDP標準納入的前8個與疾病相關的SNP
BFDP是目前值得關注的一種判斷結果是否具有關聯性的新方法,它既保持了FPRP的優勢,也細化了FPRP的標準。具體地說,我們推薦使用BFDP是因為它可以減少那些在隨后的研究中難以驗證的“陽性發現”的數量,而且可以選擇一個明確考慮假陽性錯誤和假陰性錯誤成本的BFDP閾值。
BFDP具有計算簡單的優點,可以應用參數估計值及其標準誤,也可應用95%可信區間計算。R或Rstudio軟件中的gap包可以實現BFDP值的計算,也可應用更為簡單應用的Excel表單進行計算。此外,BFDP除了可以用于SNP的關聯分析,還可以用于堿基的插入/刪失或拷貝數改變的篩選。
目前多階段的全基因組關聯分析研究越來越普遍,常用的方法是按照P值進行排序,然后選擇一組P值最小的SNP進行下一階段的研究。而我們更推薦使用BFDP排序進行這樣的選擇,它將提供不同的排列順序,因為SNP之間的效能是不同的,它同時依賴于SNP的最小等位基因頻率和關聯強度,而P值不能解釋這一點[6,9]。因此,當考慮成本比率以確定BFDP的截斷值時,這些比值在不同階段可以有不同的選擇。一般而言,在第一階段,我們的目標是盡量不漏掉可能有關聯的SNP,而在第二階段及以后的階段上,將會應用更加嚴格的截斷值。
值得注意的是,BFDP的實際應用中要求數據中的SNP是相互獨立的,忽視這種獨立性將降低估計的效率。一種解決的辦法是建立特定的層次模型,但這樣會減弱BFDP計算簡單這一優勢[10]。此外,BFDP的實施與π0和R的取值密切相關,一般地,π0的大小會對有意義關聯的SNP數量產生較大的影響,而R值影響假陽性數和假陰性數的預期數量。R的取值在候選基因關聯研究中可以比全基因組關聯研究低,原因在于:全基因組關聯研究中研究者往往期望得到更多的候選基因以進一步研究,而候選基因關聯研究中對這些候選基因的深入研究所需費用較高。
與目前應用較多的FPRP相比較,BFDP在對SNP進行排序的結果上基本與FPRP一致,但因為FPRP調整了尾部面積而得到較小的后驗無效估計值,而BFDP依靠點估計計算,故通常BFDP得到的陽性結果比FPRP更有意義[11]。Wakefield運用模擬實驗也證實了這一點[6]。此外,BFDP與全基因組關聯分析中常用的P值相比,其排序也不盡相同,正如本文結果部分表1所示,較小的P值未必得到較小的BFDP,原因在于BFDP的計算同時考慮了SNP的等位基因頻率和其與疾病關聯的大小。
盡管目前BFDP已被一些學者應用于SNP的篩選,但由于其方法學的限制,研究結果與真實情況可能存在一定的偏差[9]。因此對應用BFDP篩選得到的有意義的SNP尚需進一步進行功能驗證以揭示其與疾病關聯的真實性。