郭穎婕 李傲 劉曉燕 郭茂祖



摘要:在質量性狀全基因組關聯分析GWAS中,以基因作為研究單位的基因-基因相互作用檢測方法,以其在統計效力與生物可解釋性方面的優勢備受關注。然而現有方法中多數對基因之間互作形式給出了強假設,降低了算法對互作關系的檢測性能。針對已有方法存在的局限性,本文提出一種基于XGBoost的基因互作檢測方法geXGB。XGBoost作為一種流行且高效的機器學習方法,可以擬合基因型數據與表型之間的作用關系,并利用預測概率與加和模型之間的偏差表征相互作用關系的程度。geXGB對相互作用形式不作假設,增強該方法對不同形式相互作用的檢測能力。仿真與真實實驗結果表明:該方法能夠有效進行不同類型相互作用的檢測,可以應用于全基因組關聯研究。
關鍵詞: XGBoost; 基因相互作用; 單核苷酸多態性位點; 質量性狀; 全基因組關聯分析
【Abstract】 Among the various statistical methods for identifying gene-gene interaction in qualitative genome-wide association studies (GWAS), gene-based methods have recently grown in popularity as they confer advantages in both statistical power and biological interpretability. However, most of these gene-based methods make strong assumptions on the form of the relationship between traits and SNPs, resulting in limited statistical power. The paper proposes a gene-based method based on XGBoost, a popular and highly effective method in machine learning, to model the relationship between genotype and traits, and then measure the interaction of gene pairs by the deviation of the predicted probability from a multiplicative model. This method makes fewer assumptions on the exact form of interaction, which may overcome some of the shortcomings in previous methods. In experiments with both simulation study on pure and strict disease models and real world data, the proposed method outperforms previous approaches in detecting interactions accurately.
【Key words】 ?XGBoost; gene-gene interaction; single nucleotide polymorphism; qualitative trait; genome-wide association studies
0 引 言
研究基因-基因相互作用已被證實對于揭示復雜性狀遺傳調控機制至關重要。目前已有許多基于SNP位點間相互作用的檢測方法。統計類的檢測方法通過設計表征相互作用強度的統計量,檢測顯著的相互作用關系,例如基于優勢比(odds ratio,OR)的統計量[1]、基于連鎖不平衡(linkage disequilibrium,LD)的統計量[2- 3]、基于單體型(haplotype)的統計量以及基于熵的統計量[4-5]等。另一類方法則采用人工智能方法的思想,例如采用將為技術的多因子降維方法(multifactor dimensionality reduction,MDR)[6]、基于樹模型的TEAM(tree-based epistasis association mapping)方法[7]、通過優化存儲策略加速計算的BOOST(Boolean operation-based screening and testing)方法[8],以及基于貝葉斯理論的BEAM(Bayesian epistasis association mapping)系列方法[9]等。這些基于位點的檢測方法面臨最大的挑戰是維數災難。由于算法需要考慮所有的SNP或SNP組,成對或者高階的相互作用關系檢測次數隨著相互作用關系階數呈指數級增長,隨之而來的對統計顯著性的校正會導致統計效力的弱化。因此,本文研究以基因為單位,將一個基因中的所有SNP看做一個整體來檢測基因-基因相互作用。
基因是生物功能表達的基本單位。基于基因的相互作用研究有3點明顯的優勢,可闡釋分述如下。
(1)基于基因的方法可以大大減少所需的檢驗次數,20 000基因之間成對檢測互作關系運算量遠遠小于300萬SNP之間成對檢測互作關系。
(2)2組基因之間可能存在多對SNP間的相互作用,組內的SNP之間也可能存在連鎖不平衡關系,這些同時存在的作用關系會隱性地呈現在以基因為單位的模型中,更利于相互作用的檢測。
(3)基于基因的方法可以更好地利用已有的生物學背景知識,縮小研究范圍。例如可以檢測那些蛋白質互作網絡(protein-protein interaction,PPI)中已經呈現互作關系的蛋白質編碼基因之間的關系,或者某個調控通路(pathway)內基因之間的相互作用關系。
目前,在以基因為單位的相互作用研究中,Peng等人[10]在疾病組與對照組中分別對2個基因進行典型相關性分析(Canonical Correlation Analysis,CCA) ,并設計統計量CCU來度量2個基因在疾病與對照組中相關性指標的差異程度,用于表征相互作用的強度。該方法的局限性在于CCA只能度量2個基因之間的線性關系。Larson等人[11]和Yuan等人[12]針對上述方法存在的問題,將CCU擴展到KCCU,在做典型相關性分析之前,將核函數作用在疾病和對照組中兩個基因的數據上,從而增強模型對非線性關系的解釋能力。Jin等人[13]提出了GBIGM,一種基于熵的非參數假設檢驗方法。通過分析2個基因共同作用時與考慮只有單個基因時的熵的變化(即信息增益),并利用隨機置換類標簽的方式獲得相互作用的顯著性p值。Emily[14]開發了AGGrGATOr,該方法首先計算兩基因間所有SNP對的Wald統計值,并將一組Wald統計值結合成為一個顯著性p值用于度量2個基因之間是否存在相互作用。此前,Ma等人[15]成功地將這一策略用于數量型性狀的基因互作檢測中。
本文中,研究提出一種基于機器學習算法eXtreme Gradient Boost(XGBoost)的相互作用檢測方法geXGB(gene-base exchanged eXtreme Gradient Boost)。該方法使用交換策略產生新的測試數據集,并通過計算該測試集在訓練過的XGBoost模型上的預測值與加和模型之間的偏差來度量相互作用關系的強度。geXGB無需對相互作用顯式建模,因此可以檢測到更多類型的互作關系。此外,geXGB作為一個非參數化模型,在數據驅動的全基因組關聯研究中的應用更為靈活有效。
1 方法
1.1 基因互作檢測問題描述
2 實驗與結果
2.1 仿真數據生成
為了評估geXGB方法檢測基因-基因相互作用性能,所有的模擬數據集中均設置了50個SNPs,其中有2個SNP之間有相互作用,此外48個SNPs是隨機生成的。50個SNPs被分為5個基因,每個基因包含10個SNPs。2個相互作用的SNP被分在不同的基因里。本次研究按照方法是否可以將相互作用的基因排在第一位來衡量方法的性能。模擬中使用GAMETES軟件[17]來生成基因型數據,該工具可以生成嚴格的相互作用模型,即相互作用的2個基因均不存在主效應。
模擬實驗中,為了研究遺傳率和樣本大小對方法性能的影響,研究設置了2組不同的實驗環境。第一類情況下,測試了5個不同的遺傳率值(0.01,0.025,0.05,0.1,0.2)和2種不同的次等位基因頻率(minor allele frequence,MAF)取(0.2,0.4)。這些模型的患病率均設置為0.2,樣本大小設置為3 000;對于遺傳率和MAF的10種參數組合,均生成10個模型,由此獲得100個模型。對于每個模型生成100個數據集,由此共獲得10 000個數據集。第二類情況下,固定遺傳率為0.025,MAF為0.2和0.4,患病率為0.2,樣本量為10 000。然后從10 000個樣本中按照不同的樣本大小無放回抽取樣本生成新的樣本集用于考察樣本大小對方法性能的影響。數據集大小分別為 2 000,3 000,4 000和5 000。每個數據大小均生成100個數據集。
2.2 仿真實驗結果
實驗中選用了3種基于基因的基因互作檢測方法作為對比方法,分別是:KCCU[11- 12],AGGrEGATOr[14]和GBIGM[13]。對于每個模型下的100個數據集,如果方法將相互作用的一對基因排在第一位,則算作選中。方法在每個模型的統計效力用選中數據集的百分比來表示。
第一類模擬情況下各方法的統計效力值見表1。圖3是表1數據的盒圖。圖4為4種方法在不同模型下的平均效力比較。表1中,粗體為每個模型下最優的方法效力值,值越大表明方法檢測性能越好。由圖4可知,geXGB具有最優的平均性能,在多數模型下都大幅超越其它對比方法。AGGrEGATOr在MAF=0.2且遺傳率大于0.05的情況下可以達到與geXGB幾乎相同的性能。但在更小的遺傳率情況下,geXGB表現出更好的檢測性能。當遺傳率為0.01,MAF=0.2時,在6個模型上排位第一,在3個模型上排位第一;而相同遺傳率情況下,當MAF=0.4時,geXGB與AGGrEGATOr排位第一的模型個數比為9:2。當MAF=0.4時,AGGrEGATOr在各模型下的平均效力要高于KCCU。但在某些模型下,當AGGrEGATOr效果不好時,統計效力甚至比KCCU還要低。從圖3可以看出,相較于geXGB,AGGrEGATOr方法在各模型上的效力浮動各大,而geXGB則更為穩定。
此外,由圖4可知KCCU與AGGrEGTOr具有相似的性能模式,但AGGrEGTOr普遍優于KCCU。GBIGM幾乎無法檢測到此類嚴格的相互作用關系,這個結果與Emily的模擬結果一致。
由模擬實驗結果可知,本文提出的geXGB是一種十分有效的基因互作檢測方法。較之其他對比方法,geXGB可以適用于更為廣泛的遺傳模型下基因互作的檢測。
3 結束語
檢測基因-基因相互作用的研究在闡明人類復雜疾病致病機理方面具有重要意義。本文提出一種基于XGBoost的方法geXGB用于檢驗基因間相互作用。研究定義基因型數據的對數優勢比,將基因之間的互作轉化為基因聯合的對數優勢比與單獨基因函數之和之間的偏差。這一假設對基因之間互作形式沒有限定,增強了方法可檢測基因相互作用的類型。仿真數據實驗結果表明,geXGB在遺傳率、MAF與樣本規模三個參數的多種組合設定下,均有優于其它對比方法的統計效力,且方法效力隨遺傳率、MAF和樣本規模的增大呈現單調遞增趨勢。以上結果表明該方法在基因互作檢測中的有效性。
參考文獻
[1] EMILY M. IndOR: A new statistical procedure to test for SNP-SNP epistasis in genome-wide association studies[J]. Statistics in Medicine, 2012, 31(21): 2359.
[2]WU Xuesen, DONG Hua, LUO Li, et al. A novel statistic for genome-wide interaction analysis[J]. PLoS Genetics, 2010, 6(9): e1001131.
[3]UEKI M, CORDELLL H J. Improved statistics for genome-wide interaction analysis[J]. PLoS Genetics, 2012, 8(4): e1002625.
[4]DONG Changzheng, CHU Xun, WANG Ying, et al. Exploration of gene–gene interaction effects using entropy-based methods[J]. European Journal of Human Genetics:EJHG, 2008,16(2): 229.
[5]KANG Guolian, YUE Weihua, ZHANG Jifeng, et al. An entropy-based approach for testing genetic epistasis underlying complex diseases[J]. Journal of Theoretical Biology, 2008, 250(2): 362.
[6]RITCHIE M D, HAHN L W, MOORE J H. Power of multifactor dimensionality reduction for detecting gene-gene interactions in the presence of genotyping error, missing data, phenocopy, and genetic heterogeneity[J]. Genetic Epidemiology, 2003, 24(2): 150.
[7]ZHANG Xiang, HUANG Shunping, ZOU Fei, et al. TEAM: Efficient two-locus epistasis tests in human genome-wide association study[J]. Bioinformatics, 2010, 26(12): i217.
[8]WAN Xiang, YANG Can, YANG Qiang, et al. BOOST: A fast approach to detecting gene-gene interactions in genome-wide case-control studies[J]. American Journal of Human Genetics, 2010, 87(3): 325.
[9]CORDELL H J. Detecting gene-gene interactions that underlie human diseases[J]. Nature Reviews Genetics, 2009, 10(6): 392.
[10]PENG Qianqian, ZHAO Jinghua, XUE Fuzhong. A gene-based method for detecting gene-gene co-association in a case-control association study[J]. European Journal of Human Genetics:EJHG, 2010, 18(5): 582.
[11]LARSON N B, JENKINS G D, LARSON M C, et al. Kernel canonical correlation analysis for assessing gene-gene interactions and application to ovarian cancer[J]. European Journal of Human Genetics:EJHG, 2014, 22(1): 126.
[12]YUAN Zhongshang, GAO Qingsong, HE Yungang, et al. Detection for gene-gene co-association via kernel canonical correlation analysis[J]. BMC Genetics, 2012, 13: 83.
[13]JIN Li, HUANG Dongli, GUO Mazu, et al. A gene-based information gain method for detecting gene-gene interactions in case-control studies[J]. European Journal of Human Genetics, 2015, 23(11): 1566.
[14]EMILY M. AGGrEGATOr: A gene-based gene-gene interActTiOn test for case-control association studies[J]. Statistical Applications in Genetics and Molecular Biology, 2016, 15(2): 151.
[15]MA L, CLARK A G, KEINAN A. Gene-based testing of interactions in association studies of quantitative traits[J]. PLoS Genet, 2013, 9(2): e1003321.
[16]CHEN Tianqi, GUESTRIN C. XGBoost: A scalable tree Boosting system[C]//the 22nd ACM SIGKDD International Conference.San Francisco, CA, USA:ACM,2016:785.
[17]URBANOWICZ R J, KIRALIS J, SINNOTT-ARMSTRONG N A, et al. GAMETES: A fast, direct algorithm for generating pure, strict, epistatic models with random architectures[J]. BioData Mining, 2012, 5(1): 16.