李嘉寧,華琳,夏翃,閆巖
首都醫科大學 生物醫學工程學院,北京 100069
基于FastMap算法的類風濕病通路基因在1號染色體上的連鎖特性的研究
李嘉寧,華琳,夏翃,閆巖
首都醫科大學 生物醫學工程學院,北京 100069
本文闡述了應用FastMap算法研究類風濕病通路基因在1號染色體上的連鎖特性的方法和結果。結果發現,在FGF Signaling in Rheumatoid Arthritis通路中,CTSB、PRKC、ACAT2和MAPK1出現了相似的連鎖特性。在IFN Signaling in Rheumatoid Arthritis通路中,IL15、HLA-DR和HLA-DQA1出現了相似的連鎖特性。在IL10 Signaling in Rheumatoid Arthritis通路中,HLA-DR和TGFB1,CXCR4和CD86出現了相似的連鎖特性。該結果說明同一通路中的基因存在相似的連鎖特性,這些基因可能具有潛在的相似功能。
FastMap算法;類風濕病通路;1號染色體;連鎖特性;基因
隨著人類基因組計劃的實施,復雜疾病的基因定位研究備受關注。復雜疾病通常受多基因控制,且多個基因間存在交互作用,因而其基因型和表型間往往不是簡單的一一對應關系。傳統的統計遺傳學方法多用于研究疾病和單點基因的連鎖和關聯,但對復雜疾病的基因定位尚處于探索階段,很多多基因的定位方法對研究多基因的協同分析有一定的局限性[1-2]。因此,迫切需要尋找出一種能夠分析復雜疾病全基因組進而來探查基因間互作關系的方法。最近,有報道將基因集富集分析(Gene Set Enrichment Analysis,GSEA)等方法應用于全基因組關聯研究中,以進一步尋找出與疾病關聯的位點(基因)是否富集在某些代謝通路或染色體上,以便合理地解釋生物學現象[3-4]。目前這些方法已經深入到了對復雜疾病(如腫瘤和免疫系統疾病)的研究中,本文采用 FastMap 算法對類風濕病進行了研究[5]。
類風濕病是一種病因尚未明了的免疫系統疾病,以慢性、對稱性、多滑膜關節炎和關節外病變為主要臨床表現,屬于自身免疫炎癥性疾病。該病多發于手、腕、足等小關節處,可反復發作,呈對稱分布。從病理改變的角度來看,類風濕病是一種主要累及關節滑膜(以后可波及到關節軟骨、骨組織、關節韌帶和肌鍵),其次為漿膜、心、肺及眼等結締組織的廣泛性炎癥疾病。該病具有家族聚集傾向,病因復雜,具有遺傳異質性,基因型和表型間不是簡單的一一對應關系。因此,從分子生物學層面研究類風濕病對其病理學研究有著十分重要的意義。
近年來,發展迅速并被廣泛應用的單核苷酸多態性(Single Nucleotide Polymorphism,SNP)芯片技術為從系統生物學水平研究基因功能、從分子生物學水平研究多基因復雜疾病的發病機理與疾病分析提供了一種全新的途徑。研究疾病相關的通路中的基因的相關性和連鎖特性十分重要,本文主要研究類風濕病相關通路上基因的連鎖特性。
本文主要是從 KEGG(Kyoyo Encyclopedia of Genes and Genomes) 數 據 庫 中(http://www.genome.jp/kegg) 篩 選 出 3條與類風濕病相關的通路,并采用 FastMap 算法研究這些通路上的基因在1號染色體上的連鎖特性(1號染色體上的位點最多),以探討基因潛在的相似功能。
1.1 SNP基因型數據處理
選 擇 由 國 外 遺 傳 工 作 組 提 供 的 Genetic Analysis Workshop 15 (GAW15)問題 1 中的數據[6],含有 194 個個體的 3554 個基因的表達譜數據和 2883 個 SNP 基因型數據。對于選取的每個個體,均取其 1 號染色體上的 464 個 SNP基因型數據進行分析,并對 SNP 基因型數據重新進行編碼:將頻率高的等位基因(allele)編碼為 0,而頻率低的 allele編碼為1。
1.2 通路選取及對應基因表達數據
從 KEGG 數據庫中通過輸入風濕性關節炎(Rheumatoid Arthritis,RA)關鍵詞及數據庫中默認的相關性測度篩選出與類風濕病特別相關的 3 條通路,分別為 :FGF Signaling in Rheumatoid Arthritis ;IFN Signaling in Rheumatoid Arthritis和 IL10 Signaling in Rheumatoid Arthritis。將這 3 條通路中的基因映射到含有 3554 個基因的基因表達譜數據中,獲取該通路上的基因表達值。
1.3 FastMap算法
FastMap 方法通過構建集合加和樹來計算基因表達值和SNP(allele)的 Pearson 相關系數[7]。具體步驟描述如下 :
(1)構建加和樹計算 Pearson 相關系數。設基因g和SNPs的 Pearson 相關系數為 :

如果先將基因表達值進行標準化,則 (1)式可以簡化為:


該算法的根本目的是為了加速Mg(s)的計算,從而加速Pearson 相關系數的計算。假設s’和s表示兩個 SNP 僅在第i 個位置上(第i 個個體)的 allele 不同,其他位置均相同,則有:

(4)式說明相同 SNP 分布的協方差相同,而不同 SNP分布的協方差為相同分布的協方差加上不同 allele 對應的基因和,因此考慮構建加和樹,加和樹的具體構建過程如下:① 首先將所有 SNP 的分布都存儲在一個表中 ;② 從表中搜索出與樹的頂點距離為 1 的 SNPs,并將其作為樹的結點從表中移出;③ 當與樹的頂點距離為 1 的 SNPs搜索完畢后,繼續搜索與樹的頂點距離為 2 的 SNPs并從表中移出 ;④重復執行程序,當與樹的頂點距離為 3 的 SNPs搜索完畢后,從表中搜索與樹的距離最近的 SNPs,直到所有的 SNPs都包含在樹中 ;⑤ 根據樹的結點計算Mg(s)及相應的 Pearson系數。
(2)隨機重排計算P值。對于每一個基因,計算出它與所有 SNPs 的 Pearson 相關系數[8-10]。為了獲得 P 值,將樣本的基因值進行隨機重排 1000 次,每一次均保留最大的Pearson 相關系數值。這 1000 個值構成了相關系數的經驗分布,取α=0.05,即確定該經驗分布的第 95 位百分位數為相應的域值。
通過研究 3 條 RA 相關通路中的基因,并采用 Fastmap算法將這些基因與 1 號染色體上的 464 個 SNPs作 eQTL 分析,探討這些基因在1號染色體上的連鎖特性。本研究同時獲得了通路中每個基因的平均 Pearson 相關系數及隨機重排檢驗獲得的P值。
2.1 FGF Signaling in Rheumatoid Arthritis通路
該通路中的基因、平均 Pearson 相關系數及隨機重排檢驗的P值分別見圖 1 和表 1。對于該通路,CTSB、PRKC、ACTA2 和 MAPK1 這 4 個基因可以對應上基因表達譜數據中的基因表達值,通過 eQTL 分析,獲得了這 4 個基因相應的連鎖分析結果,4個基因的連鎖峰值位置大體相同。由表 1 可知,與 1號染色體上的 SNP 最為相關的基因是MAPK1(P=0.029)。

圖1 FGF Signaling in Rheumatoid Arthritis通路中的基因

表1 平均Pearson相關系數及相應P值
2.2 IFN Signaling in Rheumatoid Arthritis通路
該通路中的基因、平均 Pearson 相關系數及隨機重排檢驗的P值分別見圖 2和表2。

圖2 IFN Signaling in Rheumatoid Arthritis通路中的基因

表2 平均Pearson相關系數及相應P值
對于該通路,CTSB、NFKB、HLA-DPA1、IL15、HLA-DR和 HLA-DQA1 這 6 個基因可以對應上基因表達譜數據中的基因表達值,并獲得了相應的連鎖分析結果,IL15、HLADR 和 HLA-DQA1 出現了相似的連鎖特性,即他們大體在同一位置出現了較高的連鎖峰值。這3個基因都是和類風濕病十分相關的基因,特別是 HLA-DR 和 HLA-DQA1,很多文獻都已經證實為和類風濕病特別相關的基因。但由表2 可知,這 6 個基因與 1號染色體上的 SNP 的相關性并不強(P值均 >0.05)。
2.3 IL10 Signaling in Rheumatoid Arthritis通路
該通路中的基因、平均 Pearson 相關系數及隨機重排檢驗的P值分別見圖 3 和表 3。對于該通路,HLA-DR、 IL10、TGFB1、IL1B、VEGF、TNF、CXCR4 和 CD86 這 8個基因可以對應上基因表達譜數據中的基因表達值,并獲得了相應的連鎖分析結果。

圖3 IL10 Signaling in Rheumatoid Arthritis 通路中的基因
HLA-DR 和 TGFB1 的連鎖峰值,CXCR4 和 CD86 的連鎖峰值出現的位置大體相同。由表3可知,這8個基因與1 號染色體上的 SNP 的相關性也不強(P值均 >0.05)。

表3 平均Pearson相關系數及相應P值
由上述結果可知,在3個類風濕病相關通路中,同一通路中的部分基因的連鎖峰值出現的位置大體相同,提示這些基因可能具有相似的功能。事實上,已有文獻證實同一通路上的基因會存在潛在的共表達模式,基因的功能也可能具有相似性。
近年來,隨著第三代遺傳標記 SNP 的出現,高通量的數據使得復雜疾病的基因定位和關聯分析面臨著巨大挑戰[11-12],迫切需要尋找出新的方法及算法對復雜疾病的分子生物學進行靶向研究。盡管當前對于分析遺傳和環境因素對復雜疾病的影響,如基因與基因互作、基因與環境互作等已涌現出大量算法[13],但這些算法很大程度上依賴于樣本量,也就是說,隨著 SNP 標記的增多和樣本量的增大,其計算復雜度和計算時間會急劇增加。
本研究采用 FastMap 算法研究了類風濕病通路基因在 1號染色體上的連鎖特性(連鎖峰值)。該算法通過構建加和樹能夠快速地計算基因與 SNP 的 Pearson 相關系數,并采用隨機重排檢驗獲得相應的顯著性P值,對于全基因組研究及 eQTL 分析都有直接的借鑒意義。同時,本研究還整合了兩種不同的數據類型,即基因表達譜數據和 SNP 基因型數據,通過兩種不同數據的整合分析識別了類風濕病相關的風險通路的連鎖特性,給復雜疾病的遺傳學研究提供了一定參考。但需要指出的是,本研究使用的 KEGG通路數據庫每天都在不斷更新,因此相對于真實的生物學過程,其數據可能有一定出入。
在實際的系統生物學數據分析當中,數據整合分析遠遠要比單一的數據分析的效能要高。當前,高通量的實驗方法導致大量基因組、轉錄組等組學數據的產生,為全面進行生物學數據分析和了解生物學系統提供了條件。近年來,也產生了很多新的數據整合方法和分析平臺,對于發現組學數據之間的關聯,提高疾病易感基因(位點)識別的準確度有很大意義。本研究識別出的在 IL10 Signaling in Rheumatoid Arthritis 通路中出現相同連鎖峰值的基因HLA-DR 和 HLA-DQA1 不僅是和類風濕病極其相關的基因,而且這兩個基因還同時位于 HLA 區域,已有報道證實HLA區域的等位基因或基因多態可以用作類風濕病的預后標志物。因此,未來的研究工作將是整合更多的數據類型和不同方法對疾病基因進行分析,以準確地識別和疾病真正相關的生物標記。
[1] Gatti DM,Shabalin AA,Lam TC,et al.FastMap:fast eQTL mapping in homozygous populations[J].Bioinformatics,2009,25(4):482-489.
[2] Ma L,Runesha HB,Dvorkin D,et al.Parallel and serial computing tools for testing single-locus and epistatic SNP effects of quantitative traits in genome-wide association studies[J].BMC Bioinformatics,2008,(9):315-323.
[3] Wellcome Trust Case Control Consortium.Consortium, Genomewide association study of 14,000 cases of seven common diseases and 3,000 shared controls[J].Nature,2007,447(7145):661-678.
[4] Huang W,Wang P,Liu Z,et al.Identifying disease associations via genomewide association studies[J].BMC Bioinformatics,2009,(10):S68.
[5] Wang K,Li M,Bucan M.Pathway-based approaches for analysis of genomewide association studie[J].Am J Hum Genet,2007,81(6):1278-1283.[6] Torkamani A,Topol EJ,Schork NJ.Pathway analysis of seven common diseases assessed by genome-wide association[J].Genomics,2008,92(5):265-272.
[7] Backes C,Keller A,Kuentzer J,et al.GeneTrail-advanced gene set enrichment analysis[J].Nucleic Acids Res,2007,(35):W186-W192.
[8] Chai HS,Sicotte H,Bailey KR,et al.GLOSSI:a method to assess the association of genetic loci-sets with complex diseases[J].BMC Bioinformatics,2009,(10):102.
[9] Lim J,Hao T,Shaw C,et al.A protein-protein interaction network for human inherited ataxias and disorders of Purkinje cell degeneration[J].Cell,2006,125(4):801-814.
[10] Gregersen PK,Silver J,Winchester RJ.The shared epitope hypothesis.An approach to understanding the molecular genetics of susceptibility to rheumatoid arthritis[J].Arthritis Rheum,1987,30(11):1205-1213.
[11] Aud D,Peng SL.Mechanisms of disease:Transcription factors in inflammatory arthritis[J].Nat Clin Pract Rheumatol,2006,2(8):434-442.
[12] Heinemeyer T,Wingender E,Reuter I,et al.Databases on transcriptional regulation:TRANSFAC,TRRD and COMPEL[J].Nucleic Acids Res,1998,26(1):362-367.
[13] Hershberg RM,Framson PE,Cho DH,et al.Intestinal epithelial cells use two distinct pathways for HLA class II antigen processing[J].J Clin Invest, 1997,100(1):204-215.
Research on Linkage Characteristics of Rheumatoid Arthritis Pathway Genes Located in Chromosome 1 Based on FastMap Algorithm
LI Jia-ning, HUA Lin, XIA Hong, YAN Yan
School of Biomedical Engineering, Capital Medical University, Beijing 100069, China
This paper introduced the methods and results of the research on linkage characteristics of rheumatoid arthritis pathway genes located in chromosome 1 by using FastMap algorithm. The results showed that there were similar linkage characteristics among genes including CTSB, PRKC, ACAT2 and MAPK1 in FGF Signaling in Rheumatoid Arthritis pathway and there were similar linkage characteristics among genes including IL15, HLA-DR and HLA-DQA1 in IFN Signaling in Rheumatoid Arthritis pathway while there were similar linkage characteristics between genes including HLA-DR and TGFB1 as well as CXCR4 and CD86 in IL10 Signaling in Rheumatoid Arthritis pathway. The results indicated that the potential functions of the genes with similar linkage characteristics in the same pathway may be similar.
FastMap algorithm; rheumatoid arthritis pathway; chromosome 1; linkage characteristics; genes
R311
A
10.3969/j.issn.1674-1633.2014.08.009
1674-1633(2014)08-0032-04
2013-07-10
北京市教育委員會科技計劃面上項目(SQKM201210025008);
北京市優秀人才培養資助項目(2012D005018000002);首都醫科大學基礎臨床-合作項目(11JL30、11JL33、12JL75)。
閆巖,副教授。
作者郵箱:ning9024@126.com