孔 琪,夏霞宇,秦 川
(中國醫學科學院醫學實驗動物研究所,北京協和醫學院比較醫學中心;衛生部人類疾病比較醫學重點實驗室;國家中醫藥管理局人類疾病動物模型三級實驗室,北京 100021)
?
復雜性狀遺傳CC小鼠信息資源及研究應用
孔琪,夏霞宇,秦川*
(中國醫學科學院醫學實驗動物研究所,北京協和醫學院比較醫學中心;衛生部人類疾病比較醫學重點實驗室;國家中醫藥管理局人類疾病動物模型三級實驗室,北京100021)
復雜性狀遺傳CC小鼠(CC小鼠)由不同遺傳背景的小鼠品系雜交后,近交培育而成,用于研究人類復雜性狀疾病和疾病的遺傳差異。CC小鼠能體現不同小鼠亞種的遺傳差異,其單核苷酸多態性是傳統近交系小鼠的四倍。CC小鼠在生命科學與醫學研究領域的應用越來越廣泛。本文通過信息檢索等方式對CC小鼠相關信息資源進行梳理,闡述了CC小鼠的起源、數據庫、應用工具,以及研究領域等,以推動CC小鼠資源在中國得到廣泛應用。
復雜性狀遺傳CC小鼠,小鼠品系,資源,數據庫,人類疾病
小鼠(mice,Musmusculus)是研究人類疾病理想而且常用的模式動物。隨著基因工程技術的發展,使得小鼠品系資源愈加豐富,在人類疾病研究中的應用也更廣泛。復雜性狀疾病,即多基因病,是指由多個基因共同參與,且和環境因素相互作用決定表型的遺傳病,如高血壓、冠心病、糖尿病、哮喘和某些癌癥等。
采用單一遺傳背景的小鼠已無法有效復制人類多基因相互作用引起的復雜性狀疾病。復雜性狀遺傳CC小鼠(Collaborative Cross mice,CC小鼠)應運而生,成為模擬人類復雜性狀疾病的利器,具有更豐富的性狀差異,更豐富的遺傳多態性,能夠體現不同人群對病因敏感的差異性,可應用于精準醫療、基因功能發現、疾病模型建立和人類復雜性狀疾病等方面研究。
本文通過信息檢索、文獻查閱、數據庫搜索等方式對CC小鼠相關信息資源進行梳理,闡述了CC小鼠的概述、數據資源、應用工具,以及研究應用等,以使我國科研人員深入了解和更好的使用CC小鼠,支撐人類復雜性狀疾病研究和精準醫療等相關領域發展。
CC小鼠來源于復雜性狀聯盟(Complex Trait Community, CTC)啟動的一個項目。其目的是發展一種更適用于研究復雜性狀或復雜病因疾病的研究工具,以模擬人群基因多樣性進行復雜性狀相關研究[1]。包括數百種不同基因型的小鼠品系,來自多個原始種系。截止到2016年3月美國北卡大學(University of North Carolina, UNC)共對外提供72個CC小鼠品系[2]。
研究人員采用CC小鼠進行正常肝組織的表達數量性狀基因座(expression Quantitative Trait Loci,eQTL)[3, 4],過敏性氣道炎(allergic airway inflammation)[5],黑色素瘤易感性[6],流行性感冒與埃博拉等病毒易感性[7, 8]基因型與性狀相關的研究。CC小鼠名聲大噪源于Science雜志在線發表的一篇《Host genetic diversity enables Ebola hemorrhagic fever pathogenesis and resistance》文章[8]。作者在47個CC小鼠品系中測試了埃博拉病毒引發的宿主應答。病毒感染對不同品系小鼠造成的影響不同,揭示了人類對埃博拉易感性不同源于其存在的遺傳學差異。與此同時,以CC小鼠為基礎的數據庫以及研究工具也逐步建立起來,極大程度地豐富了科研人員的研究資源。
2.1UNC CC小鼠數據庫
UNC數據庫介紹了CC小鼠項目的發展歷程,并提供了當前發布的72個CC小鼠品系的相關數據,包括名稱﹑八種初始品系的基因組組成﹑雜合比例﹑健康狀況﹑飼養環境﹑圖片等基礎信息,毛色﹑眼睛色﹑繁殖能力等生理數據,以及相應的基因型﹑單倍型等多種數據,供研究人員下載使用。
UNC同時也提供了一系列的可視化工具對CC小鼠的基因型等數據進行展示。通過UNC的CC小鼠瀏覽器2.0(http://csbio.unc.edu/CCstatus/index.py?run=CCV),研究人員可以獲取其基因型﹑單倍型及系統進化等信息。通過CC小鼠表達譜瀏覽器(http://csbio.unc.edu/gecco/),研究人員可直觀了解不同CC小鼠中基因表達水平異同。除發布的CC小鼠品系信息,UNC還整合了部分其它相關數據。
UNC系統遺傳學中心負責CC小鼠項目后期的繁殖,保種與信息發布。其數據庫包含了最全面的CC小鼠品系相關信息,并通過官網(http://csbio.unc.edu/CCstatus/index.py)提供給相關科研人員。
2.2Sanger小鼠基因組數據庫
CC小鼠作為研究復雜性狀疾病分子機制的工具,通過其基因圖譜定位可以找出決定性狀的關鍵因素。而根據CC小鼠的來源,可以將其基因組近似表征為八種純系小鼠基因組的嵌合體。因此,這八種純系小鼠的基因組數據是所有后續相關研究的基礎。
這些基因組數據均可以通過Sanger小鼠基因組項目獲得。自2011年開始,Sanger小鼠基因組數據庫(http://www.sanger.ac.uk/resources/mouse/genomes/)便發布了所有八種純系小鼠以及其它九種常見的實驗小鼠品系的高通量全基因組重測序數據[9]。與此同時發布的還有各實驗小鼠品系與小鼠參考基因組(C57BL/6J, CRCm38版)的比對及變異,包括單核苷酸多態性(Single nucleotide polymophism, SNP)﹑短片段插入/刪除(Insertion/Deletion, Indel),以及結構變異(Structural variation)等數據信息。其中,SNP及短片段Indel均已通過Ensembl Variant Effect Predictor加以注釋[10],研究人員可通過基因組位置﹑基因名稱﹑小鼠品系﹑變異類型及預測功能等關鍵詞進行相關信息的檢索及可視化瀏覽。截止2016年3月,數據庫中所包含的實驗小鼠品系數已增加至36種,其中有19種(包括構建CC小鼠所采用的八種)已整合進UNC數據庫中。
2.3MDA小鼠基因型數據庫
美國Jackson實驗室建立的小鼠MDA基因型數據庫(http://cgd.jax.org/datasets/diversityarray.shtml)已收錄了包括UNC CC小鼠在內的1,902份實驗小鼠的原始及處理后芯片數據,可供研究人員下載使用。
小鼠多樣性芯片(Mouse Diversity Array, MDA)是最早針對實驗小鼠發明的高密度基因分型芯片[11]。MDA芯片基于Affymetrix平臺,包含了60余萬種實驗小鼠全基因組范圍的SNP,及另外90余萬種用于檢測拷貝數變異的功能性保守標簽信息[11]。雖然不如全基因組測序精度高,MDA小鼠分型芯片仍被廣泛應用于CC前期(G2:F1代)及后期(前CC)基因分型及功能研究中[3, 5, 7, 12]。
2.4MUGA及MegaMUGA基因型數據庫
MUGA和MegaMUGA是另外兩種專門針對CC小鼠所設計的基因分型芯片,基于Illumina Infinium平臺,主要用于確定各CC小鼠品系中八個純系小鼠基因組的貢獻,以及繁殖過程中不同CC小鼠品系間的剩余雜合率[13]。MUGA芯片包含7,851種SNP分型標記,其升級版MegaMUGA(第二代小鼠基因分型芯片)則是其10倍。MUGA及MegaMUGA芯片是UNC推薦使用的小鼠基因分型工具。
CC小鼠構建過程中部分樣本的MUGA或MegaMUGA基因型檢測數據均已有UNC收錄。其中,MUGA數據共計626份,包括168份八種純系及F1代的參考基因型數據,以及另458份其它樣本檢測數據;MegaMUGA數據共計792份,包括72種成熟CC小鼠品系基因型數據,以及720份其它樣本的檢測數據。MUGA/MegaMUGA數據庫,以及芯片相關的分析工具,均可通過UNC官方網站獲取。
2.5小鼠表型數據庫
美國Jackson實驗室建立的小鼠表型數據庫(Mouse Phenome Database,MPD)旨在為研究人員提供一個近交系實驗小鼠基因組變異信息分類集的Web接口[14]。其Genotype模塊(http://phenome.jax.org/db/q?rtn=snp/home)包含了Sanger實驗小鼠基因組及Jax-UNC小鼠的MDA變異信息,以及部分其它的結構變異數據集。
研究人員可通過基因組位置﹑基因名稱﹑小鼠品系﹑變異類型及預測的功能等關鍵詞進行相關信息的檢索。此外,Genotype模塊還提供了不同小鼠品系的兩兩基因型比較,基因型數據獲取等功能。
2.6小鼠基因型重估數據庫
經典近交系小鼠通常由單一品系近交培育而成,遺傳相似度在99%以上。每個近交系小鼠個體的基因組可近似認為是由祖先株單倍型片段組成的嵌合體。Yang等人對100種經典小鼠品系的MDA基因型數據進行了四配子檢驗,以界定家鼠(M.m.domesticus)的單倍型域[15]。隨后,Wang等人結合這些單倍型域,以及12個品系的全基因組重測序數據,對1.2×1010個位點進行了高置信度基因型重估[16]。所有單倍型域及重估數據可以通過UNC的模塊(http://msub.csbio.unc.edu/和http://csbio.unc.edu/imputation/)獲取。這些結果對于后續CC小鼠相關的數量性狀遺傳位點(Quatitative trait location, QTL)分析研究工作至關重要。
3.1單倍型重構工具
CC小鼠是由多個純系小鼠重組而來,其基因組中不同祖先株的單倍型域組成極大程度影響了后續的QTL分析與研究。單倍型重構是應用CC小鼠進行QTL分析研究的第一步。以CC小鼠基因型芯片數據為基礎,研究人員通常采用HAPPY[17]與GAIN[18]軟件包來實現。
HAPPY與GAIN均以隱馬科夫模型(Hidden markov model,HMM)為基礎,并根據基因型芯片數據的觀測值估算每個位點祖先株相應的概率[19]。HAPPY是一個R軟件包,起源較早,包括一系列針對封閉群進行QTL分析的函數。GAIN函數主要是針對CC小鼠所設計,通過結合HMM算法與系譜相關知識有效推斷祖先株的概率。HAPPY軟件包及相關數據可通過Wellcome Trust人類遺傳中心網站(http://mus.well.ox.ac.uk/CC/)在線獲取。
所有已發布的CC小鼠品系的單倍型重構數據信息可以通過CC小鼠瀏覽器(http://csbio.unc.edu/CCstatus/index.py?run=CCV)進行瀏覽與下載。
3.2QTL定位工具
BAGPIPE(http://valdarlab.unc.edu/software/bagpipe)[20]及BAGPHENOTYPE(http://valdarlab.unc.edu/bagphenotype.html)[21]是兩種針對CC小鼠進行QTL定位研究的軟件包。兩個軟件包均以HAPPY的固定效應模型(fixed-effects model)為基礎,模擬加性效應與顯性效應,通過八種原始株的單倍型概率矢量對表型值進行擬合。其它如實驗(如:批次)及生物學(如:性別)等協變量可采用固定或隨機效應模型。統計顯著性程度可通過非限制性排列進行估算。
BAGPIPE及BAGPHENOTYPE均以小鼠的單倍型概率矩陣為輸入值,通過命令行進行操作。BAGPIPE通常適用于群體結構未知的正態分布性狀的單位點定位,而BAGPHENOTYPE則采用了重采樣模型平均及多位點模型。此外,BAGPHENOTYPE也可以根據廣義線性模型對非正態分布性狀(如:枚舉、二元性狀等)進行定位。
3.3高通量測序分析工具
高通量測序讀段與參考基因組的比對是測序相關研究的第一步。其保真度與有效性隨著測序物種與參考基因組的基因距離增大而降低,將導致雜合樣本的研究產生誤差。理想的參考基因組可以盡可能地融合更多的待測樣本信息,包括二倍性等,以減少誤差。以此為核心,美國北卡大學的McMillan團隊,以及美國Jackson實驗室的Churchill團隊先后研發了兩個等位基因特異性比對流程[22, 23]。兩種方法的原理較為相似,均首先以一個參考基因組及另一個個體特異性的變異位點(相對于參考基因組)列表為輸入值,構建一個改進的﹑重構的﹑二倍體參考基因組(偽基因組),測序讀段繼而與偽基因組進行比對。對比質量改進,以及等位基因特異性,有利于后續的分析。
以“Collaborative cross mice”為關鍵詞對Web of ScienceTM核心合集數據庫進行檢索(截止2016年3月),共得到206條記錄,其中研究類文獻共計152篇,出版年份為2006年至今,呈現逐年遞增趨勢。其中,121篇(79.6%)研究文獻來源于美國的研究機構。
對研究方向進行統計分析表明,超過50.0%(80篇)CC小鼠相關的科學研究均為基因遺傳領域,其次為分子生物學(37,24.3%)﹑生物技術應用微生物學(31,21.4%),神經生物學(11, 7.2%)等。此外,CC小鼠在細胞生物學﹑行為科學﹑微生物學﹑毒理學及生理學等領域均有所應用。
CC小鼠項目自2004年正式啟動至今已經經歷了12年,三個繁殖中心已建立起了百余種CC小鼠品系,并逐漸開始廣泛應用于生命科學研究中。與此同時,相關的小鼠基因組與遺傳數據也逐漸得以積累,在一定程度上推動了相關數據庫與分析工具的構建。
UNC等數據庫已整合了多種CC小鼠相關的數據資源,供科研人員瀏覽和下載使用。諸如HAPPY﹑GAIN等針對CC小鼠而發展的分析工具也已逐步發展。對Web of ScienceTM數據庫中收錄的CC小鼠為主題的科研論文進行統計分析也表明近年來呈現出了高速增長的態勢。可以預期,未來隨著人們對復雜性狀疾病的日益重視,以及CC小鼠項目在中國醫學科學院醫學實驗動物研究所落地,將進一步推動其在中國范圍內的廣泛應用。
[1]Churchill GA, Airey DC, Allayee H,etal. The Collaborative Cross, a community resource for the genetic analysis of complex traits [J]. Nat Genet. 2004,36:1133-1137.
[2]UNC Systems Genetics.[OL][2016-03-26].http://www.csbio.unc.edu/CCstatus/index.py.
[3]Aylor DL, Valdar W, Foulds-Mathes W,etal. Genetic analysis of complex traits in the emerging Collaborative Cross [J]. Genome Res. 2011, 21:1213-1222.
[4]Weiser M, Mukherjee S, Furey TS,etal. Novel distal eQTL analysis demonstrates effect of population genetic architecture on detecting and interpreting associations [J]. Genetics 2014, 198:879-893.
[5]Kelada SNP, Carpenter DE, Aylor DL,etal. Integrative genetic analysis of allergic inflammation in the murine lung [J]. Am J Respir Cell Mol Biol. 2014, 51:436-445.
[6]Ferguson B, Ram R, Handoko HY,etal. Melanoma susceptibility as a complex trait: genetic variation controls all stages of tumor progression [J]. Oncogene. doi:10.1038/onc.2014.227.
[7]Ferris MT, Aylor DL, Bottomly D,etal. Modeling host genetic regulation of influenza pathogenesis in the Collaborative Cross [J]. PLoS Pathog. 2013,9:e1003196.
[8]Rasmussen AL, Okumura A, Ferris MT,etal. Host genetic diversity enables Ebola hemorrhagic fever pathogenesis and resistance [J]. Science. 2014, doi:10.1126/science.1259595
[9]Keane TM, Goodstadt L, Danecek P,etal. Mouse genomic variation and its effect on phenotypes and gene regulation [J]. Nature. 2011, 477:289-294.
[10]McLaren W, Pritchard B, Rios D,etal. Deriving the consequences of genomic variants with the Ensembl API and SNP effect predictor [J]. Bioinformatics. 2010, 26:2069-2070.
[11]Yang H, Ding Y, Hutchins LN,etal. A customized and versatile high-density genotyping array for the mouse [J]. Nat Methods. 2009,6:663-666.
[12]Liu EY, Morgan AP, Chesler EJ,etal. High-resolution sex-specific linkage maps of the mouse reveal polarized distribution of crossovers in male germline[J]. Genetics. 2014,197:91-106.
[13]Collaborative Cross Consortium, The Genome Architecture of the Collaborative Cross Mouse Genetic Reference Population [J]. Genetics. 2012, 190, 2:389-402.
[14]Maddatu TP, Grubb SC, Bult CJ, Bogue MA. Mouse Phenome Database (MPD) [J]. Nucleic Acids Res. 2012, Jan; 40(Database issue):D887-94.
[15]Yang H, Wang JR, Didion JP,etal. Subspecific origin and haplotype diversity in the laboratory mouse [J]. Nat Genet. 2011, 43:648-655.
[16]Wang J, Moore KJ, Zhang Q,etal. Genome-wide compatible SNP intervals and their properties. In: Proceedings of the first a CM international conference on bioinformatics and computational biology—bCB’10 [M]. ACM Press, New York.2010.43
[17]Mott R, Talbot CJ, Turri MG,etal. A method for fine mapping quantitative trait loci in outbred animal stocks [J]. Proc Natl Acad Sci USA. 2000,97:12649-12654.
[18]Liu EY, Zhang Q, McMillan L,etal. Efficient genome ancestry inference in complex pedigrees with inbreeding [J]. Bioinformatics. 2010, 26:i199-i207.
[19]Baum, L. E.; Petrie, T. Statistical Inference for Probabilistic Functions of Finite State Markov Chains [J]. The Annals of Mathematical Statistics. 1966, 37 (6): 1554-1563.
[20]Valdar W, Solberg LC, Gauguier D,etal. Genome-wide genetic association of complex traits in heterogeneous stock mice [J]. Nat Genet. 2006,38: 879-887.
[21]Valdar W, Holmes CC, Mott R, Flint J,etal. Mapping in structured populations by resample model averaging [J]. Genetics. 2009,182:1263-1277.
[22]Huang S, Holt J, Kao C-Y,etal. A novel multi-alignment pipeline for high-throughput sequencing data [J]. Database 2014:bau057.
[23]Munger SC, Raghupathy N, Choi K,etal. RNA-seq alignment to individualized genomes improves transcript abundance estimates in multiparent populations [J]. Genetics. 2014, 198:59-73.
The Collaborative Cross mice resource information and application
KONG Qi, XIA Xia-yu, QIN Chuan*
(Institute of Laboratory Animal Science, Chinese Academy of Medical Sciences & Comparative Medical Center,Peking Union Medical College, Key Laboratory of Human Disease Comparative Medicine, Ministry of Health;Key Laboratory of Human Diseases Animal Model, State Administration of Traditional Chinese Medicine, Beijing 100021, China)
Collaborative Cross mice (CC mice) are series of inbred mice strains generated from hybrid strains of mice with different genetic background which used for human complex diseases and genetic diversity diseases studies. Genetic diversity of CC mice can reflect different mouse subspecies, the single nucleotide polymorphism is four times than traditional inbred mice. CC mice are more and more widely used in the field of life science and medical research. Based on information retrieval of CC mice, we introduced the related information resources of CC mice origin, database, application tools, and research results, to promote CC mice resources to be used widely in China.
Collaborative Cross mice;Mouse strain;Resource;Database;Human disease
中央科研院所基本業務費(DWS200709,DWS201208,DWS201512);傳染病科技重大專項(2009ZX10004-503)。
孔琪(1978-),助理研究員,博士,研究方向:實驗動物學。E-mail: infor@cnilas.org。
秦川,研究員,博士生導師,研究方向:實驗病理學。E-mail: qinchuan@pumc.edu.cn。
專題研究
R-332
A
1671-7856(2016)07-0011-05
10.3969.j.issn.1671-7856.2016.07.002
2016-04-05