基于高通量測序的長穗偃麥草功能分子標記發掘和分析
劉贏, 張軍, 敖游, 宋麗莉, 束永俊*
(黑龍江省分子細胞遺傳與遺傳育種重點實驗室 哈爾濱師范大學生命科學與技術學院, 哈爾濱 150025)
摘要:長穗偃麥草是小麥重要的近源物種,含有豐富的抗逆基因,廣泛地應用于小麥的遺傳改良育種。本研究利用高通量測序,獲得長穗偃麥草的轉錄組測序信息,利用比較基因組學方法研究其與小麥、水稻和玉米等作物的遺傳關系,評估它們之間的親緣關系。同時,將長穗偃麥草的高通量序列比對到小麥基因,利用軟件Freebayes和SAMtools/Bcftools發掘功能基因的變異位點,并對這些含有變異位點的功能基因進行注釋分析,揭示長穗偃麥草優異性狀形成的分子機制,這將為長穗偃麥草優異基因資源的開發和應用奠定重要基礎。
關鍵詞:長穗偃麥草;轉錄組分析;功能基因;單核苷酸多態性
中圖分類號:Q524+.3文獻標志碼:A
收稿日期:2015-01-12;修回日期:2015-03-15.
基金項目:國家自然科學基金資助項目(31372149); 國家級大學生創新創業訓練計劃項目(201310341017)。
作者簡介:方恩浩, 男, 本科生, 研究方向: 動物科學; E-mail: 2227909306@qq.com.
doi:10.3969/j.issn.1672-5565.2015.02.03
Genome-wide identification and characterization of SNPs from
Thinopyrumelongatumusing high-thought sequencing
LIU Ying, ZHANG Jun, AO You, SONG Lili, SHU Yongjun*
(KeyLaboratoryofMolecularCytogeneticsandGeneticBreedingofHeilongjiangProvince,Collegeof
LifeScienceandTechnology,HarbinNormalUniversity,Harbin150025,China)
Abstract:Thinopyrum elongatum is an important relative of common wheat because it harbors numerous biotic and abiotic stress-resistance genes. In this study, we used the high-through sequencing technology and comparative genome strategies to analyze the Th. elongatum transcriptome, and evaluated the evolution relationship between Th. elongatum and other cereal crops. Meanwhile, all sequences were aligned to wheat genes, and SNP sites were identified by software Freebayes and SAMtools/Bcftools. The genes containing SNP sites were annotated using COG, which was helpful for exploring molecular mechanism of excellent traits formation in Th. elongatum, and it provides a valuable reference for future development and utilization of excellent genes in Th. elongatum.
Keywords:Thinopyrum elongatum; Transcriptomic analysis; Functional gene; Single nucleotide polymorphism
長穗偃麥草是一種多年生植物,屬于小麥族偃麥草屬,主要分布于溫帶和寒帶,具有大量優異的性狀,如長穗、多花、籽粒蛋白含量高、抗病[1-2]、抗寒、抗旱、抗鹽堿等[3-5]。而且,長穗偃麥草基因組與小麥基因組親緣關系較近,雜交后代易結實,成為小麥遺傳改良育種的重要基因資源庫。研究人員采用雜交的方法,將長穗偃麥草中抗病、抗逆以及優質性狀導入到小麥基因組中,改良小麥性狀和品質,取得了巨大的成功[6-10]。但是,由于基因信息未知,嚴重阻礙了長穗偃麥草基因資源的開發和應用。
分子標記是作物遺傳育種常用的一種重要工具,篩選與優異性狀連鎖的分子標記,用于指導作物育種過程,能加速作物遺傳育種進程。長穗偃麥草含有大量抗逆、抗病以及品質相關基因,因此,如何開發與優異基因相關的分子標記對開發和利用長穗偃麥草優異基因資源具有深遠意義。但是,由于長穗偃麥草基因信息缺乏,使得長穗偃麥草分子標記開發工作進展緩慢,如何開發長穗偃麥草優異基因相關的分子標記將成為其基因資源開發和應用亟需解決的問題。
高通量測序是利用邊合成邊測序,具有測序成本低、通量高、速度快等優點,成為基因組測序研究的熱點工具。基因組測序的信息量較大,測序工作復雜,不易完成;而轉錄組測序主要研究細胞內基因表達信息,測序信息量較小,且既可以獲得基因的序列信息,又可以檢測基因表達的信息,成為獲得植物基因組信息的重要手段,特別是非模式植物基因組研究的重要工具[11-12]。研究人員利用轉錄組測序研究基因的表達情況,發掘和鑒定了大量優異基因資源,并根據測序信息開發基因靶向的分子標記,在很多植物上,如水稻[13]、玉米[14]、小麥[15]等,取得了重要進展,成為植物基因功能鑒定和分子標記開發的一種重要工具。
本研究將長穗偃麥草的轉錄組序列比對到小麥的mRNA,發掘SNP位點,并對SNP靶向的功能基因進行注釋分析,揭示長穗偃麥草優異性狀形成的分子機理,將為長穗偃麥草優異基因資源在小麥遺傳改良中應用奠定基礎。
1材料和方法
1.1材料
長穗偃麥草(PI 531718, 2x=14)種子由美國農業部農業研究服務的國家種質中心(http://www.ars-grin.gov/)惠贈。將種子萌發,種植24周后,分別采集長穗偃麥草的莖葉和根部組織,放入-80液氮中冷藏。將長穗偃麥草樣品送交華大基因公司(中國, 深圳),委托對樣品進行轉錄組測序,包括對總RNA提取、純化、cDNA文庫構建以及轉錄測序等工作,返回高質量的測序數據,具體測序信息參見文獻[16]描述。
1.2長穗偃麥草轉錄組的比較基因組分析
去除轉錄組序列中低質量序列,利用軟件Trinity[17]和iAssembler[18]將剩下的高質量序列進行組裝,獲得長穗偃麥草UniGene序列。分別從IWGSC[19](http://www.wheatgenome.org/)和Ensembl Plants(http://plants.ensembl.org/index.html)下載小麥(Triticumaestivum)、擬南芥(Arabidopsisthaliana)、
水稻(Oryzasativa)、高粱(Sorghumbicolor)、谷子(Setariaitalica)、玉米(Zeamays)、短柄草(Brachypodiumdistachyon)、大麥(Hordeumvulgare)、粗山羊草(Aegilopstauschii)和烏拉爾圖小麥(Triticumurartu)的基因組序列和注釋信息。利用程序BLASTN將長穗偃麥草UniGene序列比對到這些植物基因組,評估長穗偃麥草與以上物種基因組間相似性。
1.3長穗偃麥草SNP發掘及其功能注釋
利用軟件Bowtie2[20]將長穗偃麥草高通量序列匹配到小麥mRNA上,然后分別用軟件Freebayes[21]和SAMtools/Bcftools[22]進行SNP位點發掘。將Freebayes設置為“-C 3 -i -q 20”,SAMtools/ Bcftools設置為“varFilter -d 3”,篩選出現三次或以上,且兩種軟件都發掘的突變位點作為候選SNP位點。提取SNP位點靶向基因信息,統計SNP位點在小麥基因組的分析情況。同時,利用軟件BLASTX比對擬南芥等植物蛋白質序列,提取比對蛋白質的COG信息對SNP靶向基因進行功能分類和注釋[23]。
2結果分析
2.1長穗偃麥草轉錄組的比較基因組分析
將長穗偃麥草轉錄組序列組裝,形成169 990條UniGene序列。將這些UniGene與擬南芥、小麥等植物基因組進行比對,發現47.20%(80 236/169 990)的UniGene至少含有一條相似基因。其中,與小麥間相似基因最多,總計達到65 552條,然后依次是:粗山羊草(51 521)、烏拉爾圖小麥(51 518)、大麥(48 819)、短柄草(35 888)、水稻(25 648)、谷子(25 132)、高粱(22 956)、玉米(21 917),最少的為擬南芥,只有970條,數據表明長穗偃麥草與雙子葉植物間親緣關系較遠,與單子葉植物親緣關系較近,特別是小麥族植物,乃至小麥基因組親緣關系最近。同時,對序列的相似性分析發現,長穗偃麥草基因與小麥基因高度相似(見圖1、圖2),大多數基因(55 472,84.6%)的相似性超過90%,表明長穗偃麥草基因組與小麥基因組極其相似,可以用于小麥遺傳育種過程。

圖1 長穗偃麥草與其它植物基因組的親緣關系分析

圖2 長穗偃麥草基因相似性分布
2.2長穗偃麥草SNP發掘和分析
將39 273 796條序列比對到小麥mRNA序列上,利用軟件Freebayes發掘了606 660個SNP位點,軟件SAMtools/Bcftools發掘了850 874個SNP位點,在兩者中都出現的有561 147個SNP位點,將這些SNP位點確認為長穗偃麥草的候選SNP位點。在這些SNP位點中,主要是轉換類型突變,高達68.82%(386 162/561 147),顛換突變較少,只占31.18% (174 985 /561 147),其中C/T突變最多,然后是A/G、C/G、A/C、G/T和A/T,依次減少,如圖3所示。通過SNP位點序列信息,將SNP定位到小麥基因組,發現每條染色體上分布有17 186~30 847個SNP,其中染色體5D最多,染色體2B最少。進一步研究發現,同組染色體上SNP分布較均勻,差異不大,如圖4所示,但是,3號和7號染色體組除外,如染色體3B和染色體7D上SNP明顯超過同組另外兩條染色體。

圖3 長穗偃麥草SNP分類信息

圖4 長穗偃麥草SNP的染色體分布
2.3長穗偃麥草SNP靶向基因的功能分析
提取SNP位點的功能基因,發現這些SNP位于47 712功能基因上。將這些基因序列,將其與擬南芥、水稻等基因組比對,對SNP靶向基因進行功能注釋,KOG注釋結果如圖5所示。這些基因主要參與RNA加工與修飾(A,1 191)、能量代謝與轉化(C,1 095)、脂質轉運與代謝(I,1 095)、轉錄調控(K,1 414)、蛋白質翻譯后修飾與折疊(O,2 986)以及信號轉導過程(T,3 563)。另外,這些SNP靶向的功能基因還參與一些特異的細胞過程,如染色質結構修飾、細胞周期調控、次生物質代謝和細胞間物質運輸等過程,表明這些SNP靶向基因廣泛地參與各種代謝反應過程, 影響著長穗偃麥草優異性狀的形成。

圖5 SNP靶向基因的功能分析
3討論
長穗偃麥草是栽培小麥的重要近緣物種,含有大量可用于小麥遺傳改良的優異基因,廣泛地運用于小麥的遺傳改良,已經培育了一批含有偃麥草的優異小麥品種。但是,由于長穗偃麥草基因組信息極其匱乏,嚴重阻礙了長穗偃麥草基因資源在小麥遺傳改良中的應用。本研究通過高通量測序獲取長穗偃麥草的基因信息,通過比較基因組方法明確了長穗偃麥草基因組與小麥基因組間的親緣進化關系,為其基因組在小麥改良中的應用提供理論基礎。
分子標記是作物遺傳改良的一種重要工具,可以用于優異性狀的遺傳連鎖分析,指導作物遺傳育種過程,提高育種效率,大大縮短育種進程,具有重要應用價值。但是,分子標記開發過程需要基因的序列信息,開發過程復雜,成本比較高。特別是一些非模式植物,由于基因組信息匱乏,導致分子標記開發滯后,嚴重阻礙了它們基因資源的開發和利用。長穗偃麥草與小麥親緣關系較近,是小麥遺傳改良重要基因資源來源,本研究利用高通量測序,獲得長穗偃麥草基因信息,通過比較基因學方法發掘它與小麥間的SNP位點,獲取了大量位于基因內部的功能分子標記,具有巨大潛在應用價值,這也為進一步利用長穗偃麥草的優異基因資源創造條件。
4結論
本研究通過高通量測序獲得長穗偃麥草的基因序列信息,明確了它小麥以及其它小麥族植物間遺傳進化關系。同時,利用高通量測序序列,發掘了長穗偃麥草與小麥間的突變位點,并對這些SNP靶向基因進行功能注釋,這將為長穗偃麥草基因資源在小麥遺傳改良中的應用提供理論支持。
參考文獻(References)
[1]SCHACHERMAYR G M, MESSMER M M, FEUILLET C, et al. Identification of molecular markers linked to the Agropyron elongatum-derived leaf rust resistance gene Lr24 in wheat[J]. Theor Appl Genet, 1995, 90(7-8):982-990.
[2]JIANG J, FRIEBE B, DHALIWAL H S, et al. Molecular cytogenetic analysis of Agropyron elongatum chromatin in wheat germplasm specifying resistance to wheat streak mosaic virus[J]. Theor Appl Genet, 1993, 86(1):41-48.
[3]JAUHAR P P. Synthesis and cytological characterization of trigeneric hybrids involving durum wheat, Thinopyrum bessarabicum, and Lophopyrum elongatum[J]. Theor Appl Genet, 1992, 84(5-6):511-519.
[4]JAUHAR P P. Multidisciplinary approach to genome analysis in the diploid species, Thinopyrum bessarabicum and Th. elongatum (Lophopyrum elongatum), of the Triticeae[J]. Theor Appl Genet, 1990, 80(4):523-536.
[5]TAEB M, KOEBNER R M, FORSTER B P. Genetic variation for waterlogging tolerance in the Triticeae and the chromosomal location of genes conferring waterlogging tolerance in Thinopyrum elongatum[J]. Genome, 1993, 36(5):825-830.
[6]HUANG Q, LI X, CHEN W Q, et al. Genetic mapping of a putative Thinopyrum intermedium-derived stripe rust resistance gene on wheat chromosome 1B[J]. Theor Appl Genet, 2014, 127(4):843-853.
[7]PLACIDO D F, CAMPBELL M T, FOLSOM J J, et al. Introgression of novel traits from a wild wheat relative improves drought adaptation in wheat[J]. Plant Physiol, 2013, 161(4):1806-1819.
[8]JACOBY R P, MILLAR A H, TAYLOR N L. Investigating the role of respiration in plant salinity tolerance by analyzing mitochondrial proteomes from wheat and a salinity-tolerant Amphiploid (wheat x Lophopyrum elongatum)[J]. J Proteome Res, 2013, 12(11):4807-4829.
[9]HU L J, LI G R, ZENG Z X, et al. Molecular characterization of a wheat -Thinopyrum ponticum partial amphiploid and its derived substitution line for resistance to stripe rust[J]. J Appl Genet, 2011, 52(3):279-285.
[10]MONNEVEUX P, REYNOLDS M P, AGUILAR J G, et al. Effects of the 7DL.7Ag translocation from Lophopyrum elongatum on wheat yield and related morphophysiological traits under different environments[J]. Plant Breeding, 2003, 122(5):379-384.
[11]WANG Z, GERSTEIN M, SNYDER M. RNA-Seq: a revolutionary tool for transcriptomics[J]. Nat Rev Genet, 2009, 10(1):57-63.
[12]STRICKLER S R, BOMBARELY A, MUELLER L A. Designing a transcriptome next-generation sequencing project for a nonmodel plant species[J]. Am J Bot, 2012, 99(2):257-266.
[13]ZHANG G, GUO G, HU X, et al. Deep RNA sequencing at single base-pair resolution reveals high complexity of the rice transcriptome[J]. Genome Research, 2010, 20(5):646-654.
[14]OPITZ N, PASCHOLD A, MARCON C, et al. Transcriptomic complexity in young maize primary roots in response to low water potentials[J]. BMC Genomics, 2014, 15:741.
[15]REDDY S K, LIU S, RUDD J C, et al. Physiology and transcriptomics of water-deficit stress responses in wheat cultivars TAM 111 and TAM 112[J]. J Plant Physiol, 2014, 171(14):1289-1298.
[16]SHU Yongjun, ZHANG Jun, AO You,et al. Analysis of the Thinopyrum elongatum Transcriptome under Water Deficit Stress[J]. International Journal of Genomics, 2015, 02:265791.
[17]HAAS B J, PAPANICOLAOU A, YASSOUR M, et al. De novo transcript sequence reconstruction from RNA-seq using the Trinity platform for reference generation and analysis[J]. Nat Protoc, 2013, 8(8):1494-1512.
[18]ZHENG Y, ZHAO L, GAO J, et al. iAssembler: a package for de novo assembly of Roche-454/Sanger transcriptome sequences[J]. BMC Bioinformatics, 2011, 12:453.
[19]BRENCHLEY R, SPANNAGL M, PFEIFER M, et al. Analysis of the bread wheat genome using whole-genome shotgun sequencing[J]. Nature, 2012, 491(7426):705-710.
[20]LANGMEAD B, TRAPNELL C, POP M. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome[J]. Genome Biology, 2009, 10:R25.
[21]GARRISON E, MARTH G. Haplotype-based variant detection from short-read sequencing[J]. ArXiv, 2012, 1207: 3907.
[22]LI H, HANDSAKER B, WYSOKER A, et al. The Sequence Alignment/Map format and SAMtools[J]. Bioinformatics, 2009, 25(16):2078-2079.
[23]TATUSOV R L, GALPERIN M Y, NATALE D A, et al. The COG database: a tool for genome-scale analysis of protein functions and evolution[J]. Nucleic Acids Research, 2000, 28(1):33-36.
*通信作者:楊仙玉, 女, 教授, 研究方向: 動物分子生物學; E-mail: yangxy78@zafu.edu.cn.