檀小輝 張繼 梁芳
摘要:從NCBI中的EST數據庫下載已公布的甘蔗EST序列28 512條,利用DNAStar軟件中的Seqman程序進行疊連群構建,EST序列共構建3 449個疊連群,從中篩選出93個疊連群,長度共計105 385 bp,發現候選SNP位點 1 449個,SNP平均出現頻率為1.37%,共有74個contigs含有SNP位點,平均每個contig含有19.58個SNP位點,含有SNP位點數最多的1個疊連群有229個SNP候選位點,不同的疊連群含有的SNP位點數量差異較大,但轉換類型與顛換類型所占比例很接近。本研究所用的疊連群的總長度是105 385 bp,平均72.93 bp含有1個SNP位點。
關鍵詞:甘蔗;NCBI;EST序列;DNAStar;SNP位點
中圖分類號: S566.101 文獻標志碼: A 文章編號:1002-1302(2016)07-0064-03
單核苷酸多態性(single nucleotide polymorphism,SNP)指基因組內DNA序列在某一特定的核苷酸位置發生缺失、插入、顛換、轉換等變化。作為第3代遺傳標記,已在動植物遺傳連鎖圖譜構建[1]、重要性狀的基因定位[2]、多樣性分析[3]以及品種鑒定[4]等相關研究中得到廣泛的應用,跟以簡單序列重復(SSR)為代表的第2代分子標記相比,SNP具有易于實現自動化分析、遺傳穩定性強、密度高等優點。但SNP標記開發在前期測序階段成本較高而限制了SNP相關標記的大規模開發。因此,利用已有數據,通過生物信息學進行相關分析來開發SNP標記,然后通過相關試驗對候選SNP標記加以驗證,已成為一種降低成本且快捷高效的SNP開發途徑[5]。
表達序列標簽 (expressed sequence tags,EST)是來源于功能基因表達的cDNA片段,是轉錄區域多態性識別的重要資源,隨著相關研究的深入,公共數據庫中的核苷酸序列中EST序列的增速最快,以EST序列為基礎開發分子標記,變得越來越方便。目前,常用的EST標記有EST-AFLP、EST-RFLP、EST-SSR、EST-SNP等[6]。除了具有一般分子標記的特點,EST標記還具有通用性好、信息量大、開發方法簡單快捷以及成本低等優點。因為EST序列是基因表達區的cDNA序列,所以EST序列為基礎開發出的SNP位點很可能與表達基因的功能密切相關,或者直接在基因的編碼區之內,可直接用于動植物分子育種等相關領域的研究[7]。而且在EST序列中,SNP頻率很豐富[8]。因此,在尚未獲得基因組全序列的動植物中,開發EST-SNP標記具有重要意義[9]。但NCBI中甘蔗dbEST數據庫中的EST-SNP研究在國內外尚未發現相關報道,本研究利用NCBI上公布的甘蔗EST數據中篩選SNP候選位點,為甘蔗EST-SNP標記的開發以及后續的分子生物學研究奠定一定的基礎。截至2014年10月,NCBI的dbEST數據庫中已收錄了甘蔗EST序列28萬多條,如此龐大的數據為從甘蔗EST序列中開發SNP標記提供了良好的數據支持,甘蔗EST-SNP標記的開發可為甘蔗分子育種和基因組學等方面的研究提供重要的技術支持,本研究從NCBI中的dbEST數據庫中下載了28 512條EST序列,利用DNAStar軟件中的Seqman程序拼接得到3 449個重疊群(contigs),并將拼接結果進行人工篩選,為提高候選SNP位點的可靠度,本研究選用的EST序列拼接而成的contigs都至少含有20條EST序列,每個候選位點都至少有5條EST序列的相關位點作為支持,旨在發掘甘蔗的EST-SNP位點和尋求能得到大量可靠的候選SNP位點的篩選方法。
1 材料與方法
2014年10月13日從美國國立生物技術信息中心網站dbEST數據庫(http://www.ncbi.nlm.nih.gov/nucest/?term=sugarcane)下載28 512條甘蔗EST序列,所有序列均以FASTA格式保存,未得到可靠性較高的SNP候選位點,本研究用DNAStar軟件中的Seqman程序檢測并去除所有EST序列的載體序列,然后組裝拼接成contigs。因為本研究選取DNAStar軟件進行EST-SNP候選位點的開發,因此篩選步驟主要分為以下幾類:(1)在Seqman的拼接結果中提取包含20條以上EST序列的contigs,并在其中篩選候選SNP位點;(2)候選SNP位點兩側至少有5 bp堿基要完全保守為原則對候選SNP位點進行人工篩選;(3)對篩選結果進行整理、歸納、分析。
SNP發掘:應用Seqman程序的SNP工具查找SNP候選位點。
SNP頻率計算:SNP頻率=(候選SNP數目/contigs長度)×100%。
2 結果與分析
2.1 候選位點的人工篩選
對候選軟件篩選出的SNP位點根據2個篩選原則進一步人工將可靠度較高的SNP位點篩選出來:(1)候選SNP位點中的次要等位基因頻率至少為30%[10];(2)候選SNP位點兩側至少有5 bp完全保守的序列。Wang等研究發現,在包含不小于4條EST序列的contigs中篩選SNP時,候選SNP位點的主要、次要等位基因出現的頻率之比約為1 ∶ 1時的可靠度最高[11]。為了進一步提高候選SNP位點的可靠度,本研究在篩選SNP候選位點時,把包含4條EST序列的contigs提高到至少包含20條EST序列的contigs,同時,在1個候選SNP位點的兩側經常會出現間斷或連續的非SNP位點的不保守區域,這些區域可能是在比對時序列錯誤引起的,從而降低了候選SNP位點的可靠度,因此本研究規定候選SNP位點兩側至少5序列必須完全保守(圖1為合格SNP候選位點,圖2及圖3為不合格SNP候選位點)。
2.2 甘蔗EST序列SNP頻率分析
在GenBank數據庫中下載28 512條甘蔗EST序列,通過序列組裝構建3 449個contigs,為了提高SNP候選位點的可靠性,本研究所用的contigs均為EST序列條數大于20的contigs,經過篩選,共有92個contigs符合要求,92個contigs的堿基總數為105 385個bp,發現1 449個SNP位點,SNP出現的頻率為1.37%,平均72.93個bp含有1個SNP位點??偣灿?4個contigs含有SNP位點,平均1個contig含有1958個SNP位點(表1),含有SNP位點數目最多的contig中含有281個SNP候選位點,含有5、8個SNP候選位點的contigs最多(8個)(表2)。
本研究使用的EST序列包含SNP位點以堿基的顛換(49.00%)和轉換(49.07)為主,其中堿基的插入、缺失的數量最少,占全部SNP的1.93%,不同疊連群所含不同突變類型SNP位點的數量差異較大,所以分布密度的變化也很大(表3)。
由甘蔗EST序列構建的contigs中,組成contigs的EST序列條數和組成contigs的堿基數不同,得到SNP位點的頻率也就不同,組成contigs的堿基數越多,其SNP位點的頻率就越大。表4為甘蔗EST序列組成的序列數最多的10個contigs及SNP出現頻率,這10個contigs共組裝了5 053條序列,SNP平均出現頻率為3.48%,明顯高于所有用于篩選候選位點的contigs的SNP出現頻率1.37%,所以大規格contigs(多序列、多堿基數)更易得到候選SNP位點。另外,檢測 EST-SNP位點時,需大量冗余EST序列作為其檢測的數據基礎,如果EST條數少,得到的結果可能就不太理想,這也是本研究用至少包含20條EST序列的contigs進行SNP位點篩
3 結論與討論
SNP廣泛分布于動植物的基因組中,是動植物基因組中可遺傳變異中最常見的一種,據估計,SNP在人類基因組中廣泛分布,平均每500~1 000 bp對中就有1個SNP,其總數可能在300萬個以上[12]。作為第3代遺傳標記,由于SNP具有許多獨特的優點,自從1994年問世以來,已越來越被分子標記領域的相關研究人員所重視,特別是cDNA的SNP,因其本身就是功能基因表達的組成部分,所以SNP被公認為新一代分子標記中最有應用前景的一類。然而,由于SNP的開發難度大、檢測成本高,需要高額的資金投入以及大量的時間投入,導致該標記在甘蔗基因組研究領域的應用很少。但是如果以生物信息學為技術基礎,以大量冗余EST序列為數據基礎,EST-SNP的開發就成為一種既高效又廉價的方法[7,13-14]。但是,目前有很多因素都限制了EST-SNP的發掘,比如為了節約成本,EST序列在測序時只進行單向測序,測序結果的低質量進而導致篩選SNP位點會有預測已經查找方面的錯誤;EST序列來源對SNP位點的篩選也有很大的影響。但是,通過改進方法,可以對EST-SNP位點進行更準確、高效的發掘。通過有28萬多條EST可以看出,人們對甘蔗的關注度很高,但是到目前為止還沒有在NCBI中的SNP數據庫中發現甘蔗SNP的相關數據,這可能與甘蔗是由多倍體原種熱帶種(2n=80,x=10)與多倍體野生種割手密(2n=40~128,x=8)經過一系列雜交之后形成的異源多倍體有關,其遺傳背景非常復雜,染色體數在100~150條之間,因此甘蔗在分子遺傳連鎖圖譜、質量性狀基因定位、數量性狀基因定位以及分子標記輔助輔助育種方面遠遠落后于其他作物[15]。因此,本研究對甘蔗SNP標記的開發研究就更具有重要意義,為了保證SNP位點的準確性,對滿足SNP位點contigs包含的EST序列的要求就更高,必須是包含20條以上的EST序列序列組成的contigs,這樣一來可能會有大量的真正的SNP位點被遺漏。但是當contigs所含EST序列較少時,又可能會有大量的EST序列無法被利用,EST序列不能被用于SNP位點的篩選,因此,筆者認為只有當contigs所含EST數目超過一定程度,篩選出的候選EST-SNP位點的可靠性才會有保證;只有當dbEST數據庫中EST序列達到一定程度之后,其利用率才會得到保證,篩選出的SNP位點的可靠性才會更高。例如,利用全基因組測序,在水稻中(品種為日本晴和9311)獲得了5 019 016個SNP位點[16],另外,分布于基因表達調控區,以及外顯子和內含子區域的SNP可能和基因的功能直接相關[17]。同時,對contigs中所含的SNP數量進行統計分析發現,組成contigs的EST序列條數越多,堿基數越多,發現的候選SNP位點的數量也就越多,這同Duran等在研究大麥EST序列時發現的結果基本一致但是具體每個類型的contigs所含的SNP位點數沒有發現明顯的規律[18],這可能跟不同物種其多態性位點分布不同有關。
大多數動植物沒有全基因組序列的數據,但是有大量的EST數據可供大家分析利用,EST本身就是表達基因的片段,因此基于EST序列的的SNP可能與基因的功能以及目標的性狀有更多的關聯,本研究從NCBI中的dbEST序列中下載了28 512條甘蔗EST序列,分析了92個由EST序列組成的contigs,這些contigs長度共計105 385 bp,發現候選SNP位點 1 449 個,SNP平均出現頻率為3.48%,總共有74個contigs含有SNP位點,平均1個contig含有19.58個SNP位點,平均每72.93 bp發現1個候選SNP位點,低于水稻基因組中SNP發生頻率接近(水稻平均每89 bp有1個SNP)[19],高于玉米基因組SNP發生頻率(玉米基因組平均每61 bp有1個SNP)[9]。由此可見,SNP在禾本科植物中的發生頻率相差不大。接下來準備根據發掘到的SNP位點設計相應的SNP引物,并進行測序和酶切相結合的方法來驗證發掘的SNP位點的可靠性,以期為甘蔗的分子遺傳研究提供一定的參考。
參考文獻:
[1]Hyten D L,Choi I Y,Song Q J,et al. A high density integrated genetic linkage map of soybean and the development of a 1 536 universal soy linkage panel for quantitative trait locus mapping[J]. Crop Science,2010,50(3):960-968.
[2]Singh A,Singh P K,Singh R,et al. SNP haplotypes of the BADH1 gene and their association with aroma in rice (Oryza sativa L.)[J]. Molecular Breeding,2010,26(2):325-338.
[3]van Inghelandt D,Melchinger A E,Lebreton C,et al. Population structure and genetic diversity in a commercial maize breeding program assessed with SSR and SNP markers[J]. Theoretical and Applied Genetics,2010,120(7):1289-1299.
[4]Jiang D,Ye Q L,Wang F S,et al. The mining of citrus EST-SNP and its application in cultivar discrimination[J]. Agricultural Sciences in China,2010,9(2):179-190.
[5]Kim S,Misra A. SNP genotyping:technologies and biomedical applications[J]. Annual Review of Biomedical Engineering,2007,9:289-320.
[6]Chen Q Q,Zhan X J,Lan J Y,et al. Study progresson application of EST(expressed sequence tags)in the functional genomics[J]. Chinese Agricultural Science Bulletin,2010,26(3):59-63.
[7]Picoult-Newberg L,Ideker T E,Pohl M G,et al. Milling SNPs from EST databases[J]. Genome Research,1999,9(2):167-174.
[8]李雪姣,張 耿,顧愛俠,等. 蕓薹屬作物EST-SNP的發掘與分析[J]. 植物遺傳資源學報,2010,11(6):772-776.
[9]Ching A,Caldwell K S,Jung M,et al. SNP frequency,haplotype structure and linkage disequilibrium in elite maize inbred lines[J]. BMC Genetics,2002,3:19.
[10]李 猛,郭大龍,劉崇懷,等. 葡糖EST-SNP位點的信息與特征[J]. 浙江大學學報:農業與生命科學版,2012,38(3):263-270.
[11]Wang S,Sha Z,Sonstegard T S,et al. Quality assessment parameters for EST-derived SNPs from catfish[J]. BMC Genomics,2008,9:450.
[12]Fornage M,Doris P A. Single-nucleotide polymorphism genotyping for disease association studies[J]. Methods in Molecular Medicine,2005,108:159-172.
[13]Gu Z,Hillier L,Kwok P Y. Single nucleotide polymorphism hunting in cyberspace[J]. Human Mutation,1998,12(4):221-225.
[14]Buetow K H,Edmonson M N,Cassidy A B. Reliable identification of large numbers of candidate SNPs from public EST data[J]. Nature Genetics,1999,21(3):323-325.
[15]劉新龍,毛 鈞,陸 鑫,等. 甘蔗SSR和AFLP分子遺傳連鎖圖譜構建[J]. 作物學報,2010,36(1):177-183.
[16]Zhao W,Wang J,He X,et al. BGI-RIS:an integrated information resource and comparative analysis workbench for rice genomics[J]. Nucleic Acids Research,2004,32:D377-D382.
[17]劉學軍,閆雙勇,劉小紅,等. 植物SNP數據庫及轉化CAPS的方法[J]. 分子植物育種,2006,4(3):443-447.
[18]Duran C,Appleby N,Vardy M,et al. Single nucleotide polymorphism discovery in barley using autoSNPdb[J]. Plant Biotechnology Journal,2009,7(4):326-333.
[19]Nasu S,Suzuki J,Ohta R,et al. Search for and analysis of single nucleotide polymorphisms(SNPs) in rice and establishment of SNP markers[J]. DNA Research,2002,9:163-171.