孫正文,匡猛,馬峙英,王省芬
?
利用CottonSNP63K芯片構(gòu)建棉花品種的指紋圖譜
孫正文1,匡猛2,馬峙英1,王省芬1
(1河北農(nóng)業(yè)大學(xué)農(nóng)學(xué)院/教育部華北作物種質(zhì)資源研究與利用重點(diǎn)實(shí)驗(yàn)室,河北保定 071001;2中國(guó)農(nóng)業(yè)科學(xué)院棉花研究所/棉花生物學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室,河南安陽(yáng) 455000)
利用SNP位點(diǎn)的單拷貝特性,結(jié)合陸地棉TM-1參考基因組序列信息,篩選基因組特異的SNP。以719份遺傳背景來(lái)源廣泛的陸地棉種質(zhì)資源為材料,采用Illumina公司開發(fā)的CottonSNP63K芯片,利用GenomeStudio軟件對(duì)芯片掃描所獲得原始數(shù)據(jù)進(jìn)行基因型數(shù)據(jù)質(zhì)量控制,獲得待測(cè)樣品SNP位點(diǎn)的基因型數(shù)據(jù)。根據(jù)已公布的陸地棉TM-1基因組的兩個(gè)版本——中國(guó)農(nóng)業(yè)科學(xué)院棉花研究所版本(AD1)genome BGI v1.0與南京農(nóng)業(yè)大學(xué)版本(AD1)genome NBI v1.1為參考序列,對(duì)CottonSNP63K芯片(63 058個(gè)SNP)各位點(diǎn)的側(cè)翼序列分別進(jìn)行全基因組Blast比對(duì)分析,以篩選具有單拷貝特性的特異SNP位點(diǎn)并用于樣品指紋圖譜的構(gòu)建。利用CottonSNP63K芯片對(duì)719份材料進(jìn)行SNP位點(diǎn)基因分型,主要表現(xiàn)為無(wú)檢出信號(hào)的SNP位點(diǎn)、無(wú)多態(tài)性的SNP位點(diǎn)、具有多態(tài)性的SNP位點(diǎn),而具有多態(tài)性的SNP位點(diǎn)的分型結(jié)果又可分為單位點(diǎn)SNP(基因組特異SNP)、雙位點(diǎn)SNP和多位點(diǎn)SNP。通過(guò)對(duì)兩個(gè)已公布的陸地棉TM-1參考基因組序列Blast比對(duì)結(jié)果表明,中國(guó)農(nóng)業(yè)科學(xué)院棉花研究所TM-1基因組版本比對(duì)獲得基因組特異SNP標(biāo)記為5 474個(gè),而南京農(nóng)業(yè)大學(xué)TM-1基因組版本比對(duì)獲得基因組特異SNP標(biāo)記僅為1 850個(gè),兩者共有的特異SNP為1 594個(gè),進(jìn)一步通過(guò)分型效果、檢出率及多態(tài)性3個(gè)評(píng)價(jià)指標(biāo),篩選score值≥0.7,call frequency值≥0.95,且MAF值≥0.2的SNP位點(diǎn),獲得471個(gè)分型效果理想,檢出率高且多態(tài)性較高的特異SNP位點(diǎn)。在471個(gè)SNP位點(diǎn)中,430個(gè)位于染色體上,41個(gè)位于scaffold片段上。考慮到標(biāo)記間的連鎖程度,剔除連鎖標(biāo)記37個(gè),最終獲得393個(gè)核心SNP位點(diǎn)。利用393個(gè)核心SNP構(gòu)建了719份品種資源的特征DNA指紋圖譜,除個(gè)別材料之間遺傳背景高度相似、基因型完全一致外,97%的材料均能實(shí)現(xiàn)準(zhǔn)確有效的鑒別。篩選出393個(gè)基因組特異的SNP,并利用這些核心SNP構(gòu)建了719份資源材料的特征DNA指紋圖譜,為SNP分子標(biāo)記應(yīng)用于棉花重要性狀遺傳改良提供了參考。
棉花;SNP標(biāo)記;GenomeStudio;芯片分型;指紋圖譜
【研究意義】陸地棉(,AADD,2n=4x=52)為異源四倍體棉種,是世界范圍內(nèi)重要的經(jīng)濟(jì)作物,約占全球棉花種植總面積的95%[1]。陸地棉由亞洲棉(,AA)和雷蒙德氏棉(,DD)雜交加倍而來(lái)[2],在人工馴化選擇下,其性狀不斷按照人類需求的方向進(jìn)化發(fā)展,包括高產(chǎn)、優(yōu)質(zhì)、較強(qiáng)耐逆性以及廣泛的適應(yīng)性[3]。SNP(single nucleotide polymorphism)即單核苷酸多態(tài)性,是指在基因組水平上由于單個(gè)核苷酸變異(轉(zhuǎn)換、顛換、缺失和插入等)引起的DNA序列多態(tài)性。SNP在基因組中分布率極高,是很多物種基因組的最常見變異形式[4]。作為最新一代的分子標(biāo)記,SNP標(biāo)記由于具有數(shù)量多、分布廣、遺傳的穩(wěn)定性、易于自動(dòng)化操作等優(yōu)勢(shì),已成為繼SSR標(biāo)記之后最具潛力的第3代分子標(biāo)記,近年來(lái)已被廣泛應(yīng)用于農(nóng)作物遺傳圖譜構(gòu)建、遺傳多樣性分析、品種鑒定和分子標(biāo)記輔助選擇育種等[5-7],逐漸成為主流的分子標(biāo)記。【前人研究進(jìn)展】隨著棉花D基因組[2-8]、A基因組[9]和AD基因組[10-11]測(cè)序工作的相繼完成以及新一代測(cè)序技術(shù)、基因芯片技術(shù)的迅速發(fā)展,加快了分子標(biāo)記技術(shù)的應(yīng)用,尤其是SNP標(biāo)記的大規(guī)模開發(fā)與研究,將對(duì)陸地棉復(fù)雜性狀的基因定位以及優(yōu)良品種的選育起到巨大的推動(dòng)作用[12-13]。隨著SNP標(biāo)記技術(shù)的逐漸完善,相應(yīng)的SNP檢測(cè)技術(shù)也不斷發(fā)展,而SNP芯片作為一種集高通量、微型化和自動(dòng)化等優(yōu)點(diǎn)為一體的檢測(cè)手段,其基本原理是通過(guò)將待測(cè)樣本DNA與固定在載體上的密集的寡核苷酸探針陣列進(jìn)行等位基因特異性雜交反應(yīng),根據(jù)釋放的熒光信號(hào)有無(wú)和強(qiáng)弱確定SNP位點(diǎn)。基因組序列中存在4種堿基,SNP可以是二等位多態(tài)性,也可以是三或四等位多態(tài)性,但實(shí)際情況中常以二等位多態(tài)性為主,因此便于估計(jì)其等位基因頻率并進(jìn)行基因型的自動(dòng)化分析[14]。目前商業(yè)化的SNP芯片主要有兩類,分別由美國(guó)Affymetrix和Illumina公司開發(fā),其中最具代表性的是Illumina公司開發(fā)的Goldengate以及Infinium高通量分析技術(shù)。大規(guī)模、高通量SNP芯片檢測(cè)最先在人類群體遺傳學(xué)研究中得到廣泛應(yīng)用,并在人類關(guān)聯(lián)分析上取得較大進(jìn)展[15-16]。SNP芯片也被應(yīng)用于一些家畜全基因組關(guān)聯(lián)分析、QTL定位、候選基因篩選[17-18]。而在棉花中,Hulse-Kemp等[19]基于Infinium技術(shù)成功開發(fā)出首款包含45 104個(gè)陸地棉種內(nèi)的SNP標(biāo)記和17 954個(gè)陸地棉與其他棉種的種間SNP標(biāo)記的高密度(63K)芯片,單張芯片可一次性檢測(cè)24個(gè)樣品,并用1 156個(gè)樣本對(duì)其進(jìn)行了驗(yàn)證,分析出38 822個(gè)多態(tài)性標(biāo)記。這為棉花中SNP標(biāo)記的真正大規(guī)模檢測(cè)開辟了先河[20-21]。目前,該芯片已被用于棉花高密度遺傳圖譜構(gòu)建和纖維品質(zhì)、產(chǎn)量、農(nóng)藝性狀的QTL定位[22-23]。另外,高效的數(shù)據(jù)分析工具對(duì)SNP的鑒別是必不可少的。Illumina公司成功開發(fā)的GenomeStudio軟件,可以分析微陣列和測(cè)序產(chǎn)生的數(shù)據(jù)。對(duì)于研究人員來(lái)說(shuō),GenomeStudio軟件能夠?qū)崿F(xiàn)多種應(yīng)用中的生物變異關(guān)聯(lián),并將結(jié)果以圖形顯示,這種分型方案適用于所有二倍體物種,在水稻、玉米等植物遺傳圖譜構(gòu)建及多樣性分析等方面已得到了廣泛的應(yīng)用[24-25]。【本研究切入點(diǎn)】然而,對(duì)于異源四倍體的棉花栽培種,亞組間的同源染色體與亞組內(nèi)的重復(fù)序列導(dǎo)致大部分標(biāo)記具有多拷貝的情況,從而給SNP的準(zhǔn)確分型帶來(lái)了種種困難。通過(guò)篩選具有單拷貝特性的SNP位點(diǎn),可將復(fù)雜的多倍體分型轉(zhuǎn)化為二倍體分型,是一種行之有效的手段。【擬解決的關(guān)鍵問(wèn)題】結(jié)合四倍體陸地棉TM-1參考基因組序列信息,篩選一批基因組特異的SNP,推動(dòng)SNP標(biāo)記在棉花種質(zhì)資源鑒定、群體進(jìn)化分析以及分子標(biāo)記輔助育種等方面的應(yīng)用。
試驗(yàn)于2014年在河北農(nóng)業(yè)大學(xué)棉花遺傳育種研究室完成。
供試材料為遺傳背景來(lái)源廣泛的719份陸地棉種質(zhì)資源[22],由河北農(nóng)業(yè)大學(xué)棉花遺傳育種研究室收集保存,其中包括588份來(lái)自中國(guó)不同省份的陸地棉品種,以及131份來(lái)自美國(guó)、前蘇聯(lián)等其他國(guó)家的陸地棉品種。
采用改良CTAB法[26]提取719份材料幼嫩葉片基因組DNA,用0.8%瓊脂糖電泳和Nano Drop 2000分光光度計(jì)檢測(cè)所提取DNA的質(zhì)量,以滿足SNP檢測(cè)的質(zhì)量要求:即瓊脂糖電泳顯示DNA條帶單一,沒(méi)有明顯彌散;紫外分光光度計(jì)檢測(cè)A260/A280介于1.8—2.0,且DNA濃度>50 ng·μL-1。
采用Illumina公司開發(fā)的CottonSNP63K芯片,包括63 058個(gè)SNP標(biāo)記。SNP檢測(cè)參照標(biāo)準(zhǔn)實(shí)驗(yàn)流程(基于光纖微珠芯片的Infinium技術(shù))進(jìn)行,用iScan芯片掃描儀對(duì)雜交結(jié)果進(jìn)行掃描,獲得原始數(shù)據(jù)。利用GenomeStudio軟件對(duì)芯片掃描所獲得原始數(shù)據(jù)進(jìn)行基因型數(shù)據(jù)質(zhì)量控制分析,獲得待測(cè)四倍體棉花樣品SNP位點(diǎn)的基因型。根據(jù)中國(guó)農(nóng)業(yè)科學(xué)院棉花研究所版本(AD1)genome BGI v1.0與南京農(nóng)業(yè)大學(xué)版本(AD1)genome NBI v1.1兩個(gè)陸地棉TM-1基因組為參考序列,對(duì)CottonSNP63K芯片各SNP位點(diǎn)的側(cè)翼序列分別進(jìn)行全基因組BLAST比對(duì)分析,以篩選基因組特異SNP位點(diǎn),利用PowerMarker v3.25軟件[27]進(jìn)行遺傳分析。
基于CottonSNP63K芯片對(duì)供試的719份棉花材料進(jìn)行基因分型,統(tǒng)計(jì)分析結(jié)果表明,SNP位點(diǎn)主要表現(xiàn)為以下幾種類型:無(wú)檢出信號(hào)的SNP位點(diǎn)(圖1)、無(wú)多態(tài)性的SNP位點(diǎn)(圖2)和具有多態(tài)性的SNP位點(diǎn)(圖3)。而具有多態(tài)性的SNP位點(diǎn)分型結(jié)果主要表現(xiàn)為以下3種類型:第Ⅰ種是雙位點(diǎn)SNP,即在基因組上具有兩個(gè)拷貝,且這兩個(gè)拷貝一般成對(duì)分布于兩條部分同源染色體上,具體可表現(xiàn)為雙位點(diǎn)單態(tài)(兩個(gè)拷貝中僅一個(gè)拷貝表現(xiàn)出多態(tài))和雙位點(diǎn)雙態(tài)(兩個(gè)拷貝均表現(xiàn)出多態(tài));其中,雙位點(diǎn)單態(tài)SNP可Cluster為3種基因型,3種基因型既有可能位于分型圖的左半側(cè)(圖3-A,從左到右基因型依次為AAAA、AAAB和AABB),也有可能位于分型圖的右半側(cè)(圖3-B,從左到右基因型依次為AABB、ABBB和BBBB);而雙位點(diǎn)雙態(tài)可Cluster為5種基因型(圖3-C,從左到右基因型依次為AAAA、AAAB、AABB、ABBB和BBBB)。第Ⅱ種是多位點(diǎn)SNP,即在基因組上具有兩個(gè)以上的拷貝,具體表現(xiàn)為多位點(diǎn)多態(tài)(多個(gè)位點(diǎn)均表現(xiàn)出多態(tài)性)和多位點(diǎn)單態(tài)(多個(gè)位點(diǎn)中僅一個(gè)位點(diǎn)表現(xiàn)出多態(tài));圖3-D所示為三位點(diǎn)三態(tài)的SNP分型圖,可Cluster為7種基因型,從左到右基因型依次為AAAAAA、AAAAAB、AAAABB、AAABBB、AABBBB、ABBBBB及BBBBBB。圖3-E為多位點(diǎn)單態(tài)的SNP分型圖,可Cluster為3種基因型,且3種基因型距離很近,難也分辨。第Ⅲ種是單位點(diǎn)SNP(基因組特異SNP),即在基因組上只有一個(gè)拷貝,這種基因組特異SNP具有二倍體作物SNP的特性,分型相對(duì)簡(jiǎn)單,可Cluster為3種基因型(圖3-F),從左到右基因型依次為AA、AB和BB型,這種基因組特異SNP位點(diǎn)通過(guò)軟件即可實(shí)現(xiàn)自動(dòng)準(zhǔn)確的分型,無(wú)需手動(dòng)對(duì)Cluster結(jié)果進(jìn)行優(yōu)化調(diào)整,非常適合于品種指紋圖譜的構(gòu)建。

坐標(biāo)軸表示標(biāo)準(zhǔn)化的信號(hào)強(qiáng)度。圖2、圖3同Axis was normalized signal intensity. The same as Fig. 2, Fig. 3

圖片中的數(shù)字代表相應(yīng)基因型的樣品個(gè)數(shù)。圖3同The numbers in the picture indicated individuals of the corresponding genotypes. The same as Fig. 3
Blast比對(duì)結(jié)果表明,中國(guó)農(nóng)業(yè)科學(xué)院棉花研究所TM-1基因組版本比對(duì)獲得特異SNP標(biāo)記為5 474個(gè),占8.6%,其中4 186個(gè)SNP標(biāo)記位于拼接的染色體上,占76.5%,染色體分布情況見表1,At亞組平均每條染色體具有114個(gè)基因組特異SNP標(biāo)記,而Dt亞組平均每條染色體具有208個(gè)特異SNP標(biāo)記,即Dt亞組所含有的特異SNP約為At亞組的兩倍。特異SNP標(biāo)記最多的是Dt_chr9號(hào)染色體,多達(dá)592個(gè),而對(duì)應(yīng)的部分同源染色體At_chr9在At亞組上也含有最多的單位點(diǎn)SNP標(biāo)記。特異SNP標(biāo)記數(shù)量最少的是At_chr5,僅有67個(gè)。
利用南京農(nóng)業(yè)大學(xué)TM-1基因組版本比對(duì)獲得的基因組特異SNP標(biāo)記僅為1 850個(gè),占2.9%,其中1 653個(gè)SNP標(biāo)記位于拼接的染色體上,占89.4%,染色體分布情況見表2。At亞組平均每條染色體具有61個(gè)SNP標(biāo)記,Dt亞組平均每條染色體具有66個(gè)SNP標(biāo)記,即At亞組與Dt亞組的特異SNP平均數(shù)量是相當(dāng)?shù)摹挝稽c(diǎn)SNP標(biāo)記最多的是D05號(hào)染色體,為121個(gè),最少的是D11號(hào)染色體,僅33個(gè)。
以兩個(gè)陸地棉TM-1基因組版本作為參考序列分別Blast比對(duì)獲得的特異SNP標(biāo)記中,共有的特異SNP為1 594個(gè),將這些SNP標(biāo)記在兩個(gè)參考基因組上的染色體物理位置信息進(jìn)行比對(duì),結(jié)果表明(表3),13對(duì)部分同源染色體中,9對(duì)部分同源染色體的對(duì)應(yīng)關(guān)系在兩個(gè)基因組版本中是吻合的,4對(duì)部分同源染色體的對(duì)應(yīng)關(guān)系在兩個(gè)版本中不完全吻合,這可能是由于At亞組內(nèi)的At_chr3與At_chr5,At_chr7與At_chr1,Dt亞組內(nèi)的Dt_chr5與Dt_chr3,Dt_chr1與Dt_chr7存在較高的亞組內(nèi)同源性。兩個(gè)陸地棉TM-1參考基因組比對(duì)結(jié)果的差異可能是由于基因組序列組裝過(guò)程中所使用的遺傳群體或算法差異等因素所導(dǎo)致。
以兩個(gè)陸地棉TM-1基因組版本所共有的1 594個(gè)特異SNP作為候選標(biāo)記,利用719份材料對(duì)這些SNP位點(diǎn)進(jìn)行全面評(píng)估與篩選。
2.3.1 SNP分型效果評(píng)估 GenomeStudio軟件獲得的GenTrain score值為0—1.00,該數(shù)值反應(yīng)了3種基因型Cluster分型結(jié)果的準(zhǔn)確性,score值越大,數(shù)據(jù)點(diǎn)的準(zhǔn)確性與可靠性越高。1 594個(gè)特異SNP的GenTrain score值統(tǒng)計(jì)結(jié)果如下(圖 4):score值≤0.60的SNP位點(diǎn)僅有133個(gè),占8.3%;score值在0.6—0.7的SNP位點(diǎn)有92個(gè),占5.8%;score值>0.7的位點(diǎn)有1 369個(gè),占85.9%,表明絕大部分基因組特異SNP分型效果較為理想。


表1 特異SNP染色體分布情況(BGIv1.0)

表2 特異SNP染色體分布情況(NBI v1.1)
2.3.2 SNP分型檢出率評(píng)估 Call frequency值反映受檢所有樣品在每個(gè)SNP位點(diǎn)的檢出率,1 594個(gè)特異SNP的call frequency值統(tǒng)計(jì)結(jié)果如圖5所示,在719份材料中call frequency值≥0.95共有1 520個(gè),其中完全檢出的有1 466個(gè),占92%;call frequency值在0.01—0.94的SNP位點(diǎn)有31個(gè),占1.9%;完全未檢出的SNP位點(diǎn)有43個(gè),僅占2.7%,表明絕大部分基因組特異SNP具有極好的穩(wěn)定性與重復(fù)性。

表3 兩個(gè)陸地棉TM-1基因組版本染色體編號(hào)對(duì)應(yīng)關(guān)系

圖4 基于1 594個(gè)特異SNP的GenTrain值分布情況

圖5 基于1 594個(gè)特異SNP的檢出率分布情況
2.3.3 SNP多態(tài)性評(píng)估 最小等位基因頻率(minor allele frequency,MAF)可反映各SNP位點(diǎn)在受檢樣品中的遺傳多樣性水平,1 594個(gè)特異SNP的MAF值<0.2的SNP位點(diǎn)達(dá)1 037個(gè),占65.1%;MAF值≥0.2的SNP位點(diǎn)有557個(gè),僅占34.9%(圖6),表明陸地棉遺傳背景比較狹窄,大部分SNP位點(diǎn)多樣性較低。
2.3.4 核心SNP位點(diǎn)篩選 基于以上評(píng)估結(jié)果,綜合考慮分型效果、檢出率及多態(tài)性3個(gè)評(píng)價(jià)指標(biāo),即篩選score值≥0.7,call frequency值≥0.95,且MAF值≥0.2的SNP位點(diǎn),共獲得471個(gè)分型效果理想、檢出率高且多態(tài)性較高的特異SNP位點(diǎn)(定義為核心SNP位點(diǎn))。在471個(gè)SNP位點(diǎn)中,去除41個(gè)位于scaffold片段上的位點(diǎn),其余430個(gè)位于染色體上。進(jìn)一步考慮到標(biāo)記間的連鎖程度,剔除物理位置鄰近且遺傳多樣性與分型結(jié)果完全相同的37個(gè)連鎖標(biāo)記,最后獲得393個(gè)核心SNP位點(diǎn),平均每條染色體為15個(gè),染色體具體分布情況見圖7。A亞組中,核心位點(diǎn)最多的是A01,達(dá)28個(gè),最少的是A06,僅5個(gè);D亞組中,核心位點(diǎn)最多的是D02,達(dá)30個(gè),最少的是D03,僅4個(gè)(表4)。核心SNP位點(diǎn)在染色體上的不對(duì)稱分布可能是由于染色體的大小不同、遺傳重組率差異等因素造成的。

圖6 基于1 594個(gè)特異SNP的最小等位基因頻率分布情況
2.3.5 品種特征指紋圖譜構(gòu)建 利用393個(gè)核心SNP組合構(gòu)建了719份資源材料的特征DNA指紋圖譜,每行代表一個(gè)品種,每列代表一個(gè)SNP標(biāo)記(圖8),結(jié)果表明,除個(gè)別材料之間遺傳背景高度相似、基因型完全一致外,97%以上的材料之間均能實(shí)現(xiàn)準(zhǔn)確有效的鑒別。基于GenomeStudio軟件的基因型數(shù)據(jù)統(tǒng)計(jì)結(jié)果顯示(表5),平均score值達(dá)0.9,call frequency值達(dá)1.00,MAF值達(dá)0.4;基于PowerMarker統(tǒng)計(jì)結(jié)果(表5),gene diversity平均值為0.45,PIC平均值為0.35。表明這套核心SNP標(biāo)記同時(shí)具備理想的分型效果、高檢出率及高多態(tài)性的優(yōu)點(diǎn),完全滿足棉花品種DNA身份鑒定對(duì)高質(zhì)量標(biāo)記的要求,可以應(yīng)用于大量樣品的指紋數(shù)據(jù)庫(kù)構(gòu)建及遺傳多樣性分析。
SSR標(biāo)記在品種指紋圖譜構(gòu)建方面一直發(fā)揮著重要作用[28-29]。隨著基因組學(xué)的快速發(fā)展,重要農(nóng)作物的指紋圖譜構(gòu)建開始傾向于應(yīng)用SNP標(biāo)記,兩種標(biāo)記技術(shù)均適合品種指紋分析,各自具有優(yōu)缺點(diǎn),且可優(yōu)勢(shì)互補(bǔ)。SSR標(biāo)記的優(yōu)勢(shì)表現(xiàn)為:(1)SSR標(biāo)記一般不受選擇壓的影響,為中性變異位點(diǎn),屬于最適合品種鑒定的標(biāo)記;(2)就單個(gè)位點(diǎn)而言,SSR比SNP展示了更高的多態(tài)性;(3)SSR技術(shù)相對(duì)成熟,研究基礎(chǔ)較強(qiáng),易推廣應(yīng)用;(4)單個(gè)樣品檢測(cè)成本低。而SSR標(biāo)記技術(shù)也存在兩個(gè)方面的局限性:(1)不同平臺(tái)之間數(shù)據(jù)不能直接比較、整合,需要設(shè)立參照樣品;(2)檢測(cè)通量相對(duì)較低,且引物位點(diǎn)數(shù)量增加時(shí),檢測(cè)工作量和成本都隨之增加。相比之下,SNP標(biāo)記技術(shù)的優(yōu)勢(shì):(1)易實(shí)現(xiàn)數(shù)據(jù)間比較整合,代表基因組中最小的遺傳變異單元,并且數(shù)據(jù)統(tǒng)計(jì)相對(duì)簡(jiǎn)單;(2)易實(shí)現(xiàn)高通量檢測(cè),位點(diǎn)檢測(cè)通量可達(dá)成千上萬(wàn)。當(dāng)前SNP標(biāo)記技術(shù)局限性主要為儀器成本較高,推廣應(yīng)用較難。因此,應(yīng)繼續(xù)發(fā)揮SSR標(biāo)記技術(shù)的作用,并積極研發(fā)推進(jìn)SNP檢測(cè)技術(shù)。


圖7 393個(gè)核心SNP位點(diǎn)的染色體分布圖

圖8 品種特征指紋圖譜的總體圖與局部放大圖

表4 393個(gè)核心SNP位點(diǎn)基于陸地棉TM-1基因組(NBI v1.1)的分布情況

表5 核心SNP位點(diǎn)評(píng)價(jià)情況
目前,SNP檢測(cè)技術(shù)已被國(guó)際種子檢驗(yàn)協(xié)會(huì)(ISTA)、國(guó)際植物新品種保護(hù)聯(lián)盟(UPOV)、國(guó)際種子聯(lián)盟(ISF)等國(guó)際組織推薦為品種身份鑒定的輔助方法[30-31]。SNP標(biāo)記檢測(cè)手段較多,目前主流的SNP分型技術(shù)均是基于高通量的檢測(cè)平臺(tái),主要包括位點(diǎn)高通量的芯片檢測(cè)平臺(tái)與樣品高通量的檢測(cè)平臺(tái),如本研究所采用的棉花CottonSNP63K芯片是由美國(guó)、澳大利亞等國(guó)家的研究人員與Illumina公司共同合作開發(fā)的全球第一款商業(yè)化的棉花SNP芯片產(chǎn)品,一次試驗(yàn)即可實(shí)現(xiàn)對(duì)棉花全基因組63 058個(gè)SNP位點(diǎn)的同時(shí)檢測(cè),所獲得的遺傳信息數(shù)據(jù)量是SSR標(biāo)記所遠(yuǎn)不能及的。目前該芯片產(chǎn)品已被應(yīng)用于棉花全基因組關(guān)聯(lián)分析、高密度遺傳連鎖圖譜的繪制及QTL定位等研究中[22-23]。
SNP標(biāo)記高通量的檢測(cè)技術(shù)與數(shù)據(jù)分析的實(shí)現(xiàn)主要是基于其二等位變異的遺傳特性:利用兩種不同的熒光基團(tuán)分別標(biāo)記兩種不同的等位變異,通過(guò)熒光檢測(cè)系統(tǒng),即可實(shí)現(xiàn)兩種純合與一種雜合基因型的有效鑒別,這種分型方案適用于所有二倍體物種,在水稻、玉米等植物遺傳圖譜構(gòu)建及多樣性分析等方面已得到了廣泛的應(yīng)用[24-25]。然而,對(duì)于多倍體作物,亞組間的同源染色體與亞組內(nèi)的重復(fù)序列導(dǎo)致大部分標(biāo)記具有多拷貝的特性,多拷貝的特性給SNP的準(zhǔn)確分型帶來(lái)了諸如上述的種種困難,而通過(guò)篩選具有單拷貝特性的SNP位點(diǎn),可將復(fù)雜的多倍體分型轉(zhuǎn)化為二倍體分型,是一種有效的手段。本研究結(jié)合兩個(gè)已發(fā)表的四倍體陸地棉參考基因組為參考序列,比較兩個(gè)基因組中共同存在的SNP位點(diǎn),避免不同基因組組裝上差異,使得到的SNP位點(diǎn)更可靠,最終篩選出一批基因組特異的SNP。然而,由于陸地棉A亞組與D亞組具有極高的同源性,導(dǎo)致特異SNP數(shù)量不足10%,且符合品種鑒定需求的高質(zhì)量標(biāo)記更少。由于目前陸地棉四倍體基因組測(cè)序工作才剛完成[10-11],可供篩選的SNP標(biāo)記數(shù)量仍然有限,為滿足大規(guī)模檢測(cè)與指紋數(shù)據(jù)庫(kù)構(gòu)建的需要,還需進(jìn)行大量SNP標(biāo)記的開發(fā)與篩選工作[32],以達(dá)到理想的品種鑒定效果。同時(shí),隨著棉花功能基因組學(xué)和基因工程研究的快速發(fā)展,眾多的已知功能基因?qū)⒌玫娇寺『蜏y(cè)序。而SNP標(biāo)記相比其他分子標(biāo)記,與功能基因的關(guān)聯(lián)度更高,更容易開發(fā)到與性狀相關(guān)的功能標(biāo)記,從而將標(biāo)記和性狀聯(lián)系起來(lái),為SNP標(biāo)記在棉花品種鑒定中的應(yīng)用展現(xiàn)了更加廣闊的前景。
利用CottonSNP63K芯片對(duì)719份陸地棉種質(zhì)資源進(jìn)行SNP基因分型,篩選出393個(gè)基因組特異的SNP,并進(jìn)一步利用這些核心SNP構(gòu)建了719份資源材料的特征DNA指紋圖譜。
[1] CHEN Z J, SCHEFFLER B E, DENNIS E, TRIPLETT B A, ZHANG T, GUO W, CHEN X, STELLY D M, RABINOWICZ P D, TOWN C D, ARIOLI T, BRUBAKER C, CANTRELL R G, LACAPE J M, ULLOA M, CHEE P, GINGLE A R, HAIGLER C H, PERCY R, SAHA S, WILKINS T, WRIGHT R J, VAN DEYNZE A, ZHU Y, YU S, ABDURAKHMONOV I, KATAGERI I, KUMAR P A, MEHBOOB UR R, ZAFAR Y, YU J Z, KOHEL R J, WENDEL J F, PATERSON A H. Toward sequencing cotton () genomes., 2007, 145(4): 1303-1310.
[2] PATERSON A H, WENDEL J F, GUNDLACH H, GUO H, JENKINS J, JIN D, LLEWELLYN D, SHOWMAKER K C, SHU S, UDALL J, YOO M J, BYERS R, CHEN W, DORON-FAIGENBOIM A, DUKE M V, GONG L, GRIMWOOD J, GROVER C, GRUPP K, HU G, LEE T H, LI J, LIN L, LIU T, MARLER B S, PAGE J T, ROBERTS A W, ROMANEL E, SANDERS W S, SZADKOWSKI E, TAN X, TANG H, XU C, WANG J, WANG Z, ZHANG D, ZHANG L, ASHRAFI H, BEDON F, BOWERS J E, BRUBAKER C L, CHEE P W, DAS S, GINGLE A R, HAIGLER C H, HARKER D, HOFFMANN L V, HOVAV R, JONES D C, LEMKE C, MANSOOR S, UR RAHMAN M, RAINVILLE L N, RAMBANI A, REDDY U K, RONG J K, SARANGA Y, SCHEFFLER B E, SCHEFFLER J A, STELLY D M, TRIPLETT B A, VAN DEYNZE A, VASLIN M F, WAGHMARE V N, WALFORD S A, WRIGHT R J, ZAKI E A, ZHANG T, DENNIS E S, MAYER K F, PETERSON D G, ROKHSAR D S, WANG X, SCHMUTZ J. Repeated polyploidization ofgenomes and the evolution of spinnable cotton fibres., 2012, 492(7429): 423-427.
[3] ZHANG H B, LI Y, WANG B, CHEE P W. Recent advances in cotton genomics., 2008, 2008: 742304.
[4] WRAY N R, YANG J, HAYES B J, PRICE A L, GODDARD M E, VISSCHER P M. Pitfalls of predicting complex traits from SNPs., 2013, 14(7): 507-515.
[5] CICHY K A, WIESINGER J A, MENDOZA F A. Genetic diversity and genome-wide association analysis of cooking time in dry bean (L.)., 2015, 128(8): 1555-1567.
[6] ROSTOKS N, RAMSAY L, MACKENZIE K, CARDLE L, BHAT P R, ROOSE M L, SVENSSON J T, STEIN N, VARSHNEY R K, MARSHALL D F, GRANER A, CLOSE T J, WAUGH R. Recent history of artificial outcrossing facilitates whole-genome association mapping in elite inbred crop varieties., 2006, 103(49): 18656-18661.
[7] LU H, LIN T, KLEIN J, WANGS H, QI J, ZHOU Q, SUN J, ZHANG Z, WENG Y, HUANG S. QTL-seq identifies an early flowering QTL located nearin cucumber., 2014, 127(7): 1491-1499.
[8] WANG K, WANG Z, LI F, YE W, WANG J, SONG G, YUE Z, CONG L, SHANG H, ZHU S, ZOU C, LI Q, YUAN Y, LU C, WEI H, GOU C, ZHENG Z, YIN Y, ZHANG X, LIU K, WANG B, SONG C, SHI N, KOHEL R J, PERCY R G, YU J Z, ZHU Y X, WANG J, YU S. The draft genome of a diploid cotton., 2012, 44(10): 1098-1103.
[9] LI F, FAN G, WANG K, SUN F, YUAN Y, SONG G, LI Q, MA Z, LU C, ZOU C, CHEN W, LIANG X, SHANG H, LIU W, SHI C, XIAO G, GOU C, YE W, XU X, ZHANG X, WEI H, LI Z, ZHANG G, WANG J, LIU K, KOHEL R J, PERCY R G, YU J Z, ZHU Y X, WANG J, YU S. Genome sequence of the cultivated cotton., 2014, 46(6): 567-572.
[10] LI F, FAN G, LU C, XIAO G, ZOU C, KOHEL R J, MA Z, SHANG H, MA X, WU J, LIANG X, HUANG G, PERCY R G, LIU K, YANG W, CHEN W, DU X, SHI C, YUAN Y, YE W, LIU X, ZHANG X, LIU W, WEI H, WEI S, HUANG G, ZHANG X, ZHU S, ZHANG H, SUN F, WANG X, LIANG J, WANG J, HE Q, HUANG L, WANG J, CUI J, SONG G, WANG K, XU X, YU J Z, ZHU Y, YU S. Genome sequence of cultivated Upland cotton (TM-1) provides insights into genome evolution., 2015, 33(5): 524-530.
[11] ZHANG T, HU Y, JIANG W, FANG L, GUAN X, CHEN J, ZHANG J, SASKI C A, SCHEFFLER B E, STELLY D M, HULSE-KEMP A M, WAN Q, LIU B, LIU C, WANG S, PAN M, WANG Y, WANG D, YE W, CHANG L, ZHANG W, SONG Q, KIRKBRIDE R C, CHEN X, DENNIS E, LLEWELLYN D J, PETERSON D G, THAXTON P, JONES D C, WANG Q, XU X, ZHANG H, WU H, ZHOU L, MEI G, CHEN S, TIAN Y, XIANG D, LI X, DING J, ZUO Q, TAO L, LIU Y, LI J, LIN Y, HUI Y, CAO Z, CAI C, ZHU X, JIANG Z, ZHOU B, GUO W, LI R, CHEN Z J. Sequencing of allotetraploid cotton (L. acc. TM-1) provides a resource for fiber improvement., 2015, 33(5): 531-537.
[12] WANG S, WONG D, FORREST K, ALLEN A, CHAO S, HUANG B E, MACCAFERRI M, SALVI S, MILNER S G, CATTIVELLI L, MASTRANGELO A M, WHAN A, STEPHEN S, BARKER G, WIESEKE R, PLIESKE J, INTERNATIONAL WHEAT GENOME SEQUENCING C, LILLEMO M, MATHER D, APPELS R, DOLFERUS R, BROWN-GUEDIRA G, KOROL A, AKHUNOVA A R, FEUILLET C, SALSE J, MORGANTE M, POZNIAK C, LUO M C, DVORAK J, MORELL M, DUBCOVSKY J, GANAL M, TUBEROSA R, LAWLEY C, MIKOULITCH I, CAVANAGH C, EDWARDS K J, HAYDEN M, AKHUNOV E. Characterization of polyploid wheat genomic diversity using a high-density 90 000 single nucleotide polymorphism array., 2014, 12(6): 787-796.
[13] LI X, GAO W, GUO H, ZHANG X, FANG D D, LIN Z. Development of EST-based SNP and InDel markers and their utilization in tetraploid cotton genetic mapping., 2014, 15: 1046.
[14] RITCHIE M E, LIU R, CARVALHO B S, AUSTRALIA, The Australia and New Zealand Multiple Sclerosis Genetics Consortium (ANZgene), IRIZARRY R A. Comparing genotyping algorithms for Illumina’s Infinium whole-genome SNP BeadChips., 2011, 12: 68.
[15] CONRAD D F, JAKOBSSON M, COOP G, WEN X, WALL J D, ROSENBERG N A, PRITCHARD J K. A worldwide survey of haplotype variation and linkage disequilibrium in the human genome., 2006, 38(11): 1251-1260.
[16] MANCUSO N, SHI H, GODDARD P, KICHAEV G, GUSEV A, PASANIUC B. Integrating gene expression with summary association statistics to identify genes associated with 30 complex traits., 2017, 100(3): 473-487.
[17] REN X, YANG G L, PENG W F, ZHAO Y X, ZHANG M, CHEN Z H, WU F A, KANTANEN J, SHEN M, LI M H. A genome-wide association study identifies a genomic region for the polycerate phenotype in sheep ()., 2016, 6: 21111.
[18] WANG Z, ZHANG H, YANG H, WANG S, RONG E, PEI W, LI H, WANG N. Genome-wide association study for wool production traits in a Chinese Merino sheep population., 2014, 9(9): e107101.
[19] HULSE-KEMP A M, LEMM J, PLIESKE J, ASHRAFI H, BUYYARAPU R, FANG D D, FRELICHOWSKI J, GIBAND M, HAGUE S, HINZE L L, KOCHAN K J, RIGGS P K, SCHEFFLER J A, UDALL J A, ULLOA M, WANG S S, ZHU Q H, BAG S K, BHARDWAJ A, BURKE J J, BYERS R L, CLAVERIE M, GORE M A, HARKER D B, ISLAM M S, JENKINS J N, JONES D C, LACAPE J M, LLEWELLYN D J, PERCY R G, PEPPER A E, POLAND J A, MOHAN RAI K, SAWANT S V, SINGH S K, SPRIGGS A, TAYLOR J M, WANG F, YOURSTONE S M, ZHENG X, LAWLEY C T, GANAL M W, VAN DEYNZE A, WILSON I W, STELLY D M. Development of a 63K SNP array for cotton and high-density mapping of intraspecific and interspecific populations ofspp., 2015, 5(6): 1187-1209.
[20] KUANG M, WEI S J, WANG Y Q, ZHOU D Y, MA L, FANG D, YANG W H, MA Z Y. Development of a core set of SNP markers for the identification of upland cotton cultivars in China., 2016, 15(5): 954-962.
[21] 匡猛, 王延琴, 周大云, 馬磊, 方丹, 徐雙嬌, 楊偉華, 魏守軍, 馬峙英. 基于單拷貝SNP標(biāo)記的棉花雜交種純度高通量檢測(cè)技術(shù). 棉花學(xué)報(bào), 2016, 28(3): 227-233.
KUANG M, WANG Y Q, ZHOU D Y, MA L, FANG D, XU S J, YANG W H, WEI S J, MA Z Y. High-throughput genotyping assay technology for cotton hybrid purity based on single-copy SNP markers., 2016, 28(3): 227-233. (in Chinese)
[22] SUN Z, WANG X, LIU Z, GU Q, ZHANG Y, LI Z, KE H, YANG J, WU J, WU L, ZHANG G, ZHANG C, MA Z. Genome-wide association study discovered genetic variation and candidate genes of fibre quality traits inL., 2017, doi:10.1111/pbi.12693.
[23] HUANG C, NIE X, SHEN C, YOU C, LI W, ZHAO W, ZHANG X, LIN Z. Population structure and genetic basis of the agronomic traits of upland cotton in China revealed by a genome-wide association study using high-density SNPs., 2017, doi:10.1111/pbi.12722.
[24] ZHAO K, TUNG C W, EIZENGA G C, WRIGHT M H, ALI M L, PRICE A H, NORTON G J, ISLAM M R, REYNOLDS A, MEZEY J, MCCLUNG A M, BUSTAMANTE C D, MCCOUCH S R. Genome-wide association mapping reveals a rich genetic architecture of complex traits in., 2011, 2: 467.
[25] ZHANG X, WARBURTON M L, SETTER T, LIU H, XUE Y, YANG N, YAN J, XIAO Y. Genome-wide association studies of drought-related metabolic changes in maize using an enlarged SNP panel., 2016, 129(8): 1449-1463.
[26] ZHANG J, STEWART J M. Economical and rapid method for extracting cotton genomic DNA., 2000, 4(3): 193-201.
[27] LIU K, MUSE S V. PowerMarker: an integrated analysis environment for genetic marker analysis., 2005, 21(9): 2128-2129.
[28] 王省芬, 馬峙英, 張桂寅, 溫小杰, 李喜煥. SSR和AFLP技術(shù)鑒定棉花遺傳資源的比較研究. 棉花學(xué)報(bào), 2006, 18(6): 391-393.
WANG X F, MA Z Y, ZHANG G Y, WEN X J, LI X H. Comparision of identification for cotton genetic resources using ssr and aflp markers., 2006, 18(6): 391-393. (in Chinese)
[29] 匡猛, 楊偉華, 許紅霞, 王延琴, 周大云, 馮新愛. 中國(guó)棉花主栽品種DNA指紋圖譜構(gòu)建及SSR標(biāo)記遺傳多樣性分析. 中國(guó)農(nóng)業(yè)科學(xué), 2011, 44(1): 20-27.
KUANG M, YANG W H, XU H X, WANG Y Q, ZHOU D Y, FENG A X. Construction of DNA fingerprinting and analysis of genetic diversity with SSR markers for cotton major cultivars in china., 2011, 44(1): 20-27.
[30] RAFALSKI A. Applications of single nucleotide polymorphisms in crop genetics., 2002, 5(2): 94-100.
[31] JONES E S, SULLIVAN H, BHATTRAMAKKI D, SMITH J S. A comparison of simple sequence repeat and single nucleotide polymorphism marker technologies for the genotypic analysis of maize (L.)., 2007, 115(3): 361-371.
[32] 王曉歌, 陰祖軍, 王俊娟, 王德龍, 樊偉麗, 王帥, 葉武威. 陸地棉轉(zhuǎn)錄組耐鹽相關(guān)SNP挖掘及分析. 分子植物育種, 2016, 14(6): 1524-1532.
WANG X G, YIN Z J, WANG J J, WANG D L, FAN W L, WANG S, YE W W. Mining and analyzing of SNP related to salinity stress in transcriptome of upload cotton (L.)., 2016, 14(6): 1524-1532. (in Chinese)
(責(zé)任編輯 岳梅)
Construction of Cotton Variety Fingerprints Using CottonSNP63K Array
SUN Zhengwen1, KUANG Meng2, MA Zhiying1, WANG Xingfen1
(1College of Agronomy, Hebei Agricultural University/North China Key Laboratory for Crop Germplasm Resources of Ministry of Education, Baoding 071001, Hebei;2Institute of Cotton Research, Chinese Academy of Agricultural Sciences/State Key Laboratory of Cotton Biology, Anyang 455000, Henan)
The objective of this study is to screen genomic-specific SNPs, considering the SNP with single loci and the reference genomic sequence information of upland cotton TM-1.Based on 719 natural germplasm resources with plentiful genetic backgrounds, using the CottonSNP63K array developed by Illumina, quality control of the original genotyping data obtained from chip scanning was performed by GenomeStudio software, the genotyping data of the SNP locus of the tested samples were obtained. According to the two publishedTM-1 genome versions, including the(AD1) genome BGI v1.0 of Cotton Research Institute of Chinese Academy of Agricultural Sciences and the(AD1) genome NBI v1.1 of Nanjing Agricultural University, the genome-wide BLAST analysis was performed on the flanking sequences of each SNP with CottonSNP63K (63 058 SNPs) array to screen specific SNP loci with single copy, and these SNPs were used for the construction of fingerprints.SNP genotyping of 719 materials using CottonSNP63K was classified into SNP locus without detectable signal, SNP locus without polymorphism and the polymorphism SNP loci. The polymorphism SNP loci could be divided into double-site SNP, multiple-site SNP and single-site SNP (genomic-specific SNP). The results of the Blast analysis with the two upland cotton TM-1 reference genome sequences showed that there were 5 474 specific SNP markers in the BGI v1.0 version, while NBI v1.1 TM-1 version only 1 850, and the common specific SNPs of both were 1 594. Further considering the three evaluation indexes including the genotyping effect, call rate and polymorphism, the SNPs with scores≥0.7, call frequency≥0.95 and MAF≥0.2 were screened, and 471 specific SNPs with high call rate and high polymorphism were obtained. Among these SNP loci, 430 were on chromosomes and 41 were on scaffolds. Taking into account of the degree of linkage between the markers, finally 393 core SNP loci were obtained after removing 37 linkage markers, and the DNA fingerprints of 719 resource materials were constructed by using 393 core SNPs. The results showed that 97% of the materials could be accurately and effectively identified except for some accessions with similar genetic background.A total of 393 genomic-specific SNPs were screened out, and these core SNPs were used to construct the DNA fingerprints of 719 resource materials. This study will provide a reference for application of SNP molecular markers in genetic improvement of important cotton traits.
cotton; SNP marker; GenomeStudio; genotyping array; fingerprints
2017-05-25;
2017-06-23
國(guó)家棉花產(chǎn)業(yè)技術(shù)體系(CARS-18-08)、河北省科技支撐計(jì)劃(16226307D)、河北農(nóng)業(yè)大學(xué)作物學(xué)科梯隊(duì)建設(shè)基金(TD2016C201)
孫正文,E-mail:sunzhengwen654@163.com。匡猛,E-mail:kuangmeng007@163.com。孫正文和匡猛為同等貢獻(xiàn)作者。
王省芬,E-mail:cotton@hebau.edu.cn
中國(guó)農(nóng)業(yè)科學(xué)2017年24期