賀喬喬 周希希 王業文 李培江 王勝寶 張 羽*
(1.陜西理工大學 生物科學與工程學院/陜西省資源生物重點實驗室,陜西 漢中 723000; 2.陜西省水稻研究所,陜西 漢中 723000)
水稻(OryzasativaL.)是全球主要的糧食作物,也是植物遺傳育種和基因組學研究的模式生物,在種間、種內都具有豐富的遺傳多樣性。種質資源評價可以為加強種質資源的管理、保護與利用奠定基礎。由于不同水稻材料在每個農藝性狀上表現出豐富的表型多樣性,胡標林等[1]以14個表型性狀對1 579份全球水稻種質資源進行遺傳多樣性和優良稻種的分析與評價,結果表明株高、抽穗期、倒伏性、淀粉含量、穎殼色和糙米色性狀可作為種質資源綜合評價的指標。張曉麗等[2]采用統計數據和主成分分析法,對4個東南亞國家的298份水稻種質資源進行表型多樣性分析,結果表明有效穗數的變異系數最大,株高、莖稈長和穗粒數次之,結實率的變異系數最小。23個表型性狀中前8個主成分在總變異中的累計貢獻率達67.99%。張雯雯等[3]用18個農藝性狀對56份云南省滇西北地區的粳稻資源的表型多樣性進行分析,結果表明數量性狀的多樣性指數(1.68~2.06)明顯高于質量性狀(0.60~1.16)。湯翠鳳等[4]用17個農藝性狀的多樣性指數對云南省1 189份水稻地方品種進行了表型多樣性鑒定。
隨著分子生物學的不斷發展,分子標記技術在生物學各個領域的應用已日趨成熟。特別是高通量測序技術的發展是獲得第三代分子標記SNP(single nucleotide polymorphism)的有效途徑,SNP具有在基因組分布密度高、多態性高、遺傳穩定和檢測方法眾多等特點[5],能最大化利用DNA序列的變化。簡化基因組測序(reduced-representation genome sequencing,RRGS)是基于高通量測序技術發展起來的利用酶切降低基因組復雜程度的測序技術,主要分為限制性酶切位點DNA測序RAD-seq、基于測序的基因分型技術GBS(genotyping-by-sequencing)和特異性位點擴增片段測序SLAF-seq[6]。GBS技術的關鍵是運用了甲基化敏感的限制性內切酶,如NlaIII、MseI等Ⅱ型酶,回避了基因組主要的重復區域[7],簡化基因組測序,具有不參考基因組便可進行大量SNP開發的優勢,其在構建遺傳圖譜、遺傳多樣性、QTLs(quantitative trait locus)作圖、群體遺傳學等研究領域被廣泛應用。劉傳光等[8]報道,水稻亞種間及亞種內品種間SNPs都很豐富,在用傳統的分子標記方法難以找到親緣關系近的材料間多態性位點時,用SNPs技術也能找到數量可觀的多態性位點。水稻中平均SNP的發生頻率為0.65%左右。王悅星等[9]報道分布在秈稻12條染色體上的SNPs和單倍型(haplotype)的多態性及分布密度都不同。侯青青等[10]介紹了在水稻中利用SNP芯片分型和重測序SNP分型技術進行水稻重要性狀全基因組關聯分析的方法。李梓榕等[11]開發了一種快速篩選SNP構建DNA指紋圖譜的方法,利用12個SNP標記即可對117份水稻種質進行鑒定。Singh等[12]利用SSR(simple sequence repeat)和SNP兩種標記方法比較了375個印度水稻品種的遺傳多樣性和群體結構的差異,結果表明SNP標記具有更高的群體分辨率,但SSR對多樣性分析更有效。Courtois等[13]利用25對SSR和70個SNPs標記對250份粳稻核心品種進行了表型和結構分析,結果表明SSR和SNP產生的距離矩陣相關性很強。Travis等[14]利用定制的384-SNP芯片對孟加拉的511份水稻品種的遺傳結構進行分析,將511個品種劃分為4個群。Choudhury等[15]利用水稻的12條染色體上的36個非連鎖SNP標記,對6 984份來自印度東北部水稻材料的遺傳多樣性和群體結構進行分析,把6 984份水稻材料劃分為3個亞群。Parida等[16]探索了水稻的抗逆性狀與SNPs的相關性,在384個SNP標記中成功驗證了362個標記,為鑒定和定位性狀相關基因組區域提供了線索。目前,運用基因組學和表型組學對秦巴地區秈稻種質資源的遺傳多樣性研究鮮見報道。本研究利用SNP分子標記和15個表型性狀對秦巴地區198份秈稻種質資源進行遺傳多樣性和群體結構分析,旨在探究秈稻表型性狀的遺傳多樣性信息,以期為挖掘秈稻優異種質資源和分子輔助育種提供參考。
198份秈稻種質資源包括,恢復系材料112個,保持系材料49個,恢保關系不明的材料37個,于陜西省水稻研究所試驗場(106°59′57″ E,33°7′48″ N),按16.7 cm×20.0 cm分株式設計移栽(表1)。每個樣品隨機排列在3個地塊上,地塊之間沒有保護邊緣行。

表1 供試秈稻信息
采用CTAB法[17]提取198份材料幼嫩葉片的DNA,采用NlaIII和MseI分別酶切的GBS技術測序,SNP過濾時采用MAF 0.05對基因頻率進行篩選,其目的是過濾掉會影響后續群體結構分析的低質量SNP。
對198份材料的15個性狀按照《水稻種質資源描述規范和數據標準》[18]進行農藝、經濟和品質性狀調查,在198個樣本的區域中各選取6株植株,連續3年(2017—2019年)觀察記錄,以3年數據的平均值作為15個性狀的表型值。15個性狀包括播始歷期、株高、葉長、葉寬、單株有效穗、穗長、穗總粒數、穗實粒數、千粒重、糙米率、精米率、整精米率、堊白度、堊白粒率、籽粒長寬比。

H’=-∑PilnPi[4]
式中:Pi為分析單元內某個性狀第i級的材料數占總材料數的百分比。
使用SPSS 22.0軟件對連續3年的表型數據進行Z-Scores標準化后,對15個表型數據進行遺傳變異、相關性、主成分分析和歐式距離矩陣分析。使用MEGA 10.0(http:∥www.megasoftware.net/)軟件對15個表型性狀標準化后數據進行可視化聚類,一般近緣序列采用最大簡約法(maxuimum parsimony,MP)或除權配對法(unweighted pair group method arithmetic mean,UPGMA),構建進化樹。采用NTsys-pc v2.1軟件[20]的PCA(principal component analysis)方法對主成分分析結果進行可視化處理。
群體結構分析與控制是進行基因關聯定位的前提,因為復雜的群體結構會導致基因型和表型的假陽性關聯。運用TASSEL 5.0(https:∥www.maizegenetics.net/tassel)對198個樣本的SNPs進行掃描,進行基于Nei’s的遺傳距離(identity-by-state,IBS)計算。采用Structure 2.3.4(http:∥taylor0.biology.ucla.edu/structureHarvesteroybase.org/tools.php)軟件[21]的Bayes聚類算法,模擬群體遺傳結構進行估計,設置隸屬概率閾值為0.60,模擬1到5的種群K,每個K迭代5次,使用10 000個Burning,進行100 000次MCMC(markov chain monte carlo)迭代,以獲得最可能的種群數量的估計。ΔK是根據K繪制的,根據Evanno等[22]提出的方法和Structure Harvester(http:∥taylor0.biology.ucla.edu/structureHarvester/)[23]平臺獲得的數據,確定最佳聚類數,并繪制基于模型的群體遺傳結構圖。使用GENALEX(https:∥biology-assets.anu.edu.au/GenAlEx/Welcome.html)進行 Mantel檢驗,Mantel檢驗是對兩個距離矩陣相關性的統計方法[24]。
由表2可知,15個表型性狀中,堊白度的變異系數(CV)最大,其CV為140.66%;糙米率CV最小,其CV為3.86%。多樣性指數最高的表型性狀是穗長和千粒重,其多樣性指數都是2.08;最低的是堊白度,其多樣性指數為1.54。基于15個表型性狀的平均變異系數(CV)和平均多樣性指數分別為30.33%和1.95。

表2 15個表型性狀的基本統計分析和多樣性
由表3可知,15個表型性狀之間的相關系數(r)在-0.55~0.92。株高與播始歷期、穗總粒數與穗長、穗總粒數與穗實粒數、整精米率與精米率、堊白粒率與堊白度之間均呈極顯著正相關(P<0.01)。長寬比與堊白度、堊白粒率與穗實粒數、堊白度與穗總粒數、穗長與單株有效穗、葉長與堊白粒率、葉長與堊白度之間均呈顯著負相關(P<0.05)。
由表4和表5可知,前3個主成分可分別解釋群體變異的29.44%、16.63%、10.59%,對第一主成分貢獻較大的性狀包括穗長(0.76)、株高(0.75)、穗總粒數(0.70)、播始歷期(0.68)、穗實粒數(0.67)、葉長(0.64)、堊白粒率(-0.61)和堊白度(-0.60),這8個性狀對第一主成分的貢獻值絕對值都在0.60以上,是秈稻表型性狀變異的主要因素。

表4 15個表型性狀的主成分分析的成分矩陣

表5 15個表型性狀的主成分和成分得分系數矩陣的特征值和貢獻百分比
根據標準化后的15個表型性狀數據,用UPGMA聚類把198份樣本聚為2個亞組(圖1)。前5個主成分反映了總信息量的73.003%,前2個主成分的累計貢獻率為46.072%(圖2),說明198份材料的親緣關系較近。

圖1 基于15個表型性狀的UPGMA聚類圖

圖2 基于15個表型性狀的PC聚類
分別用2種酶切的GBS技術在198份材料中共識別91 421個SNPs,其中包括85 535個比對到具體染色體上的SNPs和5 886個沒有定位到具體染色體上的SNPs。雜合位點占5.85%,MAF為0.19,1~12號染色體上SNP Tajima’s D依次分別為2.006、1.815、1.182、2.097、2.087、2.271、1.732、2.003、2.057、2.499、2.274、2.064,平均值為2.007(表6)。

表6 12條染色體上SNP的Tajima’s D
由圖3可知,當K=3時,ΔK達到最大值,表明198份材料被分為3個亞類,分別由9,53,136個樣本組成。基于Nei’s的遺傳距離在0.014(樣本Z 19-37和Z 5)~0.596(樣本Z 19-37和Z 10),平均遺傳距離為0.284。91 421個SNPs構成的總變異中,前3個PC可分別解釋群體變異的10.98%、10.47%、4.81%,用前3個主成分聚類198份材料時分組不明顯。

圖3 K=3時,基于貝葉斯算法的遺傳結構
Mantel檢驗表明,91 421個SNPs和15個表型性狀的遺傳距離矩陣之間的r為0.041(圖4),即相關性很低,但由于表型是由基因型和環境共同決定的,表型性狀中的數量性狀對環境極為敏感,而在SNP分析中發現其遺傳距離較近,同一育種單位育成品種遺傳距離較近, 與它們的系譜來源吻合,所以認為基于SNPs的聚類比表型性狀聚類更接近系譜分析。

圖4 基于SNPs與15個表型性狀的遺傳距離間的相關性
水稻大部分表型性狀屬于數量性狀遺傳,如抽穗期、分蘗數、株高、每穗粒數等,這些性狀對環境條件非常敏感,不同年份、不同地塊的水、肥、氣、熱等因素均影響表型性狀的表現[25]。目前大多數性狀主要還是靠人工考種,容易引入主觀測量誤差而影響分析結果的準確性,除此之外,還可能與選擇性狀的數目不夠多等因素有關,對表型性狀的準確記錄是進行全基因組基因關聯定位等生物學問題分析的首要條件[26],為了保證數據的準確性,本研究進行了3次生物學重復,然而15個表型性狀產生的遺傳距離矩陣與SNPs標記產生的遺傳距離矩陣間的相關性很低。對于不同遺傳標記在群體結構和多樣性的研究中,報道較多的為SSR標記與表型聚類的比較研究,張春紅等[27]利用3種遺傳標記(食味性狀、農藝性狀和SSR)對表現優異的60份粳稻材料進行了多樣性分析,表明SSR標記聚類結果與系譜分析結果基本一致,而農藝性狀表現與材料來源一致性較好,但與食味優良的關系不明確。趙慶勇等[28]研究發現SSR標記比表型聚類能更準確的揭示親本之間的遺傳差異。楊旺興等[29]研究秈、粳稻及其雜交后代的遺傳多樣性時發現,在親緣關系不明晰的材料中,SSR分子聚類分析比表型聚類更準確。
種質資源是作物優良基因的載體,是育種的基礎,對現有資源的改良與創新利用是未來種質資源研究工作中的重中之重[30],而表型性狀的應用在生物種質資源研究中起著很大的作用,隨著表型組學中智能化表型測量平臺的應用,表型鑒定將更加準確可靠[31],可為基因資源的發掘提供必要信息。隨著測序技術的不斷發展,特別是GBS技術在簡化基因組測序方面的普及,越來越多的研究利用此技術開發出高密度的SNPs標記用于不同作物的資源評價、遺傳圖譜構建、遺傳多樣性分析、分子選擇育種等全基因組關聯研究領域[5]。SNPs標記已成功應用于水稻[32]、玉米[33]、小麥[34]、大豆[35]、葡萄[36]等作物中。本研究發現秦巴地區的秈稻種質資源的SNPs聚類比表型性狀聚類更接近系譜分析,特別是親緣關系近的材料分析時表現出強大的應用潛力,但仍需要進一步試驗驗證。
秦巴地區198份秈稻種質的SNPs構成的群體遺傳結構相對簡單,多種聚類分析結果表明供試的198份材料間只存在較小的遺傳差異,遺傳結構較為單一,而表型性狀變異較豐富,多樣性程度高,特別是穗長和堊白度的多樣性程度高,群體間性狀差異顯著。穗長、株高、穗總粒數、播始歷期、穗實粒數、葉長、堊白粒率和堊白度8個性狀可作為秦巴地區秈稻表型性狀的綜合評定指標。