郝曉帥,傅蒙蒙,劉再東,賀建波,王燕平,任海祥,王德亮,楊興勇,程延喜,杜維廣,蓋鈞鎰
東北大豆種質群體百粒重QTL-等位變異的全基因組解析
郝曉帥1,傅蒙蒙1,劉再東1,賀建波1,王燕平2,任海祥2,王德亮3,楊興勇4,程延喜5,杜維廣2,蓋鈞鎰1
(1南京農業(yè)大學大豆研究所/國家大豆改良中心/農業(yè)部大豆生物學與遺傳育種重點實驗室/作物遺傳與種質創(chuàng)新國家重點實驗室/江蘇省現(xiàn)代作物生產協(xié)同創(chuàng)新中心,南京 210095;2黑龍江省農業(yè)科學院牡丹江分院/國家大豆改良中心牡丹江試驗站,黑龍江牡丹江 157041;3黑龍江省農墾科學院,黑龍江佳木斯 154007;4黑龍江省農業(yè)科學院克山分院,黑龍江克山 161606;5長春市農業(yè)科學院,長春 130111)
【】對東北大豆種質群體百粒重性狀進行全基因組關聯(lián)分析,全面解析中國大豆主產區(qū)百粒重QTL-等位變異遺傳構成,為東北地區(qū)大豆籽粒大小遺傳改良提供理論基礎。以東北地區(qū)育種和生產上常用的290份大豆材料作為試驗群體,于2013和2014年在東北第二生態(tài)亞區(qū)的克山、牡丹江、佳木斯和長春4個地點進行百粒重表型鑒定試驗。利用RAD-seq方法對試驗群體進行基因組測序分析,對原始SNP數(shù)據(jù)進行過濾及填補缺失數(shù)據(jù)后,最終獲得了82 966個高質量的SNP標記。根據(jù)限制性兩階段多位點全基因組關聯(lián)分析(restricted two-stage multi-locus genome-wide association analysis,RTM-GWAS)方法,首先構建獲得15 546個具有復等位變異的SNPLDB標記,然后使用兩階段多位點模型對百粒重性狀進行全基因組關聯(lián)分析。對檢測到的百粒重關聯(lián)SNPLDB標記位點附近(50 kb范圍內)的基因進行分析,根據(jù)基因內SNP與SNPLDB標記位點之間關聯(lián)性的卡方測驗,篩選可能與百粒重性狀相關的候選基因并進行功能注釋。最后基于檢測的百粒重QTL-等位變異體系分析了不同熟期組材料間的遺傳分化。試驗群體百粒重變異范圍為18.3—20.7 g,性狀遺傳率為92.3%。RTM-GWAS方法共檢測到76個與大豆百粒重性狀關聯(lián)的SNPLDB標記位點,其中15個位點主效不顯著,另外61個主效顯著位點解釋了65.40%的表型變異;68個與環(huán)境互作效應顯著的位點解釋了17.46%的表型變異,另外8個位點與環(huán)境互作效應不顯著。在檢測到的76個位點中有34個位點與已報道的30個百粒重QTL重疊,另外42個位點為本研究新檢測百粒重位點。基于檢測的SNPLDB標記位點,共篩選到137個百粒重相關候選基因,功能注釋顯示這些候選基因不僅參與大豆百粒重的調節(jié),還參與了初級新陳代謝、蛋白質修飾、物質運輸、脅迫響應和信號轉導等。對各熟期組間QTL-等位變異的遺傳分化分析顯示,盡管熟期組間百粒重差異不明顯,但其QTL-等位變異遺傳結構卻發(fā)生了新生和汰除的變化。RTM-GWAS方法能相對全面地解析東北大豆種質群體百粒重QTL-等位變異遺傳構成。東北大豆種質群體百粒重由大量QTL調控,且QTL與環(huán)境互作效應大,QTL存在豐富的復等位變異。由RTM-GWAS方法建立的QTL-等位變異矩陣為群體遺傳及演化研究提供了新工具。
大豆;百粒重;限制性兩階段多位點全基因組關聯(lián)分析;QTL-allele矩陣;候選基因
【研究意義】百粒重是大豆產量重要構成因素之一[1-3],并受多基因控制,有較高的遺傳力[4-5]。全面解析大豆百粒重的遺傳機制,并挖掘控制大豆百粒重基因對大豆高產育種具有重要意義。另外,生育期是大豆光周期反應重要生態(tài)指標,決定著大豆在不同緯度、地區(qū)的種植范圍,對產量、品質和適應性都至關重要[6]。東北地域遼闊,大豆資源是美洲大豆的主要種質基礎,研究東北大豆百粒重的遺傳基礎,對世界大豆育種具有重要意義。【前人研究進展】隨著科技的發(fā)展和大豆公共數(shù)據(jù)的擴增,越來越多的科研工作者投入到了百粒重QTL(quantitative trait locus)定位和全基因組關聯(lián)分析研究中[7-10]。目前,SoyBase (http://soybase.org)數(shù)據(jù)庫已收錄約280個基于連鎖分析檢測的大豆百粒重性狀QTL,全基因組關聯(lián)分析檢測的百粒重相關位點也約有90個。例如,Sun等[11]通過構建重組自交家系定位到分布在5個連鎖群體上23個大豆百粒重QTL。在所有定位到的QTL中,有9個通過復合區(qū)間作圖法得到,另外14個通過多區(qū)間作圖法得到的。Kastoori等[12]利用3個大豆重組自交家系作圖群體,并利用這三個群體構建了聯(lián)合連鎖圖譜,最終定位到1個百粒重相關主效QTL。該研究同時還鑒定到了一些百粒重候選基因,這些基因參與了蛋白轉運、氨基酸合成等過程。Kato等[13]利用日本和美國2個不同遺傳背景下的栽培種構建了2個重組自交家系,在3個環(huán)境下定位到了15個與大豆百粒重QTL。以上研究結果為從分子水平揭示大豆百粒重性狀的遺傳機制奠定了基礎。雖然基于連鎖分析的QTL定位方法可以估計QTL的位置和效應,但由于其通常僅涉及2個親本,因此,該方法所能檢測到的等位變異較少,例如在重組自交系群體中,每個位點最多有2個等位變異,所以連鎖定位方法無法較全面的解析數(shù)量性狀。基于自然群體的全基因組關聯(lián)分析為全面解析數(shù)量性狀提供了方法,其可以檢測到群體內單個位點上所有等位變異,相比于連鎖定位更加全面,定位精度也比較高。例如,Hao等[14]通過構建關聯(lián)分析群體,并在5個環(huán)境下種植,結合1 142個單核苷酸多態(tài)性(single-nucleotide polymorphism,SNP)和209個單倍型進行關聯(lián)分析,分別定位到40個和9個與大豆百粒重性狀顯著關聯(lián)的SNP位點和單倍型。其中,可以同時在3個環(huán)境、4個環(huán)境以及5個環(huán)境下都檢測到的SNP分別為3、2和4個。Zhou等[15]通過對302份大豆自然群體進行至少11×的重測序,利用全基因組關聯(lián)分析的方法檢測到第3、13和17染色體上共計4個大豆百粒重位點。Sonah等[16]對試驗材料進行高密度測序,檢測到第2、13和20染色體上的3個百粒重性狀顯著關聯(lián)的區(qū)域。【本研究切入點】盡管全基因關聯(lián)分析分析已廣泛用于動植物數(shù)量性狀遺傳解析,然而以往方法主要基于雙等位SNP標記進行分析[17-18],由于自然群體存在廣泛的復等位變異,因此,SNP標記無法估計位點的復等位變異效應。其次,以往關聯(lián)分析研究通常基于單位點模型,忽略了相鄰位點間的相互作用[19],導致表型變異解釋率可能溢出(>2,甚至>100%)。另外,單位點模型對每個位點的假設測驗均相互獨立,這會導致多重測驗標準的設置問題,進而導致較高的全試驗錯誤率。對此,以往方法通過提高顯著水平進行多重測驗矯正,例如Bonferroni方法[20-21],而這又導致以往方法僅能檢測少數(shù)位點,進而導致遺傳率缺失。針對上述全基因組關聯(lián)分析在數(shù)量性狀遺傳解析中的限制,He等[22]通過構建具有復等位變異的SNPLDB(SNP linkage disequilibrium block)標記,并基于多位點復等位變異模型,提出了限制性兩階段多位點全基因組關聯(lián)分析(restricted two-stage multi-locus genome-wide association analysis,RTM-GWAS)方法。該方法基于多位點模型,使用常規(guī)顯著性水平0.01或0.05,無需進行額外多重測驗矯正。多位點模型充分考慮了相鄰位點間的相互影響,因此,所檢測位點表型變異解釋率不會超過性狀遺傳率。目前,該方法已應用于多個數(shù)量性狀遺傳解析研究[23-25]。東北是中國大豆的主產區(qū)[26],有著復雜多變的生態(tài)環(huán)境和相應的的生態(tài)類型。研究東北地區(qū)代表性品種群體百粒重的遺傳結構可以為該地區(qū)百粒重乃至產量的育種改良提供參考。【擬解決的關鍵問題】本研究以東北地區(qū)290份大豆材料為試驗群體,該群體不僅時間跨度大,類型多,而且包含了東北地區(qū)近100年來大豆育種的遺傳變異。利用RTM-GWAS方法并結合該群體兩年四點表型數(shù)據(jù)進行關聯(lián)分析,并利用結果進行候選基因預測及不同大豆成熟期組間控制百粒重性狀的遺傳結構變化的研究,以期全面解析大豆百粒重性狀的遺傳機制,并為未來選育高產優(yōu)質的大豆品種提供理論支撐。
以2010—2012年在東北地區(qū)收集到的在1916—2010年種植比較廣泛的361份大豆品種為試驗材料。該群體具有衍生后代多,高產,油脂含量高,抗病等特點。2013—2014年將該群體在包括克山(KS)、牡丹江(MDJ)、佳木斯(JMS)和長春(CC)4個代表性地點東北地區(qū)的第二生態(tài)亞區(qū)進行田間試驗。采用重復內分組設計,穴播,小區(qū)面積為1 m2,每小區(qū)種植4穴,每穴保留4株植株,4次重復。待到初花時期,僅調查至少擁有2穴、每穴中至少3株的小區(qū)。各試驗點采用常規(guī)田間管理。各試驗點品種正常成熟后,將小區(qū)內植株混合收獲,室內脫粒后,32℃烘干48 h,然后隨機選取100粒種子稱量3次取平均值。由于材料之間成熟期差異比較大,361份材料中的71份成熟期過長,最終沒有獲得百粒重的數(shù)據(jù),因此表型數(shù)據(jù)實際為290份正常成熟材料(包括9份地方品種、276份育成品種以及5份國外品種,電子附表1)的百粒重數(shù)據(jù)。
試驗數(shù)據(jù)采用多年多點隨機區(qū)組方法做近似方差分析,SAS軟件PROC GLM程序中方差分析的線性模型為:

其中,y為第個年份第個地點下第個區(qū)組內第個品種的表型觀測值,為群體平均數(shù),s為第個年份效應,t為第個地點效應,b(i,j)為第個年份第個地點下第個區(qū)組的效應,g為第個品種的效應,()為第個年份與第個品種的互作效應,()為第個地點與第個品種的互作效應,()為第個年份、第個地點與第個品種的三級互作效應,ε為隨機誤差效應。品種視為固定效應,年份、地點、區(qū)組以及互作效應視為隨機效應。
使用RAD-seq(restriction-site-association DNA sequencing)對290份材料在深圳華大基因進行簡化測序。采用常規(guī)的CTAB法從新鮮大豆幼苗葉片中提取DNA,借助Illumina Hiseq 2000測序平臺并結合多元鳥槍法進行基因組分析[27]。利用SOAP2軟件[28]并參考大豆參考基因組Wm82.a1.v1.1[29]對測序所獲得的序列進行比對。利用RealSFS檢測SNP位點,之后對檢測到的SNP位點按照缺失和雜合率≤20%和最小等位基因頻率(MAF)≥1%的標準過濾[30],并利用fastPHASE[31]軟件對缺失數(shù)據(jù)填補,最終獲得82 966個高質量的SNP。
根據(jù)He等[22]提出的限制性兩階段多位點全基因組關聯(lián)分析(RTM-GWAS)方法,首先基于全基因組SNP構建獲得了15 546個具有復等位變異的SNPLDB標記,每個SNPLDB標記的等位變異數(shù)目變化范圍為2—9個。然后基于全基因組SNPLDB標記計算個體間的遺傳相似系數(shù),并提取特征向量用于控制全基因組關聯(lián)分析的群體結構。最后,利用多位點模型對百粒重性狀進行全基因組關聯(lián)分析,顯著水平設為0.05。由于多位點模型內建全試驗誤差控制,因此無需進行額外的多重測驗矯正。以上計算分析采用RTM- GWAS軟件[22]完成。
同時,基于SNPLDB構建的遺傳相似系數(shù)矩陣,使用MEGA 7.0軟件[32]構建了Neighbor-joining聚類樹以觀察群體結構是否異常。
根據(jù)檢測到的QTL預測候選基因的方法,首先將定位到的SNPLDB兩端各擴展50 kb,然后根據(jù)SoyBase(http://soybase.org)上提供的基因信息,將全部落在擴展后的SNPLDB區(qū)間內的基因選出。然后對每一個選出的基因中的全部SNP和SNPLDB之間的關聯(lián)進行卡方(Chi-square)檢驗,顯著性水平設為0.05。
各試驗點百粒重性狀平均值的次數(shù)分布和描述統(tǒng)計見表1。東北地區(qū)290份大豆品種百粒重平均值為19.8 g,變幅為8.2—29.5 g。不同環(huán)境下百粒重平均數(shù)變幅為18.3—20.7 g,百粒重最小為6.4—9.7 g,最大為28.2—32.0 g,環(huán)境間百粒重存在較大差異。
東北地區(qū)大豆百粒重兩年四點聯(lián)合方差分析顯示(表2),百粒重在品種間有極顯著差異,基因型、年份、地點間兩兩互作以及三級互作效應也呈現(xiàn)極顯著,說明百粒重存在基因型與環(huán)境互作效應。但相比基因型方差,互作效應方差相對較小,多地點百粒重遺傳率為0.923,單地點下遺傳率變幅為0.642—0.780。
聚類分析(圖1-a)顯示東北大豆種質群體具有一定的群體結構,但群體分化相對不明顯,基于SNPLDB標記的主成分分析(圖1-b)也顯示該群體雖然有一定的分類傾向,但整體上沒有明顯的聚類特征。
使用RTM-GWAS方法,第一階段篩選出12 305個候選標記,第二階段最終檢測到76個與大豆百粒重性狀顯著關聯(lián)的SNPLDB標記,分布在大豆18條染色體上(表3、圖1-c和圖1-d),每條染色體上檢測到2—7個不等,其中第15、17和20染色體上最少,均只檢測到2個SNPLDB標記,第6和18染色體上最多,均檢測到7個顯著關聯(lián)的SNPLDB標記。第5和11染色體上沒有檢測到與大豆百粒重性狀相關的SNPLDB標記。由于RTM-GWAS基于多位點模型,所有QTL在同一模型進行擬合,因此,一個位點只能篩選到一個顯著的標記,而且通過對存在QTL比較多的染色體上的位點之間物理距離比較發(fā)現(xiàn),相鄰2個QTL之間的距離最小為0.58 Mb,最大達到18.21 Mb,且絕大多數(shù)相鄰位點間的物理距離都超過了5 Mb,因此QTL在各條染色體上并非成簇分布。關聯(lián)的76個位點中,有15個位點主效不顯著,8個位點與環(huán)境互作效應不顯著。61個主效顯著位點總表型變異解釋率為65.40%,68個位點與環(huán)境互作效應顯著位點總表型變異解釋率為17.46%,合計解釋了82.86%的表型變異(表3)。61個主效顯著位點包括18個大效應(2≥1%)位點和43個小效應(2<1%)位點,分別解釋了52.15%和13.25%的表型變異。與以往研究比較顯示,檢測的76個SNPLDB標記中,有34個與前人報道的30個QTL存在重疊,另外42個SNPLDB位點為本研究新檢測到的位點。

表1 東北大豆種質群體百粒重次數(shù)分布及描述統(tǒng)計
MG0、MG00、MG000分別是3個早期成熟期組的名稱;MG0+00+000是MG0、MG00、MG000的合并名稱;MGI+II是MGI和MGII的合并名稱
MG0, MG00, MG000 are three early maturity groups; MG0+00+000 is the union of MG0, MG00 and MG000; MGI+II is the union of MGI and MGII

表2 東北大豆種質群體百粒重多年多點聯(lián)合方差分析
基因型×環(huán)境模型為年份和環(huán)境合并為環(huán)境后的方差分析,用于RTM-GWAS關聯(lián)分析
In Genotype×Environment model, Year and Location are combined into Environment which is used in RTM-GWAS

a:neighbor-joining聚類樹;b:遺傳相似系數(shù)矩陣特征向量散點圖,PC1、PC2分別表示前2個特征向量;c:RTM-GWAS方法QQ圖。其中-lgP大于30的記為30;d:RTM-GWAS方法Manhattan圖;e:東北大豆種質群體百粒重QTL-allele矩陣;f:百粒重候選基因GO生物過程分布
表3 大豆百粒重顯著相關SNPLDB位點
Table 3 SNPLDBs significantly associated with 100-seed weight in soybean

AN:等位變異數(shù)目。a:QTL與環(huán)境互作效應。LC-QTL和SC-QTL分別為大貢獻(2≥1%)和小貢獻(2<1%)QTL
AN: number of alleles.a: QTL-by-environment interaction effect. LC-QTL and SC-QTL represent large (2≥1%) and small (2<1%) contribution QTL
與大豆百粒重關聯(lián)的61個主效顯著位點等位變異數(shù)目為2—8個,共計288個,其中47個位點存在復等位變異。等位變異效應值變化范圍是-7.39—12.74,并進一步構建了61×290(位點×材料)的QTL-allele矩陣(圖1-e)。該矩陣代表了東北大豆種質群體百粒重性狀的遺傳構成,可進一步用于群體分化、候選基因分析以及優(yōu)化組合設計。
61個主效顯著位點中僅有39個位點上或其擴展區(qū)域中存在共計739個基因,其中602個基因中沒有SNP或者沒有檢測到與SNPLDB顯著連鎖的SNP,另外137個基因中包含了248個與SNPLDB顯著關聯(lián)的SNP。GO分析顯示這137個基因中的83個涉及多種生物過程,包括初級新陳代謝、翻譯、蛋白修飾、物質運輸、脅迫響應、信號轉導,對刺激的響應、器官發(fā)育、細胞生長以及一些未知過程(圖1-f)。例如,候選基因內包含了8個SNP,組成了7種單倍型,對應著位點中的5種等位變異。由于候選基因前3個SNP并不在位點的區(qū)間內,因此,候選基因的單倍型數(shù)目比位點的等位變異數(shù)目多。另外,12個大效應QTL篩選到的候選基因主要參與大豆的代謝、轉錄、翻譯、對刺激響應以及一些未知的生物過程,6個大效應QTL位點沒有篩選到候選基因(表4)。
將大豆品種按照生育期進行熟期組劃分,有助于品種交流、引種以及育種方案的設計。根據(jù)蓋鈞鎰等[33]提出的中國大豆熟期組劃分方法,將本研究群體材料劃分為000、00、0、Ⅰ和Ⅱ等5個熟期組。其中,Ⅰ和Ⅱ為東北大豆種質舊熟期組,000、00和0為東北大豆種質新熟期組。不同熟期組的百粒重均值變幅為19.7—20.4 g,雖然平均數(shù)差異不大,但百粒重最小值為9.9—18.8 g,最大值為21.8—25.6 g,各熟期組之間百粒重變幅差異較大(表1)。基于百粒重QTL-等位變異體系分析,東北大豆熟期縮短過程中百粒重位點等位變異發(fā)生了一定的新生和汰除(表5)。這里將舊熟期組Ⅰ和Ⅱ合并(MGI+Ⅱ)作為基礎,將新熟期組遺傳結構與之比較,結果顯示,從MGI+Ⅱ到MG0,MG0中同時新生了一些大效應的正效應和負效應等位變異,例如在QTL上新生了第1、2、7和8號等位變異,QTL的上新生了第1號等位變異。的第8號和QTL的第1號等位變異分別是本研究中百粒重QTL-等位變異體系中正負效應的最大值。由MG0到MG00,MG0中新生的QTL的第8號等位變異以及其他33個小到中等正效應的等位變異在MG00中被汰除,但MG00中汰除的負效應大部分為小效應等位變異。由MG00到MG000,MG000汰除了一批效應較大的負效和正效等位變異,其中就包括最大負效應等位變異(的第1號等位變異,效應值為-7.39)以及較大正效等位變異(的第7號等位變異,效應值為4.74)。而新增的等位變異中最大正、負效應分別僅為1.20和-3.78,這就使得MG000中材料的百粒重變幅在2個方向均大幅縮小,即從9.9—24.8到18.8—21.8。
進一步將熟期組0、00與000的材料合并(MG0+00+000)后與MGI+Ⅱ進行比較分析。從熟期組MGI+Ⅱ到0,到00,再到000的過程中,新生的等位變異累計共56個(34+3+19),但MGI+Ⅱ和MG0+00+000相差的新生等位變異卻只有36個(表5)。同時從熟期組MGI+Ⅱ到0,到00,再到000的過程中,汰除的等位變異共計140個(5+74+61),但MGI+Ⅱ和MG0+00+000相差的汰除等位變異只有4個,這說明一些等位變異在MG0、MG00、MG000之間存在新生和汰除的反復過程,即在一個熟期組中被汰除后,又在其他熟期組中作為新生等位變異重新出現(xiàn)。例如,QTL上的第1號等位變異在MG0中被汰除后,又在MG00新生出來,并繼續(xù)傳遞給了MG000,QTL的第8號等位變異在MG0組中新生,隨后又在MG00中被汰除。綜上所述,等位變異在不同熟期組間正效和負效等位變異幾乎是同等數(shù)量新生或汰除,使得東北大豆群體各熟期組之間百粒重均值變化不大。但各熟期組的QTL-等位變異構成不盡相同,從而導致各熟期組之間百粒重的變化范圍呈現(xiàn)差異。因而新生的熟期組群體中,百粒重的QTL-等位變異結構是有差異的,說明百粒重還有重組的潛力。
本研究采用限制性兩階段多位點全基因組關聯(lián)分析(RTM-GWAS)方法,能夠較全面地解析東北大豆種質群體百粒重性狀QTL及其復等位變異,分析結果不僅可用于個別基因挖掘,還可用于群體遺傳以及作物育種的優(yōu)化組合設計等方面的研究。RTM-GWAS方法通過構建SNPLDB標記來檢測資源群體的復等位變異,從而提高檢測功效。本研究檢測的76個位點上共計存在328個復等位變異(表3),平均每個位點存在4.3個復等位變異。與以往GWAS基于的SNP標記僅有2種變異相比,SNPLDB標記的復等位性更符合資源群體遺傳特性。其次,RTM-GWAS方法采用多位點模型檢測全基因組QTL,相比以往單位點模型方法,不僅提高了檢測功效,還將檢測位點的表型變異解釋率控制在性狀遺傳率范圍內。本研究定位到與百粒重關聯(lián)的SNPLDB位點中61個主效顯著位點共解釋65.40%的表型變異。而以往方法往往只能檢測到個別位點,例如COPLEY等[34]利用67 594個SNP標記僅定位到了5個百粒重相關位點。另外,本研究有34個SNPLDB標記位點與30個已報道QTL重疊,其余42個為本研究新檢測位點。

表4 百粒重性狀相關大效應QTL和候選基因

表5 百粒重QTL-等位變異在熟期組間的變化

表格的上半部分:a1—a8表示每個QTL等位變異的編號,由a1至a8效應依次增大。表格中白色單元格表示負效應等位變異,灰色單元格表示正效應等位變異,沒有大寫字母的單元格表示MGI+Ⅱ的所有等位變異。帶有小寫字母“x”“y”“z”的單元格分別表示MG0、MG00、MG000 3個熟期組中汰除的等位變異(與MGI+Ⅱ相比)。帶有大寫字母“X”“Y”“Z”的單元格分別表示MG0、MG00、MG000 3個熟期組中新生的等位變異(與MGI+Ⅱ相比,且所有新生等位變異都不存在于MGI+Ⅱ中)。QTL名稱列為簡化后的名稱,例如1-1,省去了“”。表格的下半部分:等位變異數(shù)目一列中,括號外面數(shù)字表示等位變異數(shù)目,括號內分別表示負效應和正效應的個數(shù)。繼承等位變異個數(shù)表示由被比較的熟期組傳遞給各個待比較熟期組亞群的等位變異數(shù)目。變化的等位變異包括新生和汰除2種類型的等位變異
In the upper part: a1-a8 are the alleles of each QTL, arranged in a rising order according to their effect value. All the white cells represent alleles with negative effect and all the grey cells represent alleles with positive effect, and the cells without capital letters represent all the alleles of MGI+Ⅱ. The cells with lowercase “x” “y” “z” are alleles excluded in MG0, MG00, MG000 (vs. MGI+Ⅱ), respectively. The uppercase of “X” “Y” “Z” in cells means the alleles emerged in MG0, MG00, MG000 (vs. MGI+, but not exist in MGI+Ⅱ), respectively. In the column of QTL, the QTL name is simplified, such as 1-1, with “” omitted. In the lower part: In columns of Alleles, the number outside parentheses is the number of alleles, and the number in parentheses is the number of negative and positive alleles, respectively. Inherent allele means alleles passed from the compared MG. Changed allele includes the alleles excluded and emerged
候選基因分析共篩選到了137個與大豆百粒重相關的候選基因。這一數(shù)量遠遠超過前人研究結果。例如Wang等[35]利用SNP芯片定到了11個百粒重位點,但是只篩選到5個候選基因。Contreras-Sota等[36]僅得到了2個大豆百粒重相關的候選基因。Zhang等[37]總共篩選到6個候選基因。將前人的結果和RTM-GWAS方法的結果比較,充分證明了RTM-GWAS方法的優(yōu)勢和可行性。
本研究利用定位結果的QTL-等位變異體系對大豆各熟期組百粒重性狀的遺傳機制進行了研究,分析表明各熟期組間百粒重的變異幅度變化較大,主要是因為等位變異在新熟期組形成過程中發(fā)生了新生或汰除,比如,等位變異由熟期組00向熟期組000過度過程中第14染色體上的QTL的第1號等位變異(效應值為-7.39,是全部76個位點的328個等位變異中最大的負效等位變異,等位變異的順序按照效應值從小到大排列)的汰除使得熟期組000中百粒重的最小值得到了大大提升,另外4個QTL,的第5號等位變異,的第6號等位變異,的第2號等位變異,的第5號等位變異(以上4個QTL的4個等位變異均為相應QTL位點上效應值最大的等位變異)的汰除也使得熟期組000百粒重的最大值由熟期組00的24.8 g降到21.8 g。從百粒重均值來看,各熟期組間變化不大,這主要是因為等位變異在傳遞過程中正效和負效等位變異幾乎是同等數(shù)量的新生或汰除,但是比較發(fā)現(xiàn)各成熟期組中新生和汰除的等位變異不盡相同,發(fā)生了很大變化,說明百粒重的遺傳機制在各熟期組間發(fā)生了變化。本研究為研究群體間等位變異的遷移汰除以及群體結構的變化提供了新思路。
東北大豆種質群體中檢測到76個大豆百粒重相關SNPLDB標記位點,共存在328個等位變異,其中61個主效顯著位點解釋了65.40%表型變異(大效應和小效應位點分別為18和43個,解釋表型變異的52.15%和13.25%),68個與環(huán)境互作效應顯著位點解釋了17.46%的表型變異。所檢測的34個SNPLDB標記位點與已報道30個QTL重疊。基于檢測的SNPLDB標記位點,共注釋到137個百粒重相關候選基因。各熟期組百粒重均值變化不大,但是QTL-等位變異比較分析顯示各熟期組間百粒重的遺傳結構發(fā)生了變化。
[1] 陳強, 閆龍, 馮燕, 鄧瑩瑩, 侯文煥, 劉青, 劉兵強, 楊春燕, 張孟臣. 大豆百粒重QTL定位及多樣性評價. 中國農業(yè)科學, 2016, 49(9): 1646-1656.
CHEN Q, YAN L, FENG Y, DENG Y Y, HOU W H, LIU Q, LIU B Q, YANG C Y, ZHANG M C. QTL Mapping and diversity evaluation of soybean 100-seed weight., 2016, 49(9): 1646-1656. (in Chinese)
[2] LU X, XIONG Q, CHENG T, LI Q T, LIU X L, BI Y D, LI W, ZHANG W K, MA B, LAI Y C, DU W G, MAN W Q, CHEN S Y, ZHANG J S. A PP2C-1 allele underlying a quantitative trait locus enhances soybean 100-seed weight., 2017, 10(5): 670-684.
[3] 汪霞, 李廣軍, 李河南, 艮文全, 章元明. 大豆百粒重QTL定位. 作物學報, 2010, 36(10): 1674-1682.
WANG X, LI G J, LI H N, GEN W Q, ZHANG Y M. QTL mapping for soybean 100-seed weight., 2010, 36(10): 1674-1682. (in Chinese)
[4] 齊照明, 孫亞男, 陳立君, 郭強, 劉春燕, 胡國華, 陳慶山. 基于Meta分析的大豆百粒重的QTLs定位. 中國農業(yè)科學, 2009, 42(11): 3795-3803.
QI Z M, SUN Y N, CHEN L J, GUO Q, LIU C Y, HU G H, CHEN Q S. Meta-analysis of 100-seed weight QTLs in soybean., 2009, 42(11): 3795-3803. (in Chinese)
[5] MIAN M A R, BAILEY M A, TAMULONIS J P, SHIPE E R, CARTER T E, PARROTT W A, ASHLEY D A, HUSSEY R S, BOERMA H R. Molecular markers associated with seed weight in two soybean populations., 1996, 93: 1011-1016.
[6] 傅蒙蒙, 王燕平, 任海祥, 王德亮, 包榮軍, 楊興勇, 田忠艷, 曹景舉, 傅連舜, 程延喜, 蘇江順, 孫賓成, 杜維廣, 趙團結, 蓋鈞鎰. 東北春大豆熟期組的劃分與地理分布. 大豆科學, 2016, 35(2): 181-192.
FU M M, WANG Y P, REN H X, WANG D L, BAO R J, YANG X Y, TIAN Z Y, CAO J J, FU L S, CHENG Y X, SU J S, SUN B C, DU W G, ZHAO T J, GAI J Y. A study on criterion, identification and distribution of maturity groups for spring-sowing soybeans in Northeast China., 2016, 35(2): 181-192. (in Chinese)
[7] MANSUR L M, ORF J H, CHASE K, JARVIK T, CREGAN P B, LARK K G. Genetic mapping of agronomic traits using recombi-nant inbred lines of soybean., 1996, 36: 1327-1336.
[8] CSANáDI G, VOLLMANN J, STIFT G, LELLEY T. Seed quality QTLs identified in a molecular map of early maturing soybean., 2001, 103: 912-919.
[9] 宛煜嵩. 大豆遺傳圖譜的構建及若干農藝性狀的 QTL 定位分析[D]. 北京: 中國農業(yè)科學院, 2002.
WAN Y S. Construction of soybean genetie map and QTL analysis of some agronomic traits[D]. Beijing: Chinese Academy of Agrieultural Sciences, 2002. (in Chinese)
[10] 孫亞男, 仕相林, 蔣洪蔚, 孫殿軍, 辛大偉, 劉春燕, 胡國華, 陳慶山. 大豆百粒重QTL的上位效應和基因型×環(huán)境互作效應. 中國油料作物學報, 2012, 34(6): 598-603.
SUN Y N, SHI X L, JIANG H W, SUN D J, XIN D W, LIU C Y, HU G H, CHEN Q S. Epistatic effects and qE interaction effects of QTLs for 100-seed weight in soybean., 2012, 34(6): 598-603. (in Chinese)
[11] SUN Y N, PANN J B, SHI X L, DU X Y, LIU Q, QI Z M, JIANG H W, XIN D W, LIU C Y, HU G H, CHEN Q S. Multi-environment mapping and meta-analysis of 100-seed weight in soybase., 2012, 39(10): 9435-9443.
[12] KASTOORI R R, JEDLICKA J, GRAEF G L, WATERS B M. Identification of new QTLs for seed mineral, cysteine, and methionine concentrations in soybean [(L.) Merr.]., 2014, 34(2): 431-445.
[13] KATO S, SAYAMA T, FUJII K, YUMOTO S, KONO Y, HWANG T Y, KIKUCHI A, TAKADA Y, TANAKA Y, SHIRAIWA T, ISHIMOTO M. A major and stable QTL associated with seed weight in soybean across multiple environments and genetic backgrounds., 2014, 127(6):1365-1374.
[14] HAO D R, CHENG H, YIN Z T, CUI S Y, ZHANG D, WANG H, YU D Y. Identification of single nucleotide polymorphisms and haplotypes associated with yield and yield components in soybean () landraces across multiple environments.,2012, 124(3): 447-458.
[15] ZHOU Z, JIANG Y, WANG Z. Resequencing 302 wild and cultivated accessions identifies genes related to domestication and improvement in soybean., 2015, 33: 408.
[16] SONAH H, O’DONOUGHUE L, COBER E, RAJCAN I, BELZILE B. Identification of loci governing eight agronomic traits using a GBS-GWAS approach and validation by QTL mapping in soyabean., 2015, 13(2): 211-221.
[17] GUPTA P K, ROY J K, PRASAD M. Single nucleotide polymorphisms: a new paradigm for molecular marker technology and DNA polymorphism detection with emphasis on their use in plants., 2010, 80(4): 524-535.
[18] NACHMAN M W. Single nucleotide polymorphisms and recombination rate in humans., 2001, 17(9): 481-485.
[19] ZENG Z B. Precision mapping of quantitative trait loci., 1994, 136(4): 1457-1468.
[20] AUDIC S, CLAVERIE J M. The significance of digital gene expression profiles., 1997, 7(10): 986-995.
[21] BENJAMINI Y, DANIEL Y. The control of the false discovery rate in multiple testing under dependency., 2001, 4(29): 1165-1188.
[22] HE J B, MENG S, ZHAO T J, XING G N, YANG S P, LI Y, GUAN R Z, LU J J, WANG Y F, XIA Q J, YANG B, GAI J YAn innovative procedure of genome-wide association analysis fits studies on germplasm population and plant breeding.,2017, 130(11): 2327-2343.
[23] ZHANG Y H, HE J B, WANG Y F, XING G N, ZHAO J M, LI Y, YANG S P, PALMER R G, ZHAO T J, GAI J Y. Establishment of a 100-seed weight quantitative trait locus–allele matrix of the germplasm population for optimal recombination design in soybean breeding programmes.,2015, 66(20): 6311-6325.
[24] LI S G, CAO Y C, HE J B, ZHAO T J, GAI J Y. Detecting the QTL?allele system conferring flowering date in a nested association mapping population of soybean using a novel procedure., 2017, 130(11): 2297-2314.
[25] PAN L Y, HE J B, ZHAO T J, XING G N, WANG Y F, YU D Y, CHEN S Y, GAI J Y. The novel restricted two-stage multi-locus GWAS procedure efficient QTL detection of flowering date in a soybean RIL population using the novel restricted two?stage multi?locus GWAS procedure., 2018, 131(12): 2581-2599.
[26] 熊冬金. 中國大豆育成品種(1923-2005)基于系譜和SSR標記的遺傳基礎研究[D]. 南京: 南京農工業(yè)大學, 2009.
XIONG D J. Studies on the genetic bases of Chinese soybean cultivars released durling 1923-2005 based on pedigree and SSR marker analysis[D]. Nanjing: Nanjing Agricultural University, 2009. (in Chinese)
[27] ANDOLFATTO P, DAVISON D, EREZYILMAZ D, HU T T, MAST J, SUNAYAMA-MORITA T, STERN D L. Multiplexed shotgun genotyping for rapid and efficient genetic mapping., 2011, 21(4): 610-617.
[28] LI R, YU C, LI Y, LAM T W, YIU S M, KRISTIANSEN K, WANG J. SOAP2: an improved ultrafast tool for short read alignment., 2009, 25(15): 1966-1967.
[29] JEREMY S, STEVEN B. C, JESSICA S, JIAN X M, THERESE M, WILLIAM N, DAVID L. H, QI J S, JAY J. T, JIANLIN C, DONG X, UFFE H, GREGORY D. M, YEISOO Y, TETSUYA S, TAISHI U, MADAN K. B, DEVINDER S, BABU V, ERIKA L, MYRON P, DAVID G, SHU S Q, DAVID G, KERRIE B, MONTONA F, BRIAN A, DU J C, TIAN Z X, ZHU L C, NAVDEEP G, TRUPTI J, MARC L, ANAND S, ZHANG X C, KAZUO S, HENRY T. N, ROD A. W, PERRY C, JAMES S, JANE G, DAN R, GARY S, RANDY C. S, SCOTT A. JGenome sequence of the palaeopolyploid soybean., 2010, 463(14): 178-183.
[30] YI X, LIANG Y, HUERTA-SANCHEZ E, JIN X, CUO Z X, POOL J E, XU X, JIANG H, VINCKENBOSCH N, KORNELIUSSEN T S, ZHENG H, LIU T, HE W, LI K, LUO R, NIE X, WU H, ZHAO M, CAO H, ZOU J, SHAN Y, LI S, YANG Q, ASAN, NI P, TIAN G, XU J, LIU X, JIANG T, WU R, ZHOU G, TANG M, QIN J, WANG T, FENG S, LI G, HUASANG, LUOSANG J, WANG W, CHEN F, WANG Y, ZHENG X, LI Z, BIANBA Z, YANG G, WANG X, TANG S, GAO G, CHEN Y, LUO Z, GUSANG L, CAO Z, ZHANG Q, OUYANG W, REN X, LIANG H, ZHENG H, HUANG Y, LI J, BOLUND L, KRISTIANSEN K, LI Y, ZHANG Y, ZHANG X, LI R, LI S, YANG H, NIELSEN R, WANG J. Sequencing of 50 human exomes reveals adaptation to high altitude., 2010, 329(5987): 75-78.
[31] SCHEET P, STEPHENS M. A fast and flexible statistical model for large-scale population genotype data: applications to inferring missing genotypes and haplotypic phase., 2006, 78(4): 629-644.
[32] KUMAR S, DUDLEY J, NEI M, TAMURA K. MEGA: A biologist- centric software for evolutionary analysis of DNA and protein sequences., 2008, 9: 299-306.
[33] 蓋鈞鎰, 汪越勝, 張孟臣, 王繼安, 常汝鎮(zhèn). 中國大豆品種熟期組劃分的研究. 作物學報, 2001, 27(3): 286-292.
GAI J Y, WANG Y S, ZHANG M C, WANG J A, CHANG R Z. Studies on the classification of maturity groups of soybean in China., 2001, 27(3): 286-292. (in Chinese)
[34] COPLEY T R, DUCEPPE M O, O’DONOUGHUE L S. Identification of novel loci associated with maturity and yield traits in early maturity soybean plant introduction lines., 2018, 19(1): 167.
[35] WANG J, CHU S, ZHANG H, ZHU Y, CHENG H, YU D Y. Development and application of a novel genome-wide SNP array reveals domestication history in soybean., 2016, 6: 20728.
[36] CONTRERAS-SOTO R I, MORA F, OLIVEIRA M A R, HIGASHI W, SCAPIM C A, SCHUSTER I. A genome-wide association study for agronomic traits in soybean using SNP markers and SNP-based haplotype analysis., 2017, 12(2): e0171105.
[37] ZHANG J, SONG Q, CREGAN P B, JIANG J L. Genome-wide association study, genomic prediction and marker-assisted selection for seed weight in soybean ()., 2016, 129: 117.
Genome-wide QTL-allele Dissection of 100-seed weight in the Northeast China Soybean Germplasm Population
HAO XiaoShuai1, FU MengMeng1, LIU ZaiDong1, HE JianBo1, WANG YanPing2, REN HaiXiang2, WANG DeLiang3, YANG XingYong4, CHENG YanXi5, DU WeiGuang2, GAI JunYi1
(1Soybean Research Institute, Nanjing Agricultural University/National Center for Soybean Improvement/Key Laboratory of Biology and Genetic Improvement of Soybean (General), Ministry of Agriculture/State Key Laboratory for Crop Genetics and Germplasm Enhancement/Jiangsu Collaborative Innovation Center for Modern Crop Production, Nanjing 210095;2Mudanjiang Branch of Heilongjiang Academy of Agricultural Sciences/Mudanjiang Experiment Station of the National Center for Soybean Improvement, Mudanjiang 157041, Heilongjiang;3Heilongjiang Academy of Land-reclamation Sciences, Jiamusi 154007, Heilongjiang;4Keshan Branch of Heilongjiang Academy of Agricultural Sciences, Keshan 161606, Heilongjiang;5Changchun Academy of Agricultural Sciences, Changchun 130111)
【】A genome-wide association study in the Northeast China soybean germplasm population was conducted for a relatively thorough detection of the QTL-allele constitution of 100-seed weight, which may provide a theoretical basis for soybean breeding for seed size improvement.【】In the present study, a total of 290 soybean accessions that were frequently used for soybean breeding and production in the Northeast China were tested in 2013 and 2014 for 100-seed weight at four locations, including Keshan, Mudanjiang, Jiamusi and Changchun, which are all in the second sub-ecoregion of the Northeast China. RAD-seq (restriction site-associated DNA sequencing) was used for SNP genotyping, and 82 966 high-quality SNPs were obtained after filtering and imputation. According to the RTM-GWAS (restricted two-stage multi-locus genome-wide association analysis) method, firstly a total of 15 546 multi-allelic SNPLDBs were constructed, and then a multi-locus model was used for genome-wide association study of 100-seed weight. The genes near (within 50kb) the detected SNPLDBs were analyzed, and candidate genes for 100-seed weight were identified and annotated according to Chi-square test of independence between the SNPs within genes and the detected SNPLDBs. Finally, genetic differentiation among maturity groups were investigated based on the detected QTL-allele system of 100-seed weight.【】The 100-seed weight of the present population ranged from 18.3 to 20.7 g, and the trait heritability was 92.3%. A total of 76 SNPLDBs were detected to be associated with 100-seed weight, among which there were 15 SNPLDBs with non-significant main effect and the 61 SNPLDBs with significant main effect explained 65.40% phenotypic variation. There were 68 SNPLDBs that had significant interaction effect with environment and explained 17.46% phenotypic variation. In addition, 34 out of 76 detected SNPLDBs overlapped 30 previously reported QTLs and 42 SNPLDBs were novel loci. A total of 137 candidate genes for 100-seed weight were annotated in the detected SNPLDB regions, and functional annotation showed that these genes were not only involved in regulation of 100-seed weight, but also involved in primary metabolism, translation, protein modification, material transport, stress response and signal transduction, etc. Although there was no obvious difference in the 100-seed weight among different maturity groups, genetic differentiation analysis showed varying changes of allele emergence and exclusion in QTL-allele structure of 100-seed weight among maturity groups. 【】The RTM-GWAS method used in the present study provided a relatively thorough detection of genome-wide QTLs and their multiple alleles for 100-seed weight in the Northeast China soybean germplasm population. The 100-seed weight of the Northeast China soybean germplasm population was controlled by a large number of QTLs with large significant interaction effect with environment, and there was also abundant multiple allelic variation in these QTLs. The QTL-allele matrix established from RTM-GWAS provided an efficient tool for population genetics and evolution study.
soybean [(L.) Merr.]; 100-seed weight; RTM-GWAS; QTL-allele matrix; candidate gene

10.3864/j.issn.0578-1752.2020.09.003
2019-09-09;
2020-01-02
國家自然科學基金(31701447)、國家作物育種重點研發(fā)計劃(2017YFD0101500,2017YFD0102002)、長江學者和創(chuàng)新團隊發(fā)展計劃(PCSIRT_17R55)、教育部111項目(B08025)、中央高校基本科研業(yè)務費項目(KYT201801)、農業(yè)部國家大豆產業(yè)技術體系CARS-04、江蘇省優(yōu)勢學科建設工程專項、江蘇省JCIC-MCP項目
郝曉帥,E-mail:15850563928@163.com。通信作者賀建波,E-mail:hjbxyz@gmail.com。通信作者蓋鈞鎰,E-mail:sri@njau.edu.cn
(責任編輯 李莉)