左煜昕,馬靖福,劉 媛,張沛沛,栗孟飛,程宏波,陳思瑾,幸 華,楊德龍
(1.甘肅省干旱生境作物學重點實驗室,甘肅蘭州 730070; 2.甘肅農業大學生命科學技術學院,甘肅蘭州 730070)
穗粒數(kernel number per spike,KNS)作為小麥產量三大因素之一,是品種選育時重點考察的重要指標[1-2]。水分是影響小麥產量及穩定性的重要非生物脅迫因子,在干旱條件下,小麥穗粒數與干旱脅迫程度呈顯著負相關。隨著干旱脅迫的季節性頻發,以及農業用水資源的日益匱乏,干旱脅迫作為主要限制因素之一,直接影響作物生長發育進程,造成穗粒數減少,最終導致減產[3]。因此,通過遺傳學等方法提高穗粒數對小麥增產意義重大。
研究表明,小麥穗粒數是由微效多基因控制的復雜數量性狀,遺傳基礎復雜,易受環境因素的影響[4]。近年來,隨著DNA分子標記技術的快速發展,小麥穗粒數的分子數量遺傳研究取得了較大進展。目前,研究者利用不同遺傳背景材料和遺傳圖譜,對小麥穗粒數進行了數量性狀位點(quantitative trait loci,QTL)定位和遺傳分析。周淼平等[5]利用小麥重組近交系(recombinant inbred lines, RILs)群體,在1B、1D、2A、2B、3B、4A、5D、6B和7A等9條染色體上檢測到11個控制穗粒數的QTL位點。吳秋紅等[6]利用小麥RIL群體定位了8個控制穗粒數的QTL,位于1A、3A、3D、4A和5B等5條染色體上,可解釋 4.06%~11.17%的表型變異。Lee等[7]利用小麥雙單倍體群體(double haploid lines, DH)在2A、3A和4A染色體上定位了3個控制穗粒數的主效QTL。張坤普等[8]利用小麥DH群體在2D、4D和5D染色體上檢測到與穗粒數緊密連鎖的QTL位點。然而,由于作圖群體材料遺傳背景、標記類型、遺傳圖譜及環境條件的不同,導致小麥穗粒數定位的QTL數目、位置和遺傳效應差異較大,難以獲得真實、穩定的QTL位點和熱點區段,無法直接應用于小麥育種實踐[9]。
元分析(meta-analysis)是一種可以合并不同研究數據進行統計分析且可以對實際數據進行全面檢驗的方法。其中用于QTL元分析的BioMercator 4.2軟件,可將與目標性狀相關的所有QTL位點映射整合在一張遺傳圖譜上,通過比對分析,挖掘出一致性真實QTL位點,并能進一步縮小置信區間,獲得與目標性狀緊密連鎖的分子標記。目前,該方法已廣泛應用于各種作物不同性狀的整合定位研究[10]。李雪華等[11]對干旱脅迫下與玉米生理性狀和農藝性狀相關的181個QTL整合元分析后,從中發掘出15個通用抗旱“一致性”QTL(meta quantitative trait loci, MQTL)。Goudemand等[12]利用7個DH群體對小麥葉枯病抗性相關的QTL進行定位和元分析,最終得到115個抗病QTL和27個MQTL,并發現其中14個MQTL與株高和早熟性密切相關。胡雅君等[13]通過收集涉及小麥籽粒可溶性碳水化合物含量的168個QTL,構建一致性圖譜,最終獲得16個MQTL。但迄今為止,有關小麥穗部相關性狀的QTL整合和元分析研究相對較少,尤其是關于小麥穗粒數的QTL元分析研究未見報道。為此,本研究利用生物信息學方法,將已報道的控制小麥穗粒數的QTL位點及其數目進行收集整理,以小麥高密度遺傳圖譜作為參考圖譜,利用BioMercator 4.2軟件將QTL映射至該參考圖譜上,構建小麥穗粒數QTL一致性圖譜,通過元分析發掘MQTL和候選標記,為深入理解小麥穗部性狀的遺傳機制和精細定位提供科學依據。
以美國農業部小麥公共數據庫(http://wheat.pw.usda.gov/)和已發表文獻中控制小麥穗粒數的QTL信息[5-8,14-26]為研究對象。
1.2.1 小麥穗粒數QTL數據收集整合
對已報道的控制小麥穗粒數QTL定位信息進行收集,將收集到的每個QTL數據按照BioMercator 4.2軟件(http://www.mybiosoftware.com/biomercator-2-1-genetic-maps-qtl-integration.html)的要求進行整理,包括QTL名稱、染色體位置、置信區間、連鎖系數、貢獻率、臨近標記、LOD值和群體大小等,其中,QTL位置(置信區間和QTL最大可能位置)和遺傳貢獻率是影響QTL元分析的兩個重要參數,缺一不可。
1.2.2 小麥穗粒數QTL信息映射
根據收集到的小麥穗粒數性狀的QTL信息確定其所涉及的染色體,以Wheat composite 2004(https://wheat.pw.usda.gov/cgi-bin/GG3/report.cgi?class=mapdata;query=;name=Wheat,+Composite,+2004)高密度遺傳圖譜作為參考圖譜,將目標QTL的最大可能位置和置信區間兩端坐標按比例標注到參考圖譜上,對比原始圖譜(即所收集的遺傳圖譜)與參考圖譜。為了獲得精確的映射結果,把不能直接映射到參考圖譜上的標記,可先映射到Somers等[27]繪制的小麥整合圖譜(即中介圖譜)上,再利用圖譜上的公共標記QTL映射到參考圖譜上,并將原始圖譜與參考圖譜上相關標記載入BioMercator 4.2軟件中,建立圖譜信息庫?;趫D譜間的共有分子標記,利用齊序函數將目標QTL的最大可能位置和置信區間兩端坐標按比例標注到參考圖譜上,即映射,并將原始圖譜及參考圖譜間有爭議的標記剔除。
1.2.3 小麥穗粒數QTL元分析
利用BioMercator 4.2軟件對小麥穗粒數QTL進行元分析,將位于同一連鎖群相同位點附近的N個獨立存在的與目標性狀相關的QTL進行運算,對獨立來源的同一性狀且位于同一座位或有重疊座位的QTL計算出一個MQTL,該QTL會給出5個模型(即模型1、2、3、4和N),其中赤池信息量準則(akaike-type criteria values, AIC)值最小的模型為最優模型,即真實QTL模型,并通過高斯定理最大似然比估算該QTL存在的位置和置信區間。如果AIC值最小的為N模型,則表明用于分析的連鎖群過大,需要分為兩段來進行元分析。如果整理數據時某一QTL置信區間未知,可通過Darvasi等[28]應用的公式推斷95%的置信區間:
C.I=530/(N×R2)
(1)
C.I=163/(N×R2)
(2)
其中C.I指QTL 95%的置信區間,N代表作圖群體的大小,R2代表該QTL的遺傳貢獻率,公式(1)適用于F2群體和BC群體,公式(2)適用于RIL、DH及NIL群體。若已知置信區間,也可應用該公式估算未知QTL的遺傳貢獻率。
1.2.4 基于小麥穗粒數MQTL范圍內候選基因發掘
利用生物信息學手段進行目標性狀QTL的整合,獲得穗粒數MQTL區域,針對這些區域內的EST或DNA序列搜索候選基因。該法的原理為:物種內及物種間的序列同源性,基因的功能和序列是密切相關的,當序列的相似性超過一定的范圍時,它們可能執行相同的功能,通過將未知功能序列和已知功能序列的對比,如果它們相似性較高,就可以推斷出序列的相應功能。
在參考圖譜Wheat composite 2004上,由元分析所得的小麥穗粒數MQTL區域(meta-C.I)由兩端標記界定。對MQTL區間及其鄰近區域的穗粒數相關基因位點進行整理,根據MQTL區間的基因位點名稱,在GrainGenes(https://wheat.pw.usda.gov/)網站,下載目標性狀“一致性”區段內的相關基因序列和各種標記的原始序列,從而確定MQTL在染色體物理圖譜上的位置。利用小麥基因組數據庫(http://202.194.139.32/)中JBrowse工具檢索MQTL內的基因信息,并獲得該區間內所有基因的功能注釋信息。最后在NCBI網站上下載這些基因的序列,并利用其在線工具BLAST分析比對相關基因序列,進而預測目標性狀候選基因。
從小麥公共數據庫和已發表文獻中收集到來源于花培3×豫麥57、Keumkang×Olgeuru、小麥-冰草衍生系3228×京4839、川麥42×川農16、洛旱2×濰麥8、濰麥8×煙農19、濰麥8×濟麥20、望水白×Alondra、蘭考906×小偃21、G1816×Langdon、西農817×中國春、燕達 1817×北農6、揚麥17×寧麥18、糯麥1×藁城8901、TP×Ta13等18個作圖群體,共涉及小麥穗粒數的163個QTL(表1)。利用BioMercator 4.2軟件中的QTL projection功能將收集到的數據映射至Wheat composite 2004小麥參考圖譜上。LOD值在2.01~41.13之間,各位點的遺傳貢獻率在2.20%~32.75%之間。

表1 小麥穗粒數QTL數據整合Table 1 Integration of QTL data for the kernel number per spike in wheat
將原始圖譜與參考圖譜Wheat composite 2004 上相關標記載入BioMercator 4.2軟件,利用圖譜映射程序構建小麥穗粒數QTL一致性圖譜。結果(圖1)表明,控制小麥穗粒數的QTL覆蓋了小麥21條染色體,各染色體上分布不均,在7D染色體上最少(2個QTL),2B染色體上最多(17個QTL),其他染色體上分布3~12個。其中,在QTL一致性圖譜的同一連鎖群上有明顯成簇分布現象,存在QTL富集區域。如在2A、3A和7B連鎖群上各有2個QTL簇,在2D、3D和6B連鎖群上各有1個QTL簇。這些QTL彼此間有區間的重疊,大都出現在一段區間內,如在3A連鎖群的80 cM左右有8個QTL,說明該區間很可能是控制目標性狀的熱點區域并存在更為真實重要的QTL,含有大量控制小麥穗粒數的基因(圖1)。

染色體左側“點”至“橫線”表示QTL所在位點的遺傳貢獻率大小的連續變化;“豎線”表示QTL所在置信區間。The “dot” to “transverse line” on the left side of chromosome means the successive change in genetic contribution rate of QTL; “Vertical line” means the confidence interval of QTL.圖1 小麥穗粒數QTL一致性圖譜Fig.1 Consensus map of QTL for kernel number per spike in wheat
結合小麥已定位的QTL信息,利用BioMercator 4.2軟件中元分析程序分析各連鎖群上的QTL。由于分析模型不同,以每次分析中AIC值最小的區間為最優,確定1個真實QTL,最終共得到35個控制小麥穗粒數的MQTL(表2),分別位于小麥的1D(2個)、2A(4個)、2D(4個)、3A(4個)、3D(3個)、4D(4個)、5A(4個)、6B(4個)、7B(4個)和7D(2個)染色體上,平均每條染色體上含有3.4個MQTL。

表2 小麥穗粒數QTL的元分析Table 2 Meta-analysis of QTL for the kernel number per spike in wheat
將35個控制小麥穗粒數的MQTL按照其所在染色體的位置依次排序為MQTL1~MQTL35,其中有7個MQTL的置信區間小于 3 cM,分別是MQTL7(0.55 cM)、MQTL8(2.70 cM)、MQTL11(1.67 cM)、MQTL12(2.10 cM)、MQTL18(1.62 cM)、MQTL31(2.32 cM)和MQTL32(1.00 cM)。經元分析后,這些檢測到的MQTL所存在的位置和置信區間均優化了原QTL的位置和效應,縮小了原置信區間,檢測出更為精確的MQTL,很大程度上減小了由于不同試驗所得到的QTL位置差異而造成的誤差,提高了QTL定位的準確度和有效性。其中,4個MQTL均分布在3A染色體的相鄰區域,并且其圖距均小于10 cM (1.67~7.55 cM);除此之外,MQTL27(162.20~182.60 cM)與MQTL28 (166.54~188.74 cM)的置信區間有很大的重合,這表明這些區段很可能對小麥穗粒數具有重要貢獻。
根據QTL一致性區間內的SSR標記所在參考基因組中的位置,利用小麥基因組數據庫所提供的基因注釋結果和基因預測,對小麥穗粒數定位區域進行了候選基因的預測。由于較小的QTL置信區間有利于提高QTL定位的準確度和有效性,根據“一致性”QTL區間兩端標記在小麥物理圖譜中的位置,將小麥穗粒數定位結果中圖距較小較精確的MQTL位點進行物理圖譜定位,統計MQTL區間內所包含的基因個數。結果發現,在2D染色體上,與小麥穗粒數性狀緊密連鎖的兩個分子標記在Xcfd168.2~Xwmc41.1之間(即MQTL8),其遺傳距離為82.65~85.35 cM(≈2.57 Mb)范圍內,共包含112個基因,單位長度內基因個數為43.6個。
由表3可以看出,本研究共發現了4個與目標性狀相關的候選基因,這些基因座位涉及信號傳導、滲透調節和糖代謝等多種生理生化途徑。YUC基因家族編碼類黃素單氧化酶,是IAA生物合成途徑中催化色胺的N-氧化反應的限速酶,對生長素的合成起重要調控作用;SUS蔗糖合酶基因作為籽粒中糖積累轉運的重要代謝基因,對籽粒產量有重要影響;ERF家族轉錄因子是植物中重要的一類轉錄因子,廣泛參與植物各類生理過程。對目標性狀MQTL8的置信區間進行候選基因篩選,獲得CKX基因家族成員。研究表明,CKX作為降解細胞分裂素(cytokinins)的一種黃素酶,廣泛分布于植物各個部位,CKX對植物配子發育和作物產量的形成具有顯著的影響。以上候選基因均為與小麥產量可能相關的基因,在一定程度上對改善產量發揮重要作用,然而具體功能有待進一步的試驗驗證。

表3 小麥穗粒數MQTL內相關候選基因信息Table 3 Candidate genes within MQTLs related to the kernel number per spike in wheat
元分析中最重要的就是分子標記遺傳參考圖譜的選擇。在小麥相關性狀元分析的過程中最常用的是以11張標準圖譜整合的Wheat composite 2004,該圖譜共涉及3 741個標記,所包含的分子標記主要是以簡單重復序列(SSR)、擴增片段長度多態性(AFLP)和限制性內切酶片段長度多態性(RFLP)組合構建,總長3 236 cM。該圖譜與已完成和正在繪制的QTL定位圖譜間存在較多共同標記,但是研究發現,某些研究中原始圖譜的標記仍與參考圖譜中標記一致性較差,個別目標性狀QTL不能直接映射到該參考圖譜上,因此,本研究使用Somers等[27]繪制的小麥整合圖譜作為中介圖譜,該圖譜與Wheat composite 2004參考圖譜存在許多共同標記,并且標記覆蓋面較廣,提高了目標性狀圖譜與參考圖譜間的映射,縮短了兩標記之間的距離,為精細定位提供良好的基礎,保證了QTL的整合分析。
近年來,利用元分析方法對玉米、大豆等作物相關性狀QTL的遺傳改良取得了一定進展。方永豐等[29]整合了173個與玉米持綠性相關的QTL,發掘出5個持綠MQTL區間,并在MQTL區域內發掘出8個持綠相關候選基因;王曉麗等[30]構建了含221個玉米產量及構成因子QTL的整合圖譜,并在玉米6號染色體上確定了一個與穗數、粒重和單位籽粒產量均相關的MQTL。吳 瓊等[31]通過對來自10個不同群體的與大豆生育期有關的98個QTL進行元分析,最終獲得了9個MQTL及其連鎖標記。當大量控制目標性狀的基因或QTL被整合到一致性圖譜上后,控制相同和不同的目標性狀的QTL分布特征更加明顯。但是利用元分析手段對小麥數量性狀進行QTL整合研究的報道較少,尤其是小麥穗粒數的元分析研究還相對滯后。隨著小麥全基因組信息的完善以及物理圖譜的成功構建,對于QTL熱點區域和被前人反復證實的小麥目標性狀QTL的核心染色體區段,將是發掘小麥關鍵基因的重點研究部位,可為小麥克隆及分子改良育種提供大量侯選基因。
本研究整合了近年發表的163個控制小麥穗粒數的QTL,構建了小麥穗粒數QTL一致性圖譜,具有簇集分布的特征,并通過元分析,得到了35個MQTL及其緊密連鎖標記,其置信區間最小可縮小到0.55 cM,明顯減小了QTL的誤差,使結果更準確可靠。其中,本研究在3A染色體上P78/M69.3~Xbcd1431.1區間內獲得的MQTL與葉亞瓊等[32]在該區域發現的控制株高的MQTL享有相同的標記區間。Tuberosa等[33]認為,這種現象可能與“一因多效”或者控制不同性狀的基因緊密連鎖有關,這可為圖譜構建以及尋找和定位同源基因提供切入點。本研究所發掘的MQTL是由不同作圖群體材料整合的,后續可以利用分子標記輔助選擇技術(marker assisted selection, MAS),對后代進行基因型預測,進而提高MAS的實際效率。
隨著小麥全基因組測序的完成,各種生物信息的迅速增長,對未能精細定位的基因提供了越來越多的研究策略和思路。在MQTL區域內可以獲得許多DNA序列,這些序列具有較完整的基因結構,從而可以對相關基因進行預測。同時也可以通過對蛋白序列的同源比對,以此來確定基因的功能[34]。
通過在QTL置信區間進行候選基因預測,可以在一定程度上驗證QTL定位的準確性。在本研究中,充分利用不同的研究成果以及公共信息資源,對不同時期、不同環境條件和不同研究群體下定位的小麥穗粒數QTL進行整合優化,得到了MQTL。利用兩端標記在物理圖譜中的位置,初步預測MQTL區域內的相關基因。最終,在1個MQTL區間(MQTL8)內初步確定4個與產量性狀相關的候選基因,這些基因座位涉及信號傳導、滲透調節和糖代謝等多種生理生化途徑。其中,通過對候選基因序列同源比對,發現TraesCS2D01G587100LC.1基因與TaCKX基因[35]的序列同源性較高(91%),因此我們推斷該基因也與小麥籽粒發育可能緊密相關。研究表明,小麥CKX是由一系列同工酶組成的[35],具有調控小麥不同時期生長發育的功能,TaCKX與水稻、玉米和大麥等作物CKX基因具有較高的同源性。目前已知TaCKX基因與許多產量性狀關系密切,最新研究表明該基因的等位變異與葉綠素含量也緊密相關[36]。因此,在后續研究中,可以對該基因進行本體分析、轉錄調控分析以及代謝途徑分析,進一步為精細定位和圖位克隆奠定基礎。試驗證明,利用元分析手段可獲得較小置信區間的MQTL,然后映射到物理圖譜上,可以將目的基因鎖定在一個較小的范圍內。再針對目標區段構建回交群體,根據基因的保守性進行目標基因的發掘,通過這種方法可以提高基因克隆的效率。