杜常健,張 敏,周星魯,張 磊,2,胡建軍,2*
(1.中國林業科學研究院林業研究所,林木遺傳育種國家重點實驗室,國家林業和草原局林木培育重點實驗室,北京 100091;2.南方現代林業協同創新中心,南京林業大學,江蘇 南京 210037)
楊樹(PopulusL.)具有速生、易繁殖、適應性強和生產力高等特性,在木材加工、碳匯造林、制漿造紙和生物燃料等方面發揮著重要作用[1]。楊樹提供了大量木材,但是楊樹人工林土壤氮素缺乏導致其木材產量受到嚴重制約[2-4],因此選育高產量的楊樹品種具有重要意義。作物育種的關鍵步驟是選擇,而常規育種是以表型選擇為基礎的。基于親本雜交和后代表型選擇的傳統育種費時費力,挖掘和公布一個新的品種需要至少10 a 以上的時間?;蚪M選擇(Genomic selection, GS)也被稱為基因組預測,通過在早期階段淘汰潛力較小的個體來降低育種成本[5-7]?;蚪M選擇現在被廣泛用于數量性狀的遺傳改良,GS 可以減少植物育種中表型觀察所需的成本和工作量[8]。通過使用詳細的基因組信息揭示一個基因型的基因優勢,可以使農業和林業生產發生革命性的變化[9]。
GS 的預測準確度影響因素包括群體的大小、群體結構、親緣關系、分子標記、表型的精度、目標性狀的遺傳力和統計模型等[10-11]。分子標記的數量和密度影響基因組預測的準確度和效率,因此需要足夠的分子標記并且選擇適合模型才能得到準確的育種值[12]。統計模型在GS 研究中具有重要地位,其對表型和基因型數據的訓練效果決定著標記效應是否估計準確,進而對后續的育種計劃產生影響[13]。采用固定和隨機效應的混合線性模型(Mixed linear model,MLM)直接預測個體的遺傳優點,被稱為最佳線性無偏預測(Best Linear Unbiased Prediction,BLUP)。VanRaden 借助BLUP 于2008 年提出了基于G 矩陣的gBLUP(Genomic BLUP)方法[14]。目前gBLUP 已經廣泛應用于動植物育種研究中,并且因為它的高效、穩健等優點,現在仍飽受青睞。Wang 等人基于gBLUP,壓縮個體分成不同的組構建了cBLUP (Compressed BLUP)模型和區段化標記(bin 標記)構建了sBLUP(SUPER BLUP)模型[15]。
育種計劃的成功取決于對遺傳參數的精確估計,包括對育種值的可靠預測[16-17]。育種值是遺傳效應對該性狀表型值的加性效應[18],它消除了環境影響,反映了真實的遺傳效應,提高了選擇的準確性。通過估算親本和雜交后代的育種值進行基因型選擇可以代替表型選擇,從而提高選擇的效率和準確性。育種值的估算對重要造林樹種的遺傳改良起到了重要作用。有效地建立基因型-表型關系,以便作出可靠的預測,指導探索巨大的遺傳選擇空間。對于雜交作物來說尤其如此,因為潛在雜交品種的數量太高,無法進行廣泛的測試。由于GS 在提高動物育種遺傳收益方面取得的巨大成功,因此GS 被引入到植物育種研究的許多方面,如自交系性能預測、親本選擇和雜交預測[19-20]。利用GS 對植物的重要的經濟性狀進行預測育種值,加快育種計劃具有重要的意義。目前在楊樹的經濟相關性狀的全基因組選擇方面的研究十分欠缺,亟須展開基因組選擇相關的研究工作。
在F1雜交育種中,隨著自交系數量的增加,需要測試的親本組合數量呈指數增長。因此,利用GS 對有雜種優勢的F1代進行預選,可以實現高效育種。本研究對高氮和低氮環境下的地徑、株高和莖生物量等性狀進行全基因組選擇研究,利用3 個全基因組選擇模型(gBLUP、sBLUP、cBLUP)和已經觀測364 個基因型的表型觀測值(包含2 個親本和362 個雜交F1代)對502 個基因型進行預測育種值,為楊樹遺傳育種工作奠定基礎。
美洲黑楊丹紅楊(Populus deltoides‘Danhong’)具有速生和干形通直等優良特性[21-22]。青楊派小葉楊優樹通遼1 號楊(Populus simonii‘Tongliao1’)具有抗旱、抗凍和抗病蟲害等特點,但是生長緩慢[23-24]。以丹紅楊為母本,通遼1 號楊為父本的F1群體種植于中國林業科學研究院試驗田,包括2 個親本和500 個雜交F1代。于2020年4 月采集親本及雜交子代1 年生枝條進行扦插繁殖,5 月選擇生長一致的楊樹幼苗移栽大田。田間試驗采用隨機區組設計,設施氮肥處理(與對照相比定義為高氮條件)和對照為不施氮肥處理(與處理組相比定義為低氮條件)2 個區組,種植株行距為30 cm × 50 cm。6 月、7 月和8 月在高氮處理區每株追施尿素(CON2H4,含氮量46.0%)4 g。干旱季節和雨后需要正常灌溉和除草。試驗設計了兩個處理條件,3 次生物學重復,364 個基因型(包括2 個父母和362 個F1代),每次重復3 株幼苗,共計6 552 棵樹。
11 月份楊樹生長季節結束后進行所有雜交后代表型測定。地徑:利用電子卡尺在根基部以上5 cm 處,從垂直的兩個方向測定地徑;株高:從莖基部5 cm 處測量苗高;莖生物量:莖砍伐后自然風干,稱取莖的質量。
兩個環境中的F1種群的廣義遺傳力(H)計算公式如下:
Vg代表遺傳方差,Ve代表殘差,L代表環境的個數。
全基因組重測序數據來自于2 個親本和500 個雜交群體[23]。毛果楊(Populus trichocarpaTorr.& Gray)基因組V3.1 作為參考基因組。對SNP(Single Nucleotide Polymorphism, SNP)位點進行過濾,以確定標記缺失率<10%,次要等位基因頻率(MAF)>5%。為了獲得獨立的SNP 標記,根據LD 值進行過濾,窗口為50 kb,步長為2 個SNP,R2閾值為0.7。最終保留總共1 447 341個高質量的SNP 用于GS 分析。通過TASSAL5.0軟件對502 基因型的過濾后的重測序數據進行主成分分析(Principal component analysis,PCA),利用R 軟件ggplot2 包繪制PCA 的散點分布圖。
統計模型是GS 的核心,極大地影響了基因組預測的準確度和效率。利用gBLUP、cBLUP 和sBLUP 模型進行GS 分析。通過 R 軟件的GAPIT3包進行3 個模型的基因組選擇分析[25]。
gBLUP 模型公式如下:
y是表型向量,X是固定效應系數關聯矩陣,b是固定效應,Z是隨機加性遺傳效應的關聯矩陣,g是隨機加性遺傳效應,e是殘差向量。
混合模型方程組如下:
其中,k=σ2e/σ2μ,G陣是基因組關系矩陣,計算模型如下:
其中,m是標記數目,M是個體基因型信息矩陣。Pi是第i 位點的第二等位基因頻率。P矩陣是按照每個位點的第二等位基因頻率減去0.5 然后乘以2 規則構建。
cBLUP[15]由相應的全基因組關聯分析(Genome-wide association study, GWAS)方法壓縮混合線性模型(Compressed mixed linear model,CMLM)開發而來。sBLUP[15]由相應的SUPER GWAS 方法開發而來。
育種值的準確性是基因組預測育種值(GEBV)和真實的育種值(True Breeding Values,TBV或觀測值)的相關系數,計算公式為
所有數據經過excel、R 語言和SPSS 軟件進行統計分析和相關性分析,并且作圖。
前期試驗獲得了2 個親本和500 個雜交F1代的全基因組重測序數據[23]。重測序數據經過過濾后,獲得了1 447 341 個高質量的SNPs,均勻分布在19 個染色體上(圖1)。對500 個雜交群體和2 個父母的SNP 數據進行PCA 分析。結果可以看出丹紅楊和通遼1 號楊的差異較大,雜交群體可以分為2 個亞群體。一個亞群偏向于丹紅楊,一個亞群偏向于通遼1 號楊(圖2)。

圖1 SNPs 在19 條染色體上的分布Fig.1 Distribution of SNPs on 19 chromosomes

圖2 雜交群體重測序數據的主成分分析Fig.2 PCA analysis of resequencing data of a hybrid population
丹紅楊的地徑在高氮和低氮條件下分別比通遼1 號楊提高2.2 倍和2.9 倍。丹紅楊的株高在高氮和低氮條件下分別比通遼1 號楊提高了1.8 倍和2.5 倍。丹紅楊的莖生物量在高氮和低氮條件下分別比通遼1 號楊提高了20 倍和33 倍。結果說明丹紅楊的生長表型在不同氮環境下顯著高于通遼1 號楊。在夏皮羅-威爾克檢驗中(表1),雜交群體中3 個性狀的W 檢驗值范圍為0.96~0.99,接近1,說明表型數據符合正態分布。在高氮和低氮環境下,雜交群體的地徑、株高和莖生物量的變異系數在0.13~0.42 之間。氮素利用率相關性狀的變異系數表明F1群體具有豐富的遺傳變異和選擇潛力。地徑、株高和莖生物量的遺傳力分別為0.72、0.70 和0.70(表1)。

表1 楊樹雜交群體表型性狀觀測值的統計分析Table 1 Statistical analysis of phenotypic traits of poplar hybrid populations
在502 個基因型中包括具有田間測定表型值的364 個基因型和沒有測得表型的138 個基因型。利用cBLUP、gBLUP、sBLUP 模型對雜交群體在高氮條件下的地徑、株高和莖生物量進行了全基因組預測育種值(圖3)。結果表明cBLUP 模型對地徑、株高和莖生物量的預測的準確率分別為0.139、0.012、0.001。gBLUP 模型對地徑、株高和莖生物量的預測的準確率分別為0.990、0.987、0.990。sBLUP 模型對地徑、株高和莖生物量的預測的準確率分別為0.544、0.803、0.829。結果說明gBLUP 預測結果最準確接近于1,而cBLUP 預測結果的準確性最低。

圖3 不同模型計算高氮環境下表型性狀育種值的預測準確率比較分析Fig.3 Comparative analysis of prediction accuracy of phenotypic traits breeding value under high nitrogen environment calculated by different models
364 個基因型的觀測值TBV 和cBLUP、gBLUP、sBLUP 計算的地徑的均值分別為17.91、17.94、18.28、18.08;株高的均值分別為292.28、293.75、297.28、293.68;莖生物量的均值分別為144.61、144.61、144.61、144.61(表2)。結果說明3 個模型計算的育種值的均值和觀測值的均值差異較小。觀測值TBV 和cBLUP、gBLUP、sBLUP 計算的地徑的方差分別為2.96、0.42、2.90、1.76;株高方差分別為69.89、23.05、59.80、40.59;莖生物量的方差分別為58.45、19.49、58.45、42.89(表2)。通過方差的比較分析,可以看出cBLUP 模型計算的方差值遠小于觀測值的方差值。

表2 高氮環境下觀測值和育種值的統計分析Table 2 Statistical analysis of observed value and breeding value under a high nitrogen environment
群體試驗在單一環境下進行,受環境因素影響的表型數據不穩定,在不同的環境下鑒定表型性狀的育種值更具有穩定性。圖4 所示,cBLUP 模型對低氮條件下的地徑、株高和莖生物量的預測的準確率分別為0.108、0.052、0.055;gBLUP 模型預測的準確率分別為0.985、0.991、0.990;sBLUP 模型準確率分別為0.574、0.590、0.777。

圖4 不同模型計算低氮環境下表型性狀育種值的預測準確率比較分析Fig.4 Comparative analysis of prediction accuracy of phenotypic traits breeding value under low nitrogen environment calculated by different models
364 個基因型觀測值TBV 和cBLUP、gBLUP、sBLUP 計算地徑的均值分別為16.23、16.24、15.81、15.98 ; 株高的均值分別為277.54、277.68、273.78、275.49;莖生物量的均值為109.01、109.01、109.01、109.01。結果說明低氮條件下地徑、株高和莖生物量的育種值和觀測值的均值比較分析發現差異較?。ū?)。觀測值TBV 和cBLUP、gBLUP、sBLUP 計算的地徑的育種值的方差分別為3.31、0.35、1.92、2.14;株高的方差分別為48.32、2.50、22.32、29.42;莖生物量的方差分別為46.59、2.55、46.59、35.00(表3)。通過方差的比較分析可以看出cBLUP模型計算的方差值較小,gBLUP 和sBLUP 計算的育種值的方差與觀測值的方差較為接近。

表3 低氮環境下觀測值和育種值的統計分析Table 3 Statistical analysis of observed value and breeding value under a low nitrogen environment
因為gBULP 預測的育種值準確率較高,因此利用了雜交群體502 個基因型的莖生物量的育種值進行了評價和篩選。根據高氮和低氮條件下莖生物量的均值把F1代群體劃分為4 種類型(圖5)。低氮高效型(Ⅰ區域):本區域F1代的莖生物量在低氮條件下高于均值,在高氮條件下低于均值。雙高效型(Ⅱ區域):本區域F1代的莖生物量在低氮和高氮條件下均高于平均值。高氮高效型(Ⅳ區域):本區域F1代的莖生物量在低氮條件下低于均值,在高氮條件下高于均值。低氮低效型(Ⅲ區域):本區域F1代的莖生物量在低氮和高氮條件下均低于平均值。雙高效型(Ⅱ區域)包括191 個基因型,均值(莖生物量在低氮條件和高氮條件下的均值)的前20 名包括16-1-16、16-1-194、13-116、13-73、13-481、13-268、13-286、13-566、13-173、13-578、16-1-65、13-242、16-1-189、13-40、13-608、16-1-170、16-1-22、13-237、13-272、13-335。雙高效型中前20 名符合育種目標的要求,可作為優良遺傳材料保存,進一步研究。

圖5 利用莖生物量劃分雜交群體氮利用效率類型Fig.5 The types of nitrogen use efficiency of hybrid populations were divided by stem biomass.
在林業生產中,為了避免與糧食生產競爭肥沃的土地,經常在貧瘠的土地上植樹造林,而且人工林種植和管理較少施肥。因此楊樹人工林的生產力取決于基因型的正確選擇,需要研究高生物量生產的楊樹品種,以便在邊際土壤上種植。本研究利用丹紅楊、通遼1 號楊和雜交群體在田間進行了施氮肥試驗,調查了364 個基因型在低氮和高氮條件下的地徑、株高和莖生物量。丹紅楊的莖生物量在高氮和低氮條件下分別比通遼1 號楊提高了20 倍和33 倍。結果說明丹紅楊的生長表型在不同氮環境下顯著高于通遼1 號楊,具有優良的生長表型性狀。田間試驗更加貼合實際的木材生產情況,不同的氮肥處理條件下的生長表型性狀的調查,可以幫助我們選擇優良的高氮利用、耐低氮和高生物量生產的基因型,具有指導實際生產的意義。
基因組選擇方法被迅速應用于動物育種[26]和植物育種的研究中[27]?;蚪M選擇研究對多年生樹木具有重要的應用價值,因為通過使用基因組標記來預測個體的遺傳價值,可以在幼苗階段選擇個體,顯著縮短選育周期,例如在林業樹木中松樹(Pinus pinasterAit.)[28]、桉樹(Eucalyptusspp.)[29]、油棕(Elaeis guineensisJacq.)[30]。高通量測序技術的發展顯著降低了分子標記的成本,覆蓋全基因組的高密度分子標記使得復雜性狀的基因組選擇技術迅速發展。本研究中我們利用全基因組重測序數據,獲得了1 447 341 個SNPs 位點,覆蓋了整個基因組的遺傳信息,保證了后續的基因組選擇的需求。GS 利用覆蓋全基因組的高密度SNP 標記,結合表型記錄或系譜記錄對個體育種值進行估計,其假定這些標記中至少有一個標記與所有控制性狀的QTL(Quantitative trait locus)處于連鎖不平衡狀態,這樣使得每個QTL 的效應都可以通過SNP 得到反映,將所有標記效應值累加,獲得基因組估計育種值[31]。木本植物的選育大多基于田間表型選擇,但是田間試驗工作量大且繁瑣和世代時間長,無法對大量雜交群體展開表型調查。本研究利用364 個基因型的表型觀測值和3 個全基因組選擇模型,對502 個基因型(包括已知表型和未知表型的所有個體)進行育種值預測。對楊樹雜交群體的地徑、株高和莖生物量的觀測值和3 個GS 模型計算的育種值的均值和方差進行了分析。群體育種值的均值差異較小,說明整體預測較差異較??;群體育種值的方差差異較大,說明個體預測3 個模型差異較大?;蚪M預測研究結果可以幫助我們預測只有基因型數據沒有觀測表型值的楊樹基因型個體,減少了田間測試的工作量和成本,提高了育種效率。對cBLUP、gBLUP、sBLUP 三種預測模型的準確性結果進行了比較分析。gBLUP 對生長表型性狀預測結果最準確接近于1 。sBLUP 預測結果的準確性范圍是0.5~0.9。cBLUP 預測結果的準確性小于0.2。研究結果表明gBLUP 模型預測的結果較為準確,cBLUP 預測的結果最差?;蚪M最佳線性無偏預測(gBLUP)在計算速度上具有優勢,而且在對極端復雜性狀的預測精度上較高,因次適合大范圍應用到林木的選育工作中。
我國楊樹優良基因型資源的收集、篩選和鑒定工作做得相對較少,這是因為品種的選育需要耗費大量的人力與物力。優良的種質資源是通過大量種質資源篩選出來的,需要科學的評價方法,通過育種值進行評價篩選工作更加穩定和可靠,具有大范圍推廣的應用價值。由于gBLUP 計算的育種值較為準確,因此本研究選擇了gBLUP 計算的502 個基因型的育種值進行了后續的評價和篩選工作。楊樹是以收獲木材產量為主,因此本研究通過高氮和低氮條件下的莖生物量把F1代群體劃分為4 種類型,包括雙高效型、高氮高效型、低氮高效型和低氮低效型。其中雙高效型屬于高生物量生產的類型,前20 名可以作為優良基因型的備選,如16-1-16、16-1-194、13-116、13-73、13-481、13-268、13-286、13-566、13-173、13-578、16-1-65、13-242、16-1-189、13-40、13-608、16-1-170、16-1-22、13-237、13-272、13-335。育種值的預測和篩選幫助我們實現了早期選擇,基因組選擇的研究結果具有指導實際生產的意義。全基因組選擇的育種應用雖然仍有一些瓶頸,但它必然是智能育種時代非常重要的一項技術,也是未來育種一個重要的方向,它將極大影響未來林木育種的方式和進程。
丹紅楊和通遼1 號楊的生長表型性狀差異顯著,雜交群體的生長表型性狀具有豐富的遺傳變異。基因組選擇結果表明gBLUP 模型預測的結果較為準確,cBLUP 預測的結果最差。篩選出高生物量生產的優良基因型16-1-16、16-1-194、13-116、13-73 、13-481 、13-268 、13-286 、13-566、13-173、13-578、16-1-65、13-242、16-1-189、13-40、13-608、16-1-170、16-1-22、13-237、13-272、13-335。全基因組選擇幫助楊樹育種工作完成了早期選擇,減少了表型測定成本,縮短了育種周期。