胡尊鎧,朱志偉,劉子輝,趙 鵬,王曉明,許盛寶
(西北農林科技大學 農學院,陜西楊凌 712100)
小麥(TriticumaestivumL.)是全球種植范圍最廣泛的作物之一,為人類提供了20%的食物來源,其產量與人類的生存息息相關,而根系作為小麥扎根地下的器官,對小麥吸收土壤中的水分和營養物質起到至關重要的作用[1-2]。隨著下一代測序技術(Next-generation sequencing,NGS)的快速發展,分子標記輔助育種已經成為較為前沿的手段。分子標記種類有很多,例如簡單重復序列(SSR)、限制性片段長度多態性(RFLP)、隨機擴增多態性DNA(RAPD)、任意引物PCR(AP-PCR)以及單核苷酸多態性(SNP)等[3-6]。相比于其他分子標記,SNP標記有著遺傳穩定性較高、位點豐富、分布較為廣泛以及代表性強等特點,已經被廣泛用于各種生物學研究[7-9]。但是將原始測序數據轉化為儲存變異信息的SNP數據需要使用大量的命令行工具以及編程語言腳本,這對于幾乎沒有生物信息學經驗的生物學家以及育種家來說,是一項及其耗時耗力的工作。隨著計算機科學以及生物信息學的不斷發展,由專門的生物信息學研究人員將原始測序數據轉化為儲存變異信息的結果文件,利用在線數據庫將這些信息通過網頁展示并提供查詢、分析以及下載,使研究人員不需要專門學習生物信息學技能便可以對需要的信息進行檢索和利用。
其他植物在線數據庫的應用度要高于小麥,比如擬南芥的PHOSPHAT磷酸化位點數據庫、GENEVESTIGATOR微陣列數據庫、SUBA亞細胞數據庫、ARACYC生化途徑數據庫以及DATF轉錄因子數據庫等[10-14];水稻的RAP-DB基因組數據庫、ORYZABASE基因組數據庫、RICEVARMAP基因組數據庫以及RMD突變體數據庫等[15-18]。小麥由于其基因組較為龐大和復雜,導致參考基因組測序完成的時間較晚,因此小麥可供查詢和使用的SNP數據庫屈指可數,這嚴重制約了小麥研究的推進。因此利用小麥苗期根系轉錄組數據開發的原始SNP過濾得到高質量SNP,研究其對小麥產量及根系等相關性狀存在的潛在影響,并以此為基礎構建數據庫,為分子標記輔助育種提供參考。
本研究利用413份小麥自然材料苗期根系轉錄組測序數據開發高質量SNP標記,根據該群體產量、根系等相關性狀的表型觀測數據,鑒定這些SNP標記對產量以及根部表型存在的潛在影響,并將過濾得到的高質量SNP標記構建在線數據庫,為后續的分子標記輔助育種提供參考。
413份收集自世界各地的小麥材料構成的自然群體。所有材料的詳細信息見數據庫首頁的Variety information部分(https://iwheat.net/links/)。
1.2.1 田間試驗 2018-2019、2019-2020和2020-2021年,在陜西省咸陽市楊陵區曹新莊試驗農場進行兩個播期的播種,分別為當年10月初的正常播種和次年1月中旬的晚播;2018-2019年和2020-2021年,在四川省崇州市四川農業大學現代農業研究基地當年10月末進行正常播種。采取隨機區組設計進行試驗,每個地點均設計3個重復,品種間均以行長1 m、行距20 cm種植,每行點播10粒種子,并根據當地的氣候和地質狀況進行田間管理。
1.2.2 根系培養試驗 對每份供試小麥材料分別選取籽粒飽滿且大小均勻一致的種子16 粒。將種子分別裝入15 mL離心管,注入無菌蒸餾水常溫浸泡6 h。用消毒液對種子表面消毒10 min,使用蒸餾水沖洗干凈,注入1 mL無菌蒸餾水于4 ℃冰箱低溫處理2 d。在發芽盒中鋪入濾紙,并將種子移入,注入5 mL無菌蒸餾水后用保鮮膜封口,并戳6~9 個小孔通氣。將發芽盒放入培養箱培養14 d(溫度:光照條件下24 ℃,黑暗條件下20 ℃;濕度:50%;光照度:2 000 lx;光照 16 h;黑暗8 h),期間定期補充無菌蒸餾水,保證濾紙處于濕潤狀態。
1.3.1 產量表型測定 對產量性狀使用下述標準進行調查:有效分蘗數(Productive tiller number,PTN):人工統計小麥能夠抽穗并結實的分蘗;穗粒數(Kernel number per spike,KNS):人工統計每個小穗的籽粒數;千粒質量(Thousand kernel mass,TKM):使用SC-G谷粒外觀質量快速圖像分析系統分析1 000粒籽粒的質量。
1.3.2 根系表型測定 將培養箱中生長14 d的小麥初生根于貼近種子處剪下,擦干表面水分并稱重,獲得根鮮質量(Root fresh mass,RFM),利用萬深LA-S植物根系掃描儀進行根系表型掃描。通過萬深LA-S根系分析系統(V.2.6.4.4)分析每個小麥材料根表面積(Root surface area,RS)和根體積(Root volume,RV)數據。
使用Excel 2019(Microsoft Office Home and Student 2019)和Python(3.7.4)程序語言處理產量以及根部表型的觀測數值,利用R語言(3.6.4)的R包Lme4計算產量相關的多年多點表型觀測值的最佳線性無偏估計值(Best linear unbiased estimate,BLUE)。
對西北農林科技大學小麥非生物脅迫耐受機理實驗室前期開發的原始SNP文件,使用以下標準進行過濾:只保留純合基因型,并且每個樣本的支持reads必須大于等于30。根據上述參數,未通過的SNP被認定為缺失,通過的SNP認定為高質量SNP。
按照SNP的基因型將小麥群體分為兩個基因型亞群,對兩個亞群的表型進行顯著性檢驗,結合隨機抽樣的置換檢驗。使用Python語言的Scipy模塊中的stats功能進行顯著性檢驗,首先檢驗兩組試驗數據的方差齊性,若方差齊性通過檢驗,參數equal_var設置為True,否則該參數設置為Fasle。為去除偶然性帶來的影響,使用Python的random函數,對需要顯著性檢驗的數據進行隨機抽樣,每次抽取80%的數據,抽樣1 000次,取超過800次顯著的結果為通過置換檢驗的結果。顯著性檢驗閾值參考Bonferroni矯正,取0.05/SNP總數=1×10-7。
利用R語言Shiny框架對數據庫進行構建。整體的數據庫構建流程如圖 1所示,使用R語言shiny包搭建web框架,分別編寫UI模塊以及Server模塊,UI模塊用于設計web網頁的頁面前端布局以及頁面,本數據庫對UI模塊使用R包shinydashboard對前端頁面進行設計,Server模塊的代碼負責后端程序的功能實現并且控制輸出,將上述結果整合到CSV文件后,借助R包DT將數據在網頁數據庫的前端界面中輸出,并且在Server模塊中結合CSS語言代碼塊對數據庫表格進行外觀屬性配置。

圖1 在線數據庫搭建流程Fig.1 Processfor constructionof online database
通過對413份供試材料的產量(有效分蘗數、千粒質量和穗粒數)和根系(根體積、根表面積和根鮮質量)相關性狀的表型觀測值進行統計分析,結果表明,產量與根系相關性狀的表型變異系數為10%~22%,品種之間存在廣泛的表型變異;表型的偏度系數的絕對值都<1,除穗粒數表型之外,其他表型的峰度系數的絕對值也都<1,這表明本研究所使用群體表型數據均呈現正態分布,符合數量性狀的特征,說明本研究的目標性狀為多基因控制的數量性狀(表 1)。相關性分析表明根系表型之間呈現極顯著的強烈正相關,而產量性狀之間呈現顯著的負相關關系;千粒質量與根部表型之間呈現顯著正相關關系,有效分蘗數與根部表型呈現顯著的負相關關系,穗粒數與根部表型之間不存在相關關系(表 2)。

表1 產量及根部相關性狀的統計分析Table 1 Statistical analysis of yield and root-related traits

表2 產量及根部相關性狀的相關性分析Table 2 Correlation analysis of yield and root-related traits
通過對小麥苗期根系轉錄組數據的過濾以及質量控制,在其中篩選出高質量SNP標記 45 898個,在小麥A、B和D亞基因組上鑒定到的SNP數目分別為19 381、22 444和4 073,其中B亞基因組含有的SNP最多,而D亞基因組上鑒定到的SNP數目遠小于A亞基因組和B亞基因組。從染色體的分布上看,2B染色體上存在的SNP最多(3 973個),4D染色體上存在的SNP最少(173個)(表 3)。

表3 小麥自然群體SNP標記基本統計分析Table 3 Basic statistical analysis of SNP markers in natural populations of wheat
為檢驗本試驗群體過濾得到的高質量SNP標記對小麥產量性狀的影響,選取所有高質量SNP,根據其基因型對群體進行分組,并采用顯著性檢驗分析不同基因型對產量性狀的影響。結果表明,在產量相關性狀上,有123個SNP的2種基因型間千粒質量存在顯著差異,其中87%的SNP突變后會增加千粒質量;有299個SNP的2種基因型間穗粒數存在顯著差異,其中92%的SNP突變后會減少穗粒數;有1 660個SNP的2種基因型間有效分蘗數存在顯著差異,其中41%的SNP突變后會增加有效分蘗數。在根系相關性狀上,有51個SNP的2種基因型間根表面積存在顯著差異,這些SNP突變后全部增加根表面積;有121個SNP的2種基因型間根體積存在顯著差異,其中97%的SNP突變后增加根體積;有97個SNP的2種基因型間根鮮質量存在顯著差異,其中98%的SNP突變后增加根鮮質量 (表 4)。

表4 SNP對表型的潛在影響Table 4 Potential effect of SNPs on phenotype
本數據庫包含3個部分,分別為小麥群體材料信息部分(Variety Information)、高質量SNP查詢部分(Population SNP Database)以及小麥群體標記數據下載部分(SNP Data Download)。
小麥群體材料信息包含413份小麥材料的編號、名稱、類型(農家種或現代栽培種)以及種植地區。該模塊內容見圖 2。
高質量SNP標記信息包含SNP物理位置、堿基突變類型、對產量和根部表型的影響情況以及在每個材料的變異情況,Chr列與Pos列可以得到SNP標記的物理位置信息,REF列與ALT列得到SNP標記的堿基類型,Down列與Up列得到SNP標記對產量和根系表型的影響信息(Down為降低表型數值,Up為增加表型數值);群體標記信息欄可以隨下方滑塊拖動,該信息欄可以得到413份小麥材料的SNP信息(“0/0”代表該位置堿基類型與中國春參考基因組一致, “1/1”代表該位置堿基類型與中國春參考基因組不一致,“./.”代表該位置沒有測得高質量的SNP)。該模塊的內容如圖 3所示,研究人員可以通過對感興趣的表型進行搜索,得到與該表型相關的SNP標記信息以及這些標記在群體材料中的分布情況信息。
小麥群體標記數據下載部分包含供試群體所有高質量SNP標記數據以及每條染色體的SNP標記數據。該模塊的內容見圖 4。

圖2 小麥群體材料信息部分Fig.2 Information material of wheat population

圖3 高質量SNP查詢部分Fig.3 High-quality SNP query

圖4 小麥群體標記數據下載部分Fig.4 Download links of wheat population marker data
綜上,研究人員通過本數據庫獲得的信息,可以為后續的育種工作提供參考。例如,查詢群體中對千粒質量存在影響的SNP標記,并且根據SNP變異后對千粒質量表型的效應(增加或減少),在育種工作中對相應的SNP進行有目標的選擇使用。
小麥是世界三大作物之一,其種植面積占糧食總種植面積的五分之一,小麥產量的變化將會對糧食安全產生重大影響[19]。SNP標記具有位點多、分布廣、穩定性高和代表性強的優點,已廣泛用于小麥育種研究[7]。前人研究表明,在亞基因組層面,小麥SNP標記在B亞基因組最多,D亞基因組最少[20]。本研究也得到了相同結果,B亞基因組存在的SNP最多(48.9%),其次是A亞基因組(42.2%),在D亞基因組上存在的SNP最少(8.9%),可能是D亞基因組在小麥進化過程中較為保守所致[21]。
產量以及根系相關性狀的相關性分析表明,千粒質量與根系相關性狀呈顯著正相關,劉佳熠等[22]發現苗期根系性狀與千粒質量性狀呈現顯著正相關,與穗粒數性狀相關性不顯著。本研究結果與其相同,可能是根系發育較好的小麥,能夠更好地吸收利用土壤中的水分和養料,促進籽粒灌漿,增加千粒質量[23]。此外,本研究還發現有效分蘗數與根系相關性狀之間呈顯著負相關,此現象鮮有報道,以后可繼續進行研究。
目前已經有一些小麥SNP數據庫公布,用來輔助育種工作者,以便于他們使用分子標記進行育種工作,如WGVD數據庫、Triticeae-GeneTribe數據庫以及Snphub數據庫[24-26]。本研究基于小麥苗期根系轉錄組測序數據過濾得到的高質量SNP標記構建在線數據庫,與其他小麥數據庫相同的是,本數據庫可以對標記信息進行查詢和下載,不同的是,本研究的高質量SNP大多數位于編碼區。此外,本數據庫還提供了原始標記數據的下載方式,研究人員可以下載原始標記數據進行分析。相較于其他數據庫,本數據庫也存在一些不足,比如未提供數據可視化接口,后續會針對此不足對數據庫進行維護和更新。