999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多維組學數據的玉米農藝和品質性狀預測研究

2024-01-22 06:44:12楊靜蕾吳冰杰王安洲肖英杰
作物學報 2024年2期
關鍵詞:模型

楊靜蕾 吳冰杰 王安洲 肖英杰,2,*

1 作物遺傳改良全國重點實驗室 / 華中農業大學, 湖北武漢 430070; 2 湖北洪山實驗室, 湖北武漢 430070

雜種優勢利用和基于表型選擇的傳統育種為糧食產量的提升作出了巨大貢獻。近年來, 氣候變化和人口增加給全球糧食安全帶來了嚴峻挑戰, 預計到2050 年, 世界人口將增至95 億, 屆時需要多生產70%的糧食才能滿足人口需求[1-2], 因此亟需新的育種技術和方法來提高作物產量[3-4]。高通量基因分型平臺和表型平臺、基因組選擇、機器學習等新技術,為育種效率的提升和作物新品種的培育提供了新的契機[5]。

Meuwissen 在 2001 年首次提出基因組選擇(genomic selection, GS)或基因組預測的概念[6], 其核心是利用參考群體的全基因組分子標記基因型數據與表型數據建立統計模型, 在表型未知而基因型已知的候選群體中, 利用該模型估計每個材料的基因組育種值, 進而在早期實施選擇, 大幅度提高了遺傳增益。GS 在理論上類似于MAS (marker assisted selection), 但MAS 僅利用少量顯著性標記對主效基因進行選擇。動植物重要性狀一般為數量性狀, 由大量微效基因控制, MAS 無法捕捉到微效基因的貢獻, 因此對數量性狀改良的作用有限。而基于覆蓋全基因組的高密度標記, 直接估計全基因組中的所有標記效應的基因組選擇, 可以捕獲具有微小影響的遺傳位點[7], 能夠更好地解釋表型變異, 提高復雜農藝性狀地預測精度和選擇效率。

隨著下一代測序技術和高密度單核苷酸多態性(single nucleotide polymorphism, SNP)基因分型技術的快速發展, 目前, 基因組預測已經成為革命性的育種手段。基因組選擇的首次利用是在奶牛中, 極大縮短了奶牛選育的世代間隔, 后來又成功用于豬、羊等主要動物的育種[8-9]。據報道[10], 動物中基因組預測的精度可達0.8, 這為基于預測結果對動物幼崽進行早期篩選, 加快種畜選育提供了可能。在玉米、水稻、小麥等作物中[11-14], 也陸續開展了該類研究, 比如, Wang 等[13]在水稻雜交育種中開發的MV-ADV 模型有助于對低遺傳力性狀(如產量)進行基因組預測; Ma 等[14]曾使用不同遺傳結構的群體構建訓練集對大豆百粒重進行全基因組預測, 預測精度最高可達0.75; Charmet 等[15]評估了基因組選擇在小麥3 個育種群體的3 個性狀的表現, 具有較高遺傳力的抽穗期, 其預測精度可高達0.7。

在玉米中, 有研究發現, 基因組選擇優于分子標記輔助選擇和基于系譜的傳統表型選擇, 可顯著提高低遺傳力性狀的預測精度和選擇效率[16-17]。Cao等[18]利用玉米的1 個關聯群體和3 個雙單倍體群體,對其焦油斑點病抗性性狀進行GS 研究, 發現預測精度受訓練群體大小和標記密度影響, 但總體而言預測精度較高, 說明GS 對玉米抗病性篩選具有較強的應用潛力。基于具有熱帶血緣的22 個玉米雙親分離群體的基因型和干旱和正常情況的表型數據,Zhang 等[19]對產量、株高和開花期3 個性狀進行基因組預測, 發現使用200 個SNPs 標記及50%群體作訓練集時, 3 個性狀的預測精度分別是0.28、0.32 和0.29, 且隨著訓練群體大小和標記密度的增加, 預測精度也會隨之提升。目前, GS 已在玉米的多種遺傳和育種群體中得到廣泛應用[20-22]。

統計模型是基因組預測的核心, 影響基因組預測精度。常用的 GS 模型有 LSE (least-squares estimation)、BLUP (best linear unbiased prediction)、Bayes (bayesian analysis)、LASSO (least absolute shrinkage prediction operator)等[23]。其中 rrBLUP(ridge regression best linear unbiased prediction)的利用最為廣泛, 其是利用訓練群體估計標記效應, 在預測群體中將標記效應累加, 進而預測未知表型個體的基因組育種值。據報道, 基于該方法對玉米的開花時間進行GS, 預測精度可達0.64[24]。Bhering等運用模擬數據集評估rrBLUP、GBLUP (genomic best linear unbiased prediction)、Bayesian LASSO 三種統計方法的基因組預測性能, 發現該方法在分析效率和預測精度上表現均最好[25]。Yan 等[26]基于rrBLUP、Bayes 和RF (random forest) 3 種統計方法,對玉米籽粒中鎘元素含量進行預測, 預測精度分別達到0.89、0.83 和0.75, 其中rrBLUP 方法的預測精度最高。LASSO 由Tibshirani 于1996 年首次提出[27],該方法通過最小化殘差平方和的約束, 實現對高維數據的變量選擇, 從而在基因表達分析中被廣泛應用, 具有較高的預測準確性、良好的解釋能力和穩健性。在利用衛星遙感數據預測玉米年產量變化的研究中, LASSO 的預測精度達0.78[28]。在陸地棉纖維品質的預測研究中, Islam 等[29]發現 Bayesian LASSO 比 GBLUP、rrBLUP、Bayes、PKHS(reproducing kernel space) 4 種統計模型的預測精度要更高。Tsai 等[30]使用春大麥和冬小麥2 套數據驗證rrBLUP 和Bayesian LASSO 兩種模型的預測性能,發現在春大麥中, Bayesian LASSO 對白粉病和產量的預測精度高于rrBLUP, 而在冬小麥中, 2 個模型對產量的預測精度相似。以上研究表明, 對于不同性狀、不同物種和群體, 基因組預測方法表現可能存在差異, 但是rrBLUP 與LASSO 模型在眾多統計模型中表現出更好的性能, 于是本研究主要基于以上2 種統計模型進行GS 研究。但前人研究往往基于少量性狀和同種類型數據, 對農藝和品質性狀的預測能力系統評估還較缺乏。

近年來, 隨著多維組學技術的迅速發展, 植物在轉錄、翻譯和代謝水平上的變化都可以進行定量檢測。Azodi 等[24]基于轉錄組數據和基因組數據來構建開花時間的預測模型, 通過評估模型特征的重要性, 發現模型中最重要的2個特征都為轉錄組特征, 驗證了轉錄組數據相比基因組數據對預測模型的重要性, 這也表明轉錄組提升基因組預測方面的巨大潛力。此外, Zhang 等[31]對由385 個自交系組成的玉米關聯群體進行全基因組代謝物分析, 共檢測到1035 種顯著變化的代謝物, 發現其中15 種代謝物性狀可解釋超過60%的玉米苗期干旱處理后存活率表型變異。Qin 等[32]曾通過代謝物分析發現硼元素通過增加抗氧化酶的活性和改變代謝產物, 減輕了鎘毒害對小麥的影響。Hu 等[33]發現使用轉錄組、代謝組數據對水稻產量的預測精度可達 0.4869 和0.4593, 遠高于基因組預測的精度, 這說明對于受微效多基因控制的產量性狀, 轉錄組和代謝組數據可能會提供比基因組更豐富的信息進行預測。

目前, 在玉米中, 利用多組學數據對玉米重要性狀的預測研究報道較少, 在不同模型和不同性狀上的系統評估也較為缺乏。為系統研究組學數據對玉米性狀預測的效果, 本研究以具有廣泛多樣性的368 個玉米自交系的基因組、轉錄組和代謝組數據,基于rrBLUP 與LASSO 模型, 對55 個農藝和品質性狀進行預測分析, 系統評估了各組學數據和統計模型, 對農藝性狀和品質性狀預測能力的差異, 為后續玉米重要性狀的基因組育種提供了理論依據。

1 材料與方法

1.1 試驗材料

1.1.1 群體及表型數據 本研究使用來自368 個不同玉米自交系組成關聯群體作為試驗材料, 分別在海南(三亞, 18°25′N, 109°51′E, 2010 年)、云南(昆明, 24°25′N, 102°30′E, 2011 年)和重慶(29°25′N,106°50′E, 2011 年) 3 個地點進行田間試驗。根據系譜信息, 將所有自交系分為2 組, 即溫帶(temperate,TEM)和熱帶/亞熱帶(tropic/sub-tropic, TST)。所有自交系根據不完全隨機區組試驗設計, 單行種植在試驗地中。對收獲的玉米植株進行表型鑒定, 獲取包括株高、穗行數在內的20 個農藝性狀和包括籽粒生育酚、脂肪酸含量在內的35 個品質性狀。本研究使用的表型數據均來自于已發表文章[32-34]。對表型數據進行預處理, 刪除各表型的異常值并計算55 個性狀的描述性統計。

1.1.2 基因組和轉錄組數據 本研究所用群體已使用Illumina Maize SNP50 芯片和轉錄組進行測序,并鑒定到103 萬個覆蓋全基因組的高質量SNPs 和28,769 個基因的表達數據[34-36]。本研究從中隨機挑選5 萬個SNPs 作為基因組數據; 將基因表達數據進行標準化處理后作為轉錄組數據。基因組和轉錄組數據將用于后續的多組學預測研究。

1.1.3 代謝組數據 本研究使用群體的成熟籽粒已經進行了靶向和非靶向代謝組分析。其中靶向代謝組是驗證測試樣品中是否存在目標代謝物的檢測方式, 本研究使用的靶向代謝組是指以關聯群體在云南和重慶2 個環境的成熟玉米籽粒為測試樣品,檢測其中部分氨基酸含量所形成的數據集: 包括17種重要的氨基酸、47 個氨基酸的衍生性狀以及它們各種氨基酸的總和, 共計130 種靶向代謝物[37]。非靶向代謝組是通過對生物體內代謝物進行全面分析,找出差異代謝物的研究方式。本研究使用的非靶向代謝組是關聯群體在海南、云南、重慶3 個環境下種植, 對成熟籽粒進行基于氣相色譜或液相色譜結合質譜的代謝物分析獲取的數據, 在3 個環境下共鑒定到2031 種代謝物[38]。以上代謝物數據將用于本研究的多組學預測研究。研究中進行了靶向代謝物與非靶向代謝物的整合, 通過逐步整合得到5 個數據集, 包括海南非靶向代謝物的數據集E1; 海南和云南非靶向代謝物的數據集E1+E2; 海南、云南和重慶非靶向代謝物的數據集E1+E2+E3; 全部非靶向代謝物和重慶靶向代謝物的數據集 E1+E2+E3+CQ; 所有非靶向代謝物和靶向代謝物的數據集E1+E2+E3+CQ+YN。

1.2 基因組預測的統計模型

1.2.1 嶺回歸最佳線性無偏估計(rrBLUP) 該方法是基因組預測最常用的模型之一, 它通過在訓練群體中估計標記效應, 結合預測群體的基因型信息將標記效應累計, 最終獲得預測群體的個體估計育種值。該方法在構建標記效應矩陣時, 賦予部分標記較大權重, 從而放大有效標記的貢獻, 弱化無效標記的作用, 以使預測結果更符合實際[39]。本研究使用基于R 語言的“rrBLUP”軟件包實現模型構建,此軟件包含3 個函數: A.mat 函數主要用于構建加性效應矩陣; mixed.solve 函數主要用于混合模型的參數求解, 可以用于預測標記效應或育種值; kin.blup函數使用加性效應關系矩陣預測基因型值, 進而預測表型。本研究首先使用A.mat 函數計算加性效應矩陣, 再通過kin.blup 函數進行表型預測, 計算預測結果與真實值的皮爾遜相關系數(Pearson correlation efficiency,r), 即預測精度。

1.2.2 最小絕對收縮選擇算子(LASSO) 該模型通過構造一個懲罰函數得到一個較為精煉的模型,使它收縮一些系數, 同時設定一些系數為零, 以實現對變量的選擇和對模型復雜程度的降低。因其對數據的要求極低, 無論變量是連續還是離散的, 都能用LASSO 進行處理。本研究利用R語言中“lattic”軟件包進行LASSO 預測, 首先使用createFolds 函數將數據隨機分為5 份, 再基于訓練集使用train 函數中的LASSO 參數進行模型構建, 然后基于測試集的組學數據使用predict 函數進行表型預測。模型的預測精度, 為預測結果與真實值的皮爾遜相關系數。

1.2.3 基因組預測的交叉驗證 本研究使用5 折交叉驗證計算模型的預測值與真實值的相關性, 并將5 次重復交叉驗證結果的均值來評估模型的性能。該方法將數據集隨機切分為5 個互不相交且大小相同的子集, 使用其中4 個子集訓練模型, 剩下的1 個子集當作測試集測試模型。將上述步驟重復5 次, 每次挑選不同的子集作為測試集, 訓練得到5個模型, 共得到5 個預測值與真實值的皮爾遜相關系數, 對這5 次的皮爾遜相關系數取平均值得到一個交叉驗證的結果。該方法會使所有數據參與到訓練和預測中, 在最大化利用數據訓練模型的同時避免過擬合的現象。

2 結果與分析

2.1 基于基因組數據分析對農藝性狀和品質性狀的預測差異

基于基因組數據和rrBLUP 模型, 研究發現, 品質性狀的平均預測精度(r=0.628)明顯優于預測農藝性狀(r=0.504) (圖1-A)。在農藝性狀中, 僅有5 個性狀的預測精度高于0.6, 分別是粒長(kernel length)、散粉期(pollen shed)、雄穗分枝數(tassel branch number)、穗位葉長(ear leaf length)、抽雄期(heading date), 其中粒長的預測效果最好, 達到0.689 (圖1-B)。在品質性狀中, 60%以上的性狀預測精度大于0.6,其中籽粒含油量(OIL)的預測效果最好, 達到0.887,預測效果最佳的前5 個性狀分別是含油量(OIL)、油酸(C18_1)、亞油酸(C18_2)、花生烯酸(C20_1)、花生酸(C20_0), 預測精度均高于0.7 (圖1-C)。

圖1 基于基因組數據分析對農藝性狀和品質性狀的預測差異Fig.1 Prediction differences in agronomic traits and quality traits based on genomic data analysis

2.2 不同組學數據對性狀預測的差異

對比分析基于基因組、轉錄組、代謝組預測不同類型性狀的結果, 研究發現, 對于農藝性狀,基因組數據的預測精度都顯著高于轉錄組的預測精度(r=0.504 vsr=0.459,P=4E-3)。此外, 轉錄組數據的預測精度顯著高于代謝組的預測精度(r=0.459 vsr=0.333,P=5.39E-6)。品質性狀也遵循該趨勢(圖2-A)。

圖2 不同組學數據對性狀預測的差異Fig.2 Differences in trait prediction between omics data

此外, 相比于其他組學數據, 基因組數據對27個性狀的預測精度最高。在這27 個性狀中, 花生烯酸(C20_1)利用基因組數據的預測精度高達 0.832,明顯高于該性狀基于轉錄組數據和代謝組數據的預測結果(0.776 和0.638)。其中, 軟脂酸與棕櫚油酸的比例(C160.C161)呈現出基因組數據和轉錄組數據的預測差值最大(rdiff.=0.251), 雄穗主軸長(Tassel main axis length)呈現出基因組數據和代謝組數據的預測差值最大(rdiff.=0.419), 同時該性狀也表現出轉錄組數據和代謝組數據的最大預測差值(rdiff.=0.275)。我們發現, 有21 個性狀使用基因組數據和轉錄組數據的預測精度沒有明顯差異(rdiff.<0.05),但均優于代謝組數據的預測精度。其中, 籽粒含油量(OIL)表現出基因組數據和轉錄組數據的最高的預測精度(r=0.887 和r=0.862), 明顯高于代謝組對該性狀的預測精度(r=0.734)。油酸含量(C18_1P)、亞油酸含量(C18_2P)、油酸與亞油酸的比例(C181.C182)的基因組和代謝組數據預測精度沒有明顯差異, 但均顯著高于轉錄組數據的預測精度, 同時,我們發現代謝組預測精度在各組學中達到最高。吐絲期(silking stage)使用轉錄組數據的預測精度達到0.606, 明顯優于基因組和代謝組數據的預測精度(0.555 和0.526)。此外, 粒長(kernel length)被基因組、轉錄組和代謝組數據預測精度都非常高(r>0.68)(圖2-B)。

通過分析不同染色體標記的預測差異, 我們發現, 農藝性狀、品質性狀都呈現出了相同的預測趨勢。1 號染色體(n=7976)、5 號染色體(n=6093)和6號染色體(n=4098)的標記預測精度高, 9 號染色體(n=3703)和10 號染色體(n=3480)的標記預測精度低,這可能說明9 號、10 號染色體預測精度低是因為染色體上標記數目少(圖2-C)。為了進一步驗證這個猜想, 本研究以10 條染色體中最少的標記數目為參考,對染色體的標記進行隨機挑選, 并分別進行表型預測, 將結果進行比較, 發現仍為1 號染色體、5 號染色體、6 號染色體上的標記預測效果最佳, 9 號染色體和10 號染色體上的標記預測效果較差。將隨機預測結果與染色體上所有標記預測結果相比, 發現所有標記預測結果略微優于挑選標記預測結果, 同時仍呈現出1 號染色體、5 號染色體、6 號染色體上的挑選標記預測效果最佳, 9 號染色體和10 號染色體上的挑選標記預測效果最差, 這說明1 號染色體、5號染色體和6 號染色體上可能存在對表型變異貢獻最大的標記。因此, 研究初步推測在訓練基于基因組數據的基因組預測模型時, 加大1 號染色體、5 號染色體、6 號染色體上的標記數目, 可以提升全基因組數據的預測效果。

基于基因高表達的玉米組織, 本研究將轉錄組數據分為根高表達基因集Root (n=6322)、葉片高表達基因集 Leaf (n=3101)和穗高表達基因集 Ear(n=2577)三大類, 以及所有基因集(n=18,548)。結果發現, 使用3 種組織數據預測2 種性狀的結果表現趨勢略微不同, 對于農藝性狀而言, 穗高表達基因集的預測結果最好(r=0.435), 葉片高表達基因集的預測結果其次(r=0.434), 根高表達基因集的預測效果最差(r=0.428); 對于品質性狀而言, 葉片高表達基因集的預測結果最好(r=0.534), 穗高表達基因集的預測結果其次(r=0.523), 根高表達基因集的預測效果最差(r=0.518) (圖2-D)。研究進一步對比基于不同組織預測2 種類型性狀的結果, 發現3 種組織數據集中均呈現出品質性狀的預測結果優于農藝性狀。

通過逐步整合不同環境的代謝物數據, 得到5個數據集, 分別是 E1、E1+E2、E1+E2+E3、E1+E2+E3+CQ、E1+E2+E3+CQ+YN, 分別用以上數據集分別預測農藝性狀與品質性狀, 發現呈現不同的預測趨勢。對于農藝性狀, 數據集增大伴隨著預測精度的下降, 對于品質性狀, 數據集增大伴隨著預測精度的上升(圖2-E)。為了解釋更多環境的代謝物會降低農藝性狀預測精度的現象, 我們分析了5 個環境的代謝物與農藝和品質性狀的相關性。統計結果發現, 與農藝性狀正相關和負相關的代謝物數目比較接近, 因此整合不同代謝數據可能會存在貢獻抵消的情況, 而導致預測精度下降; 對品質性狀而言, 不同環境代謝物負相關數目遠小于正相關, 因此整合數據預測有更大潛力提升預測精度。

2.3 不同模型對性狀預測的影響

總體來說, rrBLUP 相比于LASSO 模型對不同性狀的預測精度更高, 但對于某些品質性狀, LASSO模型的預測效果更佳。具體來說, 基于基因組數據,發現對于55 種性狀rrBLUP 均為最佳模型。基于轉錄組數據, rrBLUP 對于20 個農藝性狀是最優預測模型, 對品質性狀中的大多數性狀為最優模型, 而軟脂酸與棕櫚油酸的比例(C160.C161)和生育酚比值(ratio)則是LASSO 為最佳預測模型。基于代謝組數據, LASSO 對于4 個農藝性狀和8 個品質性狀是最優模型。在農藝性狀中LASSO 預測效果最佳的性狀是株高(Plant height) (r=0.331), 品質性狀中預測效果最佳的性狀是亞麻酸含量(C18_3P) (r=0.622)(圖3-A)。基于上述結果, 我們初步推測rrBLUP 適合用于預測以農藝性狀為代表的數量性狀, LASSO更適合用于預測以品質性狀為代表的質量性狀。這可能是由于LASSO 模型本質是進行變量選擇, 該方法很難捕獲到微效基因的效應, 而對于由主效基因控制的質量性狀, 該方法可以放大主效基因的作用,以實現更好的預測效果。

圖3 不同模型和數據組合對性狀預測的整合評估Fig.3 Integrated evaluation of models and omic-data combinations on trait prediction

為探究不同模型之間精度變化規律, 本研究設定預測精度為0~0.3 為低精度、0.3~0.6 為中精度、0.6~1.0 為高精度(圖3-B)。利用基因組數據, 發現使用rrBLUP 模型時所有性狀的預測精度均高于0.3,其中27 個性狀預測精度較高。使用LASSO 模型時,41 個性狀預測精度中等或較高。其中, 4 個性狀被rrBLUP 和LASSO 預測均較高, 均為品質性狀, 分別是油酸(C18_1)、亞油酸(C18_2)、油分濃度(OIL)、生育酚總量(total)。利用轉錄組數據, 發現使用rrBLUP 模型時 18 個性狀預測精度較高。使用LASSO 模型, 有39 個性狀預測精度中等或較高。其中1 個性狀-gamma 生育酚(gamma)被rrBLUP 和LASSO 預測精度均較高。利用代謝組數據, 發現使用rrBLUP 模型時40 個性狀預測精度中等或較高,其中, 10 個性狀預測精度較高。使用LASSO 模型時,37 個性狀預測精度中等或較高, 其中, 6 個性狀預測精度較高(圖3-B)。這些結果表明, 針對不同類型性狀, 不同組學數據在rrBLUP 和LASSO 模型下表現出不同的精度變化模式。

通過整合分析, 因此我們鑒定出不同性狀的最佳預測的數據和模型組合(圖3-C)。結果發現, 45 個性狀的最優預測組合為基因組數據和rrBLUP 模型(Geno_rrBLUP), 其中22 個性狀預測精度大于0.6,其中預測精度最高的性狀為籽粒含油量(OIL) (r=0.887)。3 個性狀的最優預測組合為轉錄組數據和rrBLUP 模型(Tran_rrBLUP), 預測精度均大于0.6,其中預測精度最高的性狀為散粉期(Pollenshed)(r=0.651)。生育酚比值(ratio)最優預測組合為轉錄組數據和 LASSO 模型(Tran_LASSO), 預測精度為0.459; 3 個性狀的最優預測組合為代謝組數據和rrBLUP 模型(Meta_rrBLUP), 預測精度均大于0.6,精度最高的性狀為油酸含量(C18_1P) (r=0.667); 3 個性狀的最優預測組合為代謝組數據和LASSO 模型(Meta_LASSO), 其中預測精度最高的性狀是軟脂酸與硬脂酸的比例(C160.C180) (r=0.522)。此外, 結果顯示, 僅在農藝性狀中出現轉錄組數據為最優預測組合的數據來源, 僅在品質性狀中出現代謝組數據為最優預測組合的數據來源。這說明, 轉錄組數據對農藝性狀預測更有價值, 代謝組數據對品質性狀預測作用更大。

2.4 材料異質性對不同組學預測的影響

本研究的368 個自交系根據系譜來源可分為溫帶(temperate, TEM)材料和熱帶(tropic/sub-tropic,TST)材料。基于基因組、轉錄組和代謝組數據, 利用rrBLUP 模型對溫熱帶材料進行預測分析。研究發現,訓練集和測試集的材料類型相同時(即溫帶預測溫帶, TEM-TEM; 或熱帶預測熱帶, TST-TST; 精度0.211~0.582), 3 種組學數據預測效果均優于訓練集和測試集類型不同的情況(即溫帶預測熱點, TEMTST; 或熱帶預測溫帶, TST-TEM; 精度0.120~0.197)(圖4-A)。同時, 研究發現, 使用TEM 預測TEM 的效果明顯優于使用TST 預測TST 的效果, 而使用TST 預測TEM 的效果略優于使用TEM 預測TST 的效果(圖4-B), 這可能是由于熱帶材料的變異程度比溫帶材料的變異程度豐富, 從而使得用TST 訓練集很難覆蓋TST 測試集的遺傳變異, 但是包含了TEM中的大部分變異。除此之外, 研究發現使用歸屬于TST 的代謝組數據訓練模型時, 預測TEM 與預測TST 的精度相差無幾, 僅有0.015, 這個結果說明在使用親緣關系較遠的材料進行預測時, 可以加入代謝組學數據進行模型的構建, 可能會提升預測精度。

圖4 材料系譜差異對不同組學預測的影響Fig.4 Influence of material genealogy on prediction by omics data

對農藝和品質性狀, 材料異質性對不同組學預測進行分析。對比發現, 基于基因組數據(圖4-C)和代謝組數據(圖4-E)的預測結果, 在4 種不同訓練集和測試集的組合中, 均表現出品質性狀的預測效果優于農藝性狀的預測結果; 基于轉錄組數據的預測結果(圖4-D), 發現除了TEM-TEM 的組合之外, 其余3 種組合均表現出農藝性狀的預測效果優于品質性狀的預測結果。此外, 研究發現基于代謝組數據的預測結果也表現出 TST-TST 的預測結果與TST-TEM 的結果相當, 而對于品質性狀, TST-TEM的預測均值(r=0.255)略高于TST-TST (r=0.238)。

3 討論

本研究基于基因組、轉錄組和代謝組數據, 使用rrBLUP 和LASSO 兩種統計模型, 對玉米的農藝性狀和品質性狀進行了基因組預測分析。結果發現,基于基因組數據, 品質性狀的預測能力整體高于農藝性狀。對比不同組學數據, 2 種類型性狀均呈現基因組數據預測精度高于轉錄組數據預測精度, 轉錄組數據預測精度高于代謝組數據預測精度的預測趨勢。對比不同模型, rrBLUP 在大多數農藝性狀中表現出了良好的預測效果, 而LASSO 在一些品質性狀中預測效果更好。整合分析發現, 轉錄組數據對農藝性狀預測更有價值, 代謝組數據對品質性狀預測作用更大。此外, 使用親緣關系較遠的材料進行預測時, 加入代謝組學數據進行模型構建, 可提升預測精度。

由于數據和模型的局限性, 本研究還存在值得改進和深入分析的地方。對于不同組學數據, 由于轉錄組和代謝組數據維度要遠小于基因組數據, 同時, 本研究使用的轉錄組數據僅來自玉米籽粒, 可能忽略了某些組織特異性基因的表達差異。此外,Zheng 等[40]曾證明禾本科的組蛋白修飾在植物生長和脅迫適應中發揮著重要作用, 這表明表觀遺傳修飾在植物生長中的重要性, 而在本研究中未涉及到表觀組學的預測分析。因此, 未來可通過不斷補充組學數據類型和擴充組學數據維度, 進一步提高預測精度。對于不同模型, 本研究僅選擇了2 種穩健的統計模型rrBLUP 與LASSO 進行分析和比較, 發現rrBLUP 更適合用于預測以農藝性狀為代表的數量性狀, LASSO 更適合用于預測以品質性狀為代表的質量性狀。同時, Campos 等[41]曾驗證相同的數據集預測相同的目標性狀可能會出現多個同樣好的預測模型, 很難直接確定GS 的最優統計方法。因此,即使rrBLUP 和LASSO 在GS 中表現出更優的性能,未來仍可以嘗試更多機器學習或神經網絡算法, 以更好地學習多組學數據內部的復雜非線性互作關系[24]。此外, 本研究僅是基于單個組學的預測效果分析, 而已有報道利用遺傳標記作為變量并結合轉錄組和代謝組數據, 進行 3 層遺傳特征學習的MLLASSO (multilayered least absolute shrinkage and selection operator)模型, 產量的預測精度(R2)可由0.1588 提升至0.2451[33], 表明基于中心法則, 借助機器學習算法優勢, 建立時序性的多模態多組學預測模型[33], 是合理利用多組學數據精確預測玉米復雜性狀的潛在解決方案。

4 結論

本研究基于rrBLUP 和LASSO 兩種統計模型,分別利用基因組、轉錄組、代謝組數據進行基因組預測分析, 系統測試了多個玉米性狀在不同組學數據下預測能力的差異, 為多維組學數據進行基因組預測分析提供了數據基礎和參考依據。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲激情区| 日韩国产另类| 久久久噜噜噜久久中文字幕色伊伊| 国产精品制服| 天堂在线www网亚洲| 制服丝袜亚洲| 久久综合AV免费观看| 看看一级毛片| 亚洲无码熟妇人妻AV在线| 99久久亚洲综合精品TS| 国产AV毛片| 国产成年女人特黄特色大片免费| 狠狠亚洲五月天| 亚洲Aⅴ无码专区在线观看q| 国产麻豆另类AV| 四虎影视8848永久精品| 欧洲亚洲一区| 国产精品hd在线播放| 欧美精品不卡| 欧美va亚洲va香蕉在线| 91高清在线视频| 久久精品aⅴ无码中文字幕| 亚洲二三区| 中文字幕一区二区视频| 婷婷六月天激情| 99在线观看免费视频| 精品国产电影久久九九| 有专无码视频| 日韩国产高清无码| 国产永久无码观看在线| 国产亚洲精品精品精品| 激情午夜婷婷| 日韩精品毛片| 三上悠亚一区二区| 亚洲va欧美va国产综合下载| 国产激情影院| 任我操在线视频| 在线国产你懂的| h视频在线播放| 国产欧美日韩免费| 在线人成精品免费视频| 国产精品永久不卡免费视频| 国产自在线播放| 99热国产在线精品99| 精品无码人妻一区二区| 久久精品人妻中文视频| 亚洲天堂精品在线观看| 久久久久免费精品国产| 四虎亚洲精品| 波多野结衣一区二区三区88| 色综合五月婷婷| 国产精品55夜色66夜色| 国产成人一二三| 又黄又爽视频好爽视频| 国产精品理论片| 91视频国产高清| 国产精品色婷婷在线观看| 欧美成人a∨视频免费观看| 亚洲制服丝袜第一页| 2020精品极品国产色在线观看 | 香蕉蕉亚亚洲aav综合| 91福利免费视频| 亚洲精品手机在线| 日韩高清在线观看不卡一区二区| 久久久久免费看成人影片| 亚洲欧美综合精品久久成人网| 欧美日本视频在线观看| 国产熟睡乱子伦视频网站| 婷婷午夜天| 国产特级毛片| 搞黄网站免费观看| 精品无码一区二区三区电影 | 国产精品熟女亚洲AV麻豆| 美美女高清毛片视频免费观看| 亚洲女同欧美在线| 全免费a级毛片免费看不卡| 干中文字幕| 91激情视频| 免费高清a毛片| 污网站在线观看视频| 午夜人性色福利无码视频在线观看| 国产高清国内精品福利|