基于深度學習的作物基因組學和遺傳改良

2021-08-05 08:27:12辛志奇趙航汪海路鐵剛

生物技術進展 2021年4期

辛志奇，趙航，汪海，路鐵剛*

1.中國農業科學院生物技術研究所，北京100081；2.中國農業大學國家玉米改良中心，北京100193

隨著全球人口數量不斷增加，到2050 年，全球對糧食的需求預計將比2005 年增加100%～110%[1-2]。為滿足人們對農作物產品日益增長的需求，創新育種技術顯得尤為重要。在漫長的農業歷史中，育種主要經歷了三個階段：通過觀察植株表型，選育優良自交系的傳統育種；應用統計學、數量遺傳學預先設計雜交育種實驗，獲得雜種優勢的雜交育種；綜合單倍體育種、分子標記育種和轉基因育種的現代生物工程育種[1]。Edward S Buckler[2]總結了過去的三個時代，并提出了“育種4.0”的概念。王向峰等[1]提出了在“育種4.0”時代深度融合生命科學、信息科學和育種科學的理念。人工智能設計育種是由人工智能與育種相結合，能夠給傳統育種帶來革命性的改變。它包括利用深度學習和機器學習把基因組學、轉錄組學、蛋白質組學、表觀遺傳學、代謝組學和表型組學的多組學數據結合，構建遺傳調控網絡，實現對作物表型的精準預測；深度學習指導基因編輯，實現對作物表型的控制和設計；深度學習在合成生物學的應用會使作物的設計育種更加自由高效。

1 人工智能及分支

人工智能這一概念最早在20 世紀40 年代被提出，但是受計算能力的限制，人工智能領域一直處于發展的低谷。進入21 世紀后，計算機性能的大幅提升（尤其是GPU 的發展）使得人工智能領域重新回到人們的視野。目前，人工智能已被應用于多個領域。

1.1 機器學習

人工智能領域最主要的研究方法是機器學習，機器學習按學習形式可以分為監督學習和無監督學習兩種。監督學習是指在訓練實例中學習輸入變量數據和其因變量（或叫標簽）之間的關系，然后以此在新實例中預測結果，主要應用于回歸和分類問題。例如，可以用大量歷史氣象數據訓練機器學習模型，該模型可以以過去的天氣數據為預測因子，預測未來的天氣。如果預測的目標變量為離散變量，則該機器學習任務稱為分類問題（classification）；如果預測的目標變量為連續變量，則該機器學習任務稱為回歸問題（regression）。在機器學習中有很多監督學習算法及應用，例如結合統計學的隱馬爾可夫模型（hidden Markov model, HMM）和機器學習的支持向量機（support vector machine,SVM）可以快速準確預測和區分DNA 和RNA 結合殘基的方法，這有利于進一步預測蛋白質-DNA 和蛋白質-RNA 相互作用的序列[3-4]；用隨機森林和支持向量機模型通過DNA 甲基化數據精確診斷癌癥[5]。無監督學習是指在訓練實例中輸入沒有因變量（或標簽）的數據，又稱為歸納性學習，典型的無監督學習包括降維（dimensionality reduction）和聚類（clustering），適合學習高維度數據，例如組學數據[6-7]。

1.2 深度學習

深度學習是機器學習領域的一個相對年輕的分支，已經成為機器學習領域最流行和最強大的技術之一[8]。人工神經網絡以數學模型模擬神經元活動，包括輸入層、隱藏層和輸出層三個部分（圖1），其深度神經網絡用多層的隱藏層使神經網絡的性能大幅提高，同時需要的計算能力和數據量也大幅提升。

圖1 人工神經網絡層次Fig1 Artificial neural network

卷積神經網絡（convolutional neural network，CNN）是深度神經網絡的一種，也是基礎的深度學習模型，用卷積這一數學計算方式提取數據中的特征信息，再經深度神經網絡處理，可以大大增加神經網絡的性能。卷積神經網絡更擅長提取結構信息。目前已經有很多利用CNN 解決基因組學問題的例子。例如，Babak 等[4]預測DNA 和RNA與蛋白質的結合位點，Hashemifar 等[9]預測蛋白質之間相互作用；Gao 等[10]基于基因序列預測poly(A)位點；Zhou等[11]預測了人類基因組變異對基因表達調控和疾病的影響；Zhou 和Wang等[12-13]預測了非編碼基因突變的影響；Jost 等[14]結合CRISPR技術實現調控基因表達量變化等。另一種監督學習模型，循環神經網絡（neutral network, RNN）加入時間步（timestep）概念，使其具有記憶性和參數共享的特點，適合處理有時間信息的數據，廣泛應用于自然語言處理領域。在生物學領域常被用來預測序列的功能。例如，Shen 等[16]結合RNN 和k-mer[15]預測轉錄因子識別位點；Li 等[17]利用CNN和RNN 從氨基酸序列預測酶的生化功能；Quang等[18]利用RNN 和CNN 預測非編碼基因的功能等。值得注意的是，有報道指出，CNN 在提取特征方面更高效，而釋義DNA 序列方面，來自自然語言處理領域的k-mer 方法顯得比CNN 和RNN 更優秀[19]。

自編碼器（auto-encoder）是深度學習中的無監督學習的重要組成部分。自編碼器分為編碼和解碼兩部分。編碼部分負責將輸入數據低維化處理，也可以理解為特征提取；解碼部分負責將編碼得到的結果恢復到原始輸入的形式，它是理解復雜深度學習模型的關鍵，可以把數據中的關鍵數據提煉并展現出來，解決了深度學習模型訓練過程的不可見問題。目前自編碼器在圖像識別、降噪、色彩化方面有廣泛應用。Zhang 等[7]用自編碼器整合多組學數據，有效緩解了生物領域在運用人工智能模型時出現的“少樣本，高維度特征”的問題；用自編碼器解碼深度學習模型并結合全基因組關聯分析（genome wide association study，GWAS）的技術觀察到未分類的基因在深度學習模型的不同深度中被有序的分類[20]。

生成模型技術作為深度學習領域的重要分支，它既不屬于監督學習也不屬于無監督學習。主要包括生成式對抗網絡（generative adversarial network, GAN）和變分自動編碼器（encoder）兩種模型。

生成式對抗網絡[21]分別建立并訓練生成模塊和判別模塊，將生成模塊生產的偽數據交由判別模塊判斷真偽，通過這種對抗學習的方式進行訓練，可以生成真實度高的數據。目前在生物醫藥方面已經有相關的文章報道：基于生成式對抗網絡設計蛋白酶抑制劑[22]；RamaNet 模型從頭設計合成螺線蛋白骨架[23]；基于生成式對抗網絡設計合成大腸桿菌啟動子序列[24]。

變分自動編碼器[25]與生成式對抗網絡同屬生成模型家族成員，兩種模型都致力于生成更接近真實的數據，但是二者的實現思路不同。變分自動編碼器在結構方面與自動編碼器有相似之處，也是由編碼器和解碼器組成（也被稱作識別模型和生成模型），并且二者都是學習輸入數據的潛在向量并試圖重建輸入數據。不同的是，變分自動編碼器學習潛在向量的分布關系，在潛在空間中是連續的，再由生成模型構建輸入數據；生成式對抗網絡由生成器和判別器組成，生成器負責創造數據，而判別器負責評價生成器創造的數據是否能夠以假亂真。Davidsen 等[26]用變分自動編碼器模型生成T細胞受體的蛋白質序列。

2 深度學習在作物基因組學中的應用

目前人工智能在農業上應用的報道主要是對圖像和視頻進行識別，如對玉米照片進行識別和對玉米干旱脅迫下的表型進行分類[27]；視頻檢測植物生長早期干旱脅迫[28]；視頻識別水稻蟲害和病害[29]；以擬南芥為例基于植物圖像對植物表型分類[30-31]等。生物的遺傳信息是沿著中心法則傳遞的，想對植物基因進行設計，表型精準預測就一定要對基因組、轉錄組、蛋白質組、表觀遺傳組甚至是代謝組規則有更深的認識。近年來，在基因組學領域，圍繞各種分子表型發展出了一系列基于二代測序的高通量技術，如轉錄組技術、開放染色質分析技術、DNA-轉錄因子互作技術[32]等。深度學習技術可以對這些大規模數據集進行建模。

2.1 深度學習模型建立的過程

深度學習模型建立首先遇到的一個問題就是生物學數據該以何種形式輸入到人工智能模型中，這個問題在基因組和轉錄組已經有了統一的答案。One-hot 編碼方式可以高效地將基因組和轉錄組數據儲存在電腦中作為輸入數據。將基因的A、T、G、C 4 種堿基儲存在一個4×N 的矩陣中，每一列只儲存1 個堿基（圖2），這個方法可以將N bp的基因數據輸入模型。

圖2 One-hot編碼Fig.2 One-hot encoding

當建立機器學習模型時,觀測數據通常被隨機分為訓練集（用于訓練模型）、驗證集（用于確定模型結構和超參數），以及測試集（用于評估模型的性能）。這種隨機劃分能夠避免數據間存在規律性特征而得出準確率虛高的模型。訓練集/測試集的劃分應盡量保持數據分布的一致性，避免混雜因素（confounder）對最終結果的影響。最常用的訓練集/測試集分割方法為交叉驗證法。在訓練集上的準確度高于在測試集上的準確度，這種現象被稱為過擬合（over-fitting）。有幾種情況會導致過擬合。一個通常出現的問題是特征空間中的維度有時大大超過觀測值。例如，當從基因組變體預測一個表型時，檢測到的基因組單核苷酸SNP數目幾乎總是超過植物基因型的數目。在這種情況下，可以使用主成分分析(principal component analysis,PCA)和自動編碼器[11-12]等降維技術來減少特征的數目。然而，在處理基因組學中的問題時，過擬合有時候是隱藏的。例如，當一個基因家族的成員被劃分為訓練集和驗證、測試集時，模型將學習家族特異性的分子特征，并高估預測準確性。

2.2 利用深度學習技術預測生物學序列

各個組學數據都有被人工智能挖掘有用信息的巨大潛力。在DNA 層次上，Umarov 等[33]利用CNN 構建了啟動子的預測模型，分析了幾種原核和真核生物的啟動子序列特征，包括人、老鼠、植物（擬南芥）和細菌（大腸桿菌和枯草芽孢桿菌）。DanQ 是一種將CNN 和雙向長短期記憶循環神經網絡（BLSTM）相結合的混合框架，用于從頭預測非編碼區的功能。DanQ 學習了一種調節語法來改善預測準確性，并為非編碼基因組區域提供了新的見解[18]。 DanQ 還結合 CNN 和 BLSTM 在序列中從頭預測非編碼區功能[18]。Sample 等[34]使用CNN 和遺傳算法精準預測了人類5’UTR 變體對核糖體裝載的影響。

在RNA 水平上，使用循環神經網絡（neutral network，RNN）在人類 mRNA 和 lncRNA 序列上訓練了一個門控RNN，然后用它來預測RNA 分子是否編碼蛋白質[35]。使用 CNN 預測人類 5’UTR 變異對核糖體裝載的影響[34]。他們將28 萬個隨機的5’UTR 的多聚體分析與深度學習相結合，建立了一個模型，從人類5’UTR 序列預測翻譯效率。此外，DeepChrome 是一個從組蛋白修飾數據預測基因表達量的CNN，能夠自動提取重要特征之間的復雜交互作用[36]。為了預測組織特異性的基因表達，研究人員將CNN 與空間特征變換和L2 正則化線性模型相結合，建立了ExPecto模型[37]。

在蛋白質水平上，為了在從頭生成的肽序列中提取重要的氨基酸特征，利用CNN 方法開發了DeepNovo[38]。為了預測蛋白質的二級結構，使用了相對溶劑可及性和殘基間接觸映射數據訓練了深度學習模型rawMSA[39]。最近，谷歌的Alpha-Fold 利用深度學習模型預測蛋白質的三級結構，其精確度遠超傳統機器學習方法[40]。此外，深度學習模型也用來預測蛋白質—蛋白質的相互作用。DPPI 是一種能夠從蛋白質序列信息預測蛋白相互作用和蛋白二聚體的深度學習模型[41]。DEEPre 可以從蛋白質序列預測酶的類別，利用該模型可以發掘在宏基因組、工業生物技術和人類疾病中起重要功能的蛋白質[42]。

除了用各組學數據分別預測之外，Ma 等[7]將各組學數據整合，使生物學數據更立體，與表型相關的信息也會更豐富準確，同時也會有效緩解人工智能與生物學結合領域一直存在的問題，即生物學“數據特征維度高但樣本少”的問題，Ma 等[7]也指出這樣做的難點在于各組學數據的信息不均勻。

3 深度學習在育種4.0中的應用

作物自然群體中存在著海量的自然變異，其中能夠影響作物表型的變異稱為功能變異。功能變異位點的不同等位變異具有不同的表型效應，可以劃分為有利等位變異和有害等位變異。作物育種很大程度上可以視為有利等位變異的富集（也可以從另一個方面看做有害等位變異的清除）。過去的30 年被概括為育種3.0 時代，在這一歷史階段，獲取高通量基因型數據和表型數據的成本不斷降低，同時通過關聯分析和連鎖分析克隆了大量控制重要農藝性狀的關鍵位點。以此為基礎，分子標記輔助選擇技術、基因組預測技術在作物育種中逐漸成為常規技術。未來我們將進入一個新的育種歷史階段：育種4.0。在這一階段，人工智能將主要從三個方面促進設計育種發展：①發掘功能變異，指導精準雜交育種。通過各生物組學數據和環境數據預測出作物的產量和表型性狀，從而實現簡單化精準化的預測作物復雜優良性狀。②設計有利等位變異，指導基因編輯育種。從基因水平、轉錄水平，以人工智能模型指導基因編輯，進一步細致調控基因表達，從而改良性狀。③設計具有特定功能的基因組元件，指導合成生物學。創造新的DNA 元素、基因，甚至具有某種特定功能的調控通路，并將其應用于作物育種。

目前大多數研究都聚焦于人工智能進行分類和回歸的能力。Wang 等[19]的文章中提到人工智能的生成模型可以通過學習生成新的基因元件從而應用于合成生物學。生成模型技術與合成生物學結合，根據預測模型的指導，重新設計非自然的基因、蛋白質等應用已經被報道。如深度學習指導編輯gRNA實現基因表達量的調控[14]；結合生成式對抗網絡設計大腸桿菌基因啟動子序列[24]；設計蛋白質序列以拓展蛋白質空間[43]；設計螺線蛋白質骨架[23]；生成T細胞受體的蛋白質序列[26]等。

深度學習模型存在遷移學習的性質，即可以用某一物種訓練的預測模型預測相近物種，這種性質使得生物學中單一物種訓練的模型有了更廣泛的用處，如小鼠基因組訓練的模型可以用在人類基因組上[50]，單一植物葉片脅迫表型的識別模型可以用來預測其他植物的葉片脅迫表現[44]。

4 展望

人工智能特別是深度學習出現之后，已經在多個領域掀起新的浪潮，現階段已經在基因組學、轉錄組學、蛋白質組學和合成生物學等領域發揮了巨大作用，如完善基因組功能注釋、挖掘新功能基因、預測植物表型、發現基因、RNA、蛋白質等物質的新分類模式，指導基因編輯。高通量技術的發展見證著植物基因組學的進步，它以較低的花費識別著多種分子表型。然而，基因組學也要求利用強大的數據挖掘工具來預測和解釋這些分子表型，深度學習則可以預測任何基因組變異的分子表型效應，獲得直接控制分子表型的功能變異。此外，在合成生物學中應用深度學習模型也有望創造具有理想功能的新基因。總之，深度學習在未來植物基因組學研究和作物遺傳改良中將發揮中心作用，人工智能將會是未來農業發展不可或缺的一部分。