顧金剛 馬 銳 李世貴 馬曉彤 梁瑞珍
(1.中國農業科學院農業資源與農業區劃研究所,北京 100081;2.農業農村部農業微生物資源收集與保藏重點實驗室,北京 100081)
科學數據主要指在自然科學、工程技術科學等領域,通過基礎研究、應用研究、試驗開發產生的數據及通過觀測監測、考察調查、檢驗檢測等方式取得并可用于科學研究活動的原始數據及其衍生數據[1]。在科學大數據時代,科學研究者、科學設備和科學數據三者之間的相互作用和影響促進了科學協作[2]。澳大利亞V.B.D.Skerman 教授于20 世紀60 年代在世界培養物保藏聯盟(World Federation for Culture Col‐lections,WFCC)主導下建立了世界微生物數據中心(World Data Centre for Microorganisms,WDCM),主要用于微生物菌種保藏機構和保藏菌株信息發布,側重于微生物菌種目錄信息的整理。1997—2011 年該中心移交到日本Kazuo Komagata 和Hideaki Suga‐wara 教授管理,建立了世界菌種索引數據庫(http://www.wdcm.org)并向公眾網絡開放。2011 年該中心移交到中國科學院微生物研究所管理,目前該中心已經建設有資源文獻引用、專利菌株統計、參考菌株、全球微生物菌種目錄等數據庫。基于生物學數據的微生物資源整理與共享,2003 年我國啟動了國家微生物資源平臺建設。
農用微生物的高效利用始終貫穿著整個農業生產過程,農用微生物數據是指微生物自身型生物學數據以及與微生物密切關聯一些特定生態環境和功能的數據。生態型和功能型微生物數據日趨關鍵。2019 年12 月16 日,美國國家科學院、工程院和醫學院聯合發布了題為“Science Breakthroughs to Ad‐vance Food and Agricultural Research by 2030”的研究報告,重點提出建立農業微生物數據庫,在分子水平上分析土壤、植物和動物微生物組之間的相互作用,并通過改善土壤結構、提高飼料效率和養分利用率以及提高對環境和疾病的抵抗力等,增強農業生產力和彈性。我國在近十年發展中,農用微生物資源保藏量突破50 萬株,菌種基因組、宏基因組、微生物多樣性測序占比眾多,但農業種-養體系中農用微生物功能型數據嚴重匱乏和缺少系統性統籌。農用微生物數據基于微生物資源產生,其功能效用、監測方法都以資源屬性為依據實施,2017 年農業農村部啟動農業基礎性長期性科技工作[3],開始彌補農用微生物功能數據這一短板。
農用微生物資源與資源生物學數據是統一的整體,農用微生物數據產生基于微生物資源以及其附加的功能。微生物菌種資源是指可培養的、有一定研究意義或實用價值的一類生物資源[4]。農用微生物是應用于農業生產、農產品加工、農業生物技術和農業生態環境保護等應用微生物的統稱。農用微生物數據獲取與應用范疇密切相關,農用微生物應用廣泛,覆蓋種植業、養殖業以及農業環境等,包括獲取農業微生物基因、植物病原、生物防治、肥效、飼料、能源、土壤微生態環境調控治理、農藥和農業廢棄物降解、食用菌等微生物(圖1)。對于種植業應用而言,應用的微生物菌劑有根瘤菌劑、菌根菌劑、溶磷菌劑、促生菌劑(PGPR 和PGPF)、腐熟菌劑、農藥降解菌劑等;對于養殖業,應用的微生物菌劑包括青貯菌劑、益生菌劑、水產微生物制劑等。農用微生物菌劑生產菌株必須正確鑒定,確保沒有毒素產生,研究生產過程的菌種必須安全保藏和定期檢查,發酵產品進行毒素的常規檢測。
微生物數據是微生物資源保藏管理和可持續利用的基礎,我國微生物資源工作處于由“量變”到“質變”關鍵階段,多元化、規范化的數據獲取積累、存儲加工和利用尤為關鍵。微生物資源保藏機構起源于歐洲18 世紀末,捷克微生物學家Fran-tisek Kral 最早從事微生物菌種的公共性保藏[5]。我國的農業微生物資源保藏經過40 余年的發展,已形成以中國農業微生物菌種保藏管理中心為綜合型保藏機構,以及厭氧菌、菌根菌、根瘤菌、食用菌、乳酸菌、蟲生真菌、芽孢桿菌、蘇云金桿菌(Bt)等專業型保藏機構相結合的微生物資源收集保藏工作體系。2014 年出版的《中國農業菌種目錄大全》收錄502 個屬、1 786 個種、11 320 株的農業微生物[6]。張金霞等“食用菌種質資源鑒定評價技術與廣適性品種選育”研究中收集保藏了食用菌8 000 余株,涉及418 個種,占國內外栽培品種90%以上[7]。國家農用微生物數據中心對中央、省級、地級農科院、大學等單位的調查發現2010—2020年農用微生物資源工作進展迅速,全國庫藏農業微生物資源51萬余株(表1),但完成分子準確鑒定信息和功能評價的比例偏低,資源信息完整度不高。對微生物資源研究是重數量而輕質量,國內的單位對資源工作的傳承性、數據獲取與收集、規范性整理與保存重視不夠。微生物資源工作是基于各種自然和應用環境,分離、鑒定、篩選、評價所需微生物菌種資源,培養組學[8]和原位培養[9]等技術為發現新資源提供了可能。
農用微生物數據是微生物數據和農業應用數據想結合的獨立范疇,依據微生物生物體和作用環境,將農用微生物數據劃分為兩個類型數據(表2):第一,微生物自身型生物學數據,包括培養組、基因組、轉錄組、蛋白質組和代謝組信息數據。微生物組(mi‐crobiome)是指包括細菌、古菌、低(高)等真核生物、病毒等微生物的基因和基因組,及其周圍環境在內的全部[10],涉及微生物培養組、DNA和mRNA信息。蛋白質組(proteome)一詞最早在1994 年由澳大利亞科學家Wilkins 等[11]提出的,意指一個組織或細胞中的全部蛋白質由基因組表達。1995 年第一篇蛋白質組學文獻報道以來NCBI Pubmed 數據庫中已有88 300篇文獻[12]。基于磁共振分析基礎,英國研究者Nich‐olson 等于1999 年首次提出代謝組學概念[13],主要應用于探究相對分子質量很小(<150 Da)的分子物質,后者多為糖、脂質、蛋白質代謝過程的中間產物或最終產物。這些小分子物質不僅能夠說明細胞內部的生理代謝變化,也表現出細胞接受環境污染物和藥物等外界因素的影響,代謝組學擁有組學研究的“終點”之稱[13-14]。第二種類型的農用微生物數據為微生物關聯型數據,是與微生物密切關聯一些特定生態環境和功能的數據,包括兩個層面,一為生態學數據,包括微生物多樣性、宏基因組、宏蛋白組、宏代謝組等;二為功能型微生物數據,如根瘤菌與豆科植物互作的結瘤率、固氮效率,從枝菌根菌的侵染率等。第二、三代測序技術通量的提高和費用的下降極大地推動了微生物組領域的發展,拓寬了微生物組研究對象的深度和廣度[15]。

表1 國內主要農業微生物單位及保藏功能微生物類群和數量Table 1 Key domestic agro-microbe collection centers and their collection information

表2 農用微生物數據類別Table 2 Classification of Agro-microbial data
基于微生物多元信息構建數據庫是實現微生物高效應用的前提。我國的微生物數據庫類型多以菌種資源信息型居多(表3),多數單位的資源信息僅課題組保藏,沒有標準化信息整理和數據共享系統。國內涉及微生物基因組信息數據開始起步(https://gc‐meta.wdcm.org/),在微生物基因組、轉錄組、蛋白質組、代謝組等領域嚴重依賴國外數據庫和工具軟件,其中美國國家生物技術信息中心(The National Cen‐ter for Biotechnology Information,簡稱NCBI,https://www.ncbi.nlm.nih.gov/)的生物學數據收集與積累占有絕對優勢地位。微生物生態學學科的快速發展產生了大量的序列數據集,目前一般存儲在NCBI、ENA 和MG-RAST 等國際生物信息學數據庫。中國科學院成都生物研究所李香真團隊經過近3 年的開發與迭代,微生物組數據庫v1.3 版本現已正式上線(http://egcloud.cib.cn),微生物組數據庫的一大特點是同時收集微生物測序數據和與之關聯的環境參數信息,為用戶提供數據的存儲、檢索和分析服務,當前版本更新了生物信息分析流程、增加了生物信息模塊分析、實時多元生態統計分析和可視化功能。
在微生物應用層面數據庫建設處于初級階段,數據和應用場景生態還需要持性積累。許哲平等從基礎層、資源層、組織層和應用服務層等四個層次來提出農業生物多樣性大數據平臺的頂層建設框架[16]。陳崢等建立芽胞桿菌菌種資源庫的收集保藏系統和基于脂肪酸、rRNA 和傳統生理生化特性的細菌鑒定系統,以氣質聯用、液質聯用鑒定結果構建細菌次生代謝物庫,在此基礎上建立一整套針對作物病害、蟲害、線蟲為害以及雜草的微生物農藥候選菌株的篩選評價系統[17]。潘愷等借助空間數據庫技術、網絡地理信息系統(WebGIS)技術,設計并構建了包含土壤及微生物數據集成、數據可視化、知識發現和區域空間制圖等功能的中國土壤微生物組數據平臺[18]。黃家樂等建立制藥企業微生物鑒定技術和監測數據庫,以達到微生物溯源調查、回顧分析和法規符合性的要求[19]。楊瑞恒等基于野生香菇資源的文獻以及公共數據庫中的序列信息,調查了香菇在我國以及世界范圍內的地理分布,通過多樣性分析顯示我國野生香菇的多樣性中心分布于西北和西南地區[20]。

表3 國內主要農用微生物菌種保藏管理中心網站Table 3 Keywebsitesof domestic agro-microbial culturecollections
文獻和專利是現階段微生物數據的重要載體,相關數據庫的建設和應用日趨成熟(表4)。我國近幾年加強了科技期刊、學生論文、出版物等數據庫的經費投入,文獻搜索實力不斷增強,我國微生物數據和文獻關聯性數據庫和知識發現相對匱乏。

表4 重要的國內外農用微生物文獻數據庫Table 4 Key domestic and internationalagri-microbialdatabases
農用微生物資源與資源生物學數據是統一的整體,基于科學發現的培養組、基因組、微生物多樣性等科學數據積累會提高資源的認知水平。關聯性數據庫建設和知識發現,必然依托于農用微生物資源與數據分類、關聯性特征數據的紐帶聯系(圖2),如基于微生物培養組學研究,第一,有助于發現新資源、新類群、新性能;第二,培養條件改變,導致轉錄調控改變,從而改變菌種的蛋白質學和代謝組學,可以促進微生物應用功能的改善與提高。
微生物資源信息系統、基因組數據、科研觀測數據以及文獻分別屬于獨立系統,數據之間的關聯性是資源和數據是價值最大化的限制因子。微生物資源信息微生物菌種的名稱、菌種編號,基因數據庫中基因編號、基因組編號,科學觀測數據庫中的采樣地點及樣品編號、采樣時間等,是實現多元化數據高效整合應用分析的核心關鍵。菌種編號、基因序列號、基因組編號、樣品編號的唯一性,能夠確保數據的關聯的準確性(表5)。國內大多數期刊發表文章沒有嚴格要求論文中所涉及的微生物菌種名稱、菌種編號,以及基因序列號等,信息數據關聯度不夠。
基于多數據庫的SCI 文獻和相關專利的互聯網檢索,是知識發現的重要途徑。作者參與“863”項目課題“微生物數字化信息集成標準規范研發及知識庫集成”中,基于知識挖掘模型的數據關聯技術,將屬于農用微生物語義網的肥效、生防、飼料、環境污染物降解、食用菌等五類農用微生物領域的331 個微生物實體概念引入微生物領域本體,完成與中文文獻70 萬條、英文文獻20 萬余條、菌株1 萬余株、國內專利15萬余條、國際專利8 萬余條、相關化合物3 萬余條、相關基因5萬余條的關聯處理。

表5 微生物資源與數據庫系統關聯字段設置Table 5 Keywordsof themicrobial resourcesand database
農用微生物數據獲取與收集需要多元化、系統化和規范化。種植-養殖體系中的微生物生態系統包括微生物與微生物之間、微生物與宿主之間、以及微生物與環境之間的相互關系,與時間、空間、土壤理化因素、氣候、種養模式、品種、動植物健康狀況等相關。微生物組學要準確理解樣品中的微生物種類,多度及其功能,微生物組技術對認知和理解農業系統運行至關重要,多組學聯合應用將是微生物組研究常規手段。針對多元化的數據,數據的獲取和集成需要國家層面專業化統籌設計和通量化的數據整理。
農用微生物生物型、生態型與功能型數據的匹配性。我國農用微生物數據以資源生物型和生態型數據居多,隨著測試技術通量提高和費用降低,微生物基因組、宏基因組、蛋白組、代謝組數據,以及微生物多樣性數據呈井噴式積累,但功能型數據的獲取需要實驗設計和傳統測試技術,現代化測試技術助力有限。農用微生物生物型、生態型與功能型數據在同一位點、動植物物、環境匹配協同,其蘊含的關聯問題更具價值。
農用微生物功能監測數據缺乏標準化和長期監測積累,是制約我國微生物應用領域科技原始創新的短板之一。加強科學監測工作統籌設計,在全國范圍內科學系統布局觀測實驗站和監測點,穩定數據監測隊伍和經費支持,保證監測數據長期性和連續性,發展科學監測數據獲取或分析手段方法,挖掘數據潛力價值,尤為迫切。