潘 愷 郭志英 劉 杰 王昌昆 宋 歌 賈仲君 潘賢章?
(1 土壤與農業可持續發展國家重點實驗室(中國科學院南京土壤研究所),南京 210008)(2 中國科學院大學,北京 100049)
土壤是地球上最多樣化的生物棲息地之一,不僅包含較大的生物體,如線蟲、螞蟻或鼴鼠等,還包含大量的細菌和真菌等微生物群體。每克土壤中的微生物數以億計,物種類型達10萬余種,這些海量的微生物與復雜的土壤環境總稱為土壤微生物組,其中蘊藏的巨大微生物多樣性被認為是地球元素循環過程的重要驅動力[1-3]。傳統的土壤微生物多樣性研究手段,如實驗室培養法,能分離鑒定的土壤微生物種類數量較少[4],近年來隨著高通量測序等新技術的快速發展,大規模、高效、低價檢測微生物多樣性成為了可能,同時極大地推動了土壤微生物學研究。
不過面對高通量測序產生的海量數據,如何進行管理、加工和分析又成為新的課題,迫使微生物學家不得不加入大數據俱樂部[5]。這種努力又反之促進了微生物領域專業數據庫和參考數據庫的發展。目前得到廣泛應用的微生物數據大部分存儲在公共的宏基因組在線數據庫平臺中,例如美國阿貢實驗室開發的MG-RAST[6-7]、美國能源部聯合基因組研究所的整合微生物基因組和宏基因組(IMG/M)[8]、以及metaMicrobesOnline[9]、宏基因組病毒信息學資源(VIROME)[10]、MGnify(原EBI Metagenomics)[11]等。這些在線數據庫平臺大都提供內置的注釋管道,通過將用戶提交的測序數據與后臺的參考測序數據庫進行比對,進行物種分類及功能注釋。常用的微生物參考測序數據庫包括SEED subsystem,COG,KO,NOG,ggNOG,M5RNA,KEGG,TrEMBL,SEED,PATRIC,SwissProt,GenBank,RefSeq,TIGRfam,TIGR,MetaCyc,GO,NCBI Taxonomy,Database of reference genomes,RDP,Greengenes,MGOL,UniRef 100,BacMap,GOLD等[12]。雖然已建成了較多的微生物數據庫和參考數據庫,但也有研究指出,為了全面地解碼生態系統,需要新的工具、框架和假設來分析、存儲、可視化和共享數據集,單個平臺不足以進行整體宏基因組學分析,較長的閱讀序列、精確的組裝和注釋管道是未來宏基因組學研究的發展方向[13]。
對于土壤微生物數據,常用的參考庫包括Greengenes[14],Unite[15],Silva[16],RDP[17],Ez-Taxon[18],eggNOG[19],KEGG[20]等。然而,已有通用平臺大都聚焦于提供微生物數據存儲、管理、訪問、注釋等基礎性服務,缺乏對土壤微生物所處環境數據的系統收集和標準化整合。此外,對于土壤微生物組研究領域關注的問題,如環境因素對土壤微生物群落的影響、土壤微生物空間分布格局等,仍難以提供有效的模型工具支撐。
2014年開始,中國科學院實施了戰略性先導科技專項(B類)“土壤-微生物系統功能及其調控”,該項目的研究目標之一就是構建服務于我國土壤微生物組研究的專業數據集成和分析平臺,目前平臺已完成數據集成整合、可視化分析、空間制圖等功能,本文主要針對平臺的架構設計和已實現功能進行介紹。
中國土壤微生物組數據平臺直接服務于“土壤-微生物系統功能及其調控”先導專項,為便于專項研究產生的海量數據資源的整合集成,兼顧未來的持續建設發展,平臺采用了基于B/S的可擴展架構設計,具體包括基礎設施層、數據資源層、應用支撐層、管理業務層、用戶服務層五個層次,以及配套標準規范體系及運維保障體系,其總體架構如圖1所示。
基礎設施層包括網絡、服務器、防火墻等硬件設施,需要為平臺提供足夠的數據存儲能力、計算能力、網絡帶寬及信息安全保障。考慮到土壤微生物組數據具備一定的大數據特征[21],本平臺通過虛擬化等技術將10余臺服務器集群的硬件資源池化,以作為土壤微生物組數據存儲及計算分析的基礎。同時采用獨立的Web服務器用于響應用戶請求、提供空間數據引擎及調用模型算法等,從而提升服務器的安全性和可擴展性。

圖1 中國土壤微生物組數據平臺總體架構Fig.1 Framework of the China soil microbiome data platform
數據資源層是平臺數據資源管理的基礎,具體包括元數據庫、土壤微生物數據庫、土壤微生物環境因子數據庫、用戶私有數據庫、統一數據目錄及數據交互接口等數據管理模塊。平臺采用基于用戶的數據資源權限控制方式,所整合的數據資源分開放與私有兩大類,其中開放數據資源可被全部用戶訪問,而私有數據資源由用戶通過數據交互接口集成至平臺,只限上傳者本人訪問使用。數據目錄由元數據庫提取數據庫關鍵描述信息生成,數據交互接口則負責數據層與其他層次的數據交互,包括數據資源的檢索、集成、修改等。
應用支撐層為平臺提供運行環境、工作流程和模型算法等條件保障,具體包含空間數據可視化環境、數據預處理流程、統計分析模型和空間制圖模型等模塊。其中空間數據可視化環境采用了成熟的空間數據引擎ArcGIS Server開發實現,確保所集成微生物組空間數據運行環境的穩健性和跨瀏覽器兼容性。數據預處理流程主要包含數據標準化、空間化等入庫前預處理步驟。統計分析模型集成了微生物數據及環境數據的常用統計方法,如相對豐度柱狀圖、時間序列統計圖等;制圖模型模塊則集成了土壤學領域常用的空間制圖方法,包括反距離權重法、克里金法等。
管理業務層為管理員持續管理運營平臺提供有效工具,具體包括用戶權限管理、元數據管理、數據資源管理、圖層渲染管理等模塊。管理員通過相關模塊持續更新平臺開放數據資源,并確保其元數據完整、圖層渲染規則合適。考慮到海量、異構土壤微生物組數據及相關元數據管理的復雜性,在實現相關模塊基礎管理配置功能的同時還完善了對數據資源的排序、篩選等輔助功能。
用戶服務層直接與用戶交互,本平臺采用基于B/S的技術架構,通過Web直接向用戶提供數據服務與模型計算服務,解決了不同操作系統環境下常見的兼容性問題。本層次具體包括用戶注冊登錄、數據查詢檢索、私有圖層發布、元數據錄入、空間可視化、微生物組成可視化、空間統計、空間制圖等功能模塊,滿足土壤微生物數據及環境因子數據整合集成、可視化瀏覽以及空間分析制圖等需求。
數據資源的整合建庫是平臺為用戶提供土壤微生物組研究相關數據及模型計算服務的基礎。鑒于土壤微生物組是土壤中所有微生物及其棲息環境的總稱[3],平臺收集整合的數據資源主要包括土壤微生物組數據及環境因子數據兩部分。整合的數據資源通過元數據庫及數據字典進行統一描述和規范,包括數據來源、數據精度、投影坐標體系、土壤分類體系、數據生產時間等,其建設依據“土壤科學數據元數據”(GB/T 32739-2016)國標,確保平臺數據具有良好的完整性與可用性。
在平臺整合集成的數據資源如圖2所示,其中土壤微生物數據主要來源于專項實施中產生的海量土壤微生物數據,具體包括微生物組成和豐度數據、微生物多樣性數據和測序序列數據,由于采用了統一規范的采樣及分析方法,所集成的微生物數據質量較好。而環境因子數據主要依托中國土壤數據庫(http://vdb3.soil.csdb.cn/)和土壤科學數據中心(http://soil.geodata.cn/),具體涵蓋從90 m、100 m到1 000 m不同分辨率多尺度的土壤類型因子、土壤理化因子、氣候環境因子、地形環境因子、生物環境因子、人為因子等土壤微生物棲息環境有關的數據。其中土壤類型因子包含發生分類、系統分類、美國系統分類、WRB分類等多種土壤分類體系數據。土壤理化因子包含土壤pH、有機質、全氮、全磷等主要土壤屬性含量數據。氣候環境因子包含年均溫度及年均降水量等。地形環境因子包含地形、坡度等。生物環境因子包含植被指數、覆蓋度、生物量等。人為因子則包含土地利用、行政區劃等。平臺整合的數據資源為用戶開展土壤微生物組相關研究,如環境因素對土壤微生物群落的影響、土壤微生物空間分布格局等提供了有力的數據支撐。
數據庫采用了PostgreSQL數據庫代替傳統的“關系型數據庫+ArcSDE”模式,使平臺可直接通過數據庫管理空間數據。與傳統的空間數據管理模式相比,PostgreSQL數據庫不僅具有開源免費的優勢,還具有更優秀的空間數據管理性能,更適合管理土壤微生物組數據,具體體現在以下四方面:

圖2 中國土壤微生物組數據平臺數據資源體系Fig.2 Data resource system of the China soil microbiome data platform
可擴展性強:第三方開源軟件很多,有利于提升系統能力的可擴展性。針對本平臺基礎設施層分布式集群的架構,通過第三方開源工具可以方便地解決集群數據傳輸中讀寫分離、負載均衡、數據水平拆分等問題。
功能完善:對空間數據存儲和分析功能的支持完善,而本平臺整合的數據資源以空間數據為主,涉及有關的空間數據分析功能,如空間關系分析、拓撲分析等,在PostgreSQL數據庫中均有相應的SQL函數支持。
兼容性好:屬于跨平臺的數據庫軟件,在各主流操作系統環境上均能部署應用,同時主流的GIS平臺軟件如ArcGIS、MapInfo、PostGIS等均支持PostgreSQL數據庫,這為本平臺后續集成其他GIS平臺的優勢功能提供了數據庫層面的基礎。
存取效率高:傳統的空間數據管理,如Oracle結合ArcSDE,是原生的關系型數據庫和外掛擴展的空間數據結構的結合,而采用PostgreSQL數據庫統一管理關系型和空間數據,是原生的關系型數據庫和原生的空間數據結構的天然統一,從而提升平臺對海量土壤微生物組數據的存取效率。
在數據資源整合及數據庫建設完成的基礎上,平臺基于.NET Web開發框架、IIS發布服務器、C#開發語言,遵循高內聚、低耦合的功能模塊實現原則,采用ArcGIS Server作為空間數據管理及相關分析功能的開發引擎,初步建成了基于B/S的中國土壤微生物組數據平臺(http://159.226.101.185/microbe),實現了數據管理、數據可視化、數據分析、用戶管理四部分功能模塊。建成的功能模塊包括數據服務前臺與業務管理后臺,為平臺持續提供數據服務、維護與更新數據資源提供了支撐保障,建成的平臺功能結構如圖3所示。
數據管理模塊用于支撐平臺數據資源的發布、管理及檢索,具體包括數據集成、數據預處理、元數據管理、查詢檢索等功能。支持集成到平臺的數據格式除常用的空間數據格式shp和tif外,同時支持csv、xls、xlsx等多種常用數據格式。數據集成到平臺時需要填寫元數據信息,包括數據生產者、數據生產時間、投影坐標體系等。集成到平臺的數據經過空間化、地理坐標轉換等預處理流程后統一在前臺發布。

圖3 中國土壤微生物組數據平臺功能結構圖Fig.3 Function structure of the China soil microbiome data platform
數據可視化模塊主要滿足平臺空間數據瀏覽展示需求,包括地圖瀏覽、圖層渲染、微生物組成等可視化功能。其中地圖瀏覽功能集成了圖層目錄、圖層選取、視圖切換、點查、測距、測面等地圖瀏覽常用工具。圖層渲染功能根據屬性字段的類別不同或數值大小,渲染得到不同顏色圖斑或不同大小散點進行展示,從而直觀地表達某一屬性字段的分布情況,如圖4a中不同圖斑顏色代表了不同土壤類型。微生物組成可視化功能通過疊加柱狀圖在地圖上可視化地展示目標位置土壤微生物的組成及豐度,并可與平臺其他數據如土壤類型圖等進行疊加展示,土壤微生物組成可視化效果如圖4b所示。
平臺數據分析模塊通過集成土壤微生物組數據常用的統計分析模型,滿足用戶開展土壤微生物組數據分析研究需求。具體包括時間序列分析、相關性分析以及空間制圖等功能。其中時間序列分析通過折線圖結合區域范圍選擇工具,分析展示目標屬性在選定區域隨時間變化的特征。相關性分析通過象限散點圖工具分析不同屬性字段間的相關關系。分析得到相關關系后,通過制圖數據生成工具結合平臺數據資源,得到用于空間制圖的屬性圖層,最終通過選取合適的制圖模型得到目標屬性的分布圖,相關功能具體應用示例見本文第4節。
用戶管理模塊負責平臺賬戶管理與用戶權限控制,為平臺訪問安全和信息共享安全提供保障。用戶分管理員與普通用戶兩類角色,不同角色用戶擁有不同的操作權限。普通用戶登錄平臺后,可以使用平臺私有數據集成、元數據錄入等功能管理自己的數據,并可開展私有數據與平臺公開數據的相關性分析、空間分布制圖等研究。管理員用戶則擁有對平臺開放數據資源管理的權限,包括數據發布、圖層渲染規則設置等,確保平臺穩定運行。
中國土壤微生物組數據平臺建設的核心思路是在整合土壤微生物數據及環境因子數據基礎上,通過集成方法模型,為土壤微生物組研究領域關注的問題提供數據及模型支撐。本節以表1數據為示例,從數據集成、相關性分析、空間制圖等環節,展示平臺在土壤微生物多樣性空間分布研究的應用。

圖4 平臺數據可視化模塊Fig.4 Data visualization module of the platform
示例區域為安徽省宣城市,原始數據以常用的xlsx格式保存,包含樣品編號、經緯度、pH以及OTUs屬性字段。用戶登錄平臺后,通過前臺“上傳數據”工具選取原始數據,指定數據存放目錄及經緯度字段(圖5a),同時并補充元數據信息,其中元數據主要包含數據生產者、數據生產時間、數據簡要描述等(圖5b)。平臺檢查數據格式以及指定信息無誤后,通過空間化步驟將用戶上傳的關系型數據轉換成統一地理坐標的空間數據入庫并發布,成功發布后用戶即可開展可視化的地圖瀏覽及分析(圖5c)。
數據集成到平臺后,通過象限圖工具建立土壤微生物OTUs與環境因子pH之間的關系模型,通過指定目標字段OTUs和pH,生成的象限圖效果如圖6所示。通過象限圖初步發現在研究區域內的土壤微生物OTUs與pH具備一定的線性關系,進一步計算得到線性回歸方程為:Y=831.68 X-1971.8,其中Y代表OTUs,X代表pH,對應決定系數R2為0.868 9。
基于得到的土壤微生物OTUs與pH的關系模型,結合平臺已整合的土壤理化因子數據庫中的全國第二次土壤普查典型剖面pH屬性數據,可以進一步開展宣城市土壤微生物OTUs全國第二次土壤普查空間分布的研究,獲取該時期宣城市土壤OTUs空間分布圖,具體包括制圖數據準備和空間制圖兩個步驟。

表1 土壤微生物多樣性分布研究示例數據Table 1 Demonstration data of the research on soil microbial diversity distribution
首先依據得到的線性相關關系和全國第二次土壤普查典型剖面pH屬性數據,通過“制圖數據生成”工具導入計算模型(圖7a),生成用于繪制普查期間宣城市OTUs空間分布圖的數據圖層。完成數據準備工作后,利用平臺“空間插值制圖”功能,選擇合適的制圖方法如反距離權重法或克里金法,繪制得到普查時期的宣城市土壤微生物OTUs分布圖(圖7b),并可以與現階段采集樣品繪制得到的OTUs分布圖開展更深層次的時空變化分析等研究。
平臺目前已完成架構設計、數據庫建設以及數據集成整合、可視化分析、空間制圖等主要功能,初步具備了服務我國土壤微生物組研究的能力基礎,但在未來數據資源持續豐富以及相關計算制圖模型持續完善上仍有一些問題值得分析和討論。
1)數據資源。平臺目前集成的土壤環境因子數據主要依托于中國土壤數據庫及土壤科學數據中心中的第二次土壤普查成果,然而該調查距今已近40年,亟需現勢性更強的土壤環境因子數據資源,從而進一步提升對我國土壤微生物組研究支撐的能力。
2)相關性分析。平臺初步實現了基于二維象限圖工具的土壤微生物數據與環境因子數據相關性分析功能,未來需集成更豐富的數據分析模型,支撐涵蓋線性及非線性關系的土壤微生物-環境因子挖掘建模研究。
3)空間制圖。平臺目前已集成了多種土壤學領域常用的空間制圖模型,包括反距離權重模型、克里金模型等,但尚缺少適用性強的數字土壤制圖模型。下一步將結合數字土壤制圖領域新近研究進展,研究實現適用于土壤微生物多樣性空間分布的數字土壤制圖模型。

圖5 數據集成示例Fig.5 Example of data integration

圖6 數據相關性分析示例Fig.6 Example of data correlation analysis

圖7 空間分布制圖示例Fig.7 Example of spatial distribution mapping
中國土壤微生物組數據平臺是戰略性先導科技專項(B類)“土壤-微生物系統功能及其調控”的一項重要成果。在數據整合方面,通過統一標準規范系統收集整合了我國土壤微生物數據及環境因子數據。在功能建設方面,通過應用先進的空間數據庫技術和WebGIS技術,初步實現了數據集成、可視化分析、空間制圖等功能。目前平臺已集成約10GB的土壤微生物數據和多尺度的各環境因子數據,并在專項團隊內部開放試運行,隨著平臺數據資源及功能的不斷豐富和完善,期望將其建設成為我國土壤微生物組研究領域的重要公共支撐平臺。