于春花 王玉璽 邱 軍 曾 波 楊 鋒 王曉鋒 閆寶岐 楊 碩 丁歡歡 葛 曉 王開義
(1 北京市農林科學院信息技術研究中心,北京 100097;2 全國農業技術推廣服務中心,北京 100125)
國家品種審定制度是保障我國種源自主可控的重要支撐,也是農作物育種產業化應用的關鍵環節。品種試驗作為國家品種審定的重要組成部分,是新品種審定與推廣的基礎和依據,有利于生產用種的安全[1]。品種試驗包括區域試驗、生產試驗及品種特異性、一致性、穩定性測試(《主要農作物品種審定辦法》)。每年度五大農作物大約有800 多個試驗站承擔公益性田間試驗,從業人員包括數據采集人員、試驗主持人等,流程上包括田間采集、數據保存、數據監管、數據匯總等環節,形成了復雜的數據收集體系。在數據采集層面,試驗點對標準的理解及記載方法有差異,相同性狀的單位或者分級不一致,導致底層數據不統一。在電子化保存方面,試驗點數據的錄入容易出錯,Excel 也不能對數據正確性進行主動檢驗;在數據匯總時,要花費大量的時間核查試驗點數據,重新整理數據,并在Excel 表中編寫不同公式對多個試驗點填報的性狀數據進行計算、匯總,整個過程繁瑣、效率低。在數據監管層面,數據分級報送方式,導致試驗管理部門、試驗執行部門很難查看即時數據,不利于品種試驗過程的監管。因此針對以上問題,農作物品種試驗數據管理平臺(以下簡稱平臺)的開發和應用,能夠較好地推動品種試驗信息化技術標準,提高品種試驗質量,保障底層數據質量。
信息技術已經應用到農業很多方面。在育種方面,Han 等[2-3]基于云體系結構,研發了作物育種信息管理系統,可以高效地管理育種材料并進行家譜跟蹤,進一步計算親本的一般配合力和特殊配合力,為親本選擇和組合選擇提供了依據。李建新等[4]基于LNMP(Linux 平臺+Nginx 服務器軟件+MySQL數據庫管理系統+PHP 超文本預處理軟件),創建了玉米品種及其親本系譜數據庫。在主要農作物品種審定、非主要農作物品種登記以及品種權保護方面,分別有品種審定數據管理系統、非主要農作物品種登記管理系統和植物新品種保護管理系統,實現了農作物品種保護、審定、登記的信息化管理。
但在品種試驗方面,大部分的研究還集中在試驗結果分析、試驗設計優化等方面,利用信息技術實現品種試驗全流程的管理很少。如劉太國等[5]、胡學旭等[6]、宋曉霞等[7]利用參試品種,在抗病性、品質變化、品種的主要系譜和生產潛力方面進行了分析研究。高輝明等[8]、姚金保等[9]利用多年區試中對照品種和參試品種的資料,研究了品種表現與環境之間的關系。許乃銀等[10-11]采用GGE 雙標圖方法對皮棉產量、綜合評價品種選擇指數的鑒別力、代表性、理想指數等進行了分析和綜合評價。張毅等[12]提出了北部冬麥區農作物品種區域試驗的重復次數和試點數量的優化設計方案。劉哲等[13]利用區試數據和調查數據,在縣域精細尺度下,研究作物品種種植適宜性精細區劃方法。許乃銀等[14]、馮勇等[15]利用Excel 自帶的數據功能實現了試驗點數據的規范以及匯總報告中“品種評述”的自動生成。王虎等[16]、葉思菁等[17]利用移動端、GIS 技術實現了作物大田測試數據、環境數據的采集。也有少部分學者利用信息技術研發了專門的系統,分別用于“品種評述”、試驗數據預處理以及數據分析等環節[18-19],但是未涉及品種試驗全流程的管理,普及度也不夠高。
農作物品種試驗數據管理平臺將信息技術、數據庫技術等運用到品種試驗過程,構建品種試驗信息化管理流程,實現品種試驗的全流程可跟蹤、數據可追溯、性狀可重現,實時上報、實時監督,提升數據上報及時性和準確性,規范了試驗數據。
1.1 品種試驗管理模式品種試驗由試驗管理部門組織實施,試驗點管理部門協助開展品種試驗監督管理相關工作。試驗方案執行部門負責協助制定試驗實施方案、開展試驗監督檢查和技術培訓,監督指導各試點品種試驗,起草試驗總結報告。試驗點按照試驗實施方案開展品種試驗,接受試驗管理部門、試驗點管理部門和試驗方案執行部門的監督指導,及時提交客觀、準確的試驗數據和總結報告,做好品種試驗資料留檔。
1.2 品種試驗信息化流程分析根據品種試驗管理模式,平臺設置4 個角色類型,明確各角色職責范圍的業務及業務流程:(1)試驗管理部門:審核初試品種,制定試驗實施方案,對品種試驗過程、數據及匯總數據進行監督。(2)試驗執行部門:評級已參試品種,制定生態區組方案,生成試驗任務下發試驗點人員進行數據錄入,監管試驗過程、數據并進行試驗數據匯總,形成匯總報告。(3)試驗點管理部門:監管權限內試驗點。(4)試驗點:根據下發的試驗任務種植品種,采集性狀數據、圖片后上傳,遇到試驗異常情況報備給試驗方案執行部門,試驗結束后編寫年終報告并提交。
平臺采用B/S 架構,以Oracle 關系型數據庫、Java 語言為開發工具。平臺不同角色的權限不同,登錄平臺后,不同角色看到的功能以及數據由權限決定。平臺整體架構見圖1,分4 層:(1)數據采集層,包括通過平臺上傳數據及田間采集設備(簡稱PDA)、考種設備等外接設備采集數據;(2)數據存儲層:根據不同數據的特性分為參試品種數據、試驗方案數據、品種性狀數據、異常報備數據以及圖片數據。(3)數據處理層:用戶權限驗證用于過濾不同角色的用戶登錄平臺后使用的功能及數據;品種參試驗證用于品種申報時品種信息的驗證;試驗方案制定、試驗任務生成用于分配試驗任務到具體試驗點;試驗數據上報用于試驗點將性狀數據、圖片數據上傳到平臺;試驗數據匯總用于多點數據的處理與分析。(4)數據應用層:包括試驗性狀和圖片數據查詢、試驗過程監督、試驗點年終報告和匯總報告的生成、試驗數據的總體分析。

圖1 平臺架構
3.1 平臺功能在平臺架構設計基礎上開發了一級功能模塊8 個:(1)品種管理:管理參試品種的基本信息、評級信息,并實現品種查詢。(2)方案管理:制定品種試驗實施方案,包括各生態區組試驗品種分組、大田試驗的試驗點、需要鑒定的抗性品質項目和鑒定單位以及試驗任務生成。(3)數據管理:主要用于試驗過程中品種性狀數據和圖片錄入、查看、編輯;異常情況的報備與審核,試點報告提交與審核。(4)數據匯總:由試驗執行部門對所管轄生態區組所有試驗進行試點/品種剔除、數據處理、分析、匯總,最終生成匯總報告。(5)統計監督:用于品種試驗過程進度把握及運行數據統計。(6)基礎數據:用于支撐整個平臺運行的基礎類數據,包括性狀、生態區組、試驗點、性狀單位、報告模板管理等。(7)系統管理:用于角色權限配置、用戶信息管理。(8)培訓資料:用于各角色操作手冊上傳、下載。
3.2 實現了品種試驗標準的數字化品種試驗的核心目標是獲得多年多點品種的性狀數據,以此數據來評價品種的產量、抗性、適應性等內容,因此高質量的數據是評價的保證。首先,對各作物品種試驗技術規范、歷史數據進行研究,梳理了各作物需要采集的性狀以及不同生態區組間的操作差異,在作物范圍內對相同性狀進行名稱、采集標準的規范統一,并對性狀的數據類型、采集階段、多點間性狀處理等屬性做了詳細規定。其次,統一了多年數據處理、數據匯總的方法以及試驗點、品種數據的質量指標。最后,統一了年終報告以及匯總報告的體例、展示內容。以上內容的統一,大幅度提高了數據的科學性、準確性,實現了不同生態區組間、不同年份間、不同試驗點間在空間、時間維度上數據的統一。
3.3 實現了試驗進度的監督管理在試驗過程中,數據的及時上報與監督有助于管理層實時掌握試驗情況,按照以往管理方式,方案執行部門和管理部門只有在試驗點提交年終報告后才能看到試驗數據。平臺根據各區性狀設置預警時間,在數據最佳上報時間跟蹤提醒,促進試驗點在各生育期采集數據后及時上報性狀數據、圖片以及田間施肥等栽培信息,管理層可在平臺查詢各生育期數據,實時掌握試驗品種田間生長情況、各試驗點數據的上報情況,及時給予相應指導,保證試驗順利實施。圖2 為數據監督查看相關功能。

圖2 數據監督查看
3.4 構建了品種試驗全流程信息化管理體系在業務上,平臺構建了從試驗品種申請、品種審核、試驗方案制定、田間數據填報、田間數據審核、數據處理分析、數據匯總的信息化全流程管理(圖3),明確在各業務階段不同角色的職責范疇,并根據不同角色職責分配相應功能權限以及數據權限。在品種試驗周期上,構建了試驗第1 年到完成試驗程序多年試驗流程以及各年度品種全生育期周期的性狀數據、參試信息的信息化,實現了品種試驗的全流程可跟蹤、數據可追溯、性狀可重現。

圖3 信息化業務流程
4.1 平臺運行數據農作物品種試驗數據管理平臺實現了從品種到試驗方案,到數據填報匯總分析,再到數據監督的規范化、標準化、信息化管理。平臺從2017 年開始示范實施,截止到2021 年,覆蓋五大農作物全部生態區組,累計管理公益性試驗參試品種5000 多個、試驗點1000 多個,生成試驗12224 條、試驗點年終報告6422 份、匯總報告407 份,采集圖片數超35 萬張,采集性狀數(包括公益性試驗、聯合體、綠色通道3 個渠道)約2000 多萬條,構建了國內渠道權威、數據標準、管理規范的農作物品種表型數據庫,為種業大數據的建設提供了重要支撐。
4.2 信息化流程的建立促進了業務流、數據流的優化農作物品種試驗信息化的關鍵是構建業務流程和數據標準的統一。首先,研究試驗的業務過程及關鍵階段、角色劃分、各角色功能和數據權限、應用場景,建立科學合理的階段與角色職責,實現線下業務向線上業務的轉變。其次,本平臺在性狀采集、圖片采集、報告格式及報告內容、數據處理、數據分析方面建立了作物內統一的標準,性狀標準、數據處理標準、數據分析標準使得性狀數據在試驗點間、年度間、不同區組間都具有可比性以及更好的分析性,顯著提高了數據質量。通過平臺的使用,把品種試驗各環節對業務及角色的要求固化到平臺,促進各角色理解各自的職責范疇,使得品種試驗業務更為規范流暢,形成優質的業務流,進一步產生優質數據流,試驗數據更加準確規范。
4.3 作為表型數據庫參與種業大數據聯合分析植物表型組學是在基因組水平上系統研究植物或細胞在不同環境條件下所有表型的學科,包括空間尺度以及整個生育期的時間維度上的信息[20]。品種試驗采用多年多點方式,在多個年度間、多個地理環境下種植,可收集到品種在不同年度、不同環境下的品種個體、群體以及整個生育期的多維度的數據,加上平臺對數據規范的硬約束,保證了數據的準確性、高質量,可作為表型數據庫,具有很強的可利用價值。
在數據利用上,通過平臺中品種在產量、抗性、品質等性狀上的變化,研究品種審定的發展趨勢,為育種家制定育種目標提供參考。此外,聯合試驗過程中氣象試驗站采集的環境氣象數據,可進行品種環境適應性分析,為品種適宜推廣區域做參考。結合基因型、環境數據進行聯合分析,對揭示作物生命科學規律、提高作物功能基因組學和分子育種研究水平等具有重大意義[21]。