樊景超 滿 芮 張翔鶴 周國民
國家農(nóng)業(yè)科學(xué)觀測工作,包括對土壤、水、肥、氣象等農(nóng)業(yè)生產(chǎn)關(guān)鍵要素及農(nóng)業(yè)生物多樣性、病蟲害等的長期系統(tǒng)動態(tài)監(jiān)測,為推動農(nóng)業(yè)科技創(chuàng)新提供數(shù)據(jù)支撐,為農(nóng)業(yè)科學(xué)研究、生產(chǎn)管理、災(zāi)害預(yù)警和糧食安全生產(chǎn)提供科學(xué)依據(jù)。農(nóng)業(yè)農(nóng)村部從2017 年構(gòu)建了以11 個數(shù)據(jù)中心為“塔尖”、456 個觀測實驗站為“中堅”、4 萬多個生態(tài)環(huán)境國控監(jiān)測點為“塔基”的“金字塔”式觀測監(jiān)測網(wǎng)絡(luò)[1],形成了實驗觀測和定點監(jiān)測相結(jié)合的網(wǎng)絡(luò)體系[2]。農(nóng)業(yè)基礎(chǔ)性長期性科技工作的實施是對農(nóng)業(yè)生產(chǎn)要素及其動態(tài)變化進行科學(xué)觀察研究,明確其內(nèi)在聯(lián)系,及其發(fā)展規(guī)律的重大開創(chuàng)性舉措,為農(nóng)業(yè)基礎(chǔ)性長期性科學(xué)數(shù)據(jù)監(jiān)測體系的建成健全了機制并提供了組織保障。
國內(nèi)外野外觀測網(wǎng)絡(luò)對元數(shù)據(jù)的建設(shè)進行了深入全面的實踐研究:美國國家生態(tài)觀測網(wǎng)絡(luò)(Nation‐al Ecological Observatory Network,NEON)重點在監(jiān)測系統(tǒng)中規(guī)范了設(shè)施設(shè)置與指標(biāo)規(guī)定,著力在應(yīng)對關(guān)鍵科學(xué)問題的有效回答[3];全球陸地監(jiān)測系統(tǒng)(Glob‐al Terrestrial Observing System,GTOS)歸定了對象的屬性[3];英國的環(huán)境變化研究監(jiān)測網(wǎng)絡(luò)(Environment Change Network,ECN)[4]對數(shù)據(jù)傳輸和共享制定了規(guī)范方法。中國生態(tài)系統(tǒng)研究網(wǎng)絡(luò)(Chinese Ecosystem Research Network,CERN)研討制訂了數(shù)據(jù)分類分級的管理辦法,并通過共享系統(tǒng)平臺實踐這一標(biāo)準(zhǔn)。中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所承擔(dān)觀測數(shù)據(jù)匯聚系統(tǒng)的建設(shè)工作,通過近幾年的實踐不斷滿足農(nóng)業(yè)不同學(xué)科多領(lǐng)域的需求,數(shù)據(jù)匯交總量穩(wěn)定上升。農(nóng)業(yè)觀測數(shù)據(jù)如何更好服務(wù)科研創(chuàng)新、解決國家重大需求,實現(xiàn)農(nóng)業(yè)基礎(chǔ)性長期性科技工作的初衷,共享元數(shù)據(jù)標(biāo)準(zhǔn)的研制成為下一步亟待開展的工作內(nèi)容。
2018 年國家《科學(xué)數(shù)據(jù)管理辦法》的頒布,促進農(nóng)業(yè)基礎(chǔ)性長期性科學(xué)數(shù)據(jù)的全速發(fā)展,在現(xiàn)有農(nóng)業(yè)基礎(chǔ)性長期性科技工作門戶基礎(chǔ)上,形成“數(shù)據(jù)總中心—數(shù)據(jù)中心—科學(xué)觀測試驗站”三級網(wǎng)絡(luò)工作門戶。在規(guī)范化整理、數(shù)字化、質(zhì)量控制和產(chǎn)品開發(fā)的基礎(chǔ)上,將已經(jīng)形成的數(shù)據(jù)產(chǎn)品對全社會開放共享,實現(xiàn)農(nóng)業(yè)觀測數(shù)據(jù)非涉密數(shù)據(jù)分級分類的共享服務(wù),提升農(nóng)業(yè)基礎(chǔ)性長期性觀測工作的影響力。
在基礎(chǔ)性長期性科技工作中,數(shù)據(jù)采集者本身承擔(dān)著復(fù)雜繁重的科研任務(wù),通過表1不難看出,農(nóng)業(yè)觀測數(shù)據(jù)采集是需要符合專業(yè)行業(yè)工作標(biāo)準(zhǔn)的科研人員才能完成,很多觀測數(shù)據(jù)尤其是野外臺站數(shù)據(jù)的產(chǎn)生具有不可重復(fù)性,為保證他們不被誤用并長期保持可用,尤其需要在共享環(huán)節(jié)相應(yīng)地說明數(shù)據(jù)產(chǎn)生的方法和條件,特別是數(shù)據(jù)采集人員在采集過程中,能夠有意識的注意到,觀測數(shù)據(jù)不僅僅是為了完成科研任務(wù),更重要的是能夠方便數(shù)據(jù)使用者了解數(shù)據(jù)采集的時空環(huán)境、數(shù)據(jù)質(zhì)量的控制標(biāo)準(zhǔn)、數(shù)據(jù)采集的方法、數(shù)據(jù)使用的權(quán)益機制,這就對元數(shù)據(jù)技術(shù)有了相當(dāng)高的要求。

表1 國家農(nóng)業(yè)觀測指標(biāo)體系Table 1 National agricultural observation index system
根據(jù)元數(shù)據(jù)標(biāo)準(zhǔn),在定制期間,會遇到數(shù)據(jù)顆粒的甄選問題以及延伸到成本計算,不同的用戶類型所側(cè)重的數(shù)據(jù)集不同,關(guān)注的數(shù)據(jù)集范圍也不同。核心元數(shù)據(jù)針對特定類型或特定范圍數(shù)據(jù)集的完備性和適用性不是很高;過細(xì)的元數(shù)據(jù)會給著錄者帶來繁重的工作量以及心理影響。農(nóng)業(yè)觀測數(shù)據(jù)共享元數(shù)據(jù)應(yīng)重點考慮元數(shù)據(jù)格式規(guī)范設(shè)計和長期維護的復(fù)雜性以及國際化環(huán)境和互操作的需要,一般選擇復(fù)用相關(guān)領(lǐng)域現(xiàn)有標(biāo)準(zhǔn)。
目前,國際上科學(xué)數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)已經(jīng)從標(biāo)準(zhǔn)制定階段發(fā)展到實際應(yīng)用階段,我國元數(shù)據(jù)標(biāo)準(zhǔn)的研究起步較晚,但也已出具規(guī)模,國內(nèi)相對成熟的元數(shù)據(jù)標(biāo)準(zhǔn)已展開相關(guān)應(yīng)用。上世紀(jì)90 年代以來,影響力較大的通用科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)有都柏林核心(Dublin Core)、DateCite和Dataverse元數(shù)據(jù)標(biāo)準(zhǔn)等。
3.1.1 都柏林核心
在90 年代中期,首屆元數(shù)據(jù)科學(xué)論壇上正式發(fā)布都柏林核心(Dublin Core)數(shù)據(jù)集[5],我國與其對應(yīng)的標(biāo)準(zhǔn)為GB/T 25100—2010。Dublin Core 是應(yīng)為最為廣泛,最被科學(xué)研究界接受的通用元數(shù)據(jù)標(biāo)準(zhǔn),科學(xué)數(shù)據(jù)元數(shù)據(jù)(Dataverse)①https://dataverse.harvard.edu/是基于此核心數(shù)據(jù)集誕生的。
3.1.2 DataCite元數(shù)據(jù)標(biāo)準(zhǔn)
DataCite 國際聯(lián)盟(the DataCite Consortium)制定了Datacite 元數(shù)據(jù)標(biāo)準(zhǔn)[6],該聯(lián)盟的主要目標(biāo)是支持科學(xué)數(shù)據(jù)存儲并將科學(xué)數(shù)據(jù)的地位提升至合法的、可被引用的科學(xué)記錄,使科學(xué)數(shù)據(jù)更易在網(wǎng)上獲取。其創(chuàng)建的DataCite 元數(shù)據(jù)標(biāo)準(zhǔn)包含一系列核心元數(shù)據(jù)元素,通過為數(shù)據(jù)集提供永久性唯一標(biāo)識符(DOI)以及準(zhǔn)確、一致性的描述,輔助科學(xué)數(shù)據(jù)的檢索、共享、重用、應(yīng)用和關(guān)聯(lián)。
3.1.3 Dataverse元數(shù)據(jù)標(biāo)準(zhǔn)
麻省理工學(xué)院研發(fā)的Dataverse 元數(shù)據(jù)標(biāo)準(zhǔn)是以DDI(Data Document Initiative)為原始數(shù)據(jù)集開發(fā)的,根據(jù)不同的類型分為不同的區(qū)塊,包括引用通用元數(shù)據(jù)區(qū)塊和學(xué)科專有元數(shù)據(jù)區(qū)塊。其中,引用通用元數(shù)據(jù)區(qū)塊包含引用數(shù)據(jù)集所需的相關(guān)信息,是平臺所有數(shù)據(jù)集的必備元數(shù)據(jù)區(qū)塊,適用于描述所有類型和所有學(xué)科的數(shù)據(jù)集;學(xué)科專有元數(shù)據(jù)區(qū)塊則提供針對某一學(xué)科數(shù)據(jù)的元數(shù)據(jù)元素,覆蓋生命科學(xué)、人文與社會科學(xué)、地理空間、天文與天體物理和政治學(xué)等多個領(lǐng)域。
在科學(xué)數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)發(fā)展過程中,更多的學(xué)科領(lǐng)域數(shù)據(jù)平臺參與到標(biāo)準(zhǔn)的制作當(dāng)中[7],這些平臺有大量的學(xué)科專業(yè)數(shù)據(jù),所以制定的元數(shù)據(jù)標(biāo)準(zhǔn)更專注于特定的學(xué)科領(lǐng)域[8]。學(xué)科領(lǐng)域科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)有ISO 19115[9]、Dryad①https://datadryad.org/元數(shù)據(jù)標(biāo)準(zhǔn)[10]、空間地理元數(shù)據(jù)內(nèi)容標(biāo)準(zhǔn)CSDGM(Content Standard for Digital Geo‐spatial Metadata)、FGDC 元數(shù)據(jù)標(biāo)準(zhǔn)、生物多樣性領(lǐng)域的Darwin Core 元數(shù)據(jù)標(biāo)準(zhǔn)、氣象學(xué)領(lǐng)域元數(shù)據(jù)標(biāo)準(zhǔn)CF(Climate Forecast)、社會學(xué)科領(lǐng)域元數(shù)據(jù)標(biāo)準(zhǔn)DDI(Data Documentation Initiative)等。
近年來,我國科學(xué)數(shù)據(jù)元數(shù)據(jù)發(fā)展迅速,自2002年科技部主導(dǎo)實施國家科學(xué)數(shù)據(jù)共享工程啟動。目前,在我國現(xiàn)用的科學(xué)數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)有以下:(1)GB/T 20533—2006《生態(tài)科學(xué)數(shù)據(jù)元數(shù)據(jù)》、(2)GB/T19710—2005《地理信息元數(shù)據(jù)》、(3)GB/T 26499.3—2011《機械科學(xué)數(shù)據(jù)第3 部分:元數(shù)據(jù)》[11]。在農(nóng)業(yè)領(lǐng)域,主要有中國農(nóng)業(yè)科學(xué)院提出建立的農(nóng)業(yè)科技信息核心元數(shù)據(jù)標(biāo)準(zhǔn)框架和農(nóng)業(yè)資源空間信息元數(shù)據(jù)標(biāo)準(zhǔn)。國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心成立以來,制定了農(nóng)業(yè)科學(xué)數(shù)據(jù)核心元數(shù)據(jù)標(biāo)準(zhǔn),適用于農(nóng)業(yè)科學(xué)數(shù)據(jù)共享、編目、元數(shù)據(jù)交換和網(wǎng)絡(luò)查詢服務(wù)。
我國農(nóng)業(yè)領(lǐng)域關(guān)于元數(shù)據(jù)標(biāo)準(zhǔn)的工作尚未全方位展開。農(nóng)業(yè)科學(xué)數(shù)據(jù)包含的種類具有多維度的特征,具有時間性、季節(jié)性的顯著特點,依照環(huán)境的不用,種類繁雜,而且衍生性能復(fù)雜多變[12]。很多觀測數(shù)據(jù)尤其是野外臺站數(shù)據(jù)的產(chǎn)生依據(jù)氣候、環(huán)境等條件不可復(fù)制。如何保障這些數(shù)據(jù)采集質(zhì)量并采用合適的方式存儲,建立農(nóng)業(yè)觀測數(shù)據(jù)的元數(shù)據(jù)標(biāo)準(zhǔn)勢在必行。
國家農(nóng)業(yè)觀測數(shù)據(jù)共享元數(shù)據(jù)標(biāo)準(zhǔn)的研制以科技部科學(xué)數(shù)據(jù)共享工程技術(shù)標(biāo)準(zhǔn)、國家農(nóng)業(yè)科學(xué)數(shù)據(jù)共享中心制定的《農(nóng)業(yè)科學(xué)數(shù)據(jù)共享標(biāo)準(zhǔn)體系及參考模型》為主要的指導(dǎo)標(biāo)準(zhǔn)[13],參考國內(nèi)外相關(guān)良好實踐作為制定依據(jù)。從觀測數(shù)據(jù)的總體結(jié)構(gòu)出發(fā),所有的觀測數(shù)據(jù)都經(jīng)歷采集、存儲、匯交、加工整理、應(yīng)用共享、歸檔等生命周期過程。
如圖1 所示,觀測數(shù)據(jù)元數(shù)據(jù)包括內(nèi)容結(jié)構(gòu)、句法結(jié)構(gòu)和語義機構(gòu)。在圖中,每一部分信息都用UML包來表示。每個包(元數(shù)據(jù)子集)包括一個或多個類(元數(shù)據(jù)實體),它們可以是特化的(子類)或泛化的(超類)。類(元數(shù)據(jù)實體)包含若干屬性(元數(shù)據(jù)元素)。類(元數(shù)據(jù)實體)可以與一個或多個其他類(元數(shù)據(jù)實體)相關(guān)。類(元數(shù)據(jù)實體)可按需要聚集或重復(fù)。
3.2.1 元數(shù)據(jù)內(nèi)容結(jié)構(gòu)
元數(shù)據(jù)的基本組成及其元素描述進行了規(guī)范定義,可以使按照層級劃分為核心要素以及非核心要素,同時也可以按照屬性分區(qū),例如某些為必選要素,某些為可選擇性要素以及部分根據(jù)條件的不同所選取的要素[14]。主要分為以下幾方面:
(1)描述元數(shù)據(jù):主要在采集加工時期完成,包括名稱、概述、時間、數(shù)據(jù)質(zhì)量描述、觀測環(huán)境等。
(2)責(zé)任元數(shù)據(jù):主要說明觀測數(shù)據(jù)的來源、產(chǎn)生的具體時間,圖1中的觀測信息屬于責(zé)任元數(shù)據(jù)。
(3)權(quán)益元數(shù)據(jù):主要說明觀測數(shù)據(jù)的權(quán)益屬性,例如權(quán)益所有者,權(quán)益變更說明、權(quán)益申明信息等。
(4)安全元數(shù)據(jù):主要說明觀測數(shù)據(jù)的安全屬性,例如分級信息、法律限制信息等。
(5)服務(wù)元數(shù)據(jù):用于數(shù)據(jù)共享服務(wù),并對共享服務(wù)相關(guān)信息進行描述,主要功能是實現(xiàn)觀測數(shù)據(jù)的共享。
(6)保存元數(shù)據(jù):主要說明的是數(shù)據(jù)在需要長久儲存時候所需的條件要素,用于存管某些特定的數(shù)據(jù),用作信息輸出模型需遵照執(zhí)行的體系,便于數(shù)據(jù)在未來的二次使用。
(7)管理元數(shù)據(jù):主要貫穿于整個數(shù)據(jù)的生命周期,涵蓋了數(shù)據(jù)的保持模式、保存介質(zhì)、數(shù)據(jù)的安全、是否合理有效備份,聯(lián)系人等具體情況。
3.2.2 元數(shù)據(jù)句法結(jié)構(gòu)
句法結(jié)構(gòu)是指元數(shù)據(jù)內(nèi)容的格式結(jié)構(gòu)及其描述方式,它對元數(shù)據(jù)的編碼語言和數(shù)據(jù)格式有直接影響。元數(shù)據(jù)句法應(yīng)采用開放的結(jié)構(gòu),推薦采用較為通用開放的描述句法,如利用XML、SGML、RDF、HT‐ML等標(biāo)記語言進行置標(biāo)[15]。
3.2.3 擴展與裁剪原則
元數(shù)據(jù)的使用重點在于其著錄應(yīng)用中,對于使用者來說理應(yīng)根據(jù)實際情況允許適當(dāng)?shù)臄U展與裁剪。使用者在擴展觀測數(shù)據(jù)共享元數(shù)據(jù)之前,必須仔細(xì)地查閱本標(biāo)準(zhǔn)以及其他由本標(biāo)準(zhǔn)擴展而成的正式規(guī)范或標(biāo)準(zhǔn)中現(xiàn)有的元數(shù)據(jù)元素,確認(rèn)合適的元數(shù)據(jù)元素尚不存在。對于擴展的每一個基本數(shù)據(jù)類型,應(yīng)定義其數(shù)據(jù)類型、內(nèi)容組成及元數(shù)據(jù)元素。對于擴展的每一個元數(shù)據(jù)元素,應(yīng)定義其名稱、定義、英文名稱、短名、數(shù)據(jù)類型、值域、約束/條件和最大出現(xiàn)次數(shù),并可以給出適當(dāng)?shù)睦印?/p>
對于著錄者來說,如果元數(shù)據(jù)標(biāo)準(zhǔn)中的元素過多,導(dǎo)致數(shù)據(jù)著錄過程過于煩瑣和冗長,勢必影響用戶上傳數(shù)據(jù)的效率,反而不利于科學(xué)數(shù)據(jù)的共享,因此可以對元數(shù)據(jù)使用過程中適當(dāng)裁剪。元數(shù)據(jù)裁剪的原則應(yīng)在保障不降低數(shù)據(jù)資源的揭示程度的前提下,達到減輕著錄負(fù)擔(dān)的目的。
共享元數(shù)據(jù)標(biāo)準(zhǔn)是農(nóng)業(yè)科學(xué)數(shù)據(jù)信息化的理論研究重要組成部分,其制定過程不是一蹴而就的,特別需要在實踐過程中通過國家農(nóng)業(yè)基礎(chǔ)性長期性科技工作與廣大農(nóng)業(yè)科研領(lǐng)域使用者進行反復(fù)實踐才能實現(xiàn)良好的落地應(yīng)用,以期為我國農(nóng)業(yè)觀測數(shù)據(jù)共享元數(shù)據(jù)標(biāo)準(zhǔn)的構(gòu)建和應(yīng)用提供理論研究和實踐參考。