



關鍵詞:生物多樣性,數據,信息,共享,標準化
DOI編碼:10.3969/j.issn.1002-5944.2024.12.007
0 引言
生物多樣性是人類賴以生存和發展的基礎,是地球生命共同體的血脈和根基,不僅提供著人類基本所需的食物、藥物和工業原料,還是維持生態系統平衡的必要條件。但由于人類活動的加劇,物種滅絕的速度不斷加快[1]。近年來,全球生物多樣性的喪失已經成了一個嚴重的環境問題。隨著全球環境問題的日益突出,生物多樣性研究已經引起全球范圍內的關注。例如由聯合國發起的全球最大的生物多樣性研究“全球生物多樣性倡議”,旨在促進各國保護和恢復生物多樣性。在研究方法和技術手段方面,生物多樣性研究已經取得了很大的進展。例如采用分子標記、DNA序列等技術對物種進行精細分類和鑒定。隨著研究的進步、技術的應用,數據也在不斷地增加并趨于海量化,而因為大量數據資源沒有統一的格式,很難與其他生物多樣性數據庫融合匯總實現有效的多樣性研究。因此,生物多樣性數據的標準研究顯得非常重要,其可以有效打破數據孤島,推動互聯互通。
1 生物多樣性發展
保護目標難落實是當前全球生物多樣性治理面臨的一個緊迫問題。《生物多樣性公約》于1993年12月29日正式生效后,得到了廣泛認可與支持,締約方達196個,是全球參與程度最高的國際環境公約。中國近10年新增和修復濕地80多萬公頃,現有國際重要濕地64處,13個地區入選“國際濕地城市”,是全球入選“國際濕地城市”數量最多的國家[2]。中國積極地推進生物多樣性保護和恢復,為全球生物多樣性保護作出了中國貢獻,贏得了國際社會廣泛贊譽。《生物多樣性公約》秘書處發布第五版《全球生物多樣性展望》報告,共提到中國14次,其中13次展示了中國在生物多樣性保護方面的成功經驗[3]。中國在生物多樣性編目、監測信息系統方面進行了大量的工作,累積了豐富的信息資料和經驗。2023年經國務院批準發布《中國生物多樣性保護戰略與行動計劃(2023—2030年)》,可以見得生物多樣性保護是目前國際的重點關注領域[4]。
2 標準化現狀
2.1 國際生物多樣性信息標準化情況
生物多樣性是生物及其與環境形成的生態復合體以及與此相關的各種生態過程的總和,由遺傳(基因)多樣性、物種多樣性和生態系統多樣性三個層次組成。生物多樣性是國際標準化活動中的新興領域。ISO國際標準化組織于2020年成立了ISO/TC 331 生物多樣性技術委員會(biodiversity),設立了5個工作組:AHG 3 保護、保育和恢復特別工作組(Protection, conservation and restoration);CAG Chair’s Advisory Group; WG 1 術語工作組(Ter minolog y);WG 2 測量、數據、監測、評估特別工作組(Measurement, data, monitoring andassessment);WG 4 組織、戰略和可持續利用特別工作組(Organization , strategies and sustainable use)。截至2024年3月,ISO/TC 331 生物多樣性委員會正在制定的標準有4項[5](見表1)。
從制定的標準中可以看出,隨著《生物多樣性公約》的發布,許多國家致力于生物多樣性的保護。ISO/TC 331處于剛起步的狀態,還未有很多標準立項在研,生物多樣性數據更是尚未開始。與之密切相關的委員會,如ISO/TC 276 生物技術委員會,專門下設了工作組WG 5 生物數據處理及整合(Dataprocessing and integration)用于數據規范,目前已發布7項數據類標準,在研8項[6]。從已發布和在研的數量可以看出,在其他相關的委員會對數據領域是非常重視的。
2.2 我國生物多樣性信息標準化情況
我國在國際標準生物多樣性相關標準的參與度較低,且現有生物多樣性相關的國家標準很少能上升至國際標準,大大影響了我國在標準化上的國際地位。生物多樣性相關的標準更多的是集中在生物多樣性保護方面,如調查監測評估類標準、方法標準、采集保藏標準、檢疫防控類標準等[7]。目前尚無與生物多樣性信息相關的標準。與我國生物多樣性領域的發展相比,生物多樣性信息標準明顯滯后,如在數據管理和信息網絡建設方面都存在不足,數據分割管理造成了數據存儲格式不盡一致導致信息無法交匯,難以實現數據共享。
3 標準建設構想
3.1 生物多樣性數據信息組成
生物多樣性數據涵蓋了許多不同類型的信息,如物種清單、物種分布、種群數量和密度、遺傳信息、生態學特征、生態系統功能、瀕危和受威脅物種信息等。這些數據可以通過野外調查、實地觀察、遙感技術、分子生物學方法等途徑進行收集,并通過數據庫科學地進行存儲和分享。這些數據對于生物多樣性保護、生態系統管理和可持續發展具有重要意義。圖1為生物多樣性數據信息組成示例。
3.2 生物多樣性數據要求
早期,生物多樣性數據主要以文本、圖片等非結構化形式存在,缺乏統一的數據標準。隨著信息技術的發展,生物多樣性數據逐漸數字化,出現了一些數據標準,如Darwin Core、EML等。國際組織和科研機構開始倡導生物多樣性數據標準化,推動各方建立統一的數據格式和標準,促進數據的共享與交流。以下是生物多樣性數據的要求。
(1)數據類型
數據類型格式標準化是確保數據能夠被正確解釋和處理的重要步驟。數據類型包括了文本數據、數字數據、日期時間數據等,通過選擇適合該類型的標準格式,如CSV(逗號分隔值)、JSON(JavaScript對象表示法)、XML(可擴展標記語言)等,將生物多樣性數據轉換為統一的數據格式,以便后續存儲及分析。
(2)數據命名規范
不同的數據字段和變量使用一致的命名規范,以保持數據的清晰和易讀性。例如使用駝峰命名法或下劃線命名法等。駝峰命名規范要求第一個單詞首字母小寫,后面其他單詞首字母大寫(e.g. intmyAge;)。下劃線命名法并不如駝峰式命名法那么備受推崇,但在宏定義和常量中使用比較多,通過下劃線來分割單詞,即要求單詞與單詞之間通過下劃線連接即可(e.g. int my_age;)。
(3)數據質量
數據質量是數據標準規范的核心,對于生物多樣性領域的研究、保護和管理具有重要的影響,確保數據的準確性、完整性和可靠性是保障生物多樣性研究成果和保護工作有效性的關鍵所在。GB/T36344—2018《信息技術 數據質量評價指標》提出的數據質量評價指標框架可以很好地保證數據質量[8],如圖2所示。
規范性——數據符合數據標準、數據模型、業務規則、元數據或權威參考數據的程度。例如涉及物種命名、分類等方面的規范,通過比較數據中使用的物種名稱是否符合國際通用的分類系統和命名規范。
完整性——按照數據規則要求,數據元素被賦予數值的程度。例如記錄對象為植物時,記錄對象標識必須含有規范的拉丁學名、日期、地址等必要信息。
準確性——數據準確表示其所描述的真實實體(實際對象)真實值的程度。例如記錄對象的類、科、目、種、棲息生境、觀測數據等。
一致性——數據與其他特定上下文中使用的數據無矛盾的程度。例如記錄對象的觀測數據與記錄是否匹配。
時效性——數據在時間變化中的正確程度。例如記錄對象的棲息生境、數量或是保護等級等信息有變化,需及時進行修改更新。
可訪問性——數據能被訪問的程度。
(4)數據存儲
數據存儲規范是數據標準規范中的重要內容,它涉及數據的存儲方式、存儲周期等方面。制定數據存儲規范時,應明確數據的存儲方式以及備份策略等,以便在不同系統和環境中存儲數據時能夠保證數據的一致性、可靠性和互操作性。數據存儲標準化通常涉及數據格式、數據命名規范、數據存儲結構、數據安全性等方面的規范。通過數據存儲標準化,可以提高數據管理的效率,降低數據交換和共享的成本,同時也有利于數據的長期保存和開發利用。
(5)數據處理
數據處理是指對數據進行清洗、整合、分析等操作的過程。制定數據處理規范時,應明確數據處理的方法、流程以及質量控制標準等,以確保處理后的數據滿足業務或技術的需求。如圖3所示。
通過數據處理標準化,可以提高數據處理的效率和質量,降低數據處理過程中的錯誤和風險。此外,數據處理標準化也有助于提高數據的可管理性和可追溯性,以及促進數據共享和交換。
4 結論
根據目前的國際趨勢,生物多樣性領域對數據的需求不斷增加,生物多樣性數據管理和共享的重要性日益凸顯。遵循生物多樣性數據標準可以確保數據的長期保存和共享。標準化的數據格式和結構有助于數據的長期保存和管理,同時也促進了數據的共享和再利用,不僅為科學研究的開展和決策制定提供了依據,也為生物多樣性保護與管理提供科學支持,并推動生物多樣性領域的智能化發展和應用。
作者簡介
李啟沅,高級工程師,主要從事生物技術標準化研究。
吳靜靜,工程師,主要從事生物技術標準化研究。
武慶超,工程師,主要從事生物技術標準化研究。
孫建波,工程師,主要從事生物技術標準化研究。
王博,通信作者,副研究員,主要從事生物技術研究。
(責任編輯:張佩玉)