文/王瑞丹 石蕾 高孟緒 徐波
黨的二十大報告中指出要堅持創新在我國現代化建設全局中的核心地位,要強化國家戰略科技力量,優化配置創新資源。科學數據正是一種重要的創新資源,是科技創新和經濟社會發展的重要基礎,是科學發現和知識創新的重要依據與基石。當前,科學數據總量的極大增長、數據密集型科研范式的迅速發展以及科學研究對現代社會全方位的滲透等多種因素正在形成疊加效應,共同提升了科學數據的戰略價值,在有力支撐科技創新發展中發揮了重要作用。
我國歷來高度重視科學數據等相關科技資源建設工作,面向科學數據規范管理等的相關政策文件相繼出臺,進一步保障和推動了科學數據管理與開放共享工作。隨著科學數據日益受到廣泛關注,規范科學數據管理、推進科學數據開放共享,尤其是推進面向應用的科學數據共享,已經成為大數據時代一項十分緊迫而重要的任務,更是提升科技創新水平、增強科技創新活力、促進經濟社會發展的重要力量。近年來,科學數據在科學研究過程中的重要作用日益凸顯,對科學數據開放共享的需求也越來越大。大數據時代,以物聯網、人工智能、云計算、區塊鏈和量子計算等為代表的新技術的應用,正在改變我們獲取、存儲、管理與共享數據的手段與能力,持續推進數據密集型科學研究的科研范式向縱深發展。
黨中央、國務院長期以來一直高度重視科學數據工作。自2001年我國正式啟動“科學數據共享工程”項目以來,先后在氣象領域開展了數據共享試點,啟動實施國家科技基礎條件平臺建設專項,推動我國在科學數據共享與管理領域取得巨大進步。面對當前科技創新對科學數據管理的新形勢新需求,以及我國科學數據管理與應用中仍存在的不足,我國先后制定發布了相關政策和標準,進一步完善了科學數據開放共享的政策法規體系。
2018年3月,國務院辦公廳正式印發《科學數據管理辦法》,成為我國首個國家層面的科學數據管理辦法,為我國科學數據工作確定了行動綱領。《科學數據管理辦法》明確提出要加強和規范科學數據管理,保障科學數據安全,提高開放共享水平,堅持“開放為常態、不開放為例外”的原則,特別是國家財政資金支持產生的科學數據開放共享,以更好地支撐國家科技創新、經濟社會發展和國家安全。
依托全國科技平臺標準化技術委員會(TC486),先后發布實施了《科技資源標識》等14項國家標準,并立項26項相關國家標準。此外,全國信息技術標委會等也制定發布了《信息技術 科學數據引用》《信息技術 數據質量評價指標》等多個數據相關標準,這些國家標準的制定實施對于規范包括科學數據在內的科技資源管理、促進科學數據的有效共享利用提供了重要標準支撐。
在大力推動科學數據開放共享過程中,高度重視科學數據的安全有序管理。2021年新修訂的《科技進步法》明確提出,數據等科技資源要建立信息系統,及時向社會公布資源分布與使用情況,同時提出實行重要數據資源和關鍵核心技術出境管理制度。《科學數據管理辦法》指出不得利用科學數據從事危害國家安全、社會公共利益和他人合法權益的活動,對涉及國家秘密、國家安全、社會公共利益、商業秘密和個人隱私的科學數據,不得對外開放共享。
經過多年持續發展,我國已在若干重要學科領域建成了一批科學數據庫,科學數據中心成為我國科學數據管理與應用的重要載體與戰略高地。2019年,科技部、財政部進一步優化形成了首批20個國家科學數據中心,涉及高能物理、地學、生態、生命健康等多個領域。通過不斷加強國家科學數據中心體系能力建設,著力將國家科學數據中心打造成為學科領域的科學數據資源中心、數據產品研發中心、數據評估中心和數據服務中心。
通過不斷規范和完善科技計劃項目科學數據匯交機制,科學數據匯交工作已納入國家重點研發計劃項目綜合績效評價工作流程。依托20個國家科學數據中心,科技項目科學數據匯交工作正在有序推進,目前已累計開展匯交科技計劃項目4500余個,完成其中3000多個項目數據匯交并出具匯交憑證,形成各類數據庫(集)6萬余個,累計匯交數據總數據量超過4PB。
加強科技資源標識體系建設,通過科技資源標識機制為科學數據庫(集)分配唯一“身份證號”,支持數據資源可定位、可確權、可引用。大力推動各國家平臺進行資源標識工作,截至目前,標識系統共收錄標識符總量超過300萬項。

2019年,科技部、財政部優化形成首批20個國家科學數據中心,涉及高能物理、地學、生態、生命健康等多個領域。圖為20個國家科學數據中心LOGO圖
目前,我國已建成了全球獨一無二的青藏高原科學數據庫,建成全國首套最系統的多年凍土監測數據集。建設的郭守敬望遠鏡LAMOST天體光譜數據庫是目前世界上最大的天體光譜數據庫。建設的生態系統監測數據庫整合全國53個國家野外站及多個專項觀測網水土氣生數據,支撐我國生態系統碳氮水循環研究。地球系統數據中心建設的中國近海海水養殖數據集填補了中國離岸養殖空間分布數據的空白。基于數據精準繪制東北黑土分布圖、黑土區土地利用圖及各類調查數據圖集,支持快速發現高危地區。基于材料腐蝕數據的監測預警與智能管理系統支撐國家電網、川藏鐵路、中馬友誼大橋等選材選址。全球海洋環境分析數據再分析產品是目前公開發布的唯一含有潮汐和潮流要素的再分析產品。利用國際衛星數據分析預測南美等區域大豆生長和受病害影響情況,有效支撐政府決策。
面對新冠肺炎疫情防控和科研攻關,生命科學領域3個國家科學數據中心積極參與新冠肺炎疫情防控工作。國家微生物科學數據中心聯合國家病原微生物資源庫全球首發新冠病毒毒株信息及高清電鏡照片,建成了全球冠狀病毒組學數據共享與分析系統,實現病毒組學數據集成與標準化的分析挖掘。國家基因組科學數據中心收錄全球范圍內公開發布的226萬余條新冠病毒基因組科學序列信息,構建了全球新冠病毒基因組變異的動態圖譜,實時監測序列突變的時空動態變化。國家人口健康科學數據中心先后制作發布了新冠病毒疾病術語、防疫指南、標準規范等專題數據庫,牽頭組織建設新冠肺炎臨床和流行病學數據庫并已收集新冠感染病例信息5萬余條。國家科學數據中心支撐新冠肺炎疫情防控相關工作被寫入國務院新聞辦發布的《抗擊新冠肺炎疫情的中國行動》白皮書。
目前國際科學聯盟理事會(ICSU)下設的科學數據國際組織世界數據系統(WDS)在全球認可的86個科學數據中心,中國大陸地區共有9個,其中8個隸屬于相關的國家科學數據中心。國家微生物科學數據中心同時承建世界微生物數據中心,牽頭研制ISO體系中第一個微生物數據國際標準,牽頭全球微生物基因組和微生物組測序計劃,建設的全球微生物菌種目錄數據庫(GCM)是由我國主導的國際最大的微生物資源數據庫。國家基因組科學數據中心成為與美國國家生物技術信息中心(NCBI)、歐洲生物信息研究所(EBI)齊名的國際主要生物數據中心,建設的基因組學原始數據庫(GSA)是多個國際出版集團認可的數據存儲庫,匯聚國內外近500家機構提交的序列數據,70%以上數據來源于國際知名期刊論文發表的關聯數據。
大數據時代,科學數據作為科技創新的物質基礎,正在為科技創新賦能,在形成顯著的拉動效應、放大效應和乘數效應等方面作用日益凸顯,國際社會的相互依存達到前所未有程度。未來,我們需要進一步加強科技平臺建設,完善國家科學數據中心布局,強化能力建設,推動平臺建設和科技數據開放共享工作邁進新發展階段;以更加開放的態度加強國際科技交流,積極參與全球創新網絡,促進科學數據互聯互通與共享共用,驅動科學研究和技術創新。