張 靜 潘亞男 單嵩巖
(1.中國科學院檔案館,北京,100190;2.中國科學院文獻情報中心,北京,100190;3.中國科學院大學經濟與管理學院信息資源管理系,北京,100190)
科學數據是科技創新發展的重要戰略資源,是科學研究中必不可少的基礎要素。[1]數據密集型科研活動的不斷深化和拓展,使得科學數據長期保存愈發重要。當前,科學數據長期保存要求已經納入中國[2]、美國[3]和歐盟[4]等主要國家和地區的宏觀科學數據管理政策,其重要性得到普遍認可。
科學數據是新形勢下科研檔案的主要呈現形式之一,國內外檔案部門開展了相關理論和實踐研究。何思源等[5]認為科學數據與科研檔案之間存在交叉關系,具有保存價值的科研項目數據是兩者的交集;Evans等[6]認為文件管理信息學在維持海量復雜研究數據集的證據真實性、完整性和可靠性方面具有重要意義;國際檔案理事會[7]研究了科學數據的長期保存、數據管護和鑒定面臨的問題并提出解決建議;我國全國地質資料館提供了油氣成果、地質調查項目等地質資料的著錄、匯交工作指南和輔助工具。[8]
整體來看,檔案領域的基礎理論和實踐經驗能夠為科學數據長期保存提供借鑒和參考,因此從檔案管理視角進行科學數據長期保存現存問題與對策研究具有較強應用價值和研究可行性。
科學數據是指在自然科學、工程技術科學等領域,通過基礎研究、應用研究、試驗開發等產生的數據,以及通過觀測監測、考察調查、檢驗檢測等方式取得并用于科學研究活動的原始數據及其衍生數據。[9]由于科學數據自身具有的來源范圍廣、異構程度高、數據海量化、開放共享要求強等特點,其長期保存有特殊要求需重點關注。
科學數據從來源領域上包括自然科學、工程技術科學、社會科學等領域,以及各領域下不同的學科方向;從來源渠道上可分為項目產生的數據、長期采集數據、相關產/行業數據、政務數據等;從來源主體上包括研究機構、高校、企業、政府和重大科學基礎設施等。
科學數據作為科研檔案重要構成,同樣需要遵從“集中統一”原則。結合科學數據來源范圍廣的特點,應構建數據分布存儲、統一提供利用的機制與渠道,保障科學數據共享與長期可用。例如,澳大利亞通過統一門戶提供了物理、環境、人類社會研究等19 類主題館藏研究數據的訪問。[10]
科學數據異構程度高:一是不同領域產生的數據類型千差萬別,內容和形式差異巨大。例如,海洋觀測領域從內容上會產生關于潮汐、鹽度、海溫、海浪、海流、海冰、海嘯波等的觀察數據,從形式上包括觀測數據、實驗數據、仿真/模型數據、派生/編譯數據、參考/規范數據、調查數據、統計數據、文獻數據等。二是科學數據格式多樣,如文本型描述數據、結構化數據、空間矢量數據、柵格數據等。三是數據集結構差異大,包括關系類型、空間類型和文件類型3種基本的數據集類型。[11]
檔案數字資源同樣形式復雜,包括文書、照片、錄音、錄像等多種類型。因此,科學數據長期保存需要參考檔案數字資源長期保存,維護數字對象和元數據、各組成部分關系和關聯關系,以及格式遷移等,以重點保障異構科學數據的集成可實現、內容可關聯、格式可解析。
科學數據增量日益顯著。目前,世界上最大的單口徑射電望遠鏡——500 米口徑球面射電望遠鏡,預計未來10 年科學數據存儲需求接近1億GB。同時,諸多領域科學數據的共享利用需要長時間尺度數據積累后進行綜合分析。
數據海量化給科學數據長期保存可持續性帶來了極大挑戰,需要充分吸納檔案部門在價值鑒定、容災備份等方面的工作經驗,并從管理體系、工作流程和保障機制等方面充分考慮可持續發展要求。
在前述科學數據長期保存特殊要求分析的基礎上,中國科學院檔案館于2021 年對院內重大科技項目科學數據管理情況進行了問卷調查,共發放問卷55份,回收有效問卷33 份,涉及33 個重大科技項目。調查問卷內容包括項目基本信息、科學數據形成、保存、管理和利用等方面共21 個問題。2021—2022 年,結合問卷調研情況,對國家基礎學科公共科學數據中心、國家基因組科學數據中心、國家空間科學數據中心和全國地質資料館開展了訪談和實地調研。結合科學數據長期保存相關文獻調研情況,本文從重大科技項目科學數據長期保存現狀,以及科學數據長期保存機構管理現狀兩方面進行了對比分析。
通過對比分析,本文認為我國科學數據長期保存存在多參與主體“割裂”、缺乏系統規劃,以及領域技術標準一致性程度不高等問題,給科學數據長期保存工作帶來較大風險。
(1)相關利益主體間相對“割裂”
90%的被調研項目表達了對其他項目來源科學數據的利用需求,這與科學數據管理政策要求以“共享利用”為目的相一致。約33%的被調研項目已經或計劃向科學數據中心匯交科學數據,絕大多數項目都會在項目檔案驗收中歸檔部分科學數據。從項目管理角度看,我國在科技計劃管理進程中并未全面實施數據管理計劃[12],因此被調研的項目僅約21%從項目層面實現了科學數據統一管理。
當前,科學數據長期保存涉及的科學數據中心、檔案部門和項目實施單位等多重利益主體在科學數據長期保存相關的標準規范和組織實施等多方面存在“割裂”現象,使得科學數據長期保存全生命周期管理的要求難以落實。
(2)缺乏長期保存系統規劃
約97%的被調研項目都會在實施過程中產生科學數據,其中約56%的項目目前已經產生的數據量為TB級別,約10%為PB級別;約85%的項目認為產生的科學數據需要永久保存;但僅有不到20%的項目表示當前的存儲容量、運維成本能夠完全滿足科學數據長期保存需求。
科學數據中心,一方面需要聚焦數據共享服務,另一方面受制于經濟和成本壓力,更多地是以業務驅動的數據備份工作為主,并根據存儲和數據容量動態調整備份要求,對科學數據長期保存的系統規劃和實施策略的可持續性關注不夠,給可持續性保存帶來了較大風險。
(3)領域技術標準一致性程度不高
約88%的被調研項目產生的科學數據格式多樣,且暫無格式統一的考慮或要求;約82%的被調研項目產生的科學數據類型多樣;被調研科學數據中心也表示目前尚未實現本領域不同來源科學數據資源庫之間的關聯檢索與利用。
從格式管理來看,由于缺乏格式管理要求,格式過時、更新等給科學數據長期可用性帶來較高風險;從技術標準來看,當前在高能物理、基因組學和地質等領域,有相對完善的科學數據保存技術標準,絕大多數領域都面臨著科學數據長期保存技術標準一致性程度不高的問題,領域內數據關聯尚存在問題,更未關注領域間數據關聯。
科學數據中心是我國科學數據的主要管理部門,檔案部門通過科研項目歸檔工作收集并保存了一定體量的科學數據,兩者是科學數據的主要保存機構。當前,科學數據中心與檔案部門尚處于平行發展狀態[13],但已經形成了各有優勢的科學數據長期保存現狀(見表1)。

表1 科學數據中心與檔案部門科學數據長期保存現狀對比
(1)檔案部門完善的檔案工作體系、相對健全的監督檢查機制和保存歷史的使命定位,使得檔案部門在科學數據長期保存工作中具有優勢
從工作體系上看,科學數據中心領域和地區分布不平衡,國家和地方科學數據中心正在陸續成立。而檔案部門已經建立了相對完善的工作體系,具有建制性的檔案工作組織機構、人員隊伍和制度規范體系。
從數據收集控制方式上看,科學數據中心多是根據領域論文發表數據公開要求或部分類別的重大科技項目驗收的數據匯交要求來保障數據匯交工作。檔案部門按照《中華人民共和國檔案法》的要求開展工作,能夠對科學數據形成、管理和歸檔工作過程開展業務指導和監督檢查,有利于促進歸檔科學數據長期保存要求的前端控制和系統實施。
從工作職責要求看,科學數據中心從事數據共享驅動為主的數據備份工作,檔案部門基于“存史”的使命要求開展檔案數字資源長期保存。
(2)科學數據中心在學科領域背景、技術研發和硬件環境投入等方面的優勢使得具有更強的科學數據長期保存能力
科學數據中心近年來在國家支持下蓬勃發展,信息化基礎設施建設較為完備,具有較強的技術和學科應用優勢。而檔案部門數字轉型進展不一,數字資源保存能力不均衡。
整體來看,科學數據中心或檔案部門各自獨立都難以覆蓋全部有價值的科學數據;而科學數據長期保存工作離不開科學數據中心的技術優勢,也需要檔案部門發揮建制性工作體系、業務指導前端控制和長期保存工作職責等方面的優勢。因此,我國科學數據長期保存工作必須聯合政府部門、科學數據中心、檔案部門和各領域科學共同體建立協同管理機制,這也是確保科學數據長期保存覆蓋全、存得住、用得好的最佳路徑。
結合檔案工作理論和實踐經驗,本文基于全生命周期管理、集中統一管理的原則,各參與主體協同管理的理念,提出了檔案管理視角下歸檔科學數據長期保存的對策建議。
借鑒檔案工作統一領導、分級管理的原則,建立各階段主體職責明確的協同管理網絡,將領域科學數據納入歸檔范圍,明確科學數據中心、機構檔案部門在科學數據匯交或管理方面的邊界與職責。一方面,保證跨領域、跨學科、跨機構重大科技項目產生的科學數據能夠以項目形式集成,另一方面,避免領域科學數據中心尚未建立情況下的數據流失,從而保障科學數據長期保存管理對象覆蓋全,促進數據目錄集中統一管理。
具體實施上,一是領域科學數據以向相應數據中心匯交為主,以發揮數據中心技術和共享服務優勢;二是其他歸檔數據依托相應的機構檔案部門以項目為單元向項目依托單位檔案部門集中歸檔,發揮檔案部門建制化優勢,從整體層面保障科學數據資源的完整性;三是屬于歸檔范圍和數據匯交范圍的科學數據,以及數據中心自身形成的有價值科學數據,可以邏輯歸檔方式完成,即向檔案部門提交數據管理計劃、數據匯交目錄清單及數據匯交憑證等,減少數據存儲資源的重復建設并保障科研檔案成套性;四是檔案部門與科學數據中心應不斷探索科學數據的目錄資源集成檢索,以及科研檔案和科學數據的協同利用。
建章立制一直是做好檔案工作的先決條件。科學數據長期保存需要形成一體化的制度規范體系(見圖1),才能保障科學數據長期保存工作的持續推進,實現內容關聯可操作。

圖1 科學數據長期保存工作制度規范體系
(1)宏觀管理政策
政府部門需要對科學數據長期保存相關主體職責、工作流程、激勵和保障機制有明確原則性規定。科技管理和資助機構需要明確提出項目科學數據管理計劃要求。檔案館需要明確科學數據長期保存的鑒定原則、長期保存策略,并促進歸檔科學數據的開放共享。科學數據中心需要落實數據歸檔與移交要求,完善備份要求,與檔案管理政策相銜接。
(2)底層通用規范
包括數據集永久標識符、文件保存格式、信息安全,以及審核和認證要求。這些都需要各領域科學數據形成、管理和利用各方共同遵守。
(3)領域技術標準
檔案部門、科學數據管理部門和各研究領域需要逐步形成科學共同體一致認可的元數據方案,重點關注并逐步完善與其他領域相互關聯的數據描述對象映射規則。
政策落實上,數據形成機構需要明確科學數據保存要求,制定并實施機構策略、組織活動要求以及技術解決方案[14];各項目需要按要求制定科學數據管理計劃,明確長期保存方案,細化數據保存范圍與保管期限要求,并落實在項目實施過程中。
科學數據長期保存需要借鑒檔案工作流程與要求,在全生命周期管理基礎上,優化管理流程并不斷完善數據價值鑒定。
(1)完善鑒定處置工作流程與要求
借鑒年齡鑒定論、職能鑒定論、宏觀鑒定論、文件雙重價值論等不同鑒定原則和標準的檔案鑒定理論,完善科學數據鑒定原則;并在科學數據管理計劃中,明確數據形成部門保管期限鑒定的職責,科學數據形成部門或個人完成科學數據價值和保管期限鑒定后方可匯交;同時規范鑒定處置工作流程需要由數據保存機構、數據形成部門或個人共同完成。
(2)對鑒定后保管期限為永久的科學數據增加移交環節
科學數據形成機構的管理權限和管理職責移交檔案部門,實現匯交到不同科學數據中心的科學數據長期保存的集中統一管理。
(3)區分存儲與長期保存實施內容
科學數據中心等部門側重存儲,重在管理對象的備份與必要數據的恢復;檔案部門側重長期保存,重在實施完善的保存行動,進行相應的數據檢測、遷移與恢復操作。