, ,
科學數據是通過對自然和社會的觀察、感知、計算、實驗、仿真、模擬等產生的數據[1],包括觀測型數據(Observational data)、計算型數據(Computational data)、實驗型數據(Experimental data)、記錄型數據(Records)4種類型[2]。有效地管理好這些數據不僅是科研管理的要求,更是科學再發現、社會價值再創造的需求。為了幫助科研組織科研人員做好科學數據管理工作,不同組織機構提出了若干數據生命周期模型,從不同角度描述了數據從產生、收集、描述、存儲、發現、分析到再利用的整個生命周期。地球觀測衛星委員會(Committee on Earth Observation Satellites,CEOS)信息系統與服務工作小組(Working Group on Information Systems and Services)2012年4月發布的調研報告顯示,已經有55個不同的科學數據管理生命周期模型[3],它們會隨著研究、實踐的發展,不斷發生新增、版本更新等變化。了解、分析這些數據管理模型的內涵和特點,不僅有利于數據管理研究人員把握相關研究與實踐現狀,推動數據管理研究的發展,而且也有利于數據管理需求人員找準切合實際應用的模型,落實好本地的數據管理活動。
鑒于此,本文對7個科學數據管理生命周期模型的提出機構、適用范圍、結構特點、構成要素、應用實踐等方面進行了分析與比較,為我國數據管理相關研究、應用人員提供參考和借鑒信息,從而促進我國科學數據管理的發展。
本文以代表性、典型性等為原則,選取了7個科學數據管理生命周期模型作為研究對象,分別是:英國DCC(Digital Curation Centre,數字審編中心)提出的DCC審編生命周期模型(DCC Curation Lifecycle Model)[4],英國數據倉儲(UK Data Archive,UKDA)提出的UKDA數據生命周期(UK Data Archive Data Lifecycle)模型[5],DataONE領導團隊(DataONE Leadership Team)和DataONE社群合作構建的DataONE數據生命周期(DataONE Data Lifecycle)模型[6],數據文檔倡議聯盟(Data Documentation Initiative Alliance,DDI Alliance)提出的DDI 組合生命周期模型(DDI Combined Life Cycle Model)[7],美國地質調查局(U.S. Geological Survey,USGS)提出的USGS 科學數據生命周期模型(The USGS Science Data Lifecycle Model,SDLM)[8],ICPSR(Inter-University Consortium for Political and Social Research,美國校際社會科學數據共享聯盟)提出的數據生命周期(Data Life Cycle)模型[9],加州大學圣地亞哥分校提出的研究數據生命周期(Research Data Life Cycle)模型[10]。
從已有研究看,CEOS雖然梳理了55個數據管理模型,但主要是對模型內容的羅列,并沒有進行橫向分析與比較。李偉綿等[11]雖然總結和梳理了DCC審編生命周期模型等8個研究數據管理生命周期模型,但主要是從模型結構和組成要素兩個角度進行分析。丁寧等[12]從研究主體、數據規模、模型結構等維度對國外科學數據生命周期模型進行了劃分,分析了高校科學數據管理模型與其他主體模型的差異,但對國外高校數據管理模型的重點梳理也是停留在模型類型、提出機構和基本內容等方面。劉楊[13]對比分析了中外基于生命周期的Data Curation研究,主要是從文獻入手,圍繞時間、作者、主題、研究項目進展等方面開展分析,未將模型對比作為研究重點。因此,本文對科學數據管理生命周期模型的分析與比較將基于已有研究進行一定程度的深化,主要從模型的基本情況、構成要素及應用3個方面著手。其中,模型概況分析是從模型的提出機構、提出的基本思想、適用對象、模型結構、核心要素、更新與否等維度進行比較;模型要素分析主要是基于已有模型的構成要素,總結提取出數據管理的核心環節,在與各模型要素映射的基礎上,分析模型要素間的異同及影響因素;模型應用分析是從面向模型應用的輔助資源進行分類與梳理,并結合應用案例分析模型的應用特點。
本文在梳理7個科學數據管理生命周期模型的基礎上,從提出機構類型、模型特點、適用對象、模型結構、核心要素、模型是否存在更新等方面進行比較,以形成模型的概覽(表1)。

表1 科學數據管理生命周期模型概況
注:Y表示是,N表示否。
科學數據管理生命周期模型的提出機構包括數據管理研究機構、數據管理機構、政府機構以及高校,不同類型主體在提出模型的出發點上有所差異。數據管理研究機構是為有數據管理需求的組織與機構、科研人員提供數據管理指導、標準規范、培訓等,如DCC模型就是為了幫助機構或組織制定數據管理活動方案、界定角色與職責、構建標準與技術框架等;數據管理機構是出于有效管理科學數據,為科研人員提供數據管理服務,如ICPSR。參與科學數據管理研究的政府機構,通常是科學數據的主要產生方,如美國地質調查局的一項核心任務是向政府、公眾提供各類寶貴的地質數據。因此模型更關注數據本身,確保產出數據的可靠、有效、可用等。而高校則以圖書館為研究主體,旨在幫助本校的科研人員做好科研過程中的數據管理工作,以滿足科研管理方的數據要求,便于科研驗證、促進科學再發現等。
從模型提出的基本思想看,有密切圍繞科學研究的全生命周期過程,如USGS 科學數據生命周期模型、ICPSR數據生命周期模型;有面向研究數據的全生命周期過程,如UKDA研究數據管理團隊(Research Data Management team)認為數據的生命周期比產生他們的研究課題長,即科研人員可能在課題結束后繼續研究、分析這些數據,后續課題可能會更新數據,也會有其他科研人員再利用等,并基于這一思想構建了UKDA數據生命周期模型。
科學數據管理生命周期模型的適用對象主要以科學研究數據為主,但存在領域上的差異。如ICPSR數據生命周期模型適用于各類社會科學研究數據,涵蓋定量數據、定性數據(如訪談視頻、案例研究筆記)、GIS等多種數據類型;而DCC審編生命周期模型不具有領域特征,適用于各類數字對象(Digital Objects)和數據庫,其中數字對象包括文本文件、圖片等(包括標識符、元數據等)簡單數字對象,以及由簡單數字對象構成的復雜數字對象(如網頁)。
從模型結構看,這7種模型均采用了圖形化表示,并以收尾相接的環形結構為主。如DCC模型以數字對象為圓心,以數據管理活動為閉環的組成部分,最終形成5層的層級結構。即使是DDI組合生命周期模型在“研究概念化”到“數據分析”部分是線性結構,但從“數據處理”到“數據分發”“數據再利用”分別添加了閉環,形成了兩個迭代子結構??梢?,數據管理活動之間的閉合循環是生命周期模型的重要組成部分。
從模型的核心構成要素看,主要集中在6-8個關鍵步驟上,具體分析見模型要素分析。
數據管理模型可能會隨數據管理活動的發展而有所變化。從目前發展現狀看,各模型處于較為穩定的階段,只有DDI模型存在更新。該模型的更新主要源于它是將數據生命周期概念模型(Conceptual Model)、XML Schema、DTD(Document Type Definition,文檔類型定義)相結合的技術解決方案,自2008年4月發布第一版至今共發布了3.0版本、3.1版本和3.2版本。其中,3.1版本修復了3.0版本中的若干問題,解決了統一資源名稱(Uniform Resource Name,URN)問題;3.2版本主要在3.1版本基礎上進行了修復與精煉[14]。
值得注意的是,一些模型的提出是有其構建基礎的。如DataONE模型是建立在美國國家科學基金會(National Science Foundation,NSF)在DataNet solicitation提出的生命周期模型基礎上,DDI組合生命周期模型則是綜合了I-lin Kuo模型和Green/Kent生命周期模型構建而成。
各機構提出的科學數據管理生命周期模型由于出發點各異,模型要素及其內涵方面既有相似性又有差異性。本文結合各模型對構成要素內涵的闡述,從“數據管理計劃”“數據收集”“數據處理”“數據分析”“數據保存”“數據共享”“數據再利用”等7方面實現模型要素的逐一映射匹配,形成科學數據管理生命周期模型核心要素映射關系表(表2)。

表2 科學數據管理生命周期模型核心要素映射關系
從表2可以看出,不管是何種模型、其要素表述有何差異,“數據管理計劃”“數據收集”“數據處理”“數據保存”是必備環節。如DCC模型的“概念化”內涵是計劃數據創建工作,其本質仍是數據管理計劃的制定。對應到各模型,各要素之間存在交叉與融合現象。如UKDA模型的“數據創建”環節包含研究設計、數據管理計劃、數據共享協議、已有數據定位、收集數據、捕獲和創建元數據等內容,橫跨了“數據管理計劃”和“數據收集”兩個環節;ICPSR模型的“數據收集和文件創建”環節包含了數據整合、缺失值處理、數據分組等“數據處理”的內容。而DataONE模型的“數據發現”環節指定位、獲取潛在有用數據及其相關描述數據(元數據),本質上也是“數據收集”活動,因此在該環節包含了“數據收集”“質量控制”“數據發現”3個要素。此外,有些模型要素,如加州大學圣地亞哥分校研究數據生命周期模型中的“結果出版”、ICPSR模型中的“項目啟動”因無合適的管理環節與之對應,在表中未標識。
從模型類型對要素的影響看,側重保存數據管理的模型,如DCC模型,會忽略“數據分析”等挖掘數據內容的環節。而面向科研數據管理的模型,雖然在具體流程上會有差異,但均包含了“數據管理計劃”“數據收集”“數據處理”“數據分析”“數據保存”等管理環節,說明在科研數據管理方面基本達成了共識。在其中細分,基于數據生命周期設計的模型,考慮到數據在科研過程結束后對后續研究的再利用價值,會納入“數據共享”“數據再利用”等環節,較于側重科研過程的模型會有一定的擴展。
從模型要素內涵看,會受適用對象的影響。如DataONE模型是針對環境科學數據設計的,因此在“數據收集”部分強調通過手工、傳感器或其他設備收集數據,并轉存為數字形式。針對社會科學數據的DDI模型則強調數據收集方法(抽樣、時間等)、設備特征、問卷調查等內容。而面向數字對象和數據庫的DCC模型,則囊括了數據收集的所有情況,包括管理性、描述性、結構性、技術性元數據的創建,以及從數據提供者處接收數據等。同時,要素內涵還會受到應用場景的影響。如ICPSR作為與社會科學研究人員密切合作的數據管理機構,本身也提供數據管理服務,其提出的模型就會強調科研人員與數據倉儲在數據管理方面的溝通與聯系,數據準備是否符合數據倉儲的要求等。USGS模型則強調數據獲取是否遵循USGS的相關政策法規,是否能正確、有效地利用等。
值得注意的是,表2中列出的是各模型的核心要素,DCC審編生命周期模型和USGS科學數據生命周期模型還存在擴展要素。如DCC模型將數據管理活動劃分為3類,即全生命周期行為(Full Lifecycle Actions)、順序行為(Sequential Actions)以及偶然行為(Occasional Actions)。其中,全生命周期行為包括描述和表示信息、保存計劃、群體監督與參與、審編與保存4種,偶然行為包括數據處理(Dispose)、數據再評估、數據遷移3種??梢?,這兩類數據管理活動是在順序行為,即其核心構成要素基礎上的補充和完善,是更為高階的管理活動。而USGS 科學數據生命周期模型的擴展要素包括數據描述(元數據和數據文件)、數據質量管理、數據備份和安全等,是貫穿于模型的所有核心要素,強調數據管理與科研過程的關系。
科學數據管理生命周期模型是針對數據管理活動的參照性指導方略,其應用人群主要涉及圖書館員、管理人員、數據倉儲、科研人員、開發人員等。不同類型人群的應用需求不同,應用方式也會有所差異。為了滿足各級各類人員的應用需求,各數據管理模型的提出機構會提供一系列相關資源來輔助做好數據管理工作。本文從“指導手冊”“標準規范”“技術規范”“系統工具”“管理服務”5個方面進行梳理,形成表3。

表3 科學數據管理生命周期模型應用對比
注:Y表示提供此內容,N表示不提供此內容。
從表3可以看出,“指導手冊”“系統工具”是所有科學數據管理生命周期模型在應用時均會提供的。其中,“指導手冊”主要是闡述什么是數據管理、為什么要管理數據,以及如何有效地管理數據等內容。如ICPSR發布的“社會科學數據準備與歸檔指南(Guide to Social Science Data Preparation and Archiving)”[15]就從數據管理模型的6個核心環節分別闡述了相關概念、標準、注意事項、最佳實踐以及示例等;DCC則為模型中的8個關鍵環節明確了檢查清單(checklist),便于機構制定、規劃組織內的數據管理活動。在系統工具方面,存在自主研發工具和收集已有工具兩種方式。如同樣是幫助科研人員撰寫數據管理計劃,DCC是自行研發了DMPonline工具,而加州大學圣地亞哥分校則是通過提供給科研人員已有工具DMPTool。
從提供的標準規范看,主要存在兩種類型。一種是數據標準規范,如DCC按照學科分類收集整理了相關元數據規范、工具以及用例(use case),以幫助數據管理者、研究人員更好地了解并使用數據標準[16];USGS主管的聯邦地理數據委員會(Federal Geographic Data Committee,FGDC)則制定、出臺了數字地理空間數據元數據的內容標準。另一種是諸如數據管理計劃等的數據文件標準,如ICPSR面向社會科學研究數據,明確了數據管理計劃的建議元素和可選元素。
從標準規范制定方式看,有聯合開發的,如UKDA作為DDI技術應用組、受控詞表組、定性元數據工作組的成員,參與制定了經濟與社會數據的元數據標準;有獨自開發的,如USGS。
從技術規范看,只有DDI和USGS提供技術規范,但二者又有不同。DDI聯盟旨在面向社會科學數據、覆蓋人類活動數據、基于觀測獲取的數據建立數據標準,并且這些標準是結構化的,便于機器處理,有利于互操作。因此,DDI將XML Schema與數據生命周期相結合,明確了各要素的內涵,形成了技術規范“Data Documentation Initiative (DDI) Technical Specification”,并且這些技術規范是會隨著應用的深化而變化更新。為了解決技術規范版本不兼容問題,DDI還提供了版本遷移的解決方案。而USGS的技術文檔是針對數字地理空間數據元數據標準的,明確了標準的XML Schema、DTD等[17]。
在數據管理服務方面,數據管理機構和高校出于科研人員的應用需求均提供了數據管理服務。如加州大學圣地亞哥分校為本??蒲腥藛T提供了數據的長期保存服務[18],服務采用Chronopolis系統以確保有效的管理過程和持續的監測。同時,圖書館的研究數據管理計劃(Research Data Curation Program,RDCP)團隊還面向科研人員提供數據管理咨詢服務。而在數據管理機構中,如英國經濟與社會委員會(Economic and Social Research Council,ESRC)資助的UK數據服務(UK Data Service)是為英國和國際社會、經濟和人口數據提供數據管理服務[19]。為了幫助科研人員有效地管理數據,還提供了大量的指南、教程和工具。數據管理研究機構主要是提供數字研究數據存儲、管理、保護和共享等方面的專業指導和建議,數據管理服務不是重點,因此DCC、DataONE、DDI均未提供。
由于模型提出的出發點不同,因此在落實到具體應用時也會有所不同。例如,DataONE提出的數據生命模型主要是作為DataONE工具、服務、教學材料研發的底層框架,所以它本身不承載DataONE成員單位的數據管理工作,但會為相關科研人員、公眾提供一個環境科學數據、系統工具、學習材料等的資源發現平臺。而DCC模型提供了一種操作框架,在應用的時候需要根據應用場景、實際條件等情況進行適應性調整(如操作入口環節等),才能確保數據審編活動順利、有序地進行。因此,明尼蘇達州大學圖書館在2013年5月啟動了數據管理試點工程(Data Curation Pilot project)后,結合本地已采用的技術工具,在DCC模型順序行為(Sequential Actions)基礎上初步制定了本地數據管理工作流,圖書館員通過管理試點數據集獲得的經驗,最終明確整體科學數據管理工作流程,確定各階段所應采取的具體步驟,各步驟應考慮的關鍵問題等[20]。DDI模型作為XML Schema與數據生命周期結合的技術解決方案,美國加州大學洛杉磯分校在應用時,是將DDI模型作為底層數據全生命周期管理的基礎,結合數據倉儲工具Colectica實現了社會科學數據的構建[21]。
通過對國外典型科學數據管理生命周期模型的對比分析,發現存在以下3方面的特點。
各數據管理生命周期模型雖然由不同類型機構組織提出,但在模型的圖形化表達、適用對象、核心構成要素等方面存在諸多共通之處,呈現出趨同性的特點。在此基礎上,結合提出的出發點、應用場景、數據對象特點等,在模型結構、具體管理環節、要素表述與內涵等方面呈現多樣化特點。這說明科學數據管理生命周期模型在不斷的探索和實踐中,已經在某些方面達成了一定程度上的共識,并成為各組織機構深化、細化、變化或具象化模型的基礎。
科學數據管理生命周期模型提出的最終目的是指導、幫助科研人員做好數據管理工作。模型的抽象性及科研人員在數據管理方面的非專業性,決定了相關輔助資源的重要性。而輔助資源的質量直接影響著模型有效利用的程度。因此,根據模型的應用人群,有針對性地、盡可能全面地提供各種資源,并以方便的、可理解的方式組織起來,是模型提出機構的重要工作。
通過對比分析可見,有些模型具有領域特性,其內涵和應用有專指性;有些模型是指導性框架,應用時需進行本地化的適應性改造;有些模型是面向科研過程的,科研活動結束數據管理活動就截止了;有些模型是面向數據生命周期的,數據管理活動還包含了對數據再利用的管理等。此外,不同模型在輔助資源的提供上,包括資源類型、質量、組織方式等方面也存在差異。這些因素均是數據管理人員在選擇、應用模型時需要考量和權衡的。只有結合需求選擇合適的模型,利用好各類輔助資源,保證模型得到合理的應用,才能達到有效管理數據的目的。