(上海中醫藥大學圖書館 上海 201203)
隨著E-science、開放存取運動和科研大數據研究的迅速發展,科研數據的價值越來越凸顯,數據的創建、存儲、管理和再利用變得越來越重要,從而催生了科研數據策管(Data/Digital Curation)?!癉igital Curation”一詞最早出現在2001年10月由數字保存聯盟和英國國家空間中心在倫敦組織召開的名為“Digital Curation:Digital Archives,Libraries and e-Science Seminar”的研討會上[1],“Data Curation”一詞則是由美國微軟首席研究員、計算機圖靈獲得者Jim Gray等人2002年7月在預印本文庫“arXiv”上發表的文章“Online Scientific Data Curation, Publication,and Archiving”中首次提出[2]。
英國聯合信息系統委員會JISC(Joint Information Systems Committee)將“Data”的概念解釋為“原始的研究數據”[3];美國國家科學基金會NSF(the National Science Foundation)將“Data”的定義進行了細化,認為是“所有通過觀察、計算和實驗等手段獲得的可以用數字化形式存儲的信息,包括數字、文本、圖像、音頻、視頻、動畫、軟件、算法、方程式、模型、模擬等”[4],由此可見數據策管的“數據”專指科學數據或科研數據(下文中將“科研數據策管”簡稱為“數據策管”)。“Curation”來源于拉丁語,本意是照顧,博物館學中將其翻譯為“策展”,表示對館內藏品進行持續保管、維護和保養,并推出新主題的展覽,最終達到提高館藏利用率的目的[5]。JISC發布的e-Science Curation Report認為“Curation”一詞是指在科學數據產生時就開始的對數據進行管理和促進數據利用的活動,此項活動確保數據符合當前的應用目的,且能被發現和被重新利用,同時不僅包括對數據的管理,還包括對相關數據的內容進行標注以及對數據內容關系的管理,對于動態的數據集,還要不斷對數據進行豐富和更新[3,6]。
英國JISC對數據策管解釋為:“在數據的整個生命周期內,對數據進行評估管理、維護、完善增值,以便于數據在當前和未來被利用”[7]。英國數據策管中心DCC(Digital Curation Centre)對數據策管解釋為:“在數據整個生命周期內對數據進行維護、保存以及增值的活動”[8]。
國內目前對Digital Curation/Data Curation的翻譯不一,秦健教授于2011年在上海舉行的高校圖書館發展論壇上作的“e-Science圖書館服務前沿:學術圖書館的新創舉”的主題報告中,把“Data Curation”一詞譯為“數據策管”[9],任樹懷、時婉璐等延續了這種翻譯[10],楊鶴林等在其文獻中將其譯為數據監護[11],譚榕、亓靖濤等將其譯為數據監管[12],丁培等將其譯為數據策展[13],孟寶祥、錢鵬等將其譯為數據管理[14],唐義、肖希明等將其譯為數字監控[15],另外還有學者將其譯為數據管護、數據典藏、數據掌管、數據保管、數據醫療等。
筆者認為譯為“數據策管”為佳,數據策管是以數據保存、再利用和增值為主要目的的有計劃、有策略的數據管理,是貫穿數據整個生命周期(從創建、初始存儲到為未來研究存檔,直至過時被刪除)的管理,數據策管的過程涉及數據創建、數據保存、數據共享、數據存檔、數據維護、數據出版等活動。
數據策管生命周期模型是進行數據策管活動的基礎,為了幫助科研人員和圖書館員進行數據策管工作,不同組織機構提出了很多的數據生命周期模型。本文選取了3個典型的數據策管生命周期模型,即DCC、ICPSR和JISC的數據策管生命周期模型進行分析和比較。
DCC是自數據策管概念提出后成立的全球第一個國家級數據策管中心,該中心2008年制定并發布了其數據策管生命周期模型[16],該模型用圖形高度概述了成功進行數據策管和保存數據的活動內容、實施步驟和行動路線,具體參見圖1。

圖1 DCC數據策管生命周期模型
該模型分7層,中心層為數據層,第2層到第5層為數據策管生命周期功能活動層,第6層為數據生命周期順序步驟層,第7層為特別處理層。也即DCC模型可以解析為4個模塊:“數據”對象、數據策管生命周期功能活動、數據生命周期順序步驟以及特別處理。
2.1.1 “數據”對象
DCC模型中的“數據”既包含數字對象,也包含數據庫。數字對象包括相對獨立的簡單的數據項以及與其相關的標識符和元數據,也包括由其諸多其他數字對象組成的復雜數字對象集,前者諸如文本、圖像、視頻、音頻,后者諸如網站等;數據庫則包括各種結構化的文檔記錄集,也包括存儲在計算機系統中的數據集[17]。
2.1.2 數據策管生命周期功能活動
數據策管整個生命周期的活動,主要包括4個活動:①描述和表示信息;②數據保存計劃;③社區守望和參與;④創造和保存。描述和表示信息是利用具有描述性、結構性、技術性、管理性和保存性的元數據對數據進行表示和描述,目的是為了有利于數據的長期保存。數據保存計劃則是制定貫穿于數據策管整個生命周期的數據保存計劃,包括策管生命周期里的所有管理活動和保管活動。社區守望和參與包括保持對研究社區進行高度關注,并參與開發共享標準,以及開發共享工具和軟件。創造和保存活動包括數據的監管,以及知識增強和數據維護。
2.1.3 數據生命周期順序步驟
數據生命周期順序步驟是圍繞數據的處理而進行的8個活動:①概念化;②創建或接收數據;③評估和選擇;④攝?。虎荼4婊顒樱虎薮鎯?;⑦訪問和使用及再利用;⑧轉換。概念化步驟是指構思和計劃科學數據的創造,包括數據捕獲方法和數據存儲選項;創建數據步驟包括創建結構性、描述性、技術性以及管理性的元數據,接收數據步驟則是在收集政策文件指導下,從數據的創建者以及其他存儲庫或數據中心等接收數據的過程;評估和選擇步驟是指評估和選擇那些用于長期策管和保存的科學數據;攝取步驟指將科學數據傳輸到存儲庫、檔案庫、數據中心或其他保管人;保存步驟包括科學數據清理和數據驗證,分配保存元數據以及分配標識信息,并確??山邮艿目茖W數據結構或文件格式;存儲數據步驟要求以符合相關的存儲標準并安全的方式存儲科學數據;訪問和使用及再利用步驟需要確保既定用戶以及再利用用戶均可隨時訪問科學數據,可以通過公開發布數據或通過身份驗證來控制訪問;轉換步驟則是由原始科學數據來創建新的數據,例如轉換到不同數據格式,或者創建一個數據子集,或者公開發表出版等。
2.1.4 特別處理
特別處理是在某些情況下或某些學科可能需要進行的額外活動,包括處理、重新評估和遷移3種活動。處理是指處理那些不符合指南、政策文件或法律要求的科學數據,一般采取的方式是將其轉移到其他庫或其他保管者,或者基于法律的原因,安全地進行破壞;重新評估是針對那些未通過驗證的科學數據進行進一步評估和重新選擇;遷移一般是為了符合存儲環境或者確保科學數據免受硬件或軟件過時而淘汰,將科學數據遷移成其他格式。
ICPSR是美國校際社會科學數據共享聯盟,其數據策管生命周期參見圖2,一共分為6個階段[18]。

圖2 ICPSR數據策管生命周期模型
ICPSR的數據策管生命周期的1~2階段為科研生命周期前兩個階段,3~6階段為科研生命周期的項目實施階段,在這個階段整合了圍繞數據處理的數據生命周期。具體為:第1階段是科研生命周期的撰寫項目申請書階段,這個階段需要制定數據管理計劃,同時獲取數據存檔相關建議,以使科學數據能夠長期可利用。第2階段是科研生命周期的項目啟動階段,在此階段科研人員需要預測科學數據的內容以及數據的格式,可以通過抽樣的方法對科研數據和科研方法進行測試。第3階段是數據生命周期的數據收集和文檔創建階段,這個階段科研人員需要考慮科研數據的完整性,對科研數據進行分組、編碼、建立標簽、確定變量名稱等活動;如果是文檔,需要參照數據文件倡議DDI的元數據標準進行處理。第4階段為數據生命周期的數據分析階段,在此階段數據策管活動有管理科研數據集,建立科研數據文件,文件結構需要進行合理的設置,科研數據以及科研文檔還需要備份以防丟失。第5階段是科研數據生命周期的數據共享階段,這個階段需要科研人員了解公開科研數據可能存在的問題,明確科研數據存儲的格式和地點。第6階段是科研數據生命周期的數據存檔階段,在此階段需要科研人員參照數據共享和傳播的有關協議,將科研數據打包完整并進行存檔。
JISC是英國聯合信息系統委員會,該機構提出的數據策管生命周期模型分為科研生命周期和數據生命周期[19],參見圖3。

圖3 JISC數據策管生命周期模型
其中科研生命周期包括5個階段:①研究思路/靈感;②組建研究團隊;③撰寫項目申請書;④研究過程;⑤研究成果出版。數據生命周期嵌入在研究過程中,包括4個環節:①數據產生;②數據管理;③數據分析;④數據共享。模型的說明中指出:科研生命周期第1階段的研究思路/靈感的產生需要進行的策管活動為文獻檢索,查找文獻資源和閱讀背景材料??蒲猩芷诘?階段的組建研究團隊可以采用線下方式,也可以利用社交網絡??蒲猩芷诘牡?階段即撰寫項目申請書階段需要同時撰寫數據管理計劃??蒲猩芷诘牡?階段即研究過程包含數據生命周期的4個環節,涉及科學數據的產生到共享,不同學科的研究過程差異比較大:科學數據的產生環節可能來源于觀察、實驗或者模擬等;數據管理環節主要依據數據管理計劃進行;數據分析環節主要通過統計和計算進行;數據共享環節主要是對原始或者已經處理的數據進行管理并保存,以便其他人可以進行訪問和使用。科研生命周期的第5階段為研究成果出版,其出版形式可以選擇傳統期刊,也可以選擇出版在開放獲取期刊或發布在開放獲取倉儲中[20]。
表1從模型結構、核心要素的差異以及各自的特點比較詳細地比較和分析了DCC、ICPSR、JISC3個機構數據策管生命周期模型。

表1 數據策管模型比較和特點分析
DCC數據策管生命周期模型非常詳盡,有涵蓋了數據對象內涵的描述。數據策管生命周期各種功能活動,也有數據的順序處理步驟,以確保進行數據策管時順序執行所有必要的階段,同時又有特殊情況下需要進行的數據處理活動,可以直接用于指導組織或聯盟的策管計劃,或者借鑒該模型用來構建標準化的技術及實施框架。ICPSR模型相對簡單,只是一個單鏈結構,特點是將科研生命周期和數據生命周期進行了整合,依據科研生命周期及項目啟動后的數據生命周期開展相應的數據策管活動。JISC模型則將數據生命周期嵌入在科研生命周期的研究過程,并將科研生命周期從研究思路的產生開始探索數據策管活動。
通過以上3個典型的數據策管生命周期模型分析和比較,可以看出數據策管生命周期模型呈現多樣化的同時又有其共通之處,多樣化表現在模型結構、角度、核心要素的數量和內涵、模型的特點、詳略程度等,共通之處表現在都是針對科學研究,數據對象都是科研數據,核心要素都有數據產生、數據保存、數據維護、數據出版和共享。
總之,數據策管活動是貫穿了科學數據整個生命周期以及科研生命周期的策管活動,以數據保存、再利用和增值為主要目的。在具體的數據策管實踐中,可以參考DCC、ICPSR、JISC等典型的數據策管生命周期模型,也可以根據科研生命周期或者科研機構的需求和所需服務的學科特點設置適合本機構的數據策管生命周期模型。