王會梅
(安徽師范大學圖書館)
良好的科研數據管理有利于確保研究的完整性、增加研究的影響、支持數據的未來持續使用、滿足內外部要求。研究數據來自學術和實踐,包括觀察、實驗、模擬及其派生的數據,主要包括文本文件、電子表格、照片、音像磁帶、數據庫、模型等。研究數據滿足下列特性:準確、完整、可靠、真實并附有元數據;以風險最小的方式安全儲存;在最新研究信息系統(Current Research Information System,CRIS)被登記;可追蹤、可訪問和可引用;滿足法律、倫理、協議和資助者指定的要求;能被驗證和進一步利用;從研究結果發表算起研究數據至少應保存10年。數據管理的原則有:可證實性、可信賴性、定制化、可開放獲取、最低成本。目前,大多數相關研究集中美國[1]、英國[2]、澳大利亞[3]等國家高校的數據管理模式與服務策略探討,對歐盟和荷蘭高校圖書館數據管理的關注較少。
荷蘭最有名的大學是成立于1632年的阿姆斯特丹大學,其圖書館藏書350萬卷,由荷蘭教育文化與科學部撥款。此外,荷蘭還有許多知名大學,如:建于1575年的荷蘭最古老的大學——萊頓大學,其圖書館是歐洲唯一擁有中文藏書的圖書館;建于1614年的格羅寧根大學;建于1636年的烏得勒支大學;建于1842年的代爾夫特理工大學,其圖書館最具有未來派特征,最為現代化;鹿特丹大學成立于1913年,又稱鹿特丹伊拉斯姆斯大學,其圖書館憑借專業收藏,代表著客戶導向、創新性和效率性。本文依據荷蘭這6所高校圖書館的數據(見表1),分析其研究類數據管理的創新服務模式,以期為我國圖書館數據管理提供借鑒。
當申請項目被批準時,申請人員必須提供一個完整的數據管理計劃(Data Management Plan,DMP)。這個計劃是立項項目開展研究的第一步,目的是讓研究數據可被搜索、獲取和重復使用。DMP是產生和使用數據的一份正式文件,主要闡明數據的收集、管理、保存、共享和應用等(見圖1)。對于數據管理計劃,可以借助免費的基于Web的制作工具DMP online創建。DMP online包括登陸、注冊、創建、共享、支撐和維護系統等,可讓研究人員能夠輕松地編寫、編輯、共享、存儲和管理數據。各大學圖書館均提供DMP的通用模板及編制建議。研究包括的三個階段(項目申報階段、項目研究中的數據收集和分析階段、項目完成后階段)均應進行數據管理(見表2)。項目前數據管理包括:了解數據政策、制定數據管理計劃、進行成本預算;項目中數據管理指數據保存、數據命名、數據結構分析、元數據和數據訪問等;項目完成后的數據管理主要指數據選擇標準、數據公開、數據發布。DMP的確立有利于理解所有數據的創建、存儲和發布,不僅滿足了資助單位的要求,而且便于研究人員高效管理數據,還可以降低數據丟失、或難以辨認、無法使用等風險(見圖2)。

表1 荷蘭6所著名高校圖書館數據管理

圖1 數據管理計劃的內容(阿姆斯特丹大學圖書館)

圖2 數據管理計劃的優點(烏得勒支大學圖書館)

表2 研究數據全周期管理(萊頓大學圖書館)
當前,資助者要求研究人員必須遵守數據管理計劃,而且不同的資助部門對研究數據的要求各不相同,但都要求對數據進行一個簡短描述。在這份描述中,應闡釋被采集或生成的數據類型、數據標準、數據利用,以及項目實施中或完成后數據的保存方法和地址。一些荷蘭學術資助機構明確要求研究人員應遵守研究數據的管理政策:荷蘭皇家藝術與科學院(Royal Netherlands Academy of Arts and Sciences,簡稱KNAW)要求項目負責人在數據管理計劃中提出免費使用數據的條款;荷蘭科學研究協作組織(The Netherlands Organisation for Scientific Research,簡稱NWO)要求獲批項目必須簽訂數據歸檔合同和網絡服務協議;荷蘭衛生研究與發展組織(The Netherlands Organisation for Health Research and Development,簡稱Zon MW)要求獲批項目的申請人必須詳細制定數據管理計劃,闡明數據使用、共享和訪問方式等;歐盟科研框架計劃“Horizon 2020”(簡稱“H2020”)要求項目獲批后,必須編寫詳細管理計劃,并在項目啟動后六個月內上交。荷蘭國家研究數據管理協調中心比較了五個資助部門的數據管理要求(見表3)。另外,出版商基于數據使用策略,明確要求項目組在線將全部數據發送到中心服務器,或者將數據存儲在指定網站供訪問使用。

表3 各資助單位對數據管理計劃的要求
①文件名應清晰明了、編碼簡短、不超過25個字符,應包含的信息有:項目名、項目數量、研究團隊名稱、測定方法、研究對象、創建日期、版本號等。文件名可以使用字母A-Z或a-z、數字0-9、破折號、下劃線、點,不能用特殊字符(如&、%、$、#、)),盡量避免使用空格、點號和特殊字符。在數據管理計劃中設立一個文件名編碼說明,有利于理解文件含義。②文件格式是數字文件中的信息編碼的方式,主要指數據保存的標準化方式,一般用后綴.wmv、.mp3、.pdf等表示。選擇合理的文件保存格式,可以保證數據容易打開訪問、有效分析和持久使用,還可以在數據轉換中防止內容、特性(元數據)、布局、質量等發生變化。③對不同數據實行分類管理。按主題分:實驗類、分析方法類等;按采集地點分:國家、地區或具體地點;按時間順序分:年、月、日或周期;按類型分:報告、論文等;按文件的性質分:主文件、工作文件等;按版本分:概念版本、初版本、最終版本等。數據的組織結構應清晰明確,可以設置多個版本和副本。④采用元數據描述或表征數據行為,元數據有利于數據搜索和有效引用。如研究背景與方法、所用儀器及其設置參數、數據采集時間、數據與數據集(庫)描述、實驗室日志等人類可讀的元數據;還有一種為僅能由計算機和搜索引擎讀取的元數據。⑤注意數據備份。依據使用周期合理安排頻次,分開存放備份文件并進行定期測試。備份有多種方法,如外部硬盤、網絡、云服務器等。
數據的長久安全保存或長期存檔非常重要,但需考慮存儲空間、保存價格和用戶友好等特點(見圖3)。可在線保存歸檔、進行數字化處理的數據類型有很多,如應用程序、成績表、研究報告、學位論文、宣傳冊、政策文件、會議記錄、合同等。被保存的數據選取標準:單位、出資人或出版商要求保存的數據;被高度重復使用和高度創新的數據;不可重復的、唯一性的數據;可用性高的數據。保存的原則包括可靠性、安全性、可訪問、易導出。數據保存有很多作用:有利于共享,滿足用戶對數據的需求和合法操作;根據數據協議、數據法和歸檔法進行保存,有利于通過審查委員會和資助單位的審核;有利于數據清查,明確數據表達的含義。數據文件有多種保護方式:①利用加密軟件SURF file sender發送個人或隱私數據,并基于保密協議,限制數據訪問和共享;②安裝防火墻和殺毒軟件、及時更新升級操作系統和軟件、使用安全的無線網絡、設置密碼保護等加強計算機系統的安全;③鎖控電腦和電腦房,保護好原始數據記錄、USB和移動硬盤,不遺留未受保護的數據,嚴格保護非數字化的材料,對研究數據進行物理保護;④重點保護隱私敏感型數據。
在荷蘭,有兩個國家級數據庫:DANS(人文社會科學)和4TU(荷蘭理工大學聯盟)。數據存儲平臺可由研究單位和市場開發。大學開發的云服務器有UVA/AUAS Fig Stand、Surf Drand。云服務存儲文件具有許多優點:Internet連接方便、原始數據可追溯、恢復快、易共享等,但機密和敏感數據不應存儲在公共云服務中。公司開發運營的數據庫有GITHUB、BitBucket。在選擇這些付費數據庫時要考慮數據庫的質量、配置條件(持久標識符、訪問限制、許可證)、要求(文件格式、元數據)、數據的可搜索性。

圖3 數據長期存檔的判定流程
公開發布或發表數字化數據不僅可以提高研究的影響力、促進跨學科合作交流,而且有利于數據檢索,使數據可訪問、可共享、可引用和遵守資助者要求。發布數據時,應注意以下幾點:原則上不允許發布個人數據,但必須發布的個人數據應匿名;數據應適當描述(如采集地點、時間等)并同步發布元數據;確保標識符準確、唯一、可靠和可被引用。在公共存儲庫中發布敏感或隱私數據時,一般通過永久的標識符、許可證制度、知識共享協議限制訪問。因此,必須依據是否保證長期的數據保護、數據保存的成本和地點、默認的許可證、是否有證書等選擇合適的數據庫。有些數據集必須獲得許可或使用資格,才可被引用或復用。在專著或期刊中,引用的信息必須包含作者、年份、數據集名、數據庫、版本、永久標識符、URL。當數據公開發表后將被賦予永久標識符,如DOI、Handle、URN、ARk、PURL等。Unishare是數據共享和文件發送的服務器,網頁界面清晰專業、版本管理能力強,可簽名認證存儲的文件并被隨時隨地訪問,具有恢復已刪除文件的能力,研究人員和訪問者分別可獲得205GB、100GB的免費數據存儲空間。DataverseNL是由哈佛大學發起、格羅寧根大學等機構共同開發的一個數據共享和發布平臺,可安全、長久的在線存儲各類數據和軟件。UVA/AUAS Figshare是阿姆斯特丹大學圖書館的數據共享平臺,按學科分為23個類別:應用社會科學與法律、商業與經濟、數字媒體與創意產業、考古學、天文學、生物學、化學、經濟與商業、計算機科學、教育、健康、藝術史、語言與文化、法律、數學、哲學、媒體、自然地理、物理學、宗教、社會與行為科學、運動與營養、技術。
數據應以安全的方式進行處理和儲存,必須保證數據的完整性。根據法律,每個人都有權保護自己的隱私。因此,當收集個人資料用于研究時,必須保護參與者的隱私。如把個人數據從數據集中提取出來,選擇安全網站存儲;對訪問進行加密、限制和選擇;涉及個人的名字用匿名或假名表示等。
“Privacy Paleis”與格羅寧根大學研究數據辦公室合作,分別于2015年11月、2016年6月舉辦了第一屆、第二屆數據隱私研討會,Michiel van der Ree分享了隱私保護的K-匿名對策,Gerd Weitkamp談到了虛擬空間的隱私,Melika Nariman&Esther Hoorn講述了seminar中的隱私保護,并針對隱私影響評估和數據保護影響評估及NOREA、SURF、ICO等隱私評估工具展開了討論。2015年12月17日,歐盟網絡與信息安全局針對在大數據背景下的個人隱私問題提出了大數據的隱私保護設計。加拿大安大略信息和隱私專員Ann Cavoukian在2009年指出,在隱私保護中存在的7項基本原則:積極主動預防隱私被侵犯、應默認設置隱私保護、隱私安全應嵌入設計、全過程關注隱私、端到端隱私安全實現全壽命保護、保證可見透明開放環境下的隱私保護、以用戶為中心尊重用戶隱私。目前,歐洲隱私權法與個人資料保護法在數據生命周期的整體過程中,努力保護科研項目中的數據采集、分析、保存、共享的隱私權。2018年5月25日起,《通用數據保護條例》(General Data Protection Regulation)被強制執行,對數據處理提出要求:①目的限制要求,個人數據只能用于特定的、合法的正當目的;②安全需求,必須采取組織和技術措施防止非法訪問;③透明度要求,數據必須公開、透明,他人有權查閱、共享、再利用。
數據管理計劃涉及到成本與收益。數據管理成本來源于每個研究階段和研究活動,如數據采集、錄入、發布、保存、管理等費用較高,而數據的訪問、使用、共享、培訓、版權等可產生經濟效益。英國數據中心(UKData Service)開發了數據成本估算工具(見表4)。根據項目復雜度,完成一個數據管理計劃大概需要2個小時到2天的時間。在準備申請項目時提前列出數據管理計劃,可以顯著降低數據管理的成本。在評議階段,大多數研究資助者要求主持人提供項目研究期間或研究完成后數據管理及其發布的成本預算分析,對可能的資助項目進行數據管理成本的評估。

表4 數據管理的成本估算(烏得勒支大學圖書館)
數據管理的相關政策主要有學術嚴謹誠信守則、研究數據的大學政策框架、信息安全策略、荷蘭科研誠信行為守則等。①學術嚴謹誠信守則包括:數據透明性原則、良好的研究實踐標準和標準評估協議。標準評估協議主要針對大學、科學研究組織、研究機構開展的科研誠信和內部科研文化的評估,維護科學的獨立性和嚴謹性。②研究數據的大學政策框架包括:保證存檔數據可安全訪問和再使用,保存環境適合長時保護;元數據應清楚無誤,保證研究數據被搜索到;除協議和基金資助要求外,數據知識產權不應轉讓給商業出版商或代理商;項目啟動前研究工作者應制定數據管理計劃,并依據此計劃管理數據;在申報書中必須列出數據保護和管理的成本預算。③信息安全策略是指基于法律和大學要求根據不同數據類型(公共數據、基礎數據、敏感數據、關鍵數據)進行分類管理,保證誠信、保密、最優獲取。④荷蘭科研誠信行為守則專門指出研究數據必須滿足5個原則:誠信、謹慎、透明、獨立、責任,并強調了研究單位的監管責任,即在開始研究之前,應考慮數據被收集、使用、處理和共享的相關工具和協議(見圖4)。

圖4 數據管理的工具和協議(來自烏得勒支大學圖書館)
隨著全社會對數據管理的關注度日益提高,專業化、高效化的數據管理機構應運而生。格羅寧根大學圖書館專門成立了研究數據辦公室,幫助研究人員采集、保存、管理數據,并為項目申報書中的數據管理計劃編制提供建議。鹿特丹大學數據服務中心為研究人員提供數據管理計劃模板,配備數據管理團隊,開設數據管理培訓課程。萊頓大學數字管理中心、代爾夫特理工大學、阿姆斯特丹大學、烏得勒支大學的圖書館等均成立了研究數據管理中心,負責其學校的數據管理。數據管理機構的功能有:建議和協助研究人員完成數據管理,在編制數據管理計劃中提供信息幫助和服務;厘清數據管理中的法律法規問題,如數據保護法、寫作模板的同意聲明及版權、數據庫法、數據共享許可證等;保護數據隱私和商業敏感數據,同時保證數據分類明確,安全性好,可訪問;制定并建立數據標準,對元數據進行規范化和統一化;提供數據支持技術,并進行數據的歸檔、整理、入庫布局、數據分析、維護與管理;協助研究人員使用各種工具,如數據數字化工具、數據創建工具和保存軟件等,并引入第三方服務和相關管理;制定成本預算,并對數據保存進行論證。
個人數據是指一些可鑒定、描述個人的一些研究數據,包括個人的直接數據和間接引用的特定數據,如姓名、職業、年齡、地址、電話號碼等,還包括“敏感”個人數據:宗教信仰、種族民族、政治偏好、健康狀況、性取向、體檢數據、基因數據、會員資格、犯罪記錄、經濟狀況等。個人數據會給個人的基本權利和自由帶來很大的風險,因此需要特殊的保護。
通用數據保護條例要求研究人員對個人數據處理的方法和目的提供清晰透徹的說明,并在研究之前、過程中和之后做好保護,如調整數據管理計劃、開展數據分類、個人數據匿名化或假名化,設置保密協議和知情同意書、共享分級等。當從收集參與者的個人數據時,按法律規定,需要這些參與者的知情同意,才能處理和傳播數據;當個人數據在兩個法律實體之間傳送或者第三方將利用這些數據時,應簽訂數據傳送協議和處理協議,防止數據被誤用或非法訪問。
當存在下列情形時,應獲得知情同意:任何個人信息有可能被識別時,應在共享或者公開前去除或修改身份信息;當獲得參與者的名字、地址和健康等個人信息時,研究后應銷毀、或去身份化、代碼覆蓋;應保密與身份信息對應的代碼,且只能被負責人或研究團隊關鍵成員安全獲取;當個人數據在發表、共享和再利用時,應完全保密;當同意保密協議,并得到研究團隊的批準時,其他研究人員可以訪問敏感數據和去身份數據;當不使用名字或可被識別的信息時,個人同意的數據可發表或供公開使用。書面知情同意文件應描述數據采集的目的、個人數據的未來使用、知情同意的范圍,并提出數據機密性的保護措施、去除個人身份信息、個人信息保留時間等,需包含一份信息表、一個簽字的簡短同意書。參與研究項目、對數據進行歸檔和共享簽署同意書,有利于數據具有長期價值和可重復研究。
在個人數據的共享中應采取的安全措施:個人隱私或敏感數據必須去識別化和訪問批準,完全匿名化或嚴格保密;承諾使用完滅除數據;注意同意書的截止時間;數據訪問以研究團隊為主。關于知情同意的指導文件有很多:UK Data Service發布的Consent for data sharing;澳大利亞國家數據中心(Australian National Data Service)發布的Data sharing considerations for Human Research Ethics Committees、Ethics,consent&data sharing;密歇根大學社會研究所(Institute for Social Research at the University of Michigan)發布的Recommended Informed Consent Language for Data Sharing等。
針對研究人員的數據工具分為:存儲、備份、共享、傳輸、加密等數據保存與管理的工具:交互計算、高效計算、數據互作等數據分析和模擬的工具;制定數據管理計劃的工具(如DMP online)。研究單位可提供的工具有:交互計算工具,如R studio/R、MATLAB、SPSS、SAS、STATA;以及高效計算設備,如GPU和較大的內存(64+GB)電腦,或者Utrecht BioInformatics Center(UBC)工作站、多設備集成的國家科學研究計算中心;數據互作的網絡服務器。相關的數據服務有:設計元數據表、草擬數據協議和政策、針對數據管理計劃和處理的網上培訓和專題研討等。以數據保存服務為例(見表5),應綜合考慮數據類型、大小、數據產生率、保存時間、數據質量、訪問機制、特別是數據共享與否、數據分類及其敏感性、保存的物理地址、基于可靠性和最低價格的數據備份等,這些需要在數據管理管理計劃詳細說明。
大學圖書館的數據館員作為研究人員智力支持的一部分,幫助研究人員創建數據管理計劃,為數據發表做準備,并對數據進行整理、格式化和版本化,上傳、保存、保護、發布數據,提高數據的訪問和管理效率,協助完成資助者的要求、實現數據再利用、保證科學誠信。數據館員工作為有償服務,可兼職,可全職。一個合格的數據館員必須具有如下優點:熟悉數據指導方針和規章制度、能和專業人士友好合作、頭腦靈活、有時間、在項目全過程或項目之間提供持續的服務、幫助研究人員拓展知識、服務價格更低廉合理。此外,研究數據管理支持(Research Data Management Support,RDMS)可 以幫助研究人員搜索已有的數據,找到可再利用的數據集、核對數據集的使用條例、對數據再用提出建議和使用技巧、幫助研究人員及小組創建元數據表和進行數據描述。
總之,對研究數據應在研究前、研究中和研究后實行全過程管理,從產生、采集、保存、發布、共享、再利用、保護等角度均要考慮數據的大小、成本、政策、隱私、工具、服務、支持等,以期使數據最大程度上可被搜索、可獲取、可操作和可重復利用。

表5 數據存儲的服務方式(烏得勒支大學圖書館)