王丹丹 董金金 楊嘉敏
(河南科技大學管理學院,洛陽 471023)
共享和重用有質量保證的科研數據是良好的科學實踐倡導的行為[1]。科研數據管理(Research Data Management,RDM)是指在科研活動進行過程中和科研活動完成之后處理科研數據(收集、組織、存儲和記錄數據)的活動[2]。數據管理計劃(Data Management Plan,DMP)實際上是一份書面文檔,描述項目期望在研究過程中獲取的現有數據或生成的新數據,描述如何管理、分析和存儲這些數據以及在項目結束時將如何共享和保存這些數據[3]。數據管理計劃有助于科研人員就如何、何時以及在何處共享哪些數據做好規劃。許多科研資助機構和科研機構都制定了數據管理政策,提出了關于數據管理計劃的要求。然而,不同的機構數據管理政策存在較大差異,導致科研人員在遵從政策和滿足要求時感到困惑,無所適從。科學歐洲(SCIENCE EUROPE)是于2011年在柏林宣布成立的一個科學聯盟,它代表歐洲主要科研資助機構和科研機構的利益[4]。科學歐洲和荷蘭科學研究組織(Netherlands Organisation for Scientific Research)于2018年發起了一項倡議,通過明確數據管理計劃的核心要素和選擇知識庫的最低標準來支持歐洲科研資助機構、科研機構校正科研數據管理政策,減少政策的不一致性,為其他機構制定科研數據管理政策提供統一的基礎[5]。2019年《科研數據管理國際聯盟實用指南》(Practical Guide to the International Alignment of Research Data Management)正式發布,之后歐洲一些國家和機構采用了其建議[6-8]。2021年科學歐洲又發布了《科研數據管理國際聯盟實用指南(擴展版)》[9],將第1版中的第三部分“指南”進一步細分為“科研人員使用指南”和“評審專家使用指南”兩部分(見表1)。本文結合應用情況,對兩個版本的《科研數據管理國際聯盟實用指南》進行深入分析,以為我國相關機構制定政策、出臺辦法提供啟發和參考。

表1 《科研數據管理國際聯盟實用指南》兩個版本的內容對比
要求科研人員撰寫數據管理計劃的目的是鼓勵科研人員考慮數據的最佳處理、組織、記錄和存儲的方式方法。但是,由于不同機構數據管理計劃的要求不一致,以及科研人員對數據管理計劃的認識不到位等原因,很多科研人員認為數據管理計劃是強加給他們的負擔,而不是他們在規劃和實施科研項目時的一種有用手段。
為解決數據管理計劃要求的不一致性,2013年英國數字監管中心(Digital Curation Centre,DCC)提出“數據管理計劃主題”(DMP Themes)的概念,用于統一數據管理計劃中最常出現的主要問題。數據管理計劃主題已從最初的29個[10]精簡為目前的14個,分別是數據描述、數據格式、數據量、數據收集、元數據&文檔、道德&隱私、知識產權、存儲&安全、數據共享、數據知識庫、長期保存、角色&責任、預算、相關政策[11]。同樣為了解決這一問題,《科研數據管理國際聯盟實用指南》則將數據管理計劃必須包含的關鍵核心內容總結為6個方面,并將其命名為“數據管理計劃的核心要求”,具體包括:①數據描述和收集,或重復使用現有數據;②文檔和數據質量;③研究過程中的存儲和備份;④法律和道德要求,行為準則;⑤數據共享和長期保存;⑥數據管理職責和資源。這6個方面并無先后之分,無重要次要之說,可以根據特定需求和機構側重點更改其出現的順序。所謂核心要求實際上是對數據管理計劃提出的最低要求或最基本要求,要求在科研人員撰寫的數據管理計劃中均應充分體現。因為支持科研人員撰寫數據管理計劃的模板多以問題方式呈現,科研人員通過回答問題自動生成數據管理計劃文檔,所以《科研數據管理國際聯盟實用指南》將數據管理計劃的核心要求與具體問題一一對應(見表2)。
提供對科研數據的獲取是實現可靠的、可重復科學研究的支柱之一。越來越多的科研資助機構、科研機構和學術期刊要求科研人員將數據存儲在知識庫中。可信是數據共享的關鍵問題。科研人員需要能夠識別可信賴的知識庫,以便在其中存儲數據以實現共享。當前還沒有此類知識庫的公認列表,綜合性的全球科研數據知識庫注冊目錄系統(re3data.org)中已羅列出的知識庫有3 590多個。但是,這些知識庫的成熟度和可信度很難評價[12]。
評估認證是證明可信的有效途徑。一些權威的認證機構,如由國際科學理事會世界數據系統(World Data System of the International Science Council,WDS)和批準數據印章(Data Seal of Approval,DSA)共同成立的認證組織CoreTrustSeal,可以提供認證[13-15]。中國天文數據中心、中國國家空間科學數據中心等一些知識庫通過了該認證,但是大多知識庫尚未開展此類認證。因此,對于科研人員及其隸屬的科研機構和科研資助機構而言,確定合適的、可信賴的知識庫依然困難重重。萊頓大學為此專門開發了“數據管理服務目錄”,以目錄形式提供各種數據知識庫信息,幫助科研人員選擇合適的知識庫,這也成為其科研數據管理服務的一大特色[16]。
某些學科的科研人員會使用特定學科的數據知識庫,這些知識庫的政策和標準主要是滿足特定要求的。其他數據知識庫則服務于更廣泛的研究群體,但它們的政策和標準也必須更加通用。為了便于科研人員識別可信賴的數據知識庫,《科研數據管理國際聯盟實用指南》強烈建議尚未進行認證的數據知識庫積極考慮尋求權威機構的認證,并建議科研人員優先選擇得到廣泛認可的特定學科知識庫或經過認證的知識庫。對于沒有經過認證的知識庫,《科研數據管理國際聯盟實用指南》列出了數據知識庫的選擇標準(見表3)。需要說明的是,這些標準是數據知識庫都應滿足的最低標準,且標準之間不存在先后之分,無重要次要之說。

表3 數據知識庫的選擇標準
1.3.1 科研人員使用指南
(1)撰寫數據管理計劃文檔。科研人員在撰寫數據管理計劃時,要回答15個具體問題,還應該提供項目申請人姓名、項目名稱、項目編號和數據管理計劃版本這些基本信息。
關于收集或產生新數據和/或將如何重復使用現有數據,要求科研人員說明使用哪種方法或軟件收集或產生了新數據,陳述重用現有數據的限制(如果有),解釋記錄數據來源的方式,說明是否考慮過重用現有數據源但最終放棄的原因;提供有關數據類型的詳細信息,如數字(數據庫,電子表格)、文本(文檔)、圖像、音頻、視頻和/或混合媒體等,以及提供有關數據格式(用于存儲的數據編碼的方式)的詳細信息,通常通過文件擴展名(如pdf,xls,doc,txt或rdf)反映出來,建議科研人員合理使用數據格式,如基于所屬機構內的員工專業知識,優選開放格式和數據知識庫接受的標準格式,同時建議研究廣泛使用的或即將使用的軟件或設備生成的數據格式;提供有關數據存儲空間大小的信息。
關于文檔和數據質量,要求科研人員說明提供哪些元數據來幫助其他人識別和發現數據,以及使用哪些元數據標準(如DDI、TEI、EML、MARC、CMDI)或研究社區特有的元數據標準,指明在項目期間如何組織數據,如命名約定、版本控制和文件夾結構;會提供哪些數據文檔(提供有關用于收集數據的方法,分析和程序信息,變量的定義,度量單位等信息)支持數據的重用;如何捕獲這些信息以及將其記錄在何處(如項目鏈接、“自述”文本文件、文件頭、代碼書或實驗筆記本的數據庫中);將使用哪些數據質量控制措施(包括校準、重復采樣或測量、標準化數據捕獲、數據輸入驗證、數據的同行評審等)控制和記錄數據收集的一致性和質量。
關于研究過程中的存儲和備份,要求科研人員描述科研活動期間將在哪里存儲和備份數據,以及執行備份的頻率;說明發生事故時如何恢復數據;說明在研究過程中誰有權獲取數據,以及如何控制合作伙伴對數據的獲取;介紹如果存在敏感數據(包含個人數據、政治敏感信息或商業秘密)如何實施保護。
關于法律和道德要求以及行為準則,要求科研人員確保在處理個人數據時,獲得有關保存和/或共享個人數據的知情同意,對個人數據進行匿名化或假名替換處理,或者進行加密,說明是否有針對授權個人數據的獲取程序;要求科研人員解釋獲取數據的條件,明確數據的使用許可;鼓勵科研人員考慮道德問題是否會影響數據的存儲和傳輸方式,要求遵守國家和國際行為守則和機構道德準則,并檢查在研究項目中收集數據是否需要進行道德審查(如由道德委員會審核)。
關于數據共享,要求科研人員說明如何發現和共享數據(通過將數據存放在可信賴的數據知識庫中,在目錄中建立索引,使用安全數據服務,直接處理數據請求或使用其他機制等);關于長期保存,要求科研人員概要介紹數據保存計劃,提供有關數據保存時間的信息,說明提供數據的時間以及數據出版時間,指出哪些人能夠使用數據,并解釋原因,說明將采取什么措施來克服對數據的限制或將對數據的限制降到最小,還要指出出于合同、法律或法規目的必須保留或銷毀哪些數據,說明保留或銷毀的依據,描述要長期保存的數據,并說明其可預見的研究用途(和/或用戶)。說明數據存放在何處,如果沒有建議的數據知識庫,需要在數據管理計劃中證明可以有效地管理數據。要指出潛在用戶需要哪些特定工具和程序來訪問和(重新)使用數據,在數據管理計劃中說明如何在其他情況下重復使用數據,表明是否將使用數據的唯一性標識符。
關于數據管理職責,要求科研人員概述數據管理/管理活動的角色和職責,如捕獲數據、生成元數據生產、把控數據質量、存儲和備份數據、數據歸檔和數據共享,要求盡可能落實到人。對于協作項目,需要說明合作伙伴之間數據管理職責如何進行協調,指出誰負責實施數據管理計劃,確保對其進行審查,并在必要時進行修訂,定期更新數據管理計劃。關于資源,要求科研人員說明共享/保存數據所需資源,如存儲成本、硬件、員工時間、準備數據以存儲數據的成本和數據知識庫費用等,指出是否需要其他資源。如果是,說明需要多少以及如何支付這些費用。
(2)選擇數據知識庫。選擇可信賴數據知識庫的第一個標準是提供永久且唯一的標識符(PID)。并非所有知識庫都使用公認的通用PID系統,有些是使用知識庫本身維護的本地標識符或管理號。如果將數據移到另一位置,或者知識庫不復存在,重新組織或更改其監管方式,則存在找不到數據的風險。數據知識庫提供的PID能夠發現和識別數據,可以搜索、引用和檢索數據,同時支持數據的版本控制。為此,知識庫須確保為其所保存的數據分配PID(如DOI、URN、ARK),并將PID包含在相應的元數據中,即使存儲數據的位置發生了變化,也可以找到、引用和檢索相應的數據和元數據。確保明確指定存儲在知識庫中的數據版本,并持續進行審核跟蹤。
選擇可信賴數據知識庫的第二個標準是元數據。數據需要使用豐富的元數據進行描述,元數據應記錄數據的生成方式、許可證的使用方式以及如何重復使用,并提供適當的背景信息。數據知識庫的元數據支持數據發現和對相關信息(如其他數據和出版物)的引用,提供公開可用和維護的信息,甚至包括未發布、受保護、撤回或刪除的數據。元數據采用的是被科學界廣泛接受的元數據標準,且機器可檢索。這就要求知識庫:基于公認的、易于訪問的語言提供數據和元數據,能確保其他人可互操作和重用數據;使用標準詞匯表和格式描述數據和元數據,使計算機系統可以搜索,自動組合它們以及將元數據與科研數據文件區分開;確保通過提供PID和對科學關系的描述,在元數據信息中聲明與其他相關或關聯信息的鏈接;科研人員存在永久的研究ID(如ORCID、ISNI、DAI);確保長期保存元數據,確保通過元數據仍然可以找到由于不良的研究實踐或不當行為而撤回的數據,并將其保存起來,以便檢查研究記錄;確保由知識庫維護的元數據是機器可檢索的,并使用被(科學界)廣泛接受的標準;確保遵循社區標準或數據處理最佳做法(如果存在);鼓勵以允許機器檢索元數據的方式來構造元數據中包含的信息。
選擇可信賴數據知識庫的第三個標準是數據獲取和使用許可。具體而言,就是需要知識庫支持特定條件下的數據獲取,確保數據的真實性和完整性,支持數據檢索,提供有關授權和許可的信息(最好是機器可讀的形式),并具有保密功能。這就要求知識庫:清晰闡釋可以重用數據的條款,并將許可信息包含在元數據中;確保元數據包含有關數據來源的詳細信息,包括其生成方式、處理方法、復用條件及可靠性;允許使用開放的標準化協議(非專有通信協議)檢索數據或至少檢索元數據;允許以結構化的方式引用許可證信息,在可能的情況下,應使用可以通過URL引用的通用或被廣泛接受的許可系統(如Creative Commons);提供一種對人和機器用戶進行身份驗證和授權的方法,允許設置用戶(組)特定的訪問權限,以解決數據存在的機密性和其他限制問題。
選擇可信賴數據知識庫的第四個標準是保存。知識庫須確保元數據和數據的持久性,確保使命、范圍、保存政策和規劃的透明性。具體而言,就是確保用戶委托的數據和元數據的長期保存,持續可用以及可獲取。這就要求知識庫:以書面文件形式說明數據和元數據的管理保存策略,詳細說明知識庫的任務和范圍、監管、資金可持續性、外包合作伙伴和保存的時間范圍;制定可公開獲取的應急計劃,確保在知識庫的整個生命周期之外保留數據和元數據。
1.3.2 評審專家使用指南
這部分為評審專家提供了一個研究工具——數據管理計劃評價量表(DMP Rubric),使其可以對本機構的數據管理計劃進行大規模、標準化的分析。這一評價量表是針對數據管理計劃的6個核心要求所涉及的15個具體問題設置的,以實現數據管理計劃評價與數據管理計劃撰寫和支持服務的統一。不同于其他的一些評價量表(如DRAT Rubric設置的是三級評分體系[17]),數據管理計劃評價量表設置了“充分處理”和“處理不足”兩個評價等級(見表4)。需要說明的是,該部分只是為評審專家提供了一個參考大綱,而不是可以直接使用的現成工具。因此,希望為評估數據管理計劃制定檢查清單的組織可以基于此框架進行相應調整。同時也請評審專家記住數據管理計劃是一份實時文檔,其詳細程度可能會有所不同,具體取決于所評估的版本。

表4 數據管理計劃評價量表展示(部分)
通過對《科研數據管理國際聯盟實用指南》的解讀以及歐洲國家應用該指南的情況分析,可以得到的重要啟示是,要推進科研數據管理需按緊迫程度從以下3個方面著手。
科研資助機構和科研機構組織制定科研數據管理政策并提出數據管理計劃要求,是其適應不斷發展的開放科學運動,促進數據共享,允許重復使用、驗證或復制研究結果而邁出的重要一步。在制定科研數據管理政策并推動落實的過程中要關注以下問題。首先,在制定科研數據管理政策時,科研資助機構和科研機構要重視在本組織內部和外部進行協作,因為所有利益相關者的參與都會增加對新政策的接受度。不同參與者之間的協作和收集反饋對于成功制定被廣泛接受和支持的科研數據政策至關重要。盡管《科研數據管理國際聯盟實用指南》提供了制定數據政策的統一基礎,但采納指南的機構和國家在具體化政策過程中,均無一例外地采用與其他利益相關者協作的方式。一些機構僅專注于在內部制定科研數據政策,一些機構則在國家層面上與其他組織開展合作,這種合作模式將國家層面最相關的參與者匯聚在一起,包括與數據存儲和可訪問性相關的科研資助機構、科研機構、基礎架構和服務提供商等[18]。其次,在就新要求進行溝通時,科研資助機構和科研機構應直接與所有相關方(包括科研人員、法律部門、財務部門、宣傳部門等)進行接觸,并向其解釋其基本概念和益處。需要確保所有核心要求被滿足,并在需要更多信息時提供特定學科的靈活性,如添加與任何特定學科相關的更多問題。最后,在實施科研數據管理政策時,科研資助機構和科研機構需要充分認識到實施新政策期間和實施之后,科研人員、其所屬機構和資助組織所面臨的挑戰,協同工作,考慮為科研人員科研數據管理提供有效支持的方案,如設置數據管理計劃模板和提供數據管理計劃培訓等。
《科研數據管理國際聯盟實用指南》是為科研資助機構、科研機構,以及科研人員個人組織科研數據并適當保存提供的針對性指導。這些機構與個人均可以數據管理計劃的核心要求為基礎來設置自己的數據管理計劃模板。在后續階段,可以將《科研數據管理國際聯盟實用指南》提供的數據管理計劃評價量表作為評估數據管理計劃質量的參考工具。科研機構和科研人員在撰寫數據管理計劃時可以參考以獲取支持。對于研究領域的其他參與者,《科研數據管理國際聯盟實用指南》可作為有關數據管理計劃結構和使用方式的參考文檔。選擇可信賴知識庫的標準將有助于科研資助機構、科研機構和科研人員確定用于存儲和共享數據的知識庫。數據管理計劃的核心要求和選擇可信賴知識庫的標準可以視為獨立文件,可以獨立使用。但是,在制定或修改機構或特定學科的政策時則需要同時考慮這兩者,以便在機構之間實現最佳的一致性。指南之所以能發揮上述作用,與科學歐洲充分發揮其科學聯盟的合作優勢是分不開的。科學歐洲組織其成員單位的專家一起發布了數本有關數據管理的出版物,為在跨學科和跨組織的政策調整方面提供了實用指南[19]。指南發布以后,之所以迅速在歐洲被廣泛采納和使用,離不開科學歐洲的宣傳推廣。作為科學聯盟的科學歐洲提供了一個合作交流的平臺,在宣傳推廣方面具有得天獨厚的優勢,它形成了一個天然的實踐社區,提供已成功實施數據管理政策的組織的最佳實踐示例,幫助和指導仍在探索制定政策的組織和機構。指南采納現狀和實施效果全景圖的繪制也是得益于成員單位的配合和支持,實施效果全景圖為指南版本的更新提供了有價值的參考。
FAIR原則、科研數據管理以及數據管理計劃均是創建可重用數據和優化數據共享必不可少的要素。FAIR原則從微觀上定義了確保數據可發現、可訪問、可互操作、可重用的指導原則,其核心目標是實現數據的機器可操作性[20-21]。科學歐洲積極倡導科研數據遵循FAIR原則。它與其成員組織和其他利益相關者合作,協調政策和程序,并提供明確的指導方針,支持科研人員進行數據管理。科學歐洲的目標是在整個歐洲統一科研數據管理政策和數據管理計劃要求,從而使來自不同組織或學科的科研人員以及更換資助機構或所屬單位的科研人員之間更容易開展合作,也使科研資助機構和科研機構更容易評價數據管理計劃并實施自己的政策。歐洲開放科學云(EOSC)在促進數據的共享和重用方面,發揮著至關重要的作用。2018年6月,歐盟委員會的FAIR數據專家組在第二次歐洲開放科學云峰會上發布了《把FAIR變成現實》的報告,較為全面地闡述了FAIR原則的推進計劃以及34條詳細的實施建議[22]。科學歐洲積極參與了歐洲開放科學云的開發和推廣,支持在科研數據的所有活動中采用EOSC。與此同時,還積極促進FAIR原則的應用,開展并協調各項活動,以增強科學歐洲的集體影響力和知名度。《科研數據管理國際聯盟實用指南》的最終目的也是幫助科研人員在適當情況下確保數據遵循FAIR原則,甚至在數據存儲、項目期間的備份以及長期保存等其他方面已經超越了FAIR原則。
實施科研數據管理已經成為一種全球性趨勢。在實踐推進過程中,越來越多的利益相關者認識到,推動科研數據管理政策趨向標準化和統一化的重要性和必要性,并且積極參與到科研數據管理政策標準化和統一化理論研究與工作實踐。從英國數據監管中心提出DCC Themes,期刊出版商Springer Nature推出科研數據政策標準框架,到科學歐洲發布《科研數據管理國際聯盟實用指南》都有力證明了這一趨勢。與國際社會相比,我國科研數據管理起步較晚,但是發展迅速。我國的科學聯盟、科研資助機構、科研機構有必要學習國外在科研數據管理政策標準化和統一化實踐方面的有益經驗,出臺相關政策和辦法,有效推動我國科學數據管理工作的有效開展。《科研數據管理國際聯盟實用指南》提出的數據管理計劃核心要求和知識庫選擇標準,對我國相關機構和科研人員也同樣具有重要參考價值。我國的科研資助機構應該了解政策標準化發展的國際進展,在遵從標準化的前提下,制定適合我國國情的具體政策,其中對數據管理計劃的要求建議遵從國際標準,但是在數據管理計劃模板設計和案例參考方面可以設計自己的方案。其知識庫選擇的標準可以作為我國國家層面知識庫的設計依據。作為科學聯盟,科學歐洲成功推進《科研數據管理國際聯盟實用指南》采納的工作機制也值得我們學習。未來,應該把FAIR原則、科研數據管理和開放科學的關系理順,使科研數據共享的價值最大程度得以發揮。