隨著e-Science的發展,很多大學越來越意識到整理集成后的科研數據是非常有價值的資源。對科研數據進行管理不僅可以使科研人員利用現有數據加快研究進程,還可以讓資助的公共研究成果為公眾所用,提升全社會的創新和研究水平。高校作為科學研究的重要陣地,其科研活動產生的數據具有學科范圍廣、數據零星分散、類型多樣等特點,管理起來復雜[1]。依靠科研人員自主管理科研數據的傳統方式管理效率和水平較低,給科研數據的共享和再利用造成了很大困難。因此,如何對這些科研數據進行有效管理已成為亟需解決的問題。
國外高校已經在科研數據服務實踐方面進行了大量的嘗試,積累了豐富的經驗,如倫敦大學科研數據管理的實踐經驗給我們提供了有用的借鑒,值得深入研究。本文詳細介紹了倫敦衛生與熱帶醫學院的科研數據管理服務經驗,希望能夠啟發研究機構特別是醫學院校利用有限的資源提供有效的醫學科研數據管理服務。
倫敦衛生與熱帶醫學院[2]是倫敦大學享負盛名的3所學院之一,在研究生培養、前沿領域研究中為公眾健康和熱帶醫學的發展做出了重大貢獻。英國三分之一的研究生醫療教育和研究都是在倫敦衛生與熱帶醫學院進行的。與其他綜合性大學相比,倫敦衛生與熱帶醫學院的規模比較小,但在公共衛生、醫療服務、初級衛生保健等領域有顯著的影響力。學院現有員工1 300多名,這些研究人員每年都產生大量的數據,而這些數據亟待以安全的方式存儲和管理。
學校的管理層早就意識到數據在科研活動中的重要作用。2002年,英國聯合信息系統委員會(Joint Information Systems Committee,JISC)資助的一項研究項目引起了學校的重視。該項研究認為,倫敦衛生與熱帶醫學院應該建立一個中央數據服務機構幫助科研人員管理數據,確保這些數據被合理地保存,并在未來可以被訪問[3]。由于當時學校的檔案管理部門沒有足夠的資源或專業知識承擔任務,也沒有制定相應的保障政策,因此學院的科研數據管理進展緩慢。
在現實需求的驅動下,學校高層經過研究討論決定建立科研數據管理(Research Data Management,RDM)服務中心。2011年該服務中心提交了一份報告,提出了促進科研數據管理實施的一系列建議。這些建議包括建立相關的制度政策、建設一個RDM網站以及用于數據發現的門戶網站、增強機構檔案部門的服務功能等[4]。
2012年,倫敦衛生與熱帶醫學院的RDM項目正式開始運營。初期項目運營的經費是由威康信托基金會提供的,該基金會主要用來支持建立或重新開發具有重要戰略意義的基礎性建設[5]。2015年7月,威康(Wellcome)信托基金會提供的經費到期,轉而由倫敦衛生與熱帶醫學院為RDM服務中心提供經費支持。
為了更好地提供服務,RDM服務中心將RDM細分為3個目標來實現:一是加強科研數據管理政策的制定,二是加強基礎設施建設,三是加強機構內部研究人員的數據管理實踐。
這個目標主要是確保科研數據管理政策被納入機構的政策框架,并保證制定的政策既要符合英國研究理事會(Research Councils UK,RCUK)的數據管理準則,也要匹配其他機構正在開發的相似政策文件[6]。制定科研數據管理政策是順利開展科研數據管理服務的關鍵性因素,不僅可以促進科研人員積極參與科研數據管理,還可借此嵌入新的服務。2012年,RDM服務中心將數據管理政策的第一版提交給學校的管理層,并進行了為期12個月的公示,其中政策執行的靈活性成為最受爭議的問題。
經過多次協商探討, 2018年2月,RDM服務中心提交了倫敦衛生與熱帶醫學院科研數據管理政策的第二版。第二版的政策主要包括10個方面的內容,并且允許某些科研人員根據實際情況決定是否執行。科研數據管理政策2.0版本[6]主要包括以下內容:由學校主導的研究項目必須包含數據管理計劃,在基金資助者同意的情況下,數據管理所產生的費用應該列入項目經費預算。在整個項目研究中數據權利應該盡早得到承認和支持,科研數據必須存儲在規范化的環境中,無論科研人員獲取的數據是否存儲在學校或者其他地方都必須在學校登記在冊,必須盡早通過合適的方法使支持基礎發現的科研數據可以獲取,應有足夠的文件輔助理解和分享科研數據,通過標準和規范化的管理支持數據的重復利用,可獲得的科研數據必須包含機構學會代碼、基金信息、開放研究者與貢獻者身份(Open Researcher and Contributor ID,ORCID),研究過程中所使用的科研數據必須在研究報告中以引用的方式標注出來。
RDM服務的第二個目標是結合IT服務,審視和加強機構內的數據管理基礎設施。在前期數據收集階段,開發人員對科研人員在數據管理過程中可能遇到的問題進行了調查,結果顯示排名前5的問題是:數據歸檔操作的不確定性、制定數據共享協議過程中的問題、數據標準問題、數據安全問題以及數據存儲空間不足的問題。
根據調查結果,圍繞以下兩個方面展開工作。一是進行數據管理系統支持。RDM服務中心對學院工作人員進行了培訓和指導,以幫助他們找到適合自己數據的內部或外部系統;系統選擇側重主題領域、靈敏度、內容類型和集合的大小4個標準。二是建設機構知識庫。機構知識庫可以對數據集進行編目、分類、存儲,進而共享數據集;機構知識庫的建設可以保證資源有限的RDM服務中心能夠充分履行其收集并保存科研數據的職責,并填補目前學院在數據管理支持方面的空白。
為了保證機構知識庫的可持續發展,RDM服務中心規定:如果科研人員不能把科研數據合理地存儲在某個地方(如英國數據服務中心),則必須把它存儲在學院的機構知識庫。技術人員經過對幾種常見機構知識庫建庫軟件(如Alfresco,CKAN,DSpace,EPrints and Fedora)的評估,最終決定采用南安普頓大學的的Eprints平臺[7],并通過若干個第三方插件滿足特定的建庫需求。建成后的機構知識庫服務器托管在倫敦大學的計算機中心,以便學校能夠利用EPrints的優勢。機構知識庫承擔的責任主要包括支持對科研數據集的格式處理、內容描述、長期保存等,提供查詢、調用、顯示等基本服務,提供對數據進行轉換、交匯、可視化等軟件工具,支持數據發布等服務[8]。
該目標主要通過3個方面實現:一是確定機構內科研數據管理需求,二是確保科研人員從項目伊始就制定數據管理計劃,三是支持科研人員不斷變化的數據管理需求。
2.3.1 確定機構內科研數據管理需求
不同科研人員的科研數據管理需求各有不同,如進行田野調查研究的科研人員的需求就不同于在實驗室工作的研究人員。因此,在項目的初期階段,調查分析科研人員的需求至關重要。服務中心是通過以下方法確定機構內的科研數據管理需求的:一是通過網絡調查的方式了解科研人員的研究方式、數據類型和潛在的需求;二是通過調研,了解IT服務部門和學術部門有關研究業務的政策和程序;三是列出經常支持學院研究項目的資助者名單,確定這些機構和項目對科研數據管理的具體要求;四是對國家或國際相關法律法規(如數據保護法[3])進行研究,確保科研數據管理符合法律規定,并激發科研人員的數據共享意愿。
2.3.2 確保科研人員從項目伊始就制定數據管理計劃[9]
數據管理計劃(Data Management Plan,DMP)是一份集中概括所有科研數據管理活動有關事項的文檔,可以提高數據管理的透明度,并保證整個研究團隊遵循統一的數據管理流程和規范,促進工作的一致性、規范化和高效率。但是在很多時候,科研人員在開始的時間并沒有考慮到要進行科研數據管理,直到在研究過程中需要的時候才想起來。因此,RDM服務中心將數據管理計劃列入數據管理政策,即必須創建所有研究項目數據管理計劃,并提交給RDM服務中心審查。目前,制定數據管理計劃日益成為學術界的標準做法,被越來越多研究型大學采用。
在指導制定數據管理計劃的過程中,有3個需要注意的地方。一是優先重點項目:服務中心應確定機構內的重點研究項目,并確保這些項目制定合適的數據管理計劃;二是避免不必要的重復:有些項目已經有出資者文件管理計劃或者研究協議文件的,則不應再要求其完成本機構的數據管理計劃;三是只提供指導:雖隨時對科研人員在制定數據管理計劃過程中遇到的問題進行指導或提供建議,但最終的決定權還是在科研人員手上。
2.3.3 支持不斷變化的數據管理需求
許多學校RDM的核心活動之一是為科研人員的需求提供量身定制的服務,但剛開始運行的RDM,既沒有精確估算需求的數據,也沒有可對比的關于處理支持請求的資料。因此在服務規劃的初期階段,RDM服務中心要判斷不同情況下的潛在需求,通過提交給RDM的請求支持詳細記錄信息來發現經常和不經常使用RDM服務的系(部),以及需要建議指導的地方。這些記錄顯示,排名前5的經常被用戶提及的問題包括數據共享、資助者數據管理計劃、倫敦衛生與熱帶醫學院數據管理計劃、數據許可、數據存儲和安全系統[10]。對于這些常見問題,RDM制作了相應的問題指南以減少處理這些問題所需的時間,如制作了公共科學圖書館(The Public Library of Science,PLoS)數據政策概要指南[11]和威康信托基金會的數據管理計劃[12]。在研究過程中遇到有關PLoS的問題時,科研人員可以根據現有的問題指南進行處理,從而減少等待時間。另外項目組還面向重點用戶開展深入訪談,和科研人員共同討論科研數據共享面臨的挑戰,詳細了解用戶具體需求,爭取合作機會。除此之外,RDM服務中心通過各種方式隨時了解用戶意見和建議,進而不斷完善服務功能。
數據密集型科研范式時代,對機構科研數據進行管理已成為共識。根據本文的分析結果,醫學院校在進行科研數據管理活動時,要注意以下幾方面的問題。
對科研人員的數據管理需求進行調研可以為開展科研數據管理打下堅實的基礎,倫敦衛生與熱帶醫學院取得的成功與其科研數據管理需求調查密不可分。通過調查可以深入了解研究者所處的環境和遇到的挑戰。調研內容主要圍繞科研數據現狀、數據的開發程度、研究者數據共享意愿、遇到的困難、希望得到的服務和培訓等方面展開。
從英國高校的實踐來看,參照數據資產框架(Data Asset Framework,DAF)進行需求調研是大多數高校的做法。DAF是由英國JISC資助的一項關于數據資產審計的研究,主要目標是構建一種通用的高校數據資產審計框架。高校在進行科研數據管理時,可以參照這個框架進行數據資產的調研[13]。經統計,越來越多的高校都以DAF框架進行機構數據需求的調研,并以此開展科研數據管理實踐,如牛津大學、愛丁堡大學、謝菲爾德大學、倫敦大學的衛生與熱帶醫學院等。我國高校在開展調研時,可以認真學習并參考DAF,結合自身的特點,制定適合自己的科研數據管理需求的調研方案。
制定科研數據管理政策是大學等學術機構開展科研數據管理的重要制度保障。國外高校在國家法律政策和科研資助機構的合力推動下,紛紛出臺了科研數據管理的相關政策,從戰略角度明確了科研數據管理的相關政策。2018年1月23日,中央全面深化改革領導小組第二次會議審議通過了《科學數據管理辦法》,《科學數據管理辦法》的實施說明我國政府開始從國家層面重視科學數據管理。但其范圍僅停留在行業層面,缺乏具體的關于醫學科學數據管理的相關規定,同時國內重要的醫學科研資助機構均未明確要求科研人員進行數據管理和數據提交,缺乏強制性,難以引起科研人員對醫學科研數據管理的重視[14]。從微觀層面上來說,國內高校的管理層缺乏科研數據管理服務的意識,對科研數據的價值認知不足,將科研數據管理納入高校科研發展戰略議程并制定相關政策的醫學院校屈指可數。
因此,盡快建立我國國家層面的醫學科研數據管理政策是深入開展醫學學科領域數據交流的迫切需要,需要由衛生部主導,醫學院校、醫學研究機構以及各類科研資助機構等輔助建立一個統一的醫學科研數據管理政策,從宏觀角度設定科研數據管理服務的內容、標準、目標,為未來鋪平道路[15]。醫學院校也要提升對科研數據管理重要性的認識,借鑒國內外成功的實踐案例,將科研數據管理服務納入學校的發展議程。
完整的數據管理計劃(Data Management Plan,DMP)是科研人員獲取科研資助機構支持的關鍵因素,也是有效管理科研項目所產生的數據和應對可能產生的各類問題的重要保障。目前,科研數據管理計劃已經成為國外很多科研資助機構評審項目的一個重要條件,如英國醫學研究理事會(Medical Research Council,MRC)要求所有申請者提交的項目申請書都要包含一份科研數據管理計劃[16]。因此,科研數據管理服務中心要積極為醫學科研人員提供相應的數據管理計劃指導,不僅要就不同的基金和課題要求,為用戶提供醫學數據管理規劃模板或指南,還要提供關于醫學科研數據的類型、數據格式、數據標準、數據歸檔等咨詢服務。除此之外,通過介紹常用的DMP工具可以幫助科研人員更輕松高效地創建數據管理計劃,目前常用的數據管理計劃創建工具有英國數字監管中心(Digital Curation Centre,DDC)開發的DMPonline以及美國加利福利亞數字圖書館開發的DMPTool。以DMPonline內置了英國基金會和部分大學的DMP內容需求模板文檔,用戶可按照其提供的模板及流程在線創建、編輯、分享、輸出或者刪除DMP文檔[17]。
由于人力資源有限,倫敦衛生與熱帶醫學院RDM服務中心只有兩名全職人員,其中一名是項目經理,另一名是軟件開發工程師。另外還有一個由學校副校長主持的指導小組,該小組成員由各系(部)選出的學術專業人員組成,主要任務是提供建議以及發展方向。由于項目經理單獨一人不能支持這么多醫學院員工和學生的數據服務工作,因此項目組采取了一個三級分流的辦法,確定優先順序。首先優先支持有基金資助的科研人員;其次,對于沒有基金支持的研究人員以及學生,如果他們希望獲得數據管理方面的幫助,可以通過RDM系統的培訓和請求模塊得到支持和建議;第三,詳細記錄每個提交到RDM的服務請求,并在此基礎上規劃RDM服務系統的開發工作,如通過提供書面指導和舉辦研討會的方式減少同樣的問題的重復率以及盡量減少處理同樣請求所需的時間。
除上述基礎的數據管理服務內容外,科研數據管理服務能否成功開展還需要提升科研人員本身的數據素養。倫敦衛生與熱帶醫學院的RDM服務中心注重圍繞服務內容,有針對性地開展研究人員科研數據管理技能培訓、信息咨詢等服務。培訓的形式從網絡教程、在線指導到各類面對面的研討會、會議,培訓的內容從科研數據管理的入門指導到深層次的問題輔導,一般根據研究人員、學生所處的水平和需求制定[19]。
目前,我國科研人員收集傳統文獻資源的信息素養已經達到一定水平,但由于科研數據管理是一個新興領域,科研人員對其的認識參差不齊。缺乏相關政策法規的鼓勵以及對自己創建的科研數據的保護,影響了科研人員數據素養的提升,因此需對他們進行相關培訓。具體數據素養教育服務的內容可包括國內外醫學科研數據管理政策介紹、國內外數據資源介紹、數據分析工具的使用、數據安全教育等。
倫敦大學以及英國高校科研數據管理實踐的豐富經驗對我國開展相關的研究與實踐具有較高的借鑒意義,我國醫學院校及研究機構可以借鑒英國的實踐經驗促進醫學科研數據的管理,進而推動我國醫學事業的蓬勃發展。