王丹
(河南中醫藥大學,河南 鄭州 450046)
在知識經濟時代,大數據在推動國家發展、促進國家治理體系和治理能力現代化等方面發揮著越來越重要的作用,帶動科研迅速發展,產生大量科研數據。科研數據作為國家戰略資源,其價值和重要性也引起了世界各國政府和研究者的重視。科研數據管理服務是科研數據給予管理支持,提供數據計劃、備份、存儲、發布、引用等服務。
2004年,中國加入國際經合組織(OECD)成員國共同簽署的《公共資助的科研數據開放存取宣言》[1],為我國數據管理政策形成奠定了基礎。2018年印發的《科學數據管理辦法》[2]指出,高等院校作為科學數據管理的責任單位,承擔著生產、加工和長期保存科學數據的職責,要積極開展科學數據共享服務。復旦大學、北京大學、清華大學等9所圖書館于2014年10月成立中國高校研究數據管理推進工作組[3],為加強對研究數據的管理、宣傳,協同推動科研數據共享與利用,截至2021年已連續召開七屆專題會議。近年來,國內學者也對科研數據管理進行了較多研究,主要集中在3個方面:一是對科研數據管理模式的研究,研究最多的是基于數據生命周期的圖書館科研數據管理模型。李崢[4]、孫仙閣[5]等研究者分別從不同角度介紹了模型的架構、運行機制及內容。二是對科研數據管理服務內容的研究,秦順[6]、周力虹[7]等對國內知名高校圖書館科研數據管理服務進行調研,分析其成功經驗及不足之處,為后期科研數據管理服務革新、發展提供了新的思路。三是對國外高校圖書館科研數據管理服務實踐的介紹,美國康奈爾大學[8]、英國“常青藤聯盟”[9]及加拿大高校[10-11]在科研數據管理的人才隊伍、政策、服務等方面經驗豐富。
加拿大作為開展科研數據管理較早的國家之一,政府和高校都非常重視科研數據的管理。2014年,加拿大政府建立了加拿大開放數據交換中心,頒布了《加拿大開放政府行動計劃2.0》,承諾將最大限度地開放聯邦資助的科學研究產生的數據[12];加拿大衛生研究所、自然科學與工程技術研究理事會、社會科學與人文科學研究理事會3大著名科研機構于2016年聯合發布的《三方機構數據管理原則聲明》,闡述了各機構管理研究數字數據的總目標;2018年,又出臺了《三方研究數據管理政策咨詢草案》,更好地促進完善數據管理和實踐。加拿大高校為推動科研數據發展,20世紀初,7所頂級高校成立G7,如今已發展為U15研究型聯盟大學。該聯盟科研成果豐富,占有80%左右加拿大聯邦政府所撥出的科研資金,主要為實現高校間數據資源共享[13],改善科研環境,在建設基礎數據共享平臺,助推數據交換和共享等方面發揮了重大作用。
加拿大《麥考林雜志》每年依據科研經費、研究項目的豐富度、深度和廣度對加拿大高校綜合實力進行排名,本文從其2020年醫博類排名①麥考林排名特色是將入選高校分為醫博類、綜合類和基礎類三類分別排名。一般醫博類的高校科研實力、整體排名和知名度也會比較高。中選取排名前6且為加拿大U15研究型大學聯盟成員的高校作為調研對象[14],分析其科研數據管理服務實踐,總結科研數據管理特色,為我國高校圖書館科研數據管理服務提供參考和借鑒。
加拿大高校圖書館在科研數據管理服務方面項目眾多,在科研數據規劃、備份、存儲、發布、引用等方面實踐經驗豐富,而科研數據管理服務得以順利開展基礎是科研數據資源。6所高校圖書館都為讀者學習提供了豐富的數值型數據和空間數據(具體見表1)。

表1 加拿大高校圖書館科研數據資源

續表
表1展示了加拿大6所高校圖書館提供的科研數據,從表1可見加拿大高校圖書館科研數據資源類型豐富,涉及微數據、聚合數據、統計數據、地理空間數據、地圖數據、航空照片等。為保障研究人員更好地使用科研數據,不同高校圖書館提供對應類型科研數據實例,如加拿大人口普查數據、衛星圖像、不同地區的航空照片等。通過對不同類型科研數據進行分類保存,有助于精準地開展科研數據管理服務,更好地促進科研數據的獲取與利用,有效地推動科研數據存儲和引用。
科研數據管理政策是加拿大高校圖書館科研數據管理服務的基礎,主要對科研數據管理中數據的共享提供保護性策略。高校圖書館在科研數據管理政策方面遵循聯邦政府的《研究數據管理政策》和加拿大三大科研資助機構的《三方機構數據管理原則的聲明》規定,通過數據重用促進創新和跨學科研究。高校圖書館科研數據管理政策主要涉及知識產權、數據保密。
在知識產權方面,多倫多大學、麥克馬斯特大學[15]在知識產權政策中聲明科研數據是一項重要的、有潛在價值的學術研究成果,大多數情況下科研數據的知識產權由研究者和大學共同擁有。多倫多大學圖書館[16]規定,研究人員要明確科研數據管理使用科研數據所有權歸屬問題,所用科研數據要獲得許可,使用合作研究項目中科研數據要獲得團隊成員的許可。為鼓勵科研數據共享,麥吉爾大學圖書館[17]規定,科研數據管理使用知識共享許可模板發布的數據允許復制、修改和發布,即使用于商業目的也不侵權。
在數據保密方面,6所高校圖書館為防止保密數據丟失、損害等都制定科研數據保密準則,規定涉及個人信息、商業機密等敏感數據傳輸時首先去除標識、進行加密處理并經過嚴格審查,還需使用專用系統傳輸。阿爾伯塔大學圖書館成立加拿大統計局研究數據中心,一方面獲取重要的數據,另一方面滿足信息保密和安全的需要。出臺《信息技術安全政策》[18],規定數據保存需依據數據價值和機密程度制訂方案,機密數據必須進行加密。
加拿大4所高校圖書館科研數據管理服務是由專業人員負責,人員設置方面具有以下特點:一是團隊專業化,具有高學歷;二是跨部門合作,服務團隊大多來自圖書館不同部門。具體情況如表2所示。

表2 加拿大高校圖書館科研數據管理服務團隊
從表2可知,6所高校圖書館均設置科研數據相關崗位,為科研數據管理服務開展夯實了根基。所調研的高校圖書館科研數據管理服務團隊呈現以下特點:一是雖然不同高校圖書館科研數據崗位名稱有所不同,但基本上每個高校圖書館都設置有數據管理員崗位,并明確了職責范圍;二是科研數據管理服務內容豐富多樣,各具特色,如多倫多大學圖書館和麥吉兒大學圖書館提供數據可視化服務,女王大學圖書館提供元數據服務,阿爾伯塔大學圖書館提供編目和元數據服務;三是提供科研數據管理人工咨詢服務,為幫助研究人員更好地完成科研數據管理,麥克馬斯特大學圖書館、阿爾伯塔大學圖書館、麥吉爾大學圖書館都提供專業咨詢服務。
2.4.1 科研數據管理計劃
科研數據管理計劃(Data Management Plan,簡稱DMP)是科研數據管理服務的一個重要流程,增加了科研項目的競爭力。撰寫DMP作用主要有:幫助研究者創建、組織、記錄、存儲和備份科研數據;記載研究者的道德和法律義務;決定數據管理過程中共享、存儲科研數據方式;滿足科研項目資助者要求。加拿大高校圖書館DMP服務形式有:DMP工具、其他國家DMP參考資料、咨詢服務,具體情況見表3。

表3 加拿大高校圖書館DMP
常 用DMP工 具有DMP Assistant、DMP Tool、DMP Online[19],其中DMP Assistant是加拿大自主研發,適應性好,調研的6所高校圖書館都在使用;DMP Tool通過提供各種模板幫助撰寫DMP;DMP Online是在線DMP撰寫工具,后兩種DMP工具只有麥克馬斯特大學圖書館、多倫多大學圖書館、英屬哥倫比亞大學圖書館使用。
DMP參考資料主要是其他國家科研數據管理方面的先進經驗和最佳實踐,除阿爾伯塔大學和英屬哥倫比亞大學圖書館外,4所高校圖書館都提供DMP參考資料,主要涉及英國、美國、加拿大的DMP項目模板和計劃,精準指導研究人員解決科研數據管理中問題,知悉科研數據收集標準、存儲和備份方法等,做好科研數據產生、記錄、描述、存儲和備份階段管理計劃。
咨詢服務是圖書館員理解研究人員的數據研究和管理需求,幫助識別問題并提供策略。麥克馬斯特大學圖書館主要是協助研究人員使用DMP工具,咨詢數據存儲和備份問題,提供元數據指導服務、數據共享服務。麥吉爾大學圖書館為研究者提供授權申請、知識產權咨詢和DMP編寫支持服務。多倫多大學圖書館將科研數據管理服務中數據組織、存儲、分享等階段遇到問題進行匯總并提供方案。女王大學圖書館提供一對一或者小組方式咨詢服務,阿爾伯塔大學圖書館為研究人員提供研究階段全程實時咨詢服務。
2.4.2 科研數據備份
科研數據備份常用的3-2-1規則[20]:維護數據的三個副本——原始副本、外部本地副本及遠程副本;至少使用兩種不同的媒體類型,如網絡服務器、外部硬盤驅動器、云服務器;在不同的物理位置有一份拷貝副本。對科研數據備份具有非常重要作用:一是保持科研的正常運轉,在原始數據丟失情況下最大限度減少科研損失;二是保持數據穩定性,多副本的保存方案讓科研數據長期保存得以實現。在對科研數據進行備份時,除阿爾伯塔大學圖書館外,其他高校圖書館都采用3-2-1規則。
2.4.3科研數據存儲
對備份后科研數據進行存儲是保護科研數據的最佳方法,可以防止數據丟失或破壞,同時也促進了數據共享和公開訪問。所調查的6所高校圖書館均提供科研數據存儲服務(詳見表4)。

表4 加拿大高校圖書館科研數據存儲
首先,在存儲方式方面主要分3類:一是通用存儲庫、Dataverse和FRDR。它們共性為對加拿大研究人員開放,接受所有類型數據,區別在于存儲大于2.5GB數據時需選擇FRDR。二是本校機構庫或校外機構庫。麥吉兒大學、麥克馬斯特大學、多倫多大學使用本校機構數據庫存儲數據;阿爾伯塔大學使用自建的教育和研究檔案機構知識庫ERA存儲科研數據,英屬哥倫比亞大學使用Abacus Data Network存儲庫;英屬哥倫比亞大學、麥克馬斯特大學、多倫多大學使用校外DSpace機構庫存儲數據。三是特定領域或學科存儲庫。利用Pangaea存儲地理學科數據;利用Dryad存儲醫學、生物學、生態學數據;利用ICPSR存儲社會科學數據。
其次,在存儲政策方面,圖書館要求存入Dataverse數據滿足以下要求:敏感數據匿名或去標識化、數據格式可連續、用豐富的元數據描述數據集、文件命名需統一。阿爾伯塔大學、英屬哥倫比亞大學和女王大學圖書館都遵循FAIR數據存儲原則:可查找、可訪問、可互操作、可重用;阿爾伯塔大學圖書館根據科研數據使用周期和保存可行性、評估標準對位級存檔數據、中長期訪問數據、長期訪問數據分別提供青銅、白銀、黃金級存儲[21]。
2.4.4 科研數據發布
科研數據的發布是將允許共享的數據發布在期刊或者上傳到存儲庫中,發布數據優勢在于:確保科研數據的長期保存,提高科研數據的透明度和可重復性,提高研究成果的知名度,確保數據得以重用,完成對期刊授權和資助基金的使用。數據發布時要確認數據發布方式及可發布數據分類。
數據發布主要是發布到Dataverse。麥克馬斯特大學圖書館認為數據在Dataverse上發布是促進數據共享的最佳方法;女王大學圖書館建議用戶發布Dataverse上用豐富元數據描述數據集,促進數據發現使用。
可發布數據分類。麥吉爾大學圖書館[22]認為數據發布形式有4種:數據文章、數據文件、數據注釋、數據描述符。可以發布的數據有:與另一項研究相關的數據,孤立數據、暗數據、空結果,初步研究結果,報告額外約定說明,數據說明等。
發布數據注意事項。經研究數據管理專家審查,存儲后元數據是完整且可描述性;限定數據許可范圍,可以為公共領域,也可僅限于非商業用途或在使用數據時要求作者署名。女王大學圖書館提醒研究者注意[23]兩點:一是敏感數據集單獨存放文件夾中禁止發布;二是發布數據前需要專人審查。
2.4.5 科研數據引用
科研數據發布最主要目的是促進科研數據的引用,而科研數據的引用是通過一定的標識技術和機制,建立數據與數據之間的來源關系實現的。規范的科研數據引用優勢:幫助研究者精準搜索更多相關科研數據;增加科研數據的認可度和影響力,提升研究者學術影響力;促進未來研究中數據的驗證和再利用;促進科學記錄的合法引用,同時起到數據歸檔作用。為規范科研數據引用,調研高校圖書館對數據引用都做出了明確規定。
一是引用標準。雖無統一標準,但提供化學、心理和教育社會學、人文學等多學科數據引用格式(如多倫多大學圖書館、阿爾伯塔大學圖書館),同時還推薦使用DataCite制定的引用規范,該規范能夠定位、識別和引用全球領先的研究數據[24]。
二是引用元素。多倫多大學圖書館指出數據引用的最小粒度為出版者、出版日期、標題、標識符;引用他人數據集時關注的最重要元素為作者、標題、出版日期、標識符。阿爾伯塔大學圖書館為研究者介紹引用專著、圖書章節、期刊文章、網頁數據時引用元素、引用格式、引用示例。
三是引用率。多個圖書館提倡發布數據時將DOI作為數據引用標識符以提高數據引用率,麥吉爾大學圖書館認為將數據集的PID與期刊文章的DOI連接,可能提高25%左右引用率[25];英屬哥倫比亞大學圖書館建議將數據發布在開放獲取存儲庫以提高數據被引用率。
科研數據具有保障數據安全、提升研究者學術影響力和挖掘數據利用價值,在科研數據管理中扮演重要角色,遴選高質量的科研數據資源,保障了科研數據管理服務的開展。調研高校圖書館都提供豐富的數據資源,包括數值型數據和空間數據,其中近年逐漸引起關注的數據有地理空間數據、航空照片、衛星遙感數據等,我國高校圖書館在數據收集時期要著重加強對相關數據的遴選。
目前,我國亟待出臺國家層面的科研數據管理政策,以積極推動高校圖書館科研數據管理服務開展,促進科研數據的共享和利用。一是國家及時修訂、完善《科研數據管理辦法》,在高校、資助機構、出版單位等協作下盡早推進科研數據管理政策制定的進度,為科研數據管理服務提供參考指南;二是高校圖書館應借鑒加拿大高校成功經驗,在《科研數據管理辦法》基礎上制定本校科研數據管理準則,明確科研數據管理目標和任務、科研工作者職責、科研數據管理流程等;三是細化科研數據管理政策內容,除知識產權、數據安全外,增加數據管理計劃、數據標準、數據開放獲取、數據訪問權限等。
借鑒加拿大高校圖書館科研數據管理服務經驗,我國高校圖書館要規范科研數據備份、存儲、發布、引用等流程,豐富科研數據管理服務內容,提供多樣化服務:
在科研數據管理計劃方面,首先,認真研究DMP工具,可選擇通用的DMP Assistant工具掌握其撰寫科研數據計劃方法;其次,查閱熟讀國外圖書館DMP參考資料,了解撰寫DMP時的步驟及要求;最后,對于撰寫中遇到疑難問題及時請教專業人員。
在科研數據備份與存儲方面,一是在科研整個過程中要及時備份數據,特別是要遵循備份3-2-1規則;二是存儲數據時要選擇合適的存儲庫及存儲方式(如阿爾伯塔大學圖書館青銅、白銀、黃金數據存儲分類),借鑒FAIR數據存儲原則制定合理數據存儲政策;三是涉密數據存儲要根據數據風險等級制定嚴格的政策,匿名或者去標識化。
在科研數據發布方面,為保證數據的公開訪問和長期保存,鼓勵研究者在研究結束時及時將數據發布,在期刊以文章形式發布時可將涉及相關數據盡可能公開,待本校機構庫功能完善時,可借鑒加拿大圖書館將數據發布到Dataverse的實踐,選擇數據發布到本校機構庫中;發布在存儲庫時標注數據使用范圍。發布數據時要嚴格遵循數據隱私規定。
在科研數據引用方面,鼓勵高校圖書館暫且使用DataCite定位、識別和引用數據,后期聯合建立國內科研數據引用標準;在引用數據時要準確、完整使用引用元素,利用《信息技術科學數據引用》標準為科研數據賦予DOI并將其作為數據引用標識符以提高引用率。
目前,雖然國內高校圖書館已有部分建立機構知識庫,但是都缺乏數據存儲功能,真正建立數據共享平臺的僅有北京大學開放研究數據平臺、復旦大學社會科學數據平臺、武漢大學社會科學數據共享平臺、上海外國語大學數字學術服務平臺[26]。為保障科研數據更好地存儲和共享,我國高校圖書館急需加強適用于科研數據管理的存儲庫建設。
參考加拿大高校圖書館科研數據存儲經驗,我國高校圖書館間應倡導科研數據的共享與開放。對科研能力和實力較強的單位,借鑒阿爾伯塔大學圖書館自建ERA存儲庫,麥吉兒大學圖書館、麥克馬斯特大學圖書館、多倫多大學圖書館使用本校機構庫經驗,前期可以對本校已有機構知識庫進行改造,建設數據管理模塊,開發數據存儲功能,后期逐漸建設本校特色科研數據存儲庫或特色學科存儲庫,實現科研數據長期存儲和共享;對科研能力和實力稍弱的單位,借鑒加拿大高校圖書館借助Dataverse存儲庫,英屬哥倫比亞大學圖書館、麥克馬斯特大學圖書館、多倫多大學圖書館使用校外DSpace機構庫存儲數據經驗,加強與政府相關科研部門或機構的聯盟或合作,充分利用已有的存儲設備或軟件平臺,最大范圍地提高科研數據開放和共享。
結合當前科研數據管理工作急切需求,我國高校圖書館應加強科研數據管理隊伍建設:一是因“館”制宜,合理設置科研數據管理崗位,招聘科研數據館員,引進數據挖掘、數據可視化、數據分析等高學歷人才,營造科研數據多樣化學科環境,培養科研數據人員的專業素養;二是加強圖書館不同部門(數字出版、數字保存、元數據編目、數據分析)以及圖書館與學校科技處、信息化辦公室等合作,利用各部門人員專業特長,為研究者提供精準數據服務,共同提升科研數據管理服務水平;三是我國高校圖書情報專業今后開設元數據、數據分析、數據挖掘、數據編目、數據共享等數據管理相關課程,強化學術科研數據素養培訓與教育,為科研數據服務儲備更多人才。