都 宜
(山西財經大學圖書館 山西 太原 030000)
高??茖W數據的管理、共享與再利用早已成為世界各國、各類機構和組織關注的焦點,同時,大學科研院所、科研資助機構、期刊出版社乃至國際組織等相關機構也都出臺了關于科學數據管理與共享的相關政策[1]。例如,經濟合作與發展組織(OECD)在《公共資助科學數據開放獲取的原則和指南》(2007年)中指出:“公共資助的科學數據應在適當的范圍內提供開放獲取以實現共享”。早在2010年,美國國家科學基金會(NSF)就要求科研機構在本機構申請基金時,必須提供一份包含數據管理和數據共享的數據計劃。而我國則在2018年1月23日審議通過了《科學數據管理辦法》,對科學數據的管理與共享進行了原則上的規定。
科學數據的獲取主要通過三種途徑:一是研究者本人或團隊通過實際觀測、實驗等方式獲得實驗數據;二是研究者或研究機構通過調查訪談等方式獲取社會科學、人文科學類數據;三是通過引用其他研究者生產并進行共享的數據。在實際的科學研究工作中,通過前兩種途徑獲得科學數據往往需要耗費大量的時間、精力、資金,并且還要考據到場地、設備、人員等因素,因此,引用其他科研人員已經生產并共享的數據成為眾多科研人員的選擇。
科學數據是科學數據共享活動的客體,是共享平臺建設的重要內容,不同的學者及共享平臺對科學數據有著不同的理解與定義,而這些不同的理解與定義決定著科學數據共享的范圍、方式和途徑。
科技部在2006年發布的標準文件《科學數據共享工程數據分類編碼方案(SSD/T2122—2004》將科學數據定義為:科學數據是指人類在認識世界、改造世界的科技活動中所產生的原始性、基礎性數據,以及按照不同需求系統加工的數據產品和相關信息。2018年3月17日,國務院辦公廳頒布的《科學數據管理辦法》第二條:“本辦法所稱科學數據主要包括在自然科學、工程技術科學等領域,通過基礎研究、應用研究、試驗開發等產生的數據,以及通過觀測監測、考察調查、檢驗檢測等方式取得并用于科學研究活動的原始數據及其衍生數據?!?/p>
盡管各學者與機構對科學數據的定義不盡相同,但其仍有共同之處,如:科學數據基本屬性為原始性、基礎性;科學數據的產出領域大多為自然科學或科技活動;科學數據除原始數據外還包含由基礎數據加工后的衍生數據。
但隨著計算機及信息技術與傳統藝術和人文領域(歷史、哲學、語言學文學、藝術、考古和音樂等)的結合愈加緊密,產生了大量描述性、事實性數據及其衍生數據,這些數據與自然科學領域的科學數據一樣,是數字人文科學研究的基礎數據和原始數據,對科研工作有著重大意義,亟待被廣大科研工作者獲得并利用。
高校科學數據按照取得方式可以劃分為:實驗數據、觀測數據、計算數據、調查數據。
高校科學數據按經費來源可劃分為:縱向課題數據、橫向課題數據、校內科研項目經費課題數據、自籌經費課題數據[2]。
高??茖W數據按照數據的公開性可劃分為:保密數據、部分保密數據、公開數據。
高校科學數按數據規模來看可以分為:綜合類大規??茖W數據、專項類小科學數據[3]。綜合類大規模科學數據往往來自于較為宏大的科學研究項目,研究人員涉及多個國家、組織和多個學科,并有著大量的資金投入,因此這些項目基本都制定了完善的數據政策,有專人維護并發布相關數據。相比較而言,專項類小科學數據研究目標相對專一,項目資金有限,研究者通常由某個或幾個高校的研究人員組成,因此,其數據資料常常缺乏完善的保存與管理,數據共享只能在有限的范圍內展開。
2.3.1 高??茖W數據具有多學科性
高校,特別是綜合類高校,通常包含十幾甚至幾十乃至更多專業,各個專業所產生的數據類型繁多,形式各異,同單一科研所產生的數據相比,具有多學科的特點。
所指的科學數據既包含主流的自然科學領域的科學數據,也包含近年來興起的人文科學領域的科學數據。尤其是對國際、國內紛紛建立的各種“數字人文”研究機構而言,人文科學數據使其研究獲得了新的研究途徑,迎來了新的研究范式。
采用GB/T 13609-2017《天然氣取樣導則》規定的方法進行取樣[4],現場取樣示意圖見圖1。取樣鋼瓶在實驗室經過特殊處理,在取樣過程中,由于壓力的突降,取樣管線和接頭等部位可能造成節流,節流處會急劇降溫,若不采取一定的措施則會造成重烴的析出、損失,導致取樣不準確,使取到的樣品沒有代表性。因此,取樣時應對取樣探頭、取樣管線和取樣閥等部位采取加熱保溫措施。
2.3.2 高校科學數據大多是專項類小科學數據
高??茖W數據主要是來自于高?;诳蒲谢顒铀a生的,通常由相關科研人員或課題組成員保管的科學數據,屬于專項類小科學數據的范疇。這類科學數據單獨看數據量不大,但是由于研究人員眾多、研究項目廣泛,因此數據積累起來總量非常驚人。但是,這些數據通常分散保存在項目組成員那里,沒有專人維護。而通過科學數據共享平臺,可以對這類科學數據進行有效監護,避免數據丟失,節約維護成本,實現科學數據的有效共享,從而進一步挖掘科學數據的科研含量。
2.3.3 高??茖W數據形式具有多樣性
高校科學數據共享平臺的共享數據可以包括教師和學生的研究數據、未公開發表的學生學位論文、教師科研人員的課題成果、校內教師著作(專著和合著)、數據集、灰色文件等,文件格式包括但不限于數據、文本、音頻、視頻和圖像等多種形式。
2.3.4 高??茖W數據連續性較差
高校的科學數據大多依附于課題產生,課題結束,科研數據的產生也就隨之終止,由于各類課題持續時間有限,科學數據的產生通常隨著課題的結束而結束,因此高??蒲袛祿倪B續性較差。
科學數據生命周期的理論眾多,盡管細節處略有區別,但總的來說,科學數據的生命周期從數據計劃開始,經歷數據的分析、運用,最后到數據的發布、共享3個階段,高校乃至我國學術界對科學數據的利用都是不完整的,尤其缺乏前期對科數據的管理計劃和后期的數據發布共享階段,科學數據流沒有形成完整的回路,導致了科學數據的生命周期不完整,使眾多的科學數據被封存在計算機內,無法被利用。高??茖W數據共享平臺建設的目的就是通過提供一個數據共享的生態環境,幫助高??蒲腥藛T管理數據、運用數據和共享數據,完善并延長科學數據的生命周期,發揮數據的價值。
科學數據通過在特定平臺上開放共享,高校研究人員可以通過網絡方便獲取資源,科學數據發布平臺的內容資源是及時更新的,具有動態性。數據提交者將自己研究產出的科學數據上傳到發布平臺,并可以根據研究進度對數據進行動態的補充和修改。而其他研究者可以通過平臺與數據共享者進行交流,從而產生了一種新的學術交流形式,增加了研究人員之間的信息交流,緩解了信息獲取失衡的問題,實現了數據資源的共享和利用,促進了學術的交流和傳播。
高校研究機構通過收集、保存、傳播和共享本校師生的科研成果,并將其作為一個整體,系統、完整地進行展示,其他科研人員通過對高??茖W數據平臺所發布的數據資源進行研究、引用和再利用,可以在利用數據的同時了解到該高校的科研水平和科研進展,進而對其科研成果產生一定的評價,間接地提升了高校學術地位和影響力。
高校對科學數據及其描述文檔以標準化的形式長期保存,一方面為研究人員提供了一個便捷的科學數據交流和共享的平臺,另一方面加強了對科研數據的傳播和再利用,通過對科學數據進行共享,有助于提高研究人員的學術聲望和影響力。
高??茖W數據共享的建設模式通常包含高校自建共享平臺、高校與其他機構合作建設共享平臺、委托第三方建設共享平臺等方式。
高校自建共享平臺是指由高校自行開發、研究、建設、管理以及維護科學數據共享平臺。能夠自建共享平臺的高校通常都是綜合類大學,具有較強的計算機、信息技術類專業水平以及較為廣泛的學科分布,用于共享的科學數據能夠達到一定數量,參與共享的人員達到一定規模。自建平臺能夠基于本校的科研需求專門設計,較好地滿足本校科研人員的特殊需求。如美國密西根大學的ICPSR社會科學數據共享平臺是根據具體需求而專門定制開發,應用至今已有二十多年的歷史[4]。
與其他機構合作是高校建設共享平臺中較多采用的方式。其他機構可以是其他高校、科研機構、社會機構、數據庫公司等。高校通過與其他機構合作,共享平臺可以獲得更多的技術支持、資源支持、資金支持以及政策支持,使共享平臺從共享主體、共享客體乃至建設效果上產生的倍加效應遠遠大于高校自建的效果。如哈佛大學和麻省理工學院聯合創建的哈佛—麻省理工數據中心[5];復旦大學社會科學數據研究中心則是與哈佛大學的Dataverse Network系統開展了全面的合作。
在這一建設模式下,高校不參與平臺的具體建設,而是根據自身的需要選擇不同的平臺,或向平臺建設機構提出自己的建設要求。在這一模式下,高校只需在選擇階段進行細致的調研,而無需進行本地開發與服務器的維護,可以節省大量時間成本、人力成本和費用等,能較快地的將自身數據接入共享平臺。同時,共享平臺為所有合作的機構提供統一的檢索界面,方便高校師生檢索利用數據。如英國的Figshare平臺,該平臺可以為用戶提供簡便友好的用戶界面,展示機構的所有研究成果,衡量機構研究成果的學術影響力,并集成到已構建成功的共享平臺中。目前,世界多所著名大學和出版機構正在接受Figshare服務。
以上3種建設模式各有優缺點,不同的學??梢园凑兆陨韺嶋H情況選擇適宜的共享機制。就我國已經開展科學數據共享的高校而言,與其他機構合作建設共享平臺或委托第三方建設共享平臺。
目前,我國高校科學數據共享平臺建設正處于起步階段,可以結合科學數據的特點和數據使用者的需求,充分借鑒國外高校已經發展較為成熟的平臺建設經驗,從頂層設計開始,分級規劃、統一標準,加快推動我國高校界的科學數據共享平臺建設。