陸玉泉 李雪飛 宋正娜
[摘 要]該研究從科研環境轉變、數據政策要求、科研人員需求3個角度就“大數據時代高校開展科研數據服務的必要性”這一問題展開探討,認為大數據時代在科研環境轉變和數據政策要求共同作用下,科研數據獲取和處理工作日益專業化,科研人員亟須專業的科研數據服務。
[關鍵詞]科研數據服務;高校;大數據時代
[中圖分類號] G642 [文獻標識碼] A [文章編號] 2095-3437(2017)10-0186-03
科研數據(research data,又稱研究數據、科學數據)可以理解為,各種科研活動過程中產生并記錄在任何形式載體上的、可以作為研究結論支撐材料的所有事實或者結果;包含各種觀測數據、計算數據、實驗數據、記錄數據等;可以是原始數據、中間分析處理過程數據或者結果數據。[1][2]對于多數科研項目,如何合理規劃、充分獲取和高效管理相關科研數據是影響項目順利進行的關鍵因素之一。
科研數據服務(research data service)是指由各類科研數據服務機構提供的、圍繞科研人員獲取和處理科研數據這項工作產生的相關服務,其主要目的是保障數據安全和促進數據再利用。[3[4]開展科研數據服務相關工作的探索已有相當長的一段歷史,早在1957年國際科學聯合會理事會就成立了世界數據中心[5],其后眾多國際組織、國家政府、資助機構、出版機構相繼推出有關科研數據服務方面的政策和措施。
美國、澳大利亞、英國等發達國家有相當數量的高校提供科研數據服務,早在20世紀70年代美國密歇根大學就建成了“校際政治與社會研究聯合數據庫”。[6]本文通過檢索文獻和瀏覽國內近百所重點高校的相關網站,僅發現3所高校曾經或者正在開展科研數據服務。武漢大學2011年開始嘗試在校內開展科研數據服務[7],但筆者寫作本論文期間該?!案咝?茖W數據共享平臺”始終處于無法正常瀏覽狀態;復旦大學于2013年建立了社會科學數據平臺,這也是目前能檢索到的高校領域唯一面向社會科學的數據平臺;北京大學2015年底推出了“開放研究數據平臺”的測試版,并在其圖書館主頁的“科研支持”子欄目下面明確列出數據搜集、數據分析、數據管理咨詢、基于科研數據的分析報告等4項“科研數據服務”。[8]
國內高??蒲袛祿湛傮w上起步較晚,目前仍處于規劃探索階段,個別提供科研數據服務的高校,其服務內容和項目都較少,大幅落后于國際同行。面對現狀,理論和實踐領域首先要面臨的問題就是“提供科研數據服務是否有必要”,本文從科研環境轉變、數據政策要求、科研人員需求3個角度就這一問題展開探討。
一、科研環境轉變是高校開展科研數據服務的根本動力
我們身處大數據時代,麥肯錫全球研究院(MGI)認為大數據(big data)是一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低4大特征。[9]2011年6月,MGI首次提出“大數據時代已經到來”的命題,指出“當前大數據規模以及其存儲容量正在迅速增長,已經滲透到各個行業和業務職能領域,成為可以與物質資產和人力資本相提并論的重要的生產要素。
大數據是繼傳統IT之后下一個提高生產率的技術前沿。[10]牛津大學教授維克托·邁爾-舍恩伯格(Viktor Mayer?鄄Sch?觟nberger)和《經濟學人》雜志的數據編輯肯尼思·庫克耶(Kenern Cukier)合著的《大數據時代》一書指出,“大數據改變了我們的思維方式,讓我們從因果關系的串聯思維變成了相關關系的并聯思維;大數據改變了我們的生產方式,物質產品的生產退居其次,信息產品的加工將成為主要的生產活動;大數據改變了我們的生活方式,我們的精神世界和物質世界都將構建在大數據上。大數據不僅僅是一門技術,更是一種全新的商業模式,它與云計算共同構成了下一代經濟的生態系統”。[11]
大數據給科研活動帶來3個顛覆性的觀念轉變:一是所有數據,而不是隨機抽樣(隨機抽樣可以看成技術能力不足的條件下人為外加的限制);二是允許數據誤差,掌握大致方向即可(樣本數據較少時,數據誤差容易導致結果偏差,需力求數據精確);三是關注相關關系,而不是因果關系(大數據分析是尋找相關關系的一個重要手段,并不是要否定因果關系)。
這些顛覆性的改變孕育了新的科學研究第四范式(the fourth paradigm)——數據密集型科研范式?!暗谒姆妒健庇蓤D靈獎得主、關系數據庫的鼻祖Jim Gray率先提出。第一范式“實驗科學”以記錄和描述自然現象為主(如鉆木取火),第二范式“理論科學”利用模型對所記錄的現象進行歸納總結(如相對論),第三范式“計算科學”利用計算機對復雜現象進行模擬仿真(如天氣預報),第四范式“數據密集型科學”借助計算機對海量數據進行挖掘。
全新的科研范式下科研數據成為科學研究的基礎性資源。[12]數據密集型科研范式歸根結底是對海量數據的挖掘,理論和技術的發展使我們能夠突破以往抽取部分數據樣本進行模擬分析的限制,進而對全樣本數據進行分析。可以說只要獲得數據就可以進行科研,那么“已有的數據是新研究的寶貴資產,對于已有數據的整合、挖掘和再利用為學術研究提供了一種新的資源”。[13]
大數據時代的數據密集型科研是一種“大科學”模式,給高校傳統的以個體和小團隊為主的“小科學”模式帶來巨大沖擊。第四范式下的科研活動分工更細、協作度大幅提高,大數據的采集、存儲、處理、計算都有賴于專業的設備和人員,可以說傳統的個體和小團隊很難完全獨立勝任。大數據時代,數據成為可以重復使用的生產資料,高質量的數據獲取和處理工作一定會從傳統科研活動中細分出來,及早適應并緊跟趨勢對于做好大數據科研至關重要。
二、數據政策要求是高校開展科研數據服務的政策動力endprint
聯合國教科文組織(UNESCO)、世界經濟合作與發展組織(OECD)、世界數據中心、歐盟委員會等國際性組織都制定了相應的數據政策。UNESCO在2004年發布的《開發和推廣政府公共領域信息政策指南》中指出,公共資助的科學數據和公共領域未加保護的事實信息是基礎研究的重要支柱;UNESCO在2007年發布的《開發與促進開放獲取的政策指南》中強調,科研數據同其他類型資源都應免費、開放獲??;OECD在2004年通過的《公共資助的研究數據開放存取宣言》強調,國際間的數據、信息和知識交流將極大地推動科研發展與創新,數據的開放獲取和無限制利用將推動科學進展和促進研究者的培訓,開放獲取有利于公共投資收集的數據價值最大化。
美國、澳大利亞、英國屬于科研數據政策相對完善的國家。美國的《信息自由法》《隱私權法》《陽光下的政府法案》是美國政府數據開放制度的重要依據和保障,美國政府2009年頒布的《開放政府指令》要求通過政府網站發布更多數據,并于同年5月設立data.gov數據網站;澳大利亞2009年發布《開放政府聲明》并推出數據門戶網站data.gov.au,2013年發布《公共服務大數據戰略》;英國政府2010年建立了data.gov.uk數據網站,2013年首先提出《八國集團開放數據憲章2013年英國行動計劃》。[5]
來自課題資助機構的要求是科研數據開放獲取和處理的重要政策動力。美國國家衛生研究院(NIH)發布的《數據共享政策和實施指導》要求從2003年10月1日開始,所有申請經費在50萬元以上的課題都必須提交數據共享計劃或者不共享的說明;2010年美國國家科學基金會(NSF)發布的數據政策要求從2011年1月18日開始,所有課題申請書必須附帶一份不超過兩頁的“數據管理計劃”;澳大利亞研究理事會(ARC)、澳大利亞國家衛生與醫學研究理事會(NHMRC)、英國研究理事會(RCUK)這些主要的研究資助機構都已經發布了相關數據政策。[5]
國外的出版機構如Springer、Elsevier等旗下的期刊也制定了自己的科研數據出版政策。Nature要求作者將期刊論文的數據或附加信息存儲在可公開訪問的數據庫中;2008年PLOS One公布的數據政策建議作者將數據作為所發表論文的支持材料進行提交。
在全球數據政策大環境,尤其是NIH、NSF等資助機構出臺數據共享政策的影響下,各研究機構也紛紛出臺相應的數據政策,2008年以后美國、英國、澳大利亞等國高校贏來了科研數據政策制定和服務開展高潮,澳大利亞政府更是明確提出高校必須建立起科研數據保存、數據所有權歸屬以及數據訪問等政策。據不完全統計,U.S.News世界大學綜合排名前50名的高校中已有26所在其圖書館開展科研數據管理服務[14];截至2016年的統計顯示,已有40所澳大利亞大學制定了科研數據管理政策[15];根據何青芳2016年的統計,在英國“目前已有37所大學出臺科研數據管理政策,5所高校制定了政策草案”。[15]在我國,2014年10月23日,北京大學等9所高校圖書館的代表匯聚復旦大學,成立了“中國高校研究數據管理推進工作組”,致力于推進國內高校研究數據管理的事業發展[15],但制定和擁有完善的政策還需時日。
國際組織、各國政府、課題資助機構、文獻出版機構、研究機構相繼出臺的數據政策涵蓋了科研數據從采集、存儲、處理、分析再到發表和共享的全過程,這些政策起到銜接各個環節、規范數據格式、協調各方利益的作用,而專業的科研數據服務工作則是這一系列制度安排得以順利實施的重要保證。
三、科研人員需求是高校開展科研數據服務的直接動力
首先,多數科研人員在有關科研數據獲取與管理方面是“無知”的。數據密集型科研范式下科研數據獲取和處理是一項具有一定專業性的工作,當北卡羅來納大學教堂山分校(UNC)的研究人員被問及數據管理“是否能夠獲得充分的基金支持”等問題時,高達65%的回答是“我不知道”;根據劉霞等學者的調查,高校中“超過60%的科研人員發生過數據丟失現象”,“65%的數據由項目團隊分散存儲和管理”,“超過50%的科研人員不對數據永久保存”,超過40%的研究者對“數據管理對于科學研究的促進作用”沒有明確的認識,即便如此仍有“超過50%的科研人員對現有的數據管理手段表示滿意”。[7]可見,相當數量的科研人員由于各方面原因并不了解數據獲取或者管理,更不要談論如何更專業地做好這件事。
其次,科研人員沒有足夠的時間和精力應對科研數據獲取和處理工作。即便科研人員具有相當的科研素養,也很可能無暇顧及這方面的工作。當前數據獲取與管理工作需要掌握更為繁瑣的政策、操作更加復雜的軟硬件,專業性越來越強,這意味著需要耗費更多的時間和精力用于數據獲取與管理。另外,在傳統科研中,科研人員為獲取和處理數據花費大量的精力,但是社會發展在逐漸加速中,全社會對科研人員的產出要求也在逐步提升,將過去的模式用在現下和未來,科研人員必將無法應對繁重的科研工作,UNC超過一半的受訪者認為在使數據為他人所用上需要花費時間。[13]
最后,科研人員沒有足夠的經費用于科研數據的獲取和處理。獲取和處理數據需要支付大量的軟硬件和人力費用,由個人或者小團隊獨力支付相關費用,無疑是很不經濟的做法,而且這也得不到資助機構的全力支持。當UNC的研究人員被問及在他們所在院系、實驗室、中心或者研究群體中,在長期數據保存(5年以上)上面是否可以獲得充分基金支持,僅有10%的人給出肯定的回答??蒲薪涃M是有限的,提供科研數據獲取和處理服務,集中管理科研數據,對于節省科研經費、提升科研產出具有不證自明的作用。
由此可見,多數科研人員或者不了解科研數據的獲取和管理,或者其時間和經費不足以支持數據的獲取和管理,因此提供專業科研數據服務,解放科研人員,讓其回歸科研核心工作不失為一個更加合理的安排。endprint
四、結語
大數據時代,數據密集型科研范式下科研數據成為現代科學研究的基礎性資源,面對日益繁瑣的數據政策要求,科研數據獲取和處理工作日益專業化,科研人員對數據獲取和處理“無知”化日趨加重,即便能夠勝任相關工作也受制于繁瑣的科研工作和有限的經費。因此科研數據服務必將成為科研人員的重要需求。
[ 參 考 文 獻 ]
[1] 李偉綿.基于生命周期理論的研究數據管理服務評估研究[D].北京:北京理工大學,2016.
[2] 凌曉良,LEE Belbin,張潔,等. 澳大利亞南極科學數據管理綜述[J].地球科學進展,2007(5):532-539.
[3] 張凱勇.數據密集型科學環境下的高校圖書館科學數據服務[J].圖書館學研究,2014(3):69-72+96.
[4] 劉桂鋒,盧章平,阮煉.美國高校圖書館研究數據管理服務內容研究[J].圖書館論壇,2015(8):137-144.
[5] 張瑤,呂俊生.國外科研數據管理與共享政策研究綜述[J].圖書館理論與實踐,2015(11):47-52.
[6] 中國國家調查數據庫.存數據.[EB/OL].[2016-12-06].http://www.cnsda.org/index.php?r= site/datasaving.
[7] 劉霞,饒艷.高校圖書館科學數據管理與服務初探——武漢大學圖書館案例分析[J].圖書情報工作,2013(6):33-38.
[8] 北京大學圖書館.科研數據服務.[EB/OL].[2017-02-26]. http://www.lib.pku.edu.cn/portal/cn/fw/kyzc/shujufuwu.
[9] 百度百科. 大數據. [EB/OL].[2017-09-18].http://baike.baidu.com/item/大數據/1356941?fr=aladelin.
[10] 趙姍.大數據時代來臨,中國準備好了嗎?[N].中國經濟時報,2013-07-01(011).
[11] [英]維克托·邁爾-舍恩伯格,肯尼思-庫克耶.大數據時代:生活、工作與思維的大變革[M].周濤,譯.杭州:浙江人民出版社,2013.
[12] 孫繼周.E?鄄Science環境下高校圖書館開展科學數據管理與共享的路徑研究[J].圖書館,2016(5):66-71.
[13] Gary Marchionini,楊冠燦,蘆昆.科研數據管理:保障數據質量,促進iSchools新科學研究[J].圖書情報知識,2013(4):4-9.
[14] 張莎莎,黃國彬,邸弘陽.美國高校圖書館科研數據管理服務研究[J].圖書館雜志,2016(7):59-66.
[15] 何青芳.國外科學數據管理政策的調查與分析[J].上海高校圖書情報工作研究,2016(2):9-13.
[責任編輯:龐丹丹]endprint