張新興,韓金鳳
(1.廣州大學圖書館,廣東 廣州 510006;2.廣東技術師范大學圖書館,廣東 廣州 510665)
科學數據是支撐科技創新、經濟發展、管理決策的基礎性戰略資源,其重要性不言而喻。隨著大數據技術的發展和數據密集型科研范式的興起,科學數據研究呈急速升溫的態勢。劉桂鋒和李杰調研了WebofScience數據庫核心集中的科學數據管理研究論文,將國外科學數據管理研究劃分為萌芽階段(20世紀90年代)、形成階段(2000—2008年)、發展階段(2009—2016年),并將圖書情報學領域的科學數據管理研究熱點歸納為科學數據管理理論研究、科學數據管理服務研究和科學數據管理案例研究[1]。本文利用信息計量學的方法,對我國科學數據研究的發展歷程、成果分布、代表作者、研究熱點演變等進行分析,旨在揭示我國科學數據研究現狀,發現研究中存在的不足,以為后續研究提供參考。
中文社會科學引文索引(CSSCI)數據庫收錄了國內學術性強、編輯規范的500余種期刊。這些期刊基本囊括了我國各學科領域最高水平的研究成果。筆者于2020年4月5日,分別以“科學數據”“科研數據”“研究數據”“science data”“scientific data”“research data”為檢索詞,對CSSCI數據庫進行篇名和關鍵詞檢索,時間范圍限定為1998年至2019年,共獲得1035條檢索結果。筆者采用文獻題錄信息統計分析軟件SATI[2]和知識圖譜分析軟件CiteSpace,對檢索命中的論文進行統計和可視化分析:(1)采用SATI對論文題錄信息進行科學計量。首先對檢索結果進行去重,最終得到605條數據,然后以此為依據,進行來源期刊、研究機構、代表作者分析;(2)利用CiteSpace進行突現文獻探測,為科學數據的研究熱點演變提供參考。
我國的科學數據管理與共享實踐日漸興盛,國際科技數據委員會將我國科學數據管理與共享劃分為3個發展階段:(1)探索與起步階段(2002-2005年):科技部發布科學數據共享計劃,啟動科學數據共享試點項目建設;(2)快速發展階段(2006-2010年):建設數據共享環境,包括制定數據管理和共享的政策、標準,推進數據共享項目和平臺建設;(3)統一管理下的規范化發展階段(2011-):開展科學數據開放獲取、評估與授權服務[3]。
我國的科學數據研究同科學數據管理與共享實踐基本同步,可劃分為3個階段:(1)萌芽階段(2000-2003年):大致對應科學數據管理與共享實踐的探索與起步階段,CSSCI數據庫僅收錄3篇相關論文,科學數據研究整體水平較低;(2)緩慢發展階段(2004-2012年):大致對應科學數據管理與共享實踐的快速發展階段,CSSCI數據庫共收錄78篇相關論文,科學數據研究雖然受到了較多研究者的關注,但高質量的研究成果偏少;(3)高速發展階段(2013-2019年):大致對應科學數據管理與共享實踐的統一管理下的規范化發展階段,CSSCI數據庫收錄的科學數據研究論文的數量有了突飛猛進的增長,達到524篇,科學數據研究的受關注度和成果質量都有了大幅提升。

圖1 CSSCI數據庫科學數據研究論文時間分布
CSSCI數據庫收錄的605篇科學數據研究論文,發表在68種期刊上。載文量在10篇及以上的期刊有17種(見表1),合計載文514篇,約占論文總數的85%。除《中國科技期刊研究》之外,其余16種期刊全部為圖書情報學期刊,說明圖書情報學期刊十分關注科學數據研究,成為推動該領域發展的重要平臺。其中,《圖書情報工作》刊載的科學數據研究論文數量最多,達到了109篇。《圖書館學研究》和《情報理論與實踐》刊載的科學數據研究論文數量也都超過了50篇。

表1 刊載科學數據研究論文的主要期刊

續表
根據CSSCI數據庫的學科分類,刊載科學數據研究論文的期刊共覆蓋16個學科(見表2),說明科學數據研究是許多學科都要涉及的議題。圖書館·情報與文獻學期刊發表的科學數據研究論文數量最多,達到了525篇,約占論文總數的87%。除《檔案學通訊》和《檔案學研究》刊載了3篇相關論文之外,其余的522篇論文全部發表在圖書情報學期刊。管理學期刊發文28篇,新聞學與傳播學期刊發文20篇,心理學的《心理科學進展》發文2篇,其他12個學科的期刊數和載文量的比例大約為1:1,即每種期刊僅發表1篇科學數據研究論文。可見,科學數據研究未受到其他學科應有的重視。

表2 刊載科學數據研究論文的期刊學科分類

續表
CSSCI數據庫收錄的科學數據研究論文由來自305個機構的作者完成,發文量大于、等于10篇的機構有24個(見表3)。高產機構全部來自高校和科學院系統,包括武漢大學信息管理學院等8個圖書情報學院系,中國科學技術信息研究所等6個信息科學研究機構,中國科學院文獻情報中心和北京大學圖書館等10個信息服務機構。值得注意的是,在24個高產機構中,高校圖書館和中國科學院系統的文獻情報中心分別占據6席和4席。可見,科學數據管理服務作為信息服務機構今后的重要業務方向,引起了信息服務機構從業人員的高度關注。

表3 科學數據研究高產機構
CSSCI數據庫收錄的科學數據研究論文的804名作者中,發文量大于5篇的作者共有25人,其中6人的發文量大于10篇(見表4)。25位高產作者全部來自圖書情報學領域,這也表明主要是圖書館學和情報學專業的研究者在進行科學數據研究。

表4 科學數據研究高產作者
利用CiteSpace的突發節點探測功能,定位科學數據研究領域的突現文獻,即被引頻次在時間維度出現突增的文獻。截至2019年,科學數據研究領域共出現了10篇突現文獻(見表5),每一篇突現文獻的突現值都大于3,但是突現時間都較短,平均突現時間僅2.6年。這說明科學數據研究領域的各個研究熱點在相應時間區間的受關注度都較高,但是研究熱點的演變速度也較快。

表5 科學數據研究突現文獻
我國于2002年正式啟動科學數據共享工程,標志著國家層面科學數據共享工作的起步。科學數據共享工程的一項重要內容是科學數據共享標準體系建設,具體包括指導標準和通用標準,科學數據共享標準框架,各個領域的元數據標準、數據分類和編碼標準建設[4]。
國內學者對于科學數據共享標準的研究從3個層面展開:(1)宏觀層面,徐楓提出了由基礎標準、公用標準、技術標準、學科領域標準組成的國家科學數據共享標準體系框架,并指出科學數據共享標準參考模型、地球科學數據共享參考模型、元數據標準規范、信息分發服務規范、數據中心和共享服務網建設規范是急需實施的科學數據共享標準項目[5];(2)中觀層面,司莉和賈歡在科學數據平臺標準及相關研究文獻調研的基礎上,構建了由價值鑒定標準、數據質量標準、元數據編寫規范和元數據標準、分類編碼標準、數據發布標準、引用標準組成的科學數據標準體系框架,并分析了各項標準的具體構成要素[6];(3)微觀層面,劉峰和張曉林在對地理、生物、化學、物理等主要學科領域22種典型元數據標準統計分析的基礎上,設計了一種通用科學數據元數據項標準,其中標識類元數據項8項,時空要素類元數據項4項,歸檔類元數據項8項,職責類元數據項5項,主題范圍與派生類元數據項8項[7]。
科學數據共享標準體系包括三方面的標準:指導標準、通用標準、專用標準。其中通用標準又包括數據類標準、服務類標準、管理與建設類標準。已有研究側重于普適性科學數據共享標準體系框架的構建,今后應加強對具體領域科學數據共享專用標準的研究,以及對數據發現、訪問、表示、操作等服務類標準,質量管理規范、信息安全管理規范、共享效益評價規范、科學數據中心(網)建設規范等管理與建設類標準的研究。
2005年,國家科技基礎條件平臺專項計劃啟動實施,科學數據共享工作進入全面推進階段。海量的科學數據積累和指數級增長的新增科學數據,對科學數據共享工作提出了更高的要求:具有服務意識的高水平人才隊伍,具備數據采集、處理、分析、加工的技術能力,能夠對公益性、基礎性科學數據提供長期維護和共享服務。
科學數據共享與圖書情報工作研究主題的文獻主要聚焦兩項內容:(1)科學數據共享與科技情報工作研究。武士華通過分析發現,科學數據具備情報的3個基本屬性:知識性、傳遞性和效用性,同時科學數據共享與科技情報工作的流程、技術手段相似,因此提出利用情報學手段實現科學數據共享,發揮科技情報人員在科學數據共享工程中的橋梁作用[8];(2)科學數據共享與圖書情報機構研究。魏東原和朱照宇分析了專業圖書館在科學數據共享中的作用:信息資源是科學數據共享平臺建設的基礎,人才資源是科學數據共享平臺建設的保障,公益性促進科學數據共享平臺的可持續發展[9]。孫繼周鑒于E-Science環境下高校圖書館在科學數據管理和科研項目服務中的獨特作用,將其定位為科學數據的過程監護機構、嵌入式管理機構和科學數據存檔與教育機構[10]。楊國立和周鑫提出提高圖書情報機構在數據服務市場中競爭力的方式:面向全方位的數據組織,實現科學數據的按需服務,搭建全范圍的開放研究服務平臺,開展服務營銷,促進科學數據服務生態系統進化,設計全過程的服務管理,培育數據科學家[11]。
圖書情報機構在提供科學數據管理與共享服務方面具有得天獨厚的優勢,具備提供科學數據全生命周期服務的能力,包括基于館藏資源的科學數據開發服務,基于自建服務平臺的科學數據存儲、導航、檢索服務,嵌入式科學數據管理咨詢服務,科學數據分析與計算服務等。但是面對數量龐大、分布分散、異構的科學數據,圖書情報機構亟須解決科學數據融合、實時分析、云服務等關鍵技術難題,以提高科學數據管理與服務的效率。
2011年,首批23個國家科技基礎條件平臺通過認定,各行業和各部門的科學數據共享工作加速推進。高校作為重要的科學數據產出機構,也開始積極探索科學數據管理與共享工作,高校科學數據管理亦成為研究熱點。
高校科學數據管理研究涉及3個議題:(1)數據監護研究。楊鶴林分析了數據監護的定義和意義,從數據監護的內容、技術、戰略實施、發展策略、合作模式等方面介紹了美國高校圖書館的數據監護研究進展[12]。宋秀芬等基于數據生命周期理論,提出了由數據收集、評價、組織、處理、描述、訪問、再利用七個階段組成的高校圖書館的數據監護流程管理框架[13];(2)高校科學數據管理體系研究。胡永生和劉穎在科研用戶科學數據管理需求調研的基礎上,提出了高校圖書館的科學數據管理對策,包括加強對科學數據管理的宣傳,探索科學數據合作管理模式,邀請用戶全程參與科學數據管理項目,培養科學數據管理人才[14]。陳大慶構建了由數據管理需求評估、政策與戰略規劃、經營規劃與可持續發展、具體實施細節與機制組成的數據管理服務實施框架體系[15]。劉瓊和劉桂鋒以信息生態學理論為指導,構建了由服務儲備、服務內容、服務渠道等三項核心要素組成的高校圖書館數據管理計劃服務框架體系[16];(3)高校科學數據服務模式研究。崔宇紅基于數據管理統一連續體的概念,提出研究型圖書館在科學數據管理中的作用將從選擇、采集、組織、授權、保存數據和數據集,轉向參與制定數據管理原型和架構、標準規范和政策[17]。錢鵬和鄭建明構建了以基于機構知識庫的科學數據平臺為核心的高校科學數據組織與服務模型[18]。尹春曉基于協同理論和嵌入式服務理念,構建了包含政策環境層、技術支撐層、科學數據管理服務層和服務支撐層的高校科學數據管理嵌入式服務模式[19]。
高校科學數據管理是國內研究者最為關注的領域,在案例調研方面取得了大量研究成果。今后應加強高校科學數據管理規章制度和業務規范研究,探索校際科學數據共建共享合作機制,開展基于云計算的數據存儲服務和基于關聯數據的數據分析服務研究[20]。
科學數據的開放共享是實現數據驅動創新,發揮數據價值的重要前提。2010年前后,眾多國際組織、歐美等國政府和研究機構陸續制定了科學數據開放共享政策,國內也隨之掀起科學數據開放共享政策研究熱潮。
科學數據開放共享政策研究包括政策內容研究和政策保障體系研究兩大領域:(1)科學數據開放共享政策內容研究。劉細文和熊瑞調研了國外主要國家和機構制定的科學數據開放獲取政策,發現其政策內容主要包括數據開放資助、數據質量管理、數據合法保護、數據保存、數據共享利用等5個方面[21]。尤霞光和盛小平通過調研發現,國際組織的科學數據開放共享政策主要包括OA重要性聲明、利益相關者責任、數據質量、數據互操作、數據評估、知識產權保護等主題[22];(2)科學數據開放共享政策保障體系研究。衛軍朝等人在調研國外科學數據開放政策的基礎上,從系統性和整體性的角度構建了由科學數據開放的框架性政策、標準與范圍政策、過程保障政策、安全保障政策組成的科學數據開放政策保障體系[23]。唐義等將科學數據共享政策法規體系劃分為3個層次,其中宏觀層次的科學數據共享政策法規包括國際組織發布的科學數據共享宣言、指南、原則,國家或地區制定的科學數據共享法律或政策;中觀層次的科學數據共享政策法規包括科研資助機構制定的科學數據共享政策、指南;微觀層次的科學數據共享政策法規包括期刊社和科研機構制定的科學數據共享政策[24]。
我國的科學數據開放共享尚處于起步階段,亟待制定國家、行業、機構等多個層面的科學數據開放共享政策,以規范和推進科學數據開放共享活動。然而國內的科學數據開放共享政策研究基本處于介紹國外先進政策實例的階段,對我國科學數據開放共享方式、管理機制、知識產權保護,以及政策框架和政策體系的研究有待深入[25]。
隨著科學數據開放共享的廣泛開展,如何有效保護科學數據管理服務各利益相關者的權益也被提上研究日程。科學數據管理服務涉及的利益相關者包括科學數據貢獻者、科研團隊與成員、政府行政機構、科研資助機構、數據出版方、圖書館界、網絡運營服務商等[26]。
該主題的研究涉及科學數據權益理論研究和圖書館科學數據服務中的權益管理研究兩個維度:(1)科學數據權益理論研究。顧立平從科學數據管理中的各方權益關系人、科學數據權益的管理層級、科學數據權益管理的使用權益與引用、科學數據的存儲權益和采集、科學數據的傳播權益與發布、科學數據的共享權益與政策等方面對科學數據權益問題進行了分析[27],并根據科學數據權益管理流程,建立了科學數據的權利與利益關系、形式、政策研究框架[28]。張閃閃等從科學數據內容重用的權益相關者、權益內容與轉移、權益許可政策等3個方面,對科學數據內容重用中的權益問題進行了理論分析[29];(2)圖書館科學數據服務中的權益管理研究。鄒中才等梳理了科學數據管理規劃、存儲處理、發布與重用等不同階段,科學數據提供者、創建者、發布者、利用者等的相關權益,分析了圖書館在科學數據服務的不同階段需要注意的權益管理問題[30]。
上述研究從理論層面對科學數據權益問題進行了深入探討,具有極高的實踐指導價值。如何科學計量不同的利益相關者在科學數據收集、組織、存儲、提供利用中的貢獻程度,如何在科學管理和科學評價中有效保障利益相關者的權益,是今后需要進一步研究的問題。
科學數據共享平臺是提供科學數據服務的重要基礎設施。“十一五”(2006—2010年)期間,科技部、財政部支持建設了14個科學數據共享平臺。“十二五”(2011—2015年)期間,氣象、地球系統、農業、林業、地震、人口健康等6家數據共享平臺納入國家科技平臺體系[31]。在此背景下,科學數據共享平臺研究成為學界的熱點議題。
以科學數據共享平臺為主題的研究文獻較多,研究內容主要包括3個方面:(1)科學數據共享平臺案例研究。朱玲等介紹了北京大學開放研究數據平臺的建設機制、系統選型、元數據方案、唯一標識符方案、本地化功能開發、應用效果[32]。張計龍等介紹了復旦大學社會科學數據共享平臺的數據管理、數據服務、數據交換、數據監護、共享與服務等功能[33]。袁紅衛等對麻省理工學院科學數據管理與共享平臺的數據組織與檢索服務、數據管理服務、附加服務等進行了研究[34];(2)科學數據共享平臺比較研究。劉茲恒和曾麗瑩對國內高校的10個科學數據管理與共享平臺進行了比較分析,并提出了平臺發展建議:由圖書館主導,以學科服務平臺或機構知識庫為基礎,豐富平臺數據資源,優化平臺功能設計[35]。衛軍朝和張春芳對國內外十余個科學數據管理平臺進行了比較研究,發現國外科學數據管理平臺建設較快,并且已經開始服務于科學研究全過程,而國內科學數據管理平臺較少,并且僅提供數據存儲和發布服務[36]。崔旭等調研了國內外科學數據管理平臺的建設情況,提出科學數據管理平臺建設的對策,包括建立多元化的資金投入機制,加強異質機構之間的合作,建立數據管理價值鏈,拓展平臺服務方式,高校圖書館積極與IT企業、科研機構合作[37];(3)科學數據共享平臺評價研究。劉桂鋒等基于國外代表性開放政府數據評估項目的評估框架和評估指標,結合科學數據開放平臺的特點,構建了包括4個一級指標、25個二級指標、92個三級指標的科學數據開放平臺評價指標體系[38]。周宇等根據數據監護平臺的特征與功能需求,采用德爾斐法和層次分析法,構建了由7個一級指標、34個二級指標構成的數據監護平臺評價指標體系[39]。
我國的科學數據共享平臺建設相對滯后,但是相關研究成果豐碩,從平臺建設實踐介紹拓展到了平臺評價研究。今后應加強科學數據管理平臺開源軟件的開發研究,助力打造具有國際影響力的科學數據管理類開源軟件;加強科學數據管理平臺的協同開發機制研究,探索多元化的經費投入和建設模式;開展科學數據管理平臺聯盟研究,促進科學數據平臺建設的規范化和標準化,推動科學數據共建共享。
我國的科學數據研究目前正處于高速發展階段。鑒于科學數據管理與共享涉及各個學科領域,今后應結合各個學科領域的科學數據評估和科學數據共享環境建設,以及具體學科領域科學數據實踐的深入調查,開展綜合研究,即由以圖書情報學研究為主,向多學科融合研究拓展。
按照國際科技數據委員會對我國科學數據管理與共享發展階段的劃分,我國進入科學數據管理與共享實踐的第三階段——統一管理下的規范化發展階段已將近10年時間,但是我國科學數據研究的關注點仍然主要聚焦于科學數據管理與共享實踐的第二階段——數據共享環境建設階段的研究議題。因此,國內研究者應及時調整研究重心,更多關注與國內科學數據管理與共享實踐進展緊密相關的研究主題,重點加強對以下問題的研究:(1)科學數據開放共享中的權益保障、機構協同;(2)科學數據質量評價、價值評估、共享效益評價;(3)科學數據共享中數據授權的機制、方式、技術等。科學數據研究應與時俱進,以充分發揮理論研究對實踐活動的指導作用,促進我國科學數據管理與共享事業的發展。