劉盼博
(黑龍江大學 信息管理學院,黑龍江 哈爾濱 150080)
科研數據是科研人員分析或驗證研究結果所必需的原始材料,是支撐研究論文和科研項目成果的基礎,是學術研究過程中的重要產出,更是推動科學發展的重要因素。隨著科研機制的轉換,大量科研數據具有不可替代的學術價值,各國已對科研數據如何進行科學高效的服務達成共識,從科研數據服務的模型構建、框架、政策等理論研究上升至培訓服務、政策制定與平臺建設等應用實踐方面。對Re3data展開檢索,時間截至2021年6月14日,其中美國以1 115個數據知識庫居于榜首,緊隨其后的是擁有454個的德國,排名第3的是英國,共300個,已超越第4名歐洲聯盟的280個,表明英國在歐洲聯盟和國際科研數據服務領域占有重要地位。因此,分析英國科研數據服務實踐領域對于我國相關領域的實踐應用具有較高的參考價值。
國外科研數據服務實踐起步較早,所以國內眾多學者以國外科研機構為樣本進行研究,以此參考借鑒,已圍繞科研數據服務實踐這一主題有諸多研究。通過文獻調研發現,國外科研機構主要從政策制定、團隊建設和服務項目等3個方面進行實踐。在政策制定方面,美國、英國和澳大利亞的很多高校相繼出臺了科研數據管理相關的中央政策文件。趙蕾霞等[1]、王繼娜[2]針對美國高校圖書館科研數據管理服務的政策展開調查,發現劍橋大學、牛津大學、耶魯大學和康奈爾大學等都出臺了相關政策;王瓊等[3]從科研數據保存內容、科研數據保存期限及銷毀、科研數據保存描述、科研數據保存格式、科研數據保存位置、科研數據保存機構與責任、科研數據保存權益等方面調查了英國科研數據保存政策,全面反映了英國科研數據保存政策的特點。團隊建設方面,胡慕海等[4]分析了科研數據服務團隊成員數據素養能力的偏好預測特點;王利君等[5]總結了羅素大學集團的專業化崗位設置和人才隊伍,明確了各職位的職能范圍。在服務項目方面,劉桂鋒等[6]對美國高校圖書館的數據管理計劃、數據保存、數據共享、數據引用等方面的服務內容進行了調研探討;金貞燕等[7]對英國、美國和澳大利亞科研數據服務平臺的服務內容以及服務過程進行了分析;胥文彬[8]則調研了國外高校圖書館數字學術服務,包括數字學術空間服務、數字人文服務、科學數據服務和數字技術支持服務等。從以上研究可發現,學者們的關注反映出我國對科研數據服務的重視均體現在對國外已有成果研究的基礎上為我國相關領域提出建議。
與此同時,國內許多科研機構在科研數據服務實踐方面不斷進步。崔海媛等[9]以北京大學圖書館為例,探究支持用戶數據驅動研究范式需求的一流研究數據管理服務,如其研究成果、框架設計、構建經驗與服務效果等實踐。周力虹等[10]調研了復旦大學圖書館、北京大學圖書館、上海外國語大學圖書館組建的平臺現已初步具備存儲、備份和長期保存功能等問題。張宇等[11]通過調研發現國內僅有北京大學、復旦大學、武漢大學、上海外國語大學、中國科學院大學、香港大學、香港科技大學提供科研數據服務,其中所提供的服務并不全面,仍有一定的發展空間。這表明國內關于科研數據服務實踐的探索較少,為更深入討論國內未來科研數據服務實踐發展方向,本文以英國數據服務門戶為研究對象,從詞頻和共現網絡的角度對科研數據服務實踐現狀展開分析。
筆者選取英國數據服務門戶的相關數據為研究對象。英國數據服務(UK Data Service)由經濟及社會研究理事會(ESRC)資助,是一個英國國家性的公共機構,是科研數據管理的開拓者,開展管理服務時間較早,體系與服務實踐相對成熟,其相關部門(英國研究理事會(RCUK)、縱向研究中心以及歐盟委員會等)提出制定過若干有關數據管理的規定與條款,包括數據共享、相關服務實踐的計劃、指南以及政策等方面的舉措,在數據管理方面取得較多實踐經驗。如其相關部門之一英國研究理事會發布的《RCUK數據政策共同原則》,明確規定數據管理的使用政策,鼓勵科研人員在完成科研項目后及時公開科研數據成果,有效促進本領域或相關領域高質量研究和創新;另一相關部門通過的《通用數據保護條例》(GDPR)是全球范圍內數據產業規制的一個里程碑式事件[12],主要目的是加強用戶對個人數據的控制權,對處理它的公司施加更嚴格的規定并確保公司采用新技術處理大量涌入的數據。
筆者以英國數據服務門戶(https://www.ukdataservice.ac.uk/)2011—2020年發布的Event(會議名稱、類型、簡介、時間等)數據庫為數據樣本,使用Python網絡爬蟲技術對其開展數據采集(采集時間截至2020年12月30日),共收集到Event數據1 006條,經過去重與清洗等處理后(對于那些在網站已發布的信息由于某種原因導致取消或某條信息無法獲取及丟失的一并剔除),最終獲得有效數據801條。
文章利用Python和Ucient v6社會網絡分析軟件,首先以“二八定律”為原則選取通過Python計算得出的高頻關鍵詞進行歸類總結分析,從而明確英國科研數據服務的熱門實踐領域以及社會、經濟、地理等領域應用后得到的成熟經驗。
筆者運用Python計算英國數據服務Event數據中的關鍵詞詞頻,對原始數據進行人工甄別與選擇,清洗無實義的關鍵詞,如英國、數據管理、數據等;對部分同義詞或近義詞合并處理,如空間和地理合并為空間地理。數據顯示,2011—2020年英國數據服務801條Event信息中共獲取5 627個有效關鍵詞,關鍵詞出現的總累計頻次為20 709次,平均出現頻次約為3.7次。筆者將其分為3類:其一,研討會、會議、課程、項目等位于詞頻序列表的前6位,表明英國數據服務重視相關科研領域或學者的交流學習;其二,從方法、技術的角度來看,英國數據服務重視采用新技術和新工具,模型、可視化、定量、數據庫等內容在實踐中反復出現,可見技術方法是英國數據服務發展的奠基石;其三,通過整體詞頻序列表可發現,英國數據服務已涉及社會、經濟、醫療健康,地理、人口普查、環境等學科領域。
為了更為清晰地揭示出學科領域內部的結構特征,需將可視化技術與共詞分析法相結合,以知識圖譜的形式直觀地反映出學科領域內各個研究主題之間的關聯強度,從而探究高頻關鍵詞之間的內在聯系。依托上文英國數據服務關鍵詞序列表,開展關鍵詞共現網絡分析。使用清博關鍵詞分析軟件將上述關鍵詞轉換成可以由Ucinet處理的關鍵詞共現二值矩陣,將矩陣輸入Ucinet后,得到英國數據服務關鍵詞網絡分析。
該分析考察科研數據管理服務實踐熱門領域,越在中心位置,代表熱度越高,頻次越高,明確了其主導地位,由此可以得出:地理、環境等數據最終均以可視化的形式呈現給用戶;最為顯著的是數據、英國、網絡、研討會、數據服務、社會、人口普查以及用戶,和每一個關鍵詞關聯性較強,存在緊密聯系;實踐領域以面向用戶的社會服務角度為基礎,技術為輔,向經濟、用戶、國際、檔案館等領域不斷發展;位于最外圈的學生、結構化、數據庫、格式化、軟件等關鍵詞關聯性較弱,正在不斷發展,未能實踐應用到更多領域;以英國、數據為中心,形成了一環套一環向外擴展的現象,第一圈為數據服務、研討會、用戶、課程、經驗、網絡等關鍵詞,作為數據服務基礎應用領域發展學習的必要方式與要素,為第二圈與第三圈的家庭、經濟、政策、環境、技術、地理、工具、定性等實踐領域與技術應用做鋪墊,越到內圈越是目前熱門實踐領域。
隨著各學科從理論到實踐研究的發展,英國數據服務實踐需求愈發強烈。以上文關鍵詞與熱門實踐領域的數據分析結果為基礎,結合英國數據服務門戶Event中所提供信息的特征,從社會數據服務、醫療健康、技術方法、服務形式及內容等4個方面對英國數據服務實踐領域進行深入分析,明晰英國數據服務實踐領域發展現狀。
筆者總結了英國數據服務社會方面的實踐。
(1)人口普查。對于英國每天從事定量研究、市場研究或統計工作的戶主或任何使用人口數據的用戶來說,人口普查的結束可能被視為一個重大事件。英國與我國一樣重視人口普查,此數據均是各國最大的數據集合,提供一系列可作為教學目的使用的英國出生隊列研究和英國老齡縱向研究數據。此外英國提供一系列格式的人口普查數據訪問,包括有關地區人口和家庭特征的計數(匯總數據)、區域間通勤和遷移移動數據(流量數據)、用于靈活使用的記錄匿名樣本(微數據)以及繪制地圖所需的邊界數據,涉及英國各地人口目前和歷史人口與社會經濟特征的廣泛信息。這些數據大部分無須注冊即可訪問,也可以在短暫注冊后訪問。英國試圖開發一種新的人口普查數據產品,以替代復雜的ONS縱向研究管理人口普查數據帶來的挑戰。為此人口普查數據可以提供小地方和經常被忽略的群體數據,做有針對性的政策調整與地方福利,從而明晰人口普查數據在英國數據服務中不可撼動的地位和其重要性。
(2)地理。大量地理空間數據集可通過英國數據服務人口普查支持作為開放數據提供,任何人都可以下載。上文所提到的數據資源均是由英國家庭縱向研究(UKHLS)和英國縱向研究(UKLS)為研究人員提供,結合地理相關問題進行可視化顯示,其掌握的很多數據將感興趣的研究人員聚集在地理空間大數據、地理空間可視化、地理人口學、健康地理和制圖領域工作,為地理學科領域吸納了各個專業領域的人才,發揮其優勢,有效提高地理在各學科領域的延伸發展,以期將其他學科數據或地理相關數據融貫匯通,實現各學科領域間的積極發展。
英國數據服務應用并借鑒了不同的數字技術。(1)編程技術。使用R,SPSS,Python,Apache Hadoop,Spark等工具用于數據清理、數據分析、數據處理等操作,對數據進行一系列的操作之后,存儲在Graph和NoSQL數據庫中。(2)數據收集技術。創建可擴展的開源工具,該工具能夠以各種格式(包括 DDI 編解碼器)收集元數據,并供搜索門戶和其他下游系統使用。(3)可視化技術。使用聚合統計信息(InFuse)和小區域邊界數據(Boundary Data Selector)從英國數據服務中訪問和提取人口普查、地理、經濟等數據,利用PSPP對在輸出區域規模上構建小區域分類所需的步驟進行概念理解,使用QGIS聚類組成并在空間上顯示可視化結果,避免用戶耗費大量時間閱讀復雜難懂的數據。(4)數據重用。數據重用是公平競賽原則的最后要素,長期以來一直被視為數據共享的核心利益,為此英國數據服務探討了UKDS數據集和機器數據的重用,以使數據更具可重用性或授予計算機數據重用權限的可能性。
通過上述分析不難發現,英國數據服務具有實踐領域和覆蓋用戶群體廣等特點,這些對于突破國內數據服務的桎梏極具借鑒意義,故筆者選取加強計算機技術的普及和多學科融合發展進行闡述。
我國科研人員忽視了計算機技術在科研數據管理中起到的關鍵性作用。首先,國內科研人員缺乏對技術價值的認知;其次,本領域缺乏大量計算機技術尖端人才、教師;最后,缺乏開展科研數據服務的軟件條件。目前,英國數據服務培訓形式則通常面向所有學科的科研人員或初學者,為不同受眾群體開展了適合的培訓課程,內容圍繞著海量的數據集、數據共享、處理以及某一學科領域如何應用計算機技術實現為用戶提供數據服務的目的展開。因此,我國組織機構以及高校科研人員必須提高對計算機技術的認識,鼓勵計算機領域或感興趣科研人員進入數據服務的技術層面,開展各種類型的技術培訓,提高研究人員的計算機技能水平,致力于研究基礎設施建設、軟件工具的開發及應用,為未來發展奠定基礎。
隨著社會的發展,大量學科的進步是相輔相成的,多學科融合在一起,借助其不同的優勢,促進學科發展,提升用戶滿意度。我國在這方面發展則是緩慢的,而根據上文英國科研數據服務實踐,重視地理空間數據和經濟數據等經驗來看,國內未能全方位拓展實踐領域,要多學科相融合,實現多贏的目標。地理數據和經濟數據對于各國國家安全均具有舉足輕重的地位,我國應基于數據鏈接、可視化和人口普查結合地理數據等數據空間分析的實例,以滿足公民需求、保持經濟增長和確保可持續性。
科研數據的價值日益凸顯,科學研究范式與體系的轉變、科研數據服務內容的豐富以及開放獲取的進步,孕育開放數據和數據服務需求戰略,國內外各大機構紛紛參與這股潮流中,同時也為傳統機構提供了創新改革的機會,不被時代大潮所拋棄。但整體上國內機構的科研數據管理服務實踐仍處于起步階段,而英國不僅應用于科研領域還應用到地理、經濟和社會等領域,這個過程是漫長的,需要資金、技術、人才、軟硬件設施、精通科研數據和應用領域的專業人員等條件。組織機構需深刻了解每個可應用的領域以及國內外最佳實踐,結合自身優勢,建設一套完善的數據服務實踐機制,推動科研數據服務不斷進步。