伊雷 王婷 郭倩玲 張建文
(北京化工大學圖書館,北京100029)
大數(shù)據(jù)背景下高校圖書館開展知識服務的探索與實踐*——以北京化工大學圖書館為例
伊雷王婷郭倩玲張建文
(北京化工大學圖書館,北京100029)
大數(shù)據(jù)時代究竟如何通過挖掘海量文獻數(shù)據(jù)提供知識服務,在高校圖書館界尚未達成一致意見。但開展大數(shù)據(jù)知識服務,是高校圖書館未來發(fā)展的一個重要方向,這一點已經(jīng)逐漸成為共識。利用文獻計量學分析高校學科發(fā)展狀況,為學校制定學科發(fā)展戰(zhàn)略提供參考依據(jù),是目前高校圖書館利用大數(shù)據(jù)開展知識服務的具體途徑之一。
高校圖書館大數(shù)據(jù)知識服務
“隨著云計算、物聯(lián)網(wǎng)以及信息獲取和存儲技術的飛速發(fā)展,數(shù)據(jù)正以幾何級數(shù)的速率迅速增長和積累。目前全球已經(jīng)步入了大數(shù)據(jù)時代[1]。”大數(shù)據(jù)時代是網(wǎng)絡社會發(fā)展的更高階段,其特點是“數(shù)據(jù)生成速度加快、采集實現(xiàn)自動化、存儲和傳輸成本大幅降低,數(shù)據(jù)量急劇膨脹”[2]。在這一背景下,高校廣大師生獲取文獻資源的途徑越來越多,高校圖書館傳統(tǒng)粗放的服務方式已然不能適應學校發(fā)展需要,這就要求必須在保證文獻資源數(shù)量與質量的同時,在服務師生的方式、方法上不斷創(chuàng)新。因此,高校圖書館如何為師生提供大數(shù)據(jù)知識服務,已成為值得研究的課題。所謂大數(shù)據(jù)知識服務“是為適應信息服務智慧化、協(xié)作化、綠色化、先覺化和泛在化的發(fā)展趨勢而衍生的一種基于網(wǎng)絡的信息服務新模式”[3]。高校圖書館開展大數(shù)據(jù)知識服務就是要通過挖掘海量學術數(shù)據(jù)資源為廣大師生提供前瞻性服務。
高校圖書館歷來對信息技術的應用非常重視,幾乎每一項新技術的出現(xiàn),都能推動其服務升級。大數(shù)據(jù)時代,高校圖書館的數(shù)據(jù)處理方式、目的等都將發(fā)生巨變。在數(shù)字時代,高校圖書館的數(shù)據(jù)處理主要是將文獻資料數(shù)字化、網(wǎng)絡化,其目的是實現(xiàn)師生對學術數(shù)據(jù)的充分利用;進入大數(shù)據(jù)時代,對海量文獻數(shù)據(jù)的分析、處理將成為高校圖書館發(fā)展的新趨勢,其服務重心也會逐漸由傳統(tǒng)業(yè)務向數(shù)據(jù)挖掘轉移。在實踐方面,哈佛大學圖書館已引入大數(shù)據(jù)服務[4];清華大學圖書館正嘗試在大數(shù)據(jù)環(huán)境下從元數(shù)據(jù)中提取關鍵詞等信息,分析關鍵詞走向及作者與合作者的關系,試圖建立以人為中心的知識關聯(lián)網(wǎng)絡[5]。
作為一種全新的服務方式,大數(shù)據(jù)知識服務是在海量數(shù)據(jù)的獲取、存儲、分析等過程產生的以數(shù)字化、網(wǎng)絡化、智能化為基礎的服務模式。在大數(shù)據(jù)時代對海量數(shù)據(jù)的處理能力意味著獲取知識方式的改變。Jim Gray因此提出科學研究的第四范式——以協(xié)同化、網(wǎng)絡化與數(shù)據(jù)驅動為其主要特征的數(shù)據(jù)密集型科學研究[6]。作為未來服務的新模式,大數(shù)據(jù)知識服務將成為高校圖書館轉型發(fā)展的新方向。
如何在大數(shù)據(jù)時代開展知識服務,目前高校圖書館界正處于探索階段,尚沒有統(tǒng)一的模式。北京化工大學圖書館也進行了一些嘗試。主要涉及以下幾個方面:第一,采用定量分析方法,通過引文數(shù)據(jù)庫Web of Science考察了2001~2014年北京化工大學(以下簡稱北化)學者們的總發(fā)文量、總被引次數(shù)、每篇論文的平均被引次數(shù)、H指數(shù)等多個指標,利用H指數(shù)將數(shù)量指標(論文數(shù)量)和質量指標(被引頻次)有機結合,使評價結果更加合理。在此基礎上,結合人才類型、研究人員層次、學術生涯年限等多個影響因素,探討現(xiàn)有文獻計量方法和體系的局限性,闡釋如何正確解讀上述評價指標,以便學校決策者們能夠正確地應用這些指標,對老師們的學術影響力做出科學評價。第二,對2001~2014年度以北化為機構的SCI收錄論文進行分析。并從研究方向、發(fā)表期刊分布特點以及論文作者群等屬性進行統(tǒng)計,對它們的分布規(guī)律和內在聯(lián)系進行梳理,以期研究科研產出特點,為學校制定科研政策、交叉學科發(fā)展、國際化戰(zhàn)略等提供數(shù)據(jù)支撐。第三,利用文獻計量分析法,借助Cite Space軟件生成可視化圖譜,通過學科地圖等形式,定量、可視化地深入揭示北化各科群的分布情況,進而系統(tǒng)探討其研究維度,以期把握北化的學科交叉以及滲透融合狀況,內容包括學科分布、合作情況分析、研究方向演化及研究熱點分析、研究前沿分析等。第四,利用Innography專利檢索與分析平臺制作了詳細的專利分析報告,內容涉及當前北化的專利擁有量、專利價值評價、創(chuàng)新優(yōu)勢學科、活躍學科發(fā)明人、專利的合作申請分析、國外專利申請情況分析等。
3.1利用文獻計量分析學科發(fā)展水平
利用文獻計量分析學科發(fā)展水平,是高校圖書館在大數(shù)據(jù)時代開展知識服務的具體途徑之一。例如,通過大量文獻計量分析,我們發(fā)現(xiàn)Chemistry、Materials Science、Engineer?ing、Polymer Science和Physics為北化最為集中的研究方向。

圖1 主要研究方向及其分布
對以上5個主要科研方向求和,得到的總計數(shù)以及總百分比數(shù)(110%)均高于所發(fā)表論文的總篇數(shù),說明這5個研究方向及其交叉學科是北化科研產出的重要組成部分。并由此可以看出,北化科研產出具有較強的學科集中性。
圖2化學方向關聯(lián)情況
同時通過Citespace軟件對熱點研究方向相關文獻的分布情況進行分析(用節(jié)點代表分析對象,節(jié)點大小表明對象的量級,用節(jié)點之間連接線表明文獻之間的關聯(lián)性)發(fā)現(xiàn)nanoparticles是出現(xiàn)次數(shù)最多的
,與之關聯(lián)的為nanocrystals(圖2)。此外,由water、seperation和absorbtion為
的文獻構成了一組關聯(lián)性非常強的研究熱點。用同樣方法對其他4個熱點研究方向進行分析得到圖3。
圖3材料科學方向關聯(lián)情況
圖4工程方向關聯(lián)情況
圖5高分子科學方向關聯(lián)情況
圖6物理學方向關聯(lián)情況
通過對圖2~6進行分析,發(fā)現(xiàn)上述5個熱點研究方向其有著非常強的相似性。由此可見北化的研究領域單一,分散性差,高水平研究方向過于集中,學科發(fā)展不均衡。
3.2利用專業(yè)平臺分析學科發(fā)展特色
利用Innograph對北化專利數(shù)據(jù)進行統(tǒng)計,研究其背后的學科發(fā)展信息。
第一,重點研究領域分析。將北化全部專利申請按照IPC統(tǒng)計分析生成樹狀分布圖(圖7),圖7中區(qū)塊的不同顏色表示某領域全球專利總量的多少,區(qū)塊面積的大小代表北化專利申請數(shù)量在某領域的多少。由圖7可見北化在B部和C部申請的專利最多。再取專利申請量排名前10位的IPC小類進行分析,由此可看出北化的重點研發(fā)方向。表1為專利申請量排名前10位的IPC小類及對應的技術領域。結合圖7和表1可以看出,北化申請的專利中,B部中以催化和塑料加工領域為主,C部中以高分子化合物領域為最多。說明北化專利發(fā)明集中在催化、塑料加工、高分子材料等領域。

圖7 北化專利IPC分類樹狀分布
第二,熱門研究領域競爭力分析。北化專利在該領域的國內競爭力情況見圖8。競爭力分析圖中氣泡大小代表專利數(shù)量多少;橫坐標與專利比重、專利分類、引用情況相關,橫坐標越大,說明其專利技術性越強;縱坐標與專利權人的收入高低、專利國家分布、專利涉案情況有關,縱坐標越大,說明專利權人實力越強。在該領域,中石化在公司實力、專利質量和數(shù)量上遙遙領先,巴斯夫的專利數(shù)量較大。其他機構在專利質量和數(shù)量上相差不大,在這些機構中,除中石油、贏創(chuàng)、殼牌、美孚、住友、陶氏等幾家公司外,主要為高校,北化在這些機構中占有一席之地,但也面臨著激烈競爭。

表1 北化專利申請量排名前10位的IPC小類及對應的技術領域

圖8 催化領域北化有效專利在國內的競爭力
北化面臨的競爭主要來自清華、復旦等大學。為了更好地了解對手,對清華、復旦等大學在該領域的專利申請進行文本聚類分析,以了解這兩所大學的研究技術熱點。兩所大學專利申請的文本聚類如圖9所示。由圖9可以看出,清華大學的主要研究熱點為催化活性組分和催化反應器;復旦大學的研究熱點為沸石、分子篩和二氧化鈦在催化方面的應用。北化在該領域的研究熱點為復合金屬氧化物、納米粒子和分子篩在催化方面的應用及催化劑活性組分方面,其在反應器和廢水處理方面研究較少。

圖9 兩所大學在催化領域專利申請的文本聚類
3.3利用大數(shù)據(jù)發(fā)現(xiàn)潛在學科領軍人才
高校學科建設領軍人才是促進高校學科建設的核心人物。在普通高校中,所謂學科建設領軍人才主要包括4個層次:第一層次是以我國兩院院士為代表的高級人才。第二層次是以“長江學者”為代表的高端人才,也包括“千人計劃”及“973首席科學家”等。第三層次是國家杰出青年科學基金入選者。國家杰出青年科學基金用于支持在基礎研究方面已取得突出成績的青年學者自主選擇研究方向開展創(chuàng)新研究,旨在培養(yǎng)造就一批進入世界科技前沿的優(yōu)秀學術帶頭人。第四層次是“新世紀優(yōu)秀人才支持計劃”入選者。“新世紀優(yōu)秀人才支持計劃”屬于教育部“高層次創(chuàng)造性人才計劃”的第二層次(第一層次是“長江學者”),是對高校優(yōu)秀青年學術帶頭人的一個支持計劃。
然而,對于高校而言,直接引進這些人才的成本太高。另一方面,這些人才都是稀缺資源,高校對他們的爭奪也很激烈,所以在操作層面即使不計成本,這些人才也并不是很好引進的。因此,如果能夠利用學術大數(shù)據(jù)挖掘一批好苗子進行引進,假以數(shù)年培養(yǎng),使其成為領軍人才,其成本和難度則會大大降低。
在北化引進人才的過程中,我們曾設想利用H指數(shù)和ESI高被引論文等多種指標對其學術潛力進行多方面考察,看其是否具備成長為長江學者和院士的素質。H指數(shù)的優(yōu)點是既考慮了論文的數(shù)量指標,又考慮了論文的質量指標,而且更多地聚焦于高被引頻次論文,只有當論文數(shù)量和質量均有良好表現(xiàn)時,才會獲得較高的H指數(shù),這是目前世界上公認的相對比較科學的評價指標。從北化的具體情況來看,第一梯隊人才的H指數(shù)一般都能夠達到30以上,第二梯隊人才的H指數(shù)介于20~30之間。
然而,H指數(shù)也存在不足之處。具體表現(xiàn)為H指數(shù)更多地反映了學者在基礎研究領域內的影響力,對于主要從事應用技術開發(fā)的科研人員,用H指數(shù)就無法公正地體現(xiàn)其學術貢獻;尤其是對于年輕的學術新星,即使單篇論文的被引頻次很高,也無法獲得較高的H指數(shù)。他們必須經(jīng)過長期的學術積累,才能夠在H指數(shù)上有較好的表現(xiàn)。因此,單從H指數(shù)來評價年輕學者,不利于發(fā)掘新人;H指數(shù)學科差異性很大,對不同學科人才的H指數(shù)進行橫向對比是不可取的。
因此,運用H指數(shù)進行評價時,還要綜合考慮被評價學者的類型、學科領域、層次、學術生涯年限等諸多因素影響,并結合專利授權量和轉化量、獲得國家獎勵情況等多種評價指標建立綜合評價體系(例如,ESI高被引論文應納入考察和發(fā)掘科學領軍人才的重要指標之一),才能使得評價結果更為合理、客觀和科學。
總之,合理運用多項評價指標,密切關注高層次的學術影響力動態(tài),及時發(fā)掘新人,才能進一步推動高校人才隊伍建設和學科發(fā)展。
目前,高校圖書館開展大數(shù)據(jù)知識服務正處于探索階段。究竟如何通過挖掘海量文獻數(shù)據(jù),從大數(shù)據(jù)中獲取新知,在高校圖書館界尚未達成共識。但開展大數(shù)據(jù)知識服務,從而不斷提升高校圖書館的服務品質,是高校圖書館未來發(fā)展的一個重要方向,這一點應該不會有疑義。開展大數(shù)據(jù)知識服務將使高校圖書館迎來一個新時代。高校圖書館不同于公共圖書館之處在于其服務對象和服務功能相對單一,主要對象是高校廣大師生,其主要功能是服務高校的教學、科研發(fā)展。因此,北化圖書館在開展大數(shù)據(jù)知識服務探索時,特別關注兩個方向,其一為知識發(fā)現(xiàn),其二為人才發(fā)現(xiàn)。這兩個方向將是我們未來開展大數(shù)據(jù)知識服務的主要方向。
[1]秦小華,王紅濤.大數(shù)據(jù)時代的高校圖書館服務創(chuàng)新[J].中國科技信息,2014(22):221-222.
[2]鐘輝新.大數(shù)據(jù)時代信息服務的發(fā)展走向及高校圖書館應對策略[C].廣東圖書館學會學術年會論文集,2013.
[3]秦曉珠,李晨暉,麥范金.大數(shù)據(jù)知識服務的內涵、典型特征及概念模型[J].情報資料工作,2013(2):18-22.
[4]WATTERS A.Strata Week:Harvard Library releases big da?ta for its books:Harvard offers big data for books,Cloudera’s new Hadoop distribution,Splunk goes public[EB/OL].[2013-10-09].http://radar.oreilly.com/2012/04/harvard-book-da?ta-cloudera-hadoop-splunk-ipo.html.
[5]鄧景康.大數(shù)據(jù)環(huán)境下清華大學圖書館的實踐[N].中國新聞出版報,2013-08-29(005).
[6]Jim G.On eScience:transformed scientific method[C].Tony H,Stewart T,Kirstin T.The fourth needs paradigm:Dataintensive scientific discovery.Redmond,WA:Microsoft Re?search,2009:19-33.
伊雷男,1979年生。碩士,館員。研究方向:數(shù)據(jù)挖掘、學科服務。
王婷女,1976年生。碩士,副研究館員。研究方向:學科服務。
郭倩玲女,1971年生。博士,副研究館員。研究方向:科技查新、專利分析。
張建文男,1969年生。博士,教授。研究方向:圖書館管理。
G258.6
*本文系中央高校基本科研業(yè)務費項目(ZZ1403);北京化工大學圖書館館長基金(20141203)研究成果。
(2015-09-28;責編:張欣。)