嚴 珊
(中南財經政法大學圖書館 湖北武漢 430074)
大數據是指在一定時間和范圍內無法用現有的常規軟件對其內容進行抓取、管理和處理的數據集合。這些數據是隨著互聯網、社交網絡等信息技術的迅速發展和廣泛運用而產生的,在組成結構、類型格式、存在形態上各具特色,且具有種類多、體量大、流量大的特點。為了從各種各樣類型的數據中快速獲得有價值的信息,數據挖掘、分布式文件系統等大數據技術不斷產生。在高校圖書館數字化進程中,圖書館所擁有的數據在一定程度上具備大數據的特征[1],主要表現在:①圖書館數據種類眾多:除紙質書、光盤、數據庫資源等結構化數據外,還包括因用戶瀏覽、借閱書籍和管理人員日常維護等圖書館服務環節產生的非結構化數據;②數據體量龐大:如CALIS(中國高等教育文獻保障系統,China Academic Library & Information System)、CASHL(中國高校人文社會科學文獻中心,China Academic Humanities and Social Sciences Library)等文獻保障系統;③數據處理快:由于電子資源出現和移動設備的廣泛應用,圖書館數據流量增長迅速,為了保證數據的時效性,需要即時地對這些數據進行處理,其價值才能得以發揮;④圖書館數據的價值巨大但密度較低:海量數據中存在著很多冗余信息,因此圖書館數據呈現低價值密度的特點。因此,對圖書館大數據的研究有利于圖書館更好地適應時代發展、更好地進行學科服務和個性化服務。
自2010年以來,我國圖書館大數據的研究文獻迅速增長,涉及的主題也不斷豐富,如大數據時代圖書館個性化服務研究[2-5]、圖書館大數據挖掘與處理[6-10]、圖書館大數據與信息分析[11-15]等。由于對圖書館大數據研究的內容紛繁復雜,側重點各不相同,因此亟需探索與分析目前我國圖書館大數據的研究現狀與熱點。基于以上考慮,本文借助Sati、Ucinet、Gephi和Netdraw等研究工具,對圖書館大數據相關文獻的年發布量、期刊來源、高被引文章、高產作者和高頻關鍵詞進行分析。通過對文獻外表和內容特征的分析,直觀展示我國圖書館大數據領域的研究現狀和熱點,為未來我國圖書館大數據的研究提供參考。
在中國知網(CNKI)全文數據庫中,選擇“圖書情報與數字圖書館”學科,以“圖書館”+“大數據”為主題詞,對檢索年份不作限制,檢索時間截止到2017年12月31日,文獻來源為核心期刊(即北京大學《中文核心期刊要目總覽》來源期刊,112種)和CSSCI期刊(即CSSCI中文社會科學引文索引來源期刊,62種)。通過精確檢索,共檢索到文獻541篇,剔除相關會議通知、征文和新聞稿以及重復發表等無效文獻后,共檢索出501篇文獻。
將501篇文獻題錄信息以Endnote格式存儲于txt文件中,借助文獻題錄信息分析工具Sati先對歷年來相關文獻的發文量、發文期刊、高被引文章以及高產作者的信息進行提取、統計和分析,采用共詞分析方法對文獻的關鍵詞進行詞頻統計并形成共詞矩陣,利用社會網絡分析方法,選取Sati3.2、Ucinet6.186、Gephi0.9.2和Netdraw2.119等軟件,繪制網絡知識圖譜、聚類圖譜和多維尺度圖等對圖書館大數據的研究現狀進行探析。
運用Sati3.2對501篇文獻按字段“年”進行抽取,并進行頻次排序,得到每年發文量和累計發文量(見表1)。從表1可知,與“圖書館”和“大數據”主題相關的文獻每年發文量總體呈上升的趨勢。2012 年為圖書館大數據研究的起步階段,與此相關的文獻較少,僅4篇;2014—2016年呈快速發展態勢;2017年略有下降,但2017年與此相關的文獻也達到116篇。說明圖書館大數據依然是學術界研究的熱點。

表1 圖書館大數據相關文獻發文量統計表
對載文期刊進行文獻計量分析可以揭示與“圖書館大數據”相關論文的空間分布特點,進而確定該研究領域的核心期刊,以便為該領域的深入研究提供有效的文獻和期刊參考源。運用知網計量可視化分析對501篇文獻按字段“來源”進行分析,以此得出表2。

表2 載文期刊的載文量分布
從表2可知,501篇有效文獻中,載文量4篇以上的有23種期刊,這23種期刊總發文量占比達93.41%。載文量30篇以上的期刊有《現代情報》《圖書情報工作》《圖書館工作與研究》《圖書館理論與實踐》《圖書館學研究》《新世紀圖書館》《圖書與情報》,這7種期刊的載文量占比達到59.88%,說明與圖書館大數據相關文獻有期刊聚集現象,這與期刊的欄目設置有關。
對501篇文章進行統計分析,其中有197篇為合著論文,合作率達到39.32%。用當年合作論文數除以當年論文總數,得出該年的作者合作率,如圖1所示。2012—2017年間我國與“圖書館+大數據”相關的核心期刊文獻作者合作率呈現出先下降后上升的趨勢,但合作論文絕對數呈上升趨勢。2015年之后,論文合作率均高于平均合作率。這說明近3年來,我國“圖書館+大數據”領域的論文作者合作率逐年上升,有逐步形成該領域學科共同體的趨勢,但還不夠成熟。

圖1 作者合作率趨勢圖

圖2 研究作者合作網絡圖譜
利用Netdraw2.119軟件對501篇文獻中發文量不少于2篇的作者按點度中心度(degree)進行統計分析,得到94位作者的合作網絡圖,如圖2所示。在圖2中,每個正方形即一個節點代表1位作者,形狀越大表示該作者的中心度越高,在社交網絡中的重要性越大。由圖2可知,94位作者僅形成了5個團隊,其中合作頻率最高的是周兵、熊太純、柳益君、李仁璞、何勝、馮新翎、武群輝團隊;其次是陳蓉蓉、朱鎖玲、施文、倪峰、唐惠燕團隊;合作頻率排第3的是陳臣、馬曉婷、尚慶生、梁俊榮、陳雙飛團隊;合作頻率排第4的是張興旺、郭自寬、李晨輝、鄭聰團隊;合作頻率排第5的是謝蓉、張磊、劉煒團隊。左邊一排36位作者沒有與其他作者合作,其他作者合作頻率較低僅有1次,說明國內對圖書館大數據研究領域進行探索的團隊還不夠成熟。
(1)關鍵詞詞頻分析
關鍵詞是文獻核心內容的濃縮與提煉,若某關鍵詞在相關文獻中出現的次數越多,就表示該關鍵詞所表征的主題是該領域中的研究熱點,因此本文對關鍵詞的詞頻進行統計分析。在共詞分析過程中,對于關鍵詞選取有兩種方法:限制選詞個數和限制詞頻閾值,本文結合“圖書館+大數據”研究領域關鍵詞的分布情況,選取詞頻不低于5的關鍵詞共44個來構建共詞網絡,對關鍵詞的詞頻做降序排列后結果如表3所示。從表3可以看出,關鍵詞中出現頻率較高的是“大數據”“圖書館”“高校圖書館”“數字圖書館”“知識服務”“數據挖掘”等。詞頻統計能看出學界對這些關鍵詞的關注度,在一定程度上反映該領域的研究熱點。

表3 高頻關鍵詞統計(部分)
(2)高被引文獻分析
高被引文獻在一定程度上反映了該領域目前的研究熱點和趨勢。本文在501篇文獻樣本中選擇被引次數超過20的文獻,提取關鍵詞來分析。從表4可以看出,“圖書館大數據”領域的研究熱點是“云計算”“數字圖書館”“數據挖掘”“個性化服務”等。

表4 高被引文獻關鍵詞統計
(3)高頻關鍵詞共現矩陣分析
為了進一步對關鍵詞進行聚類分析,更好地對圖書館大數據研究現狀和熱點主題進行歸納總結,此處利用Sati3.2 軟件構造一個44×44的高頻關鍵詞關系矩陣,如表5所示。表5中,對角線表格上的數值表示的是對應的關鍵詞在所有相關文獻中總共出現的次數,表格上其余的數值表示的是行列上對應的關鍵詞在相關文獻中共同出現的次數,如大數據是260篇相關文獻中的關鍵詞,它和高校圖書館在相關文獻中共同作為關鍵詞的次數是47次。

表5 高頻關鍵詞共現矩陣(部分)
(1)關鍵詞共現網絡圖譜
使用Gephi0.9.2軟件對關鍵詞共現矩陣進行可視化分析,便于清晰看出關鍵詞之間的關系。如圖3所示,圓形節點越大,表示該關鍵詞在網絡圖譜中越重要;節點之間的連線,其粗細和多少表示關鍵詞之間的緊密程度。連線越粗,表示其聯系程度越緊密;連線越多,代表該關鍵詞與其他關鍵詞共現次數越多。連線的多少和粗細可以說明研究領域的核心和熱點問題。從高頻關鍵詞可視化圖譜中可看出,大數據、圖書館、高校圖書館等是網絡圖譜中聯系最緊密、出現詞頻最多的關鍵詞,是整個網絡圖的核心;其次是數字圖書館、知識服務、數據挖掘等;再次是大數據時代、個性化服務、數據服務、數據素養等。除核心關鍵詞之外,高頻關鍵詞可視化圖譜中最外圍的一圈圓形較小的節點表示其余高頻關鍵詞之間的聯系不緊密,這說明圖書館大數據研究領域目前范圍較小,還處于發展階段,研究主題在不斷地向外放射擴展。
(2)研究進展分析
為更好地表現出“圖書館+大數據”研究熱點的變化趨勢,本文對歷年來“圖書館+大數據”相關的研究作了統計,根據統計結果繪制出501篇文獻的時間-關鍵詞的2模網絡,見圖4。圖4顯示,“圖書館+大數據”的研究領域隨著時間的推移在不斷拓展,2012年關于“圖書館+大數據”研究較少,且主要集中在云計算和數據挖掘;2013年關于“圖書館+大數據”的研究開始增加,主要研究圖書館與大數據的結合、數字圖書館、知識服務;2014—2016年研究主題逐漸向外圍拓展,包括圖書館與大數據的結合、數字圖書館、知識服務、數據挖掘、個性化服務等方向;2017年研究主題進一步發散開,出現新的研究熱點,如學科服務、服務模式、用戶需求等。說明關于“圖書館+大數據”的研究從最初的理論探索到后來逐漸貼近實際,不僅關注到新一代大數據技術在圖書館中的應用,也考慮到館員應根據時代變化來提升自我的信息素養,以及圖書館應根據用戶需求改變服務模式、提升服務水平等。

圖3 高頻關鍵詞可視化圖譜(詞頻≥5)
大數據環境下,圖書館如何適應時代發展并做到與時俱進是國內圖書情報領域研究的重點。該領域研究內容廣泛,研究力度也在逐步加強。眾多學者認為大數據在為高校圖書館的發展帶來機遇的同時也帶來了挑戰[16-18],且從資源建設、信息服務、用戶研究等不同角度探討了高校圖書館應對大數據環境的對策。在大數據時代,深入開展嵌入式創客服務[19]、圖書館移動服務創新等[20];圖書館資源建設應采取樹立大數據思維、培養大數據館員等手段[21-22],并采取聯盟統一方式進行數字資源建設與管理,以實現高校圖書館數字資源共享[23];穩固進行實體音視頻資源的館藏建設,接軌網絡技術,挖掘網絡音視頻資源[24];運用移動技術、大數據技術構建UGC資源生態、融合跨界資源提升競爭力,發揮互聯網技術在優化資源配置方面的作用來構建大數據時代下的圖書館資源[25]。

圖4 時間-關鍵詞2模網絡圖
數據挖掘是指從大量數據中識別新穎的、有效的及具有潛在價值的信息的過程。大數據環境下,圖書情報機構產生的大量非結構化數據,如檢索記錄數據、用戶借閱數據等,不僅數量繁多且類型復雜,數據挖掘技術在圖書館的應用可以揭示這些數據的潛在價值。目前數據挖掘已經在圖書館資源建設、個性化信息服務、用戶滿意度調查中實現應用。例如,馬曉亭設計了一種圖書館大數據可視化分析系統,該系統可以從日趨龐大的數據中快速提煉出有用的信息,能夠有效分析圖書館數據變化情況,發現大數據背后隱藏的豐富信息,進而為讀者創造更高的服務價值[2];利用云計算,陳臣構建了圖書館大數據分析與決策平臺,通過大幅度提高圖書情報機構海量數據的處理能力,能夠發現情報機構大數據之間存在的關系和規則,可有效預測圖書情報機構服務未來的發展趨勢,從而增強圖書情報機構服務決策的準確性和科學性[4]。
信息分析即情報分析,指以社會用戶的特定需求為依托,以定性和定量研究方法為手段,對大量相關信息進行收集、整理、鑒別、評價、分析、綜合的深層次的思維加工和分析研究,形成新的、增值的有助于問題解決的新信息的勞動過程。為了揭示海量的非結構化數據的價值,信息分析工作也隨之發生著巨大的變革。基于Hadoop的圖書館非結構化大數據分析與決策系統可以快速分析圖書館中的海量非結構化數據,為圖書館決策和讀者服務提供支持[11]。郭春霞分析了高校圖書館的非結構化數據特性,將其分為同型異源數據、異型異源數據、同型同源數據3種,構建了非結構化數據的融合分析流程,適合高校圖書館非結構數據的挖掘和管理[14]。
數量巨大、類型多樣、增長迅猛的大數據對圖書館信息服務發展帶來前所未有的機遇,將有效推動圖書館服務技術變革、服務模式創新、服務能力提升[26]。姚鵬提出注重服務號的開設、提供深度服務、優化推文的推送時間、提升推文的原創率、注重活動策劃、注重校園美文的推送、提升大數據讀者信息管理服務、拓展讀者社群服務有助于提升圖書館微信平臺的服務能力[27]。李艷等人提出基于“大數據+微服務”的模式體系能夠快速且有效地融入高校圖書館未來的建設發展中,為構建圖書館個性化服務提供技術支撐[28]。
本文基于文獻計量分析的視角,以繪制知識圖譜的形式,分析“圖書館大數據”的研究現狀與熱點趨勢,得出了以下3點結論:①關鍵詞共現圖譜表明,圖書館大數據研究成果的關鍵詞共現網絡相對集中,都是圍繞圖書館大數據開展的研究,研究方向的多樣性體現出圖書館大數據研究的橫向擴展;②從研究關鍵詞聚類分析圖可以發現,圖書館大數據研究主題較多,主題變化較快,主要集中于大數據與圖書館、數據挖掘與管理、大數據與信息分析、大數據與圖書館服務4個主題;③通過研究熱點分析可知“圖書館+大數據”的研究從最初的理論研究、現象解析到后來逐漸貼近實際,不僅關注到新一代信息技術在圖書館中的應用,也考慮到館員應根據時代變化提升信息素養以及圖書館應根據用戶需求改變服務模式,提升服務水平等。
參考文獻:
[1]馬杜鷥.大數據環境下高校圖書館知識服務的開放與共享[J].圖書館學刊,2017(8):61-65.
[2]馬曉亭.基于情景大數據的圖書館個性化服務推薦系統研究[J].現代情報,2016,36(4):90-94.
[3]楊利軍,高軍.圖書館個性化服務中的大數據可視化分析與應用研究[J].現代情報,2015,35(7):68-72.
[4]陳臣.大數據時代基于個性化服務的數字圖書館數據搜索引擎設計[J].圖書館理論與實踐,2015(4):91-94.
[5]楊亮,雷智雁.大數據環境下圖書館個性化服務研究[J].現代情報,2014,34(4):74-77.
[6]柳益君,何勝,熊太純,等.大數據挖掘視角下的圖書館智慧服務:模型、技術和服務[J].現代情報,2017,37(11):81-86.
[7]曹霞.高校圖書館非結構化大數據的D-SFSD管理模式研究[J].圖書館學研究,2014(1):57-60.
[8]吳丹.專題:基于OPAC日志挖掘的移動圖書館用戶檢索行為研究 序[J].圖書情報工作,2016,60(18):5.
[9]嵇婷,吳政.公共文化服務大數據的來源、采集與分析研究[J].圖書館建設,2015(11):21-24.
[10]張興旺,李晨暉.數字圖書館大數據知識服務體系協同設計研究[J].圖書與情報,2015(3):61-70.
[11]陳臣.基于Hadoop的圖書館非結構化大數據分析與決策系統研究[J].情報科學,2017,35(1):24-28.
[12]陳近,文庭孝.基于云計算的圖書館大數據服務研究[J].圖書館,2016(1):52-56,68.
[13]張興旺,李晨暉.當圖書館遇上“互聯網+”[J].圖書與情報,2015(4):63-70.
[14]郭春霞.大數據環境下高校圖書館非結構化數據融合分析[J].圖書館學研究,2015(5):30-34.
[15]文庭孝,姜坷炘,趙陽,等.大數據時代的信息分析變革研究[J].圖書情報知識,2015(5):66-73.
[16]蘇新寧.大數據時代數字圖書館面臨的機遇和挑戰[J].中國圖書館學報,2015,41(6):4-12.
[17]康春鵬,杜蕊.大數據給圖書館帶來的機遇與挑戰[J].現代情報,2014,34(5):47-49,55.
[18]何勝,熊太純,周冰,等.高校圖書館大數據服務現實困境與應用模式分析[J].圖書情報工作,2015,59(22):50-55.
[19]刁羽.大數據環境下高校圖書館嵌入創客群體信息服務的策略探索[J].圖書館學研究,2016(16):70-75.
[20]陳茫,周力青,呂艷娥.大數據時代下的圖書館移動服務創新研究[J].圖書與情報,2014(1):117-121.
[21]袁芳.大數據環境下圖書館文獻資源建設模式的變革[J].圖書情報工作,2015,59(18):91-94.
[22]邱慶東.知識資源建設中的圖書館員需求能力分析[J].圖書與情報,2016(3):90-93.
[23]何建新.大數據時代高校圖書館的數字資源共享策略探討[J].現代情報,2014,34(9):101-104,110.
[24]趙琨.大數據環境下圖書館音視頻資源發展及建設研究[J].圖書館建設,2015(2):64-68.
[25]嵇婷,吳政.公共文化服務大數據的來源、采集與分析研究[J].圖書館建設,2015(11):21-24.
[26]毛曉燕.大數據環境下圖書館信息服務走向分析[J].圖書館工作與研究,2014(3):72-75.
[27]姚鵬.高校圖書館微信服務大數據研究:以“985”工程高校為例[J].圖書館學研究,2017(4):62-67,50.
[28]李艷,呂鵬,李瓏.基于大數據挖掘與決策分析體系的高校圖書館個性化服務研究[J].圖書情報知識,2016(2):60-68.