鄒鑫
關(guān)鍵詞:圖書(shū)館服務(wù);大數(shù)據(jù);數(shù)據(jù)挖掘;數(shù)據(jù)分析
摘要:文章分析了大數(shù)據(jù)理念及其對(duì)圖書(shū)館服務(wù)的影響,指出圖書(shū)館要想真正提供個(gè)性化服務(wù)和智慧服務(wù),使服務(wù)更具價(jià)值,必須將服務(wù)建立在分析、挖掘相關(guān)海量數(shù)據(jù)的基礎(chǔ)上。
中圖分類(lèi)號(hào):G250.7文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1003-1588(2016)09-0112-03
互聯(lián)網(wǎng)促使數(shù)字?jǐn)?shù)據(jù)量猛增,讓人類(lèi)邁入大數(shù)據(jù)時(shí)代,使圖書(shū)館館藏資源與日俱增,數(shù)據(jù)類(lèi)型多種多樣,存儲(chǔ)系統(tǒng)空間日益增大,圖書(shū)館服務(wù)開(kāi)始提供訪(fǎng)問(wèn)、互動(dòng)、共享、數(shù)字化和備份等功能,管理系統(tǒng)支持不同的輸入、輸出密集行為及數(shù)據(jù)查詢(xún)密集行為。因此導(dǎo)致圖書(shū)館相關(guān)數(shù)據(jù)急劇膨脹,造成圖書(shū)館無(wú)法在一定時(shí)間內(nèi)用常規(guī)軟件或工具對(duì)其內(nèi)容進(jìn)行分析、處理和管理,大數(shù)據(jù)開(kāi)始對(duì)圖書(shū)館的服務(wù)方式、館藏結(jié)構(gòu)、管理模式產(chǎn)生重大影響。
1大數(shù)據(jù)內(nèi)涵及理念
1.1大數(shù)據(jù)內(nèi)涵
關(guān)于大數(shù)據(jù),目前學(xué)界尚未形成統(tǒng)一的定義,但是存在一些共識(shí):大數(shù)據(jù)是一個(gè)動(dòng)態(tài)概念,是一個(gè)用來(lái)描述海量的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的流行短語(yǔ),大數(shù)據(jù)的容量非常巨大以至于很難用傳統(tǒng)的數(shù)據(jù)庫(kù)和軟件技術(shù)進(jìn)行存儲(chǔ)、管理和處理。但是,人們沒(méi)有明確提出數(shù)據(jù)量必須達(dá)到TB級(jí)或PB級(jí)才算是大數(shù)據(jù),數(shù)據(jù)量隨著信息技術(shù)的發(fā)展而改變,過(guò)去或目前的大數(shù)據(jù),在未來(lái)可能不再是大數(shù)據(jù)。
大數(shù)據(jù)具有4V特征,即種類(lèi)(Variety)多、速度(Velocity)快、容量(Volume)大、價(jià)值(Value)大[1],其中價(jià)值大是其首要特征。建立數(shù)據(jù)驅(qū)動(dòng)的關(guān)于大數(shù)據(jù)相關(guān)關(guān)系的分析以及建立在相關(guān)關(guān)系分析法基礎(chǔ)上的預(yù)測(cè)是大數(shù)據(jù)的價(jià)值所在[2]。對(duì)圖書(shū)館來(lái)說(shuō),大數(shù)據(jù)的價(jià)值是分析讀者和圖書(shū)館的各種數(shù)據(jù)來(lái)創(chuàng)新、完善圖書(shū)館服務(wù),制定圖書(shū)館未來(lái)發(fā)展策略。
1.2大數(shù)據(jù)理念
大數(shù)據(jù)基本理念是通過(guò)包括互聯(lián)網(wǎng)在內(nèi)的多種渠道收集研究對(duì)象的多維度數(shù)據(jù),通過(guò)對(duì)海量數(shù)據(jù)的關(guān)聯(lián)分析和數(shù)據(jù)挖掘,發(fā)現(xiàn)被研究對(duì)象的潛在行為模式或規(guī)律[3]。
1.2.1提煉數(shù)據(jù)的價(jià)值。大數(shù)據(jù)時(shí)代,重要的不是數(shù)據(jù),而是如何使用數(shù)據(jù)。企業(yè)要想創(chuàng)新發(fā)展立于不敗之地,必須改變它們的經(jīng)營(yíng)方式,學(xué)會(huì)從數(shù)據(jù)中洞察事實(shí)并做出反應(yīng),否則數(shù)據(jù)整理得再有條理,也沒(méi)有什么價(jià)值。美國(guó)麻省理工學(xué)院管理評(píng)論在一個(gè)研究報(bào)告中指出:“頂尖績(jī)效的公司使用正確分析挖掘方法和工具的使用率,與績(jī)效低的公司相比,高出5倍。”[4]可見(jiàn),挖掘數(shù)據(jù)價(jià)值在企業(yè)中非常重要,是人們利用大數(shù)據(jù)進(jìn)行決策、發(fā)現(xiàn)事物規(guī)律的前提。
1.2.2分析數(shù)據(jù),預(yù)知未來(lái)。美國(guó)學(xué)者艾伯特-拉斯洛·巴拉巴西認(rèn)為,93%的人類(lèi)行為均可以通過(guò)數(shù)據(jù)分析予以預(yù)測(cè)[5]。因此,圖書(shū)館要把用戶(hù)訪(fǎng)問(wèn)圖書(shū)館網(wǎng)站、利用資源習(xí)慣、用戶(hù)網(wǎng)絡(luò)行為等數(shù)據(jù)搜集起來(lái),進(jìn)行分析挖掘,去發(fā)現(xiàn)用戶(hù)利用資源的規(guī)律及信息需求特點(diǎn)。
1.2.3服務(wù)精確與個(gè)性化。大數(shù)據(jù)時(shí)代,對(duì)一個(gè)企業(yè)來(lái)說(shuō),它能夠收集來(lái)自電子商務(wù)、企業(yè)網(wǎng)站、博客、微信、移動(dòng)應(yīng)用等不同渠道的用戶(hù)訪(fǎng)問(wèn)、交易和反饋數(shù)據(jù),通過(guò)這些數(shù)據(jù)能夠了解用戶(hù)的全方面信息,通過(guò)分析數(shù)據(jù)幫助企業(yè)針對(duì)不同的用戶(hù)提供更加精確、更加貼心的產(chǎn)品或服務(wù);對(duì)信息服務(wù)機(jī)構(gòu)來(lái)說(shuō),通過(guò)收集、分析用戶(hù)信息,可以提供個(gè)性化服務(wù)或一對(duì)一服務(wù)。
2大數(shù)據(jù)對(duì)圖書(shū)館造成的影響
大數(shù)據(jù)時(shí)代,圖書(shū)館服務(wù)質(zhì)量的提升需要大數(shù)據(jù)的支持,大數(shù)據(jù)將成為圖書(shū)館的核心資產(chǎn),圖書(shū)館對(duì)讀者數(shù)據(jù)進(jìn)行分析、處理和預(yù)測(cè),能夠給讀者提供更好的服務(wù)模式[6]。讀者信息需求呈現(xiàn)個(gè)性化與多樣化,為滿(mǎn)足其需求圖書(shū)館需要分析處理圖書(shū)館與讀者之間、不同服務(wù)數(shù)據(jù)之間、讀者與服務(wù)數(shù)據(jù)之間的關(guān)系數(shù)據(jù),預(yù)測(cè)讀者多樣化需求、提供針對(duì)性服務(wù)和個(gè)性化定制服務(wù)。因此,從海量數(shù)據(jù)中分析潛在的價(jià)值、讀者需求和行為,并通過(guò)個(gè)性化服務(wù)來(lái)滿(mǎn)足讀者獲取信息的效率、準(zhǔn)確性和便捷性,成為影響圖書(shū)館服務(wù)發(fā)展及質(zhì)量提升的關(guān)鍵。
大數(shù)據(jù)對(duì)圖書(shū)館館藏造成的影響主要有:一是數(shù)據(jù)量猛增。過(guò)去圖書(shū)館沒(méi)有關(guān)心或沒(méi)有能力關(guān)心的數(shù)據(jù),如:社交媒體、實(shí)時(shí)位置、智能設(shè)備、傳感器計(jì)量、消費(fèi)痕跡等復(fù)雜業(yè)務(wù)數(shù)據(jù),也成為收藏對(duì)象。另外,隨著資源共享、圖書(shū)館聯(lián)盟建立,有的館藏可用量已達(dá)TB級(jí),甚至PB級(jí)。二是隨著圖書(shū)館越來(lái)越重視個(gè)性化服務(wù),圖書(shū)館系統(tǒng)與網(wǎng)絡(luò)日志、監(jiān)控與服務(wù)視頻、音頻、圖片、網(wǎng)絡(luò)行為及增值服務(wù)信息等非結(jié)構(gòu)化數(shù)據(jù)將占數(shù)字總量的80%以上,大大超越了以數(shù)字文本為主的機(jī)構(gòu)化信息資源的數(shù)據(jù)量。三是圖書(shū)館數(shù)據(jù)量的增長(zhǎng)與數(shù)據(jù)的價(jià)值密度背道而馳,造成圖書(shū)館海量數(shù)據(jù)的價(jià)值密度較低,而圖書(shū)館收藏及提供的信息資源是經(jīng)過(guò)篩選的高質(zhì)量知識(shí)信息。因此,圖書(shū)館需要利用大數(shù)據(jù)技術(shù)與理念處理、挖掘海量數(shù)據(jù)來(lái)提高數(shù)據(jù)的價(jià)值密度和可用性。
3大數(shù)據(jù)環(huán)境下圖書(shū)館服務(wù)的新發(fā)展
3.1數(shù)據(jù)分析與數(shù)據(jù)挖掘是基礎(chǔ)
大數(shù)據(jù)時(shí)代,圖書(shū)館間的競(jìng)爭(zhēng)不僅是對(duì)文獻(xiàn)信息的擁有與組織的競(jìng)爭(zhēng),更多的是對(duì)多類(lèi)型數(shù)據(jù)的擁有、融合、挖掘與利用能力的競(jìng)爭(zhēng),即大數(shù)據(jù)推動(dòng)圖書(shū)館服務(wù)體系從以資源為中心向以數(shù)據(jù)為中心的方向發(fā)展,并且數(shù)據(jù)分析與數(shù)據(jù)挖掘成為圖書(shū)館提供服務(wù)與開(kāi)展工作的基礎(chǔ)。
圖書(shū)館要想提升服務(wù)水平,需要對(duì)用戶(hù)數(shù)據(jù)進(jìn)行分析、處理和預(yù)測(cè),以便提供更好的服務(wù)和更多的服務(wù)方式。圖書(shū)館通過(guò)對(duì)用戶(hù)借閱記錄、數(shù)字資源使用下載行為、網(wǎng)站瀏覽等記錄進(jìn)行分析,建立用戶(hù)數(shù)據(jù)庫(kù),再進(jìn)行用戶(hù)行為模式相似性比對(duì),提供準(zhǔn)確的信息資源推薦及推送服務(wù);通過(guò)對(duì)圖書(shū)借閱率、借閱排行、借閱次數(shù)、訪(fǎng)問(wèn)數(shù)字資源類(lèi)型及時(shí)間、學(xué)習(xí)行為、利用資源模式等記錄進(jìn)行分析,圖書(shū)館能有針對(duì)性地采購(gòu)用戶(hù)需要的信息資源;通過(guò)對(duì)讀者閱讀習(xí)慣、學(xué)習(xí)方式、獲取資源方式等數(shù)據(jù)進(jìn)行分析,圖書(shū)館能科學(xué)合理地完善圖書(shū)館工作流程與服務(wù)模式。
3.2服務(wù)走向個(gè)性化
大數(shù)據(jù)環(huán)境下,圖書(shū)館的服務(wù)策略建立在對(duì)大規(guī)模復(fù)雜數(shù)據(jù)搜集、組織、整理、分析和挖掘的基礎(chǔ)之上,因而大數(shù)據(jù)時(shí)代的圖書(shū)館服務(wù)項(xiàng)目更具有針對(duì)性和操作性[7]。所以圖書(shū)館在解決用戶(hù)問(wèn)題時(shí),可以完全拋棄傳統(tǒng)的解決流程,而采用大數(shù)據(jù)策略的解決方案,即搜集解決用戶(hù)問(wèn)題的相關(guān)數(shù)據(jù),量化分析,再找出相互關(guān)系,給出最優(yōu)解決方案。圖書(shū)館對(duì)數(shù)據(jù)的挖掘、分析,不僅要分析MARC、電子論文、電子圖書(shū)等結(jié)構(gòu)化數(shù)據(jù),還要分析用戶(hù)的借閱行為、閱讀習(xí)慣等非結(jié)構(gòu)化數(shù)據(jù)以及用戶(hù)的網(wǎng)絡(luò)交流、購(gòu)物、娛樂(lè)等網(wǎng)絡(luò)行為數(shù)據(jù),這樣圖書(shū)館才能實(shí)現(xiàn)“一對(duì)一”的個(gè)性化服務(wù)。如:美國(guó)國(guó)會(huì)圖書(shū)館通過(guò)分析館內(nèi)布局與藏書(shū)流通率的關(guān)系,來(lái)量化并預(yù)測(cè)用戶(hù)的借閱行為,進(jìn)而提供針對(duì)性服務(wù)[8]。
3.3服務(wù)趨向智慧性
大數(shù)據(jù)是數(shù)據(jù)世界的智慧基因,分析和應(yīng)用大數(shù)據(jù)是獲得智慧的關(guān)鍵[9]。傳統(tǒng)分析數(shù)據(jù)的思路基本上都是抽取樣本,事先確定收集什么樣的數(shù)據(jù),然后尋找“已知的未知(Known unknows)”,即證實(shí)某一結(jié)論正確。而大數(shù)據(jù)分析則是以全部數(shù)據(jù)為對(duì)象,發(fā)現(xiàn)未知的未知,即找到一些未曾想到的結(jié)果。大數(shù)據(jù)這種發(fā)現(xiàn)未知的未知功能為圖書(shū)館服務(wù)創(chuàng)新、實(shí)現(xiàn)智能化開(kāi)辟了途徑,圖書(shū)館服務(wù)開(kāi)始趨向智慧化發(fā)展:第一,大數(shù)據(jù)技術(shù)不僅能夠利用數(shù)據(jù)了解用戶(hù)、信息行為、意愿、業(yè)務(wù)需求、知識(shí)應(yīng)用能力及服務(wù)需求等,還能夠利用數(shù)據(jù)分析和預(yù)測(cè)用戶(hù)科研創(chuàng)新將要發(fā)生什么,從而提供智慧服務(wù)。第二,對(duì)圖書(shū)館已有信息資源進(jìn)行挖掘,抓取有價(jià)值的知識(shí)、關(guān)系、模式等,對(duì)網(wǎng)絡(luò)免費(fèi)信息資源利用蜘蛛爬行器、自動(dòng)跟蹤等技術(shù)完成對(duì)其搜集、處理和保存等,以便構(gòu)建智慧型知識(shí)服務(wù)引擎。第三,大數(shù)據(jù)時(shí)代,智慧服務(wù)的三個(gè)基本要素是智慧館員、數(shù)據(jù)(知識(shí))和用戶(hù),其中智慧館員是核心和主體。智慧館員不僅要具備掌握分析和預(yù)測(cè)大數(shù)據(jù)的范疇、價(jià)值、狀態(tài)和周期的能力,還要具備靈活運(yùn)用信息技術(shù)、人工智能、自然語(yǔ)言理解、數(shù)學(xué)算法等多學(xué)科先進(jìn)成果的能力。
3.4提供面向創(chuàng)新的知識(shí)服務(wù)
大數(shù)據(jù)環(huán)境下,圖書(shū)館提供面向創(chuàng)新的知識(shí)服務(wù),該服務(wù)以解決用戶(hù)問(wèn)題為核心,深入解決問(wèn)題的各個(gè)環(huán)節(jié),擁有解決問(wèn)題的探索、構(gòu)建和測(cè)試等服務(wù)機(jī)制。此服務(wù)建立用戶(hù)數(shù)據(jù)庫(kù),跟蹤和整理大量文獻(xiàn)(館內(nèi)外信息資源),對(duì)比、篩選與組織相關(guān)內(nèi)容,鑒別、分析可能的結(jié)構(gòu)和趨勢(shì)來(lái)構(gòu)建宏知識(shí),利用大數(shù)據(jù)技術(shù)進(jìn)一步挖掘知識(shí)結(jié)構(gòu)中的沖突、變異和可能性,分析知識(shí)內(nèi)容的發(fā)展趨勢(shì)與路徑,支持對(duì)科技創(chuàng)新未來(lái)演變方向與可能性的挖掘與預(yù)警,從而開(kāi)拓和激發(fā)創(chuàng)新思路與路徑。通過(guò)對(duì)多樣化數(shù)據(jù)和信息的關(guān)聯(lián)與分析,來(lái)支持具體領(lǐng)域的具體問(wèn)題及其解決方法的分析,再根據(jù)需求的動(dòng)態(tài)變化不斷調(diào)適,與用戶(hù)共同探索問(wèn)題的解決方案[10]。
3.5服務(wù)更具價(jià)值
通俗地講,大數(shù)據(jù)技術(shù)就是從海量的各種類(lèi)型的數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值信息的技術(shù),此技術(shù)對(duì)圖書(shū)館服務(wù)質(zhì)量的提升具有很大的幫助。如:圖書(shū)館員利用大數(shù)據(jù)方差分析、判別分析與常規(guī)仿真模型、神經(jīng)網(wǎng)絡(luò)分析相結(jié)合的分析方法,針對(duì)讀者某一具體研究問(wèn)題或研究領(lǐng)域進(jìn)行分析,發(fā)現(xiàn)未被人知的研究方向,預(yù)測(cè)某一學(xué)科的前沿發(fā)展或?qū)W者影響力評(píng)價(jià)等。再如:圖書(shū)館員搜集某一學(xué)科的各種類(lèi)型、各種結(jié)構(gòu)的數(shù)字資源,使用聚類(lèi)分析與大數(shù)據(jù)技術(shù)架構(gòu)相結(jié)合的分析方法,對(duì)該領(lǐng)域的研究方向進(jìn)行歸納、分類(lèi),為讀者提供了解學(xué)科隱含著的發(fā)展趨勢(shì)、學(xué)科文獻(xiàn)之間的聯(lián)系、可視化學(xué)科圖譜等有價(jià)值信息。
參考文獻(xiàn):
[1]郭育艷.大數(shù)據(jù)時(shí)代圖書(shū)館信息服務(wù)的創(chuàng)新[J].鄭州航空工業(yè)管理學(xué)院學(xué)報(bào),2014(1):122-124.
[2]維克托·邁爾-舍恩伯格,肯尼思·庫(kù)克耶.大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革[M].杭州:浙江人民出版社,2012:150-156.
[3]李善青,趙輝,宋立榮.基于大數(shù)據(jù)挖掘的科技項(xiàng)目查重模型研究[J].圖書(shū)館論壇,2014(2):78-83.
[4]Bill Franks.駕馭大數(shù)據(jù)[M].北京:人民郵電出版社,2013:60-78.
[5]艾伯特-拉斯洛·巴拉巴西.爆發(fā):大數(shù)據(jù)時(shí)代預(yù)見(jiàn)未來(lái)的新思維[M].北京:中國(guó)人民大學(xué)出版社,2012:99-110.
[6]韓翠峰.大數(shù)據(jù)時(shí)代圖書(shū)館的服務(wù)創(chuàng)新與發(fā)展[J].圖書(shū)館,2013(1):121-122.
[7]楊海燕.大數(shù)據(jù)時(shí)代的圖書(shū)館服務(wù)淺析[J].圖書(shū)與情報(bào),2012(4):120-122.
[8]王天泥.知識(shí)咨詢(xún):大數(shù)據(jù)時(shí)代圖書(shū)館的知識(shí)服務(wù)增長(zhǎng)點(diǎn)[J].圖書(shū)與情報(bào),2013(2):74-77.
[9]韓煒.大數(shù)據(jù)時(shí)代公共圖書(shū)館消除數(shù)據(jù)不平等的路徑選擇[J].圖書(shū)館論壇,2014(3):14-21.
[10]張曉林.研究圖書(shū)館2020:嵌入式協(xié)作化知識(shí)實(shí)驗(yàn)室?[J].中國(guó)圖書(shū)館學(xué)報(bào),2012(1):11-20.
(編校:徐黎娟)