徐 蕾,孔 偉
(南京信息工程大學(xué) 圖書(shū)館,江蘇 南京 210044)
2018 年10 月,中國(guó)圖書(shū)館學(xué)會(huì)舉辦智慧圖書(shū)館建設(shè)與服務(wù)研討會(huì),明確提出掌握智慧圖書(shū)館發(fā)展現(xiàn)狀、交流智慧圖書(shū)館建設(shè)經(jīng)驗(yàn)、培養(yǎng)智慧圖書(shū)館建設(shè)專(zhuān)業(yè)人才,從而推動(dòng)我國(guó)圖書(shū)館事業(yè)走向世界前列。不難看出,學(xué)界和業(yè)界已經(jīng)把智慧圖書(shū)館作為未來(lái)圖書(shū)館發(fā)展和建設(shè)的方向。我國(guó)自2005 年開(kāi)始智慧圖書(shū)館的實(shí)踐和研究,多位專(zhuān)家對(duì)其概念做出了詳細(xì)的定義。嚴(yán)棟[1]認(rèn)為智慧圖書(shū)館只是通過(guò)新的技術(shù)來(lái)改變?nèi)撕蛨D書(shū)館的信息交互方式,并且提出了“智慧圖書(shū)館=圖書(shū)館+物聯(lián)網(wǎng)+云計(jì)算+智慧化設(shè)備”這一等式,但筆者認(rèn)為智慧圖書(shū)館并不單純是一個(gè)建筑加上技術(shù)的硬件結(jié)合體。筆者比較贊同王世偉[2-3]對(duì)于智慧圖書(shū)館的定義,“智慧圖書(shū)館是以數(shù)字化、網(wǎng)絡(luò)化和智能化技術(shù)為支撐,而以人為本,為讀者提供更為方便的服務(wù)才是智慧圖書(shū)館的核心”。因此,本研究擬在該概念上進(jìn)行擴(kuò)展:智慧圖書(shū)館的服務(wù)對(duì)象不僅僅是讀者,也包括管理人員和服務(wù)人員。
在當(dāng)前大數(shù)據(jù)的背景下,智慧圖書(shū)館的建設(shè)應(yīng)當(dāng)秉承其收集、整理、收藏圖書(shū)資料以供人閱覽、參考的基本理念[4]。大數(shù)據(jù)是指在社會(huì)生產(chǎn)實(shí)踐中所產(chǎn)生的數(shù)量極大的、形式多樣的數(shù)據(jù)集合[5-6]。托勒夫早在1983 年就預(yù)言到“大數(shù)據(jù)”時(shí)代的到來(lái)并稱(chēng)贊其為“第三次浪潮中的華彩樂(lè)章”[7],在當(dāng)今社會(huì)下主動(dòng)擁抱大數(shù)據(jù)成為各個(gè)行業(yè)發(fā)展的基本方向。如今,讀者、管理人員和服務(wù)人員與智慧圖書(shū)館的交互形式多樣,既發(fā)生在實(shí)在環(huán)境,又發(fā)生在擬態(tài)環(huán)境,其含義早已不僅僅是簡(jiǎn)單的借書(shū)、還書(shū)、整理書(shū),更多是人與智慧圖書(shū)館在網(wǎng)絡(luò)空間中基于數(shù)據(jù)的交互。智慧圖書(shū)館快速有效收集、處理、分析、應(yīng)用數(shù)據(jù)的能力能夠極大提高讀者的滿(mǎn)意度,降低管理人員的決策難度,增強(qiáng)服務(wù)人員的工作效率。
由于當(dāng)前圖書(shū)館在數(shù)字化時(shí)代累積了龐大且不斷增加的數(shù)據(jù)資源(包括館藏?cái)?shù)據(jù)資源、用戶(hù)數(shù)據(jù)、工作數(shù)據(jù)等)[8],以及讀者群體數(shù)量和對(duì)于圖書(shū)資源的多元化需求快速增長(zhǎng),增加數(shù)據(jù)中心設(shè)備的傳統(tǒng)模式難以為繼。當(dāng)前圖書(shū)館首先應(yīng)該在了解讀者的共性要求和個(gè)性需求的基礎(chǔ)上拓展服務(wù)對(duì)象,其次在分析讀者的差異性閱讀愛(ài)好基礎(chǔ)上創(chuàng)新個(gè)性化服務(wù),最后在獲取可靠數(shù)據(jù)的基礎(chǔ)上精確化圖書(shū)館的決策管理。但與之矛盾的是,當(dāng)前圖書(shū)館處理數(shù)據(jù)能力的相對(duì)落后使得大量的讀者閱讀的實(shí)時(shí)數(shù)據(jù)、館員工作的實(shí)時(shí)數(shù)據(jù)等沒(méi)有被收集和處理;圖書(shū)館資源不是基于對(duì)讀者的閱讀需求的深入理解[9],并且館員主動(dòng)提供優(yōu)質(zhì)服務(wù)的能力不足[10];數(shù)據(jù)資源應(yīng)用能力較低,不能為決策提供有效的輔助。因此,提高當(dāng)前圖書(shū)館數(shù)據(jù)處理、個(gè)性化推薦和決策輔助能力成為建設(shè)智慧圖書(shū)館的關(guān)鍵。
數(shù)據(jù)處理是大數(shù)據(jù)的基礎(chǔ),是信息的收集、存儲(chǔ)、檢索、加工及轉(zhuǎn)換等過(guò)程[11],簡(jiǎn)單來(lái)說(shuō)就是收集和操作數(shù)據(jù)項(xiàng)來(lái)產(chǎn)生有意義的信息。但是傳統(tǒng)的圖書(shū)館面對(duì)大量的讀者的實(shí)時(shí)訪(fǎng)問(wèn)和閱讀信息、館員的實(shí)時(shí)工作信息等卻達(dá)不到充分收集和處理的標(biāo)準(zhǔn)。而圖書(shū)館對(duì)于數(shù)據(jù)的實(shí)時(shí)采集和處理能力,將為下一步的數(shù)據(jù)分析提供基礎(chǔ)支持。
在圖書(shū)館數(shù)據(jù)處理方面,2017 年柳益君等[12]使用一個(gè)開(kāi)源的分布式海量日志收集系統(tǒng)Flume,將用戶(hù)訪(fǎng)問(wèn)的數(shù)據(jù)日志定期地收集和存儲(chǔ)在分布式存儲(chǔ)中。同年,白林林等[13]使用Drupal 框架來(lái)采集數(shù)據(jù)。但是這些研究只考慮了從外部信息平臺(tái)獲取圖書(shū)館數(shù)據(jù),沒(méi)有考慮圖書(shū)館本身也有大量的內(nèi)部數(shù)據(jù)產(chǎn)生。2018年,劉景亮等[14]、曹健等[15]、陳臣[16]側(cè)重使用基于Hadoop 框架來(lái)構(gòu)建智慧圖書(shū)館內(nèi)外部數(shù)據(jù)的收集和處理,但是由于“Hadoop + MapReduce”框架在面對(duì)海量的實(shí)時(shí)數(shù)據(jù)時(shí)是基于磁盤(pán)進(jìn)行分布式批量處理,因此存在較大的延遲,不能對(duì)實(shí)時(shí)性要求高的圖書(shū)館數(shù)據(jù)處理任務(wù)做出及時(shí)的響應(yīng)。
個(gè)性化推薦服務(wù)是智慧圖書(shū)館的核心,是圖書(shū)館從被動(dòng)式提供文獻(xiàn)查閱向主動(dòng)為用戶(hù)提供內(nèi)容閱讀服務(wù)轉(zhuǎn)變的技術(shù)保障。這要求在新的時(shí)期下,圖書(shū)館能夠利用大數(shù)據(jù)中的推薦技術(shù),繼承和創(chuàng)新圖書(shū)館的服務(wù)模式,完善個(gè)性化推送服務(wù)。
在圖書(shū)館個(gè)性化推薦服務(wù)方面,柳益君等[17]、李欣[18]通過(guò)使用有關(guān)用戶(hù)閱讀習(xí)慣等關(guān)聯(lián)性來(lái)制定一種廣泛性的信息集聯(lián)和篩選規(guī)則,但是其關(guān)聯(lián)性規(guī)則需要人工制定、修改、刪除,館員工作量巨大且規(guī)則更新緩慢。左素素[19]、黃宇[20]等使用基于內(nèi)容過(guò)濾的推薦算法,通過(guò)建立用戶(hù)需求向量和文本資源向量的相似度比較來(lái)對(duì)讀者進(jìn)行內(nèi)容的個(gè)性化推薦。但上述方案?jìng)?cè)重于文本內(nèi)容的特征提取,面對(duì)智慧圖書(shū)館中的多媒體資料不能有效反映其內(nèi)容的特征向量,兩者準(zhǔn)確度相差較大。
智慧圖書(shū)館相關(guān)決策的制定包括圖書(shū)館書(shū)籍或者電子資源的采購(gòu)、館員人數(shù)的分配等。目前傳統(tǒng)圖書(shū)館在制定采購(gòu)計(jì)劃時(shí)容易受到主觀因素和個(gè)人因素的影響,導(dǎo)致計(jì)劃缺乏全面性和繼承性。在新時(shí)代信息化的背景下,圖書(shū)館采購(gòu)資源時(shí)應(yīng)該主動(dòng)依靠大數(shù)據(jù)的相關(guān)技術(shù),為讀者提供更具吸引力的閱讀體驗(yàn)。
在圖書(shū)館決策輔助方面,嚴(yán)建援[21]提出使用層次分析法來(lái)進(jìn)行圖書(shū)館的決策輔助,通過(guò)將人們的主觀判斷和客觀標(biāo)準(zhǔn)結(jié)合起來(lái),將若干種圖書(shū)種類(lèi)按照其適合程度進(jìn)行排序,但是方法評(píng)價(jià)指標(biāo)的權(quán)值依賴(lài)個(gè)人和專(zhuān)家,具有相當(dāng)大的主觀性和不確定性。田磊等[22]、遲春佳等[23]通過(guò)分類(lèi)的方法找出利用率不同的圖書(shū)的類(lèi)別,使用聚類(lèi)的方法對(duì)利用率較高的圖書(shū)種類(lèi)進(jìn)行分析,制定出相對(duì)精確的采購(gòu)書(shū)目。但是上述方案對(duì)非線(xiàn)性決策邊界處理的性能較差,且需要圖書(shū)館管理員設(shè)定集群的數(shù)量。
綜上所述,國(guó)內(nèi)外研究學(xué)者對(duì)智慧圖書(shū)館數(shù)據(jù)處理、個(gè)性化推薦和決策輔助已做了大量的研究,但現(xiàn)有的研究還存在以下問(wèn)題:
(1)現(xiàn)有圖書(shū)館數(shù)據(jù)處理的方法,如“Hadoop+MapReduce”大數(shù)據(jù)采集和處理框架,一是沒(méi)有考慮當(dāng)前圖書(shū)館處理實(shí)時(shí)數(shù)據(jù)的任務(wù)量較大,二是面對(duì)海量數(shù)據(jù)的處理延遲較大。
(2)圖書(shū)館個(gè)性化推薦現(xiàn)有的研究成果在對(duì)數(shù)據(jù)進(jìn)行分析時(shí),缺乏自動(dòng)化的關(guān)聯(lián)規(guī)則制定和可拓展的非文本的數(shù)據(jù)資源處理方法。
(3)現(xiàn)有的圖書(shū)館決策輔助機(jī)制研究尚未成熟,主要還是依靠個(gè)人經(jīng)驗(yàn)和專(zhuān)家指導(dǎo)來(lái)采購(gòu)圖書(shū)館資源,主觀性和不確定性相對(duì)較大;同時(shí)數(shù)據(jù)挖掘算法如分類(lèi)和聚類(lèi)具有只解決特定問(wèn)題的局限性。
為了解決上述問(wèn)題,本文從智慧圖書(shū)館建設(shè)的實(shí)際出發(fā),以服務(wù)讀者為中心,構(gòu)建了基于大數(shù)據(jù)的智慧圖書(shū)館系統(tǒng)框架(見(jiàn)圖1 所示)。將智慧圖書(shū)館分為物理層資源、數(shù)據(jù)處理層、數(shù)據(jù)分析層和數(shù)據(jù)應(yīng)用層。

圖1 基于大數(shù)據(jù)的智慧圖書(shū)館系統(tǒng)框架圖
(1)物理層資源。這是由硬件存儲(chǔ)器存儲(chǔ)的數(shù)據(jù)、傳感器和內(nèi)部網(wǎng)絡(luò)收集的讀者閱讀數(shù)據(jù)、外部互聯(lián)網(wǎng)中收集的有關(guān)圖書(shū)館或者圖書(shū)更新的數(shù)據(jù)組成,并且通過(guò)較成熟的RFID、WiFi、ZigBee 和NFC 等數(shù)據(jù)傳輸協(xié)議將圖書(shū)館收集的數(shù)據(jù)傳送到數(shù)據(jù)處理層。
(2)數(shù)據(jù)處理層?;赟park 大數(shù)據(jù)處理技術(shù)實(shí)時(shí)地收集和處理相關(guān)的業(yè)務(wù)數(shù)據(jù),并且將雜亂異構(gòu)的數(shù)據(jù)抽取和轉(zhuǎn)換成有特定含義的、符合特定需求的、有意義的數(shù)據(jù)。
(3)數(shù)據(jù)分析層。根據(jù)不同的需求,基于處理后的數(shù)據(jù)使用混合型的協(xié)同過(guò)濾算法來(lái)進(jìn)行個(gè)性化的推薦。
(4)數(shù)據(jù)應(yīng)用層。在數(shù)據(jù)應(yīng)用層針對(duì)決策輔助這一特定的應(yīng)用環(huán)境,通過(guò)方差分析模型來(lái)輔助采購(gòu)的決策,減少圖書(shū)采購(gòu)環(huán)節(jié)主觀性大且片面的缺陷。
讀者對(duì)于圖書(shū)館能夠?qū)崿F(xiàn)廣泛互聯(lián)、資源共享[24]的呼聲越來(lái)越高,這就意味著圖書(shū)館的數(shù)據(jù)庫(kù)資源和業(yè)務(wù)數(shù)據(jù)會(huì)空前地增加。傳統(tǒng)的Hadoop MapReduce框架會(huì)把大量的數(shù)據(jù)交由網(wǎng)絡(luò)上的各個(gè)節(jié)點(diǎn)處理,最后返回處理結(jié)果,但是由于數(shù)據(jù)處理過(guò)程中需要不斷地進(jìn)行磁盤(pán)IO 操作,延時(shí)較高。Spark 框架將執(zhí)行模型變?yōu)橛邢驘o(wú)環(huán)圖執(zhí)行計(jì)劃(DAG),將中間的運(yùn)算結(jié)果寫(xiě)入內(nèi)存當(dāng)中,大大提高了理論上的處理速度,在內(nèi)存中Spark 能比Hadoop MapReduce 快約100 倍,在硬盤(pán)中則要快10 倍左右。
基于Spark 框架的圖書(shū)館大數(shù)據(jù)能夠處理實(shí)時(shí)性要求高、來(lái)源多樣的異構(gòu)化數(shù)據(jù)。圖2 為基于Spark并且結(jié)合智慧圖書(shū)館的特點(diǎn)設(shè)計(jì)的框架。數(shù)據(jù)接收部分中,通過(guò)使用一個(gè)可監(jiān)控大型分布式系統(tǒng)的分布式數(shù)據(jù)收集系統(tǒng)Chukwa 和一個(gè)Hadoop 與傳統(tǒng)數(shù)據(jù)庫(kù)間進(jìn)行數(shù)據(jù)傳遞的開(kāi)源工具Sqoop,分別把收集的圖書(shū)館內(nèi)部產(chǎn)生的數(shù)據(jù)和外部網(wǎng)頁(yè)上產(chǎn)生的數(shù)據(jù)寫(xiě)入到Kafka 消息系統(tǒng)中。通過(guò)Kafka 把數(shù)據(jù)分為兩類(lèi)來(lái)處理:(1)可以設(shè)定一個(gè)長(zhǎng)時(shí)間段(一天或者是一周)
進(jìn)行數(shù)據(jù)收集并寫(xiě)入Kafka 系統(tǒng)中,然后進(jìn)行離線(xiàn)處理;(2)可以收集每一分鐘的數(shù)據(jù)或者是收集確定大小的文件,之后進(jìn)行實(shí)時(shí)處理。最后,將保存在Kafka消息系統(tǒng)中的不同的日志數(shù)據(jù)按照其不同的需求轉(zhuǎn)發(fā)給Spark Streaming 進(jìn)行處理。同時(shí),作為處理系統(tǒng)中的核心模塊,Spark Streaming 可以接收實(shí)時(shí)的輸入數(shù)據(jù)流,將數(shù)據(jù)按照一定的時(shí)間窗口拆分成多個(gè)批數(shù)據(jù),最后進(jìn)行數(shù)據(jù)處理。

圖2 基于Spard 框架的數(shù)據(jù)處理圖
為了實(shí)現(xiàn)大數(shù)據(jù)而“大數(shù)據(jù)化”的思路是無(wú)法建設(shè)好智慧圖書(shū)館的[25-26]。傳統(tǒng)圖書(shū)館大量的數(shù)據(jù)資源閑置,并不是它們的內(nèi)容不夠豐富,而是特定的資源不能被有需求的讀者所發(fā)現(xiàn)。個(gè)性化推薦的過(guò)程就是為了實(shí)現(xiàn)“為書(shū)找人”的目標(biāo),挖掘出讀者的現(xiàn)實(shí)需求和隱含需求,從而提高圖書(shū)館資源的利用率。本研究利用基于用戶(hù)、項(xiàng)目和模型的三種協(xié)同過(guò)濾算法,提高推送的準(zhǔn)確度。
如圖3 所示,當(dāng)數(shù)據(jù)經(jīng)過(guò)處理后,會(huì)存儲(chǔ)在硬盤(pán)HDFS、內(nèi)存Hbase 或者關(guān)系型數(shù)據(jù)庫(kù)MySQL 中,可以對(duì)其中的數(shù)據(jù)進(jìn)行特定分析。首先,協(xié)同過(guò)濾分為在線(xiàn)協(xié)同和離線(xiàn)過(guò)濾兩個(gè)部分,在線(xiàn)協(xié)同是指系統(tǒng)通過(guò)內(nèi)部收集的數(shù)據(jù)判斷讀者可能更感興趣的資源,離線(xiàn)過(guò)濾是指系統(tǒng)會(huì)過(guò)濾和篩選出可能對(duì)于讀者不值得推薦的資源。而按其類(lèi)型則分為基于用戶(hù)的協(xié)同過(guò)濾(user collaborative filtering,Vser CF)、基于物品的協(xié)同過(guò)濾(item collaborative filtering,Item CF)和基于模型的協(xié)同過(guò)濾(model-based collaborative filtering,Model-based CF),但是每種分類(lèi)方法都有特定的應(yīng)用場(chǎng)景。User CF 算法以用戶(hù)和用戶(hù)之間的相似度作為推薦的依據(jù),通過(guò)皮爾遜相關(guān)系數(shù)的計(jì)算來(lái)獲得用戶(hù)間的相似度關(guān)系,找到相似讀者喜歡的物品來(lái)推薦。該模型可以幫助用戶(hù)發(fā)現(xiàn)新的類(lèi)別的感興趣的圖書(shū)館資源,但是在圖書(shū)館中通過(guò)類(lèi)似興趣的人閱覽的書(shū)來(lái)推薦具有相當(dāng)?shù)牟淮_定和不穩(wěn)定性。類(lèi)似的是,Item CF 算法則按照物品和物品的相似度來(lái)進(jìn)行推薦,若某讀者閱覽了一本JAVA 語(yǔ)言的書(shū),那么智慧圖書(shū)館便會(huì)推送相關(guān)開(kāi)發(fā)的資源。但是其缺點(diǎn)也是顯而易見(jiàn)的:無(wú)法主動(dòng)挖掘讀者隱藏的興趣而只能被動(dòng)推薦。若是面對(duì)若干讀者和圖書(shū)館資源,而僅僅只有部分讀者對(duì)部分圖書(shū)館資源是有評(píng)分的,以上兩種方法都不是最好的選擇,因?yàn)橥扑]的精度會(huì)嚴(yán)重下降。因此,對(duì)于個(gè)性化推薦的方案中分為兩種情況:一若是圖書(shū)館與讀者互動(dòng)良好、讀者對(duì)于館內(nèi)資源評(píng)分評(píng)價(jià)豐富,在計(jì)算兩個(gè)讀者相似度時(shí)將讀者對(duì)于圖書(shū)館資源的評(píng)價(jià)嵌入其中,采用Item CF 與User CF 的混合推薦算法;二若是不存在大量評(píng)價(jià),采用Model-based CF 通過(guò)已有的稀疏矩陣來(lái)預(yù)測(cè)出讀者對(duì)于其他空白圖書(shū)館資源的評(píng)分,從而給讀者推薦評(píng)分最高的資源。

圖3 基于混合型協(xié)同過(guò)濾算法的個(gè)性化推薦
高質(zhì)量的圖書(shū)館資源采購(gòu)是建設(shè)智慧圖書(shū)館的保障,如何在有限的資金下滿(mǎn)足讀者各個(gè)方向和層面上的閱讀需求,是智慧圖書(shū)館建設(shè)的重點(diǎn)研究方向。本研究提出智慧圖書(shū)館可在大數(shù)據(jù)背景下,利用多因素方差分析的方法來(lái)提升采購(gòu)質(zhì)量。
在基于Spark 框架的實(shí)時(shí)數(shù)據(jù)處理系統(tǒng)下,能夠快速得到圖書(shū)館資源借閱和訪(fǎng)問(wèn)的總量、某一類(lèi)圖書(shū)館資源借閱和訪(fǎng)問(wèn)量。從這兩種數(shù)據(jù)出發(fā),可以通過(guò)方差分析法得到增加或者減少某一類(lèi)圖書(shū)館資源的采購(gòu)對(duì)于圖書(shū)館借閱和訪(fǎng)問(wèn)總量的影響。因?yàn)橛绊憟D書(shū)館資源借閱和訪(fǎng)問(wèn)總量的因素不僅僅只有資源采購(gòu),也有很多其他的因素包括考試的時(shí)間、專(zhuān)業(yè)的增加或者減少等,所以選用多因素方差分析法。其基本理念是將圖書(shū)館借閱和訪(fǎng)問(wèn)這一因變量的變換總量分解成由各個(gè)因素(圖書(shū)館不同種類(lèi)資源的采購(gòu))及其交互作用的影響部分和隨機(jī)誤差的影響部分,來(lái)判斷不同因素的不同水平對(duì)于因變量的顯著性影響,并且能夠分析出各個(gè)因素之間的相互作用對(duì)于因變量的影響。
首先,基于多因素方差分析方法設(shè)計(jì)從多個(gè)影響因素得到?jīng)Q定性因素的快速算法,部分如式(1)所示:


式中,?是因子影響總平方和,N代表影響因子的數(shù)量,e代表平均誤差和,M是樣本偏差,p是觀測(cè)總數(shù)。其次,若將某一類(lèi)書(shū)的采購(gòu)數(shù)量記作因素A,可以通過(guò)給定的顯著性水平查出相應(yīng)的分布分位數(shù),若是M高于分布分位數(shù),那么可以斷定因素A在同水平下和其他因素對(duì)于因變量的影響是顯著的。最后,通過(guò)多因素的方差分析法,能夠確定某類(lèi)資源的采購(gòu)或者某幾類(lèi)資源的組合采購(gòu)對(duì)于圖書(shū)館資源的借閱和訪(fǎng)問(wèn)的影響較顯著,從而輔助采購(gòu)決策,滿(mǎn)足讀者的多元化閱讀需求。
(1)在數(shù)據(jù)處理的實(shí)踐中,本研究采用 Spark Streaming 流式處理框架結(jié)合Chukwa 分布式收集系統(tǒng)和Kafka 消息系統(tǒng),比傳統(tǒng)的Hadoop 具有更高的效率、更高的容錯(cuò)性和更好的通用性。下一步計(jì)劃在更大規(guī)模的數(shù)據(jù)集上進(jìn)行測(cè)試,并在實(shí)際的建設(shè)中應(yīng)用,通過(guò)測(cè)試和維護(hù)系統(tǒng)的穩(wěn)定性和可靠性,來(lái)保證基于大數(shù)據(jù)的智慧圖書(shū)館滿(mǎn)足用戶(hù)對(duì)高效、高精度和高智慧化的服務(wù)需求。
(2)智慧圖書(shū)館通過(guò)使用混合型協(xié)同過(guò)濾算法來(lái)實(shí)現(xiàn)對(duì)讀者愛(ài)好的分析,本研究將用戶(hù)、項(xiàng)目之間的關(guān)聯(lián)性和稀疏矩陣的方法針對(duì)不同的場(chǎng)景使用,有效地提高了個(gè)性化推薦的效率。但值得注意的,在進(jìn)行數(shù)據(jù)分析或發(fā)生黑客攻擊時(shí),大量讀者的隱私閱讀數(shù)據(jù)將會(huì)暴露給分析人員或惡意的攻擊者。因此,目前智慧圖書(shū)館存在十分嚴(yán)重的隱私泄露的風(fēng)險(xiǎn)。筆者建議在數(shù)據(jù)分析系統(tǒng)建立之前就要詳細(xì)地考慮如何保護(hù)讀者的閱讀數(shù)據(jù)隱私,通過(guò)賬號(hào)的匿名化、訪(fǎng)問(wèn)權(quán)限設(shè)置和隱私數(shù)據(jù)的加密存儲(chǔ)等來(lái)保護(hù)讀者的隱私。
(3)在智慧圖書(shū)館的決策方面,本研究采用多因素方差分析來(lái)輔助管理人員的采購(gòu)決策,通過(guò)觀測(cè)不同類(lèi)圖書(shū)采購(gòu)對(duì)于圖書(shū)館資源的閱讀量產(chǎn)生的顯著性影響和多種因素的相互影響來(lái)選擇最優(yōu)的采購(gòu)組合。不難看出,大數(shù)據(jù)在智慧圖書(shū)館的決策中處于輔助地位,真正處于決策地位的是管理人員。因此,為了保證決策的正確,高素質(zhì)的人才必不可少。在智慧圖書(shū)館的建設(shè)中,應(yīng)該堅(jiān)持人才引進(jìn)和長(zhǎng)期培訓(xùn)相結(jié)合,加強(qiáng)人才隊(duì)伍建設(shè)和人才資源儲(chǔ)備,提升館員的整體素質(zhì),為智慧圖書(shū)館的發(fā)展提供正確的決策方案。