陳添源
(閩南師范大學(xué)圖書(shū)館,福建 漳州 363000)
當(dāng)前高校圖書(shū)館紙質(zhì)圖書(shū)借閱量逐年下滑,加之圖書(shū)購(gòu)置經(jīng)費(fèi)不足和館藏空間轉(zhuǎn)型等外在因素影響,館藏資源在教學(xué)和科研的文獻(xiàn)保障能力和形態(tài)正在悄然發(fā)生改變。提振借閱率、優(yōu)化館藏建設(shè)結(jié)構(gòu)和提高精準(zhǔn)化的圖書(shū)借閱服務(wù),逐漸成為高校圖書(shū)館發(fā)展轉(zhuǎn)型中不得不面對(duì)的實(shí)踐問(wèn)題之一。為此,準(zhǔn)確把握高校圖書(shū)館讀者的用戶行為,建立用戶驅(qū)動(dòng)的館藏建設(shè)與服務(wù)體系日益迫切。然而,由于高校圖書(shū)館自動(dòng)化系統(tǒng)從用戶視角的固定化報(bào)表與統(tǒng)計(jì)數(shù)據(jù)較少,隨需而變的用戶行為數(shù)據(jù)存在難以獲取、歷史數(shù)據(jù)積累較少和系統(tǒng)孤島等技術(shù)因素,直接導(dǎo)致了基于數(shù)據(jù)驅(qū)動(dòng)的業(yè)務(wù)決策模式無(wú)從談起。為此,文章試圖探索構(gòu)建一套挖掘高校圖書(shū)館用戶借閱行為的實(shí)證研究體系,并抽樣選取不同學(xué)科類(lèi)型讀者的借閱行為作為實(shí)證研究對(duì)象,實(shí)證獲取的結(jié)論可以豐富和完善圖書(shū)采訪人員的采購(gòu)策略,優(yōu)化圖書(shū)館館藏建設(shè)體系,提高基于不同學(xué)科特征的精準(zhǔn)化圖書(shū)借閱服務(wù)能力,以期逐步建立起基于讀者真實(shí)需求的館藏建設(shè)新模式。
國(guó)內(nèi)高校圖書(shū)館從業(yè)務(wù)實(shí)踐出發(fā),結(jié)合自身圖書(shū)館業(yè)務(wù)實(shí)際和讀者需求不斷優(yōu)化圖書(shū)借閱服務(wù)和創(chuàng)新讀者服務(wù)模式。較多的研究集中于圖書(shū)借閱關(guān)聯(lián)分析,例如,南昌航空大學(xué)圖書(shū)館結(jié)合借閱服務(wù)特征,使用改進(jìn)的L-Apriori關(guān)聯(lián)算法實(shí)現(xiàn)圖書(shū)的個(gè)性化推薦[1]。任武[2]通過(guò)構(gòu)建讀者偏好的本體模型分析了讀者借閱行為,從而獲取讀者閱讀偏好值實(shí)現(xiàn)個(gè)性化推薦服務(wù)。張煒[3]通過(guò)關(guān)聯(lián)挖掘技術(shù)對(duì)讀者借閱數(shù)據(jù)隱含的知識(shí)展開(kāi)分析,從而縮短讀者需求與圖書(shū)館服務(wù)之間的差距。一些研究從提升圖書(shū)借閱率的視角切入,錢(qián)玲飛等[4]采用h指數(shù)對(duì)OPAC數(shù)據(jù)統(tǒng)計(jì)分析,獲取不同圖書(shū)集合的“核心讀者”以及不同讀者群的“核—Ca”圖書(shū),從而實(shí)現(xiàn)館藏的合理分布和圖書(shū)使用率。孟德泉等[5]利用主成分分析得出影響讀者借閱行為的關(guān)鍵因素,并根據(jù)研究結(jié)果提出提升圖書(shū)外借率的具體建議。許毅等[6]將讀者圖書(shū)借閱冊(cè)數(shù)、進(jìn)館人次與本科生成績(jī)等字段聯(lián)合回歸分析,指出圖書(shū)館資源利用率與學(xué)業(yè)成績(jī)存在極強(qiáng)的正相關(guān)關(guān)系。而在讀者借閱行為分析的研究方面,劉春霞[7]從提升圖書(shū)借閱率的角度出發(fā),采用方差分析、相關(guān)分析和回歸分析等統(tǒng)計(jì)方法挖掘,從而為圖書(shū)采訪建設(shè)與借閱管理提供決策支持。呂遠(yuǎn)等[8]借助關(guān)聯(lián)和分類(lèi)分析等數(shù)據(jù)挖掘方法實(shí)證分析了在校讀者的借閱行為模式,并提出建立以用戶需求驅(qū)動(dòng)的主動(dòng)服務(wù)方式。邢榮華等[9]基于流通借閱日志分析了各時(shí)段讀者借閱的行為差異。嚴(yán)貝妮等[10]從抽樣調(diào)查的10所高校圖書(shū)館2016年的借閱排行入手分析了讀者閱讀行為,指出讀者閱讀有較強(qiáng)的偏向性和功利性,倡導(dǎo)多元閱讀和提升讀者閱讀修養(yǎng)。
陳鳳[11]所指出,將讀者圖書(shū)借閱行為可視化分析并直觀地支持采購(gòu)決策已成為當(dāng)前實(shí)踐研究常態(tài)。蔣小峰[12]在對(duì)近10年高校圖書(shū)館流通借閱服務(wù)的總結(jié)與分析基礎(chǔ)上,明確提出在讀者需求產(chǎn)生的原因、演變規(guī)律以及滿足需求的途徑等方面應(yīng)深入研究。從前述研究不難發(fā)現(xiàn),諸多文獻(xiàn)未能融入諸如學(xué)科背景、專業(yè)特征、學(xué)習(xí)需求和借閱次數(shù)等外在因素一同作用戶行為分析,所采用的分析數(shù)據(jù)也僅能分析單獨(dú)一個(gè)年度的借閱數(shù)據(jù),未能形成基于歷史數(shù)據(jù)的規(guī)律挖掘。這一方面源于圖書(shū)館自動(dòng)化系統(tǒng)軟件都未集成圖書(shū)流通的關(guān)聯(lián)分析模塊;另一方面是可視化的用戶行為分析工具尚未得到廣泛應(yīng)用,圖書(shū)館及時(shí)挖掘和分析讀者借閱行為的時(shí)效性明顯滯后。
故此,文章將基于大數(shù)據(jù)思維理念,通過(guò)相關(guān)數(shù)理分析工具和模型算法,從自動(dòng)化系統(tǒng)中抽取我校讀者6年以來(lái)的讀者借閱行為數(shù)據(jù),探尋讀者借閱行為,系統(tǒng)全面地掌握基于學(xué)科特性的讀者借閱行為特征,不斷積累讀者的借閱行為規(guī)律、熱門(mén)圖書(shū)、主題詞分布和圖書(shū)關(guān)聯(lián),從而實(shí)現(xiàn)更為精準(zhǔn)的紙質(zhì)文獻(xiàn)保障。建立和優(yōu)化基于讀者行為驅(qū)動(dòng)的館藏建設(shè)服務(wù)體系,提升館藏紙質(zhì)圖書(shū)建設(shè)經(jīng)費(fèi)的效益,也為圖書(shū)館館藏空間讓位空間服務(wù)提供有益的業(yè)務(wù)決策。
以學(xué)科特性為視角,選取高校圖書(shū)館某個(gè)學(xué)院歷年的讀者借閱數(shù)據(jù),以此數(shù)據(jù)集為實(shí)證對(duì)象,結(jié)合高校讀者學(xué)科專業(yè)學(xué)習(xí)的階段特性,借助大數(shù)據(jù)分析Tableau平臺(tái)、R語(yǔ)言關(guān)聯(lián)分析和主題詞分詞技術(shù)等定量分析方法,探索與分析基于學(xué)科特性的借閱規(guī)律和主題詞演變規(guī)律,從而更為精準(zhǔn)地為高校圖書(shū)館的新書(shū)采編、典藏優(yōu)化和學(xué)科服務(wù)提供決策支撐,力求形成系統(tǒng)性把握?qǐng)D書(shū)館在教學(xué)與科研的紙質(zhì)資源保障特征。
確立以上實(shí)證思想后,本文重點(diǎn)分析:1)圖書(shū)借閱的潛在聯(lián)系。讀者在借閱圖書(shū)時(shí),是否與其學(xué)科和學(xué)習(xí)階段相關(guān)聯(lián),能否根據(jù)當(dāng)前所學(xué)的專業(yè)進(jìn)行特定分類(lèi)號(hào)內(nèi)的圖書(shū)選擇,這些圖書(shū)之間是否存在一定的關(guān)聯(lián);2)根據(jù)已借閱圖書(shū)的主題詞和圖書(shū)題名分詞后的匯聚分布情況。詳細(xì)的實(shí)證分析框架如圖1所示。

圖1 基于學(xué)科特性的高校圖書(shū)館借閱行為分析框架
無(wú)論是館藏紙質(zhì)圖書(shū),還是電子圖書(shū),圖書(shū)的流通和檢索獲取都存在著與商品銷(xiāo)售相似的關(guān)聯(lián)特性,圖書(shū)館的管理者都期望從內(nèi)外在因素探索圖書(shū)在流通時(shí)的關(guān)聯(lián),從而挖掘出圖書(shū)之間的前后借閱關(guān)系,積累讀者借閱行為的規(guī)則庫(kù)和知識(shí)庫(kù),提升圖書(shū)館個(gè)性化服務(wù)的精確度。關(guān)聯(lián)分析一般被用于挖掘隱藏在大型數(shù)據(jù)集中的有意義聯(lián)系,所獲取的結(jié)果采用關(guān)聯(lián)規(guī)則或者頻繁項(xiàng)集表示。圖書(shū)借閱前后時(shí)序的關(guān)聯(lián)挖掘與分析,目前較為典型的是Apriori算法。最為經(jīng)典的應(yīng)用當(dāng)屬沃爾瑪公司的“啤酒、尿布”購(gòu)物籃分析,目前廣泛應(yīng)用于商品購(gòu)物籃數(shù)據(jù)、生物信息學(xué)、醫(yī)學(xué)診斷和網(wǎng)站挖掘等科學(xué)數(shù)據(jù)分析領(lǐng)域。通過(guò)數(shù)據(jù)集挖掘獲取的關(guān)聯(lián)規(guī)則是否有效,一般采用它的支持度、置信度和提升度三個(gè)指標(biāo)度量。
支持度是關(guān)聯(lián)規(guī)則的重要度量指標(biāo),因?yàn)橹С侄群艿偷囊?guī)則可能只是偶然出現(xiàn),低支持度的規(guī)則多半也是無(wú)意義的。因此,支持度通常用來(lái)刪去那些無(wú)意義的規(guī)則。置信度是通過(guò)規(guī)則進(jìn)行推理具有可靠性。對(duì)于給定的規(guī)則X→Y,置信度越高,Y在包含X的事物中出現(xiàn)的可能性就越大。即Y在給定X下的條件概率P(Y|X)越大。借鑒Apriori算法思想對(duì)于支持度和置信度的定義,本文根據(jù)圖書(shū)館實(shí)際借閱情況作出相應(yīng)的定義:支持度是指讀者借閱的圖書(shū)集合中,某個(gè)項(xiàng)集出現(xiàn)的百分比;與商品關(guān)聯(lián)分析不同的是,商品領(lǐng)域的“副本量”較大,而高校圖書(shū)館則存在圖書(shū)復(fù)本較少的情況。因此,圖書(shū)借閱關(guān)聯(lián)分析時(shí)將讀者該年度的所有圖書(shū)借閱記錄合并視為一個(gè)集合。置信度是指獲取的關(guān)聯(lián)規(guī)則X→Y中,項(xiàng)集{X,Y}同時(shí)出現(xiàn)的次數(shù)占項(xiàng)集{X}出現(xiàn)次數(shù)的比例。可理解為讀者借閱圖書(shū)X的情況下,后續(xù)借閱Y的概率。為有效衡量項(xiàng)集{X}和項(xiàng)集{Y}的獨(dú)立性,關(guān)聯(lián)分析中設(shè)立了提升度(lift)指標(biāo)。提升度就是在借閱圖書(shū)X這個(gè)條件下借閱圖書(shū)Y的可能性與沒(méi)有這個(gè)條件下借閱圖書(shū)B(niǎo)的可能性之比。
考慮實(shí)際的圖書(shū)借閱情境,一方面,圖書(shū)借閱無(wú)法類(lèi)似于貨架上的商品售賣(mài),“復(fù)本量”保障供應(yīng)充足。另一方面,讀者借閱圖書(shū)基于學(xué)科專業(yè)學(xué)習(xí)需要、復(fù)習(xí)迎考、各類(lèi)專業(yè)資質(zhì)認(rèn)證和閱讀暢銷(xiāo)圖書(shū)等因素,存在集中借閱復(fù)本量不足的某種分類(lèi)號(hào)圖書(shū),這將無(wú)法獲取讀者實(shí)際的圖書(shū)需求,進(jìn)而導(dǎo)致關(guān)聯(lián)分析無(wú)法采用商業(yè)領(lǐng)域的購(gòu)物籃分析方式。本文將采用基于時(shí)序的關(guān)聯(lián)分析方法,借助R語(yǔ)言里的arules數(shù)據(jù)包合理調(diào)整算法中的支持度(support)、置信度(confidence)和提高度(lift)指標(biāo),挖掘適宜于圖書(shū)館業(yè)務(wù)實(shí)踐需求的關(guān)聯(lián)規(guī)則。
為更詳細(xì)地掌握基于學(xué)科特性的讀者借閱行為,透過(guò)圖書(shū)主題詞分類(lèi)與題名信息掌握和挖掘讀者借閱圖書(shū)的主題詞分布情況,除了統(tǒng)計(jì)被借閱圖書(shū)的分類(lèi)主題詞,還采用文本挖掘技術(shù)對(duì)圖書(shū)借閱歷史中的圖書(shū)題名分詞處理,可以更為精細(xì)地匯聚產(chǎn)生某一個(gè)時(shí)段集中借閱的圖書(shū)種類(lèi)和借閱熱點(diǎn),從而有利于新書(shū)采購(gòu)策略調(diào)整和館藏借閱服務(wù)的精準(zhǔn)化。當(dāng)前文本分詞工具有很多種,Jieba分詞是中文自然語(yǔ)言分詞較為常用的一種。它采用了動(dòng)態(tài)規(guī)劃查找最大概率路徑,找出基于詞頻的最大切分組合,分詞準(zhǔn)確度高[13]。支持精確、全模式和搜索引擎三種分詞模式。Jieba在R語(yǔ)言平臺(tái)上有專門(mén)的軟件包JiebaR,可采用自定義字典和函數(shù)調(diào)用方式對(duì)圖書(shū)主題詞分詞,從而實(shí)現(xiàn)主題詞集中匯聚展示。
借助Tableau平臺(tái),通過(guò)數(shù)據(jù)庫(kù)接口從館藏自動(dòng)化系統(tǒng)選取采集計(jì)算機(jī)學(xué)院等6年來(lái)所有有效讀者的借閱歷史記錄,字段涵蓋讀者證號(hào)、借閱日期、借閱圖書(shū)題名、索書(shū)號(hào)、借閱次數(shù)等字段。基于前述,以計(jì)算機(jī)學(xué)院為例闡述本文實(shí)證分析過(guò)程,獲取的計(jì)算機(jī)學(xué)院借閱記錄共包含 125 180 條。刪除字段缺失數(shù)據(jù)792條,有效數(shù)據(jù)為 124 388 條。按照自然年在Tableau平臺(tái)繪制借閱歷史曲線,如圖2所示。

圖2 計(jì)算機(jī)學(xué)院讀者2012—2017年每月借閱圖書(shū)統(tǒng)計(jì)
從圖2可以看出,計(jì)算機(jī)學(xué)院讀者的年度借閱數(shù)量呈現(xiàn)逐年下降趨勢(shì),每年的借閱行為曲線呈現(xiàn)出明顯的季節(jié)性變化,這與該專業(yè)讀者的高校專業(yè)學(xué)習(xí)階段特征較為符合。通過(guò)Tableau平臺(tái)的數(shù)據(jù)透視功能,以每年3月的借閱高點(diǎn)進(jìn)行對(duì)比發(fā)現(xiàn),該月都是年度借閱高峰,從匯聚的主題詞來(lái)看,這與高校計(jì)算機(jī)專業(yè)讀者的學(xué)習(xí)階段相匹配:畢業(yè)論文、專業(yè)方向?qū)W習(xí)和考級(jí)準(zhǔn)備息息相關(guān)。
2012—2017年,計(jì)算機(jī)學(xué)院的讀者共借閱 23 236 種圖書(shū),生均借閱19.6本,最高為263本。從性別差異對(duì)比看,男性讀者比女性讀者多借閱了 7 000 多次。統(tǒng)計(jì)每個(gè)借閱時(shí)段的借閱次數(shù),該學(xué)院讀者傾向于在早上9點(diǎn)—11點(diǎn)借閱圖書(shū)。從分位數(shù)分布情況可以看出,計(jì)算機(jī)學(xué)院讀者的借閱圖書(shū)記錄中,25%的借閱包含了4本或者更少的圖書(shū),大約50%為12本,詳見(jiàn)表1。

表1 計(jì)算機(jī)學(xué)院讀者借閱記錄的分位數(shù)特征
在Tableau平臺(tái)上匯聚圖書(shū)分類(lèi)號(hào),如圖3所示。計(jì)算機(jī)學(xué)院借閱圖書(shū)依次排序的前10種是I267/SM(三毛小說(shuō)系列)、TP312C/WX11(C#語(yǔ)言類(lèi))、TP312C/TH17(C語(yǔ)言類(lèi))、TP312C/MR11(C、C++和C#等編程類(lèi))、TP312JA/WG8(各類(lèi)軟件開(kāi)發(fā)案例類(lèi))、TP312JA/LZ23(JAVA編程系列)、I313.45/DY7(東野圭吾著作系列)、I313.45/CS3(村上春樹(shù)著作系列)、O13/TJ4(高等數(shù)學(xué)系列)和TP312C/ZL(C++語(yǔ)言類(lèi))。此10種集中反映了計(jì)算機(jī)學(xué)院讀者偏向于借閱編程類(lèi)圖書(shū)、流行小說(shuō)和軟件項(xiàng)目案例等,也說(shuō)明紙質(zhì)圖書(shū)依然保障了高校讀者在專業(yè)課程學(xué)習(xí)的文獻(xiàn)需求。高校圖書(shū)館可以增加此類(lèi)圖書(shū)的復(fù)本數(shù)、推廣相關(guān)的專題數(shù)據(jù)庫(kù)資源和做好經(jīng)典圖書(shū)的閱讀推廣活動(dòng)。

圖3 計(jì)算機(jī)學(xué)院讀者借閱圖書(shū)分類(lèi)號(hào)統(tǒng)計(jì)(2012—2017)
4.2.1 數(shù)據(jù)轉(zhuǎn)換。基于項(xiàng)集間的借閱時(shí)序關(guān)系,在R語(yǔ)言平臺(tái)對(duì)獲取的數(shù)據(jù)按照讀者借閱時(shí)間進(jìn)行排列。部分?jǐn)?shù)據(jù)樣式見(jiàn)圖4。

圖4 基于時(shí)間序列的部分讀者借閱數(shù)據(jù)
因每行借閱記錄記載讀者一次借閱圖書(shū)時(shí),讀者的ID、圖書(shū)題名、分類(lèi)號(hào)和借閱時(shí)間等字段。按照關(guān)聯(lián)分析的數(shù)據(jù)格式要求,需要轉(zhuǎn)換為項(xiàng)集,如項(xiàng)集{TP393.11,TP397.12}表示某位讀者的圖書(shū)借閱集合。為此,本文按照讀者ID、借閱時(shí)間對(duì)數(shù)據(jù)集重新排序,然后通過(guò)函數(shù)轉(zhuǎn)換為Apriori算法可處理的0-1稀疏矩陣。去除借閱時(shí)間的字段后,將讀者的ID轉(zhuǎn)換為因子型變量,采用R語(yǔ)言split函數(shù)進(jìn)行數(shù)值處理,共獲取計(jì)算機(jī)學(xué)院 2 797 位讀者按照時(shí)序關(guān)系排列的圖書(shū)借閱路徑。此時(shí)調(diào)用as函數(shù)將其轉(zhuǎn)換為transactions形式的稀疏矩陣。通過(guò)上述數(shù)據(jù)處理方式分別對(duì)其余學(xué)院借閱數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,得到匯總數(shù)據(jù)如圖5所示。

圖5 部分讀者圖書(shū)借閱路徑數(shù)據(jù)集
4.2.2 關(guān)聯(lián)分析參數(shù)討論與調(diào)優(yōu)。關(guān)聯(lián)規(guī)則獲取是否有效取決于Apriori算法的支持度、置信度和提升度等參數(shù)值。考慮到商業(yè)領(lǐng)域的購(gòu)物籃關(guān)聯(lián)分析,其分析對(duì)象取值的數(shù)據(jù)粒度為商品種類(lèi)。而對(duì)于圖書(shū)而言,高校館藏自動(dòng)化系統(tǒng)的分類(lèi)號(hào)的數(shù)據(jù)粒度更為精細(xì)。例如,以I267/SM為例,其表示當(dāng)代作品三毛著作系列,館藏查詢對(duì)應(yīng)100多本圖書(shū),這說(shuō)明此粒度的圖書(shū)類(lèi)別已能明確表示讀者的借閱行為。故此,本文對(duì)分類(lèi)號(hào)不作合并歸類(lèi)處理。
關(guān)聯(lián)分析算法中參數(shù)默認(rèn)值設(shè)定支持度為0.1,置信度為0.8。首次運(yùn)行算法無(wú)法獲取有效關(guān)聯(lián)規(guī)則。以前述獲取的計(jì)算機(jī)學(xué)院讀者借閱數(shù)據(jù)來(lái)看,每位讀者平均年借閱2種分類(lèi)號(hào)圖書(shū),圖書(shū)借閱關(guān)聯(lián)度顯然不及購(gòu)物籃分析中的商品關(guān)聯(lián)結(jié)果。結(jié)合圖5所示的讀者借閱圖書(shū)分類(lèi)號(hào)集合,由于學(xué)科、專業(yè)和課程等因素影響著讀者的借閱行為和傾向,導(dǎo)致分類(lèi)號(hào)分布集中在計(jì)算機(jī)相關(guān)學(xué)科領(lǐng)域,而其他學(xué)科分類(lèi)號(hào)的分布極為稀疏。故此,采用arules模型運(yùn)算和分析圖書(shū)借閱關(guān)聯(lián)時(shí),需要多次動(dòng)態(tài)調(diào)整支持度和置信度的參數(shù)。
4.2.3 關(guān)聯(lián)結(jié)果獲取與分析。在R語(yǔ)言分析平臺(tái)采用arules函數(shù)分析包對(duì)轉(zhuǎn)換后的借閱記錄數(shù)據(jù)進(jìn)行多次參數(shù)調(diào)整后,支持度確立為0.0025,置信度為0.5,項(xiàng)集設(shè)置為至少2種,從而獲取了13條關(guān)聯(lián)規(guī)則。如圖6所示,獲取的關(guān)聯(lián)規(guī)則支持度區(qū)間為[0.025,0.004],提升度區(qū)間為[11.8,195.8]。

對(duì)于關(guān)聯(lián)規(guī)則的識(shí)別與區(qū)分,一般可將其歸納為可操作規(guī)則、平凡規(guī)則和費(fèi)解規(guī)則等三類(lèi)[14]。
規(guī)則1和規(guī)則2屬于可操作性規(guī)則,借閱了TP393.08/XY分類(lèi)號(hào)的讀者,因?qū)I(yè)課程的技術(shù)實(shí)戰(zhàn)需要,也將借閱TP393.08/CX2,這兩個(gè)分類(lèi)號(hào)無(wú)前后優(yōu)先關(guān)系。規(guī)則3與規(guī)則4的關(guān)聯(lián)規(guī)律也與此相同,其中的分類(lèi)號(hào)對(duì)應(yīng)計(jì)算機(jī)專業(yè)考研書(shū)目。因此,從學(xué)科的文獻(xiàn)保障角度出發(fā),圖書(shū)館可增加此分類(lèi)號(hào)的復(fù)本數(shù),并調(diào)整此類(lèi)館藏比例,提升圖書(shū)借閱量。
規(guī)則5和規(guī)則8以分類(lèi)號(hào)TP393/SJ14為左關(guān)聯(lián)點(diǎn),規(guī)則5屬于叢書(shū)上下冊(cè)關(guān)系,規(guī)則8屬于輔導(dǎo)解析的圖書(shū)關(guān)聯(lián),兩者均屬于平凡規(guī)則類(lèi)別,也同屬于高校讀者認(rèn)證考試的必備書(shū)目。從高校圖書(shū)館文獻(xiàn)保障的需求出發(fā),可以通過(guò)在圖書(shū)采編業(yè)務(wù)上增加復(fù)本來(lái)加強(qiáng)館藏建設(shè),滿足高校讀者在專業(yè)技術(shù)認(rèn)證備考的圖書(shū)借閱需求。
規(guī)則6、規(guī)則7、規(guī)則9和規(guī)則13屬于有前后順序的關(guān)聯(lián),4個(gè)規(guī)則涉及了計(jì)算機(jī)專業(yè)的網(wǎng)絡(luò)工程師與軟件設(shè)計(jì)師的認(rèn)證考試、公務(wù)員招考和畢業(yè)設(shè)計(jì)課程。從數(shù)據(jù)集抽取查看,此類(lèi)圖書(shū)借閱群體集中于高校大四階段讀者,而且規(guī)則13涉及的畢業(yè)設(shè)計(jì)課程圖書(shū)關(guān)聯(lián)的支持度最高。結(jié)合規(guī)則的可信度和提升度,圖書(shū)館可在保障一定比例的圖書(shū)復(fù)本前提下,從數(shù)據(jù)庫(kù)資源、視頻課程和電子圖書(shū)等引入相應(yīng)的數(shù)字資源予以保障,提高此類(lèi)文獻(xiàn)資源的可獲得性與可用性,以及針對(duì)高年級(jí)本科教學(xué)的文獻(xiàn)保障能力。
規(guī)則10、規(guī)則11和規(guī)則12屬于費(fèi)解規(guī)則,規(guī)則10和規(guī)則11反映了讀者在閱讀渡邊淳一類(lèi)著作以后,其后續(xù)0.3%的單次借閱中,各有50%的概率借閱了村上春樹(shù)或者東野圭吾的著作。規(guī)則12則反映了讀者先借閱王小波的著作后也同時(shí)會(huì)借閱村上春樹(shù)的著作。這說(shuō)明該學(xué)院讀者傾向于閱讀人性、偵探和懸疑類(lèi)系列小說(shuō)。
在Tableau平臺(tái)上匯總借閱圖書(shū)的主題詞,連接圖書(shū)館自動(dòng)化系統(tǒng)關(guān)聯(lián)獲取本地化主題詞表作為待分析的圖書(shū)主題詞。為更精準(zhǔn)地揭示這些主題詞是否反映了周期性的借閱規(guī)律,按照自然年依次統(tǒng)計(jì)每個(gè)主題詞的頻次。通過(guò)R語(yǔ)言的wordcloud2詞云工具,依次按照自然年讀入主題詞和頻次字段,并按照頻次降序排列,調(diào)用wordcloud2函數(shù)依次匯聚,最終結(jié)果如圖7、表2所示。“長(zhǎng)篇小說(shuō)”“英語(yǔ)”“C語(yǔ)言”“散文”“JAVA語(yǔ)言”“短篇小說(shuō)”和“程序設(shè)計(jì)”等主題詞的圖書(shū)一直保持前列,但從圖5詞云的字體相對(duì)大小,結(jié)合相鄰頻次計(jì)算百分比差異可以看出,上述高頻的主題詞圖書(shū)借閱率經(jīng)歷2013年、2014年的增長(zhǎng)后一直下滑。故此,這些借閱頻次較高的主題詞,并非讀者不再借閱,而是全媒體圖書(shū)資源的便捷讓讀者有更多渠道閱讀,這足以反映紙質(zhì)館藏和電子館藏優(yōu)化調(diào)整的重點(diǎn)。與此同時(shí),對(duì)2017年的百分比差異數(shù)據(jù)排序,持續(xù)增長(zhǎng)的主題詞為“叔本華”“python”“JBUILDER”“古典文學(xué)”“古典小說(shuō)”“章回小說(shuō)”“軟件工程”“職業(yè)選擇”和“講史小說(shuō)”等。這些主題詞可以作為新書(shū)采訪、館藏調(diào)整優(yōu)化和學(xué)科服務(wù)的決策依據(jù)。
將題名和圖書(shū)被借閱時(shí)間兩個(gè)字段抽取并導(dǎo)入R語(yǔ)言平臺(tái)上,調(diào)用jiebaR軟件包,導(dǎo)入學(xué)科相關(guān)領(lǐng)域的細(xì)胞詞庫(kù)和默認(rèn)的停止詞作為分詞引擎參數(shù)對(duì)2012年的題名進(jìn)行分詞切割,共獲取圖書(shū)主題詞 8 809 個(gè)。通過(guò)對(duì)停止詞的多次篩選和調(diào)整,增加自定義詞典和停用詞,重新獲取有效主題詞 5 543 個(gè)。挑選前200個(gè)主題詞通過(guò)wordcloud2模型包進(jìn)行匯聚,按照此方法依次對(duì)后續(xù)5個(gè)學(xué)年的圖書(shū)借閱記錄進(jìn)行文本挖掘,挖掘結(jié)果中,字體大小與主題詞出現(xiàn)頻次成正比,如圖8所示。

圖7 計(jì)算機(jī)學(xué)院讀者歷年借閱圖書(shū)的主題詞匯聚

表2 計(jì)算機(jī)學(xué)院讀者歷年借閱圖書(shū)的頻次統(tǒng)計(jì)

圖8 計(jì)算機(jī)學(xué)院2012—2017年圖書(shū)借閱
觀察分析圖8的標(biāo)簽云,字體逐步變化到最大的關(guān)鍵詞“JAVA”,說(shuō)明該編程語(yǔ)言是我校計(jì)算機(jī)學(xué)院讀者最常借閱的圖書(shū)書(shū)籍主題。
其次,出現(xiàn)字體較大且保持穩(wěn)定的主題詞是“教程”“程序設(shè)計(jì)”“開(kāi)發(fā)”“案例”和“入門(mén)”等。通過(guò)查詢與這些主題詞共現(xiàn)的圖書(shū)名,基本涵蓋的是編程開(kāi)發(fā)類(lèi)(如“C”“C++”“JAVA”“PHP”“ANDROID”)、圖形圖像類(lèi)(如“PHOTOSHOP”“FLASH”“3DS MAX”“CORELDRAW”“ILLUSTRATOR”)和專業(yè)軟件類(lèi)(如“MATLAB”“AUTOCAD”“MYSQL”“SQL SERVER”)等。同時(shí),也涵蓋了英語(yǔ)、數(shù)學(xué)、物理、計(jì)算機(jī)網(wǎng)絡(luò)和數(shù)據(jù)結(jié)構(gòu)等基礎(chǔ)學(xué)科專業(yè)。
部分主題詞如“PHP”“HTML5”“MYSQL”“PYTHON”“CSS3”等當(dāng)前技術(shù)發(fā)展熱點(diǎn)相關(guān)圖書(shū)的借閱量已經(jīng)逐步上升,基于閩南師范大學(xué)計(jì)算機(jī)學(xué)科專業(yè)培養(yǎng)方向調(diào)整和學(xué)生對(duì)于未來(lái)崗位技能的知識(shí)需求,與此類(lèi)相關(guān)的主題圖書(shū)是今后該校圖書(shū)館館藏采訪與文獻(xiàn)保障建設(shè)需要補(bǔ)充的方向。
將以上部分標(biāo)簽主題詞進(jìn)行內(nèi)部連接,出現(xiàn)頻率保持高位的“應(yīng)用”“精通”和“設(shè)計(jì)”等主題詞,側(cè)面說(shuō)明了計(jì)算機(jī)學(xué)院的讀者在專業(yè)學(xué)習(xí)的定位明確,眾多計(jì)算機(jī)領(lǐng)域?qū)I(yè)技能學(xué)習(xí)的圖書(shū)借閱率所占比例較高。圖書(shū)館較好地匹配了高校讀者大學(xué)四年專業(yè)學(xué)習(xí)的需求和技能層次發(fā)展。
基于讀者借閱行為的用戶行為分析,是通過(guò)Tableau平臺(tái)、R語(yǔ)言Apriori函數(shù)包、Jieba分詞包和wordcloud2詞云匯聚等挖掘方法從讀者借閱行為數(shù)據(jù)的分類(lèi)號(hào)、頻次、主題詞、題名和借閱時(shí)間等字段入手,較為全面地掌握高校圖書(shū)館計(jì)算機(jī)專業(yè)讀者借閱行為的季節(jié)性變化,并根據(jù)圖書(shū)館藏結(jié)構(gòu)和讀者借閱圖書(shū)的實(shí)際情境,調(diào)整關(guān)聯(lián)規(guī)則置信度、支持度和提升度的參數(shù),從而獲取匹配業(yè)務(wù)實(shí)踐且具有時(shí)序模式的關(guān)聯(lián)規(guī)則,結(jié)合讀者的學(xué)科特性和專業(yè)方向詳細(xì)闡述3類(lèi)關(guān)聯(lián)規(guī)則,以期更為精準(zhǔn)化的輔助圖書(shū)館決策。從規(guī)范化的圖書(shū)主題詞按照借閱頻次排序和匯聚詞云結(jié)果來(lái)看,揭示的主題詞分布結(jié)果有效反映了讀者借閱的變化趨勢(shì)和今后的借閱上升區(qū)域,可以將其作為新書(shū)采訪、館藏調(diào)整優(yōu)化和學(xué)科服務(wù)的決策依據(jù)。基于圖書(shū)題名的自然語(yǔ)言分詞和標(biāo)簽云匯聚,從較為細(xì)粒度的角度挖掘出基于學(xué)科特性的讀者借閱行為,以數(shù)據(jù)可視化展示計(jì)算機(jī)讀者的圖書(shū)借閱熱點(diǎn)變化。這些分析能夠?yàn)楦咝D書(shū)館調(diào)整館藏結(jié)構(gòu)、提升新書(shū)采訪精準(zhǔn)化和拓展有針對(duì)性的閱讀推廣提供非常有益的參考依據(jù)。
(1)以點(diǎn)帶面,分析與挖掘其他院系專業(yè)的讀者借閱行為數(shù)據(jù),可以精準(zhǔn)化推動(dòng)大眾化閱讀推廣工作。文章獲取的數(shù)據(jù)顯示,計(jì)算機(jī)學(xué)院讀者借閱“長(zhǎng)篇小說(shuō)”常年排列首位,在主題詞匯聚中還發(fā)現(xiàn)“古典小說(shuō)”“章回小說(shuō)”“短篇小說(shuō)”和“散文”均為該學(xué)科特性讀者借閱,但在關(guān)聯(lián)規(guī)則挖掘中也發(fā)現(xiàn)傾向于某一類(lèi)系列小說(shuō),因此,需要圖書(shū)館員加強(qiáng)閱讀多樣化引導(dǎo)、經(jīng)典文學(xué)宣傳推廣等工作,拓寬讀者的閱讀視野。
(2)進(jìn)一步加強(qiáng)熱門(mén)圖書(shū)以及技能認(rèn)證和經(jīng)典文學(xué)類(lèi)圖書(shū)的推介。加強(qiáng)紙質(zhì)館藏元數(shù)據(jù)與電子資源的元數(shù)據(jù)匹配,提高電子圖書(shū)、專業(yè)輔導(dǎo)視頻和技能認(rèn)證考試的使用頻率,實(shí)現(xiàn)更為快速的文獻(xiàn)保障效率,完善高校圖書(shū)館全媒體資源的文獻(xiàn)資源保障機(jī)制。
(3)更為精準(zhǔn)地拓展有針對(duì)性的嵌入式學(xué)科服務(wù)。以文章分析的計(jì)算機(jī)專業(yè)為例,編程語(yǔ)言學(xué)習(xí)、項(xiàng)目案例開(kāi)發(fā)和畢業(yè)設(shè)計(jì)等階段的文獻(xiàn)保障是每年較為穩(wěn)定的讀者借閱行為,面對(duì)借閱率下滑,高校圖書(shū)館應(yīng)深化“紙電同步”的一體化館藏體系,探索數(shù)字閱讀和專業(yè)閱讀的讀者行為數(shù)據(jù)積累,不斷繪制和完善高校學(xué)科專業(yè)視角的讀者借閱行為用戶畫(huà)像,從而更為精準(zhǔn)地提升在教學(xué)與科研中的文獻(xiàn)保障能力。