閻雅娜 聶蘭渤 丁 媛
(大連理工大學圖書館,遼寧 大連 116024)
近年來,紙質圖書借閱量逐年走低已成為高校圖書館的普遍現象。紙質文獻占據了圖書館大部分空間,其開發和利用程度關系到圖書館在文獻信息資源、空間資源、人力資源、經費投入等諸多方面的成本效益。而資源的使用效益也是各高校圖書館現今越來越關注的一個課題,這就使得圖書館一方面分析原因,尋求解決之道,如通過閱讀推廣、PDA/DDA模式采購等,努力提高紙質文獻的借閱量;另一方面也重新審視資源體系結構建設,包括資源建設原則、采購關鍵指標、紙電協同建設等,以此來助推圖書館藏書建設和發展[1-3]。
高校圖書館信息資源建設主要圍繞學校“雙一流”建設目標和任務,在藏書體量、學科結構、紙電協調、功能特色等方面構建資源保障體系。在此基礎上,不斷跟蹤和掌握用戶的利用需求,持續優化館藏,滿足學校在教學科研、學科建設、人才培養、社會服務等方面對于信息資源的需求。尤其對于館藏高借閱率圖書,其承載了“閱讀密度”和“信息熱度”,這就要求采訪人員抓住此類圖書特征,結合館藏空間、借閱數量、信息時效、閱讀習慣、采購規則等因素,多途徑多方式滿足此類圖書的密集需求。
筆者以大連理工大學盤錦校區圖書館中文圖書館藏及借閱數據為例,利用Tableau,VOSviewer分析統計及可視化工具,從圖書的學科類目、題名特征、功能特征3方面描述、分析及定位讀者利用圖書的偏好。采訪館員可在圖書館資源建設原則的基礎上,有針對性地調整具體采購策略,進一步合理調整館藏結構,提高文獻的保障率和利用率。
大連理工大學盤錦校區圖書館2013年建成啟用,運行平穩,讀者借閱數據連續、完整,分析結果具備可靠性。2020年以來,館藏及借閱數據受到疫情的一定影響。因此,筆者選取2013—2018年入藏的中文圖書,統計館藏基礎數據,包括書目數據、入藏數據、借閱數據,統計時間截至2019年12月31日;計算字段數據,主要利用基礎數據,通過計算公式形成的統計數據字段,具體見表1。以每冊書為單位,零借閱圖書及借出圖書(借出一次為一條數據)形成的借閱數據合集,經過對原始數據的清洗,共獲得337616條數據。

表1 數據字段名稱及內容
基于Excel進行數據清洗,通過SQL檢索語句,從圖書館自動化管理系統(匯文Libsys)中導出Excel格式的所需數據。在Excel表單內,對缺失數據、錯誤數據、非規范數據如出版社、學部學院的名稱進行規范統一;讀者類型標準化為教師、教輔及行政、本科、碩士、博士;通過中圖法分類號形成相應的一級、二級、三級學科類目名稱映射;對不同字段賦予相應的數據類型(字符串、數值、時間)等。
基于Tableau的計算、分組、下鉆、集合等功能進行數據分析及可視化展示,利用不同主題工作表組合成任務型儀表板。在儀表板內,通過工作表的篩選器功能實現儀表板內不同工作表間的交互,能夠更清晰地展示影響某一目標任務的各要素發生變動時所產生的聯動效果,這也為更深入細致的數據分析提供了便利。
基于VOSviewer的文本挖掘、可視化顯示功能,筆者為準確把握高借閱率圖書的特點及共性,對圖書題名進行分詞處理、詞頻分析及共現分析,用VOSviewer進行結果聚類分析。
2013—2018年盤錦分館入藏圖書98602種200628冊,截至2019年底借閱數據及讀者人數分布如表2所示。所有圖書的借閱次數為193634,借閱總數為216796(包含續借)。按種類計算,有過借閱歷史的圖書36926種,占入藏圖書種類的37.45%。按冊數計算,有過借閱歷史的圖書56646冊,占入藏圖書總冊數的28.23%。由統計數據可以看出,如果按入藏冊數統計,超過七成圖書沒有被讀者借閱過,零借閱圖書比例很高;同時,圖書借閱呈現明顯的集中分散現象,借閱頻次超過6次的圖書種類,占圖書數量的9.70%,累計借閱量占比為71.11%;截至2019年底,該校區師生人數約1萬人(包含已畢業),有6771人借過圖書,占校區讀者67.71%,其中借閱頻次在51次以上的164種圖書的借閱人群中包含全部有過借閱行為的讀者。

表2 圖書館藏及借閱數量統計
由上文借閱數據統計可知,大量的借閱集中在少數的圖書中,對這部分圖書特點的掌握,便于采訪人員了解讀者需求和趨勢,在采購原則的指導下,對具體的采購策略、方案進行調整和細化,有針對性地進行文獻資源建設。
對高借閱率圖書的設定為,某一種圖書不僅借閱次數多同時借閱讀者多,即受眾面較廣的高借閱率圖書。為了確定高借閱率圖書數據集,筆者引入箱線圖中的異常值概念,即箱線圖中上邊緣(上須值)以外的為異常值個體。對借閱次數及不同讀者人數進行箱線圖數據描述統計,結果如表3所示。由表3中數據可知,75%的圖書品種借閱次數在1~6之間,借閱次數超過13次/種、讀者數量超過10人/種,都屬于箱線圖統計分析中的異常值,筆者將這類圖書設定為高借閱次數及高借閱人數的圖書。因此,如果以“借閱次數”及“讀者人數”的上須值為橫縱參考線,可劃分成4個象限,如圖1所示。每一象限代表不同類型圖書,其中第一象限為借閱次數和借閱人數雙高的圖書,即圖書的高借閱率來自眾多讀者,這部分是需要研究其特點、多復本采購的圖書。

圖1 圖書借閱次數與讀者人數象限圖

表3 借閱次數與讀者人數描述統計
2.3.1 高借閱率圖書類目分析
圖1所示第一象限包括2882種圖書,占借閱圖書總量的7.8%,占館藏圖書的2.9%,借閱總量為84568次,占總量的39.0%,如表4所示。從類目上看,借閱量主要集中在文學、數理科學和化學、工業技術、語言文字這4類圖書,合計2330種,占該區域圖書的80.9%,借閱總數合計69781次,占該區域借閱總量的82.5%。

表4 第一象限圖書數量及借閱次數的類目分布
高借閱率圖書集含文學類圖書836種,占29.0%;借閱總數占第一象限借閱量的30%;文學類圖書受眾最廣,借閱讀者4129人,占借閱人數的61.0%。圖書主要來自南海出版公司、人民文學出版社、作家出版社、上海譯文出版社等,平均借閱率較高的出版社為南海出版公司、北京十月文藝出版社。
數理科學和化學類囊括613種圖書,占第一象限圖書的21.3%;借閱總數19275次,占借閱量的22.8%;借閱讀者3030人,占借閱人數的44.7%。該類圖書主要來自科學出版社、化學工業出版社、清華大學出版社等,其中清華大學出版社的圖書平均借閱率最高,為32次/種。
語言文字類包括438種圖書,占第一象限圖書的15.2%;借閱總數12255次,占借閱量的14.5%;借閱讀者2663人,占借閱人數的39.3%。該類圖書主要來自機械工業出版社、中國宇航出版社、外語教學與研究出版社、中國人民大學出版社等,其中南京大學出版社出版圖書的平均借閱率最高,為30次/種,借閱率較高的多為語言考試類圖書。
工業技術類包括443種圖書,占第一象限圖書的15.4%;借閱總數12873次,占第一象限借閱量15.2%;借閱讀者2642人,占借閱人數的39.0%。主要集中在該類目下的自動化技術/計算機技術、化學工業兩個二級類目,占該類目下87%的圖書借閱量。高借閱率圖書主要來自人民郵電出版社、電子工業出版社、化學工業出版社、科學出版社等,其中電子工業出版社、中國鐵道出版社出版的圖書平均借閱率最高,均為28次/種。
從以上數據可以看出,一方面,高借閱率圖書集中在數理科學、外語等公共基礎類,計算機通用技術類,以及文學、哲學、歷史等通識教育類;另一方面,高借閱率圖書類目也與盤錦校區設置的學科結構有很強的相關性,該校區設置有化學工程、應用化學、能源化學、知識產權專業、經濟管理、運動康復、海洋技術、環境生態、生物科學和藥學等專業方向,因此,其他高借閱率圖書類目還包括哲學、歷史、法律、經濟、生物科學、環境科學、體育科學等,各類高借閱率圖書的數量和借閱冊次也顯示出與專業學科師生數量正相關的關系。
2.3.2 高借閱率圖書題名特征分析
上文對高借閱率圖書的類目特點做了分析,除此之外,筆者還想從題名上確定具有哪些特征的圖書較受讀者青睞。因此,筆者嘗試利用ROST中文字頻統計分析軟件對第一象限的2882種高借閱率圖書的題名進行中文詞切分及詞頻統計分析,借助VOSviewer進行可視化呈現,結果見圖2。

圖2 高借閱率圖書題名聚類分析
從可視化圖中可以看出,一共有5個聚類,比較大的有4個聚類。按照學科的角度可以看出主要集中在計算機、英語、數學、物理和化學方面。從圖書功能上劃分主要集中在以下5類圖書:教學及輔助類圖書,如教程、習題、學習指導、輔導、解析等;等級及職業資格考試類圖書,如四級(英語)、六級(英語)、二級(計算機)、司法考試等;升學考試類圖書,如考研、雅思等;工具類圖書,如Matlab、Python、C語言、Photoshop等;應用拓展型圖書,如建模、應用、競賽、程序設計等。
書名的詞頻分析對語言、工業技術、數理科學和化學類圖書可以很好地進行可視化聚類顯示,但是對于文學類圖書卻不能形成高頻詞及詞之間的密切關聯。這是因為文學類圖書的書名與專業圖書專指性概念名詞不同,表面上看往往“詞不達意”,這就使得圖2中看不出文學類圖書的聚類。文學類圖書按照每種圖書借閱次數及每冊圖書平均借閱次數綜合考量,受讀者歡迎的排名前10的圖書見表5。從表5列出的圖書可見一斑,文學類圖書中暢銷書、經典書最受讀者歡迎。

表5 文學類中高借閱圖書列表
圖3為不同類目、不同入藏年的高借閱率圖書在不同借閱時間內的借閱情況。顏色由“黑”到“紅”表示每種圖書平均借閱時長由低到高,其中每一方框內的數字由上到下含義分別為:圖書種數、借閱次數、平均借閱次數/種、平均借閱時長/種(以“天”計算)。

圖3 不同類目圖書借閱次數及時長的時間變化
由圖中3可以看出,工業技術、數理科學和化學、語言文字類高借閱率圖書的數量較多、借閱時間較長。此外,圖書入藏第二年的借閱次數及借閱時長達到峰值。如圖中白色邊框方格內的數字分別為:在高借閱率圖書集中,2015年入藏的數理科學和化學類目圖書在2016年被借閱了86種,838次,這些被借閱的圖書中每種書平均被借了9.7次,平均借閱時長為383天。該方框內的數據是圖中平均借閱次數和借閱時長較高的實例,從中也能看出,某一年入藏的圖書隨著時間的推移,借閱次數和借閱時長不斷降低[4]。
目前,本校讀者可借閱圖書60天(包括續借時間),除去到期自動延續的寒暑假90天(3個月),一年可余270天流通時間,1冊圖書一年的周轉次數可為4.5次,圖書館采購圖書為2冊/種,即每種圖書的周轉次數可為9次。與圖中高借閱率圖書的借閱數據相比,在某些年份和類目下,圖書借閱次數和借閱時長基本達到了飽和。當然,以上是根據平均借閱數據得出的結論,在具體到個別圖書時,會有讀者同時借閱產生擠兌現象,也會有暢銷書、經典書遠遠高于平均借閱次數的情況。因此,在實際工作中,對于這類高借閱率圖書,需要采購人員依據采購經驗,結合實際使用情況的研判,及時追加復本,完善復本補充機制,滿足讀者的使用需求[5]。
圖書館藏書空間有限,而且部分高借閱率圖書學術價值不高,閱讀熱度過后,借閱率很快降低。因此,對于高借閱率圖書,可通過采購電子圖書的方式進行復本補充[6]。
近年來,針對機構用戶,中文電子書發售方式存在一些新變化,從2000年之初的包庫打包購買方式升級為可單本定價、單本采選的更加靈活的個性化方式[7]。相對來說,集成商的電子書平臺合作出版社比較多、資源覆蓋面廣,電子書版權清晰,采購方式靈活,可紙電同采、PDA/DDA薦購、學科專業采購,在閱讀體驗以及與圖書館自動化系統的深度整合上也做了進一步開發。目前,針對機構用戶的電子書集成平臺主要有北京人天書店的“暢想之星”、中新金橋的“可知電子書平臺”、浙江新華書店集團的“蕓臺購”、湖北三新文化傳媒有限公司的“田田網”等[8]。針對上文統計的2882種高借閱率圖書,選取其中的兩個平臺進行書目檢索(統計時間為2020年5月16日),以了解當前的電子書平臺能否滿足圖書館對電子圖書的需求。
表6列出包含高借閱率圖書數量排名前10的出版社,包括984種圖書,占高借閱率圖書的34%。兩個平臺合計提供電子書503種,占高借閱率圖書的17.4%。其中化學工業出版社、電子工業出版社、人民郵電出版社的電子書滿足率較高,也有部分出版社并未與第三方深度合作,只提供極少電子書,如科學出版社、機械工業出版社、高等教育出版社等。

表6 電子書平臺中不同出版社的滿足率
通過以上統計可以看出,與高借閱率紙質圖書相比,第三方集成平臺上能提供的電子書數量有限,并且電子圖書新書發售時滯較長,并不能很好地滿足紙電同采的需求,只能作為紙質圖書采購的一種補充途徑。當然,如果各出版社分別采購所需電子書,不論是數量上還是時效上應該優于集成電子書平臺,但相應也會面臨采購談判分散、電子書格式不統一、服務平臺分散等管理和使用上的不便。
通過上述方法,高校圖書館能夠分析出高借閱率圖書的特征和需求熱點。在圖書資源配置上,除了考慮熱門學科類目圖書品種數量上的豐富,還要針對需求圖書的功能特征,兼顧教學教輔、等級考試、職業資格考試、升學考試、工具、應用拓展等類型圖書的補充,使館藏圖書體系結構功能上更合理,滿足讀者多樣化需求。
各高校圖書館采購經費不同,采購重點不同,藏書空間飽和程度不同,紙電資源采購比例也不同,因此,紙質圖書采購復本數量也有各自的規定。通過筆者對圖書借閱頻次與借閱時長的分析,圖書館能夠掌握不同類目圖書的需求密度以及隨時間推移借閱需求的變化,圖書館根據借閱規則,可以確定不同類目圖書借閱峰值的復本需求,在復本數量采購上可以靈活配置細分類目,制定差異化、精準化復本采購制度。
通過圖書題名分詞或者圖書主題詞的可視化分析,可挖掘讀者需求的類型特點。從以上分析可知,外語等級考試、出國語言考試、計算機等級考試、職業資格考試、研究生考試等圖書需求比較旺盛。紙質圖書只能滿足少量讀者的短期需求,圖書館應購買多媒體考試類學習資源數據庫,方便用戶同時性、重復性、互動性使用需求,有效補充紙質圖書的不足。
電子圖書能夠很好地滿足讀者對高借閱率圖書的需求,既能滿足多用戶的并發需求,又能節省藏書空間,對于圖書館來說是效益較高的一種采購模式。目前受出版社版權制約,第三方平臺集成的電子書,在出版社數量、新書發售時間、發售品種等方面還不能很好地滿足圖書館全方位的采購需求,但是圖書館可以結合電子圖書出版社平臺的學科優勢與集成平臺的多源綜合特點,協調中文紙質圖書的補充采購。依據上述分析方法,掌握高借閱率圖書特征,把握讀者閱讀偏好,主動采購該類電子圖書作為紙質圖書補充,以滿足大量的閱讀需求。
筆者利用大連理工大學盤錦校區圖書館圖書及借閱數據進行實證分析,按照筆者的劃分標準及方法,高借閱率圖書只有2882種,數據樣本相對較小,在對高借閱率圖書電子書平臺滿足率的研究中可能會受數據獨特性的影響。但統計分析過程中的詞頻分析及聚類方法、Tableau深度關聯的統計分析方法是一種新的嘗試,使筆者能從多維度探討高借閱率圖書的特征以及各借閱指標的相互關系及變化趨勢,對圖書館采購決策及指標制定具有借鑒意義。