摘 要:相對其他圖書館,高校圖書館的讀者群相對固定,讀者群需求更具針對性,而且高校圖書館能夠獲得大量與讀者相關性較大的小數據,高校圖書館可以在大數據發現的規律基礎上,利用小數據對讀者行為分析,完成對讀者的個性化推薦。
關鍵字:小數據;個性推薦;高校圖書館
課題項目:本文系黑龍江省高校圖工委第四屆科研課題項目“數字圖書館用戶個性化推薦算法研究與應用”(項目編號2015-B-065)研究成果之一。
當前是大數據時代,各行各業都在進行技術改造和升級,共享數據數字化治理的價值[1]。但是大數據情報分析需要強大的實力,大數據分析中的數據采集、預處理、分析挖掘等過程不但需要高水平的研究人員,還需要例如Hadoop、HPCC等高端的數據存儲設備和先進的技術。對于圖書館尤其是普通高校圖書館而言,在研究和挖掘大數據時必然要面對一些人力、物力等方面的困難。另一方,高校圖書館的服務群體主要是學生和老師,相對固定且讀者群數量較小,讀者群有相對固定的模式和需求,對于“小數據”的分析對高校圖書館就比較重要,而且基于小數據分析也更快速、準確,對于人力、物力要求較小,也具有很強的可操作性。
那么什么是小數據?其概念最早是由美國康奈爾大學的教授D.Estrin提出的,Estrin教授對他父親去世前幾個月的日常生活行為觀察分析,注意到他的父親在那段時間的日常行為與平時有一些不同,例如:老人基本不去市場買菜、也不再與其他人發送電子郵件,日常散步的范圍越來越小等等。然而,到醫院做常規檢查時,這些數據是無論通過何種醫學儀器都檢測不出來的,但這些數據確實揭示了老人在去世前幾個月身體逐漸衰退的事實和過程,這些日常行為異常的小數據可以當做醫學證明,也促使Estrin教授意識到小數據的重要意義,并在2013年神經信息處理系統國際會議上發表了小數據相關的報告。
1 高校圖書館讀者的小數據
小數據是指以個人為中心的全方位數據,包括數據被采集對象實時的生活習慣、身體狀況、社交、財務、喜好、情緒、行為等數據[2]。對高校圖書館而言,相對其他行業和公共圖書館,小數據的采集范圍更廣泛,可以包括讀者在使用圖書館過程中產生的直接數據、由其推測的數據和其它部門提供的相關數據。
其中最能夠直接獲取的是讀者直接登記的信息,如新生辦理借書證、注冊移動圖書館等,能夠獲得讀者的姓名、專業、年齡等基本信息;讀者在圖書館信息管理系統中留下的信息,例如通過挖掘借閱歷史、查詢歷史、圖書館薦購信息等分析讀者以前的關注點、當前的興趣點等;讀者使用圖書館各種設備、終端的信息和反饋,如讀者進出圖書館及各閱覽室刷卡信息、使用圖書館終端瀏覽、查詢文獻記錄;其他部門也可以提供讀者相關數據以供分析,如:專業考試信息、學校公共課開設情況、學生選課信息、技能考試報考情況等等,有許多其他公共圖書館不能得到的讀者相關的小數據,不僅包括讀者留下的顯性的信息,也包括需要挖掘分析的隱形痕跡;通過社交媒體分析讀者心理活動、興趣點變化,如opac的“我的圖書館”中收藏的圖書、公眾號中的反饋、微博評價轉發等。高校圖書館可以利用行業大數據或已有的研究結論發現的事物之間的普遍規律,然后用小數據挖掘跟蹤個體,在個體不同時間、地點匹配大數據分析結果,完成讀者個性化推薦服務。
以一名大學本科學生為例,進入大學校園前兩年時間的大部分是公共基礎課或專業基礎課,例如:高等數學、外語、專業相關基礎課等,還有其選擇的選修課,通常還要報考大學英語四六級考試;大三大四則開始學習專業課程,可能還有報考相關專業的專業證書考試;大四畢業設計課題選擇前對本專業研究熱點問題的關注,選擇課題后知識的積累,都需要閱讀大量的專業期刊、書籍等,加之平時瀏覽、查詢的流通歷史記錄;給圖書館公眾號的反饋意見、圖書館主頁中的留言等等都是高校圖書館可以采集獲取的讀者小數據,而且獲得手段相對容易,在數據收集、傳遞過程中不涉及外界數據,僅在高校內部即可采集到所需讀者的小數據,減少數據在采集傳遞過程中外泄的可能性,更加有效地保護了讀者的個人信息安全。
2 小數據的分析
讀者小數據的分析能推算出用戶的各種興趣需求和接受圖書館服務時的舒適度,把各種資源、服務及推送方式與相應的用戶相互匹配,形成高質量的個性化服務[4]。
對于在圖書館歷史數據較少的讀者,可以采取靜態數據推薦算法,根據其注冊基本信息和社交媒體好友等信息,為讀者推送如所在專業讀者最感興趣的圖書、他的好友閱讀最多的文章等,這類服務是粗粒度的,個性化較低。通過采集讀者小數據發現數據量積累到一定程度后,可以采用基于內容的推薦算法,主要是根據讀者的歷史數據推斷其個人喜好,推薦相似的內容,并跟蹤讀者的興趣。還可以根據社交媒體等將讀者之間聯系起來,例如喜歡閱讀類似書籍的讀者可能有相同或相似的偏好。這類推薦算法要先找到讀者所屬的興趣相似的讀者群,即讀者的“最近鄰居”[5],把“最近鄰居”最感興趣、最關注的,而讀者本身不知道的信息推送給讀者。
讀者的興趣受多方面因素影響,僅僅從數據庫、計算機中采集讀者小數據并不能完全展示出讀者的興趣,結合社交情境推演的數據才更全面;同時單獨一種推薦算法也不能準確的預測、判斷出讀者真正、實時的需求,在完善數據采集技術、手段和范圍的同時,采取多種推薦算法混合的方式也能夠完善圖書館的個性化服務。
3 根據小數據精準推薦
根據馬特萊法則即二八法則,圖書館80%的讀者只為圖書館提供了20%的服務收益,這80%的讀者為普通讀者;而其他20%的讀者卻為圖書館貢獻了80%的服務收益,這20%的讀者即為圖書館的關鍵讀者、VIP讀者。針對高效率讀者采取高精度、高準確度的服務更能提高圖書館的個性化推薦,采取如:個性推薦、服務定制、優先選書等“VIP”化服務。高校圖書館按照借閱排行、進館次數等數據可以選出關鍵讀者,跟蹤關鍵讀者的小數據可以了解單個讀者的閱讀活動、閱讀心理變化、閱讀社會關系、閱讀需求和閱讀模式等,進行最真實、生動和動態的描繪與本質因果關系的揭示[3]。
根據跟蹤的小數據對20%的關鍵讀者進行精準推薦活動,例如,讀者個體在微信端、移動圖書館、opac或其他終端設備上的閱讀、瀏覽或檢索的內容、時間都具有自己的特征,圖書館可以通過對讀者借閱歷史數據、目前讀者個體的閱讀所需、讀者個體所處方位等相關小數據進行分析,明確館藏新書適宜推薦的讀者群、館內讀書文化等活動積極參與的讀者群、微信推送的高接受讀者群及服務推送的內容模式等,在不干擾讀者正常工作、學習的前提下,在合適的時間采取讀者習慣、喜歡的方式對讀者進行個性化推薦,完成圖書館服務推送,保證讀者有較高的興趣度和滿意度,使得圖書館獲取良好的服務收益。
4 結語
隨著信息技術的快速發展、圖書館資源數量的急劇增加和人們生活節奏的加快,如何快速、準確、有效地發現讀者的需求,已經是圖書館發展所要面臨的重要問題。對于高校圖書館而言,服務群體是相對固定的,相對大數據分析所需的高要求,小數據分析更加適用于高校圖書館,更具有針對性,效率更高。高校圖書館在日常工作中應該注意采集小數據,也要培養館員利用小數據分析讀者需求、發現讀者興趣的能力,利用小數據分析挖掘讀者隱性需求,有利于提高館員的數據服務素養,優化升級圖書館的個性化推薦,推動圖書館優質服務的發展。
參考文獻
[1]張衛東.小數據架構下的數字化治理路徑研究[J].高校圖書館工作,2016(36),176.
[2]陳沉.基于小數據決策支持的圖書館個性化服務[J].圖書與情報,2015,01.
[3]陳沉.圖書館小數據讀者個性化興趣預測與發現模型的構建[J].圖書館論壇.2016,12.
[4]陳廉芳.大數據環境下圖書館用戶小數據的采集、分析與應用[J].技術應用.2016,3.
[5]李新廣.數字圖書館的用戶偏好模型及個性化推薦研究[D].武漢大學.2011.
作者簡介
錢浩,哈爾濱商業大學圖書館,館員。