


摘要:為探討數據挖掘技術在高校圖書館個性化服務中的應用,提高圖書館服務的針對性、主動性、高效性,文章采用文獻分析法梳理研究思路,了解高校圖書館個性化服務中數據挖掘技術的應用思路及具體技術并結合文獻梳理結果、工作實踐提出數據挖掘技術的應用過程。研究結果表明:文章提出的高校圖書館個性化服務中的數據挖掘技術可向讀者推薦合適的圖書文獻信息并進一步收集讀者的個人數據、借閱行為數據、檢索數據等,通過構建關聯(lián)模型達到了提高讀者服務針對性、高效性的目的。
關鍵詞:高校圖書館;數據挖掘;個性化服務
中圖分類號:TP311
文獻標志碼:A
0 引言
隨著信息技術的不斷發(fā)展,高校的圖書館資源也越來越豐富。在海量的圖書資源中,如何讓用戶找到自己想看的書并將適合的書推薦給適合的讀者,是擺在高校圖書館面前的一個重要課題。高校圖書館利用數據挖掘技術可以分析讀者借閱行為背后的基本規(guī)律,根據讀者的喜好、實際需要提供個性化的推薦服務,提高了圖書館服務的主動性、針對性。
1 高校圖書館個性化服務技術思路
高校圖書館的服務對象是校內的廣大師生,除了要提供常規(guī)的圖書借閱服務外,還須要針對師生的學術研究、日常工作與學習為師生提供更專業(yè)的文獻咨詢等服務,這就需要高校圖書館的服務更具準確性、專業(yè)性,能夠分析不同類型讀者的需求、使用行為、興趣特點等,主動并精準地向用戶推送文獻資料,提供更專業(yè)、更主動、更精細的服務。傳統(tǒng)的圖書館個性化服務無法發(fā)現(xiàn)大數據下隱藏的價值信息,而信息技術的發(fā)展破解了這一難題。數據挖掘技術的應用可揭示數據信息之間的相互關系;大數據技術的應用可對數據信息進行分析、檢索、加工,精準地向用戶推送圖書信息;數據挖掘過程中會攜帶大量的其他信息,信息過濾技術可以過濾掉不必要的信息,留下能夠滿足用戶需求的少數關鍵信息,以提高個性化服務的準確性、高效性。圖書館個性化服務還須要通過人工智能技術將自動化與計算機技術聯(lián)系起來,通過深度學習分析用戶的個性化需求,提高圖書館信息檢索效率,拓展圖書館服務范圍[1]。在高校圖書館個性化服務中,數據挖掘技術起到關鍵作用,基本步驟主要包括數據準備、數據挖掘、結果評價3個部分,具體如圖1所示。
不同領域需要分析的問題不同,所采用的數據挖掘技術也有所不同。數據挖掘的步驟并非一成不變,所分析數據的完整度、數據分析人員的專業(yè)能力等也會對數據挖掘的具體步驟產生影響。
2 常用數據挖掘技術
數據挖掘過程中常用的技術包括聚類分析、協(xié)同過濾算法、FP-growth算法、關聯(lián)分析技術、爬蟲技術等。
2.1 聚類分析
數據挖掘過程中,聚類分析技術自動尋找、建立分組規(guī)則的方法,判斷樣本之間的相似性,將相似樣本劃分在一個簇中,實現(xiàn)為有借閱行為的讀者推薦圖書的功能。很多高校現(xiàn)有的圖書管理系統(tǒng)并不具備為讀者提供主動服務的功能,聚類分析技術可以以讀者的借閱情況為簇中心點,分析讀者的閱讀傾向、閱讀習慣。在聚類分析過程中,系統(tǒng)會設定最小相似度閾值,若收集到的借閱數據滿足該閾值,系統(tǒng)判斷這些借閱數據歸屬于同一個簇,再根據聚類分類結果向讀者精準推薦圖書。或者以某類圖書為簇中心點進行聚類分析,分析借閱該類圖書借閱者的讀者類型、偏好,針對性地向讀者推薦圖書。
2.2 協(xié)同過濾算法
協(xié)同過濾算法的中心思想是利用用戶之間、用品之間的相似性發(fā)現(xiàn)用戶可能的喜好、偏向,可用于向沒有借閱行為的讀者推薦圖書[2]。協(xié)同過濾算法根據用戶的興趣愛好將不同的用戶劃分為不同群組,比如低年級新生在圖書館中沒有借閱記錄,就可分析與其專業(yè)屬性相同的高年級學生的借閱行為,以同專業(yè)、高年級學生的借閱資料為參考向新生推薦圖書。
2.3 FP-growth算法
FP-growth算法主要通過構造FP樹的數據結構,將數據存儲于FP樹中。該算法雖然屬于關聯(lián)分析的范疇,但是更高效、更經典,只須掃描2次數據庫即可將計算機數據的關聯(lián)規(guī)則、頻繁項集高效計算出來。數據挖掘過程中,F(xiàn)P-growth算法利用篩選好的數據找出以搜索目標為后綴的頻繁項集,讀者在利用圖書管理系統(tǒng)的搜索功能時,系統(tǒng)就會將該頻繁項集反饋至讀者搜索頁面,以提高讀者搜索的精確性[3]。
2.4 關聯(lián)技術
圖書館在個性化服務中,可應用關聯(lián)技術分析讀者專業(yè)背景與圖書借閱類別、數量的關系。在高校學生評價體系中,績點、平均分等指標可體現(xiàn)學生的學習能力、學習態(tài)度。關聯(lián)技術可分析某個年級學生的成績數據,再分析學生對應的圖書借閱情況,即可得到學生績點與圖書類別、數量之間的關系。關聯(lián)規(guī)則主要是通過相關數據得到聚類結果,發(fā)現(xiàn)有序列模式關聯(lián)性的圖書書目,圖書管理員在設置圖書最大借閱天數、最大借閱圖書數量時,可根據讀者的實際情況進行個性化設置。
2.5 爬蟲技術
爬蟲技術主要是通過爬蟲程序實時捉取相關書籍的基本信息,比如從豆瓣網捉取書籍的評論,從購書網站捉取對應圖書的價格等。該技術既能夠簡化系統(tǒng)搜集信息的流程,又能夠降低讀者搜索的時間成本[4]。
3 數據挖掘技術在高校圖書館個性化服務中的具體應用
高校圖書館個性化服務中,數據挖掘技術應用的關鍵步驟主要包括以下幾個方面:
3.1 數據資源的獲取與處理
數據挖掘技術主要包括3個步驟,即數據準備、數據挖掘及結果評價。數據準備階段須要獲取數據資源,然后對數據資源進行優(yōu)質化處理,清查冗余數據,將不同格式的數據轉化為統(tǒng)一格式并進行集成化處理,以保證后續(xù)數據挖掘順利進行。在高校圖書館服務過程中,原始數據資源主要來自圖書館本身館藏數據、讀者的基本信息以及讀者通過圖書館借閱系統(tǒng)產生的行為數據等。館藏數據主要包括圖書館的屬性信息、讀者信息除基本信息外,還包括借閱記錄、其他聚類分析數據等;借閱數據主要來自系統(tǒng)借閱業(yè)務數據庫等。館藏數據、讀者數據、借閱數據是利用數據挖掘技術實現(xiàn)個性化服務的基礎。圖書館獲取相關數據資源后,即對數據進行空值數據處置、噪聲數據過濾等預處理,比如針對每本圖書設置獨立索引、補全讀者信息中的空白項等[5]。無法補全的或者重復的信息須要及時清除,以提高后續(xù)數據挖掘效率。預處理后的數據要進行統(tǒng)一的格式轉換、數據集成,最終生成讀者基礎數據表、圖書信息基礎數據表、讀者借閱行為數據表等,為后續(xù)的數據挖掘打好基礎[6]。
3.2 數據挖掘過程
上述數據資源清理干凈后,即對處理好的數據進行挖掘,主要包括以下2個部分。
3.2.1 讀者信息挖掘
讀者信息挖掘的主要步驟包括以下幾個方面:首先,設置聚類個數。采用聚類算法挖掘讀者的借閱信息,先對數據源進行聚類解析,獲取讀者閱讀信息后,再利用K-means算法對讀者基礎數據表、讀者借閱行為數據表、圖書信息基礎數據表中的數據進行聚類、挖掘。高校圖書館讀者可分為3種類型:活躍型、普通型和其他類型。活躍型即借閱頻次較高,涉獵圖書范圍較廣的讀者;普通型則是借閱頻次及涉獵圖書范圍一般的讀者;其他類型則指能夠被圖書管理系統(tǒng)獲取信息較少的讀者。根據讀者類型,本研究將聚類k值設置為3并采用歐氏距離計算讀者信息與所屬分類的歐氏距離。歐氏距離計算公式如下[7]:
式中,x1、x2為2個陳述屬性,d(x1,x2)即二者之間的歐氏距離;x1k表示對應x1的詳細選值,x2k表示對應x2的詳細選值。根據該公式可計算出圖書館讀者信息與所屬分類的歐氏距離,基于聚類相關結構重新設定k個簇,再利用誤差平方和評價簇子集的聚類特性。假設某個數據集中k個簇的子集分別為各個簇對應的樣本數據,可用下式計算該簇子集的誤差平方和[8]:
式中,p為簇個數,m為簇樣本數,E為誤差平方和。首先,按照新的中心將數據集中所有元素重新完成聚類,如計算出的誤差平方和未發(fā)生明顯變化,說明聚類、收斂已完成。
其次,準則函數是否收斂判斷完成后分類存儲讀者信息并可視化地展示出來。最后,設置讀者聚類挖掘行為有效值為k,k值會對讀者信息聚類效果產生直接影響,如k值選擇過小,聚類后簇族覆蓋范圍過大,不僅會影響挖掘效率,而且會影響挖掘結果;如k值選擇過大,則簇族覆蓋范圍過小,會由于聚類數據過于分散無法獲取關聯(lián)性較強的數值。一般情況下完成k的初步賦值后,須要對其進行持續(xù)調節(jié)、優(yōu)化,獲得一個簇間距較小的有效區(qū)間,k值從該區(qū)間選擇。
3.2.2 讀者借閱信息挖掘
挖掘讀者借閱信息的主要目的是通過分析讀者的閱讀行為規(guī)律提高讀者與圖書的關聯(lián)度。系統(tǒng)可根據借閱信息設置借閱行為信度、支持度有效閾值等指標。實際挖掘過程中,首先,將讀者借閱信息數據庫中的借閱記錄作為項數集合,通過項數集合可以分析讀者與圖書的關聯(lián)度;其次,分析讀者借閱信息行為支持度、有效置信度、行為提升潛在空間等變量參數,挖掘讀者信息處理過程中的關聯(lián)規(guī)則并通過迭代優(yōu)化關聯(lián)規(guī)則,實現(xiàn)信息強關聯(lián)處理;最后,設置項集并集中展示關聯(lián)信息,無關信息須手動篩查后清除,優(yōu)化挖掘成果[9]。
3.3 結果評價
上述數據挖掘步驟完成后即可實現(xiàn)高校圖書館的個性化服務,既能夠為讀者推薦合適的圖書文獻信息,又能夠幫助讀者檢索到相似度更高的信息。在此過程中,圖書館進一步收集讀者的個人數據、借閱行為數據、檢索數據等,構建關聯(lián)模型,提高讀者服務的針對性、高效性[10]。本研究中高校圖書館應用數據挖掘技術獲得了更好的個性化服務效果,提高了圖書信息資源利用率。圖書館利用數據挖掘技術可分析讀者的借閱行為,比如選擇某高校碩士研究生的借閱圖書數據,可分析現(xiàn)行圖書管理系統(tǒng)中所設定的研究生借閱權限是否滿足讀者需求,借閱冊數、借閱期限等是否合理。通過比較分析某個時間段內碩士研究生讀者借閱冊數、續(xù)借本次、過期本次、預約本次、借閱本次數據比等可知,該校的50位碩士研究生中有借閱行為者49人,其中無續(xù)借、無過期記錄者7人,有續(xù)借無過期記錄者15人,有續(xù)借、有過期記錄者28人,無續(xù)借有過期記錄者2人。其中,有續(xù)借、有過期記錄者占比最高,說明該高校的圖書借閱期限時間設置過短,無法滿足碩士研究生的借閱需求,因此,圖書館須要優(yōu)化圖書管理制度。此外,數據挖掘技術也提高了圖書采購資金的使用效率。高校圖書館須要根據校內師生的研究課題、項目采購所需圖書資料,以提高圖書館文獻咨詢服務的全面性、針對性、有效性,因此,圖書館可利用數據挖掘技術提高圖書采購資金的使用效率。在讀者借閱行為數據中,通過分析讀者的預約行為了解其對圖書資料需求的迫切程度,因此,圖書館可通過分析讀者的預約數據了解須要采購的圖書類型。仍以上述高校為例,通過數據挖掘可知,該校50名研究生對工具類圖書的需求最大,其次為業(yè)余愛好類圖書,針對考試類圖書的需求反而最小,因此,圖書館采購圖書時可提高工具類圖書的采購比例,擴大這類圖書的復本數。
4 結語
總之,數據挖掘技術將龐大數據中隱含的、有潛在價值的數據挖掘出來,經過總結、歸納、梳理得到概念化的結果,利用這一概念化結果可以表達數據庫海量數據之間的某種聯(lián)系,最終獲得更多更有價值的信息。因此,將數據挖掘技術應用于高校圖書館,可向讀者提供個性化的推薦服務,提高圖書館服務質量。
參考文獻
[1]黃茂漢,邱瑾.基于區(qū)塊鏈技術的高校圖書館科學數據管理模型研究[J].圖書館工作與研究,2022(8):53-62.
[2]刁羽,薛紅.高校圖書館典型用戶群體電子資源行為數據分析實證研究:基于創(chuàng)文圖書館電子資源綜合管理與利用系統(tǒng)[J].新世紀圖書館,2022(7):59-64,71.
[3]陸穎,胡佳琪,史繼強,等.面向科研數據管理的高校圖書館學科服務研究[J].圖書館工作與研究2021(3):41-48.
[4]劉敏.“雙一流”高校圖書館科學數據服務現(xiàn)狀及優(yōu)化策略[J].圖書館工作與研究,2020(11):15-24.
[5]王麗君,路一平.基于數據挖掘技術的數字圖書館交互服務系統(tǒng)開發(fā)研究[J].信息技術與信息化,2023(4):35-38.
[6]陳書光,何艷紅,封旭.面向數據挖掘的圖書館用戶引導技術研究[J].廣西民族大學學報(自然科學版),2020(3):87-90.
[7]王慧娜.數字圖書館個性化交互服務行為信息挖掘系統(tǒng)設計[J].現(xiàn)代電子技術,2020(10):153-155,159.
[8]唐玖江,榮維東,薛相鋒.青少年課外閱讀推薦書目研究:基于中小學語文課程標準實施視角[J].圖書館雜志,2020(5):64-74.
[9]王會玲.高校圖書館閱讀書目推薦淺析:以武漢工程科技學院圖書館為例[J].河南圖書館學刊,2021(10):80-82.
[10]程全.基于情景感知的智慧圖書館閱讀推薦服務模型構建與優(yōu)化策略[J].圖書館工作與研究,2021(10):119-128.
(編輯 王雪芬)
Application of data mining technology in the personalized service of university library
HU Dongyang
(Zhengzhou Institute of Industrial Application Technology, Xinzheng 451100, China)
Abstract:In order to explore the application of data mining technology in personalized services of university libraries, improve the pertinence, initiative, and efficiency of library services, this article uses literature analysis to sort out the research ideas, understand the application ideas and specific technologies of data mining technology in personalized services of university libraries, and propose the application process of data mining technology based on the results of literature review and work practice. The research results indicate that the data mining technology proposed in the article for personalized services in university libraries can recommend suitable book and literature information to readers and further collect readers’ personal data, borrowing behavior data, retrieval data, etc. By constructing an association model, the goal of improving the pertinence and efficiency of reader services can be achieved.
Key words:university library; data mining; personalized service