





作者簡介:彭麗(1982—),女,講師,碩士;研究方向:圖書管理及讀者服務。
摘要:圖書館網站的推薦系統是幫助用戶找到合適圖書的重要工具。隨著互聯網技術的迅猛發展和圖書數量的增加,通過圖書館搜索系統尋找圖書變得耗時且困難。文章提出了一種專注于大學圖書館的圖書閱讀推薦系統,旨在滿足用戶在相同專業和學科領域的興趣。結果表明,文章所開發的挖掘技術適用于在圖書館中實施推薦圖書工具,其準確性值較其他技術更高。
關鍵詞:大學圖書館;圖書閱讀推薦系統;關聯規則;數據挖掘技術
中圖分類號:TP311;TP393文獻標志碼:A
0引言
圖書館系統中的推薦系統一直在不斷發展,以提高信息檢索效果和用戶的滿意度[1-2]。這項技術被應用于信息推薦,提供更相關的結果,從而提升用戶在圖書館檢索圖書時的滿意度[3]。本研究旨在開發圖書推薦系統,以滿足每個專業的個體需求[4]。此外,本研究引入了關聯規則技術,用于識別每個專業用戶興趣與圖書系統中圖書的可用性之間的關系,根據圖書類別和借閱情況進行匹配[5]。這有助于用戶更方便地檢索圖書并提供更好的檢索結果。圖書推薦系統不僅提升了圖書館系統的效果,還有助于降低存儲成本。此外,該系統使用戶更容易檢索書架上的圖書,培養用戶的閱讀習慣。
1研究方法
圖書推薦系統的框架如圖1所示,框架機制分為3個步驟設計。
11圖書館語料庫
圖書館語料庫匯總了每位用戶借書后的書目和歷史數據,在處理后形成了包括圖書ID、圖書名稱、圖書類別、作者姓名、用戶ID、借書日期、歸還日期以及用戶專業等信息的文檔。此外,每個類別的具體信息如下:
000雜項
100哲學和心理學
200宗教
300社會科學
400語言
500科學
600技術
700藝術與娛樂
800文學
900歷史與地理
12用戶畫像
用戶畫像是對用戶偏好進行建模的過程。假設系統有n位用戶參與,借出了m本書。設P為系統中所有用戶的集合;P={P1,P2...,Pn},L為從圖書館收藏借出的書籍的集合;L={l1,l2…,lm},PLij是用戶Pi借的書籍的集合;PLij={plil,pli2,...,plij},用E(pi,plij)表示用戶Pi與借書PLij之間的關系。用戶畫像定義如下:
定義[用戶畫像]:
對于用戶pi,其中i=1,…,n;
令Ui為用戶pi的用戶畫像。
Ui;={lt;pi,plijgt;/plij∈PLpi∈PE(pi,plij)=1}
13關聯規則分析器
該步驟旨在準備和清理數據,以創建關聯規則模型,對用戶借書時的關系進行分析。本文使用關聯規則技術,通過分析用戶畫像來探索模式,以優化圖書推薦系統。研究人員探討了專業、用戶集、圖書類別和書名之間的關聯。系統目前在這些事務中應用關聯規則挖掘,識別出讀者可能感興趣的圖書。關聯規則算法主要用于發現數據庫中項目之間的關系。計劃是發現滿足用戶設定的最小支持和置信度分數的關聯規則。支持指的是項目在數據庫中的出現頻率。
系統在這些事務中應用關聯規則挖掘,找出讀者可能感興趣的圖書,調整支持和置信參數以得到更強的規則。關聯算法規則主要用于發現在數據庫中項目之間的關系。計劃是發現滿足用戶指定的最小支持和置信度分數的規則。支持是指項目在數據庫中出現的頻率。置信度表示if/then語句被發現為真的次數。置信度表示if/then語句被發現為真的次數。
用戶借書歷史的關聯關系對創建推薦系統至關重要。關聯規則挖掘模型的詳細信息如下:采用F、U、C、L→T形式的規則標簽用于提取稱為FUCL模型的規則,采用U、C、L→T形式的規則標簽用于提取稱為UCL模型的規則。其中F、U、C和T是用戶(U)、專業(F)、圖書類別(C)、圖書借閱(L)和圖書標題(T)的不相交項目集。對于每個形式為F、U、C、L→T的規則,只有在規則滿足所需的最小支持和置信度值標準時,它才被認為對推薦目的有用。研究人員定義了supp和conf,分別表示支持和置信度,如式(1)—(2)所示。
conf(F,U,C,L→T)=count(F,U,C,LandT)count(F,U,C,L)(1)
sup(F,U,C,L→T)=count(F,U,C,LandT)count(All)(2)
表1展示了圖書關系規則的示例。規則的選擇取決于信任度和支持度的值。在生成大量規則時,簡單的選擇考慮因素包括:選擇信任度最大的規則;如果信任度值相等,則選擇支持度最大的規則;當信任度和支持度值相等時,選擇最先發生的規則。從表1中可以觀察到以下規則的解釋:F、U、C、L→T的支持度表示在用戶(U)、專業中的用戶(F)、圖書類別(C)、圖書借閱(L)和圖書標題(T)中出現的概率。F、U、C、L→T的置信度表示在書名(T)中出現的概率,假設用戶(U)、專業中的用戶(F)、圖書借閱(L)和圖書類別(C)是已知的。
2實驗設置
21數據集
收集的文檔包括2012年1月至2016年2月期間的126521筆交易。歷史借閱語料庫中的每條記錄都包括圖書id、書名、類別編號、歸還日期、借閱日期、條形碼、用戶類型、用戶id和文獻信息。
22評估矩陣
實驗中招募了30名用戶作為實驗參與者。在評估系統向用戶建議感興趣項的能力時,使用信息檢索分類度量標準進行準確性測量。準確度和召回率的準確性是評估系統對用戶興趣進行正確或錯誤決策的標準測量。對于向用戶u推薦的書籍bx,D(u,b)表示推薦書籍的集合,召回率和精確度的定義如式(3)和式(4)所示。
recall=(D(u,b))=1|U|∑u∈U|bp(u,b)∩D(u,b)||bp(u,b)|(3)
precision=(D(u,b))=1|U|∑u∈U|bp(u,b)∩D(u,b)||D(u,b)|(4)
其中,|bp(u,b)|是相關文檔的數量,|D(u,b)|是檢索到的文檔的數量,|bp(u,b)∩D(u,b)|是從檢索到的文檔中的相關文檔的數量。
召回率衡量向用戶建議的感興趣項在所有感興趣項中的占比。而精確度衡量向用戶建議的感興趣項在所有建議項中的占比。實驗中的30名受試者被認為是各自領域的專家。因此,他們的相關性評分被假定為相對準確。在研究設置中,每個受試者都被分配調查從bx獲得的書籍,展示了其中相關性較高的10本書。請受試者在兩點評分尺度上評估圖書推薦的相關性:得分0表示不相關,得分1表示相關。
3實驗結果
31關聯規則的結果
根據具有最小置信度值的規則顯示,超過60%的選擇涵蓋了用戶(U)、所在學院的用戶(F)、圖書借閱(L)、圖書類別(C)和書名(T)的交易。這表明這些選擇所代表的條件概率是可靠的。另一方面,強規則如“管理,用戶1,000,知識管理”的置信度保持不變,為100%。該規則意味著用戶1在雜項類別借閱的書名是《知識管理》將會在《知識管理:理論概念》中借閱。因此,這些規則的關系可能有助于向用戶推薦圖書。
32評估結果
式(4)對所推薦的書籍進行了受試者相關性評分。實驗結果如表3所示。每個單元格中的值是30個搜索項精度的平均值。在此實驗中,進行了FUCLModel和UCLModel的對比。FUCLModel是提出的技術,而UCLModel是基于用戶配置文件的對比技術。實驗結果顯示,FUCLModel的性能優于UCLModel。高精度值表示高準確性,結果顯示在前5名的精度比在前1名的表現更好。
4結語
本研究提出了一種專注于大學圖書館的圖書推薦系統。研究人員分析了用戶的配置文件,包括借閱歷史、書籍類別和相關數據。相同學院的用戶借閱了相同類別的書籍,表明他們對相同的圖書主題感興趣。此外,研究結果顯示,開發的圖書推薦系統模型在個體用戶進行圖書搜索時表現令人滿意。評估矩陣的結果顯示,啟發式模型FUCLModel在性能上優于UCLModel。在未來的研究中,團隊將考慮包括其他因素以分析關系,應用其他數據挖掘技術,與其他已開發的模型進行比較。
參考文獻
[1]李昕昊.智慧校園環境下教育信息化建設探究[J].辦公自動化,2023(20):59-61,35.
[2]吳瑞芳.大數據背景下高校智慧校園建設研究與探索[J].中國信息化,2023(9):94-95,101.
[3]劉結實.數字圖書館不同類電子資源訪問流量預測技術[J].自動化技術與應用,2023(11):110-113.
[4]湯憲振.基于用戶感知的高校圖書館閱讀服務創新研究[J].圖書館學刊,2019(11):115-118.
[5]楊木容.高校圖書館閱讀服務的創新研究——基于出版社網絡資源與服務的調查分析與利用[J].圖書館建設,2013(11):50-55.
(編輯王永超)