主雪梅 楊洪秀 魏榮華 許雅涵



摘? 要: 圖書館用戶信息挖掘是提升圖書館管理效率,實現高質量用戶管理與用戶服務的有效方法。文中研究大數據環境下基于云計算的圖書館用戶信息挖掘技術,構建圖書館用戶信息挖掘技術結構體系。數據層包括用戶基本信息、圖書借閱歷史數據、圖書信息咨詢記錄等,采用降噪處理、遺漏數據處理等方式預處理用戶信息數據;云計算層基于計算資源與存儲資源,采用K?means聚類算法從用戶借閱情況和用戶興趣類型兩方面劃分圖書館用戶群體類型,依照劃分后的用戶借閱信息采用蟻群規則挖掘算法,獲取用戶信息關聯規則,形成規則庫;應用層依照云計算層的挖掘結果執行個性化推薦。用戶信息挖掘結果顯示,所研究技術能有效挖掘圖書館用戶興趣類型,以及用戶群體信息和時間序列信息。
關鍵詞: 圖書館用戶; 信息挖掘; 云計算; 大數據環境; 用戶分類; 個性化推薦
中圖分類號: TN911.2?34; TP391.4? ? ? ? ? ? ?文獻標識碼: A? ? ? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2020)06?0168?03
Research on library user information mining technology based on cloud computing in large data environment
ZHU Xuemei1, YANG Hongxiu2, WEI Ronghua1, XU Yahan1
(1. Hebei University of Water Resources and Electric Engineering, Cangzhou 061001, China; 2. Cangzhou Normal University, Cangzhou 061001, China)
Abstract: Library user information mining is an effective method to promote library management efficiency, and realize high quality user management and user service. The library user information mining technology based on cloud computing in the big data environment is researched to build the structural system of the library user information mining technology. The data layer of the system includes user′s basic information, book borrowing historical data, book information consultation records and so on. The user information data is preprocessed with the modes of noise reduction processing and missing data processing. The cloud computing layer is based on computing resource and storage resource, in which the type of library user groups are divided into two aspects of users borrowing situation and users′interest type by means of the k?means clustering algorithm. According to the divided users borrowing information, the association rules of user information are obtained to form the rule base by means of the colony rule mining algorithm. The personalized recommendation is performed by the application layer on the basis of the mining results of the cloud computing layer. The mining results of user information show that the researched technology can effectively mine the interest types of library users, user group information and time series information.
Keywords: library user; information mining; cloud computing; big data environment; user classification; personalized recommendation
0? 引? 言
近年來,圖書館發展迅速,海量信息數據被存儲在圖書館管理系統內[1]。在圖書館管理中,用戶管理與用戶服務始終是管理的核心內容,通過圖書館用戶信息挖掘可研究圖書館用戶群體的特征與關系[2]、增強圖書館對圖書館用戶的吸引力、提升圖書館管理的效率[3],是高質量的用戶管理與用戶服務的基礎之一。
為提升圖書館管理效率,實現高質量用戶管理與用戶服務,研究大數據環境下基于云計算的圖書館用戶信息挖掘技術。云計算平臺為大數據環境下圖書館用戶信息數據特征分析和挖掘提供良好平臺,其具有高效布置動態資源、依照用戶需求實時計算與儲存等功能[4]。實驗結果顯示,本文方法可有效挖掘出用戶群體信息和時間序列信息,可為圖書館大數據用戶信息特征挖掘提供有效手段,具有較好的應用前景。
1? 圖書館用戶信息挖掘技術研究
1.1? 圖書館用戶信息挖掘技術結構體系
大數據環境下基于云計算的圖書館用戶信息挖掘技術結構體系分為三個層次,分別是數據層、云計算層和應用層。數據層作用是獲取用戶信息的數據來源,主要基于圖書館管理系統、OPAC(開放的公共查詢目錄)檢索用戶信息,并利用ODBC(開放數據庫互連)或其他數據庫接口獲取圖書館用戶信息[5];云計算層基于計算資源與存儲資源,對預處理后的圖書館用戶信息采用決策樹、關聯規則、神經網絡、聚類、貝葉斯分類和回歸等數據挖掘算法完成圖書館用戶信息挖掘[6];應用層依照圖書館用戶信息挖掘結果執行個性化推薦、學科化服務及館藏資源布局與建設等相關管理。
1.2? 基于聚類的圖書館用戶群體劃分
1.2.1? 借閱情況聚類挖掘
從圖書館管理過程中可發現:部分用戶對于圖書館的借閱需求較高,相比之下還有部分用戶對圖書館不存在借閱需求[7]。根據圖書館用戶借閱情況,采用聚類算法將圖書館用戶劃分為有所差異的組別。一個組別內,用戶的書籍借閱分類大體一致,各組別之間用戶的借閱書籍分類差異較為顯著。借閱情況可反應用戶借閱頻率,采用K?means聚類算法挖掘圖書館用戶借閱情況過程描述如下:
將聚類數K的取值范圍設定為[2,8],分別確定圖書館用戶劃分對應的聚類情況,由此得到K取值越小簇涵蓋范圍越大,個別簇內數據達到總數據的70%以上,由此得到的聚類結果無效;K取值越大統計數據精度越低,簇內整體反應精度差,圖書館用戶類型劃分較為分散,降低后續關聯規則可操作性。經過調整K值,將K值確定為3,也就是將圖書館用戶劃分為3個大類。
1.2.2? 興趣類型聚類挖掘
根據讀者興趣類型聚類挖掘的過程如下:在數據層內采集用戶ID、用戶類別以及用戶所屬科院等用戶信息;聚類用戶信息時重復調整K值,獲取最優聚類數為7個大類。
依照有所差異的借閱信息將圖書館用戶劃分成不同的類別,且相同類別內用戶借閱信息相似。在用戶信息聚類結果的基礎上,獲取各類別中詳細的書籍借閱信息,依照這些被劃分后的用戶借閱信息采用關聯挖掘技術,獲取關聯規則,形成規則庫,以便完成館藏資源布局與建設等相關管理,并向讀者提供個性化推薦服務[8]。
1.3? 關聯規則挖掘算法
利用蟻群規則挖掘算法挖據圖書館用戶信息關聯規則構造一條路徑[9]。路徑選擇過程中,螞蟻以一條空規則為基礎構建圖書館用戶信息規則庫,構建過程中每次在規則庫內增設一個term,各term均為螞蟻所選擇的路徑。下一個增設的term為螞蟻下一條選擇路徑,螞蟻持續在規則庫內增設term。當規則庫內包含全部的圖書館用戶信息屬性,或增設一個新的term導致規則所包含的用戶信息低于預先設定的各規則包含用戶信息最小值時,增設term工作結束。螞蟻依照當前路徑的啟發函數和路徑上信息素值[10]選取下一條路徑,一個[termij]被選為當前規則的概率為:
式中:[?ij]和[δijt]分別表示[termij]個啟發函數值和[termij]上的信息素值;[a]表示屬性i應用的屬性數量;[bi]表示屬性j數量;[I]表示屬性i的整體屬性數量;[H]表示類別約束參數。用戶[Tij]選擇圖書時,用戶信息挖掘結果[OTij]表達式如下:
式中,[freq Twij]和[Tij]分別表示保護類別為[w]的用戶信息的數量和用戶[Tij]在圖書館用戶信息的數量。
2? 結果分析
實驗為驗證本文研究的大數據環境下基于云計算的圖書館用戶信息挖掘技術的挖掘性能,以某高校圖書館為實驗對象,采用本文挖掘技術,從圖書館用戶興趣類型關聯規則挖掘結果、用戶群體信息挖掘結果和時間序列信息結果三方面挖掘實驗對象用戶信息。
2.1? 用戶興趣類型關聯規則挖掘結果
采用本文技術挖掘實驗對象用戶興趣類型聚類結果中的關聯規則,得到的結果如圖1所示。由關聯規則挖掘結果得到,采用本文技術能夠有效挖掘圖書館用戶興趣類型,可根據當前用戶數據借閱信息,挖掘出符合用戶興趣偏好的書籍,實現個性化推薦功能。
2.2? 用戶群體信息挖掘結果
在挖掘高校圖書館用戶信息時,專業素養的高低是影響用戶借閱的主要因素之一。通常用戶借閱圖書的類型、數量受用戶專業素養與學歷水平影響較為顯著。根據當前教學體制結構,可從學歷上將高校在校人員分為教師群體、研究生群體和本科生群體。針對這三類群體進行實驗對象用戶信息挖掘,在2018年理科學院到圖書館借閱圖書的不同類型圖書館用戶如表 1所示。
根據圖書館用戶群體信息挖掘結果得到,在總圖書借閱人數中,本科生群體是圖書借閱的主要群體,借閱人數達到80.29%;教師群體在圖書借閱人數中所占比例僅為1.12%。對比平均借閱量得到,本科生群體平均借閱量最低,教師群體平均借閱量最高,兩個群體的平均借閱量分別為9.36本和13.29本。實驗結果表明本文技術能夠有效挖掘實驗對象用戶群體信息。
2.3? 時間序列信息挖掘結果
圖2為用戶時間序列信息挖掘結果。
根據用戶時間序列挖掘結果可得不同學院2018年圖書館用戶在借閱圖書的時間特征。從整體上對比兩個不同科類學院用戶圖書借閱特征大致相同:每年圖書借閱量最高的月份和最低的月份分別是3月、9月和7月、8月;理科學院用戶借閱量最高值和最低值分別為1 916本和270本;文科學院用戶借閱量最高值和最低值分別為7 481本和1 093本。每年的3月和9月均為學校開學月,而7月和8月則為學校放假時間。
由上述分析可知,不同學科用戶圖書借閱信息存在共性特征,即開學月為圖書借閱的高峰期,放假月為圖書借閱的低潮期。文科學院5月份的借閱量呈現出一個小高峰主要原因在于該月中安排了每年本科大四學生的畢業答辯,此時以學術類文獻為用戶圖書借閱的主要類型。每年的7月和8月是圖書借閱量最低的月份,主要原因是這兩個月為學校暑假放假階段,雖然2月份也為寒假放假期間,但相比之下,7月和8月圖書借閱量低于2月份圖書借閱量,主要原因是7月和8月,本科大四學生畢業離校,圖書館用戶相對降低。除上述分析月份外的其他月份中圖書館用戶借閱量表現為無規律變化狀態。結果表明,本文技術挖掘的實驗對象用戶時間序列信息與實際情況對應,驗證了本文技術挖掘圖書館用戶信息的準確性。
3? 結? 論
本文研究大數據環境下基于云計算的圖書館用戶信息挖掘技術,構建圖書館用戶信息挖掘技術結構體系,由數據層、云計算層和應用層構成。其中云計算層采用K?means聚類算法劃分圖書館用戶群體,在聚類結果的基礎上采用蟻群規則挖掘算法實現圖書館用戶信息關聯規則挖掘。用戶信息挖掘結果顯示本文技術能夠有效挖掘圖書館用戶信息,實現個性化推薦功能。
參考文獻
[1] 季忠洋,李北偉,朱婧祎.智慧圖書館用戶使用行為影響因素研究[J].圖書館,2018(12):21?25.
[2] 王欣,張冬梅,閆鳳云,等.大數據環境下基于科研用戶小數據的圖書館個性化科研服務研究[J].情報理論與實踐,2017,40(10):85?90.
[3] 王捷.基于用戶行為數據分析的高校圖書館信息服務平臺研究[J].現代情報,2017,37(1):128?131.
[4] 申琢.基于云計算和大數據挖掘的礦山事故預警系統研究與設計[J].中國煤炭,2017,43(12):109?114.
[5] 張穩,羅可.一種基于Spark框架的并行FP?Growth挖掘算法[J].計算機工程與科學,2017,39(8):1403?1409.
[6] 施航海,葉瑞哲,許卓斌.大數據環境下圖書館用戶個人的信息保護研究[J].微電子學與計算機,2018,35(5):138?140.
[7] 王福,梁玉芳.移動圖書館用戶信息行為對情境的作用機理研究[J].圖書館,2018(7):80?87.
[8] 戴詠梅.互聯網思維下高校圖書館用戶信息渠道研究[J].大學圖書館學報,2016,34(3):75?84.
[9] 陳廉芳.大數據環境下圖書館用戶小數據的采集、分析與應用[J].國家圖書館學刊,2016,25(3):69?74.
[10] 陳小平.基于區塊鏈理念的圖書館移動用戶行為大數據挖掘研究[J].圖書館工作與研究,2018(12):65?70.