基于XGBoost的圖書館混合推薦模型研究與應用

2022-03-18 21:48:10王日花

河南圖書館學刊 2022年1期

王日花

關鍵詞：圖書館;混合推薦;XGBoost;模型;信息推送

摘要：隨著信息技術的發展，圖書館傳統的推薦方式難以滿足廣大讀者的個性化需求，單一的推薦算法在海量數據處理面前的缺陷也愈發明顯，協同過濾是解決圖書推薦問題的重要方法。文章分析了基于用戶和基于物品的兩種協調過濾算法，借助XGBoost梯度樹狀開源框架對協同過濾結果持續優化，提出了一種融合用戶和物品的混合推薦模型，并利用中國傳媒大學圖書館的借閱數據進行了仿真實驗，與單一基于用戶的協調過濾算法對比，混合推薦模型提升了推薦的精準率、召回率和F1值，驗證了推薦模型的有效性。

中圖分類號：G250文獻標識碼：A文章編號：1003-1588（2022）01-0104-05

圖書館是高校教學和科研的重要服務部門，在中國傳媒大學“雙一流”建設大背景下，如何發揮圖書館的作用，是擺在圖書館員面前的重要職責。移動互聯網和信息技術的飛速發展，倒逼圖書館要本著一切為用戶服務的宗旨，以建設智慧圖書館為創新改革目標，強化特色服務，拓展新興業態，全面構建公共文化服務體系創新平臺。

圖書推薦是圖書館運營和管理水平的服務評價內容之一，現行的推薦更多是基于流行度的推薦，即將最熱的TOP N圖書廣而告之，不能體現千人千面的精準推薦，制約著圖書館的創新發展。協同過濾的推薦方法是主流的模式，被廣泛應用于各個行業，具有可實施性。

筆者基于用戶和基于物品的兩種單一協調過濾算法，借助XGBoost這一優化的分布式梯度增強庫，分析用戶和物品的兩維度信息進行選型，提出了一種圖書館混合推薦模型，對中國傳媒大學圖書館2019年1月到2021年5月的圖書借閱等流通原始數據進行分析，相對于僅基于用戶的單一協同過濾算法，仿真數據表明筆者提出的混合模型提升了推薦性能，具有實現靈活和便捷的特點，可在圖書館領域實施推廣。

1 圖書館推薦算法概述

推薦算法起源于20世紀90年代，隨著互聯網、大數據和人工智能技術的演進，推薦算法的應用范圍越來越廣泛[1]。推薦算法伴隨搜索引擎的迭代升級，通過關鍵詞可以找到用戶想要的資源。但是，當用戶都不清楚自己的需求時，推薦算法就有了用武之地。推薦算法分為基于流行度的、基于內容的、基于關聯規則的[2]、基于協同過濾的、基于模型的和混合的推薦算法等。

其中，基于流行度相對簡單，即通過統計周期內物品的瀏覽或借閱次數，將TOP N的圖書及時推送給用戶，沒有考慮用戶的個性化需求。基于內容的協同過濾是最初的常用推薦機制，即采集內容的元數據，將與內容相關的物品推薦給用戶，這種方法避免了稀疏性和冷啟動等問題，但存在內容重復推送的問題。基于關聯規則的推薦模式起源于Apriori和FP-Growth算法，如梳理那些常被大多數用戶購買的物品合集，在合集內進行互相推薦，缺點是計算量大、效率不高。基于此，混合推薦算法汲取了各種算法的優勢，更具實際操作條件，逐漸被國內外的研究者廣泛關注[3]。

2 圖書館協同過濾推薦模型對比分析

協同過濾的推薦算法從字面意義上理解是在協同下完成推薦的過程，是“物以類聚、人以群分”的思想在算法上的體現[4]，從用戶和物品兩個方面，包括基于用戶的協同過濾（User-based Collaborative Filtering）和基于物品的協同過濾（Item-based Collaborative Filtering）兩種。

基于用戶的協同過濾主要考慮用戶的喜好，以用戶為中心，忽略物品本身的屬性;將用戶對每個物品的喜好建立向量，并計算不同用戶之間的歐幾里得距離，距離相近的用戶即是鄰居用戶;收集單個用戶的喜好，將這些鄰居用戶喜好的物品匯總排序，并將靠前的物品推薦給鄰居用戶中其他人。基于用戶的協同過濾為目標用戶尋找與他相似度較高的近鄰用戶，并按照這些近鄰用戶的購買記錄推測出目標用戶可能喜歡的物品合集[5]。與之相仿，基于物品的協同是采集用戶對物品的喜好，建立用戶偏好行為類型，是以物品而非以用戶為中心，物品與不同用戶之間組成向量;用歐幾里得公式計算出不同物品向量之間的距離，在一定閾值范圍內的物品為相似物品，可以推薦給用戶。

就適用場景而言，基于用戶的協同過濾算法主要考慮相似度矩陣的計算成本，適合用戶數較少的場景，時效性較強，抗數據稀疏度能力和可擴展性強。基于物品的協同過濾算法適合物品數較少的情況，容易發現新的喜好點，推薦的精準率相對高。就冷啟動來說，對于新用戶沒有物品喜好的記錄，或對于新物品沒有用戶使用信息，均不適用協同過濾算法，需要當用戶和物品的交互數據量達到一定值時，才可以進行推進。因此，適時地總結基于用戶[6]的和基于物品的協同過濾推薦方法的性能，提出混合模型的設計思路，即根據用戶和物品的數據量，靈活進行融合推薦算法選型，取長補短，充分發揮兩種算法的優勢，可在一定程度上增強推薦效果。

3 基于XGBoost的圖書館混合推薦模型構建

3.1 XGBoost原理介紹

XGBoost是一種集成的學習加法模型，其模型一般選擇樹模型，也可選擇邏輯回歸模型等，是一種優化了的分布式梯度增強庫，具有實現高效靈活的特點。XGBoost還是一種機器學習算法，在Gradient Boosting框架下實現，廣泛應用于大數據和人工智能的生產領域。XGBoost具有良好的可擴展性，在常用的分布式環境中部署，如Hadoop等，可以用來處理海量數據。研究表明，相較于傳統的推薦算法，XGBoost在防止過擬合、支持并行化、克服數據稀疏性、交叉驗證等方面都有明顯的性能提升，同時會降低系統的響應時間。筆者利用XGBoost的上述技術特點，融合基于用戶的和基于物品的協同過濾推薦算法，提出了一種混合型的圖書館推薦算法模型。

3.2 基于XGBoost的混合推薦模型構建

構建基于XGBoost的圖書館混合推薦模型的核心在于模型選擇和優化，即如何根據數據源的實際進行不同的選型，模型構建見下頁圖1。如果用戶數遠小于物品數，就采用基于用戶的協同過濾算法得到候選集A，對候選集A進行XGBoost再優化處理得到TOP N推薦列表。如果用戶數和物品數相當，就分別采用基于用戶和基于物品的協同過濾算法得到候選集A和B，將候選集A和B混在一起進行XGBoost處理得到結果。如果物品數遠小于用戶數，就采用基于物品的協同過濾算法得到候選集B，對候選集B進行XGBoost處理得到推薦列表。當然，上述三種選型模式均離不開數據前后處理的支撐，包括前期需要對數據進行去重、去噪等預處理，統計分析建立大寬表等;過程中得到的候選集也需要經過融合和過濾等處理得到推薦的結果TOP N。

傳統的協同過濾算法產生的TOP N列表主要利用隱性反饋得出，并未依賴評分數據（讀過是1、否則是0），這就使兩種算法的組合候選集沒有順序之分，不能區別哪些圖書更有可能被用戶喜歡。筆者提出的混合推薦模型融合基于用戶的和基于物品的兩種協同過濾算法的推薦結果，得到候選總集，通過評分預測模型對候選總集進行排序，而不是單獨依賴用戶的評分，使混合模型給出的推薦結果TOP N更能體現用戶和物品兩方面的信息，更接近用戶的真實推薦需求，后面的仿真也驗證了筆者提出的算法有更好的表現。

綜上，單一算法在推薦上一般會缺乏穩定度和精度，因此，主流的研究傾向于把多個算法結合起來，即混合推薦算法。基于XGBoost的混合推薦從用戶和物品兩個方面考量，更接近用戶的真實期望，容錯性更高。混合模型使數據在到達一定規模時，依然保證推薦效果，并緩解了數據稀疏性問題。此外，該模型依靠用戶的評分數據進行過濾融合，提升了訓練速度和效率[7]。

4 計算機仿真與實驗分析

4.1 數據源和仿真工具

筆者的算法測試實驗數據采用中國傳媒大學圖書館借還記錄，包含2019年1月到2021年5月的真實借閱和流通數據，選取借閱次數≥8的用戶，約占總用戶74.3%，取其最后5次記錄作為測試數據，其余數據作為訓練數據。對借閱次數適當的限制，使用戶借閱的數據特征相對充分，更有利于刻畫用戶偏好特征。

實驗場景設置根據數據源的數量和分類等統計信息，選用合適的技術框架，將圖書館的借閱記錄數據、書籍詳細信息數據以及用戶詳細信息數據進行關聯匹配，形成多維度借閱記錄數據，融合構建所用數據集。實驗涉及的協同過濾和相關XGBoost算法的實現均采用Python編程語言，評分預測模型借助基于XGBoost框架實現。

4.2 性能評價指標

推薦模型的衡量指標選取精確率、召回率和F1值。精確率和召回率分別從不同角度衡量了分類準確度，精確率（Precision，P）指的是查準率，代表的是真實發生的用戶借閱記錄在最終N個推薦結果占了多少比例，即真正正確的占所有預測為正的比例;召回率（Recall，R）也稱查全率，召回率代表最終N個推薦結果中有多少比例來自真實發生的用戶借閱記錄，即真正正確的占所有實際為正的比例。F1值（F1-Measure，F1）是綜合評價指標，可以被看作是模型精準率和召回率的加權平均，且F1值越大表明模型的性能越好。

精確率、召回率和F1值的數學定義如下：

P=AA+B（1）

R=AA+C（2）

F1=2·P·RP+R（3）

其中，A代表推薦的結果中真實發生借閱行為的數，B代表推薦的結果中沒有發生借閱行為的數，C代表被借閱了而沒有被本模型推薦的數。

4.3 基于用戶的協同過濾算法實驗分析

基于用戶的協同過濾算法是對比算法，本實驗考察隱含特征維度M和鄰居數量K對基于用戶的協同過濾算法性能的影響，并根據結果選擇最佳的參數。使用召回率、精準率和F1值三個評價標準對實驗結果進行評估，不同K值和不同隱含特征維度M下的基于用戶的協同過濾算法表現實驗結果見下頁圖2、圖3。

在隱含特征維度M分別選取80、110、140、170、200的情況下，鄰居數量K分別選取5、10、20、40、80，經統計實驗結果得出結論;基于用戶的協同過濾算法與隱含特征維度M、鄰居數量K均表現出強相關性，即在實驗范圍內隱含特征維度M和鄰居數量K對協同過濾算法的性能評價指標精準率、召回率和F1值基本呈正相關。

4.4 基于XGBoost的混合推薦模型的仿真分析

本實驗主要選擇最優的參數訓練XGBoost混合模型，XGBoost混合模型存在多種參數，其中較重要的四個參數和數值選取原則如下：樹的最大深度max_depth，數值過大會產生過擬合現象，太小就會發生欠擬合;學習率learning_rate數值過大會造成無法收斂，過小不能體現全局最優;葉子節點中最小的樣本權重和min_child_weight，樹的擬合程度指標是回歸模型中葉子最小樣本節點數;迭代計算次數num_round也就是生成多少基模型。

四個參數的優化順序本著先全局后局部的基調，影響局部的參數不是有限優化的目標。首先，在學習速率learning_rate較高的情況下，確定相對應迭代計算次數num_round，這是宏觀上影響較大的兩個參數;其次，優化另外兩個比較重要的參數max_depth（一般取值為3～10）和min_child_weight（一般取值為1～6），使用grid search選取最優的兩個值;再次，選取的學習率learning_rate的值為0.01，num_round的值為1，200，max_depth的值為3，min_child_weight的值為4。

筆者采用Tf-Idf方法對實驗對象進行向量化，提取隱含特征向量，其中ngram_range為（2，2），即要提取的n-gram的長度為2，max_df為0.5，表示使用最多50%的數據進行向量構建;min_df為10，即忽略出現次數少于10的特征。

選取鄰居數K為5，隱含特征維度M選取200，仿真得出本文提出模型的精準率、召回率和F1值，F1值相對于基于用戶的協同過濾算法提升了17.7%。選取鄰居數K為10，隱含特征維度M選取200，仿真得出筆者提出模型的精準率、召回率和F1值，F1值相對于基于用戶的協同過濾算法提升了15.7%。對比分析發現，筆者提出的基于XGboost的混合模型相對于基于用戶的協同過算法，F1值有提升，說明了模型的有效性。仿真數據來源于中國傳媒大學圖書館近兩年半真實的借閱數據，數據量受限，在一定程度上影響效果的表現;如果增加數據量，會使仿真值更有實操意義。性能對比見表1。

5 結語與展望

筆者分析中國傳媒大學圖書館近兩年半的真實借閱數據，提出了一種基于XGBoost的圖書館混合推薦模型，可以在圖書借閱管理、內容閱讀推薦等場景中推廣應用。展望未來，云計算、5G和智能化等新型產業成為國家新基建的重要內容，圖書館領域需要融合行業的技術積累提升服務水平，圖書推薦離真正意義上的“千人千面”還有距離。

鑒于模型使用的數據來源相對單一，后續研究可將電子資源使用信息、用戶的其他個性化行為數據等進行錄入和統計，拓展提出模型的數據源廣度和深度;可以將時間衰減因子、用戶收藏和購買偏好等一并考慮進去，也可將多模態信息用于推薦模型，在用戶行為序列預測等方面優化提出的模型。圖書館要通過對模型推薦算法領域的深挖，利用好機器學習、深度學習等最新成果，擴展模型的應用范圍，提升用戶感知。此外，圖書館應及時將推薦的算法應用于生產，圖書館員對模型的使用情況及時進行評價反饋，如考慮用戶的喜好會隨著時空改變等因素，不斷進行模型演進，賦能智慧圖書館建設。

參考文獻：

[1] 秦川，祝恒書，莊福振，等.基于知識圖譜的推薦系統研究綜述[J].中國科學，2020（7）：937-956.

[2] 楊恒，王思麗，祝忠明，等.基于并行協同過濾算法的領域知識推薦模型研究[J].數據分析與知識發現，2020（6）：15-21.

[3] 李鐵軍，顏端武，楊雄飛.基于情感加權關聯規則的微博推薦研究[J].數據分析與知識發現，2020（4）：27-33.

[4] 梁思怡，彭星亮，秦斌，等.時間上下文優化的協同過濾圖書推薦[J].圖書館論壇，2021（3）：113-121.

[5] 劉軍軍.用戶協同過濾個性化圖書推薦算法的改進與實現[J].圖書情報導刊，2021（1）：38-42.

[6] 李丹，高建忠.基于用戶畫像的圖書館推薦服務初探[J].圖書館，2019（7）：66-71.

[7] 何婧，胡杰.融合矩陣分解和XGBoost的個性化推薦算法[J].重慶大學學報，2021（1）：78-87.

（編校：崔萌）

1328501705314