基于隱式數(shù)據(jù)的改進LFM-SGD 協(xié)同過濾推薦算法

2023-05-24 09:06:12李志豪李仁港蔣小菲

智能計算機與應(yīng)用 2023年5期

關(guān)鍵詞：用戶

李志豪，李仁港，蔣小菲

（貴州大學大數(shù)據(jù)與信息工程學院，貴陽 550025）

0 引言

隨著科技時代爆炸式的發(fā)展速度，“人工智能+大數(shù)據(jù)”引爆了時代熱點，處于大數(shù)據(jù)時代中心的人們，將面臨眼花繚亂的篩選。一方面既要花費大量時間進行數(shù)據(jù)的篩選，又很難從大量的數(shù)據(jù)中找出自己感興趣的部分；另一方面也會使大量冗余信息成為網(wǎng)絡(luò)中的“隱信息”［1-2］，無法被普通用戶索取。個性化推薦模型能夠根據(jù)用戶的歷史行為以及對物品的行為信息，向目標用戶提供符合其興趣的物品和信息。個性化推薦中使用的主流技術(shù)包括關(guān)聯(lián)規(guī)則、深度學習、神經(jīng)網(wǎng)絡(luò)、知識圖譜、聚類算法、協(xié)同過濾算法［3］等等。其中，協(xié)同過濾算法是目前推薦算法領(lǐng)域內(nèi)應(yīng)用最多的一類。

推薦算法的研究始于上世紀90 年代初期，經(jīng)過30 多年的積累和沉淀，雖然已形成了較為成熟穩(wěn)定的體系，但并沒有形成統(tǒng)一的分類標準。2019 年，Serhii Chalyi 等人［4］提出了一種利用時間約束，在推薦系統(tǒng)冷啟動情況下建立推薦的方法。該方法在時間約束的幫助下，雖然對興趣周期性變化的“冷”用戶，可以提高相應(yīng)推薦的準確性，但相對來講不夠靈活，不能采用更多的信息進行預(yù)測計算。2021 年，Nam Le Nguyen Hoai 等人［5］提出了一種基于用戶記憶的協(xié)同過濾推薦算法。該算法通過對目標函數(shù)的優(yōu)化，雖然在一定程度上解決了冷啟動的問題，但無法對數(shù)據(jù)稀疏性有更好的幫助。2022 年，吳錦昆等人［6］提出了一種基于改進相似度的協(xié)同過濾算法。該算法由改進皮爾遜相似度公式計算用戶相似度，針對不同用戶具有不同評價體系存在一定偏差問題，從引入用戶差異因子來提高推薦的精度，取得了一定的效果，但該算法在用戶評價數(shù)據(jù)規(guī)模較大的情況下，效果并不明顯。

針對用戶的評價數(shù)據(jù)規(guī)模大、數(shù)據(jù)稀疏、傳統(tǒng)的矩陣分解算法響應(yīng)緩慢、推薦精度和準確度低，以及冷啟動等問題，本文在傳統(tǒng)協(xié)同過濾和模型訓練等推薦算法的基礎(chǔ)上，結(jié)合矩陣分解［7］的思想，對隱式數(shù)據(jù)［8-9］進行調(diào)整，提出改進后的LFM-SGD 協(xié)同過濾推薦算法。采用改進后的矩陣分解思想，用隨機梯度下降的思想來獲得最優(yōu)路徑，通過隱式數(shù)據(jù)維度降低原始評分數(shù)據(jù)索引，對目標用戶推薦其感興趣且未接觸過的物品，可以有效提高推薦算法的準確度。

1 協(xié)同過濾推薦算法

1.1 基于用戶的協(xié)同過濾推薦算法（UserCF）

基于用戶的協(xié)同過濾算法［10］是通過對隱式信息反饋，來預(yù)測用戶對該物品的興趣大小；通過對所有用戶興趣的瀏覽行為，來計算用戶之間的相似性；對用戶相似度進行排序，取相似度最高的前K個用戶作為目標用戶的鄰域，根據(jù)鄰域內(nèi)的前K個用戶的相似性特征，來預(yù)測目標用戶對未訪問過的物品的喜好程度；最后按照物品集合中的預(yù)測評分排列順序，完成對目標用戶的推薦。模型實現(xiàn)過程如下：

（1）用戶-物品矩陣

假設(shè)有M個用戶，N個項目，用戶對項目評過分的歷史行為設(shè)為1，未評過分的項目設(shè)為0，用戶-物品矩陣如下：

其中，Rjk表示用戶j對物品k是否有評分行為。

（2）為減少計算量，將用戶-物品矩陣轉(zhuǎn)化為統(tǒng)計有共同評分的倒排表，物品-用戶倒排表如下：

其中，Wuv表示用戶u與用戶v共同評過分的物品數(shù)量。

（3）采用Jaccard 公式計算用戶的相似度，如式（3）所示：

其中，Wuv含義同上所述；N（u）表示用戶u評過分的物品集合；N（v）表示用戶v評過分的物品集合；最終得到用戶的相似度矩陣W。

（4）用戶u對物品i的感興趣程度用式（4）進行預(yù)測：

其中，S（u，K）表示與用戶u相似度最接近的K個用戶的集合；N（i）是對物品i有過評分行為的用戶集合（即在對物品i有過評分行為的用戶集合中找出與用戶u相似度最接近的K個用戶集合）；Wuv是用戶u與用戶v的相似度；Rvi表示用戶v對物品i的評分行為。由于采用的是單一行為的隱式反饋數(shù)據(jù)，故令Rvi的值等于1。

（5）當所有預(yù)測完成后，對P（u，i）的結(jié)果進行降序排序，取前N個物品推薦給用戶。

1.2 基于物品的協(xié)同過濾推薦算法（ItemCF）

基于物品的協(xié)同過濾算法是通過對隱式信息反饋來預(yù)測用戶對該物品的興趣大小，通過對所有物品的被瀏覽行為來計算物品之間的相似性，對物品相似度進行排序，取相似度最高的前K個物品并結(jié)合用戶的行為，預(yù)測目標用戶對未訪問過的物品的喜好程度，最后按照物品集合中的預(yù)測評分完成對目標用戶的推薦。模型實現(xiàn)過程如下：

（1）用戶-物品矩陣

假設(shè)有M個用戶，N個項目，用戶對項目評過分的歷史行為設(shè)為1，未評過分的項目設(shè)為0，用戶-物品矩陣如式（1）。

（2）為減少計算量，將用戶-物品矩陣轉(zhuǎn)化為統(tǒng)計有共同愛好的倒排表，物品-用戶倒排表如下：

其中，Cij表示物品i和物品j共同被喜歡的用戶數(shù)量。

（3）采用Jaccard 公式（式（6））計算物品i與物品j的相似度，并用Wij表示用戶的相似度矩陣。

其中，Cij表示物品-用戶倒排表中記錄的物品i與物品j被共同評過分的用戶集合；N（i）表示物品i被評分過的用戶集合；N（j）表示物品j被評分過的用戶集合；最終得到用戶的相似度矩陣W。

（4）用戶u對物品j的感興趣程度用式（7）進行預(yù)測。

其中，S（j，K）表示與物品j相似度最接近的K個物品的集合；N（u）是對用戶u有過評分行為的物品集合；Wij是物品i與物品j的相似度；Rui表示用戶u對物品i的興趣。由于采用單一行為的隱式反饋數(shù)據(jù)，故當用戶u對物品i有過評分行為時Rui ＝1。

（5）當所有預(yù)測完成后，對P（u，j）的結(jié)果進行降序排序，取前N個物品推薦給用戶。

2 LFM 與SGD 算法

2.1 LFM 推薦算法

隱語義模型［11-12］（Latent Factor Model，LFM）推薦算法采用用戶的歷史行為數(shù)據(jù)來對用戶進行相關(guān)內(nèi)容推薦，是協(xié)同過濾（Collaborative Filtering，CF）推薦算法的一種。在協(xié)同過濾算法中，當用戶或項目內(nèi)容數(shù)量過多時，會導(dǎo)致用戶-項目矩陣維度過大，且相關(guān)矩陣是稀疏的。LFM 算法的核心思想是矩陣分解（Matrix Factorization），其引入了一個隱式特征，將稀疏的用戶-項目矩陣分解成相對稠密的用戶-特征矩陣與特征-項目矩陣，極大的減少了空間復(fù)雜度。LFM 算法矩陣分解［13］原理如圖1 所示。

圖1 LFM 矩陣分解原理Fig.1 LFM matrix decomposition schematic

如圖1 所示，假設(shè)R是一個M ×N的用戶-項目評分矩陣，LFM 算法的思想是要找到兩個低維矩陣P、Q，同時引入一個隱式特征參F，如公式（8）所示，將用戶-物品評分矩陣RM×N分解成用戶-特征矩陣PM×F與特征-物品矩陣QF×N。

將被推薦用戶記為u，推薦物品為i，則LFM 算法可通過公式（8）來預(yù)測用戶u對物品i的感興趣程度：

式中：F為隱式特征參數(shù)，Puf表示用戶u與隱特征f的貢獻度，Qfi表示隱特征f對物品i的貢獻度，根據(jù)Predict（u，i）值的大小，從用戶u對物品i的感興趣程度排序高低，向用戶推薦其感興趣且未瀏覽過的物品。

2.2 SGD 算法

梯度下降［13-15］是迭代算法的一種，常用于求解最小二乘問題。在求解機器學習的模型參數(shù)，即無約束優(yōu)化問題時，梯度下降是最常采用的方法之一。梯度下降的原理是通過對其求解損失函數(shù)的最小值，使用迭代的思想來求解，通過迭代得到最小化的損失函數(shù)和模型參數(shù)值。

假設(shè)有m個樣本，其回歸方程如式（9）、樣本的損失函數(shù)如式（10）：

其中，hθ（xi）代表樣本的實際值，yi表示對樣本的預(yù)測值。分別對θ0和θ1求偏導(dǎo)：

得到兩個變量的偏導(dǎo)數(shù)（即梯度后），根據(jù)負梯度的方向更新參數(shù)。重復(fù)更新的公式為：

其中，α為學習率。

假設(shè)一個用戶-物品評分矩陣R是一個m × n矩陣，根據(jù)矩陣分解的思想，將一個大的稀疏矩陣分解成兩個相對稠密的矩陣乘積，即矩陣R可以近似表示為P與Q的乘積：Rm×n ＝Pm×F ×QF×n。

將梯度下降的思想應(yīng)用于矩陣當中，使用原始的用戶-物品矩陣R（m，n）與預(yù)測評分矩陣R＇（m，n）之間的誤差平方作為損失函數(shù)，即

其中，α是梯度下降的學習率。

2.3 改進的LFM-SGD 算法

2.3.1 算法設(shè)計

本文將隱式數(shù)據(jù)結(jié)合協(xié)同過濾推薦算法，利用隱語義模型（LFM）將原始的用戶-物品矩陣分解成兩個低維且數(shù)據(jù)稀疏性小的矩陣相乘，且將原始的用戶-物品評分矩陣簡化為沒有用戶評分的矩陣，即用戶物品矩陣Ru×i中，用戶u對物品i有過評分行為設(shè)為1，否則設(shè)為0。通過隨機梯度下降（SGD）算法，預(yù)測用戶對未接觸過的物品喜好程度，取前N個物品進行推薦。該算法能有效緩解評分矩陣數(shù)據(jù)稀疏性的問題，在一定程度上提高了推薦的準確度。算法原理如圖2 所示。

圖2 整體算法原理圖Fig.2 Overall algorithm schematic

2.3.2 SGD 優(yōu)化算法

為優(yōu)化算法擬合的結(jié)果，在求解最優(yōu)解的同時防止過擬合，在損失函數(shù)式（15）中引入一個懲罰因子λ，將式（15）優(yōu)化為

結(jié)合梯度式（13）、式（14），并按梯度方向更新向量式（16）、式（17），得到最終公式如下：

3 驗證與分析

本文驗證數(shù)據(jù)來源于美國Minnesota 大學GroupLens 網(wǎng)站提供的MovieLens-latest-small 數(shù)據(jù)集，數(shù)據(jù)集沒有相關(guān)的電影內(nèi)容簡介。該數(shù)據(jù)集囊括100 836 條評分數(shù)據(jù)，610 個用戶，9 724 部電影，3 683個標簽。每個用戶至少對20 部電影進行過評分，評分采用5 分制，以0.5 分為增量。測試集與訓練集數(shù)量比例為1：6，且不采用顯示評分數(shù)據(jù)。將用戶有過行為的電影設(shè)置為1，沒有則為0。

3.1 算法評估指標

本文采用準確率（Precision）、召回率（Recall）、覆蓋率（Coverage）作為算法的評估指標。其中，準確率表示推薦項目列表中含有測試集中的數(shù)量與所有推薦項目數(shù)的比率；召回率表示用戶推薦數(shù)量與測試集中用戶有過行為的項目數(shù)的比率；覆蓋率表示所有推薦項目數(shù)與總項目數(shù)的比率。假設(shè)A是正確預(yù)測的樣本數(shù)量，B是測試集得到的所有用戶的推薦樣本數(shù)，C是測試集中所有用戶有過歷史行為的樣本數(shù)，D是整個數(shù)據(jù)集中的樣本數(shù)，則指標計算公式如下：

3.2 實驗與結(jié)果分析

實驗1分析模型超參數(shù)學習率α、正則化懲罰因子λ、隱式特征參數(shù)F、迭代數(shù)η對算法評估指標的影響。

由圖3 可以看出，評估指標呈現(xiàn)先增大后減小的趨勢。當學習率α為0.01 時Precision為20.915%，Recall為9.888%，Coverage為6.582%；由圖4 可以看出，指標呈現(xiàn)先增大后平緩減小的趨勢。當懲罰因子λ為0.01 時，Precision為20.015%，Recall為9.655%，Coverage為6.438%；當α、λ大于0.01 時，整體評估效果開始下降。

圖3 學習率α 對評估指標的影響Fig.3 Influence of learning rate α on evaluation index

圖4 懲罰因子λ 對評估指標的影響Fig.4 Influence of penalty factor λ on evaluation index

從圖5 可以看出，隱式特征參數(shù)F的取值對整體評估的影響并不明顯。當F ＝95 時，3 個指標取得局部最大值，Precision為20.401%，Recall為9.887%，Coverage為6.592%；而從圖6 得知，隨著迭代數(shù)η的增加，3 條曲線呈現(xiàn)緩慢上升隨后平緩下降的過程。當?shù)鷶?shù)η ＝30 時，Precision為20.066%，Recall為9.456%，Coverage為6.674%。

圖5 隱式特征參數(shù)F 對評估指標的影響Fig.5 Influence of F on evaluation index

圖6 迭代數(shù)η 對評估指標的影響Fig.6 Influence of η on evaluation index

綜上所述，模型最終超參數(shù)設(shè)定為：α ＝0.01，λ ＝0.01，F(xiàn) ＝100，η ＝30。

實驗2固定模型超參數(shù)，比較3 種算法的性能指標差異。

由圖7 可知，融合LFM 的SGD 算法3 個指標均比基于用戶（UserCF）和基于物品（ItemCF）的協(xié)同過濾推薦算法效果好。其覆蓋率、召回率、準確率分別比UserCF 提高了0.761%、1.131%和3.175%，比ItemCF 提高了0.154%、1.388%、和3.898%。

圖7 三種算法差異對比Fig.7 Comparison of the differences between the three algorithms

實驗3將融合后的算法分別在ml-latestsmall 和ml-1m 數(shù)據(jù)集上驗證。

從圖8 可以看出，在更大規(guī)模的ml-1m 數(shù)據(jù)集上驗證算法指標效果比小規(guī)模數(shù)據(jù)集更好。在一定程度上，改進的LFM-SGD 算法對大規(guī)模數(shù)據(jù)集效果更為顯著。

圖8 不同大小的數(shù)據(jù)集對比效果Fig.8 Comparison of data sets of different sizes

4 結(jié)束語

本文研究了基于隱語義模型的協(xié)同過濾推薦算法，使用了隨機梯度下降預(yù)測對目標用戶的推薦。通過隱式數(shù)據(jù)信息，并結(jié)合矩陣分解的思想，既優(yōu)化了傳統(tǒng)協(xié)同過濾推薦算法中冷啟動的問題，也克服了數(shù)據(jù)規(guī)模大且稀疏的問題。實驗結(jié)果驗證了本文提出的算法較之其他算法的優(yōu)勢，改進的LFM＆SGD 算法的準確率、召回率、覆蓋率均有顯著提升，在緩解數(shù)據(jù)稀疏性、提高推薦精度方面取得了一定的成效。