李雪婷,楊 抒,賽亞熱·迪力夏提,趙昀杰
(1.新疆農業大學 計算機與信息工程學院,新疆 烏魯木齊 830000; 2.成都大學 計算機學院,四川 成都 610000)
互聯網數據量的激增導致信息過載成了大數據時代的顯著問題。數據的增長率已遠大于人們的處理能力,現有的技術已不能很好地處理日益加速增長的數據[1]。從冗雜的數據中,人們難以快速準確地獲取有價值的信息。根據熱門信息的展示很難滿足用戶的個性化需求,為此推薦系統應運而生[2]。近年來,推薦系統在電商平臺、短視頻App、社交網站等各個領域中廣泛應用,使其快速發展并具有一定商用價值。比如在電商平臺中用于挖掘用戶行為數據里的隱藏商業價值。
據相關部門統計,推薦系統對網上商品銷售的貢獻率為20%~30%,已經成為電商平臺中至關重要的工具之一[3]。
推薦系統根據實現方式的不同可將其分為基于內容、基于協同過濾、基于深度學習和混合的推薦系統[1]。其中基于內容的推薦系統能夠較好地為用戶提供個性化推薦服務,適應冷啟動問題,但準確率不高。基于協同過濾的推薦系統應用最廣泛[4],能夠較為準確地向用戶進行推薦。該算法并不依賴于物品的相關內容信息,但需要有用戶行為數據做支撐。當數據庫中數據稀疏或者沒有數據時,沒有足夠的信息使該算法進行用戶行為分析,導致推薦質量不高,推薦結果的有效性較差[5]。混合推薦算法是解決上述問題較為成熟的方法之一,該算法將多種推薦算法進行混合,在實際應用中能夠使各個推薦算法發揮其各自的優勢,并且在一定程度上避免了其各自的劣勢,進行高質量推薦[6-7]。目前,有眾多學者將其在各個領域中應用。例如,何鍇琦等人[8]將兩種傳統基于內存的協同過濾方法進行混合,應用在GitHub項目個性化推薦中。冉從敬等人[9]將基于內容和基于協同過濾的推薦算法進行混合,應用在高校專利個性化推薦中。王末等人[10]將動態加權的混合過濾推薦方法應用在地理數據共享領域中。葉小榕等人[11]將基于物品的協同過濾推薦算法和基于熱點的推薦算法進行混合,應用在圖書選取中,都取得了較好的效果。文中采用級聯的方式將基于內容與協同過濾的推薦算法進行混合,將其應用在移動電商應用領域中,解決用戶難以從大量信息中獲取滿足個性化需求數據的問題。
基于內容的推薦(content-based recommendation)算法最早用于信息檢索[12]。該算法將用戶和物品的特征都用顯式標簽進行表示,利用得到的用戶標簽與物品標簽構建用戶畫像與物品畫像,并進行相似度度量,得出相似度較高的TOP-N項完成推薦[13],其結構如圖1所示。

圖1 基于內容推薦算法結構
通過物品的分類、屬性特征等信息構建物品畫像的候選關鍵詞。利用TF-IDF(term frequency-inverse document frequency)計算出候選關鍵詞的權重值:
(1)

利用TF-IDF計算出的權重值選取TOP-N個候選關鍵詞作為物品畫像,建立倒排索引列表。根據用戶在登錄系統時的反饋信息收集用戶興趣詞,并結合其屬性特征構建用戶畫像。運用用戶畫像及物品畫像進行相似度計算,其計算方法有很多種,如余弦相似度[15]、Jaccard相似度[16]及Pearson相似度[17]等。其中余弦相似度在計算過程中不考慮向量長度。Jaccard相似度計算的是兩個集合的交集元素個數占并集的比例,適合用于布爾向量表示。Pearson相似度在計算過程中不僅考慮向量夾角余弦值還考慮向量長度。因此,選取Pearson相似度作為相似度計算方法:
(2)
最后,將相似度最高的TOP-N項作為推薦結果進行輸出。
在基于協同過濾的推薦算法中,根據計算方式的不同可將其分為基于鄰域和基于模型的推薦算法。文中采用的是Yehuda Koren等[18]提出的基于隱語義模型(latent factor model,LFM)的推薦算法,其結構如圖2所示。

圖2 基于LFM的推薦算法結構
LFM算法是一種基于矩陣分解(matrix factorization,MF)的協同過濾算法[19-20],其原理如圖3所示。

圖3 LFM算法原理
其中,P矩陣是User-LF矩陣,即用戶-隱含因子矩陣;Q矩陣是LF-Item矩陣,即隱含因子-物品矩陣;R矩陣是User-Item矩陣,即用戶-物品偏好矩陣。其中矩陣值P11為用戶1在隱含因子1上的權重值;矩陣值Q11為隱含因子1在物品1上的權重值;矩陣值R11為預測用戶1對物品1的喜愛程度。在該算法的實現過程中,運用矩陣分解技術將R矩陣進行降維,使其分解成P矩陣與Q矩陣,通過隱含因子將用戶與物品進行關聯:
Rui=PQ
(3)
再利用P矩陣與Q矩陣的乘積還原出R矩陣,將原有的稀疏矩陣進行填充,預測用戶對物品的喜愛程度,F為隱含因子數:

(4)
如圖3,有4個用戶,3個物品及3個隱含因子。以用戶1為例,用戶1對隱含因子LF1、LF2、LF3的關聯程度分別為P11、P12、P13。物品1與隱含因子LF1、LF2、LF3的關聯程度分別為Q11、Q21、Q31。因此,用戶1對物品1的感興趣程度為:
R11=P11Q11+P12Q21+P13Q31
(5)
利用平方差構建損失函數:
(6)
為防止過擬合,加入正則化參數:
(7)
對損失函數求偏導:

2λPu,f
(8)

2λQi,f
(9)
運用隨機梯度下降法迭代計算,更新矩陣P和Q,從而找到最優的P矩陣與Q矩陣:

(10)

(11)
其中,a為學習率。
本實驗采用的數據從馬匹競拍App的數據庫中獲取,數據集由兩部分組成。第一部分是用戶到馬匹的評分數據集,收集80個用戶在馬匹競拍App上的行為數據共22 423條。用戶行為數據主要包括是否瀏覽,是否收藏,是否參與競拍,用戶瀏覽的馬匹所具備的品種、價格、毛色、地區、性別、年齡等。并對其分別設置權重,計算用戶對馬匹的喜愛程度得出用戶到馬匹的評分數據集。其評分范圍為0~5,其結構如表1所示。

表1 用戶評分
第二部分是馬匹競拍App中925條馬匹數據。每條馬匹數據都含有馬匹的RFID、品種、價格、毛色、地區、性別、年齡等屬性,其結構如表2所示。

表2 馬匹信息
在實驗中,將數據集進行進一步劃分,使其80%作為訓練集,20%作為測試集。
文中采用基于內容和協同過濾的混合推薦算法來實現競拍App中馬匹的推薦。將參與競拍的馬匹向用戶進行個性化推薦,產生較為可靠的推薦結果。使得用戶能夠快速地找到心儀馬匹,提升用戶參與競拍的積極性,增加參與同場競拍人數,降低流拍比例,優化馬匹競拍App首頁商品展示界面。其流程如圖4所示。

圖4 混合推薦算法流程
收集用戶在馬匹競拍App上的行為數據,獲取User-Item矩陣。判斷當前用戶是否為馬匹競拍App新注冊用戶或馬匹競拍App中是否有新成為拍品的馬匹。如果既不是新用戶,也沒有新成為拍品的馬匹,那么通過矩陣分解將User-Item矩陣做降維處理,使其分解成用戶-隱含因子矩陣P及馬匹-隱含因子矩陣Q,用隱含因子做連接用戶與馬匹的橋梁。使用平方差構建損失函數,再運用隨機梯度下降法迭代計算,不斷更新矩陣P和Q,并加入避免過擬合的正則參數,從而找到最優的P和Q矩陣。建立LFM模型,對用戶未評分馬匹的興趣度進行預測,將TOP-N項作為推薦結果進行輸出。以馬匹競拍App中ID為10的用戶為例,當N=10時,推薦結果如表3所示。

表3 基于協同過濾推薦結果
當有新注冊用戶使用馬匹競拍App或者有新馬匹成為拍品時,數據庫新增的數據沒有任何歷史行為,就會面臨冷啟動問題。此時利用基于內容的方式進行推薦,根據馬匹的屬性標簽構建物品畫像的候選關鍵詞。利用TF-IDF算出關鍵詞的權重值,從中選取TOP-N個作為馬匹畫像。此處選取部分馬匹畫像進行展示,如表4所示。

表4 馬匹畫像
根據用戶在登錄時對馬匹進行的反饋信息收集用戶興趣詞,結合用戶的屬性特征構建用戶畫像。以馬匹競拍App中新注冊ID為144的用戶為例,構建的用戶畫像如表5所示。

表5 用戶畫像
運用用戶畫像從物品畫像中尋找最匹配的TOP-N項作為推薦結果進行輸出。當N=10時,推薦結果如表6所示。

表6 基于內容推薦結果
在本實驗中選取的評估準則為以下三種:
(1)準確率(Precision):在產生的TOP-N個推薦結果中用戶喜歡的物品個數和所有被推薦物品個數N的比值,用于衡量推薦系統對用戶偏好的預測能力。其計算公式如下:

(12)
其中,U為用戶總量,R(u)為對每個用戶產生的推薦結果集,T(u)為用戶實際的行為結果集。
(2)召回率(Recall):在產生的TOP-N個推薦結果中用戶喜歡的物品個數和測試集中用戶喜歡物品個數的比值,用于衡量推薦系統的實際推薦效果。其計算公式如下:
(13)
(3)覆蓋率(Coverage):產生的TOP-N個推薦結果個數與物品總數的比值,用于描述推薦系統對長尾物品的發掘能力。其計算公式如下:
(14)
其中,I為物品總數。
為證明本實驗提出的方法推薦質量更佳,使用提出的基于內容和基于協同過濾的混合推薦算法與基于用戶的協同過濾推薦算法和基于物品的協同過濾推薦算法進行對比實驗。分別計算在推薦長度為5、10、15、20、25和30時,三種方法的準確率、召回率和覆蓋率,其結果如表7~表9所示。并繪制出推薦長度為5、10、15、20、25和30時的變化趨勢,如圖5~圖7所示。

表7 準確率 %
觀察表7和圖5可知,文中采用的融合內容與協同過濾的混合推薦方法在指定推薦馬匹個數的情況下準確率優于基于用戶和基于物品的推薦方法。當推薦長度大于或等于25時,準確率逐漸趨于穩定狀態。

表8 召回率 %
觀察表8和圖6可知,隨著推薦長度的增加,混合推薦方法的召回率也逐漸優于基于用戶和基于物品的推薦方法。當推薦長度等于15時,混合推薦方法的召回率超過其基于用戶和基于物品的推薦方法。

表9 覆蓋率 %
觀察表9和圖7可知,混合推薦方法的覆蓋率也優于其他兩種推薦方法。當推薦長度大于等于25時,覆蓋率逐漸趨于穩定狀態。

圖5 準確率對比 圖6 召回率對比 圖7 覆蓋率對比
綜上所述,混合推薦算法不僅能夠解決冷啟動問題,還具有更高的推薦質量,可以更好地為用戶提供推薦服務。
隨著電子設備智能化的發展,推薦系統在移動電商平臺中得到了廣泛應用。將統計分析方法與機器學習相結合,提出的融合內容與協同過濾的混合推薦算法能夠規避單一算法的弊端,融合其各自優勢。敏銳地捕捉用戶需求,使用戶能夠從移動電商平臺的大量數據中快速獲取所需信息,產生有針對性的高質量推薦結果,減少用戶時間成本,具有一定的應用價值。在真實的數據集下,將提出的混合推薦算法同傳統的推薦算法進行對比實驗,驗證了該算法在準確率、召回率和覆蓋率上具有一定的優越性。