融合項目標簽信息面向排序的社會化推薦算法*

2017-03-16 07:22:39練緒寶林鴻飛

計算機與生活 2017年3期

關鍵詞：排序用戶信息

練緒寶，林鴻飛+，徐博，林原

1.大連理工大學計算機科學與技術學院，遼寧大連 116024

2.大連理工大學公共管理與法學學院，遼寧大連 116024

融合項目標簽信息面向排序的社會化推薦算法*

練緒寶1，林鴻飛1+，徐博1，林原2

1.大連理工大學計算機科學與技術學院，遼寧大連 116024

2.大連理工大學公共管理與法學學院，遼寧大連 116024

推薦系統；社交網絡；標簽系統；排序學習；矩陣分解

1 引言

隨著互聯網技術特別是電子商務的飛速發展，互聯網中數據的增長速度遠遠超過了人類的接收速度，信息過載問題顯得越來越嚴重。幫助人類從海量數據中篩選出有用數據的信息過濾技術顯得越來越重要，個性化推薦[1]技術正是一種根據用戶偏好從大規模數據中找到用戶感興趣數據的理想方法。

目前，個性化推薦的應用主要分為兩類：第一類是評分預測，即通過給定一個用戶的歷史評分行為預測對未知項目的評分，評分值即表示用戶對項目的喜好程度。第二類是Top-K推薦，即為用戶推薦其最可能喜歡的前K個項目。由于用戶往往最關注排在前面的項目，因此和評分預測相比，Top-K更加直觀地為用戶提供排序的推薦列表，因此更加實用，這也是目前各大電子商務網站致力于解決的問題。本文的重點在于提高Top-K推薦的準確率。

個性化推薦技術的核心在于推薦算法，目前推薦算法主要分為兩類，分別是內容過濾和協同過濾。內容過濾推薦方法主要通過分析用戶和項目的內容信息，如用戶的人口統計信息、項目的描述信息等，從而構建出用戶和項目的一系列特征，最終通過匹配用戶和項目的相似度來進行推薦。與此不同的是，協同過濾方法不需要任何用戶或項目的內容信息，是一種完全與領域無關的方法。協同過濾方法有效地利用了群體智慧，它基于這樣的假設：用戶會喜歡和自己具有相同興趣的用戶喜歡的項目，同時，用戶之間的共同行為越多，則用戶之間的興趣越相似。目前協同過濾方法主要分為基于記憶的協同過濾和基于模型的協同過濾，如矩陣分解[2]等。協同過濾方法有效地避免了需要專家標注信息的問題，并且已經廣泛地應用在各種各樣的推薦系統中。

近年來，隨著在線社交網絡的發展，基于用戶社交關系的個性化推薦方法越來越受到工業界和研究人員的重視，這些基于用戶社交關系的推薦方法也稱為社會化推薦方法[3]。另外，互聯網中的標簽系統也越來越流行，在傳統的推薦算法中融入標簽信息也是一個新的研究方向。傳統的社會化推薦方法仍然是基于評分預測的模型，沒有考慮用戶感興趣項目的排序問題。

排序學習是一種在信息檢索領域中優化文檔排序的方法。通過將用戶-項目對類比為信息檢索領域的查詢-文檔對，排序學習方法逐漸應用在個性化推薦領域。和傳統排序學習方法類似，個性化推薦中的排序學習方法也主要分為3類，分別是點級（point-wise）方法、逐對級（pair-wise）方法和列表級（list-wise）方法。文獻[4]對基于排序學習的推薦方法進行了總結。

面向排序的方法雖然在解決項目排序時具有一定的優勢，但是仍然有一定的局限性。點級方法是面向評分預測的模型，沒有考慮排序的特性；逐對級方法需要考慮所有項目之間的偏序關系，模型訓練的復雜度過高；列表級方法雖然考慮優化整個推薦列表的排序，能在一定程度上解決項目的排序問題，但在模型中融入的信息太少，沒有考慮到用戶社交關系和項目標簽信息的影響，一定程度上影響了推薦系統的準確率，因此在實際應用中仍然具有一定的局限性。

基于以上分析，本文提出了一種融合項目標簽信息面向排序的社會化推薦算法。首先通過用戶之間的關注關系計算用戶之間的信任度，接著通過用戶之間的信任度在原始模型的損失函數中添加用戶社交約束項和項目標簽約束項，使相互信任的用戶偏好向量盡可能接近，標簽相似的項目特征向量盡可能接近，設計了名為STListRank-MF的推薦算法。最后，本文在真實的Epinions數據集和百度電影推薦大賽公開的數據集上進行了實驗，選取了幾種基于Pair-Wise的排序學習模型和ListRank-MF作為對比，結果表明，STListRank-MF方法具有更高的推薦準確率。

本文的主要貢獻有：（1）借鑒了信息檢索領域中排序學習的思想，將排序學習的方法應用到個性化推薦領域；（2）對比了多種逐對級和列表級的排序損失函數，并得到實驗結果；（3）擴展了一種基于列表級的排序學習方法，并且融入了項目標簽信息和用戶社交信息，有效地提高了推薦結果的準確率。

本文組織結構如下：第2章介紹相關工作；第3章研究本文方法STListRank-MF的具體實現；第4章給出實驗數據集及實驗結果，并對實驗結果進行對比分析；最后總結全文。

2 相關工作

2.1 概率矩陣分解

本文方法基于Salakhutdinov等人[5]提出的概率矩陣分解模型（probabilistic matrix factorization，PMF）。假設推薦系統中一共有M個用戶，N個項目，R是一個M×N維的用戶-項目評分矩陣，Rij表示用戶i對項目j的評分，Rij通常是一個從1到Rmax的數（Rmax通常為5）。面向評分預測的協同過濾算法通過概率矩陣分解模型學習用戶和項目的潛在特征向量，然后根據用戶和項目的特征向量預測評分。概率矩陣分解通過極小化評分誤差損失函數訓練模型，其損失函數如式（1）所示：

其中，Iij為指示函數，若用戶i對項目j有評分記錄，則取值為1，否則取值為0。U和V分別是用戶和項目的潛在特征矩陣，U∈RD×M，V∈RD×N，且U和V的維度D要遠遠小于M和N。最后一項是防止過擬合的正則化項，為正則化系數。，目的是將預測值映射到0到Rmax之間。最終通過用戶和項目的潛在特征向量的內積再經過g(x)作為預測的評分值，即Rij=g(UiTVj)。

由于分解出來的用戶和項目的特征向量維度遠小于原始評分矩陣的維度，可以通過梯度下降的方法有效地實現降維。為了減少PMF中參數設定對算法的影響，Salakhutdinov等人[6]進一步提出了貝葉斯概率矩陣分解（Bayesian probabilistic matrix factorization,BPMF）。BPMF采用馬爾可夫鏈蒙特卡洛算法進行參數估計，其推薦準確率較PMF有了一定的提高。概率矩陣分解及其擴展模型在評分預測問題上具有較高的準確率，但是在做Top-K推薦時沒有考慮項目之間的排序關系，因此具有一定的局限性。本文提出的基于排序的矩陣分解方法能更好地解決Top-K推薦中的項目排序問題。

2.2 融合社交網絡和標簽信息的推薦方法

近年來，隨著在線社交網絡的發展，基于社交網絡的個性化推薦方法越來越受到工業界和研究人員的重視。社交網絡是指社會個體成員因為互動而形成的相對穩定的關系體系，在計算機科學中社交網絡被描述成以用戶為節點，社會關系或交互為邊的有向或無向圖。標簽是一種無層次化結構的、用戶描述信息的關鍵詞，可以用來描述物品的語義和用戶的興趣。另一方面，項目標簽作為描述項目特征的一個重要維度，具有短小精煉的特點，可以很大程度上反映一個項目的特征和用戶的偏好分布。2008年Ma等人[7]提出采用概率矩陣分解[5]的方法同時分解用戶-項目評分矩陣和用戶-用戶信任矩陣來進行推薦；2010年Jamali等人[8]提出在矩陣分解過程中同時約束用戶和用戶朋友之間的特征向量的差異，是基于社交網絡采用信任傳導的矩陣分解方法；2012年Wu等人[9]提出利用用戶和項目的標簽信息，在概率矩陣分解模型中加入用戶和項目的標簽約束項來進行模型訓練，進而得到用戶和項目的潛在特征矩陣，對用戶-項目偏好值進行預測。2014年Li等人[10]利用標簽信息構建用戶-項目-標簽的三部圖，并采用隨機游走算法構建推薦模型。2013年Yan等人[11]提出在推薦系統中融合標簽的語義關系以提高推薦準確率?；谏缃痪W絡的推薦系統充分利用社交網絡中的社會影響、傳遞性和同質性等特征，通過在社交網絡中與其直接相連或間接相連的用戶的偏好推測目標用戶的偏好。綜上所述，在傳統的推薦方法中融入用戶社交信息和項目標簽信息對提高推薦系統準確率具有積極作用。

2.3 面向排序的推薦方法

排序學習是一種在信息檢索領域中優化文檔排序的方法。傳統的基于評分預測的方法致力于降低評分預測誤差，但是忽略了項目之間的排序關系，與此不同的是，基于排序學習的推薦方法以優化用戶感興趣的項目排列為目的，提供準確的Top-K推薦結果，這也更加符合現實世界的推薦場景。將信息檢索領域的查詢-文檔對類比為用戶-項目對，排序學習的思想可以很好地應用到個性化推薦領域中。類似地，在個性化推薦領域中的排序學習方法也主要分為3類，分別是基于點級的方法、基于逐對級的方法和基于列表級的方法。點級方法仍然等價于面向評分預測的模型。逐對級方法以一個項目對作為輸入樣本，將排序問題當然一個項目對的二元分類問題，如2014年Liu等人[12]提出的基于RankNet[13]的矩陣分解方法RankNet-MF，2010年Nathan等人[14]提出的基于Bradley-Terry模型[15]的矩陣分解方法Bradley-TerryMF，2009年Rendle等人[16]提出的基于隱性反饋的貝葉斯個性化排序（Bayesian personalized ranking，BRP）方法。BPR方法將用戶未觀察到的項目看作負例，運用貝葉斯最大后驗概率方法優化模型，訓練過程采用隨機梯度下降方法。列表級方法將整個項目的排序列表作為一個訓練樣本輸入，如直接優化排序指標的CofiRank[17]，基于ListNet[18]優化整個排序概率分布的ListRank-MF[19]。

3 融合項目標簽信息面向排序的社會化推薦算法

基于評分預測的推薦方法以擬合評分為目標，沒有考慮項目之間的排序問題；Top-K推薦方法則以擬合推薦結果中前K個項目的排序質量為目的，更加符合真實的推薦場景。本文擴展了一種基于列表級的排序學習推薦方法，在此基礎上融入用戶社交信息和項目標簽信息，取得了更加準確的Top-K推薦結果。

3.1 社交網絡中信任度

在社交網絡（有向或無向）中用戶和用戶之間的信任度是有向的，并且用戶之間的信任度可以看作用戶之間的影響力大小。假設一共有M個用戶，若tuk表示用戶u對用戶k的信任度，則tuk越大表示用戶k對用戶u興趣的影響力越大；反之，用戶k對用戶u的影響力越小。同時，如果用戶u關注越多用戶，則tuk應該隨著減少；如果用戶k被越多用戶關注，則tuk應該增加?；谝陨戏治觯疚倪\用式（2）計算用戶u對用戶k的信任度tuk。

其中，d-(vk)表示用戶k被關注的數量；d+(vu)表示用戶u關注用戶的數量。特別地，在無向社交網絡（例如人人網、Facebook等）中，有d-(vu)=d+(vu)=d(vu)。

由于社交網絡中的社會影響，用戶的愛好（口味）會被他所關注的朋友所影響，換句話說，用戶u的潛在特征向量會被他的直接鄰居所影響，參照文獻[17]的方法，本文將這種社會影響按照式（3）量化：

其中，Nu代表用戶u的直接鄰居集合，將信任矩陣中每行進行歸一化處理，使得，因此式（3）又可表示為。

3.2 項目的標簽相似度

標簽一方面反映了用戶的興趣，另一方面反映了項目的特點，具有相同標簽的項目往往有類似的特征，打過相同標簽的用戶往往有類似的興趣。假設一共有N個項目，L個標簽，若標簽出現次數越多，則該標簽越重要，同時標簽標注的項目越多，則其區分度越低，因此項目i中標簽t的權重wit采用tf*idf權重，按照式（4）計算：

其中，tf(i,t)表示項目i被標上標簽t的次數，沒有明顯標記次數時記為1；df(t)表示標簽t被標記的項目個數，沒有標記的標簽權重自動記為0。至此，每個項目可以表示為L維的向量，項目i和j之間的標簽相似度采用余弦相似度衡量，其計算方法如式（5）所示：

根據項目之間的標簽相似度選擇項目的K近鄰，并對K近鄰項目相似度進行歸一化，得到歸一化后的項目相似度，并將K近鄰之外的項目相似度置為0，其歸一化方法如式（6）所示：

其中，Ni是項目i的K近鄰集合；sim(i,j)是項目i和項目j的標簽余弦相似度。

3.3 融合項目標簽信息面向排序的社會化推薦算法

面向評分的協同過濾方法以預測評分為目標，在做Top-K推薦時具有很大的局限性；面向排序的推薦方法雖然能在一定程度上解決用戶感興趣的項目排序問題，但是由于模型中融入的信息太少，沒有考慮到用戶社交信息和項目標簽信息的影響，在一定程度上限制了推薦準確率。本文提出的融合標簽信息面向排序的社會化推薦方法有效地解決了上述問題。

3.3.1 Top-one概率

假設一共有M個用戶，N個項目，R是一個M×N的用戶-項目評分矩陣，Rij表示用戶i對項目j的評分，Rij通常是一個從0到Rmax的數（Rmax通常為5）。文獻[15]將用戶i的排序列表li中評分為Rmax的項目排序在第一位的概率表示為Pli(Rij)，其計算方法如式（7）所示：

其中，φ(x)為增函數，且對于所有x都滿足φ(x)＞0，令φ(x)=exp(x)。Pli(Rij)表示項目在給定排序列表中被排到第一位的概率值，簡稱Top-one概率。顯然，評分值Rij越大，則用戶對該項目的喜好程度越大，相應Top-one概率值越高，更有可能被排到第一位。

3.3.2 融合項目標簽信息和用戶社交信息

在信息論中，通常用交叉熵（cross-entropy）來衡量一個概率分布和給定概率分布的相似程度，交叉熵越小則表明兩個概率分布越相似，特別地，當兩個概率分布完全一致時，則交叉熵達到最小值。類似地，可以用交叉熵來衡量預測項目排序列表的Topone概率分布和已知項目排序列表的Top-one概率分布的相似程度。同時考慮到社交網絡中的朋友關系往往表示一種興趣愛好的認同，互相信任用戶之間的興趣往往比較相似，信任度越大的用戶之間特征的相似度也往往會越大，用戶之間愛好的影響力也會越大；另一方面，項目標簽作為描述項目特征的一個重要維度，具有短小精煉的特點，可以很大程度上反映一個項目的特征，因此項目之間標簽相似度越高，則項目之間的特征向量應該越相似?；谝陨戏治?，在原有損失函數中添加項目標簽和用戶社交信息懲罰因子，即用戶信任度和標簽相似度的懲罰項，損失函數定義為式（8）所示：

3.4 模型參數訓練

基于以上分析，本文提出的基于排序學習的社會化推薦算法通過極小化式（5）所示的損失函數訓練模型，需要訓練的參數有用戶潛在特征矩陣U和項目潛在特征矩陣V，訓練過程采用梯度下降方法。由式（8）可得，Ui和Vj的梯度計算方法分別如式（9）和式（10）所示。通過計算好的梯度經過多次迭代更新Ui和Vj直至收斂，得到最優的Ui和Vj。

式（9）為用戶i的特征向量Ui的梯度計算方法；式（10）為用戶j的特征向量Vj的計算方法。

用戶i的偏好向量Ui和項目j的特征向量Vj的參數更新方法如式（11）、（12）所示，其中η是學習率。用戶i對項目j的偏好得分為用戶i的偏好向量Ui和項目j的特征向量Vj的內積，最終的推薦列表由預測的項目偏好得分降序排列生成。

4 實驗結果與分析

4.1 數據集描述

4.1.1 百度電影數據集

百度電影數據集由百度公司在2013年5月舉辦的電影推薦系統算法創新大賽中公開，該數據集主要有以下信息：用戶-電影評分記錄、用戶關注關系、電影標簽信息。數據集中包含9 722個用戶對7 889個項目的1 256 998條評分記錄，評分數據的密度為1.64%；同時這些用戶之間有7 898條關注關系，關注關系的密度為0.008 3%，有1 121個標簽，平均每個項目被標記了10個標簽，其詳細統計信息如表1所示。

4.1.2 Epinions數據集

Epinions數據集是現在公開可用的社會評分網絡數據集之一，數據從網站Epinions（http://www.epinions.com）爬取，此網站提供各種商品的比較信息，可以在該網站上比較價格以及參考其他消費者建議。本文使用的是文獻[10]的作者公開的數據集版本（http://www.trustlet.org/wiki/Downloaded_Epinions_dataset）。Epinions數據集中包含了評分信息和社交網絡信息，社交網絡信息也是單向的關注關系。表1列出了Epinions數據集的統計信息。

Table 1 Statistics information of two datasets表1 兩個數據集的統計信息

4.2 評價指標

本文使用排序評價指標NDCG（normalized discounted cumulative gain）對實驗結果進行評價。NDCG是信息檢索領域用于評價排序質量的重要指標之一，在個性化推薦中項目評分可以自然地當作相關性等級。NDCG@k計算方法如式（13）所示：

其中，Q為數據集中的用戶集合；R(u,p)為用戶U在排序列表中第P位的項目賦予的評分；Zu是歸一化因子，使得最優的排序NDCG值為1。

4.3 對比實驗

本文采用6種方法進行對比實驗，分別為基于評分預測的概率矩陣分解方法PMF[5]、基于RankNet[13]的矩陣分解方法（RankNet-MF[12]）、基于Bradley-Terry模型[15]的矩陣分解方法（Bradley-TerryMF[14]）、基于隱性反饋的貝葉斯個性化排序方法（BPR[6]）、基于List-Net[18]的矩陣分解方法（ListRank-MF[19]）。其中基于逐對級的RankNet-MF[12]和Bradley-TerryMF[14]方法都選取有評分記錄的正例項目對作為訓練樣本，通過極小化其逐對級的誤差來優化參數。這些方法的潛在特征空間維度都統一設置為5。同時，為增強實驗結果的說服力，消除由于數據劃分造成實驗結果的不穩定因素，實驗中采用5-折交叉驗證的方法，將數據平均劃分為5份，輪流選擇其中4份作為訓練集，剩下1份作為測試集，訓練5次模型，將5次訓練結果評價指標的平均值作為最終實驗結果。將各方法的參數調至最佳情況下，在百度電影數據集和Epinions數據集上的實驗結果對比分別如表2、表3所示。

Table 2 Result comparison of 6 methods in BaiduMovie dataset表2 百度電影數據集中6種方法結果對比

Table 3 Result comparison of 6 methods in Epinions dataset表3 Epinions數據集中6種方法結果對比

基于表3的實驗結果，可以發現基于逐對級的3種方法RankNet-MF、Bradley-TerryMF和BPR，其整體表現不如基于列表級的排序方法和基于評分預測的矩陣分解方法。產生該結果的原因是：基于逐對級的方法以優化項目偏序對的分類誤差為主要目標，沒有考慮用戶對項目列表整體排序結果的優化，且貝葉斯個性化排序方法選擇將用戶未觀察到的項目當作負例，沒有考慮用戶評分的差別對用戶偏好差異性的影響程度，并不適用于帶有評分的數據集?；贚ist-Wise的矩陣分解方法排序準確率要優于基于評分預測的矩陣分解方法。ListRank-MF的推薦準確率要優于PMF，本文提出的方法STListRank-MF要優于SocialMF。產生該結果的主要原因是：ListRank-MF和STListRank-MF以最小化推薦結果的排序誤差為目標對參數進行優化，而PMF和SocialMF以最小化優化評分誤差為目標對參數進行優化，本文的參數主要為用戶和商品的潛在特征向量。社交信息的融入可以提高推薦系統的準確率。其中SocialMF的效果要優于PMF，且STListRank-MF的效果要優于ListRank-MF。融入用戶之間的信任度對用戶的特征向量進行約束能夠更好地刻畫用戶的偏好。產生該結果的原因在于社交網絡中的用戶朋友關系能夠對用戶的偏好產生一定的影響。本文方法STListRank-MF取得了最優的效果，也進一步證明了在基于排序學習的推薦模型中融入社交網絡信息能提高推薦結果準確率，同時本文提出的用戶之間信任度衡量方式也是合理的。從表2和表3中可以看到，對于不同的數據集，評分數據越密集，推薦準確率越高；社交數據越密集，推薦準確率提高幅度越大。

4.4 參數設置

如式（8）所示，除了分解結果用戶和項目隱特征矩陣的維度K外，本文方法還有兩個參數，分別是防止模型過擬合的正則化參數λ和社交信息懲罰參數λu。因為本文方法是基于ListRank-MF所做的改進，所以首先確定正則化參數λ，在確定效果最優的λ之后再調節社交信息懲罰參數λu，λu控制社交信息在模型中所占的重要性。針對不同的參數本文做了一系列實驗，這些實驗全部基于Epinions數據集，且Epinions數據集缺少標簽信息，因此將項目標簽信息懲罰系數λv設置為0，研究社交信息懲罰系數λu和正則化參數λ對實驗結果的影響。

將社交信息懲罰系數λu設為0.1，按照0.2的間隔調整正則化參數λ。將λ分別設為0.1、0.3、0.5、0.7、0.9訓練模型，模型的NDCG@1值變化如圖1所示。從圖1中可以看出，當λ小于0.3時，模型有過擬合現象；當λ為0.3時，模型最優；當λ大于0.3時模型出現欠擬合現象。

選取最優的正則化參數λ=0.3，按照0.05的間隔調整社交信息懲罰參數λu。將λu分別設為0、0.05、0.10、0.15、0.20訓練模型，特別地，當λu取值為0時模型等價于ListRank-MF。模型的NDCG@1值變化如圖2所示。從圖2中可以看出，當λu取0.15時模型最優；當λu大于0.15時，推薦準確率下降。

Fig.1 Effect of regularization parameterλ圖1 正則化參數λ的影響

Fig.2 Effect of social penalty coefficientλu圖2 社交懲罰系數λu的影響

5 結束語

本文針對現有面向評分預測推薦方法的不足，將推薦問題看作排序問題，借鑒信息檢索領域排序學習的思想，擴展了一種基于List-Wise排序學習的社會化推薦方法，在其基礎上融入了用戶社交信息和項目標簽信息以提高推薦結果排序的準確率。另外對比了幾種不同的排序損失函數，包括RankNet和Bradley-Terry模型，從而證明將ListNet的損失函數融入矩陣分解模型要優于RankNet和Bradley-Terry模型。同時，不同稀疏性數據集中推薦準確率也有明顯的差異。實驗結果表明，在Top-k推薦場景中本文方法能有效地提高推薦結果的準確率。

盡管本文方法融合了用戶社交信息和項目標簽信息，并且對實驗結果有一定提高，但是由于社交關系和評分信息過于稀疏等原因，實驗結果提高的幅度并不是很大。因此本文方法仍然有很大的改進空間，例如處理數據稀疏性問題，更加合理地衡量用戶之間的信任度，如何度量標簽信息對項目特征向量的影響等，這些都是今后研究的改進方向。

[1]Ricci F,Rokach L,Shapira B.Introduction to recommender systems handbook[M].New York:Springer US,2011.

[2]Koren Y,Bell R,Volinsky C.Matrix factorization techniques for recommender systems[J].Computer,2009,42(8):30-37.

[3]Jiang Meng,Cui Peng,Liu Rui,et al.Social contextual recommendation[C]//Proceedings of the 21st ACM International Conference on Information and Knowledge Management, Maui,USA,Oct 29-Nov 2,2012.New York:ACM,2012: 45-54.

[4]KaratzoglouA,Baltrunas L,Shi Y.Learning to rank for recommender systems[C]//Proceedings of the 7th ACM Conference on Recommender Systems,Hong Kong,China,Oct 12-16,2013.New York:ACM,2013:493-494.

[5]Mnih A,Salakhutdinov R.Probabilistic matrix factorization [C]//Proceedings of the 21st Annual Conference on Neural Information Processing Systems,Vancouver,Canada,Dec 3-6,2007.New York:CurranAssociates,2007:1257-1264.

[6]Salakhutdinov R,Mnih A.Bayesian probabilistic matrix factorization using Markov chain Monte Carlo[C]//Proceedings of the 25th International Conference on Machine Learning, Helsinki,Finland,Jun 5-9,2008.New York:ACM,2008: 880-887.

[7]Ma H,Yang H,Lyu M R,et al.SoRec:social recommendation using probabilistic matrix factorization[C]//Proceedings of the 17th ACM Conference on Information and Knowledge Management,Napa Valley,USA,Oct 26-30,2008. New York:ACM,2008:931-940.

[8]Jamali M,Ester M.A matrix factorization technique with trust propagation for recommendation in social networks [C]//Proceedings of the 4th ACM Conference on Recommender Systems,Barcelona,Spain,Sep 26-30,2010.New York:ACM,2010:135-142.

[9]Wu Le,Chen Enhong,Liu Qi,et al.Leveraging tagging for neighborhood-aware probabilistic matrix factorization[C]// Proceedings of the 21st ACM International Conference on Information and Knowledge Management,Maui,USA,Oct 29-Nov 2,2012.New York:ACM,2012:1854-1858.

[10]Li Ruimin,Lin Hongfei,Yan Jun.Mining latent semantic on user-tag-item for personalized music recommendation[J]. Journal of Computer Research and Development,2014,51 (10):2270-2276.

[11]Yan Jun,Liu Wenfei,Lin Hongfei.Music recommendation study based on tags multi-space[J].Journal of Chinese Information Processing,2014,28(4):117-122.

[12]Liu Xin,Aberer K.Towards a dynamic top-Nrecommenda-tion framework[C]//Proceedings of the 8th ACM Conference on Recommender Systems,Foster City,USA,Oct 6-10,2014.New York:ACM,2014:217-224.

[13]Burges C,Shaked T,Renshaw E,et al.Learning to rank using gradient descent[C]//Proceedings of the 22nd International Conference on Machine Learning,Bonn,Germany,Aug 7-11,2005.New York:ACM,2005:89-96.

[14]Liu N N,Cao Bin,Zhao Min,et al.Adapting neighborhood and matrix factorization models for context aware recommendation[C]//Proceedings of the 2010 Workshop on Context-Aware Movie Recommendation,Barcelona,Spain,Sep 30, 2010.New York:ACM,2010:7-13.

[15]Marden J I.Analyzing and modeling rank data[M].Boca Raton,USA:CRC Press,1996.

[16]Rendle S,Freudenthaler C,Gantner Z,et al.BPR:Bayesian personalized ranking from implicit feedback[C]//Proceedings of the 25th Conference on Uncertainty inArtificial Intelligence,Montreal,Canada,Jun 18-21,2009.Virginia,USA: AUAI Press,2009:452-461.

[17]Weimer M,Karatzoglou A,Le Q V,et al.COFIRANKmaximum margin matrix factorization for collaborative ranking [C]//Proceedings of the 21st Annual Conference on Neural Information Processing Systems,Vancouver,Canada,Dec 3-6,2007.Red Hook,USA:Curran Associates,2007:1593-1600.

[18]Cao Zhe,Qin Tao,Liu Tinyan,et al.Learning to rank:from pairwise approach to listwise approach[C]//Proceedings of the 24th International Conference on Machine Learning, Corvallis,USA,Jun 20-24,2007.New York:ACM,2007: 129-136.

[19]Shi Yue,Larson M,Hanjalic A.List-wise learning to rank with matrix factorization for collaborative filtering[C]//Proceedings of the 4thACM Conference on Recommender Systems,Barcelona,Spain,Sep 26-30,2010.New York:ACM, 2010:269-272.

附中文參考文獻：

[10]李瑞敏,林鴻飛,閆俊.基于用戶-標簽-項目語義挖掘的個性化音樂推薦[J].計算機研究與發展,2014,51(10):2270-2276.

[11]閆俊,劉文飛,林鴻飛.基于標簽混合語義空間的音樂推薦方法研究[J].中文信息學報,2014,28(4):117-122.

LIAN Xubao was born in 1993.He is an M.S.candidate at Dalian University of Technology.His research interests include recommender systems and machine learning,etc.

練緒寶（1993—），男，江西贛州人，大連理工大學碩士研究生，主要研究領域為推薦系統，機器學習等。

LIN Hongfei was born in 1962.He is a professor and Ph.D.supervisor at Dalian University of Technology,and the senior member of CCF.His research interests include information retrieval,text mining,natural language processing and sentiment computing,etc.

林鴻飛（1962—），男，內蒙古通遼人，大連理工大學教授、博士生導師，CCF高級會員，主要研究領域為信息檢索，文本挖掘，自然語言處理，情感計算等。近年來發表學術論文100余篇，主持多項國家自然科學基金項目和國家高科技863計劃項目等。

XU Bo was born in 1988.He is a Ph.D.candidate at Dalian University of Technology.His research interests include information retrieval,machine learning and learning to rank,etc.

徐博（1988—），男，遼寧大連人，大連理工大學博士研究生，主要研究領域為信息檢索，機器學習，排序學習等。

LIN Yuan was born in 1983.He received Ph.D.degree from Dalian University of Technology.Now he is a lecturer at School of Public Administration and Law,Dalian University of Technology.His research interests include information retrieval,machine learning and learning to rank,etc.

林原（1983—），男，吉林梅河口人，大連理工大學公共管理與法學學院講師，主要研究領域為信息檢索，機器學習，排序學習等。

Rank-Oriented Social RecommendationAlgorithm with Item Tag Information*

LIAN Xubao1,LIN Hongfei1+,XU Bo1,LIN Yuan2
1.School of Computer Science and Technology,Dalian University of Technology,Dalian,Liaoning 116024,China
2.School of PublicAdministration and Law,Dalian University of Technology,Dalian,Liaoning 116024,China
+Corresponding author:E-mail:hflin@dlut.edu.cn

In recent years,recommender system has attracted more and more attention.According to application scenario,recommender system can be divided into rating prediction and Top-Krecommendation.Since traditional rating prediction and Top-Krecommendation only consider limited dual rating information between users and items,this paper extends a list-wise learning to rank-based matrix factorization method.On one hand,the method fully considers the focusing relationship among users.At first,compute trust values between users based on users’focusing relationship, then add trust matrix into the original loss function as a social penalty term to make users’preference vectors as near as possible.On the other hand,the method computes the weights of tags of items,based on which to compute the tag similarities between items,and then add the item tag penalty term to the loss function for training the model.The experimental results on the real Epinions and BaiduMovie datasets show that the proposed method outperforms several traditional methods,especially on the NDCG value,improving the recommendation accuracy effectively.

recommender system;social networks;tag system;learning to rank;matrix factorization

10.3778/j.issn.1673-9418.1603054

：TP311

*The National Natural Science Foundation of China under Grant Nos.61572102,61562080,61402075(國家自然科學基金);the Natural Science Foundation of Liaoning Province under Grant No.2014020003(遼寧省自然科學基金);the National 12th Five-Year Science and Technology Supporting Programs of China under Grant No.2015BAF20B02(國家“十二五”科技支撐計劃項目).

Received 2016-02,Accepted 2016-04.

CNKI網絡優先出版:2016-04-01,http://www.cnki.net/kcms/detail/11.5602.TP.20160401.1614.012.html

LIAN Xubao,LIN Hongfei,XU Bo,et al.Rank-oriented social recommendation algorithm with item tag information.Journal of Frontiers of Computer Science and Technology,2017,11(3)：373-381.

摘要：近年來，推薦系統越來越受到人們的關注，按照應用場景主要分為評分預測和Top-K推薦?？紤]到傳統評分推薦系統和Top-K排序推薦系統只考慮用戶和項目的二元評分信息，具有一定的局限性，因此擴展了一種基于列表排序學習的矩陣分解方法。一方面，充分考慮用戶之間關注關系。首先通過用戶之間的關注關系計算用戶之間的信任度，接著通過用戶之間的信任度在原始模型的損失函數中添加用戶社交約束項，使相互信任的用戶偏好向量盡可能接近。另一方面，計算項目所擁有標簽的權重，并以此計算項目之間的標簽相似度，再將項目的標簽約束項添加至損失函數中。在真實Epinions和百度電影數據集中的實驗結果表明，該方法的NDCG值和原始模型相比具有一定的提高，有效地提高了推薦準確率。