基于評論數據中隱式鄰居關系的推薦系統研究

2019-10-08 08:34:58吳曉桐梁永全

軟件 2019年7期

吳曉桐　梁永全

摘? 要：傳統推薦系統大多使用基于協同過濾的方法進行推薦，然而在現實場景中，大多數用戶只對很少的項目進行了評分，因為缺少歷史評分數據造成了冷啟動問題，導致協同過濾方法的推薦質量不佳。本文使用豐富的評論數據挖掘用戶之間和項目之間的隱式鄰居關系，并聯合項目信譽問題建立基于評論數據的社交矩陣分解模型ReTOMF。實驗表明，與對應的其他推薦模型相比，ReTOMF展現了更好的推薦性能。

關鍵詞：評論數據;隱式鄰居關系;項目信譽

中圖分類號： TP311? ? 文獻標識碼： A? ? DOI：10.3969/j.issn.1003-6970.2019.07.034

【Abstract】： Traditional recommendation systems mostly use collaborative filtering-based methods for recom-mendation. However， in real-life scenarios， most users only score very few items， because the lack of historical score data causes a cold start problem. This paper uses rich comment data to mine the implicit neighbor relationship， and combines project reputation to establish a social matrix decomposition model ReTOMF. Experiments show that ReTOMF exhibits better recommendation performance than the corresponding other recommended models.

【Key words】： Comment data; Implicit neighbor relationship; Project reputation

0? 引言

近年來，推薦系統越來越多的幫助用戶從大型資源集合里發現其感興趣的項目，用戶對項目的偏好用評分表示，并通過預測評分對用戶進行個性化的推薦，傳統的推薦方法，例如矩陣分解，用戶和項目由低維潛在向量表示，并且偏好度由相關向量的乘積計算。但是這種顯示反饋在對用戶建模時經常面臨冷啟動的問題，因此，很多研究者開始關注不同類型的隱式反饋，而評論數據是隱式反饋中最常見的數據資源之一。它可以比評分更加清晰的顯示出用戶對物品的偏好側重，對用戶進行個性化推薦[1-3]。例如在音樂評論中，有些用戶關注的是歌曲風格，有些用戶關注的是歌手，明確用戶的側重點，可以在推薦過程中獲得更大的精度。但是，評論數

據并沒有被充分的利用，在不同平臺和系統中對評論數據建模也具有很大的挑戰性。

目前常用的推薦算法可以分為基于內存的推薦算法和基于模型的推薦算法。基于模型的推薦算法可以很好的融合先驗知識，現有的基于模型的算法的基本思路是從已有的評分矩陣中挖掘用戶和項目的潛在特征，并通過矩陣相乘的方法對缺失評分預測，這種方式已經得到了廣泛的實踐[4]。但是這類推薦算法普遍基于一種假設，既用戶之間的關系是相互獨立的，這種假設在很大一部分情況下是不符合實際情況的。所以，基于社會關系的推薦系統開始被更多研究者青睞。在社交平臺越來越流行的今天，社交關系信息更易獲取，雖然有些關系不能夠直接應用于推薦系統中，但是我們可以挖掘隱式鄰居關系[5]，用于表明用戶之間和物品之間的潛在相關關系。

在本文中，我們挖掘用戶之間和項目之間的隱式鄰居關系。研究表明，用戶之間的相似性來源于用戶之間相似的偏好，用戶的行為會受其直接鄰居的影響。通過用戶的歷史評分可以挖掘出用戶之間的相似性，但是評分數據的稀疏性影響了推薦系統的性能，為了解決數據稀疏性問題，本文利用評論數據挖掘用戶之間和項目之間的隱式鄰居關系。

概率主題模型已成功應用于許多文本挖掘任務[6-7]。這些模型的基本思想是使用K個主題的有限混合模型對文檔進行建模，并通過將數據集與模型擬合來估計模型參數。兩個基本的統計主題模型是概率潛在語義分析（PLSA）和潛在狄利克雷分布（LDA）。我們還在隱式鄰居關系的基礎上加入了項目信譽，因為項目信譽可以代表一個項目的質量和可信度。挖掘出隱式鄰居關系后，我們將評論數據中的主題信息集成到基于信任傳播的矩陣分解技術socialMF中。

1? 相關工作

在眾多推薦算法中，協同過濾算法因為僅僅利用評分信息受到廣泛關注[8]-[9]，基于物品的協同過濾和基于矩陣分解的協同過濾算法被相繼提出。基于矩陣分解的協同過濾算法將用戶對物品的評分信息以矩陣形式表示，挖掘低維隱特征空間，并把用戶和物品在低維空間上重新表示，提出了一種基于概率矩陣分解的因子分析方法，同時使用用戶的社交網絡信息和評分記錄來解決數據稀疏性和預測準確性差的問題;然而我們使用的評分矩陣存在數據高度稀疏并且分布不均勻，這會導致推薦系統的性能低下，冷啟動問題等。

為了解決上述問題，研究人員開始引入額外信息來解決冷啟動等問題，例如，文獻[10]通過引入物品的內容介紹和評論信息為用戶提供了信息保障。文獻[11]表明在社交網絡中，用戶間是否存在社交關系往往依賴于用戶之間是否相互信任，這種信任關系從某種程度上來說提供了用戶的偏好信息。社交網絡中擁有較強社交關系的用戶在某些方面往往具有相似偏好且互相影響，因此有助于構建個性化推薦系統。文獻[12]中將用戶之間的距離作為額外的正則項添加到損失函數中。該方法把用戶之間的影響看作是相等的，但是在現實世界中，用戶之間的親密程度決定了用戶對其他用戶的影響程度。文獻[13]通過連接具有相似評分信息的用戶來挖掘用戶之間的隱式社交關系。但是在現實世界中，評分信息的稀疏性導致了用戶之間的相似度的不可靠性。文獻[14]使用聚類的方法對用戶和項目建立生成模型，他們假設用戶具有類別，使用生成模型計算隱式因子并聚類。但是也同樣存在評分數據稀疏的問題。

本文內容安排如下：第1節介紹文章相關工作;第2節提供了有關ReTOMF的詳細信息;第3節驗證了ReTOMF的實際性能，并與幾種有代表性的方法進行了比較; 第4節對本文作出結論。

2? 模型部分

本節，我們介紹提出的推薦模型。在現實世界中，當人們購買或者選擇他們不熟悉的項目時，他們會選擇咨詢朋友的意見以及查看商品的評論[15]-[16]，用以判斷商品的價值，信譽等問題，所以，基于對現實問題的觀測，在我們提出的模型中，我們考慮用戶朋友對項目的評價以及項目的信譽。我們首先計算用戶之間的信任度，并且將這種關系定義為隱式鄰居關系，結合用戶信譽，綜合因素提出推薦建議。

首先我們介紹基于隱式鄰居關系的推薦正式的定義。在本文模型中，我們根據用戶歷史行為的相似性，尋找隱式的社交關系，因為這些行為可以展現用戶偏好的相似性，我們把相似評論的用戶看作隱式鄰居并進行連接。在過去的基于評論數據的推薦系統中，項目之間保持著相對獨立的假設，但是項目之間也有相應的聯系。因此，在本文中，我們將使用評論數據同時對用戶和項目建立隱式的社交關系。我們使用的符號如表1所示。

我們收集用戶和項目的評論數據，并且將每一位用戶和每一個項目的相關評論集合到一起。例如，一位用戶做出過三十條評論，我們將這些評論集合到一個用戶文檔中，并用表示，并對項目評論進行和用戶相似的操作。用戶的文檔集合用? ?表示，用表示項目的文檔。為了便于計算相似度，我們將數據集中的所有單詞表示成集合W。

2.1? 主題模型計算文檔相似度

在本節，我們使用主題模型計算文檔相似度，我們以用戶為例，具有相似主題分布的用戶是隱式鄰居的可能性更大，并根據其最相似的N個近鄰來建立隱式鄰居集。

概率主題模型是一系列旨在發現隱藏在大規模文檔中的主題結構的算法，已經被很多文本挖掘任務所應用，目前應用最廣的兩個概率主題模型是概率潛語義分析（PLSA）和潛在狄利克雷分布（LDA），例如，使用LDA生成主題模型的公式如下：

2.3? ReTOMF模型

我們將前兩節介紹的用戶信譽和主題模型集成到基于社交的矩陣分解模型SocialMF中，并將模型中的信任關系替換為隱式鄰居關系。模型如圖1所示。SocialMF是一種利用社交信任來提高推薦精度的基于社交的隱語義模型。它在計算用戶隱式特征向量的時候，考慮用戶間的信任關系，將該用戶的信任用戶對其的影響加入到特征向量的計算。具體地，在本文中，我們將社交推薦框架中的信任關系替換為前文建立的隱式鄰居關系。在隱式鄰居關系中，我們認為用戶的偏好依賴于其鄰居的偏好。在文獻[17]中提出了SocialMF挖掘社交關系時用戶隱式因子依賴其鄰居，所以我們可以將模型中的信任關系替換為隱式鄰居關系。和概率矩陣分解模型類似，我們的目標是最大化隱式因子的后驗概率，用以學習模型的參數，我們以用戶為例，用戶隱式因子的先驗分布為：

3? 實驗部分

3.1? 數據集介紹

在本節中，我們進行一系列實驗，用來驗證我們提出模型的性能，并和其他方法進行比較。首先介紹我們使用的數據集，我們使用文獻[18]爬取的亞馬遜數據集，并從中選取了具有代表性的音樂數據集，電影數據集，游戲數據集。原始數據集包含用戶對項目的評分，評論文本，評論時間等數據。其中，音樂數據集包含64706條評論，836006條評分數;電影數據集包含1，697，533條評論，4，607，047條評分數據;游戲數據集包含231，780條評論，1，324，753條評分數據。評分區間為1到5。我們對數據進行去停用詞等的預處理，去除噪聲數據和評論數少于20的數據，并對數據進行隨機采樣。采樣后音樂數據集中包含7932名用戶，45458個項目，80944條評分，評分區間為1到5，平均評分為4.33分;電影數據集包含5752名用戶，35449個項目，64750條評分，平均評分為4.09分;游戲數據集包含4055名用戶，7982個項目，25536條評分，平均評分為4.01分。

我們采用5-折疊交叉驗證進行學習和測試。我們將亞馬遜數據隨機分成5份，并使用80%的數據作為訓練集，其余的20%的數據作為測試集。為保證結果的可靠性，對數據進行隨機劃分。實驗中使用RMSE和MRR衡量模型性能。

3.2? 實驗結果

為了評估ReTOFM的性能，我們選擇了具有代表性的方法進行對比試驗。MF[19]是一個基本的矩陣分解算法，SocialMF[20]，RISMF[21]是基于信任的方法，ReTOMF-Re是ReTOMF去掉項目信譽的方法，用以驗證項目信譽在模型中的作用。實驗結果如表2所示。

實驗結果如表2所示。在實驗中，把和設置為0.1，主題數設置為10，鄰居數設置為15。從表中可以看出，ReTOMF明顯優于其他方法，如RISMF和socialMF。在三個數據集中，ReTOMF擁有最低的RMSE，和RISMF相比，平均降幅達到了2.5%，相比于socialMF，RMSE的平均降幅為4.9%。和ReTOMF-Re相比，ReTOMF有更低的RMSE，說明添加項目信譽可以獲得更好的推薦效果。

主題數量和鄰居數量是很難自動確定的變量，我們進行了多次實驗以嘗試獲得最佳的主題數量和鄰居數量。圖2顯示了不同主題數量的模型的性能，由圖可以看出，當主題數為10時最適合我們建模，所以我們將主題數量設置為10。由圖3可以看出，隨著鄰居數量增加性能逐漸增加，并在鄰居數為15時達到最大值，所以我們將鄰居數設置為15。

4? 結束語

本文利用用戶和項目豐富的評論數據，結合項目信譽，提出了基于用戶評論數據的矩陣分解模型ReTOMF。我們利用評論數據挖掘出用戶之間和項目之間的隱式鄰居關系，并將這種關系集成到社交推薦框架中。本文還將項目信譽結合到模型中，主要依據是用戶在購買不熟悉的物品時會首先選擇查看評論等信息用來判斷物品的信譽。在接下來的工作中，我們會使用深度學習模型卷積神經網絡（CNN）進一步挖掘文檔上下文信息，更好的緩解因為評分數據的稀疏引起的冷啟動問題。

參考文獻

[1] 張小波，付達杰. 網絡信息資源個性化推薦中隱私保護的研究[J]. 軟件， 2015， 36（4）： 62-66.

[2] 王崇峻，魏鵬. 基于RSS的個性化信息服務系統研究[J]. 軟件， 2018， 39（7）： 110-115.

[3] 安政磊，姚文斌. 一種基于用戶購買意向的個性化推薦模型[J]. 軟件， 2015， 36（12）： 80-82.

[4] Koren Y， Bell R， Volinsky C. Matrix Factorization Techniques for Recommender Systems[J]. Computer， 2009， 42（8）： 30-37.

[5] Ma Hao. An experimental study on implicit social recommendation[C]//Proc of the 36th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York： ACM Press， 2013： 73-82.

[6] Ashton Anderson， Daniel Huttenlocher， Jon Kleinberg， Jure Leskovec. Engaging with massive online courses[J]. In Proceedings of the 23rd international conference on World wide web. ACM， 2014： 687–698.

[7] Guo P J， Reinecke K. Demographic differences in how students navigate through MOOCs[C]// Acm Conference on Learning. ACM， 2014： 21-30.

[8] 江周峰，楊俊，鄂海紅. 結合社會化標簽的基于內容的推薦算法[J]. 軟件， 2015， 36（1）： 1-5.

[9] 符饒. 基于位置服務的潛在好友推薦方法[J]. 軟件， 2015， 36（1）： 62-66.

[10] Jin Z， Li Q， Zeng D D， et al. Jointly Modeling Review Content and Aspect Ratings for Review Rating Prediction[C]// Press the 39th International ACM SIGIR conference. Pisa， Italy： ACM， 2016： 893-896.

[11] Moradi P， Ahmadian S. A reliability-based recommendation method to improve trust-aware recommender systems[J]. Expert Systems with Applications， 2015， 42（21）： 7386-7398.

[12] Ma Hao， Zhou Dengyong， Liu Chao， et al. Recommender systems with social regularization[C]//Proc of the 4th ACM International Conference on Web Search and Data Mining. New York： ACM Press， 2011： 287-296.

[13] Ma Hao. An experimental study on implicit social recommendation[C]/ /Proc of the 36th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York： ACM Press， 2013： 73-82.

[14] Beutel A， Murray K， Faloutsos C， et al.Cobafi： collaborative Bayesian filtering[C]//Proc of the 23rd International Conference on World Wide Web. New York： ACM Press， 2014： 97-108.

[15] Kim D， Park C， Oh J， et al. Convolutional Matrix Factorization for Document Context-Aware Recommendation[C]// Acm Conference on Recommender Systems. New York： ACM， 2016： 233-240.

[16] Li J， Chen C， Chen H， et al. Towards Context-aware Social Recommendation via Individual Trust[J]. Knowledge-Based Systems， 2017： 58-66.

[17] Jamali M， Ester M. A matrix factorization technique with trust propagation for recommendation in social networks[C]//Proc of the 4th ACM Conference on Recommender Systems. New York： ACM Press， 2010： 135-142.

[18] McAuley J， Leskovec J. Hidden factors and hidden topics： understanding rating dimensions with review text[C]//Proc of the 7th ACM Conference on Recommender Systems. New York： ACM Press， 2013： 165-172.

[19] Salakhutdinov R. Probabilistic matrix factorization[C]// International Conference on Neural Information Processing Systems. Cambridge： MIT Press， 2007： 1257-1264.

[20] Jamali M， Ester M. A matrix factorization technique with trust propagation for recommendation in social net-works[C]//Proc of the 4th ACM Conference on Recom-mender Systems. New York： ACM Press， 2010： 135-142.

[21] 趙亞輝，劉瑞. 基于評論的隱式社交關系在推薦系統中的應用[J]. 計算機應用研究， 2016， 33（6）.

軟件2019年7期

軟件的其它文章: 基于ADAMS的差速器建模與運動仿真分析; 基于Gabor濾波的改進虹膜識別算法; 基于音視頻的自動化低成本VR視頻生成方法研究; 提升用戶粘度的校友平臺的設計與實現; 高職計算機基礎課程有效利用MOOC+FCM教學模式的影響分析; 國家電子與計算機工程專業中職教師指導標準制定的思考