999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于評論主題的個性化評分預測模型

2016-10-12 08:31:51馬春平陳文亮
北京大學學報(自然科學版) 2016年1期
關鍵詞:特征用戶實驗

馬春平 陳文亮,?

?

基于評論主題的個性化評分預測模型

馬春平1,2陳文亮1,2,?

1.蘇州大學計算機科學與技術學院, 蘇州 215006; 2.軟件新技術與產業化協同創新中心, 蘇州 215006; ?通信作者, E-mail: wlchen@suda.edu.cn

針對現有基于評論分析的推薦算法沒有充分考慮個性化的問題, 通過對評論進行主題分析, 挖掘用戶的喜好, 分別建立基于用戶和物品的個性化評分預測模型。在真實數據集上進行實驗驗證, 結果表明該模型有效地提高了推薦系統的評分預測性能。

個性化推薦; 推薦系統; 評分預測; 評論信息

傳統的推薦算法主要根據用戶的歷史行為分析用戶喜好, 并做出推薦。隨著互聯網的普及和電子商務的發展, 用戶成為互聯網主動的參與者, 并產生大量的用戶個性化內容。這些內容包括用戶評論、地理位置、好友關系等。傳統的推薦算法主要利用用戶的評分或者物品的描述性特征。相對于評分, 評論能夠更加具體、準確地表達用戶對物品的喜好。與用戶和物品的描述信息相比, 用戶評論的內容也更加豐富, 更能體現用戶的個性化特征, 可以在此基礎上構建更準確的個體畫像。以評論“這家店雖然環境一般, 但味道正宗, 老板人也很好。”為例, 該用戶給該飯店打5分滿分。從用戶的角度可以分析出, 該用戶比較注重服務和口味, 對環境要求較低; 而從商戶的角度可以分析出, 該商戶的口味、服務一流, 但環境欠佳。可見評論的信息量遠遠大于評分。如果能從評論中精確地分析出用戶的喜好和物品的特征, 必定能在很大程度上提高推薦精度。

但是, 評論屬于非結構化文本, 由網絡用戶自由表達, 極具個性化特征, 不具有語法嚴謹、表達明確、邏輯清楚等特點, 處理起來難度較大。近年來, 情感分析和意見挖掘領域的研究者做了大量工作(具代表性的工作如文獻[1-3]), 有效地從評論中挖掘出評論的情感和潛在主題。如何充分利用評論分析得到的評論情感和主題來改進推薦系統, 已成為一個重要的研究課題[4-8]。

本文首先對評論進行主題分析, 構建用戶和物品的畫像。在此基礎上, 提出一種新的個性化評分預測模型。該模型針對各個用戶和物品進行建模, 較大程度地進行個性化處理。在大眾點評數據集上進行實驗驗證, 結果表明本文提出的模型可以有效地提高推薦系統的評分預測性能。

1 相關工作

協同過濾系統是最先得到廣泛應用的個性化推薦系統, 分為基于用戶的協同過濾(User-based Collaborative Filtering[9])和基于物品的協同過濾(Item-based Collaborative Filtering[10])。但是, 這些方法沒有利用用戶或者物品的語義信息, 導致推薦系統的性能較低。

隨著Web2.0的發展, 在線評論逐漸進入推薦系統研究者的視野[4-7,11-16]。Ganu等[4]通過人工標注評論的主題和情感訓練SVM模型, 將評論按角度和情感進行分類, 最后綜合評論中的正面評價和負面評價, 做出評分預測。Qu等[5]提出意見袋(bag-of-opinions)的概念, 用來表示評論中的每條評論意見的評價詞根、修飾詞和否定詞, 利用意見袋模型和評分訓練線性模型進行評分預測。這些算法都是根據用戶對物品的評論, 預測用戶對物品的評分, 還不能直接用于推薦系統。McAuley等[7]提出利用HFT (hidden factors as topics)將評分和評論信息結合, 構建特征矩陣, 利用SVD算法來做推薦, 但無法同時考慮評論信息中的用戶角度和物品角度。Wang等[8]提出LARA(latent aspect rating analysis)算法, 首先利用自舉算法(boot-strapping)獲得與物品各個主題相關的情感詞, 然后利用LRR(latent rating regression)算法分析用戶對物品每個角度的情感和各個角度所占權重。

Zhang等[6]利用LDA (latent dirichlet allocation)算法[17]對評論進行主題分析, 生成主題詞表。根據評論中是否含有主題詞, 將一條評論表示成一組向量, 根據用戶或者物品分類, 通過將這些向量平均、歸一化, 得到用戶特征和物品特征。同時利用向量和對應的評分, 通過機器學習模型訓練, 得到用戶對物品不同的主題的權重。與上述工作相比, 本文方法的最大不同之處是針對每個用戶或者物品分別建模, 進行個性化處理。

2 基于評論主題的個性化模型

2.1 相關定義

用戶評論數據中包含個用戶組成的用戶集合= {1, …,u}和個物品組成的物品集合= {1, … ,i}。用戶-物品評分數據集可以用×階矩陣表示,R表示用戶對物品的評分。C表示用戶對物品的評論。C表示用戶所有的評論集合,C表示用戶對物品所有的評論集合,表示集合中元素的個數。表示用戶的對所有物品評分的平均值。

2.2 評論主題分析

為了分析用戶評論所表達的潛在主題, 本文使用LDA算法對用戶評論進行主題分析。LDA是一種主題模型, 屬于無監督學習算法, 可以將文檔集中每篇文檔的主題按照概率分布的形式給出, 并且對于每一個主題均可以找出一些詞語來描述。大眾點評數據集在LDA 實驗結果中的主題分布如表1所示, 其中主題詞按在該主題下的概率由大到小排列。實驗主題數設置為6, 每個主題的主題詞個數設置為20, 超參數設置為0.2,設置為0.1, 迭代次數為1000。根據評論是否涉及各個主題, 將評論表示成一組維向量(是主題個數), 分析結果將在2.3節中被用于推薦系統。

表1 基于LDA的主題分布

說明: 數據來自大眾點評網(www.dianping.com)。

2.3 用戶和物品的特征表示

根據評論分析結果, 對評論進行特征表示。評論C的特征表示為:

其中是實驗設置的主題的個數,表示用戶對物品的評論第個特征值。特征值的計算方式如下:

其中,是各個主題下主題詞的個數。若評論中包含主題詞, 則是主題詞在主題下的概率; 反之, 若評論中不包含任何主題詞, 則為0。

然后, 生成用戶的特征表示p和物品的特征表示q。用戶第維特征用p表示:

式(4)是對相應的特征進行歸一化。同樣, 定義物品第維特征q:

2.4 基準模型

本文以Zhang等[6]提出的模型為基準模型。Zhang等通過對評論進行主題分析生成主題詞表。根據評論中是否含有主題詞, 將每條評論表示成一組向量, 然后生成用戶和物品的特征向量表示。利用向量和對應的評分, 通過機器學習模型訓練得到用戶對物品不同主題的權重。在對飯店評論例子中, 經過上述工作得到的權重可以理解為大多數用戶對飯店不同角度的偏好, 比如大多數用戶對飯店菜品的口味要求比較高, 那么所得口味主題的權重會比較大。

但是, 這種分析沒有充分考慮不同用戶的個性化需求, 比如用戶A為高收入者, 對環境要求比較高; 用戶B為低收入者, 對價格比較敏感。如果對用戶A和B用同樣的主題權重去預測評分, 給出推薦, 必然影響推薦的精準度。

2.5 個性化模型

針對基準模型的不足, 本文提出個性化評分預測模型。個性化評分預測模型可以分為用戶個性化(User-based)和物品個性化(Item-based), 其中用戶個性化可以解釋為向用戶推薦其喜歡的物品, 而物品個性化可以解釋為為物品尋找對其感興趣的用戶。在評分預測階段, 利用用戶對物品的評分以及用戶對物品的評論的特征表示, 可以通過線性回歸模型訓練特征權重, 公式如下:

其中r是用戶對物品的評分,W是基于用戶的個性化模型訓練后所得各特征權重和誤差偏置,W是基于物品的個性化模型訓練后所得各特征權重和誤差偏置。然后, 對于給定的目標用戶和目標物品, 由式(4)產生的用戶特征和式(6)產生的物品特征模擬目標用戶對目標物品的評論特征表示為

根據線性回歸得到的權重和誤差偏置以及模擬的評論特征表示, 使用以下公式計算目標用戶對物品的評分。

3 實驗結果與分析

3.1 數據集

本文實驗采用大眾點評網(www.dianping.com)的數據集。大眾點評網是中國最大的獨立第三方消費點評網站。本文使用的數據集為中文數據集, 全部來自上海地區, 包含自大眾點評2003年成立至2013年9月, 60萬個用戶對5萬個商戶的360萬條評論。評論信息包含用戶名、商戶名、總體評分、評論時間以及評論文本內容。由于本文的目標是建立針對用戶或者物品的個性化模型, 考慮到不同用戶或者不同商戶的評論數量差異對實驗的影響, 需要對實驗數據設置過濾值。例如, 進行用戶個性化實驗時, 設置過濾值為10, 表示只取數據集中評論商戶數超過10的用戶的評論; 進行物品個性化實驗時, 設置過濾值為10, 表示只取數據集中擁有10條以上用戶評論的商戶的評論。本試驗在進行基于個性化的實驗以確定最佳過濾值時, 按7:1:2的比例, 隨機將數據分為訓練集、開發集和測試集。根據過濾值對數據過濾時, 只對訓練集進行過濾, 保持開發集和測試集不變。

3.2 評價指標

本文采用平均絕對偏差(mean absolute error, MAE)評價算法的預測準確程度, MAE的計算公式如下:

3.3 參數選定

基于用戶個性化的開發集實驗結果如表2所示, 第一列為過濾值, 第二列為過濾后開發集數據的實驗結果, 為了與基準模型做比較, 第三列為開發集總的數據集的實驗結果。總的數據集實驗結果生成方式為: 針對目標用戶, 如果用戶在過濾后的數據集中, 則使用個性化預測結果, 反之則使用非個性化結果(基準模型的結果)。從表2看出, 隨著過濾值的增大, 過濾后的數據MAE降低, 因為用戶的評論數增長有利于訓練用戶的特征權重。但是, 過濾值的增大也導致數據集中未建模的用戶數增大, 因此在總的數據集上實驗效果呈現MAE先降低后升高的趨勢, 而且升高的趨勢越來越大。基于物品個性化的開發集實驗結果如表3所示, 實驗結果MAE變化趨勢與表2相同。根據實驗結果,兩個模型都在過濾值為5時取得最小值。

表2 基于用戶個性化的開發集實驗結果

說明: 粗體表示最佳實驗結果。

表3 基于物品個性化的開發集實驗結果

說明: 粗體表示最佳實驗結果。

3.4 實驗結果分析

根據上述在開發集上的實驗結果, 本文將個性化模型的過濾值選為5, 在測試集上的實驗結果如表4所示。實驗1使用Zhang等[6]提出的非個性化方法, 實驗結果MAE為0.6765; 實驗2基于用戶的個性化模型, 實驗結果MAE為0.6418; 實驗3基于物品的個性化模型, 實驗結果MAE為0.6359。本文主要討論的兩種基于個性化的模型, 其異同點分析如下: 基于物品個性化的實驗結果與基于用戶個性化實驗結果趨勢類似, 隨著過濾值的增大, 過濾后的數據實驗結果MAE下降, 總的數據集上實驗效果MAE呈現先降低后升高的趨勢。由于數據集中商戶的數量遠少于用戶的數量, 平均每個商戶擁有的評論數量遠大于用戶的平均評論數, 更有利于訓練特征權重, 因此基于物品個性化的實驗結果比基于用戶個性化的實驗結果MAE更低。圖1顯示在測試集上基于用戶個性化和基于物品個性化實驗的結果比較。在實際應用中, 用戶的增長遠比物品的增長快得多, 因此基于物品的個性化模型在解決擴展性和數據稀疏等問題上有一定的優勢。

表4 主要實驗結果

4 總結

本文在對評論進行主題分析的基礎上, 針對用戶和物品分別建立不同的個性化解決方案。經過大規模的數據實驗, 結果表明該方法顯著地提高了評分預測的預測精度。通過比較, 基于物品的個性化預測方法效果更好, 并且在解決擴展性和數據稀疏等問題上有一定的優勢。

[1]Titov I, McDonald R T. A joint model of text and aspect ratings for sentiment summarization // Pro-ceedings of the 46th Annual Meeting of the Associa-tion for Computational Linguistics on Human Lan-guage Technologies. Ohio, 2008: 308?316

[2]Brody S, Elhadad N. An unsupervised aspectsenti-ment model for online reviews // Human Language Technologies: the 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Los Angeles, 2010: 804?812

[3]Jo Y, Oh A H. Aspect and sentiment unification model for online review analysis // Proceedings of the fourth ACM International Conference on Web Search and Data Mining. Hong Kong, 2011: 815?824

[4]Ganu G, Elhadad N, Marian A. Beyond the stars: improving rating predictions using review text content // The 12th International Workshop on the Web and Databases. Providence, Rhode Island, 2009: 1?6

[5]Qu Lizhen, Ifrim G, Weikum G. The bag-of-opinions method for review rating prediction from sparse text patterns // Proceedings of the 23rd International Con-ference on Computational Linguistics. Beijing, 2010: 913?921

[6]Zhang Rong, Gao Yifan, Yu Wenzhe, et al. Review comment analysis for predicting ratings // The 16th International Conference on Web-Age Information Management. Qingdao, 2015: 247?259

[7]McAuley J, Leskovec J. Hidden factors and hidden topics: understanding rating dimensions with review text // Proceedings of the 7th ACM conference on Recommender systems. Hong Kong, 2013: 165?172

[8]Wang Hongqing, Lu Yue, Zhai Chengxiang. Latent aspect rating analysis on review text data: a rating regression approach // Proceedings of the 16th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Washington, 2010: 783?792

[9]Resnick P, Iacovou N, Suchak M, et al. GroupLens: an open architecture for collaborative filtering of netnews // Proceedings of the 1994 ACM Conference on Computer Supported Cooperative Work. Chapel Hill, 1994: 175?186

[10]Sarwar B, Karypis G, Konstan J, et al. Item-based collaborative filtering recommendation algorithms // Proceedings of the 10th International Conference on World Wide Web. Hong Kong, 2001: 285?295

[11]Dave K, Lawrence S, Pennock D M. Mining the peanut gallery: opinion extraction and semantic classification of product reviews // Proceedings of the 12th International Conference on World Wide Web. Budapest, 2003: 519?528

[12]Devitt A, Ahmad K. Sentiment polarity identification in financial news: a cohesion-based approach. // Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics on Human Language Technologies. Prague, 2007: 984?991

[13]Pang B, Lee L, Vaithyanathan S. Thumbs up?: senti-ment classification using machine learning techniques // Proceedings of the ACL-02 Conference on Empiri-cal methods in Natural Language Processing—Volume 10. Philadelphia, 2002: 79?86

[14]Pang B, Lee L. Seeing stars: exploiting class rela-tionships for sentiment categorization with respect to rating scales // Proceedings of the 43rd Annual Meet-ing on Association for Computational Linguistics. Ann Arbor, 2005: 115?124

[15]Goldberg A B, Zhu X. Seeing stars when there aren’t many stars: graph-based semi-supervised learning for sentiment categorization // Proceedings of the First Workshop on Graph Based Methods for Natural Lan-guage Processing. New York, 2006: 45?52

[16]Snyder B, Barzilay R. Multiple aspect ranking using the good grief algorithm // Human Language Tech-nologies: The 2007 Annual Conference of the North American Chapter of the Association for Computa-tional Linguistics. New York, 2007: 300?307

[17]Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation. The Journal of Machine Learning Re-search, 2003, 3(1): 993?1022

Personalized Model for Rating Prediction Based on Review Analysis

MA Chunping1,2, CHEN Wenliang1,2,?

1. School of Computer Science and Technology, Soochow University, Suzhou 215006; 2. Collaborative Innovation Center of Novel Software Technology and Industrialization, Suzhou 215006; ? Corresponding author, E-mail: wlchen@suda.edu.cn

Existing recommender systems do not take full advantage of personalization. To address this problem, a novel approach is proposed to mine the opinions and preference of users to build a personalized model for each user or item. Experimental results generated from a real data set show that the proposed approach can improve the accuracy of rating prediction.

personalized recommendation; recommender system; rating prediction; review comment

10.13209/j.0479-8023.2016.011

TP391

2015-06-07;

2015-08-19; 網絡出版日期: 2015-09-29

國家自然科學基金(61203314, 61373095)資助

猜你喜歡
特征用戶實驗
記一次有趣的實驗
如何表達“特征”
做個怪怪長實驗
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: www.亚洲一区| 国产成年女人特黄特色毛片免 | 成人精品亚洲| 亚洲国产理论片在线播放| 污视频日本| 99热这里只有成人精品国产| 国产人前露出系列视频| 亚洲高清无码精品| 免费又黄又爽又猛大片午夜| 亚洲成人一区在线| 欧美国产在线看| 欧美精品一区二区三区中文字幕| 国产av一码二码三码无码| 久久精品欧美一区二区| 亚洲精品成人片在线播放| 精品久久蜜桃| 91小视频版在线观看www| 日本不卡在线播放| 欧美伦理一区| 久久中文无码精品| 国产丝袜无码一区二区视频| 91口爆吞精国产对白第三集 | 国产91av在线| 亚洲色图另类| 亚卅精品无码久久毛片乌克兰| 国产一区二区影院| 好吊色国产欧美日韩免费观看| 久久99久久无码毛片一区二区| 午夜啪啪网| 亚洲中文字幕手机在线第一页| 99青青青精品视频在线| 日韩欧美在线观看| 精品国产三级在线观看| 国产精品香蕉在线观看不卡| 亚洲成a人片在线观看88| 怡红院美国分院一区二区| 中文字幕亚洲专区第19页| 国产亚洲视频在线观看| 老司机aⅴ在线精品导航| 亚洲毛片网站| 久久婷婷色综合老司机| 欧美无遮挡国产欧美另类| 亚洲色图综合在线| 福利视频久久| 免费在线成人网| 亚洲国产精品久久久久秋霞影院| 91www在线观看| 成人亚洲国产| 国产精品免费入口视频| 久久人搡人人玩人妻精品| 久久亚洲国产最新网站| 亚洲资源站av无码网址| 中文无码毛片又爽又刺激| 亚洲国产成人精品无码区性色| 91青青草视频在线观看的| 四虎影视无码永久免费观看| 欧洲极品无码一区二区三区| 91偷拍一区| 激情爆乳一区二区| 国产精品性| 9久久伊人精品综合| 日韩午夜福利在线观看| 园内精品自拍视频在线播放| 综合网久久| 成人在线第一页| 成人福利在线看| 另类欧美日韩| 亚洲AV电影不卡在线观看| 精品福利国产| 成人免费视频一区| 成年网址网站在线观看| 伊人婷婷色香五月综合缴缴情| 日日噜噜夜夜狠狠视频| 国产天天色| 国产精品久久久久久久久久久久| 色国产视频| 久久黄色免费电影| 国产草草影院18成年视频| 91精品国产自产在线老师啪l| 91美女视频在线观看| 丁香婷婷激情网| 国产无遮挡猛进猛出免费软件|