引入用戶情感偏好矩陣的ItemCF算法研究

2019-07-08 03:41:08岳強郭強李仁德

軟件導刊 2019年6期

岳強郭強李仁德

摘要：傳統基于物品的協同過濾算法（ItemCF）利用物品間的相似性為用戶提供個性化推薦，然而該方法僅考慮了評分數據，而未關注用戶情感偏好。基于從評論中的emoji表情提煉出的用戶情感偏好，提出一種引入用戶情感編號矩陣的ItemCF算法。該方法利用物品共現矩陣與用戶情感偏好矩陣計算物品相似度，進而進行個性化推薦。根據某在線互聯網教育實證數據集的實驗結果表明，該方法相比于傳統基于物品的協同過濾算法，在準確率和召回率上都有所提升，在Top1-5推薦均值上分別提高了0.02和0.03。

關鍵詞：推薦算法;ItemCF;用戶情感偏好;emoji表情

DOI：10. 11907/rjdk. 182557

中圖分類號：TP312

文獻標識碼：A文章編號：1672-7800（2019）006-0056-04

Abstract： The traditional item-based collaborative filtering （ItemCF） algorithm makes use of similarity between items to make individual recommendation to users. However， ItemCF only considers rating data and does not pay attention to usersemotional preferences. Based on user emotional preferences extracted from emoji expressions in reviews， an ItemCF algorithm with user emotional numbering matrix is proposed. This method uses the item co-occurrence matrix and the users affective preference matrix to calculate the item similarity， and then carries on the personalized recommendation. Experimental results on an online Internet education data set show that the proposed method outperforms the traditional item-based collaborative filtering algorithm in terms of accuracy and recall， and improves by 0.02 and 0.03 respectively on the average of Top1-5 recommendation.

Key Words： recommendation algorithms; ItemCF; user emotional preferences; emoji exprersions

0 引言

推薦是解決當今互聯網信息過載問題的主要途徑之一[1]，為此國內外眾多專家、學者們研究了各類推薦算法。其中，協同過濾（Collaboration Filtering）推薦是目前應用最廣泛的個性化推薦算法[2]。其核心思想是，利用目標用戶的相似用戶對特定物品的評價，產生該用戶對此物品的評價預測[3-5]。協同過濾算法的最大優點是對推薦對象沒有特殊要求，能處理電影、音樂等難以進行文本結構化表示的對象[6-7]。但協同過濾算法存在評分數據稀疏性等問題，并且只考慮了用戶評分數據，卻忽略了用戶本身的情感偏好[8]。

與此同時，emoji表情已成為當今世界人們相互溝通的一個必不可少的工具[9-10]，幾乎所有社交平臺都在廣泛使用emoji表情符號[11-12]。Novak等[13]認為emoji表情是用于表達情感和想法，并將情感可視化的一種符號;Vidal等[14]研究發現，在推特上12 260條關于早餐、午餐和晚餐的推文中，emoji表情比文字更頻繁地用來表達用戶情感。對emoji表情的分析與研究是未來的趨勢[15]，為此本文嘗試從評論的emoji表情中提煉出用戶情感偏好，提出一種引入用戶情感偏好矩陣的ItemCF推薦算法。通過提取評論中的emoji表情，依據情感分成積極、中立和消極3類，并分別給每類情感賦予不同權重;然后計算不同類emoji表情數量的加權和以表征用戶情感，構建出用戶情感偏好矩陣;最后利用物品同現矩陣計算物品間的相似度，進而進行個性化推薦。

1 情感計算

本文采用某在線互聯網教育中的用戶評論數據集，評估本文算法的性能。該數據集包含2017年1～3月間共1 324 501條用戶評論記錄，其中用戶評論是指用戶在選擇過的某一社團刊物（下文簡稱為“社刊”）上發表的評論，一個用戶可對某一社刊進行多次評論。本文定義上述實證數據為原始數據，在原始數據中不難發現用戶會在社刊上發表帶有emoji表情的評論。經統計可知，有emoji表情評論記錄的社刊占所有社刊數量的89%。

1.1 emoji表情提取

在計算用戶情感之前，需要對原始數據進行數據清洗與emoji表情提取。首先刪除不含emoji表情的評論記錄;其次，用戶在評論中發表的不同emoji表情數量通常不大于3種，為防止用戶灌水，即在一條評論中發送很多不同的emoji表情，刪除表情種類多于3種的記錄;接下來考慮到極少社刊擁有的用戶數小于3個，其中擁有用戶數為1的社刊，唯一一個用戶為社刊創刊者，為保證社刊品質，刪除擁有用戶數小于3個的社刊記錄。

本文定義原始數據在經過上述3個步驟后保留下來的數據為篩選數據。為了獲得更稠密的數據，本文在篩選數據上構造了投影網絡[16]，即將某用戶評論過某一社刊視作一個新單元節點，若與其它單元節點存在相同用戶或社刊則產生連邊。最后，在投影網絡上應用k核分解[17]。實驗中k取最大值3 442，便可得到最核心的單元節點。

從上述最大k值所對應的單元節點中，保留用戶和社刊信息，并分別定義該部分用戶與社刊為核心用戶和核心社刊，再從篩選數據中篩選出包含該部分核心用戶與社刊的評論數據，即篩選后的評論數據是由核心用戶對核心社刊所發表的包含emoji表情的評論數據，本文定義該部分數據為實驗數據。至此，數據清洗及emoji表情提取工作全部結束。

1.2 用戶情感計算

經過數據清洗，得到15 370條數據記錄。在這些記錄中共提取出126種emoji表情，并由7名志愿者將所有表情主觀地分成3類，分別為：積極、中立和消極。為了檢驗志愿者主觀分類結果的一致性，避免出現某個志愿者胡亂分類的情況，本文對分類結果進行了Krippendorff's alpha檢驗[18]。當Alpha值大于基準值0.6時，表明不同志愿者分類結果間的差異是可以被接受的[19]。文中實驗的Alpha值為0.706 9，大于基準值0.6，所以志愿者的分類結果是可取的。之后，對7名志愿者的分類結果取眾數，即獲得相應emoji表情的所屬分類。

4 結語

emoji表情已成為互聯網時代必不可少的元素之一，是人們表達情感的重要載體。通過分析海量emoji表情信息，可以了解用戶情緒狀況、對某個社會現象的觀點，以及對某款產品的偏好等。本文從用戶情感角度入手，將emoji表情引入到ItemCF推薦算法中，但推薦效果依賴于評論中emoji 表情轉化成用戶情感的準確性。因此，未來工作可對文中emoji表情進行更加細致的分類，使提煉出的用戶情感更為精確，從而提高推薦效果。

參考文獻：

[1] 劉建國，周濤，郭強，等. 個性化推薦系統評價方法綜述[J]. 復雜系統與復雜性科學， 2009， 6（3）： 1-10.

[2] 周軍鋒，湯顯，郭景峰. 一種優化的協同過濾推薦算法[J]. 計算機研究與發展，2004， 41（10）： 1842-1847.

[3] 鄧曉懿，金淳，韓慶平，等. 基于情境聚類和用戶評級的協同過濾推薦模型[J]. 系統工程理論與實踐，2013，33（11）： 2945-2953.

[4] 熊聰聰，鄧瀅，史艷翠，等. 基于協同過濾的美食推薦算法[J]. 計算機應用研究，2017，34（7）：1985-1988.

[5] 鄧愛林，左子葉，朱揚勇. 基于項目聚類的協同過濾推薦算法[J]. ?小型微型計算機系統，2004，25（9）：1665-1670.

[6] 羅辛，歐陽元新，熊璋，等. 通過相似度支持度優化基于K近鄰的協同過濾算法[J]. 計算機學報， 2010，33（8）： 1437-1445.

[7] 榮輝桂，火生旭，胡春華，等. 基于用戶相似度的協同過濾推薦算法[J]. 通信學報，2014，13（2）：16-24.

[8] 馬宏偉，張光衛，李鵬. 協同過濾推薦算法綜述[J]. 小型微型計算機系統，2009，30（7）：1282-1288.

[9] 趙屹星垚. Emoji表情中的受眾心理研究[J]. 設計藝術研究， 2016，6（1）：46-49.

[10] 金芊芊. Emoji表情符號的藝術價值[J]. 常州工學院學報：社科版，2017，35（3）： 52-55.

[11] 楊莞桐. 青年群體emoji表情符號使用情況調查與研究[J]. 人間，2016，217（22）：17-19.

[12] TANG D， QIN B， LIU T. Document modeling with gated recurrent neural network for sentiment classification[C]. Conference on Empirical Methods in Natural Language Processing，2015： 1422-1432.

[13] NOVAK P K， SMAILOVI？ J， SLUBAN B， et al. Sentiment of emojis[J]. ?PloS one， 2015， 10（12）： e0144296.

[14] VIDAL L， ARES G， JAEGER S R. Use of emoticon and emoji in tweets for food-related emotional expression[J]. Food Quality & Preference， 2015， 49（6）： 119-128.

[15] 許雅. 移動社交語境下Emoji表情的傳播態勢與功能探究[J]. ?新媒體研究，2016， 2（8）： 24-28.

[16] J？SCHKE R，MARINHO L，HOTHO A，et al. Tag recommendations in folksonomies[M]. Knowledge Discovery in Databases：PKDD 2007. Springer Berlin Heidelberg， 2007：506-514.

[17] BATAGELJ V， ZAVER？NIK M. Generalized cores[J]. arXiv preprint cs/0202039，2002.

[18] KRIPPENDORFF K. Agreement and information in the reliability of coding[J]. Communication Methods and Measures，2011，5（2）： 93-112.

[19] HAYES A F. SPSS macro for computing Krippendorff's alpha[J]. ?Retrieved September， 2006， 6（4）：17-20.

[20] 項亮. 推薦系統實踐[M]. 北京：人民郵電出版社，2012.

（責任編輯：黃健）

軟件導刊2019年6期

軟件導刊的其它文章: 基于激勵機制的“辨寫思練”教學模式研究; 面向邏輯能力培養的編程課程教學設計研究; EWMA算法在無線通信協議速率選擇中的應用; 基于智慧學習的3D教學微視頻資源設計; CDIO工程教育理念下《計算機導論》課程建設研究; 美國計算機專業研究生教育特點與啟示