王福江 魏振鋼



摘 要傳統的推薦技術主要依據用戶以及商品的基本信息和歷史記錄,對于商品和用戶的特征很少描述。本文提出了基于評論的商品推薦技術,首先獲取商品評輪的特征集和用戶評價的特征集,計算商品和用戶之間的特征匹配值,根據特征匹配值的大小來實現商品的推薦。
【關鍵詞】商品推薦 數據挖掘 研究
1 引言
常用的推薦技術包括:基于內容的推薦、協同過濾與推薦、基于關聯規則推薦、基于效用推薦等。這些推薦技術通過搜集用戶信息、商品信息以及瀏覽購買記錄等,建立用戶興趣模型并借助不同的推薦技術實現商品推薦。但用戶需求隨著時間推移不斷變化,受限于興趣推薦的質量很難進一步提升推薦結果。
文獻提出了一種產品特征提取算法提取產品特征,文獻研究評論的意見傾向識別方法。本文提出基于特征匹配值的商品推薦算法,通過對評論進行文本挖掘,計算商品和用戶的特征匹配值找到商品和用戶特征方面的聯系,實現商品推薦。
2 基于評論的商品推薦技術流程
在基于評論的商品推薦技術架構中如圖1所示,首先數據預處理模塊將數據進行基本的處理,生成標準格式數據;評論挖掘模塊將處理后的評論利用自然語言處理方法進行特征提取挖掘;在推薦計算模塊中,根據規則得到初步的結果集;在推薦選取模塊中,根據商品選取規則選取符合要求的商品,最后通過瀏覽器展現給用戶。
評論挖掘過程中,利用ICTCLAS分詞系統對評論進行分詞,將結果分別進行特征提取,利用HowNet計算用戶和商品的所有特征值,然后計算用戶和商品之間的特征匹配值,根據特征匹配值生成推薦結果集,最后將推薦結果展現給用戶。
4 基于評論的推薦技術挖掘方法
根據上節給出的商品推薦流程,我們將推薦模型的挖掘方法分為以下六個步驟:
Step1:使用ICTCLAS中文分詞系統對評論進行分詞處理,把評論劃分為詞條。
Step2:通過語義相似度計算合并語義相近的詞,選取語義相似度sim(M,N)>0.5的詞進行合并,然后使用知網HowNet建立商品和用戶的特征詞詞典。詞語語義相似度的計算公式如下:
(1)
M和N表示任意兩個產品或用戶特征屬性,common(M,N)表示兩個特征屬性之間的相同性,log p(common(M,N))表示特征屬性M和特征屬性N兩者之間的相同性所需要的數據量大小,log p(description(M,N))表示完整的描述M和N所需要的數據量大小。
Step3:建立特征描述詞匯的情感詞詞典,對情感詞進行賦值,例如描述手機的價格特征賦值有如下四種表述:
價格:很貴(-4)、貴(-3)、便宜(3)、很便宜(4)
Step4:通過情感詞詞典的賦值表,對商品和用戶的所有特征值進行計算:
(2)
商品或用戶的特征值P(p1,p2,...pn),gi表示特征p的某一特征值,n表示特征p所有特征值的數量。
Step5:對于商品的特征集合g(g1,g2,...gn)和用戶的特征集合t(t1,t2,...tn)通過公式(1)計算商品和用戶的特征相似度,取sim(g,t)>0.5得到商品P和用戶Q的特征相似度集Sij(i代表商品第i個特征,j代表用戶第j個特征)。對特征相似度集進行特征匹配度計算:
(3)
Step6:根據用戶和商品的基本信息劃分群組,計算該用戶群組和所有商品群組之間的特征匹配值L,選擇特征匹配值排名靠前的商品對用戶進行推薦。
5 實驗與分析
本文下載了亞馬遜1000條商品和用戶的數據,選取多于10個字符的評論數據,得到了用戶g20160001和選取的部分群組商品特征匹配值表如表1所示。我們將選取特征匹配值得前五對用戶進行推薦。
經過對比推薦結果與用戶的歷史購物記錄,推薦商品基本滿足了用戶的購物趨向,當評論數據越多時候推薦商品的結果越趨向用戶的興趣。
另外,通過對結果研究發現,用戶和同一個興趣趨向商品的特征匹配值隨著評論數量的增多而減小,最后趨向于某一值。因此,對于推薦商品而言評論數量越多推薦結果就越準確。
6 結論
傳統的推薦模型需要建立用戶興趣集,本文提出基于評論的推薦技術,結合自然語言處理、特征評分文本挖掘等方法,建立特征匹配度表。這種基于評論的商品推薦,更符合消費者網絡檢索信息的思維習慣,可以與其它商品推薦方法互為補充,更加準確的向消費者推薦所需商品,幫助企業實現精準營銷.
創新點:本文首次將評論進行分類,分別對商品評論和用戶評價進行挖掘。依據特征值的計算結果提出了特征匹配度的定義以及計算方法。特征匹配度值的大小表明了商品以及用戶之間的一種關聯,值越小表明了兩者之間的聯系越大。
參考文獻
[1]劉平峰,聶規劃,陳冬林.電子商務推薦系統研究綜述[J].情報雜志,2007(9):46-50.
[2]Hu M and Liu B.Mining and summarizing customer reviews.In Proc.of KDD04,168-177.
[3]李實,葉強,李一軍.中文網絡客戶評論的產品特征挖掘方法研究[J].管理科學學報,2009,4(2):142-152.
[4]CHRYSANTHOS DELLAROCAS.The Digitization of Word of Mouth: Promised and Challenges of Online Feedback Mechanisms[J].Management Science,2003,10(49):1407-1424.
[5]HUM,LIU B.Mining Opinion Features in Customer Reviews[C].In AAA I,2004:755-760.
作者單位
中國海洋大學信息科學與工程學院 山東省青島市 266100