999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Vague集的內容推薦算法研究

2010-01-01 00:00:00崔春生吳祈宗
計算機應用研究 2010年6期

摘 要:針對內容推薦系統中商品特征表示的困難,將Vague集方法引入到這一領域,并利用高斯函數和Vague集中未知度的一些性質,將商品的特征用Vague值形象地表示;在此基礎上給出了運用Vague集方法進行內容推薦的一般步驟,為推薦系統的設計者提供了一種新的指導思想和方法;最后給出了多個推薦公式,并對各式進行了簡單的比較,這將有利于實際推薦工作中酌情選擇不同的推薦公式,提高商品推薦質量和推薦精度。

關鍵詞:推薦系統; Vague集; 相似度; 基于內容推薦

中圖分類號:TP311文獻標志碼:A

文章編號:1001-3695(2010)06-2109-03

doi:10.3969/j.issn.1001-3695.2010.06.033

Research on contentbased recommendation based on Vague sets

CUI Chunsheng, WU Qizong

(School of Management Economics, Beijing Institute of Technology, Beijing 100081, China)

Abstract:Focused on the trouble of the features representation of merchandise in contentbased recommendation system, this paper used the theory of Vague sets, Gaussian function and characteristics of uncertainty to represent features with Vague value. On this basis, gave the general steps of contentbased recommendation with Vague sets, in order to get a new idea and method to recommender systems designers. Finally, gave some recommender formula with different features, which would be conducive to the work of the actual recommendation. Select different formula according different condition will improve the quality and accuracy of the recommendation.

Key words:recommender systems; Vague sets; similarity; contentbased recommendation

0 引言

隨著電子商務技術的不斷發展,推薦系統因其解決信息超載方面獨有的強大功能而備受關注。推薦系統的研究在20 世紀90 年代被作為一個獨立的概念提出[1,2]并逐漸成為一門獨立的學科。所謂推薦系統是指利用電子商務網站向客戶提供商品信息和建議,幫助用戶決定應該購買什么產品, 模擬銷售人員幫助客戶完成購買過程。推薦系統在網絡經濟環境下不僅可以將電子商務系統的瀏覽者轉變為購買者、促進產品交叉銷售能力,還可以提高客戶的忠誠度,這在市場競爭日趨激烈的今天顯得尤為重要。推薦系統中推薦功能的實現主要基于系統中采用的推薦方法,可以說推薦方法的選擇與設計是實現推薦功能的重點所在。目前主流的推薦方法包括基于內容的推薦、協同過濾推薦、基于知識推薦和組合推薦四種。其中基于內容推薦是指根據用戶選擇的對象,基于對象特征以及顧客歷史購買行為或者顧客偏好評分等為用戶推薦其他類似屬性的對象。相對協同過濾推薦算法,基于內容的推薦系統的研究略顯滯后,一方面是因為協同過濾算法產生較早,并取得了良好的推薦效果;另一方面是因為基于內容的推薦系統中特征提取問題一直是困擾學者的一個難點。傳統的基于內容推薦系統難以區分商品信息的品質和風格,而且不能為用戶發現新的感興趣的商品,只能發現和用戶已有興趣相似的商品。近幾年,內容推薦算法出現了一些新的研究思路和方法,如Mooney以及Pazzani等人[3,4]將貝葉斯分類算法引入到內容推薦;Mostafa等人[5]將神經網絡引入到內容推薦;Zenebe等人[6]將模糊數學方法應用于基于內容的產品推薦;Soml和Zhang Yi等人[7,8]在內容推薦系統的研究中運用了自適應過濾方法;Robertson以及Zhang Yi等人[9,10]將閾值設定的思想引入到智能推薦系統中。以上的研究,無論什么方法都是立足于產品的特征,通過消除產品特征的不確定性以取得良好的推薦質量。由此可見,在基于內容的推薦系統中,產品特征的形象表示是決定內容推薦算法質量的一個至關重要的因素。

1 問題的提出

推薦方法中研究的重點主要集中在用戶(商品)之間的相似性,協同過濾推薦考慮的是用戶之間的相似性,內容推薦中關注的是商品之間的相似性。Lin Dekang[11]曾從信息論的角度對相似性給出了一個統一的、與應用領域無關的非形式化的定義。他認為,A與B之間的相似度一方面與它們的共性相關,共性越多,相似度越高,當A與B完全相同時,相似度達到最大值;另一方面與它們的區別相關,區別越大,相似度越低。目前推薦系統研究領域常用的相似性計算方法有向量空間相似度、Pearson相關、Spearman相關、熵、余弦方法、相關性方法等[12]。同時,Vague集研究領域中從理論和應用兩個角度出發,在記分函數、距離測度、未知度的再分配等三個方面對Vague值之間的相似性進行了大量的研究,產生了很多有價值的理論成果,因此Vague集這些研究成果必然會對推薦系統的研究有一定的指導意義。

Vague集的研究來源于Fuzzy集,在Fuzzy集基礎上,通過真隸屬度和假隸屬度引入給出以區間形式表示的隸屬程度——該區間能夠同時給出支持證據和反對證據的程度,并且能夠表示中立的程度,從而提出Vague集的概念。在推薦系統中,Vague值可以表示不同的含義,對于相似性來說,代表了相對精確而言的接近程度;相對用戶偏好來說,可以表示用戶偏好的程度。

2 符號約定

為了便于描述,對于本文用到的符號作以下約定:

Ij(j=1,2,…,n)代表商品,Ij系統中商品總數為n。

X={x1,x2,x3,…,xL}代表商品的特征空間向量,描述商品的特征屬性。

xxk(Ij)=〈txk(Ij),1-fxk(Ij)〉代表商品特征xk(k=1,2,…,L)的Vague值函數。其中,txk(Ij)表示商品特征xk的肯定隸屬函數,表示商品Ij相對于理想特征值(最優值)xk(k=1,2,…,L)的接近程度或商品Ij中xk的實際值;fxk(Ij)表示商品特征xk的否定隸屬函數,表示商品Ij相對于0值(最劣值)的接近程度。

πxk(Ij)代表商品特征xk的未知度,表示商品Ij相對于特征xk的未知程度。

根據Vague集理論,肯定隸屬度、否定隸屬度以及未知度三者之間存在以下關系:

πxk(Ij)=1-txk(Ij)-fxk(Ij)

r(Ij)表示顧客對商品Ij的原始評分值。

r′(Ij)表示顧客對商品Ij的評分值(經過歸一化處理)。

ω(Ij)表示推薦系統中商品Ij的推薦權重。

S(Ik,Ij)表示商品Ik與Ij的相似度,0≤S(Ik,Ij)≤1。

R(Ik)表示商品Ik的推薦值。

NR(Ik)表示商品Ik的推薦度。

3 基于內容推薦的一般過程

基于內容的推薦是從顧客出發,通過商品特征的確定,根據顧客對歷史產品的評價尋找與顧客偏好相似的同類待推薦商品。

在這里,根據基于內容推薦的特點,借助于Vague集理論給出推薦算法,該算法的一般步驟如下:

a)定義商品的特征屬性。任何商品在評價和推薦過程中都是基于自身所具有的特征屬性,每一種商品都有很多特征,如電影特征集合可表示為X={槍戰,愛情,情感,倫理,恐怖,偵破,古裝,武打,…},分別用xk表示為X={x1,x2,x3,x4,x5,x6,x7,x8,…}。

b)確定商品各特征的肯定隸屬度。依特征xk相對商品Ij的相關程度降序排列,也可以按照特征相對于商品的重要性進行降序排列。如{x1,x6,x4,x8,x5,x3,x7,x2,…}表示該商品的各個特征重要性或相關程度按1、6、4、8、5、3、7、2的次序逐漸降低。

定義商品Ij屬于特征xk的肯定隸屬度為該特征xk相對商品Ij的重要性或相關程度,用txk(Ij)表示。

依照重要的或相關程度高的特征賦予較高的肯定隸屬度的原則定義商品Ij各特征xk的肯定隸屬度,因此各特征xk的肯定隸屬度以上述特征排序結果逐漸降低。需要說明的是,對于商品Ij,k值的差異對肯定隸屬度的結果將會產生巨大的影響。

顯然,采用什么樣的函數來確定肯定隸屬度的取值是一個至關重要的問題。文獻[6]認為,商品特征的模糊隸屬度基本符合Gaussian函數的特征,這里借用Gaussian函數得到特征xk的肯定隸屬度,即txk(Ij)=rk/2a|Lj|(rk-1)。其中,|Lj|表示商品Ij的特征個數;rk(1≤rk≤|Lj|)代表特征xk所在的排序位置;a>1是需要確定的一個常數,它影響到各個變量之間的連續性。

c)確定商品特征xk的未知度。為了得到未知度,作以下假設:

(a)∑Lixk=1πxk=1,即某一確定商品所有特征的未知度之和為1。

(b)商品特征xk的未知度πxk(Ij)以中間值為中心,成對稱分布。

(c)商品最重要特征的未知度為0。

基于這種假設,可以采用三角函數(|Lj|為奇數時)、梯形函數(|Lj|為偶數時)或正態分布函數得到商品特征xk的未知度πxk(Ij)。

d)用Vague值表示商品的特征。根據1-fxk(Ij)=πxk(Ij)+txk(Ij)得到商品Ij各特征xk的Vague值。

e)確定商品間的相似度。很顯然,各商品Ij的特征已經形象地表示為Vague值,商品之間的相似度實質上就是兩個Vague集之間的相似度。文獻[13]根據已有的研究提出未知度相加的相似性計算思想,給出了一般的實數值Vague集的相似度公式:

S(I1,I2)=1-1n

∑ni=112txi(I1)-txi(I2)+fxi(I1)-fxi(I2)+

16πxi(I1)-πxi(I2)

由此可以得到兩商品之間的相似性。

f)確定每一個商品的權重。顧客態度不同評分的結果也會有所不同。例如,有的顧客在對商品的評分過程中覺得7分(假設評分等級為9級)已經很高了,而有的顧客覺得7分比較低,評分值之間的差異將會影響到產品的推薦結果,因此需要對評分值進行歸一化處理。

采用半三角模糊函數可以將顧客對商品Ij的評分r(Ij)表示為r′(Ij)=[r(Ij)-min]/(max-min)。這里max和min表示該顧客對所有產品的評分值中的最大值和最小值。因此可以定義該顧客喜歡的商品的集合為Ij:r′(Ij)>0.5 .i.e,r(Ij)>max+min2

商品Ij的權重即為r′(Ij)。這里權重的計算僅考慮顧客喜歡的商品Ij,原因在于,只有顧客喜歡的商品才會成為推薦的參考商品。

g)得到商品推薦公式。不同的顧客心理、不同的推薦思想將會得到不同的商品推薦式。這里給出幾種常用的推薦公式:

(a)權重加總形式R1(Ik)=∑jr′(Ij)S(Ik,Ij),這是計算每一個待推薦商品Ik的權重加總。很顯然,j越大(評價過的對象越多),R值越大。那么對任意待推薦商品Ik的推薦度為NR1(Ik)=R1(Ik)maxjR1(Ij)。這里分母代表的是所有待推薦商品中推薦值的最大值。該方法在推薦中考慮了所有喜歡該商品的顧客評分值以及所有的相似度,因此補償了評分結果的差異性和相似度的差異性,屬于一種加權推薦算法,推薦過程較為中庸。

(b)最大最小形式R2(Ik)=maxj{min(S(Ij,Ik),r′(Ij))},這里考慮每一個待推薦電影的最大最小值。同樣,任意待推薦商品Ik的推薦度為NR2(Ik)=R2(Ik)maxjR2(Ij)。該方法在推薦中注重推薦的質量,比較保守,考慮評分結果和相似度中的最小值作為推薦基礎,屬于較為悲觀的推薦方法。

R2有幾種變形形式,如R3(Ik)=minj{max(1-S(Ij,Ik),r′(Ij))},這種推薦方式更為保守,得到的推薦質量將會更高。如果待推薦商品和已知商品的相似度比較高時,采用該方法比較好,同時R2可看做是R3的樂觀結果。R4(Ik)=maxj{S(Ij,Ik)×r′(Ij)},這種推薦算法是在R2的基礎上,將min計算變成乘法計算,綜合考慮了相似度和評分值對推薦結果的共同影響。

4 案例應用

下面以Movielens中提供的數據為例,分析該算法的可行性。電影I1具有五個基本特征{槍戰x1,愛情x2,情感x3,倫理x4,恐怖x5},對于該電影依其特征的重要性(特征的顯著性)排序得X(I1)={情感x3,倫理x4,愛情x2,恐怖x5,槍戰x1};電影I2具有六個基本特征{愛情x2,情感x3,倫理x4,偵破x6,古裝x7,武打x8},對該電影依其特征的重要性(特征的顯著性)排序得X(I2)=(情感x3,武打x8,古裝x7,倫理x4,愛情x2,偵破x6)。取a=1.25,得tx3(I1)=1,tx4(I1)=0.3536,tx2(I1)=0.259,tx5(I1)=0.1989,tx1(I1)=0.156;tx3(I2)=1,tx8(I2)=0.299,tx7(I2)=0.2048,tx4(I2)=0.1493,tx2(I2)=0.1122,tx6(I2)=0.086。

采用三角函數得到商品I1各特征的未知度分別為0,0.25,0.5,0.25,0;采用梯形函數得到商品I2各特征的未知度分別為0,0.166,0.333,0.333,0.166,0。得到商品I1各特征的Vague值分別為xx3(I1)=〈1,1〉,xx4(I1)=〈0.3536,0.6036〉,xx2(I1)=〈0.2587,0.7587〉,xx5(I1)=〈0.1989,0.4489〉,xx1(I1)=〈0.1563,0.1563〉。商品I2各特征的Vague值分別為xx3(I2)=〈1,1〉,xx8(I2)=〈0.2997,0.4657〉,xx7(I2)=〈0.2048,0.5378〉,xx4(I2)=〈0.1493,0.4823〉,xx2(I2)=〈0.1122,0.2782〉,xx6(I2)=〈0.086,0.086〉。

利用相似度公式,取n=8,求得S(I1,I2)=0.7522,說明這兩個電影之間的相似度比較高。

在Movielens中提供了五個基本評分等級,分別表示must see、will enjoy、it’s ok、fairly bad、awful等顧客的態度,并依次用5分到1分來標記,同時給出了4.5、3.5、2.5、1.5等四個中間分數。隨機抽取10個電影,并且將I1、I3、I5、I7看做待推薦電影,求得S(Ik,Ij)。利用權重加總形式得到待推薦電影的推薦度依次為NR1(I1)=0.973,NR1(I3)=0.657,NR1(I5)=1,NR1(I7)=0.892。因此四個電影的推薦次序依次為I5I1I7I3。

5 結束語

本文借助Vague集理論,采用Vague值形象地表示商品特征,并運用Vague集相似度的計算公式探討了商品之間的相似性關系,為商品特征提供了一種具有代表性的框架結構,從而在一定程度上解決了基于內容推薦系統中商品特征難以表示的技術難題。同時為推薦系統提供了一種新的算法,尤其是基于內容推薦系統領域中運用Vague集方法提出了一種實際而且詳細的指導。

基于本文的討論,為這一領域的進一步研究提供了新的空間。文中定義r′(Ij)>0.5為顧客喜歡的產品集不免主觀,簡單地用顧客的評分硬性地將顧客的偏好劃分為兩類。很多情況下某顧客評價的產品是自己比較喜歡的產品,也有可能某顧客評價的產品都是自己不喜歡的產品。所以應該定義為r′(Ij)>a,至于a的取值應該從大量數據中分析確定,這是需要進一步考慮的問題。另外,計算出來的推薦度數值差異很大,如I5、I1、I7與I3之間,所以推薦數量是一個值得進一步研究的問題。

參考文獻:

[1]RESNICK P, IAKOVOU N, SUSHAK M, et al. GroupLens: an open architecture for collaborative filtering of netnews[C]//Proc of ACM Conference on Computer Supported Cooperative Work. New York: ACM Press,1994:175-186.

[2]HILL W, STEAD L, ROSENSTEIN M, et al. Recommending and evaluating choices in a virtual community of Use[C]//Proc of SIGCHI Conference on Human Factors in Computing Systems. New York: ACM Press,1995:194-201.

[3]MOONEY R J, BENNETT P N, ROY L. Book recommending using test categorization with extracted information[C]//Proc of the AAAI/ICML Workshop on Learning for Text Categorization.1998:49-54.

[4]PAZZANI M, BILLSUS D. Learning and revising user profiles: the identification of interesting Web sites[J]. Machine Learning,1997,27(3): 313-331.

[5]MOSTAFA J, LAM W. Automatic classification using supervised learning in a medical document filtering application[J]. Information Processing and Management,2000,36(3):415-444.

[6]ZENEBE A, NORCIO A F. Representation, similarity measures and aggregation methods using fuzzy sets for contentbased recommender systems[J]. Fuzzy Sets and Systems,2009,160(1):76-94.

[7]SOMLO G, HOWE A. Adaptive lightweight text filtering[C]//Proc of the 4th International Conference on Advances in Intelligent Data Analysis.2001:319-329.

[8]ZHANG Yi, CALLAN J, MINKA T. Novelty and redundancy detection in adaptive filtering[C]//Proc of the 25th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press,2002:81-88.

[9]ROBERTSON S. Threshold setting and performance optimization in adaptive filtering[J]. Information Retrieval,2002,5(2-3): 239-256.

[10]ZHANG Yi, CALLAN J. Maximum likelihood estimation for filtering thresholds[C]//Proc of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press,2001:294-302.

[11]LIN Dekang. An informationtheoretic definition of similarity[C]//Proc of the 15th International Conference on Machine Learning. 1998:296-304.

[12]熊馨,王衛平,葉躍祥. 電子商務個性化產品推薦策略研究[J]. 科技進步與對策,2005,22(7): 163-165.

[13]王偉平. 基于Vague集的語言型多準則決策的研究[D]. 北京:北京理工大

學,2008.

主站蜘蛛池模板: 欧类av怡春院| 亚洲综合亚洲国产尤物| 精品人妻系列无码专区久久| 99久久精品美女高潮喷水| 一级看片免费视频| 成人日韩欧美| a级毛片一区二区免费视频| av一区二区无码在线| 国产99在线| 国产精品亚洲片在线va| 国产毛片不卡| 超薄丝袜足j国产在线视频| 一级成人a毛片免费播放| 国产福利免费视频| 久久久久久久97| 国产一级在线观看www色| 亚洲视频a| 99视频精品在线观看| 国产无码制服丝袜| 亚洲免费成人网| 国产麻豆精品手机在线观看| 国产精品亚洲一区二区三区z| 狠狠色丁婷婷综合久久| 国产精品视频猛进猛出| 一区二区三区四区精品视频| 欧美午夜理伦三级在线观看| 国产成人综合亚洲网址| 久久一日本道色综合久久| 手机在线看片不卡中文字幕| 中文国产成人精品久久一| 日韩欧美一区在线观看| 天天躁夜夜躁狠狠躁图片| swag国产精品| 丁香五月亚洲综合在线| 欧美国产视频| 天堂av综合网| 日本不卡在线播放| 国产美女视频黄a视频全免费网站| 91美女视频在线观看| 伊人无码视屏| 亚洲乱码精品久久久久..| 国产女人18水真多毛片18精品| 91人妻在线视频| 久久精品电影| 国产欧美日韩免费| 午夜色综合| 亚洲精品无码抽插日韩| 69视频国产| 中国国产一级毛片| 亚洲国产中文精品va在线播放| 日韩麻豆小视频| 一级爱做片免费观看久久| 日韩欧美在线观看| 99这里只有精品免费视频| 国产精品成人免费视频99| 人妻中文字幕无码久久一区| 欧美在线中文字幕| 久久国产亚洲偷自| 色屁屁一区二区三区视频国产| 91精品国产一区| 欧美性久久久久| 国产美女一级毛片| 国产视频一区二区在线观看| 亚洲大尺度在线| 91亚洲国产视频| 色亚洲激情综合精品无码视频| 99精品视频九九精品| 国产欧美中文字幕| 中文字幕资源站| 91在线一9|永久视频在线| 国内精品久久久久久久久久影视 | 亚洲一区第一页| 狠狠色噜噜狠狠狠狠色综合久| 成人国产精品2021| 亚洲成人动漫在线观看| 亚州AV秘 一区二区三区| 国产97色在线| 好久久免费视频高清| 精品久久香蕉国产线看观看gif| 自慰网址在线观看| 自拍偷拍欧美| 四虎成人精品在永久免费|