999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于協(xié)同過(guò)濾算法的用戶(hù)喜好研究

2017-07-20 13:08:40嚴(yán)春燕戴仕明
計(jì)算機(jī)時(shí)代 2017年7期
關(guān)鍵詞:數(shù)據(jù)采集

嚴(yán)春燕+戴仕明

摘 要: 互聯(lián)網(wǎng)產(chǎn)生的海量信息帶來(lái)了“信息超載”的問(wèn)題。文章基于協(xié)同過(guò)濾算法對(duì)用戶(hù)喜好進(jìn)行了研究。闡述了協(xié)同過(guò)濾的基本思想,對(duì)用戶(hù)喜好數(shù)據(jù)的采集及預(yù)處理過(guò)程進(jìn)行了研究;在數(shù)據(jù)分析過(guò)程中提出幾種常用的計(jì)算相似度的方法并進(jìn)行了比較;研究了協(xié)同過(guò)濾算法的兩個(gè)分支的不同適用場(chǎng)景,并與基于內(nèi)容的算法進(jìn)行比較,對(duì)現(xiàn)有算法存在的不足提出了改進(jìn)。

關(guān)鍵詞: 協(xié)同過(guò)濾; 用戶(hù)喜好; 數(shù)據(jù)采集; 預(yù)處理; 相似度

中圖分類(lèi)號(hào):TP391.9 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2017)07-56-04

Research on user preferences using collaborative filtering algorithm

Yan Chunyan1, Dai Shiming2

(1. College of Computer and Information, Jiangxi Agricultural University, Nanchang, Jiangxi 330045, China;

2. College of Software, Jiangxi Agricultural University)

Abstract: The massive information generated by the Internet brings the problem of "information overload". This paper studies user preferences by using collaborative filtering algorithm; Describes the basic idea of collaborative filtering, and studies the acquisition and pretreatment of user preference data; in the process of data analysis, several common used similarity algorithms are proposed and compared; the two branches of the collaborative filtering algorithm in different applicable scenes are studied, and compared with the content-based algorithm to improve the existing algorithms.

Key words: collaborative filtering; user preferences; data acquisition; pretreatment; similarity

0 引言

隨著互聯(lián)網(wǎng)的快速發(fā)展,數(shù)據(jù)信息正在成指數(shù)量級(jí)增長(zhǎng),而用戶(hù)很難從中找到自己感興趣的內(nèi)容,這就形成了“信息超載(Information overload)[1]”的問(wèn)題。為了很好地解決用戶(hù)需求與互聯(lián)網(wǎng)龐大的數(shù)據(jù)之間的矛盾,推薦算法是解決這個(gè)矛盾的主要技術(shù)。

協(xié)同過(guò)濾算法[2]是目前最廣泛應(yīng)用的算法。協(xié)同過(guò)濾算法常被用于分析用戶(hù)潛在感興趣的物品,這些依據(jù)來(lái)自于其他相似用戶(hù)對(duì)產(chǎn)品的喜好分析。簡(jiǎn)單來(lái)說(shuō)就是:物以類(lèi)聚,人以群分。

1 協(xié)同過(guò)濾的基本思想

協(xié)同過(guò)濾算法最早出現(xiàn)于1992年,被用于郵件過(guò)濾系統(tǒng),是目前較為流行的推薦算法。協(xié)同過(guò)濾具有預(yù)測(cè)和推薦的功能,協(xié)同過(guò)濾算法的出現(xiàn)標(biāo)志著推薦系統(tǒng)的產(chǎn)生。協(xié)同過(guò)濾也被認(rèn)為是集體智慧[2]的典范,不需要對(duì)項(xiàng)目進(jìn)行特別處理,而是通過(guò)用戶(hù)建立起物品與物品之間的聯(lián)系,喜歡相同物品的用戶(hù)之間更有可能具有相同的喜好。協(xié)同過(guò)濾算法分為兩類(lèi),一類(lèi)是基于用戶(hù)(User-based)的協(xié)同過(guò)濾算法,另一類(lèi)是基于物品(Item-based)的協(xié)同過(guò)濾算法。

1.1 基于用戶(hù)的協(xié)同過(guò)濾算法

基于用戶(hù)的協(xié)同過(guò)濾算法[3]的基本原理是根據(jù)所有用戶(hù)對(duì)物品的評(píng)分,發(fā)現(xiàn)與當(dāng)前用戶(hù)喜好相似的其他用戶(hù),在應(yīng)用中一般采用K-最近鄰(K-Nearest-

Neighbor,KNN)算法[4],然后,基于這些相似用戶(hù)的喜好信息,為當(dāng)前用戶(hù)進(jìn)行推薦。這個(gè)算法主要包括兩步:

⑴ 找到和當(dāng)前用戶(hù)喜好相似的用戶(hù)集,計(jì)算兩個(gè)用戶(hù)的喜好相似度;

⑵ 找到這個(gè)用戶(hù)集中用戶(hù)喜歡的,且當(dāng)前用戶(hù)沒(méi)有聽(tīng)說(shuō)過(guò)的物品推薦給當(dāng)前用戶(hù)。

1.2 基于物品的協(xié)同過(guò)濾算法

基于物品的協(xié)同過(guò)濾算法[5]的基本原理是根據(jù)用戶(hù)的所有歷史喜好數(shù)據(jù)來(lái)計(jì)算物品的相似度,然后把與用戶(hù)喜歡的物品相似的物品推薦給用戶(hù)。這個(gè)算法主要包括兩步:

⑴ 計(jì)算物品之間的相似度;

⑵ 根據(jù)物品的相似度和用戶(hù)的歷史行為給用戶(hù)推薦物品。

2 數(shù)據(jù)采集及預(yù)處理過(guò)程

2.1 數(shù)據(jù)采集的方式

用戶(hù)喜好數(shù)據(jù)的采集可以從下面表1這幾種用戶(hù)行為方式中發(fā)現(xiàn)用戶(hù)喜好,并通過(guò)分組和加權(quán)這兩種不同的組合方式對(duì)用戶(hù)行為進(jìn)行處理。

⑴ 以Web日志的方式。從用戶(hù)給網(wǎng)站服務(wù)器發(fā)出http請(qǐng)求開(kāi)始,網(wǎng)站服務(wù)器就會(huì)在Log文件中添加一條記錄,記錄遠(yuǎn)程主機(jī)名(或IP地址)、發(fā)送請(qǐng)求的日期、請(qǐng)求返回的狀態(tài)等。隨后網(wǎng)站服務(wù)器會(huì)以http形式將頁(yè)面返回到用戶(hù)的瀏覽器內(nèi),之后會(huì)有專(zhuān)門(mén)的處理服務(wù)器對(duì)大量Log文件進(jìn)行處理,產(chǎn)生網(wǎng)站分析報(bào)表,如圖1所示。

[網(wǎng)站服務(wù)器][瀏覽器網(wǎng)頁(yè)][處理服務(wù)器][網(wǎng)站分析報(bào)] [http請(qǐng)求][http形式返回][Log文件]

不同的數(shù)據(jù)采集方式有不同的優(yōu)缺點(diǎn),表2對(duì)三鐘數(shù)據(jù)采集方式的優(yōu)缺點(diǎn)進(jìn)行了詳細(xì)的比較,為各網(wǎng)站開(kāi)發(fā)者在選擇數(shù)據(jù)采集方式時(shí)作為參考。

2.2 數(shù)據(jù)預(yù)處理

大量的原始數(shù)據(jù)中存在著很多模糊的、重復(fù)的、不完整的、有噪聲的數(shù)據(jù),會(huì)嚴(yán)重影響到數(shù)據(jù)分析的執(zhí)行效率,甚至可能導(dǎo)致最后結(jié)果誤差很大,因此,在進(jìn)行數(shù)據(jù)分析之前,需要對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,提高數(shù)據(jù)的質(zhì)量。數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)變換與數(shù)據(jù)規(guī)約等技術(shù)。如圖4所示:

3 數(shù)據(jù)分析

3.1 相似度的計(jì)算

預(yù)處理之后,得到了用戶(hù)喜好,再通過(guò)用戶(hù)喜好來(lái)計(jì)算相似用戶(hù)或物品,然后基于用戶(hù)或者物品進(jìn)行推薦。基于用戶(hù)和基于物品這兩種算法都需要計(jì)算相似度,下面介紹幾種常用的相似度計(jì)算方法:

⑴ 歐幾里得距離

假設(shè)X,Y是n維空間的兩個(gè)點(diǎn),

X=(x1,x2,x3,…,xn);

Y=(y1,y2,y3,…,yn);

則它們的歐幾里德距離:

則相似度,需要在歐幾里得距離上進(jìn)行一個(gè)轉(zhuǎn)換:

⑵ 皮爾遜相關(guān)系數(shù)(Pearson correlation coefficient)

皮爾遜相關(guān)系數(shù)常用于計(jì)算兩個(gè)變量之間的緊密程度,取值在[-1,+1]之間,相關(guān)系數(shù)的絕對(duì)值越大,相關(guān)性越強(qiáng),相關(guān)系數(shù)大于0是正相關(guān),相關(guān)系數(shù)小于0是負(fù)相關(guān)。

假設(shè)X,Y是n維空間的兩個(gè)點(diǎn),

X=(x1,x2,x3,…,xn);

Y=(y1,y2,y3,…,yn);

則它們的皮爾遜相關(guān)系數(shù):

⑶ 余弦相似度(Cosine similarity)

用空間向量中兩個(gè)向量夾角的余弦值,來(lái)表示兩個(gè)向量之間的差異。取值在[-1,1]之間,余弦值越接近1,兩個(gè)向量夾角越小,越相似。

假設(shè)X,Y是兩個(gè)n維向量,

X=(x1,x2,x3,…,xn);

Y=(y1,y2,y3,…,yn);

則它們的余弦相似度:

3.2 基于用戶(hù)和基于物品的適用場(chǎng)景

根據(jù)User-based基本原理可以看出User-based更加社會(huì)化,更傾向于推薦相似用戶(hù)中的熱點(diǎn)。在新聞?lì)惥W(wǎng)站中,用戶(hù)喜好往往是其次,熱門(mén)程度和時(shí)效性是新聞推薦的重點(diǎn),所以User-based給用戶(hù)推薦和他有相同喜好的人關(guān)注的新聞,這樣既保證了熱點(diǎn)和時(shí)效性,又兼顧了個(gè)性化。

但在圖書(shū)推薦系統(tǒng)、電子商務(wù)和電影網(wǎng)站等方面,用戶(hù)數(shù)量往往遠(yuǎn)遠(yuǎn)大于物品數(shù)量,如果User-based需要消耗更大的空間,此時(shí)基于Item-based能發(fā)揮更大的作用。因?yàn)樵谶@些網(wǎng)站中,用戶(hù)的喜好一般比較固定,Item-based能更好地給用戶(hù)推薦相似物品,增加用戶(hù)對(duì)推薦系統(tǒng)的信任度。

3.3 與基于內(nèi)容算法進(jìn)行比較

基于內(nèi)容算法[6]的核心思想是依據(jù)物品或內(nèi)容的元數(shù)據(jù),再通過(guò)元數(shù)據(jù)尋找物品或內(nèi)容的相似度,然后基于用戶(hù)歷史喜好記錄,給用戶(hù)推薦相似物品。基于內(nèi)容的算法只考慮了物品本身的性質(zhì),將物品按標(biāo)簽方式形成集合,基于用戶(hù)的歷史喜好記錄推薦相似物品,如果你選擇了集合中的一個(gè),則向你推薦集合中的其他物品。而協(xié)同過(guò)濾算法融合了集體智慧的思想,在大量用戶(hù)行為中尋找答案,既基于用戶(hù)購(gòu)買(mǎi)的歷史記錄,又基于用戶(hù)的相似度來(lái)推薦物品,這樣基于協(xié)同算法推薦的精確度就會(huì)更高。

3.4 現(xiàn)有算法的不足以及改進(jìn)

本文的協(xié)同過(guò)濾算法,在實(shí)際推薦系統(tǒng)中存在冷啟動(dòng)問(wèn)題,在基于用戶(hù)的協(xié)同過(guò)濾算法中存在用戶(hù)活躍度問(wèn)題[7],以及在基于物品的協(xié)同過(guò)濾算法中存在物品流行度問(wèn)題[7]。為解決這三類(lèi)問(wèn)題,提出以下幾種改進(jìn)方法。

對(duì)于冷啟動(dòng)問(wèn)題,可以分為新用戶(hù)冷啟動(dòng)問(wèn)題、新物品冷啟動(dòng)問(wèn)題以及新系統(tǒng)冷啟動(dòng)問(wèn)題。

⑴ 對(duì)于新用戶(hù)冷啟動(dòng)問(wèn)題,可以把熱門(mén)排行結(jié)果推薦給新用戶(hù),待用戶(hù)數(shù)據(jù)充足之后,再進(jìn)行個(gè)性化推薦。

⑵ 對(duì)于物品冷啟動(dòng)問(wèn)題,可以通過(guò)計(jì)算物品內(nèi)容信息來(lái)得到物品相似度,再給用戶(hù)推薦與內(nèi)容相似的物品。可以將物品表示成一個(gè)關(guān)鍵詞向量,將這些專(zhuān)有名詞和其他一些重要詞組成關(guān)鍵詞集合,最后對(duì)集合中的關(guān)鍵字進(jìn)行排名,再用TF-IDF公式[8]計(jì)算關(guān)鍵詞的權(quán)重,最后生成關(guān)鍵詞向量。

⑶ 對(duì)于新系統(tǒng)冷啟動(dòng)問(wèn)題,在沒(méi)有用戶(hù)行為數(shù)據(jù)和物品內(nèi)容信息計(jì)算相似度的情況下,可以使用專(zhuān)家標(biāo)記的方式。

用戶(hù)活躍度問(wèn)題改進(jìn),用戶(hù)活躍度能隱式地推斷用戶(hù)對(duì)未知物品喜好的可能性。本文定義用戶(hù)活躍度與其瀏覽過(guò)的物品數(shù)量成正比,那么活躍度低的用戶(hù)產(chǎn)生的用戶(hù)行為,對(duì)計(jì)算物品相似度更加有作用,這就需要懲罰用戶(hù)的活躍度。

物品流行度問(wèn)題改進(jìn),物品流行度也可以隱式地表示用戶(hù)喜好。本文定義物品流行度與瀏覽該物品的用戶(hù)數(shù)量成正比,那么冷門(mén)物品被瀏覽更能計(jì)算出用戶(hù)的相似度,因此需要懲罰物品的流行度。

4 結(jié)束語(yǔ)

本文從數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、相似度計(jì)算、算法適用場(chǎng)景這幾方面進(jìn)行了深入的研究,并將基于內(nèi)容算法與協(xié)同過(guò)濾算法進(jìn)行了比較,之后對(duì)現(xiàn)有算法存在的不足進(jìn)行改進(jìn),提高了算法的準(zhǔn)確度和覆蓋率。下一步將研究如何將基于用戶(hù)和基于物品的協(xié)同過(guò)濾算法根據(jù)不同的權(quán)重結(jié)合起來(lái),在考慮用戶(hù)相似度的同時(shí)也兼顧物品的相似度,以此提高推薦的精確度。

參考文獻(xiàn)(References):

[1] 李書(shū)寧.互聯(lián)網(wǎng)信息環(huán)境中信息超載問(wèn)題研究[J].情報(bào)科學(xué),

2005.10:149-152

[2] 項(xiàng)亮.推薦系統(tǒng)實(shí)踐(第3版)[M].人民郵電出版社,2012.

[3] 榮輝桂,火生旭,胡春華,莫進(jìn)俠.基于用戶(hù)相似度的協(xié)同過(guò)濾

推薦算法[J].通信學(xué)報(bào),2014.2:16-24

[4] 余小鵬,周德翼.一種自適應(yīng)k-最近鄰算法的研究[J].計(jì)算機(jī)

應(yīng)用研究,2006.2:70-72

[5] A Collaborative Filtering Recommendation Algorithm

Based on Item and Cloud Model[J]. Wuhan University Journal of Natural Sciences,2011.1:16-20

[6] 陳潔敏,湯庸,李建國(guó),蔡奕彬.個(gè)性化推薦算法研究[J].華南師

范大學(xué)學(xué)報(bào)(自然科學(xué)版),2014.5:8-15

[7] 王錦坤,姜元春,孫見(jiàn)山,孫春華.考慮用戶(hù)活躍度和項(xiàng)目流行

度的基于項(xiàng)目最近鄰的協(xié)同過(guò)濾算法[J].計(jì)算機(jī)科學(xué),2016.12:158-162

[8] Belkin N,Croft B. Information filtering and information

re-trieval[J]. Communications of the ACM,1992.35(12):29-37

猜你喜歡
數(shù)據(jù)采集
Web網(wǎng)絡(luò)大數(shù)據(jù)分類(lèi)系統(tǒng)的設(shè)計(jì)與改進(jìn)
CAN總線通信技術(shù)在電梯監(jiān)控系統(tǒng)中的應(yīng)用
基于大型嵌入式系統(tǒng)的污水檢測(cè)系統(tǒng)設(shè)計(jì)
社會(huì)保障一卡通數(shù)據(jù)采集與整理技巧
基于AVR單片機(jī)的SPI接口設(shè)計(jì)與實(shí)現(xiàn)
CS5463在植栽用電子鎮(zhèn)流器老化監(jiān)控系統(tǒng)中的應(yīng)用
大數(shù)據(jù)時(shí)代高校數(shù)據(jù)管理的思考
科技視界(2016年18期)2016-11-03 22:51:40
鐵路客流時(shí)空分布研究綜述
基于廣播模式的數(shù)據(jù)實(shí)時(shí)采集與處理系統(tǒng)
軟件工程(2016年8期)2016-10-25 15:54:18
通用Web表單數(shù)據(jù)采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
軟件工程(2016年8期)2016-10-25 15:52:53
主站蜘蛛池模板: 久久久久亚洲精品成人网| 欧美成人免费午夜全| 中字无码av在线电影| 777国产精品永久免费观看| 一本视频精品中文字幕| jijzzizz老师出水喷水喷出| 一区二区三区在线不卡免费| 国产又色又刺激高潮免费看| 91啪在线| 91视频区| 久久精品丝袜高跟鞋| 国产真实自在自线免费精品| 国产靠逼视频| 国产偷倩视频| 国产1区2区在线观看| 欧美国产三级| 国产在线专区| 亚洲午夜国产精品无卡| 国产视频欧美| 亚洲啪啪网| 国产专区综合另类日韩一区 | 久无码久无码av无码| 这里只有精品在线| 在线国产综合一区二区三区| 久久99精品国产麻豆宅宅| 精品国产免费观看一区| 亚洲精品无码成人片在线观看| 一级毛片免费观看不卡视频| 无码啪啪精品天堂浪潮av| 亚洲日韩精品综合在线一区二区| jijzzizz老师出水喷水喷出| 日本一本在线视频| 精品国产一区二区三区在线观看| av在线手机播放| 四虎影视永久在线精品| 日本国产精品| 中文字幕在线观看日本| 毛片免费在线视频| 精品福利网| 久操中文在线| 999国内精品久久免费视频| 女人18毛片久久| h视频在线观看网站| 看av免费毛片手机播放| a色毛片免费视频| 国产在线专区| 久久综合亚洲鲁鲁九月天| a级毛片免费网站| 一本二本三本不卡无码| 97人妻精品专区久久久久| 九九久久99精品| 中文字幕亚洲另类天堂| 尤物在线观看乱码| jizz国产视频| 精品人妻一区二区三区蜜桃AⅤ| 免费av一区二区三区在线| 精久久久久无码区中文字幕| 性69交片免费看| 中文字幕在线看视频一区二区三区| 91精品国产福利| 亚洲不卡网| 理论片一区| 十八禁美女裸体网站| 国产精品成人第一区| 无遮挡国产高潮视频免费观看| 国产欧美又粗又猛又爽老| 国产鲁鲁视频在线观看| 国产乱子精品一区二区在线观看| 1769国产精品免费视频| 福利国产微拍广场一区视频在线| 国产日韩欧美视频| 一本大道无码日韩精品影视| 婷婷五月在线| 无码日韩视频| 中文字幕色站| 四虎精品国产永久在线观看| 中文字幕在线看| 色偷偷男人的天堂亚洲av| 免费国产黄线在线观看| 中文一区二区视频| 91精品aⅴ无码中文字字幕蜜桃| 欧美色图第一页|