999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

關于推薦系統的數據存儲研究

2015-09-16 08:22:09何文娟錢亞彬
現代計算機 2015年12期
關鍵詞:用戶產品信息

徐 彬,何文娟,錢亞彬

關于推薦系統的數據存儲研究

徐彬,何文娟,錢亞彬

(河南大學計算機與信息工程學院,開封475000)

隨著互聯網的快速發展,電子商務行業的豐富化加劇,推薦系統被廣大用戶和網站運營商所接受。而隨著大數據時代的來臨,推薦系統面臨的不僅僅是對產品的需求更多的是對速度的追求,經過對傳統數據存儲算法的研究,給出基于RCFile的數據存儲來解決該類問題。

存儲;RCFile;RDSR;推薦系統

0 引言

隨著互聯網的快速發展,電子商務行業也隨之急速地發展,人們面臨著多樣化的商品選擇,這就意味著人們的選擇范圍越來越大,更多的商品是不能快速地被顧客看到的。這種電子商務的背景下,推薦系統服務正在以一種十分迅速的方式進入人們的視線,與此同時爆炸式的數據也充斥在電子商務中間,新加入用戶的數據越來越多,新加入的產品信息也越來越多,對于推薦系統來說,新用戶的加入、新的產品的加入有很多,另外針對推薦系統的推薦算法,數據的查詢也同樣需要一種合適的存儲算法來加快查詢的效率。本文將引入一種高效的存儲算法,以便于能夠更有效地處理推薦系統中的用戶和產品數據,使得推薦系統能夠更加快速地添加、查詢用戶和產品的信息。

1 國內外研究背景

目前國內外的推薦系統針對大數據的環境,通常運用開源的框架Hadoop來架構系統,用來處理大規模的數據集[1],Hadoop是由HDFS和MapReduce兩個核心部分組成,即包括了分布式文件系統和編程模型兩個部分。

MapReduce是Hadoop的數據處理部分也稱為編程模型[2],是運用在大規模的數據集合中的重要技術。MapReduce包含了兩個部分:Map(映射)和Reduce(歸約)。

2 推薦系統

2.1基本概念

推薦系統是電子商務網站通過對用戶的行為分析,給用戶提供推薦服務的系統,使得用戶能夠更快速更準確地找到適合自己的產品,這種推薦的行為是模擬銷售人員向顧客推薦產品幫助購買的過程。

推薦系統的定義為利用函數計算目標用戶的推薦度(如用戶的評價和鄰居用戶的評價等),其中需要用到所有的用戶的集合,通過函數計算出給目標用戶推薦的產品集合[3]。公式如下:

(4)應用精準化鉆井系統軟件對多口施工井進行技術方案的編寫、制定,并根據與現場實際的貼合度進行反饋和修正。

較為經常用到的推薦算法有:基于協同過濾推薦、基于內容推薦、基于關聯規則推薦、混合型推薦等。

(1)基于系統過濾推薦:提取出系統中與被推薦用戶有著相同愛好的用戶的歷史評論和購買行為,預測出被推薦用戶的可能喜歡的產品。

(2)基于內容推薦:提取出系統中被推薦用戶自己的行為,跟蹤用戶的行為數據,通過這些數據推測出用戶可能喜歡的產品。

(3)基于關聯規則推薦:提取出系統中不同產生關聯的信息,將這些信息運用到被推薦用戶的推薦中,給被推薦用戶推薦與他已經購買的產品相關聯的其他的產品。

(4)混合型推薦:鑒于這些常用的推薦算法都有一定的缺點,在實際運用中并不能達到我們的要求,因此,實際的推薦系統大多把不同的推薦算法進行結合。

2.2推薦系統數據處理要求

由于使用推薦系統的用戶需要的是能夠快速地加入系統[4],這就意味著需要一種能夠將數據快速載入的存儲方式,這種需求在大數據的環境下顯得更為重要,人們要求數據的加載時間要更加的短暫。

通過上文介紹的推薦系統的幾種推薦算法可以得知,推薦系統的推薦算法很多都是基于提取出已有的信息為基礎,將已經提取出的信息進行解析計算,來得出被推薦用戶所需要的產品,針對這樣一種情況我們需要一種能符合實時查詢請求和高并發用戶提交查詢的優化算法,這就需要底層的存儲結構能夠在查詢不斷增加時還能夠擁有較高的查詢處理速度。

3 傳統的數據處理策略

3.1行存儲

行存儲(Row-store)是目前推薦系統最常用的數據存儲結構[5],是按照行的方式儲存數據的,在推薦系統中根據用戶或者產品的加入時間,按次序將它們依次排列,在傳統的數據存儲算法中,行存儲是主要的方式,其中的數據都按一樣的格式存儲,如圖1所示。

3.2列存儲

列存儲將數據以列的方式進行存儲[6],這種存儲方式對于列的讀取有一定的優化作用,將每一列放到一個子關系中或者將相關的列放入到不同的列組(這種情況下有列組之間有重疊),如圖2所示。

圖1 

圖2 

4 基于RCFile的推薦系統數據存儲算法

本文介紹的RCFile算法是一種類似于PAX混合存儲算法的算法,先利用水平分組,再豎直分組的方式來進行存儲。與行存儲相似的地方在于,RCFile的同一行信息都在一個節點上,另外與列存儲不同的地方在于,RCFile能夠垂直地進行數據壓縮,并能不讀取不必要的列信息,如圖3所示。

4.1算法原理

推薦系統在大數據環境下由于其新加入用戶數量龐大,和產品的數量龐大這一特征,在數據的存儲和查詢中會產生很多的數據,如果數據過多會導致網絡堵塞,無法快速地處理數據,有時也有可能造成數據丟失,這就使得之后的數據分析算法不夠準確。本文基于存儲特征數據的推薦系統的特點,針對協同過濾算法提出了一種基于RCFile的推薦系統數據存儲算法(Recommender System Data Storage based on RCFile,RDSR)。RDSD算法的基本思想是:針對協同過濾算法將用戶的評價信息按照相同的數據類型,先按照行的存儲方式存儲,使同一類數據放在同一個節點上,然后,使用列存儲的優勢將每個列分開獨立壓縮,并在讀取數據時能夠跳過不必要的列。

圖3 

4.2數據集的選擇

為了驗證本文提出的基于RC Flies的推薦系統數據存儲的算法的改進,本文在DataNode節點固定的條件下,不同用戶moviepilot數據輸入測試系統,本部分實驗分為四個不同的數據集的數量進行。首先,以用戶為單位從Moviepilot數據庫中分別抽取100個用戶、200個用戶、500個用戶、1000個用戶和2000個用戶,以此作為本節實驗的測試數據集,選取的數據集中包含了上萬部電影以及用戶對電影的評分(評分及評價的電影數量都不同)。

4.3實驗結果分析

對于上文中提到的數據,使用行存儲、列存儲和RCFile存儲,分別對數據運行協同過濾推薦算法,得出了不同的數據集在不同節點上的對比時間,具體結果如圖4:

圖4 

根據上圖所示我們可以很清楚地看出本文所提到的基于RCFile的RDSR算法,相比于行存儲和列存儲在數據量越來越大的情況下有很明顯的優勢,這能夠很好地驗證本文提出的觀點。

5 結語

本文給出了基于RCFile的推薦系統數據存儲的研究,選擇了基于RCFile的RDSR算法,與行存儲和列存儲進行比較,得出的結果是RDSR算法能夠使得推薦系統能夠更快速的使用推薦算法。該算法能夠在一定情況下解決推薦系統所面臨的實際問題具有一定的實際意義。

[1]于利勝,張延松,王珊等.基于行存儲模型的模擬列存儲策略研究.計算機研究與展.ISSN100021239/CN1121777/TP 47(5): 8782885,2010

[2]Goldberg D,Nichols D,Oki BM,et al.Using Collaborative Filtering to Weave an Information Tapesty[J].Communications of the ACM 2002,35(12):61~70

[3]Konstan JA,Miller BN,Maltz D,et al.GroupLens:Applying Collaborative Filtering to Usenet News[J].Communications of the ACM, 2012,40(3):77~78

[4]Goldberg K.Roeder T,Gupta D,et al.Eigentaste:A Constant Time Collaboratve Filtering Algorithm[J].Information Retrieval J,2009,4(2):133~151

[5]S.Ghemawat.H.Gobioff,S,Leung.The Google File System[C].In Proc.of ACM Symposium on Operating Systems Principles,Lake George, NY,Oct 2003:29~43

[6]Lith,Adam,Mattsson,Jakob.Investigating Storage Solutions for Large Data-A Comparison of Well Performing and Scalable Data Storage Solutions for Real Time Extraction and Batch Insertion of Data,2010

Storage;RCFile;RDSR;Recommendation System

Research on Data Store of Recommendation System

XU Bin,HE Wen-juan,QIAN Ya-bin

(College of Computer and Information Engineering,Henan University,Kaifeng 475000)

With the development of Internet,e-commerce industry increases rapidly,recommendation system is accepted by users and Website operators.With the advent of the era of big data,the recommendation system faces more than just demand for the speed of product,through the study of traditional data storage algorithm,gives RCFile based data storage to solve the issues.

1007-1423(2015)12-0030-04

10.3969/j.issn.1007-1423.2015.12.007

徐彬(1966-),男,河南新鄉人,高級工程師,本科,研究方向為電子商務

何文娟(1988-),女,河南開封人,在讀研究生,研究方向為計算機應用技術

錢亞彬(1990-),男,河南開封人,在讀研究生,研究方向為計算機技術

2015-03-26

2015-04-03

猜你喜歡
用戶產品信息
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
2015產品LOOKBOOK直擊
Coco薇(2015年1期)2015-08-13 02:23:50
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
新產品
玩具(2009年10期)2009-11-04 02:33:14
產品
個人電腦(2009年9期)2009-09-14 03:18:46
下一個酷產品是什么
舒適廣告(2008年9期)2008-09-22 10:02:48
主站蜘蛛池模板: 国产屁屁影院| 亚洲美女久久| 成人午夜福利视频| 亚洲狼网站狼狼鲁亚洲下载| 日韩精品无码免费一区二区三区 | 亚洲精品成人片在线观看 | 国产一区成人| 国产男女XX00免费观看| 老色鬼久久亚洲AV综合| 成人精品午夜福利在线播放| 夜色爽爽影院18禁妓女影院| 天天做天天爱夜夜爽毛片毛片| 无码'专区第一页| 啪啪永久免费av| 伊人国产无码高清视频| 尤物亚洲最大AV无码网站| 免费精品一区二区h| 日本91在线| 国产精选自拍| 91小视频在线播放| 国产成人精品在线| 亚洲一级毛片| 亚洲国产精品美女| 亚洲精品综合一二三区在线| 国产麻豆91网在线看| 五月婷婷导航| 欧美a在线看| 色悠久久综合| 天天躁夜夜躁狠狠躁图片| 无码AV动漫| 国产成人精品男人的天堂下载| 欧美精品成人一区二区视频一| 少妇精品在线| 国产95在线 | 99久久精品视香蕉蕉| 久久综合干| 国产精品天干天干在线观看| 欧美日韩成人| 亚洲黄色网站视频| 国产91九色在线播放| 国产女人18水真多毛片18精品| 国产精品性| 亚洲综合狠狠| 国产欧美另类| 久久99国产精品成人欧美| 夜夜拍夜夜爽| 婷婷伊人五月| 欧美成人第一页| 国产一区二区三区精品欧美日韩| 538国产在线| 久久精品人人做人人| 狠狠做深爱婷婷综合一区| 日韩国产欧美精品在线| 欧美午夜小视频| 国产啪在线| 日韩午夜福利在线观看| 国产综合精品一区二区| 亚洲男人在线天堂| 国产中文一区a级毛片视频| 老汉色老汉首页a亚洲| 亚洲国产精品无码久久一线| 好紧太爽了视频免费无码| 国产美女在线观看| 99热这里只有精品免费国产| 女人一级毛片| 91精品国产自产在线观看| 欧美中文字幕第一页线路一 | 国产人碰人摸人爱免费视频| 四虎在线观看视频高清无码| 国产人妖视频一区在线观看| 国产一级精品毛片基地| 九九视频免费在线观看| JIZZ亚洲国产| 久久久久人妻精品一区三寸蜜桃| 亚洲精品第1页| 国产精品深爱在线| av天堂最新版在线| 99资源在线| 国产视频自拍一区| 看av免费毛片手机播放| 热这里只有精品国产热门精品| 久久99国产精品成人欧美|