999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Hadoop 的大數據運營系統

2021-07-16 10:07:26高海超常祎雯楊文峰馮學偉
科學技術創新 2021年19期
關鍵詞:用戶分析

高海超 常祎雯 楊文峰 馮學偉 鄧 哲 白 濤

(延安大學 數學與計算機科學學院,陜西 延安 716000)

1 概述

當下正處于大數據時代,用戶在網絡中的各種操作都會留下數據,數據背后的價值性毋庸置疑。各行各業對挖掘數據價值的需求日益劇增。對于電商企業來說,用戶的點擊、分享、加購物車、收藏、購買等歷史數據可以對電商企業的發展和規劃起到極大地指導作用,能夠提高用戶黏度,增強用戶購物體驗,幫助企業實現更好的運營效果。

為了更好的利用數據背后的價值,可利用計算機對歷史數據進行分析。由于數據龐大,需要算力極高。可考慮采用分布式計算,以PC 機集群來對大數據進行處理,來彌補小型企業計算機性能低下的問題。同時采用分布式存儲,還能更好的對數據進行存儲及備份,提高系統容錯性。

為使用戶在購物時,能夠得到系統推薦的,更貼合用戶需求的商品。則需要對用戶的過往操作數據進行分析,通過歷史數據得出規律,并為用戶推薦合適的商品是大數據運營系統最重要的目的。本文以商品推薦為例,通過Hadoop 分布式大數據處理框架,對銷售數據以及用戶行為數據進行清洗及分析,同時還使用Spark 提供的機器學習庫中的多種算法來訓練模型,并通過模型計算得到推薦值。使得用戶在購物時,能夠從多種維度收到來自平臺的個性化推薦。以實現增強用戶的購物體驗,提高用戶黏度,進而增大平臺銷售量。

2 分布式存儲

由于本項目需要根據大量歷史數據進行分析,才能得到更好的推薦結果,面對大規模數據,采用分布式的存儲是非常有必要的。Hadoop 提供的HDFS(Hadoop distributed file system)就是一個分布式文件系統,如圖1 所示。

圖1 HDFS 結構圖

將文件默認按128M分為多個block,進而存儲在多個Data Node 節點上,每個block 默認保存3 個備份。

3 數據清洗

數據清洗部分主要依賴于Hadoop 下的MapReduce 來進行,本項目編程語言使用Java,在開發過程中,可直接用Java 調用Hadoop 接口,覆寫map 和reduce 方法,根據實際數據及需求,來對數據進行清洗和補償。

3.1 去重

在數據處理過程中,發現存在一些操作數據產生時間相同,分析是系統運行過程中被惡意訪問,或者存在刷點擊量的行為,而這些行為數據對實際數據分析毫無用處,故需要對其進行清除,這里考慮使用MapReduce 將完全相同數據只讀取其中一個,將其它的無用數據進行清除,以達到去重目的。

3.2 IP 地址補償

由于需要按地域區分用戶,并按地域進行分析,故要對IP地址進行補償。將一串IP 地址其視為256 進制數,然后將其轉為整型數,將其視為地址最大數,進而在0 和最大數中間隨機生成1 個數,再通過位運算,將其轉為IP 地址格式,即可得出隨機IP 地址。

4 數據分析

根據用戶登陸與操作情況進行分析,設用戶操作分別為瀏覽、收藏、加購、付款四種類型,分別賦值1-4 分可得用戶評分向量。

4.1 活躍用戶記錄

活躍用戶記錄可利用位圖來實現,以1 作為登錄,0 作為登錄,以此來記錄用戶的具體登錄情況。以此方法,可以將一個月的數據合并為一條數據,這樣可以極大的減少數據的空間占用,同時實現對用戶活躍度的記錄。

4.2 基于協同過濾的商品推薦

基于用戶的協同過濾,通過不同用戶對物品的評分來評測用戶之間的相似性,基于用戶之間的相似性做出推薦,如圖2 所示。

圖2 對相似用戶的物品推薦

為實現以上算法,引入Co-occurrence Matrix(同現矩陣)與User Preference Vector(用戶評分向量),以同現矩陣與用戶評分向量相乘得到Recommended Vector(推薦向量)。最后按照排序高低對用戶進行推薦,如圖3 所示。

圖3 基于協同過濾的商品推薦算法示意圖

4.3 ALS(交替最小二乘法)

直接調用Spark 的Mllib 庫中的算法實現。將用戶對商品的評分矩陣分解為2 個矩陣分別設為X 與Y。

隨機生成X,Y,固定Y,使用公式3 更新Xu,固定X,使用公式(4)更新Yi,重復交替執行公式(3)和公式(4),直到均方根誤差RMSE 收斂。ALS 算法流程圖如圖4 所示。

圖4 ALS 算法流程圖

5 結論

以HDFS 作為存儲系統,借助kafka 與flume 對數據進行采集,之后調用Spark 的Mllib,使用位圖、同現矩陣、ALS(交替最小二乘法)等算法實現了對數據進行處理與分析,并得到推薦結果。對提升用戶體驗與增強用戶黏性,做出了巨大的幫助。

猜你喜歡
用戶分析
隱蔽失效適航要求符合性驗證分析
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
電力系統及其自動化發展趨勢分析
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
中西醫結合治療抑郁癥100例分析
主站蜘蛛池模板: 日韩欧美成人高清在线观看| 国产精品国产主播在线观看| 狠狠亚洲婷婷综合色香| 国产电话自拍伊人| 国产福利一区视频| 成人福利在线观看| 国产精品亚洲专区一区| 国产精品成人AⅤ在线一二三四| 亚洲精品自拍区在线观看| 91福利片| 欧美色综合网站| 女同久久精品国产99国| 亚洲无码A视频在线| 毛片免费观看视频| 国产成人av大片在线播放| 日韩a级片视频| 亚洲人成电影在线播放| 精品三级网站| 久久精品亚洲专区| 国产色婷婷视频在线观看| 欧美日韩精品综合在线一区| 亚洲Aⅴ无码专区在线观看q| 99热这里只有精品久久免费| 成人免费视频一区| 手机在线看片不卡中文字幕| 77777亚洲午夜久久多人| 无码aaa视频| 欧美视频在线不卡| 国产免费久久精品44| 一本视频精品中文字幕| 国产成人在线无码免费视频| 国产视频a| 在线看片中文字幕| av大片在线无码免费| 久久婷婷六月| 五月婷婷伊人网| 国产91高清视频| 国产极品美女在线观看| 国产精品蜜芽在线观看| 亚洲看片网| 不卡午夜视频| 亚洲精品国偷自产在线91正片| 伊人久久婷婷| 干中文字幕| 国产欧美视频在线观看| 亚洲第一黄片大全| 久久精品91麻豆| 欧美色视频在线| 国产亚洲精品97在线观看| 伊人色天堂| 人妻一本久道久久综合久久鬼色| 亚洲一区二区约美女探花| 欧美一级在线| 亚洲精品亚洲人成在线| 在线欧美a| 欧美视频免费一区二区三区 | 日韩在线中文| 国产全黄a一级毛片| 免费看一级毛片波多结衣| 91小视频在线观看| yy6080理论大片一级久久| 亚洲伊人天堂| 91精品伊人久久大香线蕉| 国产成人无码久久久久毛片| 国产无遮挡猛进猛出免费软件| 国产性猛交XXXX免费看| 91福利片| 欧美无专区| 亚洲色欲色欲www在线观看| 青青国产在线| 国产69精品久久久久孕妇大杂乱 | 国产成人高精品免费视频| 国产在线视频导航| 日韩午夜福利在线观看| 久草中文网| 欧美中文一区| 久久综合成人| 国产免费久久精品44| 国产欧美亚洲精品第3页在线| 黄色网址免费在线| 国内精自视频品线一二区| 女人毛片a级大学毛片免费|