999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于華為大數(shù)據(jù)平臺的車輛銷售數(shù)據(jù)分析應(yīng)用

2019-03-05 01:37:56劉磊蔡欣樺許銳強
現(xiàn)代計算機 2019年3期
關(guān)鍵詞:銷售數(shù)據(jù)庫汽車

劉磊,蔡欣樺,許銳強

(廣東開放大學(xué),廣州510000;廣東理工職業(yè)學(xué)院,廣州510000)

1 分析背景

隨著云計算、大數(shù)據(jù)、人工智能等技術(shù)的飛速發(fā)展和應(yīng)用,各行各業(yè)產(chǎn)生的數(shù)據(jù)規(guī)模也呈爆炸性增長,通過使用大數(shù)據(jù)平臺對海量的行業(yè)數(shù)據(jù)信息進行分析挖據(jù),提取出有價值的信息,對市場決策起到輔助作用。各行業(yè)通過各種不同方式產(chǎn)生的大量數(shù)據(jù),堆積起來達到一定規(guī)模,可以構(gòu)成大數(shù)據(jù),大數(shù)據(jù)分析就是利用特定平臺對規(guī)模巨大的數(shù)據(jù)進行分析挖掘,找到相關(guān)因素之間的關(guān)系。例如大數(shù)據(jù)分析可以讓超市使用通過收集到的大數(shù)據(jù)來研究消費者的習(xí)慣,根據(jù)分析結(jié)果更合理地擺放商品的位置以增加銷售量,從而為公司帶來更高的利潤。本文分析的是汽車銷售數(shù)據(jù),汽車銷售是消費者支出的重要組成成分,也是了解一個國家經(jīng)濟循環(huán)強弱情況的第一手資料,早于其他個人消費數(shù)據(jù)的公布,汽車銷售為隨后的零售額和個人消費支出提供了很好的預(yù)示作用,汽車消費額占零售額的25%和整個銷售總額的8%。本文使用華為大數(shù)據(jù)平臺,從三個角度對汽車銷售數(shù)據(jù)進行分析,并對分析結(jié)果進行可視化展示,非常直觀地展現(xiàn)數(shù)據(jù)價值。

2 華為大數(shù)據(jù)平臺

華為大數(shù)據(jù)平臺FusionInsight HD 是華為企業(yè)級大數(shù)據(jù)存儲、查詢、分析的統(tǒng)一平臺,通過分布式部署,對外提供大容量的數(shù)據(jù)存儲、查詢和分析能力,能夠快速構(gòu)建海量數(shù)據(jù)信息處理系統(tǒng),對海量信息數(shù)據(jù)實時與非實時的分析挖掘,F(xiàn)usionInsight HD 兼容開源Hadoop 框架及眾多組件,是完全開放的大數(shù)據(jù)平臺,可運行在開放的x86 架構(gòu)服務(wù)器上。FusionInsight HD 系統(tǒng)的邏輯架構(gòu)如圖1 所示。

圖1 FusionInsight HD系統(tǒng)邏輯架構(gòu)圖

FusionInsight HD 對開源組件進行封裝和增強,包含了管理系統(tǒng)Manager 和眾多組件,常用功能如下:

(1)Manager:運維管理系統(tǒng),為FusionInsight HD提供高可靠、安全、容錯、易用的集群管理能力,支持大規(guī)模集群的安裝部署、監(jiān)控、告警、用戶管理、權(quán)限管理、審計、服務(wù)管理、健康檢查、問題定位、升級和補丁等;

(2)Loader:實現(xiàn)FusionInsight HD 與關(guān)系型數(shù)據(jù)庫、文件系統(tǒng)之間交換數(shù)據(jù)和文件的加載工具;同時提供REST API 接口,供第三方調(diào)度平臺調(diào)用。Loader支持關(guān)系型數(shù)據(jù)庫和HDFS、HBase、Hive 表等之間的互相導(dǎo)入導(dǎo)出。本文采用Loader 對加載和導(dǎo)出數(shù)據(jù)。

(3)Hive:建立在Hadoop 基礎(chǔ)上的開源的數(shù)據(jù)倉庫,提供類似SQL 的Hive Query Language 語言(HQL)操作結(jié)構(gòu)化數(shù)據(jù)存儲服務(wù)和基本的數(shù)據(jù)分析服務(wù)。本文采用HQL 對數(shù)據(jù)進行分析。

(4)MapReduce:提供快速并行處理大量數(shù)據(jù)的能力,是一種分布式數(shù)據(jù)處理模式和執(zhí)行環(huán)境。本文采用Python 編寫MapReduce 程序?qū)?shù)據(jù)進行清洗。

(5)HDFS:Hadoop 分布式文件系統(tǒng)(Hadoop Distributed File System),提供高吞吐量的數(shù)據(jù)訪問,適合大規(guī)模數(shù)據(jù)集方面的應(yīng)用。

(6)HBase:提供海量數(shù)據(jù)存儲功能,是一種構(gòu)建在HDFS 之上的分布式、面向列的存儲系統(tǒng)。

3 分析方案設(shè)計

基于大數(shù)據(jù)平臺對海量數(shù)據(jù)分析展示一般分步進行,本文對汽車銷售數(shù)據(jù)分析設(shè)計的方案如下:

(1)獲取源數(shù)據(jù):本文汽車銷售數(shù)據(jù)來源于互聯(lián)網(wǎng),可以通過大數(shù)據(jù)交易、API 接口、網(wǎng)絡(luò)爬蟲、統(tǒng)計圖表等方式獲取源數(shù)據(jù)。

(2)分析源數(shù)據(jù):源數(shù)據(jù)拿到后,根據(jù)定下的分析角度,分析源數(shù)據(jù)字段是否全部滿足分析角度的需求,是否有臟數(shù)據(jù),是否需要數(shù)據(jù)清洗,本文從三個角度分析:行業(yè)市場分析、用戶市場分析、不同品牌市場分析。

(3)加載源數(shù)據(jù):使用ETL 工具將源數(shù)據(jù)導(dǎo)入HDFS,這里采用Loader 組件將數(shù)據(jù)從關(guān)系型數(shù)據(jù)庫導(dǎo)入Hive 表。

(4)數(shù)據(jù)預(yù)處理:源數(shù)據(jù)通常包含臟數(shù)據(jù),不能直接用來分析,需要根據(jù)需求進行預(yù)處理,包括數(shù)據(jù)清洗,缺省值填充,數(shù)據(jù)選擇,數(shù)據(jù)變換,數(shù)據(jù)集成等。

(5)HQL 分析:對預(yù)處理后的數(shù)據(jù),使用HQL 語言進行分析,HQL 可以查詢和分析存儲在Hadoop 中的大規(guī)模數(shù)據(jù),使用HQL 可以快速方便地進行MapReduce 統(tǒng)計。

(6)Python 分析:使用Python 編寫MapReduce 程序進行數(shù)據(jù)清洗和可視化呈現(xiàn)分析結(jié)果。

(7)導(dǎo)出分析結(jié)果:使用Loader 工具將分析結(jié)果從HDFS 導(dǎo)出到關(guān)系型數(shù)據(jù)庫,為Web 系統(tǒng)應(yīng)用提供大數(shù)據(jù)分析結(jié)果。

圖2 分析方案示意圖

4 源數(shù)據(jù)分析

本文收集到的汽車銷售數(shù)據(jù),包含銷售信息和具體參數(shù)信息,數(shù)據(jù)包括汽車生產(chǎn)地點、生產(chǎn)時間、車輛型號、品牌、車輛類型、排量、油耗、功率、發(fā)動機型號、燃料種類、車外廓長寬高、軸距、前后車輪、輪胎規(guī)格、輪胎數(shù)、載客數(shù)、購買人相關(guān)信息等,共70 萬條記錄,樣例數(shù)據(jù)如圖3。

圖3 源數(shù)據(jù)樣例

這些源數(shù)據(jù)存儲在關(guān)系型數(shù)據(jù)庫MySQL 中,定義表名為te_bd_sp,通過分析源數(shù)據(jù),使用Loader 工具加載轉(zhuǎn)換時,做出處理:①第一行為字段,數(shù)據(jù)無效,去除第一行;②具體參數(shù)對于后面的分析角度無用,去除一些具體參數(shù)字段。處理后的源數(shù)據(jù)格式,如表1 所示。

5 數(shù)據(jù)預(yù)處理

高質(zhì)量的大數(shù)據(jù)分析要基于高質(zhì)量的數(shù)據(jù),但是源數(shù)據(jù)通常存在部分臟數(shù)據(jù),例如數(shù)據(jù)不完整、數(shù)據(jù)存在錯誤或異常、數(shù)據(jù)內(nèi)容不一致等。這時要根據(jù)分析需求預(yù)先進行數(shù)據(jù)清洗。數(shù)據(jù)清洗是清除錯誤和不一致數(shù)據(jù)的過程,在數(shù)據(jù)挖掘過程中,數(shù)據(jù)清洗是第一步驟,即對數(shù)據(jù)進行預(yù)處理的過程,數(shù)據(jù)是不完整、有噪聲和不一致的,數(shù)據(jù)清洗的任務(wù)是過濾或者修改那些不符合要求的數(shù)據(jù),數(shù)據(jù)清洗的目的是為分析提供準(zhǔn)確而有效地數(shù)據(jù),提高分析效率。

表1 處理后的源數(shù)據(jù)格式

通過分析汽車銷售數(shù)據(jù),發(fā)現(xiàn)存在內(nèi)容缺失的數(shù)據(jù)行,部分省份信息缺失的數(shù)據(jù)行內(nèi)容殘缺,影響后面的數(shù)據(jù)分析,因此對省份缺失的數(shù)據(jù)也進行過濾。編寫MapReduce 程序進行數(shù)據(jù)清洗,清洗過程由Mapper負(fù)責(zé),Reducer 則負(fù)責(zé)把清洗后的數(shù)據(jù)輸出,使用Python 編寫代碼。

Mapper 部分代碼如下:

使用以下語句執(zhí)行MapReduce 程序:

yarn jar godlike/Yarn/hadoop/share/hadoop/tools/lib/hadoop-streaming-2.7.2.jar-file data_analysis_map_version_3.py,data_analysis_reduce_version_3.py -mapper data_analysis_map_version_3.py-reducer data_analysis_reduce_version_3.py-input/tenant/user04/data/*-output/tenant/user04/opt

6 HQL分析

Hive 是基于Hadoop 的數(shù)據(jù)倉庫基礎(chǔ)構(gòu)架,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,提供了一種存儲、查詢和分析Hadoop 中的大規(guī)模數(shù)據(jù)的機制。Hive 定義了簡單的類SQL 查詢語言,稱為HQL,它允許熟悉SQL 的用戶查詢數(shù)據(jù),可以將HQL 語句轉(zhuǎn)換為MapReduce 任務(wù)進行運行。其優(yōu)點是學(xué)習(xí)成本低,可以通過類SQL 語句快速實現(xiàn)簡單的MapReduce 統(tǒng)計,不必開發(fā)專門的MapReduce 應(yīng)用,十分適合數(shù)據(jù)倉庫的統(tǒng)計分析。同時,這個語言也允許熟悉MapReduce的開發(fā)者開發(fā)自定義的mapper 和reducer 來處理內(nèi)建的程序無法完成的復(fù)雜分析工作。

Hive 中所有的數(shù)據(jù)都存儲在HDFS 中,支持textfile、Sequencefile、Rcfile 等數(shù)據(jù)格式。使用Hive 創(chuàng)建表的時候,需要設(shè)定數(shù)據(jù)中的列分隔符和行分隔符,這樣才能將數(shù)據(jù)正確導(dǎo)入Hive 表。

車輛銷售數(shù)據(jù)創(chuàng)建Hive 表語句如下:

create table table_name(sp_id int,province string,month int,dc string,qx string,year int,car_type string,manufacturer string,pinpai string,leixing string,suoyouquan string,xingzhi string,nums int,fdj_type string,pailiang string gonglv int,ry_type string,fdjqy string,car_name string,1age int,sex string)row format delimited fields terminated by‘,’lines terminated by‘ ’;

使用load 將清洗完的數(shù)據(jù)導(dǎo)入Hive 表,語句為:

load data inpath‘/tenant/user04/opt5/part-00000’into table te_bd_sp;

下面使用HQL 從三個角度分析車輛銷售數(shù)據(jù):

(1)汽車行業(yè)市場分析

例如統(tǒng)計山西省2013 年每個月的汽車銷售數(shù)量的比例,需要的字段為省、年、月、銷量,先統(tǒng)計出總銷量,再統(tǒng)計出2013 年每個月的銷量,兩表進行join 操作,計算出比例,分析語句如下:

select t2.m as`月`,CONCAT(ROUND(t2.n/t1.r1*100,2),'','%')as`比例`from(select sum(nums)r1 from te_bd_sp where province='山西省'and year='2013')t1 join(select month m,sum(nums)n from te_bd_sp where province='山西省'and year='2013'group by month)t2 on 1=1;

運行結(jié)果如圖4 所示。

(2)用戶市場分析:

例如統(tǒng)計買車的人的性別比例,需要的字段為性別、主鍵,先統(tǒng)計出所有的銷售數(shù)量,再按性別分組統(tǒng)計出銷售數(shù)量,兩表進行join 操作,計算出比例,分析語句如下:

select(case when t2.m='男性 'then'男性'when t2.m='女性 'then'女性'else'無性別'end)as`性別`,CONCAT(ROUND(t2.n/t1.r1*100,2),'','%')as`比例`from(select count(sp_id)r1 from te_bd_sp) t1 join (select sex m,count(sp_id) n from te_bd_sp group by sex)t2 on 1=1;

圖4 汽車行業(yè)市場分析

圖5 用戶市場分析

(3)不同品牌市場分析:

例如統(tǒng)計五菱在2013 年每個月的銷售量和增長率,需要的字段為品牌、年、月、銷量,增長率計算公式為:(本月銷量-上月銷量)/上月銷量*100%,先統(tǒng)計出每個月的銷量,再使用Hive 窗口函數(shù)LAG(col,n,DEFAULT)獲取上月銷量,計算出增長率,分析語句如下:

select month as`月`,sum(nums)as`銷售量`,CONCAT(ROUND((sum(nums)-lag(sum(nums),1,0)over(order by month))/(lag(sum(nums),1,0)over(order by month))*100,2),'','%')as`增長率`from te_bd_sp where pinpai='五菱'and year='2013'group by month;

運行結(jié)果如圖6 所示。

7 Python分析

將大數(shù)據(jù)分析結(jié)果導(dǎo)入關(guān)系型數(shù)據(jù)庫,使用Python 代碼編寫程序,從數(shù)據(jù)庫讀取數(shù)據(jù),呈現(xiàn)可視化結(jié)果。

圖6 不同品牌市場分析

以統(tǒng)計山西省2013 年每個月的汽車銷售數(shù)量的比例結(jié)果為例,使用Python 編寫關(guān)鍵代碼如下:

(1)分析每個月的汽車銷售比例,按每月比例組成的餅圖如圖7 所示。

圖7 餅圖

(2)分析買車人的性別比例,有部分沒填性別,顯示時設(shè)置為無性別,所形成柱狀圖如圖8 所示:

圖8 柱狀圖

(3)分析五菱在2013 年每月增長趨勢,形成折線圖如圖9 所示。

圖9 折線圖

8 結(jié)語

傳統(tǒng)行業(yè)產(chǎn)生的海量數(shù)據(jù)正呈指數(shù)性增長,如何從這么大規(guī)模的數(shù)據(jù)量中分析挖掘出有價值的信息,這給技術(shù)帶來了挑戰(zhàn)。隨著大數(shù)據(jù)平臺的日漸成熟和普及,能夠輕松實現(xiàn)TB 級數(shù)據(jù)的存儲、PB 級數(shù)據(jù)的查詢分析,為海量數(shù)據(jù)的分析預(yù)測提供了技術(shù)手段。本文基于業(yè)界流行的華為大數(shù)據(jù)平臺,對車輛銷售數(shù)據(jù)進行了三個角度的分析,先進行數(shù)據(jù)清洗,再使用HQL語言做統(tǒng)計分析,最后使用Python 可視化分析結(jié)果,為基于大數(shù)據(jù)平臺的分析應(yīng)用提供了參考。

猜你喜歡
銷售數(shù)據(jù)庫汽車
這四個字決定銷售成敗
汽車的“出賣”
數(shù)據(jù)庫
財經(jīng)(2017年2期)2017-03-10 14:35:35
數(shù)據(jù)庫
財經(jīng)(2016年15期)2016-06-03 07:38:02
汽車們的喜怒哀樂
數(shù)據(jù)庫
財經(jīng)(2016年3期)2016-03-07 07:44:46
數(shù)據(jù)庫
財經(jīng)(2016年6期)2016-02-24 07:41:51
3D 打印汽車等
決策探索(2014年21期)2014-11-25 12:29:50
銷售統(tǒng)計
中國化妝品(2003年6期)2003-04-29 00:00:00
銷售統(tǒng)計
中國化妝品(2003年3期)2003-04-29 00:00:00
主站蜘蛛池模板: 亚洲AⅤ综合在线欧美一区| 欧美色图第一页| 色久综合在线| 尤物视频一区| 日本少妇又色又爽又高潮| 人人妻人人澡人人爽欧美一区| 亚洲第一成年网| 亚洲国产黄色| 亚洲第一中文字幕| 天天综合网色中文字幕| 成年人视频一区二区| 国产日韩精品欧美一区灰| 国产成人久视频免费| 国模视频一区二区| 亚洲一区二区成人| 日韩无码黄色| 久久频这里精品99香蕉久网址| 欧美第九页| 97一区二区在线播放| 国产欧美视频一区二区三区| 久久久久人妻精品一区三寸蜜桃| 五月婷婷综合网| 成人亚洲国产| 99精品免费欧美成人小视频| 免费一看一级毛片| 激情乱人伦| 国产91丝袜在线播放动漫 | 99久久精彩视频| 亚洲综合专区| 国产成人永久免费视频| 久久久四虎成人永久免费网站| 中国精品自拍| 99人体免费视频| 日韩视频免费| 亚洲第一黄片大全| 色偷偷一区二区三区| 97在线碰| 久久这里只精品国产99热8| 亚洲天堂免费在线视频| 亚洲av日韩av制服丝袜| 国内熟女少妇一线天| 人人91人人澡人人妻人人爽 | 成人精品在线观看| 精品一区二区三区自慰喷水| 国产精品露脸视频| 99精品视频播放| 日本www色视频| 在线国产资源| 久久久久88色偷偷| 白浆视频在线观看| 国产欧美网站| 19国产精品麻豆免费观看| 久久永久精品免费视频| 久久久久中文字幕精品视频| 日本手机在线视频| 欧美在线导航| 在线中文字幕网| 无码精品国产dvd在线观看9久| 亚洲第一国产综合| 欧美 国产 人人视频| 午夜日韩久久影院| 亚洲AV无码一区二区三区牲色| 丰满人妻久久中文字幕| 免费一级毛片在线观看| 草逼视频国产| 午夜精品久久久久久久无码软件 | 扒开粉嫩的小缝隙喷白浆视频| 国产自在线拍| av无码一区二区三区在线| 亚洲一区二区约美女探花| 99re视频在线| 免费一级无码在线网站| 国产在线八区| 色视频国产| 亚洲第一成年网| 黄色一级视频欧美| 国产福利微拍精品一区二区| 亚洲狼网站狼狼鲁亚洲下载| 国产欧美日本在线观看| 国产精品永久在线| 日日碰狠狠添天天爽| 四虎影视8848永久精品|