999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Hadoop平臺(tái)的數(shù)據(jù)清洗研究

2020-04-24 14:50:40范會(huì)麗彭寧任薇
電腦知識(shí)與技術(shù) 2020年5期

范會(huì)麗 彭寧 任薇

摘要:各行各業(yè)數(shù)據(jù)的指數(shù)級(jí)增長,導(dǎo)致數(shù)據(jù)倉庫建設(shè)管理,數(shù)據(jù)庫中知識(shí)發(fā)現(xiàn)和總體數(shù)據(jù)質(zhì)量管理中涉及的重復(fù)數(shù)據(jù)、數(shù)據(jù)值缺失、錯(cuò)誤記錄、沒有意義的異常值等數(shù)據(jù)問題越來越棘手。這三個(gè)領(lǐng)域也是數(shù)據(jù)清洗的主要領(lǐng)域。基于當(dāng)前現(xiàn)狀,結(jié)合當(dāng)前各大企業(yè)數(shù)據(jù)處理的平臺(tái),利用Hadoop平臺(tái)中的相關(guān)組件對(duì)企業(yè)中的完全重復(fù)的數(shù)據(jù)和相似重復(fù)的數(shù)據(jù)進(jìn)行清洗研究。

關(guān)鍵詞:Hadoop平臺(tái);數(shù)據(jù)清洗;完全重復(fù)數(shù)據(jù);相似重復(fù)數(shù)據(jù)

中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2020)05-0027-02

開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

數(shù)據(jù)清洗(Data Cleaning)旨在提高數(shù)據(jù)質(zhì)量,為后續(xù)數(shù)據(jù)的使用做準(zhǔn)備,主要應(yīng)用在數(shù)據(jù)倉庫建設(shè)管理,數(shù)據(jù)庫中知識(shí)發(fā)現(xiàn)和總體數(shù)據(jù)質(zhì)量管理3個(gè)領(lǐng)域[1]。數(shù)據(jù)清洗主要是對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,通過判斷識(shí)別,得到數(shù)據(jù)集含有的諸如錯(cuò)誤,無效,重復(fù)的數(shù)據(jù)等,再填補(bǔ)空值,最大可能地保證在數(shù)據(jù)真正使用和分析應(yīng)用前的正確性,從而提高數(shù)據(jù)決策的質(zhì)量。互聯(lián)網(wǎng)的普及給人類的生活帶來了極大的便利,但是人類產(chǎn)生的龐大數(shù)據(jù)也給互聯(lián)網(wǎng)的發(fā)展以及人類對(duì)互聯(lián)網(wǎng)的使用帶來了各種問題。以數(shù)據(jù)倉庫為例,數(shù)據(jù)倉庫中數(shù)據(jù)的存儲(chǔ),數(shù)據(jù)庫中知識(shí)發(fā)現(xiàn)的復(fù)雜度以及數(shù)據(jù)冗余度的上升等。為了解決類似問題,結(jié)合我國目前很多大型企業(yè)使用的大數(shù)據(jù)架構(gòu)都是Hadoop架構(gòu),因此本實(shí)驗(yàn)采用Hadoop架構(gòu)進(jìn)行完全重復(fù)數(shù)據(jù)和相似重復(fù)數(shù)據(jù)的處理,達(dá)到提高數(shù)據(jù)質(zhì)量。

1 研究內(nèi)容

Hadoop是由Apache基金會(huì)開發(fā)的一個(gè)開源的分布式系統(tǒng)基礎(chǔ)架構(gòu),主要是對(duì)大文件(GB級(jí)別及以上)進(jìn)行存儲(chǔ)和管理[2]。它的主要功能是利用分布式架構(gòu)來存儲(chǔ)海量數(shù)據(jù)和實(shí)現(xiàn)分布式的計(jì)算。Hadoop架構(gòu)具有極好的可擴(kuò)展性和可用性[3]。Ha—doop的可擴(kuò)展性是由于其自身可以通過增加廉價(jià)的服務(wù)器個(gè)數(shù)從而增加整個(gè)集群的數(shù)據(jù)存儲(chǔ)量和提高集群的并行計(jì)算數(shù)據(jù)的速度。Hadoop的可用性是因?yàn)槠渥陨淼母北緳C(jī)制。在完全分布式的集群中,每個(gè)存儲(chǔ)數(shù)據(jù)的block(HDFS設(shè)計(jì)的存儲(chǔ)數(shù)據(jù)的基本單元是數(shù)據(jù)塊)的副本都有3個(gè)。當(dāng)其中一個(gè)副本丟失時(shí),集群中的DataNode利用心跳機(jī)制中NameNode發(fā)送的指令,通過管道進(jìn)行副本的復(fù)制,從而保證副本數(shù)量。Hadoop生態(tài)系統(tǒng)如下圖所示:

HDFS(Hadoop Distributed File System):來源于《Coogle FileSystem》的一個(gè)高吞吐量的分布式文件系統(tǒng)。HDFS提供高吞吐率來訪問數(shù)據(jù),適合具有海量數(shù)據(jù)的應(yīng)用需求[4],HDFS的主要功能就是提供一個(gè)存儲(chǔ)系統(tǒng),用來存儲(chǔ)海量數(shù)據(jù),未經(jīng)處理的數(shù)據(jù)和經(jīng)過處理的數(shù)據(jù)。

MapReduce:谷歌工程師開發(fā)的分布式計(jì)算模型。主要用于大規(guī)模數(shù)據(jù)的并行計(jì)算。MapReduce框架的節(jié)點(diǎn)由Job-Tracker和TaskTracker組成。JobTracker對(duì)人物進(jìn)行調(diào)度,管理多個(gè)TaskTracker;TaskTracker負(fù)責(zé)執(zhí)行任務(wù)。MapReduce處理數(shù)據(jù)是先經(jīng)過map處理,然后再經(jīng)過reduce處理。Map處理通過map函數(shù)自定義規(guī)則,將輸入值映射為key-value鍵值對(duì),再給reduce函數(shù)處理,reduce函數(shù)也根據(jù)需求自定義規(guī)則,將keyhash值相同的value進(jìn)行合并處理得到最終結(jié)果。本課題中,reduce階段處理輸出的結(jié)果再次存到HDFS中。

ZooKeeper:分布式的協(xié)調(diào)服務(wù)框架,主要解決分布式系統(tǒng)中數(shù)據(jù)的一致性問題。數(shù)據(jù)的一致性主要由Zookeeper的ZAB協(xié)議和過半原則來保證。Zookeeper類似于一個(gè)動(dòng)物管理員,對(duì)hadoop系統(tǒng)中的各個(gè)組件進(jìn)行協(xié)調(diào)管理。

Hive:分布式數(shù)據(jù)倉庫工具,提供數(shù)據(jù)整理、特殊查詢和分析存儲(chǔ)數(shù)據(jù)等功能。采用類似soL的操作語言HQL,通過編譯器底層轉(zhuǎn)化為MapReduce任務(wù)執(zhí)行。擁有針對(duì)大型數(shù)據(jù)集的查詢功能[5]。

本實(shí)驗(yàn)中,主要涉及Hadoop的核心模塊是HDFS和Ma-pReduce。HDFS提供大量數(shù)據(jù)存儲(chǔ)的地方,MapReduce提供分布式計(jì)算的程序設(shè)計(jì)需要的編程接口,編寫集群分布式并行程序,計(jì)算數(shù)據(jù)。

實(shí)驗(yàn)過程中搭建的Hadoop集群如圖2所示。

2 技術(shù)方案

對(duì)于完全重復(fù)的數(shù)據(jù)的處理,實(shí)驗(yàn)中的Hadoop平臺(tái)是利用3臺(tái)CentOs系統(tǒng)的虛擬機(jī)搭建的一個(gè)小型Hadoop集群。其中涉及了Hadoop中的HDFS組件進(jìn)行大量數(shù)據(jù)的存儲(chǔ),使用MapReduce編寫程序進(jìn)行完全重復(fù)數(shù)據(jù)的清洗處理;然后將處理后的沒有完全重復(fù)數(shù)據(jù)但是包含相似重復(fù)數(shù)據(jù)的文件再次存儲(chǔ)到HDFS中,為后續(xù)算法的處理做準(zhǔn)備。

對(duì)于相似重復(fù)數(shù)據(jù)的處理,采用的是Windows 7系統(tǒng),運(yùn)行內(nèi)存8GB,使用Anaconda和Pvcharm的python語言環(huán)境。本文改進(jìn)的是編輯距離算法。并對(duì)改進(jìn)前和改進(jìn)后的編輯距離算法的處理結(jié)果進(jìn)行對(duì)比及反復(fù)調(diào)優(yōu),使能夠得到最理想的效果。

參考文獻(xiàn):

[1]葉鷗,張璨,李軍懷,中文數(shù)據(jù)清洗研究綜述[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(14):121-129.

[2] http://hadoop.apache.org/

[3]李元亨,鄒學(xué)玉.Hadoop綜述[Jl.電腦知識(shí)與技術(shù),2018(3):8-19.

[4]李亞.智能電網(wǎng)大數(shù)據(jù)在線分析與決策系統(tǒng)研究[Dl.北京:華北電力大學(xué),2017.

[5]曾新勵(lì).基于Hadoop平臺(tái)的分布式web日志分析系統(tǒng)的研究與實(shí)現(xiàn)[D].西南石油大學(xué),2017.

【通聯(lián)編輯:唐一東】(上接第6頁)健康水平。與外部社交數(shù)據(jù)不同,來自傳感器的大數(shù)據(jù)公司可直接管理。

4 小結(jié)

大數(shù)據(jù)具有眾多特性,導(dǎo)致傳統(tǒng)的處理方式無法對(duì)其進(jìn)行分析,本文主要介紹了幾個(gè)有代表性大數(shù)據(jù)處理系統(tǒng),介紹了機(jī)器學(xué)習(xí)、可視化分析等大數(shù)據(jù)分析技術(shù),并對(duì)大數(shù)據(jù)在幾個(gè)行業(yè)中的應(yīng)用進(jìn)行了簡單的介紹。

參考文獻(xiàn):

[1]程學(xué)旗,靳小龍,王元卓,等,大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報(bào),2014,25(9):1889-1908.

[2]何清,李寧,羅文娟,等,大數(shù)據(jù)下的機(jī)器學(xué)習(xí)算法綜述[J].模式識(shí)別與人工智能,2014,27(4):327-336.

[3]路晶,大數(shù)據(jù)可視分析研究綜述[J].科技展望,2015,25(16):20.

[4]沈榮,張保文.大數(shù)據(jù)分析和大數(shù)據(jù)處理技術(shù)研究綜述[J].電腦知識(shí)與技術(shù),2019,15(11):13-16.

[5]武永成.基于云計(jì)算的大數(shù)據(jù)處理與分析綜述[J].軟件導(dǎo)刊,2016,15(12):161-163.

【通聯(lián)編輯:光文玲】

收稿日期:2019 -11-15

作者簡介:范會(huì)麗(1993-),山西太原人,碩士,主要研究方向?yàn)檐浖こ膛c信息系統(tǒng)集成技術(shù);彭寧(1994-),女,河北唐山人,碩士,千要研究方向?yàn)橛?jì)算機(jī)網(wǎng)絡(luò)與信息安全技術(shù);任薇(1995-),河北宣化人,碩士,主要研究方向?yàn)樽匀徽Z言處理。

主站蜘蛛池模板: 最近最新中文字幕在线第一页 | 98超碰在线观看| 国产精品免费p区| 无码人中文字幕| 亚洲精品国产精品乱码不卞| 久久精品人妻中文系列| a毛片在线| 久久久久久久97| 久久夜色精品国产嚕嚕亚洲av| 国产不卡网| 伊人激情综合| 九九九久久国产精品| 国产三级毛片| 午夜日b视频| 国产网友愉拍精品| 久久天天躁狠狠躁夜夜躁| 伊人成人在线| 色呦呦手机在线精品| 精品亚洲国产成人AV| 亚洲日本www| 免费无码在线观看| 亚洲第一成网站| 一本视频精品中文字幕| 国产精品国产主播在线观看| 免费啪啪网址| a网站在线观看| 国产高清在线丝袜精品一区| 国产又粗又爽视频| 又爽又大又光又色的午夜视频| 日韩毛片免费| 一本大道AV人久久综合| yjizz视频最新网站在线| 欧美成一级| 成人免费网站久久久| 亚洲男人的天堂在线观看| 老色鬼久久亚洲AV综合| 国产色爱av资源综合区| 午夜视频免费试看| 成人在线观看不卡| 国产噜噜噜| 在线观看国产精品第一区免费| a天堂视频| 中文字幕有乳无码| 国产激情第一页| 久久特级毛片| 国产粉嫩粉嫩的18在线播放91| 国产美女免费网站| 狂欢视频在线观看不卡| 色综合热无码热国产| 白丝美女办公室高潮喷水视频| 国产在线欧美| 国产人成午夜免费看| 思思热在线视频精品| v天堂中文在线| 无码网站免费观看| 另类重口100页在线播放| 欧美日韩第三页| 亚洲浓毛av| 欧美三级不卡在线观看视频| 国产一级毛片在线| 美女毛片在线| 欧美曰批视频免费播放免费| 美女内射视频WWW网站午夜| 91精品国产自产在线观看| 欧美色视频日本| 制服丝袜一区| 全午夜免费一级毛片| 精品1区2区3区| 精品少妇人妻无码久久| 欧美福利在线| a毛片免费在线观看| 日本五区在线不卡精品| 无码中文字幕加勒比高清| 美女国内精品自产拍在线播放| 久久综合色88| 99国产精品免费观看视频| 国产综合另类小说色区色噜噜| 国产女人爽到高潮的免费视频 | 青青草一区| 欧美午夜视频在线| 国产一区二区丝袜高跟鞋| 久一在线视频|