999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Spark的大數據清洗設計與研究

2018-08-09 09:08:28陳竹筠常玉紅
科學與財富 2018年18期
關鍵詞:大數據

陳竹筠 常玉紅

摘要:大數據技術之中核心是數據分析,但在真正解決大數據問題之時,大部分工作基本都集中在數據清洗階段,大數據清洗是大數據處理的基礎。Spark作為當前最為流行的一種計算框架,能夠將彈性分布式數據集,封裝成大數據清洗的任務單位,通過組合,實現大數據清洗。文章將對基于Spark的大數據清洗框架設計進行研究和分析,希望能夠對相關人員有所幫助。

關鍵詞:大數據;清洗;框架;Spark

引言

目前,在我國開源內存分布式計算框架應用中最為流行的就是Spark,由于當前我國已經進入大數據時代,基于Hadoop的大數據工具已經無法滿足當前的大數據處理需求,因此很多數據廠商也逐步轉向在Spark上構建自己的內存分布式數據處理系統,從而為更多數據客戶提供技術支持。大數據清洗是大數據分析的基礎,能夠提升數據質量,研究基于Spark的大數據清洗技術,對提升大數據處理質量有重要意義。

1基于Spark的大數據清洗框架介紹

基于Spark的大數據清洗框架核心主要是大數據清洗系統,其大數據操作單元是獨立的Spark任務單元,單元功能從原始數據獲取,直至高質量的清潔數據存入到大數據倉庫,或者繼續進行大數據分析。基于Spark的大數據清洗主要包括提取、轉換、驗證、裝載等步驟,這些步驟各自含有一個或多個大數據清洗單元。

基于Spark的大數據清洗框架具有以下特性:第一,高處理性,該系統以RDD為數據封裝對象,能夠兼容不同的數據源,處理不同數據格式,有效解決了大數據多樣性的問題;第二,高可擴展性和高易用性,該框架是開源的技術人員可以自定義編寫大數據清洗單元,且該框架中大數據清洗任務的數據共享,能夠通過對已有的大數據清洗操作進行組合,完成復雜的大數據清洗任務。此外,通過Web Service接口,利用配置文件組合清洗任務,控制清洗流程。

2基于Spark的大數據清洗設計思路和工作原理

基于Spark的大數據清洗框架設計思路主要是組合大數據清洗任務單元,構建清洗流水線,提交到Spark集群執行。基于Spark的大數據清洗利用Spark的Driver Program與Executor分離設計的特性,在其基礎上進一步改進,無需改動Spark原有架構內容,即實現了Spark的接口擴展,創建出一套更加適合大數據清洗的框架?;赟park的大數據清洗框架包含以下三部分:第一,Spark集群后臺,這一部分是大數據清洗的核心,主要任務是將大數據清洗任務提交給Spark集群運行;第二,一套大數據清洗任務定義接口,任務單元要實現該接口,由大數據清洗系統管理任務單元;第三,流水線配置設計和大數據清洗單元庫,流水線由一系列大數據清洗單元組成,定義真正執行的清洗。

原生的Spark框架下,無法提供框架所需要的調用接口,需要進一步深入分析Spark的架構模式,設計一個大數據清洗系統,能夠將Spark的任務單元提交到集群運行。大數據清洗框架本身應當具有豐富的大數據清洗操作,即滿足不同功能需要的清洗任務單元,在框架下,將其命名為Algorithms庫。該庫的設計,封裝的任務單元功能盡量簡單,便于重用。不同大數據清洗任務單元之間的數據共享有兩種方式,第一種依賴于磁盤存儲,每次完成一個清洗任務就將數據導出到外部磁盤中,可以是HDFS、HBase或者Hive等;第二種則是內存層面,RDD暫存在內存中,可以有效地提升數據處理速度,這種模式目前可以依賴于SparkContext的RDD緩存,或者利用Tachyon的內存文件系統進行管理。此外,作為一個系統平臺,也得有基礎的監控,這些監控設計不僅僅包括Spark,也包括大數據清洗系統本身,有助于運維和查看大數據清洗任務運行結果。同時,在進行基于Spark的大數據清洗設計時還要考慮基于集群的計算服務,考慮集群的計算資源調度以及多個Spark Context運行的機制。

3基于Spark的大數據清洗框架架構設計

基于Spark的大數據清洗框架主要功能目標是提供易于使用的大數據清洗系統,并且擁有高可擴展性,滿足大規模數據的處理需求,所以在設計的底層上依賴于Spark實現?;赟park的大數據清洗框架整體后臺服務系統設計參考Spark-JobServer,圍繞Jar、Context、Job三者建立服務體系,將SparkContext與實際Job內容分離,由Server管理SparkContext(即Context),將提交的Jar包,設計成Algorithms的程序,動態擴展整體平臺的大數據處理功能。其整體架構如圖1所示。

基于Spark的大數據清洗框架按照功能模塊可以細分為五個部分,其中的Spark-ETL Web Client與Job Server就是其Web Service平臺;Algorithms代表擴展的大數據清洗任務單元庫,用戶通過Web Service添加需要的清洗單元,與要執行的算法任務;Spark SQL代表Spark集群。這三部分模塊代表了該框架最基礎部分—清洗平臺Server系統。而Spark-ETL SDK模塊,主要是為了實現Algorithms的單元所需的SDK定的接口,以有效地將任務提交到Job Server上運行;流水線配置設計涵蓋在Algorithms單元內,在實現上,基于Spark的大數據清洗除了使用單流水線模式,也設計了深度優先便利的多叉樹計算流,配置大數據清洗流程。

4大數據清洗單元設計

大數據清洗單元應當按照業務需求與基礎功能兩個層面劃分。業務需求層面指的是需要獲得的數據表,一般有兩個因素,第一個是整體數據需要經過的業務階段數量,第二個是每個階段內,涉及到的數據庫表數量。一個清洗單元內部的設計有起點與終點,以及中間的計算流過程。起點是導入到單元內的數據,可以來源于外部數據導入或者從共享RDD中獲取,另外數據最終會成為一張數據表,計算完時就形成了一張新的數據表,這張表可以在內存中,也可以在數據庫或者文件中。

結束語

總而言之,基于Spark大數據清洗框架,能夠極大降低清洗流程的禍合性,利用已有的清洗單元,靈活地實現復雜的大數據清洗,極大降低了大數據清洗的成本,最關鍵的是,利用Spark將大數據清洗提升到了一個新的性能水平,促進了大數據處理應用技術的發展。

參考文獻:

[1]王沖,鄒瀟.基于Spark框架的電力大數據清洗模型[J].電測與儀表,2017,54(14):33-38.

[2]金翰偉.基于Spark的大數據清洗框架設計與實現[D].浙江大學,2016.

基金項目:山東英才學院科研項目17YCYBXS04;山東省高等學??蒲杏媱濏椖縅16LN55

猜你喜歡
大數據
基于在線教育的大數據研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯網+”農產品物流業的大數據策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數據的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數據時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數據在出版業的應用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 三区在线视频| h视频在线播放| 亚洲一区精品视频在线| 成人免费网站在线观看| 日本国产精品一区久久久| 久久伊伊香蕉综合精品| 欧美全免费aaaaaa特黄在线| 国产一区二区人大臿蕉香蕉| 久久国产亚洲偷自| 国内精品视频区在线2021| 无码日韩人妻精品久久蜜桃| 亚洲天堂伊人| 在线观看无码av五月花| 香蕉eeww99国产在线观看| 久久久久人妻一区精品色奶水 | 婷婷六月综合| 亚洲色图综合在线| 99视频国产精品| 四虎永久免费地址| 亚洲最大福利视频网| 久久久久久久蜜桃| 天堂va亚洲va欧美va国产 | 亚洲AV无码乱码在线观看裸奔| 亚洲国产日韩视频观看| 夜精品a一区二区三区| 毛片a级毛片免费观看免下载| 久久国产精品娇妻素人| 就去吻亚洲精品国产欧美| 国产精品理论片| 国产亚洲欧美另类一区二区| 国国产a国产片免费麻豆| 久久久久亚洲精品无码网站| 国产亚洲高清视频| 亚洲成av人无码综合在线观看| 国内嫩模私拍精品视频| 国产黄色爱视频| 欧美黄网站免费观看| 中美日韩在线网免费毛片视频| 精品久久久无码专区中文字幕| 亚洲综合国产一区二区三区| 亚洲人成在线免费观看| 中美日韩在线网免费毛片视频| 亚洲无线观看| 中文字幕无码中文字幕有码在线| 六月婷婷综合| 美女国内精品自产拍在线播放| 亚洲中文字幕在线观看| 国产www网站| 99视频精品在线观看| AV在线天堂进入| 欧美一区二区自偷自拍视频| 伊人久久精品亚洲午夜| 国产精品自在线拍国产电影| 少妇精品网站| 亚洲国语自产一区第二页| 尤物亚洲最大AV无码网站| 国产裸舞福利在线视频合集| 亚洲最黄视频| 波多野结衣一二三| 毛片免费网址| 国产永久免费视频m3u8| 成人日韩视频| 亚洲无码37.| 日韩精品一区二区深田咏美| 老司机久久99久久精品播放| 狠狠色综合久久狠狠色综合| 五月婷婷伊人网| 无码aⅴ精品一区二区三区| 国产高清在线观看| 美女一区二区在线观看| 亚洲欧美人成人让影院| 一级毛片基地| 精品国产免费观看| 亚洲天堂在线视频| 啊嗯不日本网站| 欧美 国产 人人视频| 91香蕉国产亚洲一二三区| 亚洲成a∧人片在线观看无码| 毛片a级毛片免费观看免下载| 亚洲三级电影在线播放| 亚洲床戏一区| 成AV人片一区二区三区久久|