999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于HDFS+Spark的時(shí)空大數(shù)據(jù)存儲(chǔ)與處理

2019-12-19 02:07:13賈旖旎周新民曹芳
軟件 2019年11期
關(guān)鍵詞:數(shù)據(jù)挖掘

賈旖旎 周新民 曹芳

摘? 要: 海量時(shí)空數(shù)據(jù)的高效存儲(chǔ)、讀寫(xiě)、處理與分析是當(dāng)前地理信息科學(xué)領(lǐng)域的研究熱點(diǎn)。本文對(duì)目前主流大數(shù)據(jù)技術(shù)產(chǎn)品進(jìn)行了選取和融合,開(kāi)展了基于HDFS+Spark的時(shí)空大數(shù)據(jù)存儲(chǔ)、處理分析等方面的研究和探討,以智慧無(wú)錫時(shí)空信息云平臺(tái)為應(yīng)用對(duì)象,搭建了一套時(shí)空大數(shù)據(jù)存儲(chǔ)處理的集群平臺(tái),并通過(guò)具體應(yīng)用實(shí)驗(yàn),得到了時(shí)空數(shù)據(jù)存儲(chǔ)、處理、挖掘的響應(yīng)時(shí)間及可視化展示結(jié)果,證實(shí)了HDFS+Spark集群計(jì)算平臺(tái)在解決時(shí)空大數(shù)據(jù)存儲(chǔ)、處理、挖掘方面的有效性。

關(guān)鍵詞: 時(shí)空大數(shù)據(jù);集群計(jì)算;存儲(chǔ)處理;數(shù)據(jù)挖掘

【Abstract】: Efficient storage, reading, writing, processing and analysis of massive spatio-temporal data is a hot research topic in geographic information science. This paper chooses and integrates the mainstream big data technology production, investigates and studies the spatio-temporal big data storage and processing analysis based on HDFS+Spark ,and builds the Cluster platform. And also its applied in the experiment and the results of response time and visual display of storage, processing and mining of the spatio-temporal data are obtained, which proves the effectiveness of HDFS+Spark cluster computing platform in solving spatio-temporal big data storage, processing and mining.

【Key words】: Spatio-temporal big data; Cluster computing; Storage processing; Data mining

0? 引言

隨著測(cè)繪地理信息技術(shù)的發(fā)展和智慧城市建設(shè)的不斷推進(jìn),時(shí)空大數(shù)據(jù)的種類(lèi)愈多、覆蓋愈廣、更新頻率愈快,數(shù)據(jù)量急劇增加,從MB、GB級(jí)逐步達(dá)到TB、PB級(jí),使得海量時(shí)空數(shù)據(jù)在存儲(chǔ)管理、數(shù)據(jù)檢索、處理分析等方面的難度不斷提升。同時(shí),大量以分布式存儲(chǔ)和并行計(jì)算為核心的大數(shù)據(jù)技術(shù)平臺(tái)及產(chǎn)品隨之涌現(xiàn),如Hadoop、MongoDB、Spark,

這些平臺(tái)及產(chǎn)品有望解決當(dāng)前大數(shù)據(jù)在存儲(chǔ)和處理中存在的問(wèn)題。本文圍繞如何應(yīng)用主流大數(shù)據(jù)技術(shù)及產(chǎn)品更好地為時(shí)空大數(shù)據(jù)服務(wù),結(jié)合智慧無(wú)錫時(shí)空大數(shù)據(jù)的應(yīng)用需求,搭建了一套時(shí)空大數(shù)據(jù)存儲(chǔ)處理的集群平臺(tái),并以實(shí)驗(yàn)驗(yàn)證了該平臺(tái)在時(shí)空大數(shù)據(jù)的存儲(chǔ)、處理與挖掘中的性能與效率。

1? 時(shí)空大數(shù)據(jù)集群計(jì)算平臺(tái)選型

HDFS分布式文件系統(tǒng)是Hadoop核心技術(shù)之一,提供了開(kāi)源的存儲(chǔ)框架,是一個(gè)實(shí)現(xiàn)數(shù)據(jù)分布式存儲(chǔ)的文件系統(tǒng)[1]。該系統(tǒng)通過(guò)高效的分布式算法集成多集群節(jié)點(diǎn),對(duì)大數(shù)據(jù)量的數(shù)據(jù)進(jìn)行分布式存儲(chǔ)和有效備份,當(dāng)其中一個(gè)節(jié)點(diǎn)宕機(jī)時(shí),系統(tǒng)可以讀取其他有效節(jié)點(diǎn)的數(shù)據(jù),并且系統(tǒng)對(duì)每個(gè)節(jié)點(diǎn)的物理性能要求并不高。因此,HDFS具備了容錯(cuò)性高、成本低、通用性好等特點(diǎn)。HDFS采用主/從架構(gòu),包括客戶(hù)端、主控節(jié)點(diǎn)(NameNode)[2]和數(shù)據(jù)節(jié)點(diǎn)(DataNode)[3]。其中,NameNode主要負(fù)責(zé)管理文件系統(tǒng)的命名空間、元數(shù)據(jù)信息及客戶(hù)端對(duì)文件的訪問(wèn);DataNode主要負(fù)責(zé)接收并處理客戶(hù)端的讀寫(xiě)請(qǐng)求和NameNode的調(diào)度,存儲(chǔ)并檢索HDFS的數(shù)據(jù)塊,是文件存儲(chǔ)的實(shí)際位置,并通過(guò)周期性的心跳報(bào)文將所有數(shù)據(jù)塊信息發(fā)送給NameNode。HDFS的這種主/從設(shè)計(jì)結(jié)構(gòu)使得用戶(hù)數(shù)據(jù)不會(huì)流經(jīng)主控節(jié)點(diǎn),從而提高了系統(tǒng)性能和效率[4]。

Hadoop的MapReduce和Spark是當(dāng)前最流行的大數(shù)據(jù)處理平臺(tái)。Hadoop MapReduce在處理分析數(shù)據(jù)時(shí),首先從集群磁盤(pán)中讀取數(shù)據(jù)到內(nèi)存并執(zhí)行計(jì)算,再將計(jì)算結(jié)果從內(nèi)存寫(xiě)到集群磁盤(pán),作為下次計(jì)算的輸入數(shù)據(jù)。每次都要從磁盤(pán)讀取數(shù)據(jù)到內(nèi)存的計(jì)算過(guò)程,使其面臨I/O消耗過(guò)大的問(wèn)題,因而無(wú)法滿足用戶(hù)對(duì)海量空間數(shù)據(jù)開(kāi)展實(shí)時(shí)分析的效率要求。而Spark作為新興的集群計(jì)算框架,不僅提供了豐富的Scala、Java、和Python調(diào)用API接口,方便用戶(hù)操作,且其基于內(nèi)存迭代計(jì)算的處理方式,使其可從內(nèi)存中直接讀取計(jì)算數(shù)據(jù),從而避免了磁盤(pán)I/O的高消耗。通過(guò)擴(kuò)展Spark對(duì)空間數(shù)據(jù)的分布式查詢(xún)處理操作,形成了GeoSpark、SpatialSpark等先進(jìn)系統(tǒng),可實(shí)現(xiàn)對(duì)海量空間數(shù)據(jù)的快速處理和分析。

由于HDFS 的高容錯(cuò)性、高可擴(kuò)展性、高吞吐量等特點(diǎn),為海量時(shí)空數(shù)據(jù)提供了可靠、安全的存儲(chǔ),而Spark的內(nèi)存迭代計(jì)算比MapReduce更為高效[5],更適合進(jìn)行交互式處理和運(yùn)行復(fù)雜算法,且可以與HDFS組件進(jìn)行完美融合,因此本文選擇使用HDFS+Spark的存儲(chǔ)計(jì)算框架來(lái)進(jìn)行時(shí)空大數(shù)據(jù)的存儲(chǔ)與計(jì)算處理應(yīng)用。

2? 基于HDFS的時(shí)空大數(shù)據(jù)存儲(chǔ)模式

時(shí)空數(shù)據(jù)一般來(lái)說(shuō)包括時(shí)間、空間和專(zhuān)題屬性三個(gè)維度的信息,有著多源、海量、更新快速的特點(diǎn)[6]。從數(shù)據(jù)格式上來(lái)說(shuō),時(shí)空數(shù)據(jù)通常以矢量數(shù)據(jù)或柵格數(shù)據(jù)的形式進(jìn)行存儲(chǔ)管理。

通過(guò)實(shí)驗(yàn),得出單機(jī)環(huán)境與3個(gè)節(jié)點(diǎn)、6個(gè)節(jié)點(diǎn)的集群環(huán)境下不同數(shù)據(jù)量的時(shí)空數(shù)據(jù)存入時(shí)間對(duì)比表如下所示。

從實(shí)驗(yàn)結(jié)果可以看出,當(dāng)時(shí)空數(shù)據(jù)集大小為500 M時(shí),單機(jī)環(huán)境下數(shù)據(jù)存儲(chǔ)時(shí)間為8秒,耗時(shí)最少,相比之下存儲(chǔ)性能效率最高。這是因?yàn)閿?shù)據(jù)量較少時(shí),Hadoop集群中涉及到多個(gè)節(jié)點(diǎn)之間的數(shù)據(jù)交換,并且會(huì)自動(dòng)進(jìn)行數(shù)據(jù)備份,存在較為固定的數(shù)據(jù)傳輸時(shí)間和數(shù)據(jù)備份時(shí)間消耗。隨著數(shù)據(jù)量增加到1.8 G、10 G,集群環(huán)境下的存儲(chǔ)效率優(yōu)勢(shì)得到了明顯的體現(xiàn)。尤其當(dāng)時(shí)空數(shù)據(jù)增加到10 G時(shí),單機(jī)環(huán)境下的耗時(shí)明顯增加,為500 M數(shù)據(jù)耗時(shí)的103倍。這是由于單機(jī)環(huán)境的硬件配置受限所導(dǎo)致的,而在集群環(huán)境下,隨著存儲(chǔ)量增大,而其固定的時(shí)間消耗占比逐漸減小至可忽略不計(jì),這時(shí)才能體現(xiàn)出集群環(huán)境下時(shí)空大數(shù)據(jù)存儲(chǔ)的優(yōu)勢(shì)。

4.3.2? 數(shù)據(jù)處理性能實(shí)驗(yàn)

本文將以無(wú)錫市區(qū)的地理范圍劃分為6497個(gè)500米×500米的格網(wǎng),對(duì)每個(gè)格網(wǎng)內(nèi)1天的出租車(chē)點(diǎn)位數(shù)量(約800萬(wàn)條數(shù)據(jù))進(jìn)行空間包含運(yùn)算,以驗(yàn)證單機(jī)環(huán)境下與不同節(jié)點(diǎn)集群環(huán)境下的空間處理效率。

通過(guò)實(shí)驗(yàn)得出單機(jī)環(huán)境與3個(gè)節(jié)點(diǎn)、6個(gè)節(jié)點(diǎn)的集群環(huán)境下時(shí)空數(shù)據(jù)處理的時(shí)間對(duì)比表如下所示。

將無(wú)錫市6497個(gè)格網(wǎng)的1天的出租車(chē)點(diǎn)位數(shù)量空間統(tǒng)計(jì)的結(jié)果,在前端通過(guò)可視化界面進(jìn)行展示,如圖3所示。

從實(shí)驗(yàn)結(jié)果可以看出,由于單機(jī)環(huán)境中計(jì)算機(jī)處理器及內(nèi)存的限制,1000個(gè)格網(wǎng)和10000個(gè)點(diǎn)進(jìn)行空間包含運(yùn)算,時(shí)間穩(wěn)定在6分鐘左右,效率非常低下。當(dāng)數(shù)據(jù)量增加到一定程度后,單機(jī)處理能力超出界限,導(dǎo)致處理失敗,而集群模式處理的運(yùn)算效率遠(yuǎn)高于單機(jī)模式。因此處理海量數(shù)據(jù),必須依靠Spark這種集群模式的并行處理框架,并且隨著集群節(jié)點(diǎn)個(gè)數(shù)的增加,處理效率也會(huì)隨之提高,集群環(huán)境可解決單機(jī)環(huán)境無(wú)法處理的問(wèn)題。

4.3.3? 數(shù)據(jù)挖掘性能實(shí)驗(yàn)

基于K-means空間聚類(lèi)算法分別對(duì)無(wú)錫市1天的出租車(chē)實(shí)時(shí)位置數(shù)據(jù)進(jìn)行挖掘分析,形成出租車(chē)熱點(diǎn)分布圖,以驗(yàn)證單機(jī)環(huán)境下與不同節(jié)點(diǎn)集群環(huán)境下的時(shí)空數(shù)據(jù)挖掘效率。

通過(guò)實(shí)驗(yàn)得出單機(jī)環(huán)境與3個(gè)節(jié)點(diǎn)、6個(gè)節(jié)點(diǎn)的集群環(huán)境下時(shí)空數(shù)據(jù)挖掘的時(shí)間對(duì)比表如下所示。

基于無(wú)錫市某天的出租車(chē)實(shí)時(shí)位置數(shù)據(jù)進(jìn)行K-means空間聚類(lèi),得到無(wú)錫市的出租車(chē)熱力分布圖5所示。

從實(shí)驗(yàn)結(jié)果可以看出,隨著數(shù)據(jù)量的增大,基于集群的Spark mllib分布式機(jī)器學(xué)習(xí)框架的并行計(jì)算效率明顯占優(yōu)勢(shì)。當(dāng)數(shù)據(jù)量增加到一定程度時(shí),單機(jī)將無(wú)法勝任此工作。

5? 結(jié)論

本文通過(guò)對(duì)主流的大數(shù)據(jù)技術(shù)平臺(tái)進(jìn)行調(diào)研和分析研究后,搭建了一套基于HDFS+Spark的時(shí)空大數(shù)據(jù)存儲(chǔ)計(jì)算的集群平臺(tái),并用于進(jìn)行了時(shí)空大數(shù)據(jù)存儲(chǔ)、處理與挖掘的性能實(shí)驗(yàn),得出如下結(jié)論:

(1)時(shí)空數(shù)據(jù)量較少時(shí),數(shù)據(jù)存儲(chǔ)性能在單機(jī)環(huán)境下效率較高,而隨著數(shù)據(jù)量的不斷增大,集群環(huán)境的存儲(chǔ)效率明顯提升,是海量時(shí)空數(shù)據(jù)存儲(chǔ)的理想選擇。

(2)由于單機(jī)環(huán)境下硬件配置的限制和集群環(huán)境下并行計(jì)算處理的優(yōu)勢(shì),時(shí)空大數(shù)據(jù)處理、挖掘的效率明顯優(yōu)于單機(jī)環(huán)境,并且集群節(jié)點(diǎn)數(shù)量越多,數(shù)據(jù)處理、挖掘的效率越高,即使當(dāng)數(shù)據(jù)量超過(guò)了單機(jī)環(huán)境可處理閥值,集群環(huán)境也可以輕松處理。

參考文獻(xiàn)

[1]Aisha SIDDIQA, Ahmad KARIM, Abdullah GANI. Big data storage technologies: a survey[C]. Siddiqa et al. / Front Inform Technol Electron Eng, 2017 18(8):1040-1070.

[2]Name Node. [EB/OL] http://hadoop.apache.org/docs/stable/ hdfs_design.html#Name Node+and+Data Nodes.

[3]Data Node.[EB/OL] http://hadoop.apache.org/docs/stable/ hdfs_design. html#Name Node+and+Data Nodes.

[4]王磊, 一種高性能HDFS存儲(chǔ)平臺(tái)的研究與實(shí)現(xiàn)[D]. 西安電子科技大學(xué), 2013.

[5]Suthipong D, PeeraponV. Applying One-Versus-One SVMs to Classify MultiLabel Data with Large Labels Using Spark[C]. Knowledge and Smart Technology. IEEE, 2017: 1-4.

[6]施志林, 時(shí)空數(shù)據(jù)分布式存儲(chǔ)研究[D]. 江西理工大學(xué), 2015.

[7]何濤, 面向海量空間數(shù)據(jù)并行高效處理的存儲(chǔ)模式設(shè)計(jì)與研究[D]. 電子科技大學(xué), 2014.

[8]Zaharia M, Chowdhury M, Das T, Dave A, Ma J, McCauley M, Franklin MJ, Shenker S, Stoica I. Resilient distributed datasets: A fault-tolerant abstraction for in-memory cluster computing. In: Proc. of the 9th USENIX Conf. on Networked Systems Design and Implementation. San Jose: USENIX Association Berkeley, 2012. 1-14.

[9]高彥杰. Spark大數(shù)據(jù)處理[M]. 北京: 機(jī)械工業(yè)出版社, 2014.

猜你喜歡
數(shù)據(jù)挖掘
基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識(shí)別方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
數(shù)據(jù)挖掘技術(shù)在打擊倒賣(mài)OBU逃費(fèi)中的應(yīng)用淺析
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘在高校圖書(shū)館中的應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開(kāi)發(fā)實(shí)踐
主站蜘蛛池模板: 日韩精品一区二区三区免费在线观看| 日韩欧美91| 尤物成AV人片在线观看| 日韩欧美国产三级| 欧美另类一区| 456亚洲人成高清在线| 婷婷午夜天| 国产中文一区二区苍井空| 国产波多野结衣中文在线播放| 99中文字幕亚洲一区二区| 在线播放真实国产乱子伦| 亚洲视频二| 国产精品成人一区二区不卡| 毛片a级毛片免费观看免下载| 2021国产精品自产拍在线| 国产人免费人成免费视频| 青青青草国产| 国产不卡网| 狠狠五月天中文字幕| 一本一道波多野结衣av黑人在线| 欧美午夜一区| 国产网站黄| 青青青国产免费线在| 久久美女精品| 久久久久亚洲精品成人网| 日韩一级毛一欧美一国产| 国产黄色视频综合| 波多野结衣AV无码久久一区| 尤物视频一区| 一本色道久久88| 久久综合色播五月男人的天堂| 久久九九热视频| 人妻一区二区三区无码精品一区| 综合色天天| 国产精品亚洲综合久久小说| 欧美成在线视频| 综1合AV在线播放| 欧美第九页| 中文无码伦av中文字幕| 第九色区aⅴ天堂久久香| 99ri国产在线| 国产欧美又粗又猛又爽老| 最近最新中文字幕在线第一页 | 中文字幕久久波多野结衣| 免费毛片a| 婷婷亚洲视频| 国产人成在线观看| 国产凹凸一区在线观看视频| 午夜视频免费试看| a天堂视频| 在线色综合| 色偷偷一区二区三区| 精品国产香蕉在线播出| 久久无码高潮喷水| 欧美色亚洲| 99re视频在线| 中文字幕亚洲精品2页| 丝袜无码一区二区三区| 亚洲国产中文欧美在线人成大黄瓜| 黄色网址手机国内免费在线观看| 在线欧美日韩国产| 久久亚洲日本不卡一区二区| 一级黄色网站在线免费看| 欧美色视频日本| 日韩欧美综合在线制服| 爱做久久久久久| 亚洲综合九九| 呦女亚洲一区精品| 一本综合久久| 无码久看视频| 日本欧美在线观看| 亚洲中文字幕在线一区播放| 高清色本在线www| 日本亚洲最大的色成网站www| 热思思久久免费视频| 国产精品私拍在线爆乳| 激情爆乳一区二区| 午夜啪啪网| 日韩色图在线观看| 激情無極限的亚洲一区免费| 亚洲国产中文精品va在线播放| 一本二本三本不卡无码|