999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數(shù)據(jù)分析的數(shù)據(jù)分區(qū)和采樣方法研究

2020-12-08 02:12:05宋文強
數(shù)碼設(shè)計 2020年16期
關(guān)鍵詞:方法研究大數(shù)據(jù)

宋文強

摘要:無共享架構(gòu)的計算機集群是大數(shù)據(jù)處理和分析的主要計算平臺。在集群計算中,數(shù)據(jù)分區(qū)和采樣是加快大數(shù)據(jù)計算和增加可伸縮性的兩種基本策略。在本文中,我們對大數(shù)據(jù)處理和分析方面的數(shù)據(jù)分區(qū)和采樣的方法和技術(shù)進行了全面的概述。另外,還總結(jié)了Hadoop集群上基于采樣的近似方法的流行策略和相關(guān)工作。本文認為,應(yīng)將數(shù)據(jù)分區(qū)和采樣一起考慮,以建立在計算和統(tǒng)計方面均可靠的近似群集計算框架。

關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)分區(qū);方法研究

中圖分類號:TP311.13?? 文獻標識碼:A?? 文章編號:1672-9129(2020)16-0045-01

1 介紹

現(xiàn)如今,大量數(shù)據(jù)正在源源不斷地從商業(yè)交易,計算機模擬,移動設(shè)備,傳感器,衛(wèi)星,社交媒體等中生成。大量的數(shù)據(jù)可用于生成高價值的信息,用于決策支持,預(yù)測,商業(yè)智能,數(shù)據(jù)密集型科學(xué)的研究以及其他應(yīng)用領(lǐng)域。傳統(tǒng)技術(shù),例如基于數(shù)據(jù)庫和基于結(jié)構(gòu)化查詢語言(SQL)的關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS),對于處理如此龐大和復(fù)雜的大數(shù)據(jù)已變得不切實際。很難或不可能使用一臺機器來分析TB級數(shù)據(jù)集,因此可伸縮的分布式計算架構(gòu)已成為大數(shù)據(jù)分析框架的常見設(shè)計選擇。在這些框架中,數(shù)據(jù)分區(qū)和采樣是橫向擴展和加速大數(shù)據(jù)分析算法的兩種基本策略。本文提供的調(diào)查簡要概述了支持Hadoop集群上的大數(shù)據(jù)分析的最常用的分區(qū)和采樣方法。

“大數(shù)據(jù)”是當數(shù)據(jù)本身的大小成為問題的一部分時使用的標簽。在計算集群上進行大數(shù)據(jù)分析的常見策略是分而治之。MapReduce計算模型用于在主流的大數(shù)據(jù)分析框架(例如Apache Hadoop和Apache Spark)中應(yīng)用此策略。這些框架實現(xiàn)了無共享架構(gòu),其中每個節(jié)點在數(shù)據(jù)和資源上都是獨立的。在Hadoop群集上,Hadoop分布式文件系統(tǒng)(HDFS)將大數(shù)據(jù)文件組織和復(fù)制為小型分布式數(shù)據(jù)塊。研究表明,當數(shù)據(jù)大小足夠大時,隨著群集中計算資源的增加,基于分布式數(shù)據(jù)塊的并行化會導(dǎo)致線性加速。實際上,可以通過向計算集群添加更多計算機來輕松擴展集群計算框架。但是,數(shù)據(jù)的增長速度可能會很快超過可用資源。

2 大數(shù)據(jù)框架

2.1大數(shù)據(jù)分析的集群計算概述。為了應(yīng)對各種不同應(yīng)用領(lǐng)域中不斷增長的數(shù)據(jù)量,無共享架構(gòu)的集群計算已成為構(gòu)建大數(shù)據(jù)分析框架的常見范例。在無共享架構(gòu)中,計算集群中的每個節(jié)點在數(shù)據(jù)和計算方面都是獨立的。MapReduce計算模型是主流大數(shù)據(jù)分析框架中的基礎(chǔ)模型。大數(shù)據(jù)文件被劃分為小的非重疊數(shù)據(jù)塊,并通過HDFS分布在計算集群的節(jié)點上。然后,使用具有兩個常規(guī)操作的并行,分布式算法處理這些塊:Map和Reduce。Map操作獨立處理分布式數(shù)據(jù)塊,而Reduce操作將Map結(jié)果積分以生成整個數(shù)據(jù)集的全局結(jié)果。

大數(shù)據(jù)技術(shù)包括分布式文件系統(tǒng),分布式計算系統(tǒng)和大規(guī)模并行處理(MPP)系統(tǒng)。分布式文件系統(tǒng),例如谷歌文件系統(tǒng)(GFS),HDFS和Microsoft Cosmos,提供了可伸縮且容錯的存儲解決方案。這些框架的最新進展(例如MapReduce,Hadoop和Cosmos / Dryad)簡化了大規(guī)模和分布式數(shù)據(jù)密集型應(yīng)用程序的開發(fā)。此外,已經(jīng)提出了高級編程語言和概念數(shù)據(jù)模型。

基于Hadoop的計算集群已成為各種不同應(yīng)用領(lǐng)域中大數(shù)據(jù)管理和分析的規(guī)范。Apache Hadoop和Apache Spark是在學(xué)術(shù)界和工業(yè)界使用最廣泛的兩個大數(shù)據(jù)分析框架。接下來,在討論大數(shù)據(jù)分區(qū)和采樣之前,我們將對這兩個框架進行簡要描述。

2.2 Apache Hadoop。Apache Hadoop是最完善的平臺之一,支持海量數(shù)據(jù)的分布式和并行處理。它提供了一種通用的分區(qū)機制,可以使用MapReduce計算模型在不同的計算機之間分配聚合工作負載。它是一個多用途引擎,但由于其實現(xiàn)中的高吞吐量延遲,因此不是實時高性能引擎。Hadoop平臺包含Hadoop內(nèi)核,Hadoop MapReduce,HDFS,資源管理器(YARN)和許多項目(例如,Hive和HBase)。Hadoop MapReduce框架為處理大量分布式數(shù)據(jù)集提供了一種高效且可靠的編程環(huán)境。

2.3 Apache Spark。Apache Spark 是另一個開源的大規(guī)模數(shù)據(jù)處理框架。Spark引入了核心抽象,彈性分布式數(shù)據(jù)集(RDD),用于分布式內(nèi)存中數(shù)據(jù)并行計算。彈性分布式數(shù)據(jù)集是在集群中的一組節(jié)點上分布或劃分的元素(對象)的只讀,不變且容錯的集合。彈性分布式數(shù)據(jù)集支持兩種類型的操作:轉(zhuǎn)換和動作。動作(例如map()和filt())是確定性的,但是懶惰的操作定義了新的RDD,而沒有立即對其進行計算。另一方面,動作(例如reduce(),count()和collect())在彈性分布式數(shù)據(jù)集上啟動計算,然后將輸出返回到驅(qū)動程序或?qū)⑵浯鎯υ诔志么鎯ο到y(tǒng)中。

3 大數(shù)據(jù)分析的近似集群計算

近似計算已成為應(yīng)付計算集群上不斷增長的數(shù)據(jù)量的常見且必要的范例。數(shù)據(jù)呈指數(shù)級增長,甚至比摩爾定律預(yù)測的計算能力還要快。如今,現(xiàn)代服務(wù)使用大數(shù)據(jù)分析系統(tǒng)來挖掘和提取數(shù)據(jù)中有價值的模式和趨勢。處理這些數(shù)據(jù)非常昂貴。近年來,近似計算已成為減少大數(shù)據(jù)分析框架的計算資源使用,處理時間甚至能耗的有效的解決方案。與傳統(tǒng)計算不同,近似計算是在較小的數(shù)據(jù)概要而不是整個數(shù)據(jù)集上進行的。許多數(shù)據(jù)算法可滿足一個近似結(jié)果,而不是一個精確結(jié)果。

由于數(shù)字數(shù)據(jù)的增長快于計算能力的增長,因此近似計算已成為具有交互式響應(yīng)時間的大數(shù)據(jù)分析的一項必不可少的技術(shù)。有時將近似計算與增量計算結(jié)合使用,在增量計算中,將對數(shù)據(jù)進行增量處理并相應(yīng)地更新結(jié)果。此技術(shù)也稱為增量近似計算。

在數(shù)據(jù)庫中提出了各種各樣的近似技術(shù)來進行近似查詢處理,包括采樣,草圖繪制,直方圖和在線聚集。這些技術(shù)最近已擴展到計算集群上的大數(shù)據(jù)。

4 總結(jié)

通過提高計算集群上大數(shù)據(jù)分析算法的可伸縮性,可管理性和性能,數(shù)據(jù)分區(qū)和采樣可以帶來巨大的好處。本文對大數(shù)據(jù)分析的分區(qū)和抽樣技術(shù)進行了綜述。盡管在計算群集上采用了關(guān)鍵的經(jīng)典分區(qū)方案,但基于采樣的新分區(qū)模型已成為提高可伸縮性的基礎(chǔ)。此外,這對于保證所選樣品的質(zhì)量以及產(chǎn)生更準確的近似結(jié)果至關(guān)重要。

參考文獻:

[1]劉張榕.基于大數(shù)據(jù)的半分布式僵尸網(wǎng)絡(luò)動態(tài)抑制算法[J].計算機與現(xiàn)代化,2020(08):109-113.

[2]向鴻鑫,楊云.不平衡數(shù)據(jù)挖掘方法綜述[J].計算機工程與應(yīng)用,2019,55(04):1-16.

[3]袁喆,文繼榮,魏哲巍,劉家俊,姚斌,鄭凱.大數(shù)據(jù)實時交互式分析[J].軟件學(xué)報,2020,31(01):162-182.

[4]王龍暉. 基于并行計算的調(diào)節(jié)閥大數(shù)據(jù)智能分析及建模方法研究[D].山東大學(xué),2019.

猜你喜歡
方法研究大數(shù)據(jù)
筏板基礎(chǔ)設(shè)計與計算方法研究
人間(2016年30期)2016-12-03 21:46:13
探尋提高農(nóng)村初中生寫作水平的方法
初中數(shù)學(xué)教學(xué)中情境創(chuàng)設(shè)的研究
如何提高學(xué)前教育專業(yè)聲樂課的教學(xué)質(zhì)量
戲劇之家(2016年22期)2016-11-30 18:32:23
數(shù)學(xué)教學(xué)中有效滲透德育方法的研究
考試周刊(2016年86期)2016-11-11 07:48:43
大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
科技視界(2016年20期)2016-09-29 10:53:22
數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 免费av一区二区三区在线| 久久免费精品琪琪| 久久综合成人| 色婷婷综合激情视频免费看| jizz在线观看| 国产在线一二三区| 国产乱子伦视频在线播放| 亚洲免费播放| 亚洲国产综合精品一区| 国产在线观看一区二区三区| 国产午夜福利亚洲第一| 亚洲国产日韩在线成人蜜芽| 97综合久久| 国产精品欧美在线观看| 欧美激情二区三区| 曰AV在线无码| 日本在线欧美在线| 青青国产视频| 欧洲在线免费视频| 伊人丁香五月天久久综合 | 中文字幕色在线| 欧美成人怡春院在线激情| 萌白酱国产一区二区| 免费无码又爽又黄又刺激网站| 亚洲国产成人无码AV在线影院L| 国产成人无码AV在线播放动漫 | 欧美亚洲激情| 亚洲三级视频在线观看| 精品人妻一区二区三区蜜桃AⅤ| 亚洲精品亚洲人成在线| 69国产精品视频免费| 亚亚洲乱码一二三四区| 国产精品午夜福利麻豆| 国产精品污污在线观看网站 | 国产精品亚洲欧美日韩久久| 亚洲成肉网| 乱人伦视频中文字幕在线| 在线观看免费黄色网址| 99久久免费精品特色大片| 国产尤物视频在线| 成人综合在线观看| 亚洲美女高潮久久久久久久| 免费激情网站| 伊人AV天堂| 精品国产自| 亚洲欧美另类久久久精品播放的| 99免费视频观看| 人妻丰满熟妇AV无码区| 中国精品久久| 国产91九色在线播放| 国产精品成| 国产一区二区三区免费| 国产一线在线| 在线免费无码视频| a亚洲天堂| 亚洲国产天堂在线观看| 国产精品久久自在自线观看| 91偷拍一区| 国产91导航| 日韩美女福利视频| 国产人成在线视频| 欧美激情综合一区二区| 久久精品国产免费观看频道| 91免费观看视频| 日韩 欧美 小说 综合网 另类| 中国精品自拍| 日本午夜精品一本在线观看| 内射人妻无套中出无码| 亚洲国产无码有码| 狼友视频一区二区三区| 亚洲精品麻豆| 亚洲无码37.| 在线观看国产精美视频| 亚洲精品麻豆| 少妇被粗大的猛烈进出免费视频| 亚洲AV免费一区二区三区| 黄色国产在线| 亚洲福利网址| 国产欧美精品专区一区二区| a网站在线观看| 国产综合日韩另类一区二区| 91亚洲精选|