999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據計算框架與平臺分析

2019-12-24 03:07:30李蘭鳳馬佳榮
網絡安全技術與應用 2019年9期
關鍵詞:容錯性分析

◆李蘭鳳 馬佳榮

大數據計算框架與平臺分析

◆李蘭鳳 馬佳榮

(西安文理學院 陜西 710065)

隨著互聯網、物聯網等技術得到越來越廣泛的應用,數據規模不斷增加,對數據的處理已無法由單臺機器完成,只能由多臺機器共同承擔計算任務。本文對近幾年來的大數據處理與分析的相關資料進行整理研究,討論了批處理計算、流計算、交互分析和圖計算四種大數據計算模式,分析了不同的大數據計算模式下常用的計算框架與平臺。

大數據;批處理;流計算;交互分析;圖計算

隨著互聯網和物聯網等技術的出現,數據規模越來越大,數據類型多種多樣,數據來源復雜多變,隨之大數據概念被提出。近年來,企業、學術界和政府都對大數據的巨大潛力產生了興趣,大數據也逐漸被熟知。本文對大數據進行簡析,重點分析了幾種常用的大數據計算框架與平臺。

1 大數據概述

最早應用大數據的是美國的麥肯錫公司,該公司最先提出了大數據時代的到來。對于大數據至今沒有公認的定義,麥肯錫公司在《大數據:創新、競爭和生產力的下一個前沿領域》報告中給出的大數據的定義是大小超出常規的數據庫工具進行獲取、存儲、管理和分析能力的數據集。一般來說大數據可以用5V[1]模型來描述,它是從3V模型擴展而來的,5V模型指的是大數據的5個特征,即Volume,Velocity,Variety,Value,Veracity。

Volume指數據量大,隨著海量數據的產生和收集,數據規模變得越來越大。目前企業的數據量已經躍升到PB級別。

Velocity指大數據的時效性,即必須快速、及時地進行數據的收集和分析,以最大限度地利用大數據的商業價值。

Variety指數據具有多樣性,數據來源豐富,數據類型和格式多樣,不僅包括傳統的結構化數據,還包括如音頻、視頻、網頁和文本等半結構化和非結構化數據。

Value指數據的價值,雖然數據從不同的渠道產生,但有一點很重要,即今天的數據蘊含價值。數據本身是一種“商品”,可以賣給第三方獲得收入。此外,通過分析數據有助于預算決策,從而獲取價值。

Veracity指數據的準確性,盡管數據是蘊含價值的,但只有真實準確的數據才能提供決策支持,體現數據的價值。高質量的數據能夠影響決策的準確性和有效性。

2 大數據計算框架與平臺分析

大數據計算框架負責對大數據系統中的數據進行計算,目前的大數據計算框架有很多,本文主要介紹批處理計算、流計算、交互式計算和圖計算四種模式下的計算框架。

2.1 批處理計算框架與平臺

批處理計算模式對存儲的大規模靜態數據進行計算,等到全部處理完成后返回有價值的結果。目前用于批處理計算的框架和平臺主要有以下幾種:

(1)MapReduce計算框架

MapReduce[2]是一種分布式并行計算框架,廣泛用于大規模批處理計算中。MapReduce將并行計算過程抽象為map和reduce兩個函數,存儲在系統中的數據集被拆分成許多子集在多臺機器上執行。其中,一臺機器作為master負責作業和任務的調動,其他機器作為worker承擔master指派的任務。master將拆分的數據片分配給空閑的worker,執行map任務的worker處理相應的分片,生成對,并將它們寫到中間文件(磁盤上或內存中);master通知執行Reduce任務的worker自己所處理任務的存儲位置,執行Reduce任務的worker讀取中間數據,然后根據Reduce函數處理數據,最后將數據寫入輸出文件。

MapReduce以其良好的性能得到了學術界和工業界的廣泛關注和應用。簡單性、可伸縮性和容錯性是MapReduce框架的三個主要顯著特性。它允許一個沒有經驗的程序員開發并行程序,并創建一個能夠在云中使用計算機的程序。可以通過增加機器來擴展其計算能力,處理大規模離線數據。當某個設備故障,可以轉移任務至其他設備而保障任務執行不受影響。盡管MapReduce有著巨大的優勢,但它也存在局限性。首先,MapReduce訪問數據時延遲高,執行時間耗時長,不適合交互式處理和基于事件的實時在線流計算。其次,在迭代計算時,每次迭代都需要啟動MapReduce作業,開銷較大,計算時間顯著增加,因此也不適用于迭代計算(圖計算、機器學習等)。

(2)Hadoop數據處理平臺

Hadoop是基于java的開源分布式計算平臺,靈感來自谷歌的BigTable、文件系統(GFS)和MapReduce。它的核心部分包括一個MapReduce組件和一個可伸縮性存儲組件Hadoop分布式文件系統(HDFS)。

HDFS[2]用于存儲計算過程中的中間態結果和最終結果,支持海量數據和冗余數據的存儲,具有較快的讀寫速度、較高的數據安全性、很好的容錯性和可伸縮性。MapReduce是針對Google MapReduce的開源實現,用于大規模數據的并行計算。Hadoop中的MapReduce計算模型允許直接用Java、python、R、SQL等編程語言編寫數據分析任務的程序。此外,Hadoop還具有較高的擴展性,hadoop的許多核心組件,如調度程序、存儲子系統、壓縮算法、緩存層和監控等均可進行定制和替換。

Hadoop以其高效性、可擴展性、可靠性、容錯性、低成本以及支持多種編程語言而受到歡迎,成為公認的行業大數據標準開源軟件,目前被廣泛用于Web索引、推薦系統和日志分析以及某些大規模的信息提取和機器學習任務等方面。亞馬遜、Facebook、淘寶和Twitter等領先的技術公司都在使用Hadoop。Hadoo雖然在各方面性能良好,但是其需要大量的Java專業知識來開發并行程序,缺乏強大的統計和可視化工具,數據訪問延遲高,而且不支持多用戶寫入和修改文件。

(3)Dryad計算框架

Dryad[3]是微軟的分布式并行計算平臺。包括Dryad和DryadLINQ兩個重要項目。Dryad是微軟云計算基礎設施的重要核心技術之一,它不僅是并行計算編程模型也是任務調度模型。Dryad的任務執行用有向無環圖(DAG)來表述,圖中的頂點表示程序,邊表示通道,而任務就是圖形生成器,可以合成任何有向無環圖,這些圖可以在執行過程中根據計算中發生的事件而改變。

DryadLINQ是分布式編程語言,它結合了Dryad和LINQ技術,將使用LINQ編寫的程序轉化為Dryad上的可運行程序,在延續了LINQ特性的同時,為更好適應分布式計算的需求,擴展了操作符以及數據類型。DryadLINQ允許程序員使用計算機集群或數據中心的資源來運行數據并行程序,而不需要程序員掌握高深的編程知識。Dryad具有良好的容錯性和擴展性,底層的數據存儲支持數據備份,但是僅適用于批處理計算,滿足不了對實時任務的需求,其數據模型只適用于流式數據訪問而不支持隨機訪問。

2.2 流計算框架與平臺

流計算實時獲取來自不同數據源的海量數據,經過實時分析,得出有價值的結果,目前用于流計算的框架和平臺主要有Storm、S4和Spark等。

(1)Storm框架

Storm[4]是一個開源的分布式實時計算系統,它使得可靠地處理無界數據流變得很容易。就像Hadoop在批處理中的意義一樣,Storm在實時處理中也有相同的意義。Storm運行在分布式集群上,與Hadoop相似也采用主從式架構,主控節點master上運行Nimbus程序,負責集群范圍的資源分配、狀態監控、故障檢測并為worker進行任務分配,從節點worker有多個,其上運行supervisor程序,負責監聽和接收Nimbus分配的任務,并根據其分配的任務選擇啟動或停止worker工作進程。Nimbus和Supervisor之間的協調工作是通過分布式協調組件zookeeper完成的,保證了Storm的可靠性。

Storm支持多種編程語言,配置和操作簡單,處理速度快,具有較高的擴展性和容錯性,常用于實時分析、連續計算、在線機器學習等領域。

(2)Apache S4框架

Apache S4[5]是Yahoo發布的一個通用的分布式流計算平臺,它允許程序員輕松地用于開發處理連續無界數據流的應用程序。在S4中任務被分解為更多小的流事件,其計算由多個計算單元(PE)相互配合完成,S4采用的是對等架構,沒有中心節點,所有節點都是等同的,節點主要任務是監聽并分發接收到的事件,在接收到事件后調用合適的PE進行處理,PE之間通過消息形式傳輸。每個PE的狀態是其他PE無法訪問的;事件排放與消費是PE之間唯一的交互模式。S4中節點的對等特性使系統在某個節點失效的情況下仍能進行時間的處理,極大地提高了系統的性能,但是會造成數據的丟失,同時S4也不支持動態部署,缺乏自動均衡負載的能力。

(3)Spark框架

Apache Spark[6]是加州大學伯克利分校的AMPLab開發的基于內存計算的輕量型計算框架,目前主要運行垃圾郵件過濾和流量預測等大規模應用程序。Spark支持批處理、交互式分析、流計算和迭代計算等多種計算模式。Spark將數據存儲在抽象的彈性分布式數據集(RDD)中,Spark 將RDD數據集的操作結果存到內存中,方便下次操作可以直接從內存中讀取數據,減少了大量磁盤I/O操作,提升了集群的數據處理速度。Spark 還提供了內存中的集群計算和Scala、Java、Python等API,支持多種編程語言,對編程人員來說簡單易用。但Spark分析目前仍大多依賴于Hadoop的HDFS。

2.3 交互式計算框架

交互式分析是指對數據進行處理,允許用戶進行自己的信息分析,目前的交互式計算工具有Apache Drill、Apache Kylin、Impala、presto、Spago BI等,其中最具代表性的是Apache Drill。

Apache Drill是谷歌Dremel系統的開源實現,是一個可伸縮的交互式查詢系統,用于對大規模數據集進行交互分析。Drill的核心是DrillBit服務,它主要負責接收來自客戶端的請求,處理查詢任務并將結果返回。Drill數據靈活、SQL查詢延遲低、支持多數據源。Drill的設計方向是支持更多的查詢語言、數據源和數據格式,能夠擴展更多的服務器,能夠在幾秒鐘內處理PB級的數據和數萬億的記錄。

2.4 圖計算框架

圖計算主要對大規模圖結構數據進行計算,能夠非常好的表示數據之間的關聯性。圖計算平臺有很多,如Pregel、Giraph、Hama、GiraphX、powerGiraph等,目前最常用的是GiraphX。

GiraphX[7]是一個分布式圖計算框架,它是基于分布式平臺Spark的,提供給你了豐富的接口,提高了分布式圖處理的需求,同時GiraphX還對Spark RDD進行了擴展,它有Table和Graph兩種視圖,這兩種視圖共用一份物理存儲,而且都有自己特有的操作符,這使得操作更加靈活、執行更加高效,也降低了平臺中計算和存儲的開銷。

3 結束語

大數據分布式計算是大數據技術的核心,目前已經得到了迅猛的發展。不同的計算模式滿足不同應用的需求,這些計算模式彼此之間可以相互配合,并不是完全獨立的。特別是隨著用戶應用需求越來越多樣化,要求越來越高以及新技術的不斷出現,其所需要的計算模式也需要不斷地變化,這迫使各種計算框架也在不斷地改進,并相互競爭。這些問題都對各計算框架的吞吐量、系統開銷、實時性以及響應速度等性能提出了更高的要求,也成為大數據計算框架需要改進的方向。因此,大數據計算框架依然是大數據今后研究的重點。

[1]Lomotey R K ,Deters R . Towards Knowledge Discovery in Big Data[C].IEEE International Symposium on Service Oriented System Engineering. IEEE Computer Society, 2014:181-191.

[2]林子雨.大數據技術原理與應用:概念、存儲、處理、分析與應用[M].人民郵電出版社,2015.

[3]鄭緯民.從系統角度審視大數據計算[J].大數據,2015, 1(1):10-19.

[4]趙娟,程國鐘.基于Hadoop、Storm、Samza、Spark及Flink大數據處理框架的比較研究[J].信息系統工程,2017(6):117-117.

[5]趙晟,姜進磊.典型大數據計算框架分析[J].中興通訊技術,2016,22(2):14-18.

[6]楊寧,黃婷婷.基于Spark的大數據分析工具Hive的研究[J].計算機時代,2018,317(11):35-39.

[7]米沃奇.大數據分析系統Hadoop的13個開源工具[J]. 電腦知識與技術(經驗技巧),2018(07):107-109.

[8]孫海. Spark的圖計算框架:GraphX[J].現代計算機, 2017(9):120-122.

猜你喜歡
容錯性分析
基于N-gram相似度增強蛋白質肽段組裝的方法
隱蔽失效適航要求符合性驗證分析
大擺臂分流器在行李處理系統中的應用設計
科技資訊(2019年7期)2019-06-17 01:24:12
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于一致性哈希的高可用多級緩存系統設計
電力系統及其自動化發展趨勢分析
基于認知心理學的交互式產品的容錯性設計研究
工業設計(2016年8期)2016-04-16 02:43:26
基于免疫算法的高容錯性廣域保護研究
電測與儀表(2015年2期)2015-04-09 11:28:56
基于多Agent的有限廣域方向比較算法與仿真實現
中西醫結合治療抑郁癥100例分析
主站蜘蛛池模板: 91精品综合| 国产99热| 91色爱欧美精品www| 久久久久人妻精品一区三寸蜜桃| 国产91成人| 高清久久精品亚洲日韩Av| 亚洲中文久久精品无玛| 国产午夜精品一区二区三区软件| 婷婷午夜影院| 伊人色在线视频| 免费国产小视频在线观看| 亚洲第一区欧美国产综合| 中文成人在线视频| 91香蕉视频下载网站| 国产成人你懂的在线观看| 九九视频在线免费观看| 2019国产在线| 亚洲成人免费看| 免费中文字幕一级毛片| 看你懂的巨臀中文字幕一区二区 | 中文无码日韩精品| 国产视频久久久久| 国产视频入口| 18禁黄无遮挡免费动漫网站| 色综合久久88色综合天天提莫 | 高清无码手机在线观看| 国产又色又刺激高潮免费看| 亚洲成a人在线观看| 国产日韩欧美在线视频免费观看| 97国产一区二区精品久久呦| 欧美高清国产| 青青草原国产精品啪啪视频| 亚洲国产成熟视频在线多多| 欧洲高清无码在线| 亚洲成在人线av品善网好看| 国产日韩欧美中文| 国产SUV精品一区二区| 亚洲成人动漫在线| 色综合天天综合| 熟女日韩精品2区| 国产精品不卡永久免费| 波多野结衣无码中文字幕在线观看一区二区| 国产一区二区三区精品欧美日韩| 国产欧美在线视频免费| 欧美精品影院| 一级毛片不卡片免费观看| 国产一区二区人大臿蕉香蕉| 欧美日韩亚洲国产| 国产成年无码AⅤ片在线| 在线国产综合一区二区三区| 精品国产香蕉在线播出| 青青青视频91在线 | 人人91人人澡人人妻人人爽| 免费AV在线播放观看18禁强制 | 激情五月婷婷综合网| 亚洲青涩在线| 视频一区视频二区日韩专区| 国产一区三区二区中文在线| 国产福利不卡视频| 欧美自拍另类欧美综合图区| 免费a在线观看播放| 秘书高跟黑色丝袜国产91在线| 国产日韩欧美成人| 国产又色又爽又黄| 欧美日韩北条麻妃一区二区| 好吊妞欧美视频免费| 国产福利影院在线观看| 99精品国产自在现线观看| 熟妇人妻无乱码中文字幕真矢织江 | 日韩欧美国产另类| 国产微拍一区二区三区四区| 九九热在线视频| 久久77777| 亚洲成人精品在线| 久久亚洲天堂| 无码不卡的中文字幕视频| 日韩在线播放中文字幕| 免费高清自慰一区二区三区| 精品亚洲麻豆1区2区3区| 蝴蝶伊人久久中文娱乐网| 精品一区二区三区无码视频无码| 一级毛片在线播放免费观看|