999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據處理平臺Spark研究

2017-11-09 09:44:53溫向慧西北師范大學計算機科學與工程學院
數碼世界 2017年9期
關鍵詞:數據處理

溫向慧 西北師范大學計算機科學與工程學院

大數據處理平臺Spark研究

溫向慧 西北師范大學計算機科學與工程學院

隨著大數據時代的到來,傳統的單機模式已經不能滿足大規模數據分析處理的需求。Spark是專門針對海量數據設計的通用并行計算引擎。Spark啟用了彈性分布式數據集RDD,能夠在內存中進行多次迭代計算,其高端的設計理念,為大型應用程序的構建奠定了基礎。

海量數據 Spark RDD 迭代計算

1 引言

Apache Spark是由加州伯克利分校AMP實驗室開發的,用scala語言實現的一種通用計算框架,具有運行速度快、使用方便、適應性好、易于部署等特點。Spark實現了一個集群的分布式內存抽象(RDD),RDD(Resilient Distributed Dataset)是一個只讀的記錄分區的集合,運行于內存中。Spark使用有向無環圖(DAG)設計,與Hadoop相比,其操作簡單,使用簡潔的代碼就能處理大規模數據問題。它可以訪問不同的數據源,包括HDFS,Cassandra,HBase和S3。Spark可以使用其獨立集群模式,也可以運行在EC2,Hadoop YARN或Apache Mesos上。

2 Spark生態系統

Spark生態系統如下圖所示,包含多個組件:Spark SQL、Spark Streaming、MLlib Graph X等。SparkSQL用于查詢Spark程序中的結構化數據,Spark Streaming用于實時流處理,MLlib用于機器學習中,Graph X用于圖計算,它們能夠使用RDD無縫的集成,形成一站式的處理平臺,使應用程序的開發變得簡單。

Spark生態系統

2.1 SparkSQL技術

Spark SQL是Spark框架的一部分,用于查詢和分析結構化的海量數據。它提供了一個分布式的SQL查詢引擎DataFrames,是一種分布式數據集合,由“命名列”組織而成,相當于關系型數據庫中的數據表。DataFrames和SQL提供了訪問各種數據源的常用方法,這些數據源包括Hive,Avro,Parquet,ORC,JSON和JDBC。另外SQL接口還可以與不同數據源的數據交互。Spark SQL在使用時先將外部數據源轉化為DataFrames,再進行查詢和轉換,最后將處理結果存儲或展示,實用性較好。

2.2 SparkStreaming技術

SparkStreaming是一個高吞吐量、高容錯的實時流處理系統。它不是直接的流式處理,而是將數據流切分成短小的批處理作業,例如以1秒為時間片切分,每個時間片數據都是一個RDD,可以使用RDD的轉換、行動操作來處理每個時間片數據。每個RDD都會產生一個Job處理,最后的結果也是返回多個時間片數據。SparkStreaming支持從多種數據源獲取數據,包括Kafka、Kinesis、Twitter、TCP sockets、Flume以及ZeroMQ,從數據源獲取數據之后,可以用Map、Reduce、Join和Filter等高級操作處理大規模復雜數據,最后將處理結果存儲或展示。由于Spark是短小的批處理方式,所以對一些實時性要求較高的應用來說不適合,比較適合實時處理與歷史處理相結合的應用場景。

2.3 MLlib技術

MLlib是Apache Spark可擴展的機器學習庫,其中包含許多常用的機器學習算法、實用程序和工具類,機器學習算法有分類、聚類、回歸、推薦、決策樹、主題建模等,實用程序包括特征轉換、模型評估等,還有一些其他工具如:分布線性代數、統計。因為Spark的優勢是迭代計算,所以對于一些多次迭代的機器學習算法,SparkMLlib的效果遠遠優于MapReduce。同時,MLlib的出現讓機器學習的門檻降低,使一些對ML算法不了解的用戶也能方便的處理數據。

2.4 GraphX技術

GraphX是基于Spark的圖計算框架,存儲單位是RDD,可以用于大規模的圖計算,如社交網絡關系等。GraphX主要描述的是有向圖,即包括頂點和邊兩種屬性的圖,它提供了三種視圖,分別是:頂點(Vertex)、邊(Edge)和邊三元組(EdgeTriplet),圖計算就是在以上三種視圖上進行的。GraphX實現了一些常用的圖算法模型,如相鄰頂點收集算法、PageRank算法、圖中三角形統計算法、pregel圖計算框架等等。在GraphX上實現的一系列經典的圖算法使得用戶在Spark上編寫程序更加簡單。

3 結束語

在大數據環境下,傳統的單機模式已不能處理海量數據。Hadoop雖然能處理大規模數據,但它更加擅長離線的批量數據,且耗時長。Spark既能處理流式數據又能處理批量數據,它使用RDD的內存抽象,使得代碼的編寫變得簡潔,以其內存計算的優勢,大大加快了數據處理速度,擁有的各個組件具有各自的優勢,各組件數據也能通過RDD交互,構成了一站式的大數據分析處理平臺。由此可看出,Spark擁有先進的設計理念,是大數據處理平臺的首選。

猜你喜歡
數據處理
驗證動量守恒定律實驗數據處理初探
認知診斷缺失數據處理方法的比較:零替換、多重插補與極大似然估計法*
心理學報(2022年4期)2022-04-12 07:38:02
ILWT-EEMD數據處理的ELM滾動軸承故障診斷
水泵技術(2021年3期)2021-08-14 02:09:20
ADS-B數據處理中心的設計與實現
電子測試(2018年4期)2018-05-09 07:28:12
MATLAB在化學工程與工藝實驗數據處理中的應用
基于希爾伯特- 黃變換的去噪法在外測數據處理中的應用
大數據處理中基于熱感知的能源冷卻技術
計算機工程(2015年4期)2015-07-05 08:28:04
Matlab在密立根油滴實驗數據處理中的應用
數據處理能力在求職中起關鍵作用
我國首個“突發事件基礎數據處理標準”發布
主站蜘蛛池模板: аⅴ资源中文在线天堂| 国产杨幂丝袜av在线播放| 鲁鲁鲁爽爽爽在线视频观看| 国产黄色爱视频| 国产欧美日韩专区发布| 免费又爽又刺激高潮网址| 国产aaaaa一级毛片| 日本一区中文字幕最新在线| 国产在线精品香蕉麻豆| 有专无码视频| 国产视频自拍一区| a级高清毛片| 国产va欧美va在线观看| 波多野结衣无码中文字幕在线观看一区二区| 日韩免费中文字幕| 国产JIZzJIzz视频全部免费| 污污网站在线观看| 国产高清无码麻豆精品| 91无码网站| 国产精品免费露脸视频| 国产另类视频| 欧美激情综合| 九色视频最新网址| 四虎影视国产精品| 热久久综合这里只有精品电影| 9cao视频精品| 少妇露出福利视频| 日韩av高清无码一区二区三区| 亚洲一区二区约美女探花| 中文字幕不卡免费高清视频| 综合天天色| 毛片三级在线观看| 露脸真实国语乱在线观看| 亚洲日韩在线满18点击进入| 欧美一区二区三区不卡免费| 中文字幕在线欧美| 欧美精品色视频| 亚洲人人视频| 亚洲系列中文字幕一区二区| 国产精品永久久久久| 无码AV日韩一二三区| 午夜福利视频一区| 国产主播喷水| 日本妇乱子伦视频| 久久精品娱乐亚洲领先| 91精品国产自产在线老师啪l| 国产性爱网站| 久久久久久尹人网香蕉| 国产女人在线| 极品私人尤物在线精品首页 | 孕妇高潮太爽了在线观看免费| 久久亚洲欧美综合| 国产97色在线| 好吊色国产欧美日韩免费观看| 欧美中文字幕在线播放| 亚洲品质国产精品无码| 午夜激情婷婷| 国产人人射| 国产成人av一区二区三区| 伊人精品视频免费在线| 中文字幕色站| 久久美女精品| 区国产精品搜索视频| 国产综合色在线视频播放线视| 欧美午夜小视频| 国产精品短篇二区| www.av男人.com| 国产综合精品一区二区| 亚洲精品亚洲人成在线| 国产精品林美惠子在线观看| 国产成人精品视频一区二区电影| 国产成人高清精品免费软件| 久久久噜噜噜| 91视频青青草| 亚洲制服丝袜第一页| 欧美在线黄| jizz在线观看| 国产精品播放| 色婷婷色丁香| 国产乱子伦视频在线播放| 亚洲国产成人精品一二区| 亚洲色图综合在线|