999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Spark 的聚類算法探討

2020-01-10 02:21:50紀兆華王立東宋海英張小華
科學技術創新 2020年19期
關鍵詞:分析

紀兆華 王立東 宋海英 張小華

( 1、北京信息職業技術學院,北京100018 2、共青團內蒙古興安盟委員會,內蒙古 烏蘭浩特137400 3、興安職業技術學院,內蒙古 烏蘭浩特137400)

隨著信息技術深度的不斷發展, 積累的數據量產生了TB、PB、EB 級數據量。 傳統計算機的軟硬件不能夠支持足夠龐大的數據量的存儲、管理及數據分析能力,因此,針對大數據的分布式處理技術隨之產生, 主流的大數據處理平臺有Hdoop 和Spark。傳統的以Hdoop 為代表的數據處理技術不能滿足當前應用實時性以及迭代運算需求,Spark 作為基于內存計算大數據處理平臺以其高速、多場景適用的特點成為大數據平臺的后起之秀,Spark 中 的Spark SQL、Spark Streaming、MLlib 和graphX 被廣泛的應用在各領域,有望成為未來大數據分析的主流平臺。

1 Spark 的功能及體系結構

Spark 主要提供基于內存計算的開源, 能快速進行數據分析,具有通用性,是可擴展的分布式計算引擎。Spark 支持數據查詢、機器學習等業務場景,業務場景能無縫交叉融合,在不同應用中使用,可以快速的構建高性能大數據分析[1]。

Spark 的體系結構不同于Hadoop 的MapReduce 和HDFS,主要可分為三部分:Spark Core, 如: 彈性分布式數據集( RDD,resilient distributed datasets)、 上下文( Spark Context) 等實現Spark 系統中的計算、IO、 調度和shuffle 等系統基本功能;Spark Core 的上層建立的應用框架,如:Spark SQL 查詢子項目、支持機器學習的MLlib 庫、GraphX 圖計算以及支持流計算的Spark Streaming 等四大框架;其他實驗性項目,如:Tachyon、BlinkDB 和Tungsten 等,這些項目共同組成Spark 體系結構[2]。

Spark 用彈性分布式數據集進行數據抽象,可在內存中存儲數據,將中間處理數據全部放到了內存中,減少磁盤IO 達到性能的提升,大幅度的降低了運行時間[3]。

2 Spark 的特點

Spark 與其他大數據平臺不同的特點,主要如下:

2.1 處理速度快。 Spark 進行數據分析的速度快,彈性分布式數據集將執行的多個查詢工作集緩存到內存中,后面的數據查詢可以再次重用內存中的工作集,提高了查詢速度。

2.2 支持語言多。 Spark 支持的開發語言環境多, 如Java、Scala、Python 及R 等進行工作,應用范圍得到普及,允許在shell中進行交互式查詢,多種使用模式的特點讓應用更靈活。

2.3 支持復雜查詢。Spark 支持map 和reduce 操作,以及SQL查詢、流式查詢等復雜查詢,它們都基于RDD 這一抽象數據集在不同業務過程中進行轉換,轉換代價小,統一引擎解決不同類型工作場景。可在同一個工作流中無縫的搭配復雜查詢功能。

2.4 實施流處理。Spark 還支持實時流計算( Spark Streaming)用來對數據進行實時處理,允許用戶快速開發流應用程序,容錯能力強,集成性好,為流處理和批處理重用了同樣的代碼,可將流數據保存到歷史數據中

2.5 運行模式多。 Spark 可使用standalone 模式獨立的運行,也能在當下的YARN 管理集群中運行,還可以讀取已有的任何Hadoop 數據,在HBase、HDFS 等任何Hadoop 數據源上運行,并能讓用戶在已有Hadoop 應用遷移[4]。

3 基于Spark 的聚類算法

3.1 聚類算法

聚類算法把具有相同或者相似特征的無標簽的數據對象劃分為同一簇,同一簇的數據對象在在特征上盡可能相近或者相似,不同簇的數據對象盡可能不同或者相異,并且每個數據對象要保證只能劃分在同一簇。 同一簇的中心點向量的個數和位置以及相似性度量的選取為聚類算法的重點內容, 并通過聚類算法多次迭代執行找到最優的聚類結果。 聚類算法被分為如下幾類, 基于劃分方法有K-means 聚類算法、K-medoids 聚類算法等;基于層次方法有Agnes、Diana 等;根據密度方法有高斯混合(Gaussian mixture)等。 在聚類算法執行過程中,能否分析識別出來整體數據對象分布的稠密和稀疏區域,能否發現哪些是存在的孤立點或者鼓勵簇[5]。

3.2 常用的聚類算法K-mean

K-means 是最常用的聚類算法,從算法的執行過程來看,在每個類組中選取新的聚類中心點,通常使用歐式距離的多次迭代,達到最優解。 聚類的步驟通常包括如下幾個步驟:a.選擇需要進行聚類分析的數據;b.計算分析數據對象之間的相似度,對分析的結果做量化處理,在相似矩陣中存儲;c.采用聚類算法做聚類分析;d.把分析結果顯示出來。 首先選取要分析的數據空間的k 個數據對象作為中心點,每個數據對象代表一個聚類中心[6]。

3.3 支持機器學習的MLlib 庫

MLlib 是Spark 生態系統在機器學習領域的重要應用,是Spark 里的機器學習庫,提供了很多常用機器學習算法的分布式實現,如聚類、分類、回歸等。Spark MLlib 庫中的K-means 算法,使用map 分布式讀取數據集,數據集讀取后,cache 進內存里。計算時, 選取用map 鍵值對表示隨機挑選出來的k 個聚類中心,Spark 的驅動器節點負責把數據發送到各個工作節點, 實現具體的計算任務。Spark MLlib 擴展性強、運行速度快,充分利用RDD 的迭代優勢,能對大規模數據應用機器學習模型,并能與Spark Streaming、Spark SQL 進行協作開發應用, 讓機器學習算法在基于大數據的預測、推薦和模式識別等方面應用更廣泛[7]。

使用Spark MLlib 做機器學習很簡單,首先對原始數據進行數據處理, 然后直接調用相應的API 實現分析數據。Spark MLlib 不同于傳統的機器學習工具,Spark MLlib 提供了簡單易用的API, 特別是Spark 能夠高效的處理 大數據,并且在迭代計算時具有較強的優勢。 因此,需要熟悉MLlib 的API就可以開始數據分析工作

結束語

Spark 是一個開源分析處理大數據平臺,基于Spark 的聚類算法在圖像分析、Web 文本分類、生物科學、客戶分群、市場營銷、 欺詐檢測以及信息安全與管理等領域有著廣泛的應用,為應對現實環境中復雜的場景,與不同的框架結合使用,發揮了更好的性能。 Spark 能快速處理多種場景下的大數據問題,高效挖掘大數據中的價值,為業務發展提供決策支持。

猜你喜歡
分析
禽大腸桿菌病的分析、診斷和防治
隱蔽失效適航要求符合性驗證分析
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統及其自動化發展趨勢分析
經濟危機下的均衡與非均衡分析
對計劃生育必要性以及其貫徹實施的分析
現代農業(2016年5期)2016-02-28 18:42:46
GB/T 7714-2015 與GB/T 7714-2005對比分析
出版與印刷(2016年3期)2016-02-02 01:20:11
中西醫結合治療抑郁癥100例分析
偽造有價證券罪立法比較分析
在線教育與MOOC的比較分析
主站蜘蛛池模板: 日本亚洲最大的色成网站www| 精品视频福利| 久久综合色视频| 国产欧美在线观看精品一区污| www欧美在线观看| 国产成人免费手机在线观看视频| 国产成人无码AV在线播放动漫| 粗大猛烈进出高潮视频无码| 怡春院欧美一区二区三区免费| www.youjizz.com久久| 亚洲VA中文字幕| 国产视频入口| 岛国精品一区免费视频在线观看| 在线播放国产99re| 成人中文在线| 五月激情婷婷综合| 大学生久久香蕉国产线观看| 亚洲免费播放| 国产色婷婷| 国产综合亚洲欧洲区精品无码| 欧美精品高清| 欧美精品黑人粗大| 亚洲国产精品人久久电影| 午夜天堂视频| 国产精品9| 人禽伦免费交视频网页播放| 久久久久久久97| 国产交换配偶在线视频| 啪啪永久免费av| 永久免费无码成人网站| 日韩无码视频网站| 国产麻豆精品手机在线观看| 国产国模一区二区三区四区| 亚洲中文字幕在线精品一区| 国产精品久久国产精麻豆99网站| aaa国产一级毛片| 欧美日韩国产系列在线观看| 欧美精品v欧洲精品| 99草精品视频| 97狠狠操| 国产91线观看| 一本色道久久88| 欧美精品H在线播放| 国产黄在线免费观看| 欧美国产日韩一区二区三区精品影视 | 欧美日韩国产在线人成app| 免费在线色| 国产成熟女人性满足视频| 久久女人网| 在线观看国产精品第一区免费| 91精品小视频| 久久一级电影| 精品自窥自偷在线看| 四虎影视无码永久免费观看| 国产在线97| 一级毛片在线免费视频| 午夜精品一区二区蜜桃| 波多野结衣在线se| 国产在线视频自拍| 亚洲欧美综合另类图片小说区| 婷婷五月在线视频| 国产va在线观看免费| 欧美中文字幕在线二区| 制服丝袜在线视频香蕉| 国产福利大秀91| 91福利在线观看视频| 久久久成年黄色视频| 99精品国产自在现线观看| 精品夜恋影院亚洲欧洲| 一区二区三区在线不卡免费| 91小视频版在线观看www| 亚洲国产清纯| 婷五月综合| 成人福利在线免费观看| 婷婷成人综合| 波多野结衣视频一区二区 | 伊人丁香五月天久久综合| 国产美女无遮挡免费视频| 中日韩欧亚无码视频| 中国丰满人妻无码束缚啪啪| 国产欧美一区二区三区视频在线观看| 丰满少妇αⅴ无码区|