999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于QingStor對象存儲的數據湖解決方案

2019-03-23 06:02:29青云QingCloud
智能制造 2019年9期
關鍵詞:成本分析

一、數據湖

數據湖在學術上的定義是一種在系統或者存儲庫以自然格式存儲的方法。它有助于存儲各種模式和結構形式的數據,通常是對象塊或者文件。

為什么現在會提出新的自然存儲格式方法?以前如何存儲數據?在使用數據倉庫時需調動處理大量的數據。正是因為大數據的產生,提出了數據湖的概念。

大數據來了,它就像水一樣,我們無法把水存在傳統的倉庫里。一是它太大了,二是它很廉價,三是它的形態不一樣了。大數據速度大快,就像洪水一樣,在使用過程中沒法做減庫、入庫的操作,要快速以自然的格式存儲。因此,傳統數據倉庫存的是結構化數據,數據湖里存的是非結構化、半結構化的數據。

二、數據湖實踐報告

采用數據湖存儲數據的原因,一方面是現階段及未來需要處理大量非結構化的數據,另一方面是為了機器學習和人工智能的分析使用。數據湖的產生會把數據倉庫的一部分功能移植到數據湖中,數據湖的成本比數據倉庫的成本更低廉。

經過使用調研,近一半的人認為企業使用數據湖已經迫在眉睫,四分之一的人認為已經部署了數據湖,另外四分之一的人會在一年內部署數據湖。

很多人把傳統數據放在數據湖里,數據湖不光有原始數據,它也有大量的數據加工處理工作。它的數據量在不斷增加,逐步邁向PB級。

從數據管理來說,數據湖還是由傳統的數據倉庫團隊管理和IT部門管理,業務部門只占少數。大部分是工程師、架構師和分析師在用數據湖,業務員和非技術人員用得比較少。

從架構和平臺的采納方面來說,目前數據湖以Hadoop為多,傳統數據可以采用關系型數據湖,二者結合使用的也很好。

三、HashData云端數據湖解決方案

在青云QingCloud上的數據湖包括存儲、分析和搜索幾個模塊。存儲用的是QingStor對象存儲;分析用的是HashData V2版本計算引擎;數據攝取用的是QingMR,結合Kalka做存儲;機器學習除了配有QingMRSteaming和SparkMR,還有SQL機器學習的工具。

在存儲方面,大家對數據湖的需求是數據湖要存得住、存得起。對象存儲支持海量的數據存儲,可以無限擴展,存大數據沒問題。存得起,就要我們提供一個經濟實用的存儲。從存儲角度來看,如果使用對象存儲,會大幅降低數據湖的存儲成本。

存儲成本降下來了,如何保證你的計算性能?從計算層面,HashData采用了V2架構。

(1)物聯網客戶使用實例

HashDataV1版本在塊存儲磁盤上,大概有2萬IoT傳感器設備,每時每刻都在不斷地產生數據,數據膨脹得非常厲害。如何按照客戶需求降低成本?通過青云的測試分級存儲機制,實現了既大幅降低了存儲成本,又保證了查詢性能的目標。

HashDataV2的架構繼承了GreenPlum體系,用SQL解決問題,這簡化了數據湖的使用。

(2)大數據工具

大數據應用對實時性要求比較高。目前用得比較多的三個工具:Storm、Spark Steaming和FLink。對比Spark Steaming和Storm:

實時性:Spark Steaming從計算模型來看是準實時;Storm是實時的,數據進入后便實時進行處理。

延時性:Storm達到毫秒級,Spark Steaming達到秒級。

存儲量:Spark Steaming更3<-點,它更符合大數據的處理需求,實現秒級接受可滿足一般應用場景需要。若產生幾萬條乃至10萬條數據方可批量寫入,不需要逐條寫。

HashData標配是采用SparkSteaming做實時數據的攝取。

機器學習分析Spark MLab是通用的,更多的是做MADlib,MADlib是Apache的頂級開源項目,只在PostgreSQL和GreenPlum體系里可以用。它的特點是基于SQL,以前用Spark做機器學習,用Python、Skyline或R。SQL大部分工程師都會用,學一兩周就能簡單上手。Spark能做的具體功能,它也可以做。它也是InDatabase的數據分析,數據湖就在其所屬的平臺上,如果要采用另外的工具分析,這里有大量的數據交換。它在Base里減少數據交換,并且可以充分利用HashData的并行計算,可以保證其性能。

四、云端數據治理和數據安全

前面談到數據治理和數據安全。HashData秉承PostgreSQL和GreenPlum完整的權限管理功能,如Table、Database和Funtcion等。

在元數據管理上,存到HashData里的表和字段,除了存到數據節點上之外,還會把元數據存到GlobalCatalog上,這時數據治理工具或者DPU管理員可清楚地知道存到數據湖里有哪些數據、什么時候存的、數據有多大都可一目了然,數據治理非常方便。

HashData主要應用場景就有工業數據湖。工業數據湖IoT有大量的數據需要做分析、預測性維修等。一部分是電信用戶行為分析、日志分析;還有交通大數據處理工作,例如卡口信息,在工作范圍內大量拍照,拍照后人工智能攝像頭可以很方便地把牌照信息進行結構化處理解析出來,結構化數據的存到HashData上,如牌照、車牌顏色等都存在數據庫里,并進一步分析其流量、高速公路繳費信息等。

總結來說,HashData的優勢是把它放在對象存儲的成本降下來了,同時保證性能不變。HashData也繼承了云的特點,通過鼠標操作就可以在幾分鐘內把集群起起來,不需要花一兩天的工夫安裝部署。技術生態秉承了原來GreenPlum、PostgreSQL這種用SQL解決問題的思路。在彈性方面,HashData支持在線擴容。

猜你喜歡
成本分析
2021年最新酒駕成本清單
河南電力(2021年5期)2021-05-29 02:10:00
隱蔽失效適航要求符合性驗證分析
溫子仁,你還是適合拍小成本
電影(2018年12期)2018-12-23 02:18:48
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
鄉愁的成本
特別健康(2018年2期)2018-06-29 06:13:42
“二孩補貼”難抵養娃成本
電力系統及其自動化發展趨勢分析
中西醫結合治療抑郁癥100例分析
在線教育與MOOC的比較分析
獨聯體各國的勞動力成本
主站蜘蛛池模板: 伊人久久婷婷| 多人乱p欧美在线观看| 三级国产在线观看| 国产专区综合另类日韩一区| 成人在线亚洲| 亚洲Av激情网五月天| 在线欧美国产| 亚洲欧美不卡| 国产精品手机在线观看你懂的| 国产国模一区二区三区四区| 97在线公开视频| 国产91导航| 内射人妻无码色AV天堂| 国产内射一区亚洲| 中文字幕乱码中文乱码51精品| 中文字幕久久精品波多野结| 丁香六月激情综合| 日韩一二三区视频精品| 成年片色大黄全免费网站久久| 日日噜噜夜夜狠狠视频| 免费A∨中文乱码专区| 91 九色视频丝袜| 国产杨幂丝袜av在线播放| 亚洲av无码人妻| 久久精品只有这里有| 色悠久久久久久久综合网伊人| 精品乱码久久久久久久| 狠狠色综合久久狠狠色综合| 国产成人h在线观看网站站| 欧美笫一页| a国产精品| 日韩高清在线观看不卡一区二区| 国产色婷婷| 国产综合日韩另类一区二区| 这里只有精品国产| 九色在线视频导航91| 久久人搡人人玩人妻精品| 亚洲区第一页| 国产成本人片免费a∨短片| 日韩123欧美字幕| 亚洲成人动漫在线观看 | 毛片a级毛片免费观看免下载| 亚洲成综合人影院在院播放| 国产手机在线观看| 日韩欧美在线观看| 亚洲欧美日韩色图| 欧美精品亚洲精品日韩专区| 成人免费黄色小视频| 不卡无码网| 88国产经典欧美一区二区三区| 久久精品日日躁夜夜躁欧美| 精品国产免费观看一区| 在线观看的黄网| 69国产精品视频免费| 日日噜噜夜夜狠狠视频| 日韩精品少妇无码受不了| 精品偷拍一区二区| 美女毛片在线| 在线国产资源| 日本伊人色综合网| 97se亚洲综合在线天天| 国产在线自在拍91精品黑人| 在线精品视频成人网| 欧美日韩第二页| 国产欧美又粗又猛又爽老| 亚洲精品动漫在线观看| 在线国产毛片手机小视频| 成人一级免费视频| 婷婷激情亚洲| 五月天久久婷婷| 激情午夜婷婷| 日本免费福利视频| 亚洲中文字幕无码爆乳| 精品视频在线一区| 欧美第二区| 欧美性猛交一区二区三区| 91无码网站| 亚洲综合色婷婷中文字幕| 爆操波多野结衣| 少妇精品网站| 国产精品冒白浆免费视频| 亚洲无码精品在线播放|