999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺談大數(shù)據(jù)平臺(tái)技術(shù)

2019-10-21 04:26:05耿曉斐
關(guān)鍵詞:數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)體系

耿曉斐

摘要:隨著以AI、大數(shù)據(jù)、云計(jì)算技術(shù)的深度融合,以深度學(xué)習(xí)為代表的研究為數(shù)據(jù)更好的利用提供技術(shù)支持。為深入理解大數(shù)據(jù)技術(shù)的內(nèi)涵,從大數(shù)據(jù)的定義、4V特征、體系架構(gòu)等方面進(jìn)行闡述。介紹了大數(shù)據(jù)的基本概念、特征,總結(jié)了云計(jì)算、系統(tǒng)層、算法層、應(yīng)用層的核心技術(shù)及關(guān)鍵策略。

關(guān)鍵詞:大數(shù)據(jù);4V定義;體系結(jié)構(gòu);

一、大數(shù)據(jù)定義

大數(shù)據(jù)這一概念目前沒(méi)有統(tǒng)一的定義。現(xiàn)在業(yè)界一般認(rèn)可國(guó)際數(shù)據(jù)公司(IDC)用四個(gè)維度的特征來(lái)定義大數(shù)據(jù),即數(shù)據(jù)集的規(guī)模(Volume)、數(shù)據(jù)流動(dòng)的速度(Velocity)、數(shù)據(jù)類型的多少(Variety)和數(shù)據(jù)價(jià)值的大小(Value)。具體來(lái)說(shuō),大數(shù)據(jù)具有以下4個(gè)基本特征:

一是數(shù)據(jù)體量巨大,從 TB 級(jí)別,躍升到 PB 級(jí)別。

二是數(shù)據(jù)類型多樣。現(xiàn)在的數(shù)據(jù)類型不僅是結(jié)構(gòu)化數(shù)據(jù),還有以半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)為主體的,如是圖片、視頻、音頻等多類型的數(shù)據(jù),個(gè)性化數(shù)據(jù)占絕對(duì)多數(shù)。據(jù)統(tǒng)計(jì),2012 年互聯(lián)網(wǎng)中非結(jié)構(gòu)化數(shù)據(jù)量已達(dá)到75%以上。

三是價(jià)值密度低。以視頻為例,一小時(shí)的視頻,在不間斷的監(jiān)控過(guò)程中,可能有用的數(shù)據(jù)僅僅只有一兩秒。

四是處理速度快。數(shù)據(jù)處理遵循“1秒定律”,可從各種類型的數(shù)據(jù)中快速獲得高價(jià)值的信息。這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。業(yè)界將這其歸納為 “4V”——Volume,Variety,Value,Velocity。

二、大數(shù)據(jù)平臺(tái)體系結(jié)構(gòu)

從信息化角度來(lái)看,大數(shù)據(jù)系統(tǒng)一般由構(gòu)架層、系統(tǒng)層、算法層、應(yīng)用層四塊組成。

1.構(gòu)架層

大數(shù)據(jù)與云計(jì)算融合是技術(shù)發(fā)展的趨勢(shì),云計(jì)算解決大型數(shù)據(jù)中心的資源利用率提升和自動(dòng)化運(yùn)維管理,它管理的對(duì)象中顯然包括需要使用大量計(jì)算資源的“大數(shù)據(jù)”系統(tǒng)。因此從層次上講,云計(jì)算技術(shù)為大數(shù)據(jù)技術(shù)提供基礎(chǔ)資源,云計(jì)算是基礎(chǔ)設(shè)施能力(IaaS),大數(shù)據(jù)是云計(jì)算的一種服務(wù)能力(PaaS)。大數(shù)據(jù)集群是由多種角色組成的龐大的應(yīng)用部署群,一般會(huì)分為部署節(jié)點(diǎn)、管理節(jié)點(diǎn)、計(jì)算節(jié)點(diǎn)、流計(jì)算節(jié)點(diǎn)、數(shù)據(jù)復(fù)制節(jié)點(diǎn)等,這些節(jié)點(diǎn)中只有計(jì)算節(jié)點(diǎn)因?yàn)槌休d了HDFS的海量數(shù)據(jù)持久化建議物理機(jī)部署外,其它節(jié)點(diǎn)都可以進(jìn)行虛擬化部署,從而使大數(shù)據(jù)集群可以部署在云數(shù)據(jù)中心中統(tǒng)一管理,最終實(shí)現(xiàn)大數(shù)據(jù)服務(wù)的資源共享、統(tǒng)一管理、按需分配、動(dòng)態(tài)調(diào)度。因此實(shí)際部署時(shí),針對(duì)節(jié)點(diǎn)規(guī)模大的集群,可采用半虛半實(shí)的方式部署。大數(shù)據(jù)集群節(jié)點(diǎn)中的管理節(jié)點(diǎn)、流計(jì)算節(jié)點(diǎn)對(duì)IO的需求量不大,可以使用虛擬機(jī)方式進(jìn)行部署,而計(jì)算節(jié)點(diǎn)對(duì)IO需求大,保留物理部署模式。同時(shí)在虛擬機(jī)中部署臨時(shí)的大數(shù)據(jù)集群,在大數(shù)據(jù)業(yè)務(wù)波峰時(shí),通過(guò)臨時(shí)集群來(lái)彈性增加處理能力,分擔(dān)共享大數(shù)據(jù)集群的數(shù)據(jù)處理壓力。

2.系統(tǒng)層

Alluxio一個(gè)開(kāi)源的基于內(nèi)存的分布式存儲(chǔ)系統(tǒng),現(xiàn)在成為開(kāi)源社區(qū)中成長(zhǎng)最快的大數(shù)據(jù)開(kāi)源項(xiàng)目之一,已成為一個(gè)大數(shù)據(jù)存儲(chǔ)和共享平臺(tái)工業(yè)標(biāo)準(zhǔn),并成為全球發(fā)展最快的大數(shù)據(jù)開(kāi)源軟件系統(tǒng)。Alluxio的目的就是想要讓計(jì)算層和存儲(chǔ)層可以再次輕裝上陣,讓它們獨(dú)立的優(yōu)化和發(fā)展自己,而不用擔(dān)心破壞兩者之間的依賴。具體說(shuō)來(lái),Alluxio提供一層文件系統(tǒng)的抽象給計(jì)算層。這層抽象之上的計(jì)算只需要和Alluxio交互來(lái)訪問(wèn)數(shù)據(jù);而這層抽象之下可以同時(shí)對(duì)接多個(gè)不同的持久化存儲(chǔ)(比如一個(gè)S3加上一個(gè)HDFS部署),而這層抽象本身又是由部署在靠近計(jì)算的內(nèi)存級(jí)Alluxio存儲(chǔ)系統(tǒng)來(lái)實(shí)現(xiàn)。

它適用以下場(chǎng)景:

1.計(jì)算層需要反復(fù)訪問(wèn)遠(yuǎn)程(比如在云端,或跨機(jī)房)的數(shù)據(jù);

2.計(jì)算層需要同時(shí)訪問(wèn)多個(gè)獨(dú)立的持久化數(shù)據(jù)源(比如同時(shí)訪問(wèn)S3和HDFS中的數(shù)據(jù));

3.多個(gè)獨(dú)立的大數(shù)據(jù)應(yīng)用(比如不同的Spark Job)需要高速有效的共享數(shù)據(jù);

4.當(dāng)計(jì)算層有著較為嚴(yán)重的內(nèi)存資源、以及JVM GC壓力,或者較高的任務(wù)失敗率時(shí),Alluxio作為輸入輸出數(shù)據(jù)的Off heap存儲(chǔ)可以極大緩解這一壓力,并使計(jì)算消耗的時(shí)間和資源更可控可預(yù)測(cè)。

3.算法層

數(shù)據(jù)挖掘是從海量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的計(jì)算過(guò)程。數(shù)據(jù)挖掘中用到了大量的機(jī)器學(xué)習(xí)界提供的數(shù)據(jù)分析技術(shù)和數(shù)據(jù)庫(kù)界提供的數(shù)據(jù)管理技術(shù)。機(jī)器學(xué)習(xí)是數(shù)據(jù)挖掘中的一種重要工具,然而機(jī)器學(xué)習(xí)的門(mén)檻較高,數(shù)據(jù)分析人員不僅需要了解各個(gè)算法的優(yōu)缺點(diǎn),而且需要了解每個(gè)算法的超參數(shù)調(diào)優(yōu)技巧,一個(gè)數(shù)據(jù)分析流程一般包括數(shù)據(jù)清洗、特征提取、算法選擇以及模型評(píng)估等,所以被戲稱機(jī)器學(xué)習(xí)為“煉丹術(shù)”。使用某種學(xué)習(xí)機(jī)制,通過(guò)AI的方式自己來(lái)調(diào)整超參數(shù),找出最優(yōu)解的思想自然產(chǎn)生,AutoML、AutoKeras都是此類方法的代表,使用此類方法能讓用戶輕松地訓(xùn)練高性能的深度網(wǎng)絡(luò),而用戶無(wú)需具備任何機(jī)器學(xué)習(xí)或AI的知識(shí)就可以得到想要的數(shù)據(jù)。這種方式是今后的發(fā)展的方向,值的去進(jìn)一步研究。

4.應(yīng)用層

企業(yè)大數(shù)據(jù)應(yīng)用體系其實(shí)就是在生產(chǎn)業(yè)務(wù)系統(tǒng)之外構(gòu)建統(tǒng)一的企業(yè)級(jí)數(shù)據(jù)庫(kù)。企業(yè)級(jí)數(shù)據(jù)庫(kù)的建設(shè),從技術(shù)架構(gòu)上經(jīng)歷了從數(shù)據(jù)倉(cāng)儲(chǔ)體系到MPP數(shù)據(jù)庫(kù)體系,再到現(xiàn)在應(yīng)用較廣的Hadoop架構(gòu)體系。除了技術(shù)體系架構(gòu)外,企業(yè)級(jí)數(shù)據(jù)庫(kù)的建設(shè)還包含數(shù)據(jù)模型的建立、數(shù)據(jù)管理體系建設(shè)、數(shù)據(jù)應(yīng)用體系建設(shè),而企業(yè)級(jí)數(shù)據(jù)庫(kù)的實(shí)際應(yīng)用效果更多的則是依賴于企業(yè)自身數(shù)據(jù)專家?guī)斓慕⒁约皩I(yè)機(jī)構(gòu)的推動(dòng)。

三、小結(jié)

本文結(jié)合大數(shù)據(jù)的產(chǎn)生背景、需求和系統(tǒng)結(jié)構(gòu),梳理了大數(shù)據(jù)的基本概念及4V特征,總結(jié)歸納了大數(shù)據(jù)技術(shù)的架構(gòu)體系,分析了每層的核心技術(shù)。目前大數(shù)據(jù)技術(shù)的研究還有許多深層次的問(wèn)題亟待解決,如大數(shù)據(jù)4V特征中起關(guān)鍵作用的是什么,如何對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行實(shí)時(shí)同步,如何對(duì)數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理等等,需要我們用更加敏銳的洞察力來(lái)分析和研究。

參考文獻(xiàn):

[1]中國(guó)信息通信研究院 大數(shù)據(jù)白皮書(shū) 2018.4

[2]《深入理解大數(shù)據(jù)》 黃宜華、苗凱翔 機(jī)械工業(yè)出版社

[3]The Google File System Sanjay Ghemawat,Howard Gobioff,and Shun-Tak Leung

[4]BARWICK H.The "four Vs" of big data.Implementing Information Infrastructure Symposium[EB/OL].[2012-10-02].

[5]Hadoop [EB/OL].[2012-10-02].

(作者單位:河南省開(kāi)封市煙草公司信息中心)

猜你喜歡
數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)體系
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
構(gòu)建體系,舉一反三
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
“曲線運(yùn)動(dòng)”知識(shí)體系和方法指導(dǎo)
基于GPGPU的離散數(shù)據(jù)挖掘研究
主站蜘蛛池模板: 国产三级精品三级在线观看| 免费毛片网站在线观看| 中文字幕中文字字幕码一二区| 无码内射在线| 免费无遮挡AV| 国产精品免费电影| 欧美日韩亚洲国产主播第一区| 久久91精品牛牛| 99精品影院| 噜噜噜久久| 久久免费视频播放| 一级毛片网| 亚州AV秘 一区二区三区| 999国产精品| 国产精品3p视频| 伊大人香蕉久久网欧美| 老熟妇喷水一区二区三区| 欧美国产三级| 久久国产成人精品国产成人亚洲| 精品亚洲麻豆1区2区3区| 国产精品对白刺激| 色综合日本| 国产午夜福利在线小视频| 嫩草国产在线| 日本欧美视频在线观看| 久久a级片| 欧美日韩久久综合| 国产成人福利在线| 国产亚洲现在一区二区中文| 日本道综合一本久久久88| 真实国产乱子伦高清| 综合色区亚洲熟妇在线| 欧美人人干| 欧美成人午夜视频免看| 国产精品理论片| 国内精品91| 国产精品色婷婷在线观看| 日日噜噜夜夜狠狠视频| 91探花国产综合在线精品| 性欧美精品xxxx| 日韩av无码DVD| 国产SUV精品一区二区6| 亚洲色图欧美视频| 无码高潮喷水在线观看| 啪啪国产视频| 日本不卡在线播放| 国产亚洲精品无码专| 国语少妇高潮| 亚洲视频二| 国产女人在线视频| 在线播放91| 色综合色国产热无码一| 欧美日韩精品一区二区在线线 | 国产18页| 午夜视频免费一区二区在线看| 欧美一级大片在线观看| 中文字幕伦视频| 精品无码人妻一区二区| 婷婷丁香色| 久久综合AV免费观看| 国产成人91精品| 欧美www在线观看| 国产黄色片在线看| 国产人在线成免费视频| 欧美伊人色综合久久天天| 成人精品亚洲| jizz国产视频| 26uuu国产精品视频| 欧美国产综合视频| 四虎国产成人免费观看| 国内精品视频| 亚洲日韩高清无码| 国产精品思思热在线| 中文字幕日韩欧美| 91精品国产自产在线观看| 思思热精品在线8| 久久性视频| 尤物成AV人片在线观看| 亚洲自拍另类| 午夜一区二区三区| 麻豆国产精品| 青青草原国产精品啪啪视频|