耿曉斐
摘要:隨著以AI、大數(shù)據(jù)、云計(jì)算技術(shù)的深度融合,以深度學(xué)習(xí)為代表的研究為數(shù)據(jù)更好的利用提供技術(shù)支持。為深入理解大數(shù)據(jù)技術(shù)的內(nèi)涵,從大數(shù)據(jù)的定義、4V特征、體系架構(gòu)等方面進(jìn)行闡述。介紹了大數(shù)據(jù)的基本概念、特征,總結(jié)了云計(jì)算、系統(tǒng)層、算法層、應(yīng)用層的核心技術(shù)及關(guān)鍵策略。
關(guān)鍵詞:大數(shù)據(jù);4V定義;體系結(jié)構(gòu);
一、大數(shù)據(jù)定義
大數(shù)據(jù)這一概念目前沒(méi)有統(tǒng)一的定義。現(xiàn)在業(yè)界一般認(rèn)可國(guó)際數(shù)據(jù)公司(IDC)用四個(gè)維度的特征來(lái)定義大數(shù)據(jù),即數(shù)據(jù)集的規(guī)模(Volume)、數(shù)據(jù)流動(dòng)的速度(Velocity)、數(shù)據(jù)類型的多少(Variety)和數(shù)據(jù)價(jià)值的大小(Value)。具體來(lái)說(shuō),大數(shù)據(jù)具有以下4個(gè)基本特征:
一是數(shù)據(jù)體量巨大,從 TB 級(jí)別,躍升到 PB 級(jí)別。
二是數(shù)據(jù)類型多樣。現(xiàn)在的數(shù)據(jù)類型不僅是結(jié)構(gòu)化數(shù)據(jù),還有以半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)為主體的,如是圖片、視頻、音頻等多類型的數(shù)據(jù),個(gè)性化數(shù)據(jù)占絕對(duì)多數(shù)。據(jù)統(tǒng)計(jì),2012 年互聯(lián)網(wǎng)中非結(jié)構(gòu)化數(shù)據(jù)量已達(dá)到75%以上。
三是價(jià)值密度低。以視頻為例,一小時(shí)的視頻,在不間斷的監(jiān)控過(guò)程中,可能有用的數(shù)據(jù)僅僅只有一兩秒。
四是處理速度快。數(shù)據(jù)處理遵循“1秒定律”,可從各種類型的數(shù)據(jù)中快速獲得高價(jià)值的信息。這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。業(yè)界將這其歸納為 “4V”——Volume,Variety,Value,Velocity。
二、大數(shù)據(jù)平臺(tái)體系結(jié)構(gòu)
從信息化角度來(lái)看,大數(shù)據(jù)系統(tǒng)一般由構(gòu)架層、系統(tǒng)層、算法層、應(yīng)用層四塊組成。
1.構(gòu)架層
大數(shù)據(jù)與云計(jì)算融合是技術(shù)發(fā)展的趨勢(shì),云計(jì)算解決大型數(shù)據(jù)中心的資源利用率提升和自動(dòng)化運(yùn)維管理,它管理的對(duì)象中顯然包括需要使用大量計(jì)算資源的“大數(shù)據(jù)”系統(tǒng)。因此從層次上講,云計(jì)算技術(shù)為大數(shù)據(jù)技術(shù)提供基礎(chǔ)資源,云計(jì)算是基礎(chǔ)設(shè)施能力(IaaS),大數(shù)據(jù)是云計(jì)算的一種服務(wù)能力(PaaS)。大數(shù)據(jù)集群是由多種角色組成的龐大的應(yīng)用部署群,一般會(huì)分為部署節(jié)點(diǎn)、管理節(jié)點(diǎn)、計(jì)算節(jié)點(diǎn)、流計(jì)算節(jié)點(diǎn)、數(shù)據(jù)復(fù)制節(jié)點(diǎn)等,這些節(jié)點(diǎn)中只有計(jì)算節(jié)點(diǎn)因?yàn)槌休d了HDFS的海量數(shù)據(jù)持久化建議物理機(jī)部署外,其它節(jié)點(diǎn)都可以進(jìn)行虛擬化部署,從而使大數(shù)據(jù)集群可以部署在云數(shù)據(jù)中心中統(tǒng)一管理,最終實(shí)現(xiàn)大數(shù)據(jù)服務(wù)的資源共享、統(tǒng)一管理、按需分配、動(dòng)態(tài)調(diào)度。因此實(shí)際部署時(shí),針對(duì)節(jié)點(diǎn)規(guī)模大的集群,可采用半虛半實(shí)的方式部署。大數(shù)據(jù)集群節(jié)點(diǎn)中的管理節(jié)點(diǎn)、流計(jì)算節(jié)點(diǎn)對(duì)IO的需求量不大,可以使用虛擬機(jī)方式進(jìn)行部署,而計(jì)算節(jié)點(diǎn)對(duì)IO需求大,保留物理部署模式。同時(shí)在虛擬機(jī)中部署臨時(shí)的大數(shù)據(jù)集群,在大數(shù)據(jù)業(yè)務(wù)波峰時(shí),通過(guò)臨時(shí)集群來(lái)彈性增加處理能力,分擔(dān)共享大數(shù)據(jù)集群的數(shù)據(jù)處理壓力。
2.系統(tǒng)層
Alluxio一個(gè)開(kāi)源的基于內(nèi)存的分布式存儲(chǔ)系統(tǒng),現(xiàn)在成為開(kāi)源社區(qū)中成長(zhǎng)最快的大數(shù)據(jù)開(kāi)源項(xiàng)目之一,已成為一個(gè)大數(shù)據(jù)存儲(chǔ)和共享平臺(tái)工業(yè)標(biāo)準(zhǔn),并成為全球發(fā)展最快的大數(shù)據(jù)開(kāi)源軟件系統(tǒng)。Alluxio的目的就是想要讓計(jì)算層和存儲(chǔ)層可以再次輕裝上陣,讓它們獨(dú)立的優(yōu)化和發(fā)展自己,而不用擔(dān)心破壞兩者之間的依賴。具體說(shuō)來(lái),Alluxio提供一層文件系統(tǒng)的抽象給計(jì)算層。這層抽象之上的計(jì)算只需要和Alluxio交互來(lái)訪問(wèn)數(shù)據(jù);而這層抽象之下可以同時(shí)對(duì)接多個(gè)不同的持久化存儲(chǔ)(比如一個(gè)S3加上一個(gè)HDFS部署),而這層抽象本身又是由部署在靠近計(jì)算的內(nèi)存級(jí)Alluxio存儲(chǔ)系統(tǒng)來(lái)實(shí)現(xiàn)。
它適用以下場(chǎng)景:
1.計(jì)算層需要反復(fù)訪問(wèn)遠(yuǎn)程(比如在云端,或跨機(jī)房)的數(shù)據(jù);
2.計(jì)算層需要同時(shí)訪問(wèn)多個(gè)獨(dú)立的持久化數(shù)據(jù)源(比如同時(shí)訪問(wèn)S3和HDFS中的數(shù)據(jù));
3.多個(gè)獨(dú)立的大數(shù)據(jù)應(yīng)用(比如不同的Spark Job)需要高速有效的共享數(shù)據(jù);
4.當(dāng)計(jì)算層有著較為嚴(yán)重的內(nèi)存資源、以及JVM GC壓力,或者較高的任務(wù)失敗率時(shí),Alluxio作為輸入輸出數(shù)據(jù)的Off heap存儲(chǔ)可以極大緩解這一壓力,并使計(jì)算消耗的時(shí)間和資源更可控可預(yù)測(cè)。
3.算法層
數(shù)據(jù)挖掘是從海量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的計(jì)算過(guò)程。數(shù)據(jù)挖掘中用到了大量的機(jī)器學(xué)習(xí)界提供的數(shù)據(jù)分析技術(shù)和數(shù)據(jù)庫(kù)界提供的數(shù)據(jù)管理技術(shù)。機(jī)器學(xué)習(xí)是數(shù)據(jù)挖掘中的一種重要工具,然而機(jī)器學(xué)習(xí)的門(mén)檻較高,數(shù)據(jù)分析人員不僅需要了解各個(gè)算法的優(yōu)缺點(diǎn),而且需要了解每個(gè)算法的超參數(shù)調(diào)優(yōu)技巧,一個(gè)數(shù)據(jù)分析流程一般包括數(shù)據(jù)清洗、特征提取、算法選擇以及模型評(píng)估等,所以被戲稱機(jī)器學(xué)習(xí)為“煉丹術(shù)”。使用某種學(xué)習(xí)機(jī)制,通過(guò)AI的方式自己來(lái)調(diào)整超參數(shù),找出最優(yōu)解的思想自然產(chǎn)生,AutoML、AutoKeras都是此類方法的代表,使用此類方法能讓用戶輕松地訓(xùn)練高性能的深度網(wǎng)絡(luò),而用戶無(wú)需具備任何機(jī)器學(xué)習(xí)或AI的知識(shí)就可以得到想要的數(shù)據(jù)。這種方式是今后的發(fā)展的方向,值的去進(jìn)一步研究。
4.應(yīng)用層
企業(yè)大數(shù)據(jù)應(yīng)用體系其實(shí)就是在生產(chǎn)業(yè)務(wù)系統(tǒng)之外構(gòu)建統(tǒng)一的企業(yè)級(jí)數(shù)據(jù)庫(kù)。企業(yè)級(jí)數(shù)據(jù)庫(kù)的建設(shè),從技術(shù)架構(gòu)上經(jīng)歷了從數(shù)據(jù)倉(cāng)儲(chǔ)體系到MPP數(shù)據(jù)庫(kù)體系,再到現(xiàn)在應(yīng)用較廣的Hadoop架構(gòu)體系。除了技術(shù)體系架構(gòu)外,企業(yè)級(jí)數(shù)據(jù)庫(kù)的建設(shè)還包含數(shù)據(jù)模型的建立、數(shù)據(jù)管理體系建設(shè)、數(shù)據(jù)應(yīng)用體系建設(shè),而企業(yè)級(jí)數(shù)據(jù)庫(kù)的實(shí)際應(yīng)用效果更多的則是依賴于企業(yè)自身數(shù)據(jù)專家?guī)斓慕⒁约皩I(yè)機(jī)構(gòu)的推動(dòng)。
三、小結(jié)
本文結(jié)合大數(shù)據(jù)的產(chǎn)生背景、需求和系統(tǒng)結(jié)構(gòu),梳理了大數(shù)據(jù)的基本概念及4V特征,總結(jié)歸納了大數(shù)據(jù)技術(shù)的架構(gòu)體系,分析了每層的核心技術(shù)。目前大數(shù)據(jù)技術(shù)的研究還有許多深層次的問(wèn)題亟待解決,如大數(shù)據(jù)4V特征中起關(guān)鍵作用的是什么,如何對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行實(shí)時(shí)同步,如何對(duì)數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理等等,需要我們用更加敏銳的洞察力來(lái)分析和研究。
參考文獻(xiàn):
[1]中國(guó)信息通信研究院 大數(shù)據(jù)白皮書(shū) 2018.4
[2]《深入理解大數(shù)據(jù)》 黃宜華、苗凱翔 機(jī)械工業(yè)出版社
[3]The Google File System Sanjay Ghemawat,Howard Gobioff,and Shun-Tak Leung
[4]BARWICK H.The "four Vs" of big data.Implementing Information Infrastructure Symposium[EB/OL].[2012-10-02].
[5]Hadoop [EB/OL].[2012-10-02].
(作者單位:河南省開(kāi)封市煙草公司信息中心)