王艷 蔣義然 盧秀麗
摘 要:隨著現(xiàn)代經(jīng)濟(jì)社會實力的不斷增加,我國現(xiàn)代化信息技術(shù)也在迅速的發(fā)展著,主要的應(yīng)用是大數(shù)據(jù)分析與計算體系架構(gòu)。其中可以分為大數(shù)據(jù)分析和大數(shù)據(jù)計算兩大類。大數(shù)據(jù)分析能夠從眾多的數(shù)據(jù)信息中尋找到有用的信息,是挖掘信息的最主要的方式。
關(guān)鍵詞:大數(shù)據(jù)分析;大數(shù)據(jù)計算;架構(gòu)
1 大數(shù)據(jù)分析
1.1 大數(shù)據(jù)分析基本概念
大數(shù)據(jù)分析是指對海量的數(shù)據(jù)進(jìn)行分析。大數(shù)據(jù)分析是運用云計算等先進(jìn)網(wǎng)絡(luò)和計算設(shè)備搜集、記錄、分析和預(yù)測超大規(guī)模群集現(xiàn)象的現(xiàn)代統(tǒng)計方法。大數(shù)據(jù)分析主要是通過高效的算法和模式分析大數(shù)據(jù),并挖掘大數(shù)據(jù)潛藏的巨大價值。常見的大數(shù)據(jù)分析方法主要有BloomFilter、Hashing、索引、并行計算和Trie樹等。大數(shù)據(jù)分析的數(shù)據(jù)源除了傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),還包括半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。針對不同的數(shù)據(jù)源采用數(shù)據(jù)抽取、統(tǒng)計分析及數(shù)據(jù)挖掘等多個步驟進(jìn)行分析與處理,以快速挖掘出有用信息,洞悉出數(shù)據(jù)價值。
1.2 大數(shù)據(jù)分析的基礎(chǔ)
Hadoop能有效地處理海量的數(shù)據(jù),并具有存儲的能力。同時,它可以整合多臺計算機(jī)的資源,提供數(shù)據(jù)分散運算,在極短的時間內(nèi)完成運算工作,自動保留數(shù)據(jù)副本,提高數(shù)據(jù)的可靠性和延展性。Hadoop分布式文件系統(tǒng)(Hadoopdistributedfifilesystem,HDFS)和Hadoop分布式計算處理架構(gòu)(MapReduce)為Hadoop架構(gòu)的兩個核心部分。Hadoop分
布式文件系統(tǒng)可對數(shù)據(jù)進(jìn)行切割并制作副本備份,然后分散存儲于不同的計算機(jī)或服務(wù)器上,實現(xiàn)對數(shù)據(jù)的迅速存取。還可備份于不同的硬件,以防止數(shù)據(jù)損壞。Hadoop分布式計算處理架構(gòu)即MapReduce,由Map和Reduce構(gòu)成。對數(shù)據(jù)進(jìn)行分散計算是Map的主要作用。整合Map計算后的結(jié)果并提供分布式的數(shù)據(jù)平行處理分析,是Reduce的主要作用。除了兩個核心部分,根據(jù)Hadoop所延伸的其他項目,現(xiàn)已發(fā)展成為一個生態(tài)系統(tǒng)。該部分主要包括Zookeeper、Avro、Hbase、Mapreduce、Sqoop、Pig、Hive、Mahout和Hadoopdistributedfifilesystem等。
2 大數(shù)據(jù)計算平臺現(xiàn)狀及存在的問題
大數(shù)據(jù)產(chǎn)品的主要的運作方式就是建立大數(shù)據(jù)計算平臺,大數(shù)據(jù)計算平臺主要以云計算作為硬件基礎(chǔ),并將其處理能力作為總體服務(wù)框架,并對大數(shù)據(jù)進(jìn)行實時計算的過程。大數(shù)據(jù)計算平臺能夠?qū)Σ煌N類的數(shù)據(jù)進(jìn)行收集、分析、計算、存儲、處理等處理,這就使得各大企業(yè)都需要其應(yīng)用,能夠?qū)ζ髽I(yè)的內(nèi)部產(chǎn)品進(jìn)行相應(yīng)的檢驗,并組為技術(shù)基礎(chǔ),能夠處理相關(guān)的數(shù)據(jù)處理問題。但是在實際應(yīng)用中,大數(shù)據(jù)計算平臺還存著較多的問題,主要有以下幾個方面:
2.1 平臺研發(fā)需要交叉學(xué)科知識
在進(jìn)行設(shè)計大數(shù)據(jù)計算平臺時,需要參考的知識方面涉及較多。大數(shù)據(jù)計算平臺在實際應(yīng)用中,所計算的數(shù)據(jù)較多,需要提高大數(shù)據(jù)的處理能力,并降低自身能源的損耗、還需要增加企業(yè)平臺自身的安全性和隱私性。所以在大數(shù)據(jù)計算平臺研發(fā)時,需要交叉學(xué)科知識共同應(yīng)用,進(jìn)而對其進(jìn)行創(chuàng)新和發(fā)展。
2.2 平臺研發(fā)人才缺乏
在大數(shù)據(jù)的使用中,但是由于大數(shù)據(jù)是新出的行業(yè),主要的研發(fā)人才還沒有及時的到位,并且相關(guān)的企業(yè)也并不重視大數(shù)據(jù)計算平臺研發(fā),這就導(dǎo)致平臺的研發(fā)嚴(yán)重的缺乏人才。在
企業(yè)中,實際應(yīng)用平臺搭建不完善,不能承擔(dān)大數(shù)據(jù)計算平臺的使用,所以無法對有關(guān)的項目進(jìn)行處理;大數(shù)據(jù)技術(shù)還處在發(fā)展階段,很多軟件都是開源的,所以在進(jìn)行應(yīng)用時缺乏相關(guān)的安全性。
2.3 技術(shù)環(huán)境不統(tǒng)一
目前大數(shù)據(jù)技術(shù)開發(fā)的環(huán)境主要集中在GitHub為主的開源社區(qū)內(nèi),其余的開發(fā)環(huán)境都是小眾的,所以這就使得大數(shù)據(jù)計算平臺開發(fā)環(huán)境不統(tǒng)一。雖然可以根據(jù)用戶的實際使用情況進(jìn)行選擇不同的平臺,但是在開發(fā)應(yīng)用中,卻無形的提升了研發(fā)成本。
3 大數(shù)據(jù)計算體系架構(gòu)
3.1 大數(shù)據(jù)計算系統(tǒng)大數(shù)據(jù)計算系統(tǒng)主要采用的設(shè)計方案較多,其中所涉及的技術(shù)有軟件分層化、技術(shù)復(fù)雜化等,還依賴于較多的實際應(yīng)用。但是在實際的系統(tǒng)建設(shè)中,主要分為三個基礎(chǔ)系統(tǒng),分別是數(shù)據(jù)存儲系統(tǒng)、數(shù)據(jù)分析系統(tǒng)和數(shù)據(jù)分析系統(tǒng)。大數(shù)據(jù)的計算不僅涉及到算法的應(yīng)用,還應(yīng)用了較多的數(shù)據(jù)分析技術(shù)。
3.2 大數(shù)據(jù)計算采用的方法和技術(shù)在大數(shù)據(jù)計算中所采用的方法主要是計算機(jī)科學(xué)計算法和數(shù)學(xué)統(tǒng)計法,在這其中還應(yīng)用數(shù)據(jù)模型計算法、數(shù)據(jù)處理法、數(shù)據(jù)安全、算法優(yōu)化法、數(shù)據(jù)讀取和數(shù)據(jù)建模等方法。并且在大數(shù)據(jù)計算中采用了智能學(xué)習(xí)方法,能夠在對數(shù)據(jù)進(jìn)行處理的過程中,加強(qiáng)對數(shù)據(jù)的處理能力,進(jìn)而提升數(shù)據(jù)結(jié)果的準(zhǔn)確性。
3.3 大數(shù)據(jù)計算總體架構(gòu)在進(jìn)行鋪設(shè)大數(shù)據(jù)計算總體架構(gòu)時,主要是將數(shù)據(jù)儲存系統(tǒng)、數(shù)據(jù)分析系統(tǒng)和數(shù)據(jù)計算系統(tǒng)集合在一起,然后對數(shù)據(jù)進(jìn)行整體的處理。數(shù)據(jù)儲存系統(tǒng)主要對數(shù)據(jù)進(jìn)行收集、分析、和建模,然后對處理的結(jié)果進(jìn)行存儲。而且在數(shù)據(jù)儲存系統(tǒng)中還能對數(shù)據(jù)進(jìn)行清洗建模、數(shù)據(jù)操作的操作。數(shù)據(jù)分析系統(tǒng)主要包括三維建模、數(shù)據(jù)模型和算法優(yōu)化方式,為大數(shù)據(jù)計算提供了數(shù)據(jù)分析能力和實際使用能力。數(shù)據(jù)計算系統(tǒng)主要能夠?qū)?shù)據(jù)進(jìn)行計算,處理和分析,保證處理數(shù)據(jù)準(zhǔn)確性。
3.4 大數(shù)據(jù)的采集在構(gòu)建大數(shù)據(jù)計算體系時,需要對大數(shù)據(jù)進(jìn)行收集,對數(shù)據(jù)的收集不僅僅是來源于實際的數(shù)據(jù),還包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化的數(shù)據(jù)。由于數(shù)據(jù)的具有非結(jié)構(gòu)化的特點,所以在進(jìn)行處理時,大數(shù)據(jù)的存儲系統(tǒng)比傳統(tǒng)的數(shù)據(jù)存儲要更加的復(fù)雜。并且在大數(shù)據(jù)計算體系中,能夠構(gòu)建大數(shù)據(jù)采集于建模、分布式數(shù)據(jù)庫等方式來提高數(shù)據(jù)處理能力。在進(jìn)行數(shù)據(jù)處理時,還需要在相關(guān)的數(shù)據(jù)庫中添加多余的一項存儲庫,能將處理后的數(shù)據(jù)進(jìn)行儲存,方便后期對其調(diào)用。在構(gòu)建大數(shù)據(jù)計算體系中,需要按照標(biāo)準(zhǔn)進(jìn)行搭建系統(tǒng),首先先建立數(shù)據(jù)層,對數(shù)據(jù)進(jìn)行收集和建模,然后是建立分布式文件處理系統(tǒng)用來處理數(shù)據(jù)的采取,并對數(shù)據(jù)進(jìn)行轉(zhuǎn)化,使其被系統(tǒng)所是識別。在最上層需要建立分布式數(shù)據(jù)庫,可以對數(shù)據(jù)記性存儲管理,能夠確保數(shù)據(jù)處理的穩(wěn)定性。
4 結(jié)語
大數(shù)據(jù)分析是找出隱藏于數(shù)據(jù)信息中有用信息的主要方式,是挖掘有用價值信息的主要途徑,通過分析挖掘出有用信息,為科學(xué)決策提供依據(jù)。當(dāng)前,大數(shù)據(jù)計算遇到了前所未有的挑戰(zhàn),傳統(tǒng)的計算理論已經(jīng)不再適用于海量數(shù)據(jù)的大入系統(tǒng),政府要投入一定的資金予以支持,以此更好地保障圖書館收支平衡。
參考文獻(xiàn)
[1]陸杉,陳宇斌.供應(yīng)鏈中大數(shù)據(jù)分析應(yīng)用研究綜述[J].商業(yè)經(jīng)濟(jì)與管理,2018(09):27-35.
[2]拉瑪莫哈那勞·哥達(dá)吉利.人工智能=大數(shù)據(jù)分析+機(jī)器學(xué)習(xí)+云計算[J].重慶與世界,2018(18):33-34.
[3]龍虎.大數(shù)據(jù)分析與計算體系架構(gòu)研究[J].信息與電腦(理論版),2018(18):130-131+138.