◆莫加亮
?
基于Hadoop技術(shù)的電信大數(shù)據(jù)分析平臺(tái)的設(shè)計(jì)分析
◆莫加亮
(廣東省電信規(guī)劃設(shè)計(jì)院有限公司 廣東 510630)
21世紀(jì)以來,隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)云計(jì)算技術(shù)也更加日益成熟,其中大數(shù)據(jù)更是滲透到現(xiàn)代社會(huì)的各個(gè)領(lǐng)域,給我們的生產(chǎn)生活帶來了極大的便利。目前,由于我國網(wǎng)絡(luò)通信技術(shù)的不斷發(fā)展,每天的網(wǎng)絡(luò)終端都會(huì)產(chǎn)生龐大的網(wǎng)絡(luò)數(shù)據(jù),數(shù)據(jù)處理壓力十分巨大,這就為網(wǎng)絡(luò)云計(jì)算技術(shù)提供了很好的發(fā)展平臺(tái)。對此,本文將以網(wǎng)絡(luò)大數(shù)據(jù)為出發(fā)點(diǎn),具體分析和探討基于Hadoop技術(shù)的電信大數(shù)據(jù)分析平臺(tái)的相關(guān)設(shè)計(jì)。
Hadoop技術(shù);網(wǎng)絡(luò)大數(shù)據(jù);設(shè)計(jì)分析
隨著信息技術(shù)的迅猛發(fā)展,人們的生活方式和消費(fèi)模式發(fā)生了巨大的變化,這些都大大依賴于移動(dòng)網(wǎng)絡(luò)的發(fā)展。移動(dòng)網(wǎng)絡(luò)技術(shù)最明顯的優(yōu)勢就是能夠?qū)⒑A康男畔①Y源整合在一起,然后經(jīng)過數(shù)據(jù)分析再將信息資源傳遞給廣大網(wǎng)絡(luò)用戶,因此對于網(wǎng)絡(luò)數(shù)據(jù)的分析是了解和掌握用戶的網(wǎng)絡(luò)消費(fèi)特點(diǎn)的重要依據(jù)。由于目前移動(dòng)網(wǎng)絡(luò)用戶數(shù)量的激增,使網(wǎng)絡(luò)終端的數(shù)據(jù)收集和分析的壓力十分巨大,再加上當(dāng)前大量的商品廠家加入到商品信息網(wǎng)絡(luò)終端上來,例如現(xiàn)在的美團(tuán)、餓了嗎等網(wǎng)絡(luò)平臺(tái),就更加給網(wǎng)絡(luò)數(shù)據(jù)信息的收集和分析帶來巨大的技術(shù)挑戰(zhàn)。面對這些大數(shù)據(jù)問題,計(jì)算機(jī)云技術(shù)為其提供了一個(gè)很好地處理平臺(tái),它能夠及時(shí)有效的對網(wǎng)絡(luò)大數(shù)據(jù)進(jìn)行深度的分析和處理,其中,Hadoop是相關(guān)子項(xiàng)目的集合,Hadoop Common、HDFS和MapReduce是其核心,補(bǔ)充性服務(wù)由其他子項(xiàng)目提供,技術(shù)棧如圖1所示。作為一個(gè)典型的大數(shù)據(jù)處理技術(shù),Hadoop已經(jīng)被廣泛的應(yīng)用到電信大數(shù)據(jù)分析處理當(dāng)中,并且取得了很好地應(yīng)用效果。由于移動(dòng)通信的不斷飽和,基于Hadoop 技術(shù)的電信大數(shù)據(jù)將會(huì)有很大的發(fā)展空間[1]。

圖1 Hadoop技術(shù)棧
所謂的Hadoop技術(shù)就是一個(gè)分布式系統(tǒng)的基礎(chǔ)框架,主要是用來對網(wǎng)絡(luò)大數(shù)據(jù)進(jìn)行分布式分析和處理,將此種數(shù)據(jù)處理技術(shù)應(yīng)用于電信大數(shù)據(jù)處理分析當(dāng)中,大大提高了數(shù)據(jù)處理效率,其主要研究內(nèi)容具體包括以下幾個(gè)方面:
(1)為了更好地對網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行收集和分析,Hadoop技術(shù)在原有的計(jì)算機(jī)系統(tǒng)上設(shè)計(jì)了一個(gè)離線流量分析系統(tǒng)。該系統(tǒng)可以對流量數(shù)據(jù)進(jìn)行隨時(shí)隨地的監(jiān)控和分析處理,這大大提高了數(shù)據(jù)處理效率。
在該系統(tǒng)下,Hadoop技術(shù)又分離出一個(gè)流量日志分析系統(tǒng)來對交通數(shù)據(jù)進(jìn)行準(zhǔn)確處理,簡稱FLASH。該處理系統(tǒng)有許多的技術(shù)優(yōu)勢和特征,具體包括以下三點(diǎn):第一,該系統(tǒng)在結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)分析上具有很大的處理優(yōu)勢;第二,該系統(tǒng)中的閃存能夠?qū)α髁繑?shù)據(jù)進(jìn)行準(zhǔn)確的記錄和存儲(chǔ),因此它可以為交通監(jiān)控系統(tǒng)收集鏡像包;第三,對于數(shù)據(jù)的模塊分析和處理,相關(guān)網(wǎng)絡(luò)開發(fā)人員研究了一個(gè)對語言進(jìn)行系統(tǒng)分析和處理的分布式應(yīng)用程序,以此來簡化數(shù)據(jù)分析流程。
(2)為了更高效的對網(wǎng)絡(luò)大數(shù)據(jù)進(jìn)行系統(tǒng)的管理和監(jiān)控,基于Hadoop技術(shù)之上,相關(guān)研究人員又設(shè)計(jì)了一個(gè)云計(jì)算監(jiān)控系統(tǒng),其主要目的就是管理電信網(wǎng)絡(luò)終端的大數(shù)據(jù)信息資料[2]。
對于網(wǎng)絡(luò)用戶的所有信息資料能否做到安全且嚴(yán)格的保存和處理一直都是用戶在使用電信網(wǎng)絡(luò)時(shí)所擔(dān)心的一個(gè)問題。針對此種現(xiàn)象,技術(shù)人員設(shè)計(jì)了一個(gè)集群監(jiān)控系統(tǒng)zoomanager,通過這種信息保護(hù)系統(tǒng),能夠?qū)υ朴?jì)算大數(shù)據(jù)系統(tǒng)做有效細(xì)致的管理和監(jiān)控,另外在一定程度上它也可以對有關(guān)數(shù)據(jù)進(jìn)行優(yōu)化,即它可以通過特定的數(shù)據(jù)算法來收集有關(guān)數(shù)據(jù)內(nèi)容并根據(jù)不同的數(shù)據(jù)標(biāo)準(zhǔn)將其進(jìn)行分類處理,這樣就會(huì)很容易發(fā)現(xiàn)數(shù)據(jù)處理中的問題,便于及時(shí)做出糾正。
(3)在處理電信大數(shù)據(jù)的過程中,為了更好地簡化Flash和Hadoop集群,相關(guān)網(wǎng)絡(luò)技術(shù)人員設(shè)計(jì)出了一種以MapReduce為網(wǎng)絡(luò)平臺(tái)基礎(chǔ)的云計(jì)算信息平臺(tái),主要是利用它來預(yù)估CPU的使用效率以及在進(jìn)行數(shù)據(jù)收集過程中構(gòu)造數(shù)據(jù)資源的消耗模型。
(4)在整個(gè)互聯(lián)網(wǎng)網(wǎng)絡(luò)系統(tǒng)中,包含許多小的網(wǎng)絡(luò)系統(tǒng),對于電信運(yùn)營商來說,所有的電信網(wǎng)絡(luò)使用者的所有信息資料就組成了一個(gè)龐大的電信網(wǎng)絡(luò)系統(tǒng),對此,網(wǎng)絡(luò)技術(shù)人員設(shè)計(jì)了一個(gè)專門為電信網(wǎng)絡(luò)使用者所服務(wù)的用戶服務(wù)器網(wǎng)絡(luò)圖,其中網(wǎng)絡(luò)物理結(jié)構(gòu)是其構(gòu)建的基礎(chǔ)。
2.1擁有互聯(lián)網(wǎng)海量數(shù)據(jù)處理構(gòu)架
在Hadoop技術(shù)基礎(chǔ)之上,相關(guān)設(shè)計(jì)人員針對大規(guī)模的網(wǎng)絡(luò)數(shù)據(jù)存儲(chǔ)專門設(shè)計(jì)了一個(gè)網(wǎng)絡(luò)云計(jì)算平臺(tái),其中對于網(wǎng)絡(luò)數(shù)據(jù)的處理主要包含數(shù)據(jù)的采集、存儲(chǔ)、處理以及交通安全檢測,且這幾個(gè)流程依次進(jìn)行,最終完成對網(wǎng)絡(luò)數(shù)據(jù)的全方位處理[3]。云計(jì)算技術(shù)的運(yùn)用使得數(shù)據(jù)安全檢測效率得到大大提升,數(shù)據(jù)處理質(zhì)量也明顯提高。
2.2擁有分布式故障檢測的數(shù)據(jù)采集機(jī)制
在電信大數(shù)據(jù)處理過程中,數(shù)據(jù)的采集是第一個(gè)環(huán)節(jié),因此必須要保證數(shù)據(jù)的真實(shí)性才能確保之后的數(shù)據(jù)處理工作的順利開展。針對數(shù)據(jù)采集中所出現(xiàn)的困難,技術(shù)工作者建立了一個(gè)分布式故障檢測機(jī)制,該機(jī)制包含節(jié)點(diǎn)檢測以及處理算法檢測等檢測方式。該機(jī)制有效避免了許多網(wǎng)絡(luò)數(shù)據(jù)的模糊性,實(shí)現(xiàn)了對數(shù)據(jù)收集的動(dòng)態(tài)檢測,確保了數(shù)據(jù)的準(zhǔn)確性和真實(shí)性。
2.3擁有能夠進(jìn)行動(dòng)態(tài)存儲(chǔ)分配的算法
對電信大數(shù)據(jù)進(jìn)行不同的數(shù)據(jù)存儲(chǔ)算法會(huì)產(chǎn)生不同的存儲(chǔ)效果,因此,技術(shù)人員提出了動(dòng)態(tài)存儲(chǔ)分配算法,該算法主要是在節(jié)點(diǎn)性能評價(jià)的基礎(chǔ)上對數(shù)據(jù)進(jìn)行有效存儲(chǔ),在此過程中需要使用一些節(jié)點(diǎn)參數(shù)來存儲(chǔ)數(shù)據(jù),并根據(jù)節(jié)點(diǎn)性能的不同來對數(shù)據(jù)進(jìn)行不同的分布式存儲(chǔ),實(shí)際應(yīng)用表明,這確實(shí)提高了數(shù)據(jù)存儲(chǔ)效率。
2.4擁有以異構(gòu)云環(huán)境為基層的動(dòng)態(tài)推理算法
在大數(shù)據(jù)處理的所有流程當(dāng)中,處于中心環(huán)節(jié)的是數(shù)據(jù)的處理和分析,它的好壞直接影響電信大數(shù)據(jù)的整體性能,因此必須要將數(shù)據(jù)的處理分析提升到一個(gè)更精確地位置。目前,在計(jì)算機(jī)網(wǎng)絡(luò)中,云計(jì)算集群雖處于構(gòu)建階段,但其硬件水平卻在不斷提升且速度較快,然而這容易導(dǎo)致節(jié)點(diǎn)性能的差異性[4]。針對此種情況,相關(guān)設(shè)計(jì)人員提出了以異構(gòu)云環(huán)境為基礎(chǔ)的動(dòng)態(tài)推理算法。
總的來說,電信大數(shù)據(jù)的分析和處理方式必須要隨著網(wǎng)絡(luò)技術(shù)的發(fā)展而不斷更新,Hadoop技術(shù)作為一個(gè)獨(dú)特的數(shù)據(jù)處理方式,根據(jù)電信大數(shù)據(jù)的相關(guān)特點(diǎn)靈活地將其融入到數(shù)據(jù)處理中,為電信大數(shù)據(jù)提供了一個(gè)更好地分析平臺(tái)。
[1]張國棟.基于Hadoop技術(shù)的電信大數(shù)據(jù)分析平臺(tái)的設(shè)計(jì)和實(shí)現(xiàn)[D].上海交通大學(xué),2014.
[2]曹茜茜.基于Hadoop的電信大數(shù)據(jù)分析的設(shè)計(jì)與實(shí)現(xiàn)[D].西安科技大學(xué),2015.
[3]張功水.基于Hadoop技術(shù)的電信大數(shù)據(jù)分析平臺(tái)的設(shè)計(jì)和實(shí)現(xiàn)[J].信息通信,2016.
[4]高洪,楊慶平,黃震江.基于Hadoop平臺(tái)的大數(shù)據(jù)分析關(guān)鍵技術(shù)標(biāo)準(zhǔn)化探討[J].信息技術(shù)與標(biāo)準(zhǔn)化,2013.
網(wǎng)絡(luò)安全技術(shù)與應(yīng)用2017年6期