袁立 孟彩霞 西安郵電大學(xué)計算機(jī)學(xué)院
隨著信息技術(shù)的迅猛發(fā)展和普及應(yīng)用,信息系統(tǒng)規(guī)模不斷擴(kuò)大,并且產(chǎn)生了海量的數(shù)據(jù),2012年2月《紐約時報》發(fā)表專欄文章,宣告了大數(shù)據(jù)時代的降臨。大數(shù)據(jù)時代的到來,改變著社會的方方面面,給企業(yè)帶來了較大的機(jī)遇和挑戰(zhàn):一方面,以大數(shù)據(jù)分析挖掘為基礎(chǔ),企業(yè)可以實現(xiàn)客戶分群、精準(zhǔn)營銷、事件預(yù)測、資源優(yōu)化、商機(jī)挖掘等功能,從而帶來巨大的商業(yè)價值,實現(xiàn)各種高附加值的增值服務(wù),進(jìn)一步提升企業(yè)的經(jīng)濟(jì)效益和社會效益;另一方面,企業(yè)的商業(yè)模式、業(yè)務(wù)策略、決策依據(jù)等都將日益基于大數(shù)據(jù)分析而非基于經(jīng)驗和直覺,這對企業(yè)的業(yè)務(wù)運營支撐體系,主要是信息化體系的建設(shè)以及發(fā)展戰(zhàn)略帶來了巨大挑戰(zhàn)。
匯總層的數(shù)據(jù)和應(yīng)用層的數(shù)據(jù)按照業(yè)務(wù)邏輯進(jìn)行歸類,分為:客戶類、渠道類、產(chǎn)品類、收入類、行為類、資源類。
大數(shù)據(jù)HADOOP平臺架構(gòu)包括數(shù)據(jù)采集層、數(shù)據(jù)存儲和計算層、數(shù)據(jù)服務(wù)接口層及平臺自運行能力層。要求能夠處理結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),具備實時計算、流數(shù)據(jù)處理、準(zhǔn)實時采集生產(chǎn)系統(tǒng)源數(shù)據(jù)的能力。大數(shù)據(jù)平臺要具備數(shù)據(jù)安全保障能力,滿足省級數(shù)據(jù)安全的相關(guān)管理要求。
(1)數(shù)據(jù)采集層:實現(xiàn)對數(shù)據(jù)源的數(shù)據(jù)的采集和裝載,并經(jīng)過加工、清洗,提供到大數(shù)據(jù)存儲層完成數(shù)據(jù)存儲。
(2)數(shù)據(jù)存儲與計算層:采用混合結(jié)構(gòu)搭建,實現(xiàn)數(shù)據(jù)的存儲和計算。存儲層采用HDFS存儲架構(gòu);計算層包括HIVE、HBASE包括數(shù)據(jù)獲取、離線批處理、實時處理、異構(gòu)數(shù)據(jù)同步等功能。其中離線批處理以MapReduce為基礎(chǔ)并提供Hive、Mahout等處理組件,實時處理包括Storm流式實時計算框架。
(3)數(shù)據(jù)服務(wù)層:通過數(shù)據(jù)存儲和計算層的挖據(jù)和分析,將海量數(shù)據(jù)處理結(jié)果通過封裝、開放,根據(jù)不同業(yè)務(wù)部門的使用需求,通過數(shù)據(jù)共享發(fā)布及應(yīng)用提供給外部使用。
平臺ETL性能要同時滿足今后數(shù)據(jù)準(zhǔn)實時抽取和批量采集兩種方式的要求,要求能夠在滿足規(guī)定的時限內(nèi)完成每日數(shù)據(jù)加載工作。ETL過程支持并行處理,且必須具備統(tǒng)一自動調(diào)度、日志監(jiān)控和運營管理的功能。
平臺支持結(jié)構(gòu)化數(shù)據(jù)庫及非結(jié)構(gòu)化數(shù)據(jù),包括文本、語音、圖片等文件格式。

(1)數(shù)據(jù)本身安全;
(2)數(shù)據(jù)存儲安全;
(3)數(shù)據(jù)訪問安全;
(4)數(shù)據(jù)展示安全;
(5)數(shù)據(jù)導(dǎo)出安全;
(6)數(shù)據(jù)權(quán)限安全;
(7)數(shù)據(jù)脫敏安全。
基于有數(shù)據(jù)業(yè)務(wù)分析系統(tǒng)、用戶行為分析系統(tǒng)、BOSS系統(tǒng)等業(yè)務(wù)域分析系統(tǒng),能夠?qū)F(xiàn)有業(yè)務(wù)域各分析系統(tǒng)及業(yè)務(wù)域各類數(shù)據(jù)、資源融入大數(shù)據(jù)平臺,并將各類數(shù)據(jù)、資源、計算結(jié)果由大數(shù)據(jù)平臺發(fā)布共享。并產(chǎn)生新的專題分析數(shù)據(jù)。
平臺數(shù)據(jù)處理能力通過能力封裝形式實現(xiàn),業(yè)務(wù)處理流程通過可視化平臺界面進(jìn)行配置,全能力數(shù)據(jù)流處理狀態(tài)可視化,數(shù)據(jù)接入系統(tǒng)后,為方便應(yīng)用程序使用,需具備統(tǒng)一格式轉(zhuǎn)換功能,消息協(xié)議轉(zhuǎn)換功能。
對于消息接口,接收特定協(xié)議格式后,為方便后續(xù)程序處理,需具備常見轉(zhuǎn)換為常見消息格式功能,包括:StringJSONXML等,并具備自定義消息格式功能。
面向內(nèi)外部應(yīng)用,提供大數(shù)據(jù)整合和基礎(chǔ)數(shù)據(jù)處理能力。
外部數(shù)據(jù)源的各類數(shù)據(jù),負(fù)責(zé)對外部來源系統(tǒng)的數(shù)據(jù)進(jìn)行統(tǒng)一過濾、存儲和沉淀,實現(xiàn)數(shù)據(jù)準(zhǔn)確性、完整性、一致性。
大數(shù)據(jù)平臺采用GBase 8a MPP數(shù)據(jù)庫的MPP數(shù)據(jù)庫。
GBase 8a MPP數(shù)據(jù)庫,是在GBase 8a列存儲數(shù)據(jù)庫基礎(chǔ)上開發(fā)的,基于現(xiàn)代云計算理念和shared nothing架構(gòu)的并行數(shù)據(jù)庫集群,可支持TB到PB級別結(jié)構(gòu)化數(shù)據(jù)存儲查詢,高性能、高可用、高擴(kuò)展的分布式、并行的數(shù)據(jù)庫系統(tǒng)。以其獨特的扁平架構(gòu),高可用性和動態(tài)擴(kuò)展能力,為超大型數(shù)據(jù)管理提供一個高性價比的通用平臺。
通過大數(shù)據(jù)平臺使多種業(yè)務(wù)數(shù)據(jù)匯聚融合,形成支撐對有線電視用戶的使用行為深層洞察能力,最終支撐用戶行為分析的應(yīng)用展示。用戶行為分析 從總量、欄目、節(jié)目逐級剖析、支撐月、日、小時級的監(jiān)控分析,實現(xiàn)了數(shù)據(jù)的多維度、多時段及準(zhǔn)實時監(jiān)控。

對客戶進(jìn)行精準(zhǔn)營銷,首先要對客戶特點和客戶需求特點進(jìn)行深入了解,然后根據(jù)這些特點對客戶進(jìn)行特定的業(yè)務(wù)推薦或者維系策略,這樣才可以最大限度提升客戶的滿意度,在改善用戶體驗的同時,適時的增加廣告精準(zhǔn)投放業(yè)務(wù),深耕市場提升營業(yè)利潤。
[1]白冰.數(shù)據(jù)挖掘在電視節(jié)目收視率中的應(yīng)用研究[D].江蘇科技大學(xué), 2008.
[2]裴蕾.基于Web數(shù)據(jù)挖掘的電子商務(wù)推薦系統(tǒng)研究[D].同濟(jì)大學(xué),2006.
[3]瞿華禮.數(shù)據(jù)挖掘技術(shù)在電視用戶滿意度分析中的應(yīng)用研究[D].安徽大學(xué), 2011.
[4]王鑫.數(shù)據(jù)挖掘中聚類分析算法的研究[D].山東師范大學(xué), 2006.
[5] 謝曉燕.基于陣列處理器的去塊濾波算法并行化設(shè)計[N].西安郵電大學(xué)學(xué)報 2017. P67-72