張靜嫻 諸旻 曾振婷
【摘要】 本文首先介紹了大數(shù)據(jù)特點和發(fā)展,介紹了大數(shù)據(jù)思維轉變的環(huán)境下電信運營商發(fā)展大數(shù)據(jù)的驅動力,通過領先企業(yè)對標分析得出電信運營商大數(shù)據(jù)的啟示,結合大數(shù)據(jù)技術的發(fā)展,研究某電信運營商省公司大數(shù)據(jù)平臺的建設方案,最后提出了對大數(shù)據(jù)管理保障的一些思考。
【關鍵詞】 大數(shù)據(jù) Hadoop 統(tǒng)一建模 智能化
一、我司建設大數(shù)據(jù)平臺驅動力
(1)解決數(shù)據(jù)分散問題
我司分別在OSS域、BSS域建設數(shù)據(jù)分析平臺,平臺煙囪式和數(shù)據(jù)孤島式的模式導致了數(shù)據(jù)和模型不共享、數(shù)據(jù)使用效率低下、應用競相開發(fā)等諸多問題。
(2)提升企業(yè)經營效率
各域數(shù)據(jù)互提頻繁(OSS和BSS之間互提數(shù)據(jù)達100多項,隨著市場營銷和網絡運維等活動的復雜度和精確度要求越來越高,互提需求還會日益加劇),而現(xiàn)網只能以周/月為時間單位進行接口互傳,域間開放的數(shù)據(jù)有限,嚴重影響企業(yè)生產活動,特別是無法支撐應用的突發(fā)性、臨時性需求。
(3)提升業(yè)務能力
通過大數(shù)據(jù)平臺建設,匯聚自有和外部大數(shù)據(jù),實現(xiàn)大數(shù)據(jù)“自用”和“他用”,共同提升企業(yè)的業(yè)務能力,包括提升業(yè)務量、延長用戶生命周期、數(shù)據(jù)對外變現(xiàn)等。
二、我司大數(shù)據(jù)平臺規(guī)劃建設方案研究
2.1規(guī)劃原則
1)支撐由降本增效向外部服務延生的大數(shù)據(jù)應用;2)解耦應用與數(shù)據(jù)、平臺開放,寧可挪動計算而不挪動數(shù)據(jù);3)分層分域:橫向分為功能域和管理域,功能域縱向又分為采集層、數(shù)據(jù)共享和存儲層、服務目錄層、應用層和展現(xiàn)層;4)架構混搭、技術開放:數(shù)據(jù)共享和存儲層采用基于云計算的“關系型數(shù)據(jù)庫MPP+Hadoop”混搭架構,同時技術上能適用未來至少5年大數(shù)據(jù)技術的主流發(fā)展;5)對于應用架構采用模塊化和標準化兩種設計原則;6)強調實時服務能力,包括服務過程中實時數(shù)據(jù)采集、實時分析、實時服務傳遞、自適應深度學習。
2.2規(guī)劃目標架構:
1)平臺分為功能域和平臺管理域;2)功能域分為采集層、數(shù)據(jù)存儲和處理層、服務目錄層、應用層、展現(xiàn)層;3)共享和存儲層分為:ETL、存儲層和計算、模型層;4)管理域主要包括:元數(shù)據(jù)管理、數(shù)據(jù)質量管理、安全管理、系統(tǒng)管理等。
2.3數(shù)據(jù)源規(guī)劃
1)內部生產運營數(shù)據(jù),包括客戶、業(yè)務、產品、話單、服務營銷、行業(yè)應用、渠道等,采自BOSS、CRM、客服、電渠等系統(tǒng)。2)內部網絡承載數(shù)據(jù),包括網絡資源、信令(Gn/ Gb/S1-U等)、省網/IDC/第三方出口流量數(shù)據(jù)、應用內容等,采自信令監(jiān)測、DPI系統(tǒng)、綜合資源管理、性能管理等系統(tǒng)。3)內部企業(yè)管理數(shù)據(jù),包括企業(yè)收入、運營成本、運營管理等數(shù)據(jù),采自ERP、MIS、供應鏈、采購管理等系統(tǒng)。4)外部互聯(lián)網和政企數(shù)據(jù),包括公開發(fā)布的互聯(lián)網報告、政府報告、行業(yè)數(shù)據(jù)(金融、交通、旅游等)、爬蟲爬取數(shù)據(jù)等。5)實時數(shù)據(jù):客戶在線咨詢、查詢、 辦理的數(shù)據(jù),關注客戶在各類社交媒體上的發(fā)言、在線的評論信息等等,還包括客戶交易過程中失敗的數(shù)據(jù)等。
2.4安全規(guī)劃
大數(shù)據(jù)平臺打破了原來各域的安全機制,增加了數(shù)據(jù)共享的風險和數(shù)據(jù)二級用途上的風險;工信部發(fā)布的《2014年大數(shù)據(jù)白皮書》也提到“為了釋放大數(shù)據(jù)潛力,監(jiān)管的重點應該‘從數(shù)據(jù)收集環(huán)節(jié),轉移數(shù)據(jù)使用環(huán)節(jié)”。大數(shù)據(jù)環(huán)境下主要面臨三方面安全風險:架構安全、數(shù)據(jù)安全、使用安全。
我司大數(shù)據(jù)平臺的安全主要從以下幾個方面進行考慮:1)數(shù)據(jù)存儲的安全:包括數(shù)據(jù)脫敏和數(shù)據(jù)加密。利用采集清洗及流處理的功能,可以實現(xiàn)對各個字段,針對性的脫敏處理,并且保證在數(shù)據(jù)進入hadoop之前已經是脫敏之后的數(shù)據(jù);大數(shù)據(jù)平臺以HDFS為基礎,利用HDFS驅動提供的Format功能,實現(xiàn)hadoop云平臺系統(tǒng)級、業(yè)務級數(shù)據(jù)加密。2)平臺權限管理:外部客戶只能通過MR和HIVE兩種方式訪問電信運營商的數(shù)據(jù),MR的權限控制比較困難,所以通過對HDFS的訪問權限來控制達到MR的權限控制的目的。3)數(shù)據(jù)訪問控制要求:平臺需要提供嚴格的數(shù)據(jù)訪問安全控制,用戶需獲得授權文件Token才可以訪問數(shù)據(jù), 授權文件Token包含授權的表名、字段等數(shù)據(jù)訪問權限控制參數(shù)。授權文件Token提供有效期配置功能。
2.5大數(shù)據(jù)平臺建設思路
采取“初始規(guī)模較小、快速發(fā)現(xiàn)問題快速調整完善”的迭代機制開展建設。1)存儲資源:采用一步規(guī)劃一步到位的建設方式。大數(shù)據(jù)應用發(fā)展需要全量數(shù)據(jù)進行支撐,構建用戶統(tǒng)一視圖和標簽庫方便應用隨時調用,因此數(shù)據(jù)和存儲等剛性需求在建設初期就要形成全面能力;2)計算資源:采用小步快跑按需擴容的建設方式。大數(shù)據(jù)應用豐富多樣,當前暫時無法規(guī)劃完整的應用體系,因此建設初期滿足當前緊迫需求,后期根據(jù)業(yè)務需求進行滾動式的快速擴容。
三、結束語
基于云計算混搭架構規(guī)劃建設大數(shù)據(jù)平臺,能夠有效降低數(shù)據(jù)存儲成本,實現(xiàn)實現(xiàn)六個統(tǒng)一(一點采集、一點存儲、一點加工、一點交換、一點分析、一點提供服務)、實時分析、大并發(fā)查詢的能力,滿足運營商各類大數(shù)據(jù)應用的業(yè)務需求。