周實奇
摘 要:大數據平臺生態圈產品眾多,提供了眾多功能,開源產品為主,普遍面向功能層面,相比傳統關系型產品圈,大數據平臺更缺乏全局的統籌管理;大數據平臺面對的數據更多,數據量更多,處理更為復雜;平臺的靈活性,為不同用戶提供了不同的數據視覺;復雜度靈活性也帶來了對數據管理的難度;過去關系型數據的管理與管控往往是事后行為,數據的管理與管控效果較差;在大數據更為復雜的環境下,有效的管控變得更為重要。
關鍵詞:移動互聯網、大數據平臺
1 背景
1.1 什么是大數據
最早提出“大數據”時代到來的是全球知名咨詢公司麥肯錫,麥肯錫稱:“數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來。”
本文將立足大數據在電信運營商支撐體系的定位、價值應用和支撐方案等方面展開討論。
1.2 大數據的特點
要理解大數據這一概念,首先要從"大"入手,"大"是指數據規模,大數據一般指在10TB(1TB=1024GB)規模以上的數據量。大數據同過去的海量數據有所區別,其基本特征可以用4個V來總結(Volume、Variety、Value和Velocity),即體量大、多樣性、價值密度低、速度快。
第一,數據體量巨大。從TB級別,躍升到PB級別。
第二,數據類型繁多,如網絡日志、視頻、圖片、地理位置信息等。
第三,價值密度低。以視頻為例,連續不間斷監控過程中,可能有用的數據僅僅有一兩秒。
第四,處理速度快。1秒定律。最后這一點也是和傳統的數據挖掘技術有著本質的不同。物聯網、云計算、移動互聯網、車聯網、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數據來源或者承載的方式。
1.3 大數據在電信運營商IT支撐體系中的應用定位
而對于企業來講,尤其是電信運營商企業,為了達到匯集數據,并最大發揮數據的價值,建設數據中心是不二的選擇。那么在大數據時代,大數據的數據范圍應該包含哪些?我們又應該通過什么樣的方式管理和最大程度的挖掘其價值呢?
首先,為了達到輔助企業精細精確化運營,大數據的范圍應該包括企業運營產生的全部數據,即我們通常所說支撐體系中B、O、E、M、D域中的全部數據。同時為了不斷適應發展環境,我們還應該考慮納入互聯網數據,乃至物聯網數據。在大數據支撐體系架構設計上,還應考慮通過靈活的手段,支撐未來更大范圍的數據。
2 業務現狀
處于大數據爆炸時代下的電信運營商,也不能獨善其身,電信運營商的數據來源可以分為三類:
(1)用戶數據:包括用戶的姓名、年齡、職業等基本數據,上網記錄、瀏覽網站、瀏覽內容等興趣愛好,支付交易、資金往來等消費水平,上網地點、使用時間等行為軌跡,朋友圈、同學群等交往圈子。
(2)產品數據:包括產品形態、產品聲音、圖片、視頻,流量,短信、渠道、品牌等。
(3) 網絡數據:網管能力,網絡基礎通信能力,運維數據等。
面對這些幾何式增長的數據,如何管理并有效它們成為擺在每個電信管理者面前必需解決的問題。目前電信運營商在大數據管理方面所面臨的一些挑戰:
(1)大數據平臺生態圈產品眾多,提供了眾多功能,開源產品為主,普遍面向功能層面,相比傳統關系型產品圈,大數據平臺更缺乏全局的統籌管理;
(2)大數據平臺面對的數據更多,數據量更多,處理更為復雜;平臺的靈活性,為不同用戶提供了不同的數據視覺(如MapReduce和Hive);復雜度靈活性也帶來了對數據管理的難度;
(3)過去關系型數據的管理與管控往往是事后行為,數據的管理與管控效果較差;在大數據更為復雜的環境下,有效的管控變得更為重要;
(4)大數據平臺目前混合架構會長期存在,混合架構的數據管理產品缺乏。面對挑戰,適應潮流,建設一套統一的數據管理平臺對每個運營商來說勢在必行。
3 建設原則分析
大數據平臺建設并不單純取決于企業的業務規模、需求等因素,而是與企業本身的技術水平、基礎數據的可信度、對統計分析需求的理解等多方面有著密切的關系。綜合上述因素,在建設中應堅持以下的建設原則要求:
(1)系統的建設與電信運營商信息化數據分布及接口現狀結合
大數據的建設應與信息化數據分布及接口現狀緊密結合,引入有效的數據管理和控制手段,對分散在各系統的數據進行科學、實用的整合,對系統間各類數據傳遞接口進行合理、高效的整合,保證數據的一致性、完整性、準確性,從而順利實現大數據建設目標。
(2)堅持從實際出發,統籌規劃、突出重點、分步實施的系統建設理念
信息化建設是一個逐步推進和不斷完善的過程,不可能一蹴而就,尤其是作為企業數據架構之一的大數據支撐平臺建設,既要有高瞻遠矚的戰略眼光,又要有腳踏實地的務實精神。大數據的建設應把當前需求與長遠規劃發展結合起來,突出重點、分步實施,實現對精確管理和品牌經營的有力支撐。
4 平臺總體設計
在明晰了電信運營企業在大數據的定位和價值體現后,我們來談談怎樣來實現。
對于大數據的特點,業界已經達成基本4V特點的共識,即Volume(數據大)、Variety(種類多)、Velocity(及時性要求高)、Value(價值密度低)。而我們要說大數據的特點,應該是為更好的處理大數據找到相應的方法,對于其規模大的特點,我們是不是應該想辦法把大數據變??;對于其結構復雜,我們是不是應該找到不同類型數據相應的處理方法;對于它價值密度低,我們應該怎么樣更好的分類和設計挖掘的模型;對于時效性要求,我們應該怎么樣提高處理速度,滿足需求。這應該是我們總結大數據特點的初衷,而這些特點相應的解決方案應融入到我們的架構設計中去。
5 平臺實現方案
大數據管理平臺共由六大模塊組成,分別是運維門戶,數據安全管理,數據運維管理,數據生命周期管理,數據質量管理以及元數據管理。下面分別介紹這六大模塊。
5.1 數據運維門戶
數據運維門戶提供統一的信息服務功能入口,實現大數據信息的共享。其主要實現的功能包括以下三點:
1.界面集成,即在運維門戶系統的一個頁面中將多個系統頁面進行統一呈現,使用戶無需在各個系統之間進行登錄切換,增加用戶查看信息的便利性;
2.數據集成,運維門戶系統需要采集各個系統的業務數據,然后進行歸納、加工和處理,提取出對使用者更有價值的信息并進行展示;
3.功能集成,運維門戶系統還需要對各系統的功能進行集成,使用戶在門戶中也能夠使用各系統中的特定功能。
5.2 數據安全管理
通過集中的數據安全管理來保證組織數據安全、合理的使用;數據安全管理包敏感數據脫敏、數據權限管理、訪問控制、接入認證、數據傳輸安全和權限控制。
敏感數據脫敏指對某些敏感信息通過脫敏規則進行數據的變形,實現敏感隱私數據的可靠保護。這樣,就可以在開發、測試和其它非生產環境以及外包環境中安全地使用脫敏后的真實數據集。
訪問控制是指能夠識別非法來源的請求,并拒絕為其提供服務,從而防止對系統惡意攻擊。
接入認證是指對接入者的身份認證,對于認證失敗的請求,拒絕提供服務。
5.3 數據運維管理
數據運維活動,基于基礎的元數據管理、數據生命周期管理、數據質量管理、數據安全管理等活動,將這些活動有序的組織貫通,以保證組織數據處理、數據分析、數據使用的有效運作。
5.4 數據生命周期管理
數據生命周期管理通過制定合理的管理制度、組織架構以及對應的技術規范,協調各流程制度、技術規范的有效運行,以提升數據服務水平與數據使用效率,從而實現降低成本、提高效率的目標。數據存儲和備份規范是保障和基礎,數據管理和維護是執行方法,通過高效的數據管理和維護效率,從而不斷提升數據服務水平。
5.5 數據質量管理
數據質量管理通過對數據質量進行檢查,發現數據質量問題后及時進行報警。并采取相應的解決方案。運營支撐系統和源系統形成閉環的數據管理流程,避免產生不合格的數據,影響運營商系統環境。
5.6 元數據管理
大數據系統的元數據包括Hadoop元數據、Hbase元數據、Hive元數據等。
Hadoop元數據
HDFS文件的目錄樹、文件名稱、文件路徑、文件大小、文件權限和擁有者、文件訪問時間和修改時間, HDFS文件的分類目錄、文件生成規則和命名規則、業務描述和模型結構定義信息、任務調度數據等。
Hbase元數據
HBASE庫表目錄、庫表名稱、庫表結構、HBASE庫表的模型分類目錄、業務描述、模型結任務調度數據等元數據。
Hive元數據
HIVE庫表目錄、庫表名稱、庫表結構、庫表大小、HIVE庫表的模型分類目錄、業務描述、模型結構、任務調度數據等元數據。
6 大數據平臺建設關鍵點分析
關鍵點一:明確的系統定位和目標。
大數據系統的建設,是個復雜龐大的工程,需要多期的持續化建設,所以在初期的建設中,需要明確整體系統定位和各期各階段的建設目標,在保持一定先進性的前提條件下合理演進。在大的系統定位和業務支撐明確后,還需在各期建設中,不斷的進行規劃咨詢,通過細微的調整,來滿足不同時期重要緊急的能力支撐,保證整體系統體系的高效建設和發展。
關鍵點二:從運營商公司實際需求出發,選擇合理的技術架構。
技術不是萬能的,但沒有技術也是萬萬不能的。大數據平臺涉及到的技術花樣繁多,Hadoop框架、MPP數據庫、列式存儲、并行計算、實時計算、內存計算、交互式查詢、可視化展現等等,有很多的技術路線分支,大多數又是開源的,集成商對其掌握的深入程度,在其之上改造提升的程度,如何選用及整合合適的技術路線產品,性能、穩定性、安全性、可維護性、快速問題解決能力、二次開發的方便性,都成為大數據平臺建設的關鍵因素。
關鍵點三:對業務數據的深刻理解和科學的數據存儲規劃。
做大數據項目,首要點在于對各類數據的理解和掌握。對于BSS/OSS的數據、客戶行為的數據、增值業務系統的數據等等是否有深入的理解和認識?這些數據如何進行關聯,如何能夠打通不同網絡,前后端的數據?哪些數據是真實有效的,存在哪些數據盲點?對于盲點數據,如何彌補數據缺陷?如果沒有對數據全方位完整深入的認識,由此建設的大數據項目就會成為花架子,中看不中用。
關鍵點四:打造開放的體系架構,盤活數據資產。
大數據能力產品與應用平臺作為對外數據能力和平臺能力的支撐平臺,為了更好發揮大數據能力與應用平臺的價值作用,如何規劃建設開放化的架構體系,豐富數據服務能力和平臺能力,為用戶提供完善的數據服務和平臺服務,將一定程度上決定系統的生命力。
關鍵點五:“百花齊放”的應用開發支撐,充分挖掘數據“金礦”。
傳統時代是“有問題找數據”,大數據時代是“用數據找機會”。如何從“看數據”到“用數據”再到“養數據”,讓數據成為構建企業生產力的重要部分,成為企業取之不盡,用之不竭的“金礦”。這必須要有一個基于“百花齊放”思想的應用開發支撐框架,以及豐富的應用的支持。大數據應用將不是簡單地提供一些報表或分析模塊,而是需要站在企業運營(營銷、客服、運維等)及對外數據價值變現的各個方面,將數據的力量和思考的力量融合在一起,推動更主動的管理和更多的創新。
關鍵點六:可持續發展的系統平臺。
如何適應運營商大數據平臺建設規劃的發展,以及大數據平臺不斷豐富完善的過程,進行大數據平臺的配套建設,靈活適應業務發展和管理完善的要求,制定切實可行的平臺和業務支撐演進計劃,是在本期系統平臺和應用開發設計需要重點考慮的,同時也是打造一個可持續發展的系統平臺的關鍵問題。
7 結束語
基于Hadoop平臺建設大數據中心數據管理平臺,收集HDFS、Hive、Hbase、Hcatalog、Oozie等核心產品和關系型數據處理相關的元數據信息,實現對大數據元數據的統一管控,并結合實際的業務需求,實現基于大數據平臺的數據運維。在大數據環境下,實現大數據相關的元數據管理及數據運維輔助支撐。從遠景來看,實現大數據環境下面向全行業數據的管理與管控平臺,提供企業級的數據運營管理平臺。
參考文獻
[1] 鄭雪菲.國外電信運營商大數據應用及啟示.
[2] 盧曄.大數據--移動互聯網時代通信運營商的破局之道.