(中國移動通信集團廣東有限公司,廣東 廣州 510623)
大數據(Big Data)指的是無法在可承受的時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合。通常用4個V,即Volume、Variety、Value、Velocity來概括大數據的特征。從應用的角度來看,可從資源屬性和應用模式這2個維度來理解大數據。首先,大數據是一個規模巨大、結構復雜、類型眾多的數據構成的數據集合,即大數據=海量數據+復雜類型數據。其次,大數據是知識發現的一種新模式,是采用云計算技術來處理數據的智能應用模式,即通過數據的整合共享、交叉復用形成新的智力資源與知識能力,即大數據=云計算+數據智能。
目前,互聯網公司的大數據化進程較早、較成熟。依托其自身的數據優勢,采取靈活、深入的方式進行數據挖掘、分析,并從中探索了相關經驗和業務模式。如Google的盈利在于所有的軟件應用都是在線的,用戶免費使用這些產品的同時,將個人的行為、喜好等信息也免費地送給了Google,因此Google的產品線越豐富,它對用戶的理解就越深入,從而達到了精準的廣告營銷的目的。
因此,不僅需要關注數據的獲取、存儲和分析能力,更需關注如何從海量數據資源中抽取信息、凝練知識,借以指導企業的生產和經營行為。今年以來,國務院印發了《關于促進云計算創新發展培育信息產業新業態》、《中國制造2025》等政策文件,正在制定并即將出臺的“互聯網+”推動計劃將積極推動大數據、云計算、移動互聯網等現代技術的融合發展,這一系列的政策舉措將為ICT產業發展創造更加有利的環境和條件。

圖1 國外運營商大數據應用歷程
電信運營商詳細記錄了人們在現代化社會的信息指紋,獲取的數據要比單一互聯網公司的數據更豐富、更立體、更飽滿。首先,電信運營商具有提供可管、可控的全程全網服務和端到端網絡接入的能力。其次,電信運營商具有強大的用戶聚合效應,電信運營商作為用戶接入的第一接觸者,具有更為直接的用戶聚合能力。再次,電信運營商在網絡、業務運營和提供服務的過程中感知、獲取網絡狀態、業務狀態。尤其是人口統計學(包括姓名、性別、手機號碼、IMEI等)、用戶位置(包括基站經緯度、所屬Node B、SGSN IP等)、用戶業務(包括類型、連接方式、訪問記錄等)、計費數據(包括用戶套餐選擇數據、資費數據、購買歷史等)等特征數據。
然而,對于運營商來說,獨特的大數據資源并未帶來可觀的收入,電信運營商在大數據領域的探索遇到了數據資產不明、應用需求不定、平臺建設、技術路線、安全隱私等方面的挑戰。如何依靠大數據解決方案避免啞管道化的危機是全球運營商需要共同探討的話題。
大數據正在開啟一次重大的時代轉型,2014—2016年將是大數據的大發展時期,據英國電信與媒體市場調研公司Informa Telecoms & Media統計,電信領域大數據應用市場份額占據10%以上。放眼全球市場,電信運營商大數據發展仍處在發展階段,如圖1所示,但是一些發達國家運營商的經驗值得我們借鑒,主要包括2個方面:一方面運營效能提升,基于大數據分析的網絡故障診斷、網絡優化和用戶感知提升;另一方面對外價值變現,基于電信大數據開發面向政府、公共事業單位等產品,獲取變現收益。
大數據的真實價值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,絕大部分都隱藏在表面之下。在云計算出現之前,傳統的計算機是無法處理如此量大、不規則的“非結構數據”。數據挖掘(Data Mining)是數據庫知識發現中的一個步驟,就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用信息和知識的過程,具體如圖2所示。數據挖掘通常與計算機科學有關,并通過統計學、數據庫技術、可視化、機器學習、高性能計算、專家系統(依靠過去的經驗法則)和人工智能等諸多方法來實現上述目標。

圖2 數據挖掘過程
以云計算為基礎的信息存儲、分享和挖掘手段,可以經濟、有效地將這些大量、高速、多變化的終端數據存儲下來,并隨時進行分析和計算。為了滿足中國移動IT系統高性能、低成本、高可擴展性、高可靠性、高安全性的需求,自2007年起中國移動就在云計算方面啟動“大云”研發計劃。
當前,大數據的應用包含4個階段,如圖3所示。首先是數據收集與存儲,包含ETL、數據融合與集成等;其次是信息提取,包含數據統計與查詢、報表生成、數據可視化與服務化等;再者是知識發現階段,包含機器學習與數據挖掘等;最后是智能應用階段,包含基于知識的分析與預測功能等。

圖3 挖掘系統邏輯架構
同時,大數據應用的目標是追求數據價值的最大化,要想實現這一目標,必須具備從海量數據資源中抽取信息、凝練知識的能力,即必須能夠通過信息交換、數據整合、知識共享與交叉復用,形成新知識、創造新價值。
大部分的數據價值是潛在的,需要通過創新性的分析來釋放能力。數據驅動企業運營使得數據的分析和應用無處不在,而數據的成功運用需要專業知識,這并不是IT擅長的,因此大數據管理通過數據共享平臺實現。具體技術架構方面,電信運營商大數據平臺可以依托開源項目,采用分層、模塊化的思想對主要平臺元素進行設計,各層相對獨立,通過標準接口向外部應用系統開放,參考技術架構如圖4所示。
其中,最底層為硬件平臺層。將PC服務器集群、存儲、網絡等基礎設施資源組合在一起,形成IaaS(Infras-tructure as a Service)硬件資源池,供上層應用系統使用。
第2層是分布式平臺層。在物理平臺的基礎上部署分布式文件系統、分布式數據庫、緩存服務、任務分解、資源調度等一系列分布式軟件,把多臺獨立的PC服務器組合成具有超大規模計算和存儲能力的系統。分布式平臺屏蔽了分布式系統任務分解、資源調配等復雜的底層工作,簡化了上層分布式應用的開發流程。
第3層是計算框架層。該層是一個集群管理器,提供了有效的、跨分布式應用或框架的資源隔離和共享,可以運行Hadoop、MPI、Hypertable、Spark。使用ZooKeeper實現容錯復制,使用Linux Containers來隔離任務,支持多種資源計劃分配。
第4層是能力開放層。在基礎能力層上形成搜索引擎、位置信息、內容分發等功能更為完善的服務。這些服務獨立于應用系統的業務邏輯,可作為應用程序的能力補充。
第5層是應用層。需要使用大數據服務的一系列電信應用系統,如大規模用戶行為分析、全網流量分析等,通過調用平臺的大數據服務接口快速實現大數據能力。

圖4 大數據開放平臺的邏輯架構
網絡中傳輸著各種信號,其中一部分是需要的(如打電話的語音、上網的數據包等),而另一部分是不需要的(只能說不是直接需要),它用來專門控制電路,這一類型的信號稱之為信令。
隨著2G、3G、4G的逐步建設,電信運營商進入流量經營時代,信令數據作為網絡優化必不可缺的環節。通過對信令進行監測,深層次支撐網絡優化,精確故障定位,規劃基站和熱點的建設,還可以對已有基礎設施的效率和成本進行評估,用以增減基站建設以實現更高的網絡效率。
為了“先于用戶發現問題,先于投訴解決問題”,支持網絡管理業務的平滑過渡,為規劃、建設、經營、維護、優化等部門工程人員提供所需的支撐數據,提出網絡故障監控體系,具體如圖5所示。基于獨立組網S1/S6a/S11接口信令數據采集方案,采用高效數據挖掘方法(深度學習、高效學習、人機智能),建立準確的網絡預警模型,對突變惡化的網元及時進行預警輸出。

圖5 網絡故障監控體系
網絡故障監控體系監控范圍:
(1)云:網站、應用后臺服務器。
(2)管:核心網(MSC、MSC Server、MGW、HLR、STP、智能網設備等)、無線網(RNC、Node B、UtranCell)、數據網(SGSN、GGSN、承載網、CMNET)等。
(3)端:智能終端OS(蘋果、華為、聯想等)、瀏覽器插碼、APP SDK。
監控信息:
(1)告警信息:使用告警標準化后的網管告警ID、網元名稱、告警設備廠家、設備類型。
(2)處理規則:告警智能預處理規則表。
(3)處理信息反饋:對設備輸入指令后反饋的信息。
對于重要場景的保障,可以對用戶、業務、小區進行綜合保障和透視。同時縮短監控時間至5分鐘。
目前電信大數據應用現狀的不足及改進方向如下所示:
不足:數據預測準確性低,無法利用動態、多樣、復雜的情境(時間、地點等)數據。機器學習方法效率低,數據挖掘算法龐雜,無法有效地選擇集成算法。
改進方向:自學習模型、情景數據挖掘、深度學習和人機智能。
通過整合用戶基本信息、終端、消費、行為、位置等8個維度,以變量為基礎,構建能反映客戶信用評價的子模型。如壞賬風險預測模型、影響力模型、交往圈模型、內容偏好模型等9類模型,以實現用戶各類特征的多維度洞察,并最終運用評分卡模型將用戶各維度特征轉換為分數,得到最終的信用評分。該信用評級模型的識別準確率較高,能夠達到86%以上,識別覆蓋率則高達91%。
基本應用:授信服務、信用擔保、信用繼承、高危用戶風險控制。
目標客戶:銀行金融單位、互聯網P2P公司、婚戀網站、二手交易網站、移動支付公司。
智慧足跡產品的監控模型,通過采集、解析移動通信網絡中的信令消息,實現實時監測用戶(匿名信息)所在地理位置,對人流聚集嚴重區域及時產生告警預防。人流監控平臺結構模型如圖6所示,其由信令分析系統和人流信息挖掘及預警2個模塊單元組成。

圖6 人流監控平臺結構模型圖
信令分析系統:后臺負責實施采集、處理Gb、IuPS和S1等移動網絡接口的用戶信令消息,定位用戶所在地理位置。
人流信息挖掘及預警:負責動態分析和呈現某地區人流量情況,對達到門限值區域及時產生告警。
智慧足跡產品:新店選址服務、銀行卡風控服務、持卡人精準營銷。
隨著數據挖掘、云計算、物聯網技術的逐步發展成熟,電信運營商面臨著重大機遇。回顧國外電信運營商大數據業務的發展趨勢,介紹數據挖掘及平臺架構,探索基于大數據的業務模式分析,以幫助運營商在大數據時代積極調整策略,更好地順應時代發展的潮流。
[1] Viktor Mayer-Schonberger, Kenneth Cukier. Big Data: A Revolution That Will Transform How We Live, Work and Think[M]. Hodder Export, 2013.
[2] 孫少陵. 云計算變革下電信運營商的機遇及中國移動云計算探索[J]. 移動通信, 2010(11): 44-46.
[3] 漆晨曦. 運營商大數據管理及應用體系發展策略[J]. 通信企業管理, 2012(10): 72-75.
[4] 曉鏡. Sprint:運營商緊靠大數據就能生存[N]. 中國郵電報, 2012-11-21(5).
[5] Han, M Kamber. Data mining concepts and techniques[M].San Francisco: Morgan Kaufmann Publishers, 2012.
[6] 李政,李繼兵,丁偉. 基于大數據的電信運營商業務模式研究[J]. 移動通信, 2013(5): 64-67.
[7] 祁昊穎. 大數據時代電信運營商文件系統新思考[C].2013年中國信息通信研究新進展論文集, 2014.
[8] 曹旭,曹瑞彤. 基于大數據分析的網絡異常檢測方法[J].電信科學, 2014(6): 152-156.
[9] 姚逴炯. 大數據在電信運營商市場分析及精確營銷的應用研究[J]. 商業經濟, 2014(15): 66-70.
[10] CL Philip Chen, Chun-Yang Zhang. Data-intensive applications, challenges, techniques and technologies:A survey on Big Data[J]. Information Sciences,2014,275(10): 314-347.