(中國移動(深圳)有限公司,廣東 深圳 518048)
大數據是指大小超出典型數據庫軟件的采集、儲存、管理和分析等能力的數據集合。由于處在大數據產業鏈中的數據傳遞和交換中心的地位,因此電信運營商天然具有豐富的數據資源,可以進行基于大數據的業務的獨特優勢[1]。
運營商大數據主要包含:用戶基本信息(姓名、性別、手機號碼等)、計費信息(資費數據、套餐訂購數據等)、業務信息(業務使用情況、互聯網訪問情況等)、位置信息(所在基站和小區位置等)、管理信息(財務數據、成本分攤數據等)。
運營商傳統的IT架構中,主要通過BI(Business Intelligence,商業智能)系統完成數據的管理和分析[2]。在企業級數據倉庫基礎上,運營商逐步引入了Hadoop[3]、Storm[4]、Spark[5]等平臺和技術,以滿足大數據ETL(Extract-Transform-Load,抽取、轉換和加載)、大數據查詢、大數據分析計算等過程中的實時性和準確性要求。
對于運營商而言,電信大數據存在對內支撐和對外應用服務兩個層面。一直以來大數據都在幫助運營商內部各個業務部門進行各種各樣的商業決策(如何安排每年上千億的網絡投資、如何分配數百億的營銷資源等),這是大數據價值的傳統陣地和主要的關注點。
隨著移動互聯網的快速發展和運營商內部“管道化”形勢的日趨嚴峻,挖掘運營商內部數據資產的商業價值,對外提供應用服務,實現數據資產貨幣化,已經成為國內電信運營商轉型的普遍方向[6]。
運營商開展的大數據對外服務主要有以下方式:
(1)DaaS(Database as a Service,數據即服務)[7]模式,即以API(Application Programming Interface,應用程序編程接口)等方式為數據需求方提供脫敏數據;
(2)SaaS(Software as a Service,軟件即服務)[8]模式,即根據需求方要求,開發軟件產品并開放給需求方使用;
(3)PaaS(Platform as a Service,平臺即服務)[9]模式,即建設大數據開放平臺,吸引第三方合作伙伴一起為需求方提供服務,以多租戶方式進行管理;
(4)咨詢服務模式,即根據需求方要求,提供定制化咨詢報告等服務。
當前運營商已開展了面向政府機構(如旅游、交通、公安等政府管理部門)和商業企業(如航空公司、大型商場、互聯網金融公司等)的大數據對外服務的嘗試,業務應用覆蓋交通管理、城市規劃、旅游管理、會員營銷、后向廣告、產品和服務推薦、金融授信、身份驗證等各個領域。
用戶開關機、通話等業務過程中的位置切換等這些行為所產生的網絡信令,能夠深刻地洞察用戶日常生活軌跡,所以它構成了運營商現在最有價值的數據之一。面向外部行業的對外服務策略都是圍繞這些數據來制定的。
用戶位置信息相關的信令數據包括A口數據、Mc口數據、SGSN(Serving GPRS Support Node,服務GPRS支持節點)數據、Gn口數據、LTE日志(TD網絡特有)、SGs口數據等,通過解析信令接口數據的LAC(Location Area Code,位置區碼)+CI(Cell ID,小區號)字段,可定位用戶的位置。當用戶位置變化或發生業務時,會引起位置信令數據的更新。用戶位置更新表結構如表1所示:

表1 用戶位置更新表結構
基礎模型一:用戶位移軌跡模型。將同一用戶一定時間周期內的LAC+CI字段進行拼接,可得到用戶在此時間周期內的位置移動路徑。應用中可根據實際需求設定時間周期間隔,如設置為24小時,即可得到用戶在一天時間內的位置軌跡。
基礎模型二:用戶常駐地模型。根據用戶在各小區的駐留時長及時間段特征(如白天時段09:00~18:00和夜間時段00:00~6:00),可識別出用戶的住所、上班地點等常駐地信息。
以用戶位置信息為基礎,運營商可面向多個外部行業及公共服務領域提供大數據應用服務。
(1)旅游行業
輔助景區進行游客信息實時動態監測分析,一方面可以幫助景區管理人員實時掌握本景區游客流量、行進線路等信息,及時開展人流疏導等及時服務;另一方面為旅游管理部門提供大數據支持,不僅能夠及時了解各景區人流情況,提升監管能力,還能夠對游客來源、游客特征等進行全方位分析統計,為景點改進、城市形象提升、旅游推廣等工作提供有效支撐。實現方法是:首先根據景區附近的LAC+CI篩選用戶;然后根據這些用戶在景區區域內的歷史駐留時長,剔除景區工作人員群體及其他非游客特殊群體后,識別出游客的群體;最后結合地圖展示等可視化技術,可直觀展示各景區及景區各區域的游客密度和游覽軌跡。
圖1是結合GIS地圖技術的景區人流監測分析的應用示例。

圖1 某景區內各景點人流監測分析
(2)征信服務
大數據技術使得“一切數據皆信用”成為可能[10]。基于用戶的常駐地、日常軌跡等信息,輔助構建征信體系,為第三方提供授信決策,如婚戀網虛假會員識別、租車公司免押金租車、第三方小額貸款等。此類應用服務中,位置類數據僅僅是征信體系構建的一部分,但在設計信用評估標準時,位置類大數據所反映的用戶特征往往在評分標準中會占據較大的評估權重。
圖2展示了如何利用五類電信大數據來輔助銀行、互聯網金融公司等機構開展信貸審批。其中,電信位置類大數據作為重要的組成部分,為金融信貸審批提供了重要的補充參考。通過實際案例可知,假如某位用戶居住地經常發生變化、工作地點經常發生變化、月均上班天數很少,那么金融機構在進行貸款額度審核時,往往會認為其具有較高的逾期風險。金融機構信貸發放完成后,還可以通過電信位置類大數據來跟蹤用戶拿到貸款后的日常生活軌跡變化情況,及時跟蹤并對可能的風險進行預警。

圖2 征信案例:輔助金融機構信貸審批的電信征信大數據體系
(3)交通路網監測
輔助交通管理部門對路網運行狀態進行實時監測,及時發布路網擁堵情況預警(如節假日期間的高速路網流量監控及預警)和交通疏導方案。實現方法是:根據各路網走向,將路網沿線小區的LAC+CI按順序進行排列,并利用地圖等手段評估和記錄小區間的距離。當用戶進入路網小區后,根據用戶的動態位移方向可識別出用戶是否按特定道路行進,對于按道路行進中的用戶,可根據小區間切換的時間差計算出用戶的位移速度,通過量的疊加能夠計算出道路的通行狀態。基于電信大數據來進行交通路網監測,具有數據樣本量大、數據質量高、成本低、覆蓋廣等優勢,并且能夠在較短的時間內完成建設實施。
(4)面向商戶的服務
一方面,通過計算地市范圍內各區域的人口密度特征及人流量特征,輔助商戶進行店鋪選址,如彩票零售點選址。在開展這類應用時,往往還需要結合外部數據共同進行分析,如已有的類似門店分布情況、類似區域的銷售數據等。
另一方面,利用常駐地歸屬來幫助商戶篩選目標用戶,具體做法是找到某商戶附近的常駐地用戶(在附近區域居住或上班),并以廣告形式向其推薦商戶的產品和服務。
(5)公共服務領域
除了以盈利為目標的商業應用外,電信大數據應用服務的另一個重要方向是公共服務[11]。在城市應急管理領域,通過對各個交通小區的人口聚集密度、人群移動特征等的實時監測,輔助應急管理部門及時進行人群疏散;在公安刑偵領域,輔助公安部門開展反恐、刑偵抓捕及指定人群分析等工作;在城市規劃建設領域,基于位置數據開展區域人口流動分析、城鎮及城鄉聯系強度分析、城市區域人口規模分析、人口居住地分布情況分析、人口職業分析、流動人口情況分析等,輔助規劃部門開展社會人口研究、道路規劃、商圈規劃、學校規劃。
圖3是某省運營商A的所有用戶在某個節假日的位置分布熱力圖,將為后續旅游出行規劃、節假日出行引導等公共服務領域的工作提供參考依據。

圖3 某省用戶在某個節假日的位置分布熱力圖
已有運營商分公司嘗試開展位置類應用服務項目,遇到的主要技術困難包括如下:
(1)網絡側信令數據接口不完整
識別TD網絡的4G用戶位置時,需要用到SGs口數據和LTE上網日志,但有分公司網絡側的4G信令尚未接入,導致對4G用戶的位置和位移無法識別。
(2)網絡側信令數據接入和處理難以滿足實時性要求
交通路況監測、景區人流監測等應用場景對數據處理的實時性有很高要求。一方面,每天需要實時采集幾十億條甚至上百億條規模的網絡側信令數據;另一方面,需要借助分布式并行處理、流處理等技術在ETL、數據匯總、數據分析計算等環節進行實時處理。但有分公司在支撐能力方面無法滿足實時性要求,導致某些應用服務難以投入生產。
(3)位置定位精準性有待提升
基于LAC+CI的位置定位,由于定位原理本身的特點,有可能存在幾十米至幾百米范圍的誤差,再加上對基站、小區地理位置信息更新和維護過程中產生的一些人為錯誤,往往會影響位置定位的精準性,這將難以滿足公安刑偵和特殊事件處理等公共安全相關應用服務場景中的定位高精準性要求。
下一階段如果能夠從技術層面解決上述問題,將大大提升運營商的對外應用服務能力,同時最大限度地發揮電信大數據的價值。
基于電信大數據的位置類應用服務,對于網絡側信令數據的采集、解析、處理,在實時性、精準性等方面有很高的要求,并且需求方往往要求能夠結合可視化圖形工具進行動態展示,目前個別分公司已深入開展相關嘗試,效果逐步被認可。
根據分公司實施過程中遇到的困難來看,除了在技術層面的系統支撐能力有待提升外,與第三方公司的合作模式、用戶隱私保護、對外提供數據的安全脫敏處理策略、平臺開放性與規范性管理策略、分公司間的數據共享策略等都是需要進一步探討和解決的問題,運營商總部后續需要給予分公司更多的規范和指導。
[1] 李政,李繼兵,丁偉. 基于大數據的電信運營商業務模式研究[J]. 移動通信, 2013(5): 64-67.
[2] 雷蕾,熊偉. 淺談電信行業大數據時代商業智能系統數據管理策略[J]. 移動通信, 2014(9): 69-71.
[3] 朱珠. 基于Hadoop的海量數據處理模型研究和應用[D].北京: 北京郵電大學, 2008.
[4] Anderson Q. Storm real-time processing cookbook[M].Birmingham: Packt Publishing, 2013.
[5] 丁圣勇,閔世武,樊勇兵. 基于Spark平臺的NetFlow流量分析系統[J]. 電信科學, 2014(10): 48-51.
[6] 喬宏明. 運營商在大數據產業中的定位芻議[J]. 移動通信, 2014(13): 15-18.
[7] Hacigumus H, Mehrotra S, Iyer B. Providing database as a service[A]. Proceeding of 18th International Conference on Data Engineering[C]. Washington DC: IEEE Computer Society Press, 2002: 29-38.
[8] 曹帥,王淑營,劉述雅. 面向產業鏈協同SaaS平臺的業務流程定制技術[J]. 計算機應用, 2013,33(5): 1450-1455.
[9] Wei Yi, Blake M B. Service-Oriented Computing and Cloud Computing: Challenges and Opportunities[J].Internet Computing, 2010,14(6): 72-75.
[10] 劉新海,丁偉. 大數據征信應用與啟示——以美國互聯網金融公司ZestFinance為例[J]. 清華金融評論,2014(10): 93-98.
[11] 何廷潤. 當前大數據應用發展的局限性分析[J]. 移動通信, 2014(13): 29-32.