林哲,蔡曉珍
(1.中國移動通信集團廣東有限公司,廣州 510623;2.廣州帷策智能科技有限公司,廣州 510620)
運營商大數據場景化應用實踐思路淺析
林哲1,蔡曉珍2
(1.中國移動通信集團廣東有限公司,廣州 510623;2.廣州帷策智能科技有限公司,廣州 510620)
隨著大數據從概念走向應用,數據價值開始在各類應用場景顯現,這對商業、社會以及人民生活都產生變革性影響。作為海量數據資源的擁有者,運營商具備極大的大數據場景化應用優勢。在分析運營商的數據資源狀況后,闡述運營商開展大數據場景化應用的實踐思路,并以肇慶馬拉松大數據分析為例,展現運營商大數據如何應用于實際場景中。
大數據;場景化應用;運營商
伴隨互聯網技術、云計算平臺以及智能設備的深入發展,各類數據源源不斷產生,數據量出現爆發性增長。人們隨之開始探索大數據的應用價值,這逐漸使大數據從概念走向應用,并由此催生了一系列場景化應用實例,如,精準營銷[1]、商業選址[2]以及城市規劃[3]等。
擁有海量數據的主體通常更能容易實現各類大數據應用場景,這類主體通常包括政府、運營商、大型互聯網企業以及金融企業等。而運營商擁有位置、通信行為等區別于其他主體的數據,具備了獨特的數據資源優勢。因此,在當下,探索運營商大數據的場景化應用思路,不僅能夠實現運營商數據增值,還能豐富解決問題的數據維度,使數據價值得到更充分的發揮。
運營商在數據獲取方面得天獨厚。其自身不僅積累了龐大的用戶群,而且能夠通過多渠道多形式持續性地收集用戶通信、身份、上網以及社交等各維度數據,進而形成龐大的數據資源庫。以廣東移動為例,目前,廣東移動具備近億級的客戶量,占據了廣東地區移動端用戶70%的市場份額;同時還擁有NGBOSS、網分系統、標簽庫等多個業務信息系統,可實現用戶數據的持續性采集。按照廣東移動的總用戶量計算,其用戶每秒能產生9.8G的上網流量、880條短信,而每人每天的平均通話時則長達9分鐘。以這樣的數據生成速度,可見運營商數據體量非同一般。
相較于互聯網公司用戶的線上行為數據,運營商具備用戶移動互聯網行為、社交行為、基礎屬性、位置軌跡、消費行為等多維度的數據,具備了不可比擬的資源優勢,更有利于開展應用拓展和數據變現。
用戶通過移動網絡產生的上網行為(上網時間、地點、頻率)、App行為數據,經過二次梳理可以衍生出用戶行為偏好、內容偏好等數據。但由于互聯網行為數據非常敏感,一般不以個體為單位輸出,需要通過脫敏操作輸出泛化的群體數據。
用戶通過點對點通話或短信等方式產生的社交圈關系數據,通過對社交數據進行挖掘和應用,可以對用戶進行“分群歸類”,形成不同的關系圈,構建“關系圈”效應。
用戶的歸屬地、年齡、性別、職業等屬性類別的數據,能夠有效構建客戶畫像。由于數據存在高度敏感性,一般不針對個體用戶輸出,需要以特定客群的形式輸出,并僅限用于趨勢分析、區域分析等服務。
位置軌跡數據指用戶地理區域信息,通常包括經緯度、地址、通信小區等位置數據。用戶通過2/3/4G網絡行為交互,由附近基站附著產生的記錄,同時也包括用戶的漫游行為數據。結合這兩種數據能夠全面刻畫了用戶的活動軌跡行為。
用戶在運營商內部的通信行為數據,涵蓋了通話消費、流量消費、業務訂購等信息,能夠作為通信側的畫像信息補充,反映了用戶在通信側的個人偏好。
開展運營商大數據的場景化應用,包括四個主要環節。
選擇大數據的應用場景,并基于場景確定應用目標。如在重大活動中,通常需要對現場人流量進行實時跟蹤監測,以保障重大活動順利進行。
運營商的數據來源通常有多種,其中,內部數據源包括業務系統和基站,外部數據源包括用戶(如用戶提交個人實名認證信息)、網絡(如利用網絡爬蟲獲取數據)以及政府(如政府輔助提供數據)等。根據應用場景、目標以及效果的差異,確定數據采集途徑和時間窗口。
如在人流監測任務中,運營商的數據采集依賴于基站數據。通常情況下,運營商將所轄區域劃分為多個通信小區,每個小區均設置有一個或幾個基站,用于滿足用戶通信需求。到達特定基站的用戶信號數據將被相應基站檢測并記錄,這些信息主要包括MNC,LAC,CID(Cell)三個參數。借助這些數據,運營商可對特定區域中的人流數據進行采集,為后續分析提供基礎。
利用已采集的數據,運用統計分析軟件(如Excel、SPSS等)開展數據處理工作。
從數據分析結果中獲取特定場景下的數據洞察,更進一步,可據此作出相應的決策或行動。如實時統計重大活動中的人流變化情況,在人流量到達危機臨界點時,及時進行人流疏導,從而有效避免踩踏事件發生。
2016年5月8日,肇慶國際半程馬拉松賽(以下簡稱“肇慶馬拉松”)在肇慶市端州區鳴笛開跑。該比賽屬于中國田徑協會注冊并認證的A類賽事,此次賽事的舉辦將帶來大量人流,這對周邊商圈的影響力不容小覷。在該活動舉辦過程中,運營商大數據的應用場景之一便是挖掘賽事對周邊商圈的提升作用。遵循上述四個環節,借助運營商大數據,可實現此場景應用目標。
(1)場景選擇:挖掘賽事對周邊商圈的提升作用,評估賽事影響力。
(2)數據采集:選定賽前、賽后時間窗口,并利用基站獲取人流數據。
(3)數據處理:統計不同商圈內的基站人流總量及人流增幅。
(4)數據分析:評估賽事對商圈的提升作用。
在選擇場景之后,數據采集、處理及分析的具體過程如下。
此次馬拉松的舉辦時間為5月8日,故選擇5月4日-5日(賽前)和5月9-10日(賽后)為數據采集的時間窗口。同時,確定各商圈內的目標基站,這些基站均布點于商圈范圍內,共涉及8大商圈,780個基站,根據目標基站獲取相應信號數據。各商圈的基站數量如表1所示。

表1 八大商圈所包含的基站數量
根據不同的數據采集窗口,將各大商圈內基站所采集的終端號碼進行合并后去重,即:

其中,i為該商圈內基站總數,f表示去重函數。
據此,可以統計各大商圈在賽前及賽后的日人流數據,結果如表2所示。

表2 八大商圈比賽前后的人流量統計情況
利用求和平均數,可得到不同商圈賽前及賽后的人流量,進而可計算比賽前后人流增幅,如表3所示。
根據運營商大數據的監測結果,可以看到2016年肇慶馬拉松為各大商圈吸引了大量的人流,其人流提升幅度均超過30%,平均提升幅度達到66%,賽事影響力非常強;其中,東門廣場商圈受影響最為明顯,人流增幅達到187%。

表3 八大商圈比賽前后人流提升情況
本文歸納總結了運營商大數據的數據資源狀況,并給出了利用運營商大數據開展場景化應用的實踐思路,同時輔以肇慶馬拉松對商圈的提升實例加以說明。運營商大數據可應用于諸如需求預測、融合營銷、換機監控、交通管理、城市規劃等多類數據應用場景下,這無論是對于運營商自身業務發展,或是社會管理服務,都將起到重要的推動作用。
[1]王波,吳子玉.大數據時代精準營銷模式研究.經濟師,2013.5:14-16.
[2]吳雯漫,辛葉舟,李小娟.基于大數據可視化的電信運營商營業廳選址方法研究.電子技術應用,2015(z1):67-69.
[3]茅明睿.大數據在城市規劃中的應用:來自北京市城市規劃設計研究院的思考與實踐.北京:清華大學出版社,2007.29(6):51-55.
The Practice on Big Data of Communication Operators Used in Various Scenarios
LIN Zhe1,CAI Xiao-zhen2
(1.China Mobile Group Guangdong Co.,Ltd,Guangzhou 510623;2.Guangzhou Wislife Intelligent Technology Co,Ltd.,Guangzhou 510620)
With the development of big data,the value of data has begun to appear,bringing forth great influence among the business,society and people's lives.As the owner of massive data,operators have advantages of using data in various scenarios.After introducing operators'data resources,presents a general idea of how communication operators can use their own big data,at the same time,takes the Zhaoqing's marathon as an example to show the real practice.
Big Data;Scenarios;Communication Operators
1007-1423(2017)31-0058-04
10.3969/j.issn.1007-1423.2017.31.015
林哲(1985-),男,福建漳州人,碩士,從事領域為大數據創新業務、流量創新業務以及政企創新業務
蔡曉珍(1992-),女,廣東揭陽人,碩士,研究方向為數據挖掘、文本處理
2017-08-29 < class="emphasis_bold">修稿日期:2
2017-10-22