溫文波
【摘要】 結合運營商內部大數據系統建設實際經驗,從數據、平臺、能力、應用等四個方面對運營商大數據系統建設提出自己的想法和意見,僅供參考。
【關鍵詞】 大數據 hadoop 能力建設
4G時代,運營商“管道化”一詞開始被頻繁提及。運營商與互聯網企業,傳統電信業務與OTT業務被從各個角度進行比較,與此同時,大數據,作為運營商利用“管道”資源進行自我救贖的重要舉措也開始在各運營商落地、開花。
大數據系統的建設,無外乎數據、平臺、能力、應用等幾個層面,電信運營商作為作為網絡服務接入者和網絡內容的承載者,在大數據系統建設方面有著自己的先天優勢,同時在建設過程中也有一些針對性要求:傳統電信級運營的準確、穩定、安全的要求與互聯網模式所強調的快速、體驗、迭代在理念上的沖突也要求電信運營商在大數據的建設、運營方面有所突破。
一、數據
相對互聯網企業而言運營商在數據來源方面具有明顯優勢:
1、全覆蓋,運營商所能獲取的數據包含了行為(瀏覽、搜索、下載等)、時間、位置(基于基站的位置)甚至可能包行用戶本次瀏覽的體驗(網速、掉線等)。這些數據APP只能以游走法律邊緣的形式偷偷獲取(如手機識別碼、位置、通話記錄),甚至根本無法獲得(用戶本次瀏覽的體驗),而對運營商而言這些都只是運營商提供服務所必須具備的基礎數據,運營商先天擁有這些數據。同時運營商能獲取用戶全天候上網行為數據,保證了對用戶上網行為數據的全面掌握,相對而言,任何APP都無法避免被關閉,甚至后臺進程一起被關閉而無法獲取用戶任何信息的黑暗時期。
2、強關聯,通過IMEI這個天然的“關鍵字”,所有用戶的上網行為可以被明確地關聯至準確的用戶,避免了cookie存在的已識別用戶丟失的問題;通過LAC和CI,用戶的位置等信息可以被準確關聯致小區、基站,對用戶“在哪兒”做什么的跟蹤也變得非常容易。
3、多維度,運營上不僅有用戶的上網行為數據,還有用戶的通話、繳費等傳統營帳數據數據,有投訴、咨詢等客服數據。能全面刻畫用戶視圖。
在我們的系統建設過程中,我們首先考慮的是DPI數據(Gn口)、信令數據(電路域(A口、IuCS)及數據域(Gb、IuPS))的獲取。通過Gn口數據,我們對用戶LAC、CI、流量類型、應用IP地址、流量、時長等信息進行解析;通過信令數據,我們對用戶LAC、CI、呼叫次數、是否成功等信息進行解析。同時,BOSS重要數據也被一并接入,力圖從上網行為、通話行為、繳費行為、位置、投訴、終端等各種維度客戶用戶畫像。
二、平臺
籠統而言電信運營商對平臺的需求至少包含以下幾個方面:
1、穩定:底層可升級,確保底層平臺的延續性。盡可能采用開源版本,減少運維壓力;2、易用:屏蔽hadoop底層技術難點,運營商可集中精力處理能力實現、應用支持等核心問題;3、可視化:元數據管理、任務管理、運行監控、資源分配等操作盡可能采用可視化操作;常用挖掘算法、工具的調用,重點數據源的引用均應盡可能以可視化方式實現;4、自動:任務分布式依賴與調度,減少人工干預;5、數據生命周期管理:數據保存周期的自動維護、歸檔和清理;6、多租戶:數據的隔離與訪問控制以確保安全,避免在ETL、數據初加工、建模、能力建設等任何環節被綁定于一個供應商;7、安全共享:實現自動數據脫敏、日志、審計等;
目前市場上主流的大數據平臺主要有hadoop(開源)、Greenplum、Vertica等;Hadoop 分布式計算平臺是Hadoop 采用開源模式,以分散存儲和并行計算為基礎的分布式計算平臺,利用低成本的通用計算設備(PC)組成大型集群,構建下一代具備高性能的海量數據分布式計算服務平臺,其由hdfs支持的分散存儲、由map/reduce實現的并行計算、由hive實現的數據倉庫平臺,hdaoop很好地支持了超大規模數據存儲能力、高性能分布式處理、數據可靠性保障、系統的水平擴展,其主要問題在于不支持聯機事務分析及相對陡峭的學習曲線。考慮到GP等昂貴的license費用、對最前沿技術跟進的相對滯后,hadoop無疑是最好的選擇。為解決學習曲線陡峭的問題,我們在基礎平臺上建設了基礎平臺管理系統,實現對基礎平臺的圖形化、可視化管理;建設了數據管理系統實現對元數據、數據安全、訪問控制等的管理。在很好地利用了開源性、多租戶、安全、穩定等平臺優勢的同時,實現了易用性、可視化。
三、能力
電信運營商的大數據能力建設至少應該包括以下2個方面:建模/挖掘能力、數據開放能力。
就建模、挖據能力而言,大數據價值的最終來源并不在于其龐大的基礎數據量,而在于數據之間若有若無的微妙聯系以及在此基礎上的數據關聯的模式;在于各數據圖層疊加的過程中凸顯的數據之間的相互聯系,這方面,“啤酒與尿布”的故事很能說明問題。
在內部,我們綜合了在網時長、客服接觸情況、通信圈變話、呼轉等數據,對用戶的穩定度進行評估,最終的求準率達到85%以上,達到了較好的效果。
對外,我們綜合了用戶通話消費情況、交往圈情況、搜索情況、訪問重點網商的情況,對用戶的綜合消費能力進行評估,使用過程中滿意度也較高。
就數據開放能力而言,無論大數據分析、挖據的結果含金量有多高,最終能讓這種價值得到體現的是數據的開放能力,數據的開放能力至少包含了三種能力“個體數據脫敏輸出的能力”、“報告性質的二維數據輸出的能力”、“數據魔方等三維數據輸出的能力”;
其中,最為敏感的是個體數據的脫敏輸出,對個體數據的利用無法避免公眾對自身信息安全的疑慮、國家法律對個人隱私保護等問題。對此,互聯網公司一般采用cookie而不是個人物理信息關聯的辦法避免碰觸法律紅線;在運營商內部,手機號碼、用戶/客戶編號無疑是最便捷的數據關聯方式,但是在與外界進行數據交換的時候,IMEI等必將被啟用作數據交換過程中唯一識別碼,在此過程中,如何保證數據的完全脫敏就成為很大的問題;
人群熱力分布、特定人群消費能力評估等作為評估報告進行輸出,在輸出報告的過程中,個體信息不會被顯示出來,因此個體數據相對安全,審計、日志等手段就成為保證群體性數據安全的必要手段。
四、應用
電信運營商的大數據應用場景基本可以歸為三類
精準化營銷/維系:通過對用戶行為、特征、愛好的準確刻畫,達到減少客戶接觸次數、提升接觸效果(營銷/挽留)的目標。隨著目標人群手機飽和度越來越大(部分甚至已經大于100%),各運營商也逐漸將運營重點從新增市場轉向存量市場,在存量市場中,對客戶體驗、客戶需求的準確把握并提出針對性的營銷、維系案尤為重要。某運營商曾對用戶的客服電話主動撥打行為和離網行為進行關聯分析,結果發現,主動撥打客服電話人群在后續3-6個月內離網概率大幅增加,撥打次數的上升會使離網趨勢急劇上升。這種關聯,對后續的維系服務無疑具有極重要的導向性意義。
提升運營效能:基于大數據的網絡效益、業務體驗、網絡投資等指標綜合優化,達到優化投資、提升運營效能的目標。大數據時代,對網絡質量的指標要求從撥測、探針取數轉向客戶的實際體驗的數據模擬,這種模擬包含了CS/PS海量數據還原,也包含了通過用戶上網行為對用戶體驗的反向定位。由此得出的基礎數據,對運營商的網絡布局、網絡優化無疑都至關重要,針對性的網優和網絡布點可以很大程度上優化投資、提升運營效能。
數據變現:即以脫敏數據、綜合報告等形式交付數據,實現經濟收益、社會效益、數據交換收益。在RTB整個產業鏈中,運營商所能扮演的DMP或者CSP角色就很能說明運營商所掌握數據在整個產業鏈中的價值。熱力圖、人群報告等社會管理中亦有及重要的意義。某運營商在重大賽事期間所提供的運動場館附近人群實時熱力分布為主辦方了解整體狀況、確保安全提供了基礎信息保障。
搭建延展性好、延續性佳的平臺,盡可能匯聚數據并在此基礎上針對性建模、挖掘,并將結果內向與外向輸出,以實現數據價值。這就是筆者從事運營商大數據系統建設的最大體會。