楊明川+賈元昕



隨著互聯網+的提出與發展,大數據分析作為傳統行業分析、利用數據的技術手段,迎來了新的發展。電信運營商具有得天獨厚的數據優勢,但數據質量、分析能力及隱私安全等問題對運營商發展大數據提出了更高的要求。本文總結中國電信“燈塔大數據行業應用平臺”過程中的一些經驗,探討了中國電信運營商在大數據領域的技術創新與研究成果,面向互聯網+的大數據挑戰進行分析。
互聯網+在大數據應用中的機遇與挑戰在大數據浪潮中,電信運營商是率先開展大數據研究和應用的行業之一。通過利用運營商海量的網絡大數據資源,各個運營商都構建大數據平臺并開展大數據創新。對燈塔大數據定位于整合多源數據、打造能力平臺、創新行業應用, 通過對800億電信數據的脫敏、互聯網數據(來自地產、金融和社交)的抓取和對第三方(如法院、銀行、人力)數據的接入,形成龐大的相對基層的數據量;并對多源數據進行整合,控制數據質量,增強數據融合,同時對數據能力封裝,由此開展數據行業應用創新。
在大數據應用到互聯網+的過程中,目前發現還有大量的問題需要解決(見圖),主要包括如下三個方面:
數據質量不高是常態,如何建立更加有效的分析方法?
數據的價值密度是關鍵,如何尋找價值高地?
用戶的隱私保護日益重要,如何找到平衡點?
運營商大數據關鍵技術研究
為了有效的服務于互聯網+,大數據需要在如下幾個方面進行技術突破:
(1) 數據拼接技術
(2) 高階深度標簽技術
(3) 行業知識建模技術
(4) 基于場景的智能推薦技術
(5) 海量模糊數據降維和關聯分析技術
(6) 大規模交互式數據可視化技術
(7) 數據安全和隱私保護
文本對其中幾個關鍵技術進行介紹。
數據拼接技術
大數據的一個特征是異構多維,只有將來自不同來源的異構數據進行有效的整合,才能真正發揮大數據的價值。猶如瞎子摸象,每個單一來源都只涉及一個單一的側面,只有把不同的側面重新組合并且關聯起來,才能完整的拼出一只“大象”。但是這個工作遠比想象的要難,原因有幾個方面:數據格式不同;數據標識(ID)不同;數據覆蓋不同;數據計量標準不同(特別是經過一定處理后數據);大量的數據噪聲(重復數據,錯誤數據)。這些因素導致將不同數據拼接成一個完整的立體數據具有非常大的挑戰。
然而,在這方面,運營商有較大的資源優勢。結合運營商數據廣度覆蓋的特點,有可能作為所有數據的基礎數據而實現數據拼接功能。在技術上,我們開發了基于圖的數據模型,進行數據拼接。
高階深度標簽技術
用戶畫像一直是大數據研究的重點方向。在DMP中,系統根據用戶訪問軌跡來打標簽,但是DMP通常僅僅通過關鍵詞提取來打標簽。為了進一步滿足行業大數據的應用需求,我們需要補充兩類標簽,一類是模糊標簽;一類是抽象標簽。模糊標簽是因為數據缺失而需要通過算法來補全的標簽,例如用戶的性別屬性,如果基礎數據里面沒有這個屬性,我們就需要通過機器學習算法去預測這個值,而且這個值往往是一個概率。抽象標簽是針對一類高階的屬性,例如用戶購買力,用戶購物模式,用戶口味偏好等,去建立標簽模型。在燈塔平臺中,我們建立了一套相對比較完整的深度標簽體系。
圖3是分別用TAN和NBC算法進行標簽計算的效果:
行業知識建模技術
在互聯網+結合行業大數據的過程中,行業知識的獲取和利用是關鍵的一環。只有將行業知識通過建模數據化,才能將行業知識和其他數據進行混合和關聯處理。行業知識建模可以分為兩個層次:第一個層次是行業字典,通過大規模爬蟲,可以將行業信息轉化為行業字典。目前,燈塔平臺已經積累了超過三億條行業字典,包括一億條電商字典,五千萬條視頻字典;第二個層次是知識圖譜,字典的缺點是信息之間缺乏關聯性,我們通過構建知識圖譜,去建立語義級的行業知識。
基于場景的智能推薦技術
推薦系統是非常成熟的大數據精準營銷技術,目前已經在廣告、電商、視頻、閱讀等領域得到了廣泛的應用。但是,通常的推薦系統往往存在推薦效率不高,重復推薦,過度推薦等問題。在大數據的場景下,我們結合地理位置分析和場景識別技術,對推薦系統進行了優化。
大數據交互式可視化技術
數據可視化不僅僅是大數據分析結果的直觀展現,更重要的是一種分析數據關聯性的方法和手段。通過交互式數據可視化的方法,可以從不同的角度去分析數據,并直接得到結果。交互式可視化在技術上最大的難點在于針對大規模數據進行可視化操作的時候性能優化。例如基于地理的可視化數據分析,需要在不同的放大尺度下對數據進行實時的歸并和關聯性計算。圖5是通過地理位置和人群信息模型進行交互式可視化,實現人口遷徙分析的案例。
中國電信大數據的探索與實踐
通過在互聯網+的大數據關鍵技術突破,燈塔大數據團隊構建了面向互聯網+的行業大數據平臺。
在燈塔平臺的基礎之上,打造了一套完整的5+1+1大數據產品體系,即5個直客產品方向、1個流量入口、1個能力平臺。中國電信面向行業垂直領域直接客戶,結合燈塔平臺的能力,開發5類細分產品并逐步商用,并且根據融合數據、整合深度標簽、ID圖譜、GIS、爬蟲、行業字典等平臺能力,面向行業和政府提供技術解決方案。
互聯網+的提出與發展為作為基礎設施的大數據帶來了新的發展契機,是傳統行業與互聯網融合的一種有效的手段;運營商發展大數據應用已經成為一種趨勢,然而數據處理的障礙使得尋求技術創新與轉型成為必然;中國電信“燈塔”大數據行業應用平臺力圖打造大數據行業應用生態圈,加速產業升級和商業模式創新,提供零售研究、消費者研究、店鋪選址、精準營銷、泛義征信,背景調查等服務,通過技術創新和應用創新共同驅動,分析利用互聯網中的大數據,使世界更加扁平化,同時也為自身轉型走出了一條創新之路。