孫苑苑,趙 雨,張 晟
(中國移動通信集團江蘇有限公司,江蘇 南京 210000)
移動運營商不斷探索和實踐數據資產管理能力,發揮數據要素價值,以自主可控、架構先行、注智賦能為目標,在技術架構、數據治理和智慧中臺3個方面持續演進;提升資產管理集中效能和數據開放共享能力,向政府及行業客戶提供量身定制的信息化解決方案,實現大數據價值變現。
隨著大數據技術的快速發展,企業存在數據資產來源多、數據規模大、數據標準不統一、各系統之間存在數據孤島等問題,導致數據資產價值挖掘利用效率不高,在資產管理、資產加工、業務支撐、能力運營等環節面臨挑戰。針對上述問題,以下研究過程將從技術、管理、應用3個方面,建設運營商數據資產管理運營體系,優化數據處理架構,統一進行數據資產的匯聚、建設、治理、運營和應用,支撐市場運營、智慧營銷、網格運營、行業變現等企業內外部大數據應用。
近年來,隨著大數據技術的飛速發展,企業數據量成倍增長,數據形式多樣化,數據資產來源多,散落在不同系統且資產結構復雜,數據標準參差不齊,各系統之間存在數據孤島,導致數據資產的加工使用效率不高,因此在資產管理、資產加工、業務支撐、能力運營等方面面臨挑戰,亟須建立統一標準的資產管理運營體系,對海量數據進行統一的采集、存儲、管理、開放。
本研究堅持“數據服務于業務”的理念,針對數據資產管理和運營過程中的痛點和難點,從技術、管理、應用3個方面入手,建設數據資產管理運營體系,拓展行業大數據服務,高效賦能大數據生態圈(見圖1)。(1)在技術層面,建設批流一體數據處理架構,打造實時數據倉庫;(2)在管理層面,以DataOps理念為核心,建設分層資產體系,構建數據資產管理平臺,提升數據資產開發和管理效率;(3)在應用層面,建設數據中臺能力服務體系,全面賦能企業內外部業務生態,促進數據共享,實現數據資產價值提升[1]。

圖1 大數據資產管理運營體系架構
2.2.1 跨域匯聚內外部數據
規整集成移動運營商內外部各業務線、各類型的源數據,為形成企業級數據資產提供真實、完整的數據源基礎。通過全局化的架構規劃設計,完成跨領域、多系統的數據融合匯聚,采用大數據高效處理技術和機制,完成數據匯聚融合分析,產生1+1>2的數據價值。
2.2.2 實時數據倉庫架構
基于Kappa+Lambda的批流一體化數據處理技術,實現了大數據平臺的架構升級和業務邊界的拓展。以流原生技術為底座,構建具備“統一模型、統一數據、統一計算、統一分析、統一存儲”能力的實時數據倉庫架構,實現對低時延數據及服務的全方位支撐(見圖2)。該技術以Flink+Pulsar+Redis技術為核心,實現了實時和離線兩種數據處理模式下數據模型、計算引擎、數據輸入、數據存儲、數據分析5方面能力的統一[2]。
(1)統一模型:基于統一數據模型分層設計原則和體系結構,實現離線和實時數據模型的統一;(2)統一計算:統一批流編碼方式,減小SQL開發和運維負擔,讓應用專注于業務邏輯;(3)統一數據:統一實時和離線數據,可有效避免數據不一致、數據重復存儲和重復計算;(4)統一存儲:支持海量數據回溯能力,通過數據分級存儲機制,降低存儲成本;(5)統一分析:提供統一實時的數據查詢與分析能力,快速支撐實時應用。
2.2.3 異構數據分層存儲架構
根據數據時間周期與訪問頻率實施分級分層存儲架構建設,有效實現對海量數據資產的長周期保存,為數據高效應用打下堅實基礎(見圖3)。針對數據的訪問頻率要求,采用對應的Hadoop集群、MPP集群和Redis集群實施分級存儲,平均每T數據處理存儲成本僅為傳統方式(SAN存儲)的35%。

圖3 異構數據分層存儲架構
2.3.1 數據資產分層體系
基于數據處理架構的建設擴充底層數據源能力,從業務角度構建數據資產分層體系,對數據資產進行組織和分類管理,細分基礎資產、特征資產和應用資產,豐富數據資產層建設、持續夯實能力基礎,更精確的支撐客戶需求。
(1)形成基礎資產:基礎資產是圍繞B、O、M各域中跨域、跨系統、跨平臺的業務數據,可概括為個人、組織、家庭、資源、物聯網、時間、區域設施、字典信息等主題域。(2)豐富特征資產:特征資產是基于基礎資產按需加工處理,結合行業特征挖掘高可用的數據資產。基于客戶關系、上網內容、位置3大類數據源進行融合分析挖掘,采用專業算法在數據特征資產的基礎上構建標簽體系和模型指標體系。(3)完善應用資產:應用資產是將業務條線上數據應用領域涉及的所有數據維度進行匯總,形成重要應用領域的數據資產。應用資產按運營商業務維度可分為個人客戶、集團客戶、家庭客戶、競爭對手、終端信息、產品信息、校園客戶、渠道、KPI、報表對內10大業務主題域;從支撐行業維度可分為旅游、金融、城市管理、交通、醫療、公共服務、安防、商貿8大行業主題域。
2.3.2 數據資產管理平臺
建設以DataOps理念為核心的數據資產管理平臺,融合元數據、數據質量、數據標準、數據模型、數據安全等9大管理工具,實現數據資產的需求、變更、建設、存儲、應用、維護、安全等各方面的管理覆蓋[3](見圖4)。

圖4 數據資產管理平臺體系
(1)數據源管理:保障數據源質量要求,涵蓋外部數據源引入管理、數據源分類、數據源配置等功能模塊。(2)元數據管理:提升數據間關聯性,涵蓋數據資產創建、元數據多樣化采集、信息標準化校準、元信息快速探查等功能模塊。(3)數據質量管理:持續提升數據質量,形成良性閉環管理,涵蓋資產信息稽核規則設置、稽核監控分析、問題預警等功能模塊。(4)數據標準管理:提供全景可視化統一管控,涵蓋存儲介質管理、存儲周期規范、建表規范、分區規范等功能模塊。(5)主數據管理:提升數據資產管理水平,降低整體管理成本和運營風險,涵蓋主數據標準化管理、數據創建、更新、清洗、發布等功能模塊。(6)數據模型管理:強化數據模型管理能力,涵蓋數據模型目錄增刪改、數據模型信息條件搜索、變更記錄、版本查詢等功能模塊。(7)數據資產報告:提供可視化資產趨勢分析,涵蓋數據資產分布信息、數據資產變化趨勢、統計指標與分析等功能模塊。(8)數據共享服務管理:規范資產能力分享,涵蓋數據目錄管理和數據服務管理功能模塊。(9)數據安全管理:實施雙重安全管控機制,涵蓋敏感數據掃描、定期全量數據敏感信息監控、動態監控、安全管控建議等功能模塊。
基于數據資產管理運營體系,打造大數據開放中臺架構,深度演進數據及業務中臺,圍繞數據資產化、能力服務化的總體思路,以數據開放、信息共享為基石,以融合、融通、融智為目標,對內重點建設數據中臺及大數據資產管理平臺,提升數據匯聚、數據治理、數據共享能力,對外向前臺應用、業務中臺輸出核心資產能力,挖掘和發揮數據資產價值并促進持續增值,實現數據資產對內賦能[4](見圖5)。
為滿足業務需求及市場發展要求,實施中臺架構演進。將公共業務能力、數據能力和技術能力下沉至中臺,以服務化方式為行業客戶提供強有力支撐,實現開發標準化,提升應用支撐效率;從技術架構、數據架構、應用架構3條線入手,打造“生產、運營、管理”3域協同的中臺能力體系并持續運營,提升數據中臺和業務中臺綜合效能。
中臺服務技術主要通過服務封裝的方式,面向應用提供數據和業務能力服務支撐,主要的技術包括:接口封裝、界面封裝、組件封裝、模型封裝等。
運用Pulsar+Flink流原生技術,演進“彈性擴展、多租戶隔離、數據分層存儲、數據在離線分析”的批流一體大數據處理架構,提高實時數據處理能力;構建“高效、實時、融合”的實時數倉,大幅提高了實時數據的處理能力,數據處理每秒達到千萬級,并對低時延數據及服務的全方位支撐,滿足實時業務需求。
根據數據資產價值,構建異構數據處理和存儲架構,將數據分散到MPP、MySQL數據庫和分布式存儲上;采用x86化的MPP數據庫實現基于海量標簽的客群挖掘與計算,與傳統Oracle相比,硬件成本降低了40%,數據處理分析效率提高了50%;實現了精確到分鐘級的日數據實時展現。
通過建設數據資產管理運營體系提升數據資產全面管理能力,實施全方位資產管理流程,通過建設數據中臺實現數據資產開放賦能核心業務,實現數據資產“可見、可用、可運營”;已覆蓋個人、群體、企業、位置、AI五大類核心服務場景;面向政府、公安、醫療、金融等行業客戶賦能大數據商機項目,通過提升能力使用程度、數量及范圍,帶動能力生態繁榮發展。
本文研究基于運用Pulsar+Flink流原生技術,演進批流一體化架構,提高實時數據處理能力;構建實時數倉,支撐客戶規模化經營;通過Pulsar存儲與計算分離功能,實現了彈性擴展能力,處理能力提升1倍,能夠支撐每天5 000億多的實時數據處理能力,高效支撐數據資產管理運營體系建設。通過構建數據資產分層體系,打造數據資產管理平臺,實現資產全流程管控,支撐中臺能力服務高效演進。此研究已廣泛服務于旅游、交通、公安、金融、工商等重點行業,助力行業數字化轉型,服務社會民生,提升了江蘇移動企業影響力。
文章提出了基于運營商大數據能力及技術構建數據資產管理運營體系的研究成果。此研究成果依托大數據資產能力建設,面向行業客戶提供智慧、高效的大數據產品服務和DICT綜合服務,覆蓋金融征信風控、景區游客洞察、城市規劃、重大活動保障等大數據業務場景,取得顯著的經濟效益和社會效益。