張玲艷,蘇臨霖
(中國移動通信集團廣西有限公司,廣西 南寧 530022)
隨著網絡信息技術的飛速發展,各行各業的信息化水平日益提高,用戶基于運營商基礎網絡服務相應產生的數據規模海量提升。而隨著大數據技術的發展,數據的作用不斷凸現,不但可以幫助運營商提升運營效率和經營績效、還會帶動新商業模式和運營模式的產生,運營商對數據的重視和投入也在不斷提升,運營商的大數據時代來臨。
通過數據挖掘分析,從海量用戶行為數據中挖掘用戶消費特性,進行精準營銷,推薦各類業務和應用,直接提升經營績效;結合網絡管理維護數據、供應鏈、企業內部財務等數據進行網絡運行質量分析、戰略分析、成本分析等,有效支撐企業決策,提升運營效率。
另一方面,可基于行業內部數據進行用戶行為還原、行為分析、行為預判,將行業客戶數據封裝為服務,形成可對外開放、可商業化的核心能力,嘗試與外部數據打通互聯,共同運營,為各行業提供創造新的服務價值。
隨著業務的快速增長和日趨復雜,運營商大數據系統的數據流轉和處理環節越來越多,數據管理越來越復雜,數據質量保障的難度也越來越大。日趨復雜的數據邏輯對數據質量提出越來越高的要求。
運營商的企業級數據分類覆蓋B域(業務運營域)、O域(網絡域)、M域(管理域)及S域(系統管理域)四域所有數據類型,囊括了用戶參與人、服務、資源、事件、賬務、營銷、財務、工程、組織、網絡、互聯網等基礎主題域,又在此上衍生了融合模型及分析模型等應用,數據類型復雜,進一步加劇了數據質量的管理難度。
通過開展數據質量管理工作,可以獲得準確、結構清晰的數據,是企業開發大數據產品、提供對外數據服務、發揮大數據價值的必要前提。為了實現數據治理的總體目標:通過“強管控、治數據、顯價值”,逐步實現海量數據“進得來、看得見、管得住、用得好”, 推動數據作為“新生產要素”的核心價值實現,最終支撐數字化轉型戰略目標的實現。
為支撐數字化轉型戰略目標的實現,通過改造和優化現有IT基礎設施,構建數據質量預警閾值自適應模型,建立數據質量統一預警中心,基于生命周期的各環節建立閉環反饋機制,建設數據質量智能化監控體系。
建立預警閾值自適應模型,實現預警閾值的靈活調整,避免大量無效告警。
為避免告警冗余,大批量預警需依賴人工處理的問題,針對預警信息進行總結歸納,完成對指標閾值的盤點,結合歷史經驗,研發預警閥值自適應模型,通過該模型設置預警條件,打造指標閾值自適應體系,根據時間、業務場景的變化,自動調整指標的預警閾值。本項目已建立3類預警閾值自適應模型,基本滿足業務指標異動的監控預警需求。具體模型如下。
(1)均值模型:預警閾值按照近90天或30天(日期可調整)平均數進行滾動更新。
(2)周期與均值結合模型:一個自然月內不同日期的數據波動預警閾值取歷史同周期數據的均值進行滾動更新。
(3)方差模型:部分關鍵指標計算各地市與全區合計的方差識別指標異動情況。
通過預警閾值自適應模型,實現了預警閾值的靈活調整,避免了業務量變化而預警閥值固定的無效預警。
應用時間序列模型,預警配置靈活性高。可用于數據接口分級聯動保障,對接口審核數據的完整性、一致性的波動,對接口審核考核和業務指標的波動合理性,針對每一接口、指標各自定義其歷史變化趨勢和變化基數,應用時間序列模型,通過歷史變化的均值和方差定義95%的置信度,精準定義波動合理性及告警,提升異常數據傳輸的告警準確性,提升接口數據傳輸、上報質量;對不同業務指標數據定義不同的數據波動監控,對同一接口建立多個不同的數據監控,使接口數據質量保障具有多維度可信效果。該工作填補了數據完整性、數據準確性方向的數據質量智能預警監控的空白。
建立大數據質量監控統一預警中心,主要包括兩大功能模塊:一是建立智能監控池,二是告警池心跳守護機制,可有效提升系統穩定性。
建立智能監控池,形成大數據質量監控統一預警中心,對接IVR電話告警系統,實現數據質量保障IT換人。
通過梳理數據質量人工監控核查流程,將人工核查過程中的常規數據核查點固化,提煉全流程各控制點的監控規則,包含上游數據到達監控、程序運行情況監控、以及接口增刪改等關鍵環節的監控,形成監控池,監控池中各項監控規則的落地基于Python開發。
為確保監控池正常運行,確保異常時可真正觸發告警,同步建立監控告警池的心跳保護機制,防止監控告警池失效。
告警池心跳守護機制,可有效提升系統穩定性,告警池是統一預警中心的核心,為保證告警池的有效性,本項目基于shell腳本開發告警池心跳守護機制, 每30分鐘探測告警池的運作狀態,探測信息分別通過告警系統與系統端口短信通知運維人員。守護機制大幅提高了告警池的穩定性。自試運行以來,告警池暫停作業的異常情況共5次,均被心跳守護機制及時捕捉,并及時修復。
多監控功能集成于前臺頁面展示,將告警界面化集成化可視化,預警信息全流程可視化,預警過程可管[1]。
基于Python3(程序語言)+yaml+unittest,建設預警查詢系統,系統化查詢當天數據情況,出錯情況, 建立集中化可視化的平臺一體化呈現界面,直觀展現數據上報情況,提升維護效率。對接口數據進行可視化的監控,將接口數據的不可控性,轉化為前端頁面的可視化,使得數據生成的全流程在前端頁面全部呈現,在維護工作中,能可視化監控接口上報的每一個系統控制點,保障數據質量工作的穩定進行。
(1)集成化:該平臺集成了接口上報監控、程序運行狀況監控、考核指標監控與數據波動監控等功能,通過前臺界面展示,維護人員在該監控界面可對接口數據處理過程進行直觀監控處理。
(2)可視化:構建前臺界面實現數據維護過程可視化,幫助維護人員直觀快速地發現異常問題并進行及時處理,實現數據維護工作的高效化。將接口監控維護業務流程。
一方面提升數據質量管控能力,確保經營決策數據準確性;另一方面解決接口維護繁雜、效率低與無法整體展現的問題,以提高日常運維的工作效率。
預警后評估,賦能智能運維:為持續優化預警策略,每半個月定期對預警數據進行分析,基于shell腳本建立了預警后評估模型,由后評估模型輸出預警策略優化建議,如長期頻繁預警,但探測到數據正常則優化預警規則,未探測到數據源則優化數據源生成方案等。自試運行以來,通過后評估模型完成了120條預警規則的優化,提升了告警有效性。
當上報流程中的關鍵監控點觸發監控池時,智能監控池自動將告警信息實時推送至IVR電話告警平臺,由告警平臺通過短信、IVR電話通知告警點責任人,當告警級別達到人工干預級別時再人工處理,由實施前全流程人工監控的模式改變為項目實施后按需處理系統告警的形式。告警實現流程如圖1所示。
數據質量是數據運營服務體系的生命線,該智能化監控管理工具目前已應用在數據質量日常管控的多個場景中,并取得了顯著成效[2]。
從數據質量監管效能的角度,該成果全面提升質量工作管控水平,實現接口全流程的系統自動處理和精細化管理,提升了預警自適應處理的技術手段,讓數據質量問題自查及整改工作更及時、更高效。
項目實施后,夜間異常處理次數月均9次減少到目前月均4次,記錄校驗異常次數從月均7次減少到目前月均3次,文件校驗異常次數從月均3次減少到目前月均1次。從根本上達到主管部門相應的考核要求,異常處理月均降低了75%。

圖2 實施前后夜間異常處理次數對比
從數據質量管控智能化的角度,本成果為數據質量與及時性提升充分發揮作用,增強了智慧運維能力。
該成果的實現最后是以監控池的形式落地的,數據中臺各項應用的質量監控經過評審后均可納入監控池,統一管理,現已成功將該經驗復制推廣到各中臺子系統的數據質量維護工作,大數據應用共計約800余個監控點已納入統一預警中心進行統一監控及預警,覆蓋當前重點關注應用80%。
經統計,入監控池監控的關鍵報表,出數及時率由原來的81%提升至94%,有效地提升了應用穩定性, 減少內部客戶投訴量,提升了IT服務質量。
通過建設數據質量智能化監控體系,提升了工作效率,并創造了較好的經濟和社會效益。
傳統方式數據質量保障工作人工值班保障,易出錯且效率極低,能力輸出缺乏標準化,運維質量嚴重制約于人。本智能化監控體系通過基于統一預警中心實現程序與數據異常的靈活預警,同時不斷沉淀接口運維經驗,優化告警策略,固化自動化上報流程,不斷減少告警數量,降低對數據信息流的人為干預次數,提升了數據質量的運維效率[3]。
通過建立完善的數據質量監控保障體系,保障了接口數據的穩定性和準確性,節約成本,構造起數據質量維護方面的智能化運維模型,貫徹了IT換人要求。
(1)構建統一預警中心,實現數據中臺質量統一預警,提升數據質量管控效率及管控智能化水平,助力公司數智化轉型。
(2)推進數據質量智能運營,沉淀優秀能力。本項目在開發過程中,沉淀了3個通用預警模型能力,形成標準化能力封裝。
(3)推進核心能力自主可控。本項目主體能力全部由自有人員完成主體方案設計,從前端可視化監控頁面開發,到后端的智能監控池、預警閥值自適應模型的開發,均由自有人員完成,逐步推進核心能力的自主掌控。■