盛 煜,李 野,單麗雅,馮 毅,趙雨田,張偉強(中國聯通智網創新中心,北京 100048)
5G 消息是運營商基于富媒體通信服務(RCS)實現的傳統短信業務升級,可面向用戶提供增強的消息服務,包括文本、圖片、音頻、視頻、位置、聯系人(vCard)等媒體內容的發送和接收。未來將會是運營商的基礎電信服務,具有極高的商用價值和戰略意義。主要體現在以下3個方面。
a)5G 消息具有安全可靠、端到端可達、功能豐富的特點,可以實現傳統短信業務能力升級,改善用戶體驗,重新喚醒面向C端用戶的消息業務,有機會與當前OTT類聊天應用軟件一較高下,爭奪互聯網入口。
b)當前眾多企事業單位都在積極參與5G 消息業務的應用與合作,社會大眾也較為期待各行業基于5G消息的服務創新。運營商可以利用市場對5G 消息的關注度,激活龐大用戶群體的活力,探索一條不同于以往運營模式的新生態體系。
c)5G 消息為B 端客戶提供了一條全新的營銷推廣渠道,且具有跨平臺應用對接,投入成本低、市場關注度高等優勢,有利于進一步重構商業模式,引領全新的5G消息紅利的新格局。
另外,根據三大運營商在2021 MWC 上海展公布的5G 消息最新進展情況,5G 消息將在2021 年內完成商用上線。據相關資料統計,截至2021 年2 月份,主流手機廠商已發布60 多款支持5G 消息的終端。可以預見,5G 消息正式上線后必然會呈現爆發式增長,潛在用戶數以億計,這對5G消息各核心網元的業務能力和性能穩定性提出了更高要求,尤其是針對負責5G消息核心業務的MaaP 平臺,需要具備更高效率的運維管理能力、更多維度的異常狀態監管能力。
MaaP 系統由MaaP 平臺和MaaP 平臺管理模塊2個部分組成(見圖1)。MaaP 平臺是5G 消息系統的核心網元,部署在與各5GMC 對應的大區,承載交互式5G 消息業務,負責政企用戶MaaP 業務的接入、多媒體消息內容上傳、消息審核對接、消息內容存儲等功能。MaaP 平臺管理模塊是5G 消息系統中負責管理MaaP和能力擴展的核心網元,與MaaP 平臺采用HTTP 協議對接,提供MaaP 參數配置、路由節點管理、業務策略管理等,以及為5G消息系統提供更多擴展能力等。

圖1 MaaP網絡架構示意圖
MaaP平臺網管現有功能包含性能管理、告警管理2 個模塊。性能管理通過主動或者自動的方式從設備收集或由設備上報設備運行的相關參數信息,以直觀的方式顯示給維護人員,使其了解當前網絡運行的基本情況和性能狀態,預防網絡事故的發生,預測網絡運行狀態,幫助網絡管理員對網絡的管理運營進行合理的規劃。告警管理根據時延日常值設置告警門限,當時延指標劣化,低于門限時,自動上報告警,并提供圖形化界面的故障呈現方式,以便維護人員及時發現并分析處理,通過設備拓撲圖直觀查詢到設備上出現故障的端口狀態等相關信息。
考慮到后續5G 消息業務規模的快速增長,MaaP平臺的業務壓力也會隨之增大,單純依靠傳統人工運維的方法已經難以滿足0 停機率和100%設備在線運行的要求,主要存在以下3個方面痛點。
a)需要MaaP 運行狀態實時智能感知與綜合狀態趨勢預測,能夠提前發現并處理潛在異常情況。
b)需要針對系統運行異常的問題提供系統自動化生成處理方案與主動修復能力。
c)需要實現運維工單的自動化派發并提供全面的故障分析與情況介紹,提升維護人員故障分析與處理效率。
隨著云計算、大數據、AI 等技術快速發展,基于DevOps、AIOps 的智能運維開始興起,使得傳統運維體系中,存在大量重復性工作的運維人力成本和效率問題得到有效解決。然而在復雜場景下的故障處理、變更管理、容量管理、服務資源配置過程中,仍需要維護人員來掌控決策,不利于整個MaaP 系統運維效率的進一步提升。而引入數據分析技術,MaaP智能化管理可以輔助維護人員甚至代替維護人員來做出高效決策與處理,從而實現真正意義的完全自動化(見圖2)。

圖2 MaaP智能化管理模塊技術架構示意圖
MaaP 智能化管理模塊在技術架構設計上是MaaP平臺管理模塊的組成部分,通過SFTP 接口獲取來自MaaP、云資源池網管、網絡中臺的多維度運行數據,利用數據分析技術實現基礎數據的清理、儲存、分析、處置、應用等工作。數據分析集群拉取數據源的原始文件,并把數據載入HDFS 分布式文件系統。為方便管理,HDFS 的文件在經過校驗過濾掉不合法的數據后存入Hive。通過多維OLAP(聯機分析處理)技術,對多維數據進行有效的表達和處理,然后對數據庫當中的關系型數據進行動態化多維度的分析,并將最終的分析結果儲存到管理系統當中,實現對系統數據的進一步優化。另外,基于運行狀態的歷史數據、故障告警數據等建立系統運行狀態預測模型,面向未來一天、一周,甚至更長時間的系統狀態進行精準分析預測,在可能發生某個異常狀態之前,提前做出預警提示,真正提高MaaP系統運行的穩定性。
圖3給出了數據分析平臺技術架構示意。

圖3 數據分析平臺技術架構示意圖
知識圖譜是積累運維工作經驗為維護人員提供輔助能力的關鍵。以圖的形式來展示運維知識,用節點來描述運維工作中一些具體方法或者概念,用邊來描述維護處理方法與方法之間的流程關系或者實體的一些屬性。通過這種結構化的知識表示形式,知識圖譜將各類維護案例和處理方法等知識表達成機器能夠處理和理解的形式,從而使機器能夠像經驗豐富的維護人員一樣去分析異常并做出合理的決策,進而為MaaP系統運維工作提供更加高效的智能化支持。
MaaP 智能化管理功能是MaaP 平臺管理模塊的核心功能,面向MaaP 平臺網管提供MaaP 狀態全面感知和智能輔助管理的能力,從功能上實現MaaP 運行狀態智能化監管和運行策略自動化管控等(見圖4)。

圖4 MaaP智能化管理模塊功能架構示意圖
MaaP 運行狀態智能化監管應具備MaaP 運行狀況全面感知,平臺健康狀態預測等多種能力,解決原有人工管理方式響應速度慢、效率低的問題。具體實現上,通過收集MaaP 運行日志、網絡狀態、資源池狀態等數據,利用數據分析技術建立預測模型實現MaaP運行狀態感知和多維度運行狀態趨勢分析。
MaaP 運行狀態感知能力通過對接MaaP 探測服務器實時監管MaaP 狀態(如主處理機性能、業務量、數據同步成功率等),結合網絡日志、服務器運行日志、告警信息等多維數據全面分析監督MaaP運行狀態。
平臺健康狀態預測基于MaaP 運行狀態感知功能所獲取的歷史數據,利用機器學習方法訓練預測模型,實時分析未來一段時間的MaaP 運行狀態走勢、業務量變化趨勢,給出峰值具體數據及發生的時間點。系統根據平臺健康狀態預測得到的多維度狀態趨勢數據自動化生成應對策略。例如,當前運行問題來自服務器資源容量問題,則自動生成可滿足當前需求的服務器配置,并預測未來何種情況下需要再次擴容。
通過抽取維護人員在MaaP 各類異常狀態的應對方案知識點,基于知識圖譜建立一套完整的智能運維輔助決策功能,實現應急預案的自動推理與生成。同時可提供模擬工具,根據設定的參數模擬各類壓力及故障情況,生成應急預案,輔助維護人員更高效地處理緊急事件。
當MaaP出現運行故障或業務量過大的情況時,根據自動生成的應對策略執行分流任務,實現MaaP業務向備用MaaP 自主轉發,并實時監控主MaaP 和備用MaaP之間業務量、服務器壓力、網絡流量的情況對比,判斷分流效果。
MaaP 運行策略管控模塊收集并記錄系統運行中的故障告警信息和響應時間、工單派發及處理時間、故障處理流程及解決時間等數據,挖掘潛在的數據關聯關系與問題點,為后續工作提供運維數據分析報表、高頻次高風險問題統計分析等數據支持,幫助網管持續優化工作流程與方法。
MaaP系統運行狀態異常時,運維工單會通過人工手動發送完成,然而,發送工單的人員很難通過簡單觀察描述出準確的故障情況和緊急程度,這會造成工單數量多且優先級混亂的問題。對于5G 消息業務開展會造成難以估量的影響和巨大的經濟損失。通過數據分析技術可以對異常情況的緊急程度做出準確判斷,并結合當前系統狀態數據和應急預案一同隨工單自動派發給維護人員。
應用傳統運維方式管理MaaP系統時,可能會因為維護人員自身對系統了解不夠,導致對異常狀態的運維效率較低,只能對潛在的故障問題一一排查,費時費力。而通過MaaP 運行狀態監管模塊工單中所提供的應急預案,可以有效幫助維護人員處理現場問題,明確故障產生的原因,快速完成異常修復。需要注意的是,在實際應用中需要不斷收集各類異常數據并持續訓練優化異常狀態的數據分析模型,才能在長期的生產環境中積累一定的數據基礎,更精準地提供業務分析能力。
高效正確地提供MaaP管理能力是MaaP運維工作最為重要的內容,MaaP智能化管理功能以數據分析技術為核心,可以實現MaaP 運行狀態的全面感知與管控,理論上會為MaaP 提供0 停機、高穩定性運行的可靠保障。同時,面向MaaP可以提供各類異常問題的快速檢索、預測和智能輔助決策,使得維護人員能夠快速解決問題。數據分析能力充分體現了運維數據價值,真實反映了當前多個維度的系統運行情況,并能夠通過數據分析發現當前MaaP系統存在的各類問題,甚至是潛在問題,及時輔助維護人員制定或完善更有利于運維管理的策略。