陸 震 蔣永西 張正鍇 莊 靜
1.中郵建技術有限公司;2.南京科通通信工程技術服務有限公司
在人工智能的共識下,新世紀的通信運營商深刻認識到在行業新常態下面對這樣的新挑戰,需要不斷提升業務水平和服務能力,滿足移動互聯時代快速響應和端到端服務的巨大需求,確保為客戶提供最優質的服務體驗。而滿足客戶需求和提供優質服務的一個重要前提是將人工智能的思維形態和維護模式作為現階段通信運營商實現新發展、獲得新成就的核心引擎。
通信維護,作為整個通信生態至關重要的一環,對通信網絡的正常運營和客戶的使用感知,都有著直接和廣泛的影響。目前,通信設備維護量巨大,人均維護設備數量提升超過50%,而且隨著用戶數量的增加不斷增多,在基本實現集約增效的前提下,迫切需要深入貫徹人工智能思維,進一步利用智能化工具深度優化維護工作,顯著提升客戶感知和業務效率,完善通信運營商的集約維護運營體系。
1.1.1 網絡演進
隨著百兆寬帶、高清ITV及LTE業務的部署和發展,通信網絡中的設備種類多樣性越發顯著,集中化趨勢越來越明顯,設備的集中化帶來監控集約化,分散式交換演變為IMS,數據專業扁平化,平臺專業云化。需要更先進的維護手段才能滿足集中化網絡。
網絡集中化后,大量設備使得現網的復雜程度和網絡容量成級數倍的上升,現網的網絡管理需要一種更加精細化和智慧化的網絡監控手段。
以某省一家通信運營商為例,日均告警量已達140萬條,需要預處理的告警5700條,工單2633張,監控人員預處理人員只有33人,人均工作超負荷,預處理及時率和準確率無法保證,故障告警預處理人員需掌握不同廠家設備處理方法,難以深入處理。
這就需要集中監控和集約化維護向智慧監控轉變,傳統的網絡運維管理方式已經無法滿足“面向端到端業務,面向客戶管理”的業務需求。為了建立與全業務發展相適應的新運維故障管理體系,網絡故障管理應該從被動的告警監控向更智慧的層面上轉變。
1.1.2 網絡監控的要求
網絡集中監控以后,省集中監控中心不僅是全省網絡監控的第一責任人,同時也成為全省網絡安全運行第一責任人,承擔全省集中監控、網絡分析、通信保障、客服支撐、設備資源管理等工作的第一責任人職責。在監控人員變少,網絡設備復雜的情況下,原有的監控模式面臨如下四個挑戰:
(1)發現和分析挑戰。集中化程度高,集約化、跨專業影響面大,障礙原因復雜且難以查找,對如何發現定位障礙提出了新的挑戰,所以我們要更智慧地發現和分析,從網絡告警監控向用戶感知轉變:及時發現、提前預警、智能預處理。
(2)人工調度,個性化多。多家分公司維護人員數以千計,各分公司網絡業務規模千差萬別,維護人員業務水平參差不齊,造成了人工調度工單效率低,無法滿足各分公司個性化需求。
(3)設備管理越來越智能化、集約化后,對故障遠程處理和終結的要求也越來越高。從現場處理到遠程處理的轉變要求故障處理更加智能化,對監控人員遠程處理技能相應提出了更高的要求。各廠家網管各不同,需要監控人員掌握不同廠家設備處理方法,對監控人員要求高,培訓時間長。
(4)集中化-集約化-智慧監控。網絡監控從集中化到集約化再到智慧監控演進的過程中,網絡越來越復雜,設備越來越多,傳統的監控模式捉襟見肘,無法適應新集約化模式。
工業4.0人工智能的普及。工業4.0是德國政府《德國2020高技術戰略》中所提出的十大未來項目之一。該項目由德國聯邦教育局及研究部和聯邦經濟技術部聯合資助,投資預計達2億歐元。旨在提升制造業的智能化水平,建立具有適應性、資源效率及基因工程學的智慧工廠,在商業流程及價值流程中整合客戶及商業伙伴。其技術基礎是網絡實體系統及物聯網。人工智能(Artificial Intelligence),英文縮寫為AI。它是研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。
為解決網絡集中監控后出現的種種挑戰,需要從智慧監控方面入手,一一解決難題。主要分為四個方面:智慧發現、智慧分析、智慧調度、智慧處理。
2.1.1 跨專業群障定位
隨著通信運營商集約化維護的深入推進,部分運營商已實現了網絡設備與客戶的省級集中監控,以及公眾客戶申告的集中支撐處理。但跨專業群障一直是集中監控后突破的難點,其主要面臨以下困難:涉及面廣、定位滯后、升級規范亂、業務影響大。解決跨專業定位和升級規范的問題,對集中監控質量的提升有著重要意義。
某省運營商通過應用群發障礙綜合定位平臺系統發現跨專業障礙,采取全省統一跨專業障礙升級規范,解決了長久以來集中監控面臨的跨專業障礙發現難、升級與交互工作復雜的問題。群發障礙綜合定位平臺實現了集中監控過程中跨專業、大面積故障快速定位,增強了智能處理手段,提高了障礙處理效率,實現了以下四大定位:
(1)定位光纜障礙
通過完善光纜資料,補錄光纜兩端設備端口信息,實現光纜與設備相關聯,根據資源系統的數據源生成ONU-OLT的鏈路及OLT-BRAS/SR之間的鏈路與纜段的關系,根據告警信息查詢資源可定位到具體光纜。維護人員不用盲目查找原因,迅速定位障礙點,為恢復障礙贏得寶貴時間。如圖1所示。

圖1 光纜故障與設備資源關聯
(2)定位故障設備
根據資源系統的數據源生成從ONU到OLT到BRAS/SR的拓撲結構,根據具體的告警信息可定位到具體的設備及其上下聯設備以及具體的鏈路信息。例如BRAS下多個OLT中斷,同時上聯的同一BRAS端口有告警,則定位到BRAS端口問題。
(3)定位障礙區域
根據網元地址、局向信息、光纜信息進行定位。例如多個ONU故障定位到同一條光纜上,或多個DSLAM故障定位到同一條光纜上。
(4)定位群障申告量
將用戶資料與網絡資源關聯,群障發生后,通過調用資源查詢該群障影響的所有用戶,呈現用戶申告的詳細信息。從而解決用戶申告與群障相關聯的難題,強化了對群障影響范圍及申告的掌控。
2.1.2 智能預警
(1)機房環境網絡智能預警
主要從以下幾個方面實現機房環境網絡智能預警:1)實時發現機房電壓、溫度異常,強化性能告警監控;2)業務中斷前及時觸發網絡預警;3)根據關聯影響風險的上層業務設備清單自動觸發預警;4)依據設備類型分類,分析影響范圍,實現從物理底層到應用層的全面監控。如圖2所示。

圖2 機房環境智能預警
(2)光纜群障智能發現和預警
主要有以下幾個方面(見圖3):
1)智能關聯多專業的告警信息,及時發現光纜障礙;2)自動預警受影響范圍和用戶數,實現網絡與上層業務的故障關聯;3)預警存在風險的業務,加強巡視備用線路。

圖3 光纜群障智能分析
資源管理支撐智能監控精準定位。包括以下幾個方面:
(1)開發工具支撐定位異常分析。開發光纜信息查詢、光纜設備告警一鍵關聯、未歸并光纜關聯分析三個小工具,支撐光纜和光路關聯場景歸并定位異常分析。
(2)開發告警定位模擬器支撐定位異常分析。異常定位故障導入案例庫,可調整告警時間、告警等級、處理時間重新模擬;自動提示不符合預期定位具體判斷規則,便于告警定位異常分析。
(3)充分利用資源數據優化規則。利用資源數據做好告警關聯歸并,同一故障告警不遺漏;優化規則,充分利用資源關聯,實現部分障礙無告警定位,例如板卡故障無告警定位。如圖4所示。

圖4 告警關聯歸并
2.3.1 建設“應急保障統一溝通平臺”,提升障礙處理溝通效率
(1)當前問題與解決辦法
當前問題:應急保障時多為電話、點對點QQ溝通,溝通效率低。
解決辦法:建設“應急保障統一溝通平臺”。
(2)實現方法
建設應急保障一鍵召集操作場景,嵌入工單系統。
1)通過人員姓名、賬號方式選擇人員,快速新建討論組;2)配置常用維護組人員模板,實現一鍵創建討論組;3)支持應急保障期間的總結文檔、過程記錄等文件留檔;4)實現網絡故障工單鏈接分享,方便維護人員快速了解故障詳情。如圖5所示。

圖5 應急保障統一溝通平臺
2.3.2 利用智慧調度,實現接入層監控的自動化、智能化
(1)工單系統。1)實現接入層工單自動轉派、追派、掛起的功能,減輕集中監控崗工作量,提升一線人員故障處理效率;2)開發異常工單管控箱、升級策略等功能,實現對乒乓單的人工管控,并對疑難工單實行自動升級。如圖6所示。
(2)智慧監控管理系統。利用系統將集中實現轉派、追派、掛起規則的配置。

圖6 異常工單轉人工審核
2.4.1 處理能力集中配置、集中呈現,提升障礙處理效率
(1)在工單系統的工單內容呈現上,增加“智能預處理”模塊,包括性能、業務、定位、指導四大功能,并提供主動查詢按鈕。
(2)將現有預處理能力以“原子能力”的方式集中管理與呈現。
(3)模塊界面由“智慧監控管理系統”集中實現,嵌入工單系統中。
2.4.2 打造集中管理、統一配置的“智慧監控管理系統”
(1)新建“智慧監控管理系統”,集中配置,統一管理,監控日常使用的配置場景集中管理,包括網管配置、告警配置、派單配置、群障配置、預處理配置等場景。如圖7所示。
(2)與告警系統、工單系統對接,同步現有的配置能力。
(3)采用“互聯網+”的設計理念,提升用戶友好性。1)借鑒“淘寶”、“京東”等頁面的設計思路,打破傳統生產系統的配置模式,引入“互聯網+”的設計風格;2)關注用戶體驗:頁面簡潔大方,交互性強,快速配置。
2.4.3 提升配置的靈活性,做到好用、易用
在智慧監控管理系統實現靈活配置:配置元素、條件、結果進行抽象歸類,實現組合配置,增加了配置的靈活性。

圖7 策略配置
通過智慧監控,不僅減輕了一線維護人員的工作壓力,而且提升了故障處理效率。跨專業分析和故障定位,減少了派發崗位,以及非處理故障崗位的工單量;智慧分析,能減少用戶申告,提升客戶感知度,總體上節約了維護的人員。