鮑偉華,謝志剛
移動核心網設備故障智能預處理系統研究
鮑偉華,謝志剛
(中國移動通信集團上海有限公司,上海 201206)
為實現移動核心網設備故障處理的自動化,設計了一套故障智能預處理系統。該系統集成在電信運營商的綜合網管內。在核心網設備故障發生后,能夠自動識別告警標題,調用預處理指令,記錄和判斷預處理指令執行的結果。實際應用效果表明,該系統能夠有效縮短故障處理時間,減少故障派單數量,提升維護工程師跨專業故障處理能力,同時具備良好的可擴展性。
移動核心網預處理系統預處理腳本
隨著移動通信技術的高速發展、業務種類的不斷豐富,網絡呈現出大量設備類型、多種設備廠商機型共存的局面。此外,通信行業競爭日益激烈,運營商普遍處于設備種類眾多,而維護人員數量相對較少的矛盾中。為提供優質的網絡服務,運營商通常對設備故障定位的準確性以及故障處理的及時性有較高的考核要求。除了故障處理以外,維護工程師通常還擔負投訴處理、局數據制作、網絡分析和網絡優化等繁重的任務。因此設備種類眾多對維護工程師的工作效率和跨專業故障處理能力帶來了極大的挑戰。目前運營商采取的“一專多能,一崗多能”等維護模式需要投入大量的人力資源、時間成本和培訓費用,實際推進時遇到的阻力較大。為此通過網管系統輔助的方式緩解該矛盾,成為了移動運營商網絡維護部門的首選方案。
為減少故障派單數量,縮短故障處理時限和提高跨專業處理能力,本文設計并實現了一套故障智能預處理系統。該系統能夠自動識別移動核心網設備的告警標題,登錄故障設備,執行相應的故障處理指令,并對執行的結果進行分析。系統的設計目標如下:
責任編輯:劉妙liumiao@mbcom.cn
(1)快速定位設備故障點,縮短故障處理時間,提升跨專業處理能力;
(2)自動處理部分告警,減少故障工單數量;
(3)提供統一的呈現界面,具備良好的易用性;
(4)具備預處理日志記錄、查詢、導出和統計功能。
核心網設備故障智能預處理系統集成在運營商的綜合網管系統內,屬于應用服務層的1個應用。預處理系統在綜合網管系統內的具體位置如圖1所示:

圖1 預處理系統在綜合網管內的位置
故障智能預處理系統工作原理如圖2所示。
當核心網設備產生故障以后,告警信息會上報給廠商網管。廠商網管通過北向接口上報給綜合網管內的綜合告警平臺。綜合告警平臺完成告警的標準化和入庫后,觸發故障智能預處理系統的調度模塊。如果告警為智能預處理系統能夠處理的條目,則智能預處理系統觸發預處理任務,調用通用操作終端,登錄故障的網元設備,執行預處理指令,記錄和判斷命令執行的結果。
如果告警無法自動清除,則智能預處理系統將得到的輔助信息反饋給綜合告警平臺。監控部門值班人員看到相關信息后即可通過電子運維系統派發故障工單至相應的維護部門。電子運維系統派發故障工單后,將工單號信息同步給智能預處理系統,智能預處理系統將工單號和預處理日志進行關聯,以便于后期維護部門工程師通過工單號在系統內調閱預處理日志。
3.1預處理腳本開發流程
預處理腳本是專業維護工程師經驗的總結,也是系統的核心所在。由于移動核心網設備容量較大(通常在幾十萬到數百萬用戶的規模),任何操作都需要非常嚴謹。預處理腳本的開發一般需要由專業的工程師與設備廠商支持工程師共同完成,對處理的流程和使用的指令進行嚴格驗證。
故障預處理腳本的開發需要經歷如下4個階段:
(1)調研階段:根據歷史統計數據,梳理出各廠家設備常見的故障,并評估實現預處理的必要性和可行性。通常對于處理故障中涉及影響用戶業務的,或者處理方式較為復雜多變的,不建議納入預處理系統處理的范疇。

圖2 告警智能預處理系統工作原理圖

表1 部分預處理腳本特性
(2)需求定義階段:專業工程師針對梳理出的故障,與廠商支持工程師共同將處理過程和經驗進行總結,形成固化的處理方式,并轉化成為預處理腳本需求文檔。需求文檔內需要明確如下要素,即設備訪問方式(SSH、TELNET等)、設備的賬號口令、登陸設備后執行的指令以及指令輸出結果的識別等。
(3)開發階段:通過編程,將需求文檔轉化為預處理腳本。

圖3 華為MSC Server“MTP3鏈路故障”預處理流程示意圖
(4)驗證階段:模擬或者等待設備故障發生,對預處理腳本的執行過程和結果進行確認。如果發現是腳本或者需求本身的問題,則進行相應的修改和完善。
3.2預處理腳本功能特性
本系統已部署預處理腳本20余條,涉及4種設備類型。部分預處理腳本的功能特性如表1所示。
從功能特性來看,預處理腳本主要分為3種類型:
(1)對于不影響業務的次要告警,如設備模塊出現短時異常等,直接清除告警;
(2)對設備模塊/信令鏈路等進行操作,如閉塞/解閉、激活/去激活操作,清除告警;
(3)對于無法清除的告警,提供輔助信息,如對端局向、故障模塊、是否為傳輸故障等。
以華為軟交換關口局MSC Server的“MTP3鏈路
故障”為例,預處理腳本能夠自動根據故障鏈路的狀態,進行解閉、激活等操作來清除告警,對于無法清除的告警,則記錄對端局向信息。預處理腳本執行流程如圖3所示。
4.1縮短故障處理時間
系統部署前后的故障處理流程如圖4所示。
由圖4可見,對于已經開發出預處理腳本的告警條目,系統能夠在監控部門派發故障工單之前,自動登錄網元設備處理故障,清除部分告警,減少故障工單數量。而對于無法自動清除的告警,系統也能夠給維護工程師提供必要的輔助信息,如故障的設備模塊號、對端局向、是否為傳輸故障等,從而便于準確定位故障、縮短故障處理周期。
考慮到故障工單派單、流轉和人工處理的時間,系統部署前處理時長一般要超過30分鐘。系統部署后,通過統計報表測算,系統每月預處理量為14 000條左右,預處理成功率82%,故障消除率超過10%,平均預處理時長2分鐘,和人工處理相比,大幅縮短時間93%。
4.2減少故障工單數量
值得一提的是,隨著朋友圈等親友推薦影響力增強,55%的年輕父母會通過微商途徑購買商品,而這個數據在2016年調研報告中僅有13%。不過,不同層級的城市對待微商的態度也截然不同:一線城市年輕父母最不愿意在微商購買商品,而五線城市年輕父母對微商的接受程度最高。
由于中繼和信令類故障是目前主要的核心網設備故障類型,因此系統開發的預處理腳本主要針對上述故障。通過智能預處理系統,部分機型的中繼和信令相關故障工單數量下降70%以上,節省了可觀的維護工作量。系統部署前后故障工單數量對比數據如圖5所示。
自動清除告警的系統日志如圖6所示。

圖4 告警智能預處理系統部署前后故障處理流程對比圖
4.3提升跨專業故障處理能力
系統提供的智能預處理結果對于維護工程師處理跨專業設備故障提供了輔助手段,能夠指導非專業工程師定位故障并及時做相應的處理。輔助信息包括故障的模塊號、對端局向、是否為傳輸故障等。例如諾基亞INCORRECT WORKING STATE告警預處理腳本能夠提供故障HLR
的硬盤模塊號,具體如圖7所示。
設備生命周期內均可以使用該系統內開發出的智能預處理腳本進行預處理。通常核心網設備的生命周期在5~10年。后期設備升級和型號替換后,可根據實際情況修改腳本或開發新腳本。一般1條告警的開發周期在1周左右,加上調試的時間不超過2周。遇到復雜的告警,開發和驗證的時間不超過1個月。因此,對于新的設備,3個月內即可完成主要告警的預處理腳本部署工作。

圖5 系統部署前后核心網設備故障工單統計對比圖
4.5推廣性和可移植性
系統內嵌的各核心網設備機型的智能預處理腳本具備推廣條件。對于使用相同的核心網設備機型的運營商,均可直接或者簡單修改后引入已開發的腳本。

圖6 自動清除告警系統日志

圖7 提供系統故障模塊信息系統日志
4.6擴展性
隨著系統的不斷成熟,可以開發出符合各類設備特點的告警預處理腳本,如無線網、數據網、傳輸網的設備等,以緩解維護工程師壓力。但前提是必須考慮智能預處理系統的處理負荷瓶頸、綜合告警平臺和通用操作終端接入設備的情況等。
本文介紹了故障智能預處理系統的架構和故障處理流程,提供了一種縮短故障處理時間、減少故障工單的技術支撐手段。實際應用表明該系統達到了預期的設計目標。通過對該系統進行擴展,可廣泛用于無線網、數據網、傳輸網等設備,這對提高運維效率、提升跨專業處理能力、提高運營商競爭力提供了有力的支撐。
[1] Kenneth Barclay, John Savage. Groovy入門經典[M]. 北京: 機械工業出版社, 2008: 35-272.
[2] 宋敬彬,孫海濱. Linux網絡編程[M]. 北京: 清華大學出版社, 2010: 138-440.
[3] 明日科技. Java從入門到精通[M]. 北京: 清華大學出版社, 2012: 339-373.
[4] 耿宏波,胡清. 核心網一般故障處理前移流程優化項目[J]. 數字技術與應用, 2012(1): 172-173.
[5] 毛承國,張衛華,張進鐸,等. 大規模集群運維自動化的探索與實踐[J]. 信息安全與技術, 2014(2): 60-63.
[6] 余沛. IT運維自動化——從時代變化與規模談自動化運維[J]. 程序員, 2012(9): 26-31.
[7] 溫長洋. 防火墻運維自動化工具的設計與實現[J]. 中國金融電腦, 2010(11): 48-53.
[8] 錢宇虹. 基于Java平臺的多語言混合編程[J]. 軟件工程師, 2014(11): 39-41.
[9] 陳春華,梁奐. 全業務電信運營商的IT服務管理實踐探討[J]. 電信科學, 2011(3): 124-131.
[10] 黃波. Groovy采集數據的虛擬化平臺可用性集中監控[J]. 南方電網技術, 2012(1): 69-72.★

鮑偉華:工程師,碩士畢業于上海大學,現任職于中國移動通信集團上海有限公司,主要研究方向為移動通信分組域和電路域核心網的演進,網絡管理,運維自動化。

謝志剛:工程師,工程碩士畢業于華東師范大學,現任職于中國移動通信集團上海有限公司,主要研究方向為移動通信電路域核心網的演進,網絡管理,運維自動化。
Research on Intelligent Preprocessing System of Equipment Failure in Mobile Core Network
BAO Wei-hua, XIE Zhi-gang
(China Mobile Communications Corporation Shanghai Co., Ltd., Shanghai 201206, China)
In order to achieve automation of telecommunication equipment failure processing in mobile core network, a set of intelligent failure preprocessing systems were designed. The system is intergraded in telecommunication operator’s integrated OMC (Operation and Maintenance Center). If equipment in core network is broken down, the system is able to distinguish alarm subject, call preprocessing commands, record and judge the results of preprocessing commands. Practical applications show that the system effectively shortens failure processing time, reduces the number of work orders, improves processing ability of maintenance engineers and has good expansibility.
mobile core networkpreprocessing systempreprocessing script
10.3969/j.issn.1006-1010.2015.09.017
TN914.51
A
1006-1010(2015)09-0077-05
引用格式:鮑偉華,謝志剛. 移動核心網設備故障智能預處理系統研究[J]. 移動通信, 2015,39(9): 77-81.
2015-01-04