宮琦

摘 要:文章在實現無線網絡小區退服集中監控的基礎上,在無線專業派障流程、告警梳理、實施細則等方面為拓展無線網絡集中監控、逐步建設綜合監控系統提供了有效的嘗試和經驗積累,最終實現告警的統一呈現、關聯分析,實現故障的聯動處理和自動派單。
關鍵詞:移動;無線網絡;集中監控;網管系統
1 概述
近年來,隨著移動業務的發展,移動網絡維護工作的壓力也日漸加重,無線網絡基站退服的管控直接關系到用戶感知和業務收入的有效增長。圍繞集中化、專業化、一體化的“三集中”運維工作總體思路,通過集中派障和對末梢故障處理過程的精確管控,將有效縮短故障響應時長,激勵末梢維護人員,加快故障處理速度,從而提升移動網絡質量和品牌形象。
由于無線網絡廠家和網元數量眾多、告警類型復雜多樣,因此可以分步驟實施移動無線網絡的集中監控工作,先實現無線網絡小區退服自動派單的集中管控,后續將向實現影響業務類的其它告警、重點指標越限監控及包括動環監控等在內的綜合管控拓展。
2 無線網絡集中監控系統的結構和功能
移動無線網絡小區退服集中監控主要實現“省公司一級監控,省地二級派單”。在原有移動綜合網管和電子運維系統基礎上,通過簡單的硬件擴容和軟件開發實現系統自動派單,有效提高派單效率,同時通過對故障發生、派發、接收、到達現場、故障處理、反饋等各個環節的逐一管控,實現對全省移動網末梢維護人員的有效管理和考核,獎優罰劣,整體縮短故障處理時長,大幅提高響應速度,有效提升用戶感知。
2.1 集中監控系統的結構
集中監控系統由移動綜合網管和電子運維系統兩部分組成,其中網絡告警采集和歸類主要在移動綜合網管實現,短信和工單派發主要在電子運維系統實現。綜合網管系統實時采集專業網管告警、根據一定派發規則將需要派發工單的告警發送至集中監控系統、系統自動派發工單。 同時,網絡每發生一條告警,系統將依據預先設定的判斷規則,自動觸發告警發生和告警恢復短信。另根據故障工單類型的不同,依據相應的考核時長,采用不同的故障超時短信督辦升級流程,分級別逐級向上一級相關領導發送短信進行故障升級督辦,以確保各類告警的及時處理。
2.2 集中監控系統的流程及功能
2.2.1 集中監控系統流程
集中監控流程包括綜合網管采集專業網管告警、過濾歸類告警、將需要派發的工單派發至電子運維、電子運維自動派發工單、地市接單人員接單并進行轉派、地市故障處理人員接單處理故障、處理完畢反饋、地市接單人員審核并歸檔等8個主要環節。
集中監控范圍內的故障發生后,對符合派發條件的故障自動派發工單至各地市故障工單接單部門,對割接、周期性斷電小區故障不派發工單。
各地市集中監控工單受理人員接到工單后,對工單中的告警情況進行初步判斷,派往下級接單單位或派往最終故障處理單位。需要時可以派往多個單位。故障處理單位應核實故障信息、判斷故障原因并及時處理。若不屬于本單位處理應及時反饋工單并說明原因。
省派單單位為工單發起單位,對工單處理過程要全程監督。地市故障工單接單部門對派發至本地的工單進行監督。
工單處理單位處理完故障后要填寫詳細故障原因,故障處理完畢后,由地市故障工單接單部門進行確認、審核、結單并歸檔。對于審核不通過的工單駁回重新處理。
同時,結合無線網絡維護工作的特殊性,對于由于外部原因如政府施工、自然災害等原因導致故障短時間內無法恢復的故障,可以申請掛起工單,工單掛起后維護人員需在要求時限內排除、解決故障,及時恢復基站的正常運行,并通過解掛的方式使工單進入正常流轉的環節。
2.2.2 集中監控工單分類
根據全網小區退服告警的產生、分布、分類情況,將工單分為5種類型:
⑴較大故障工單。2分鐘內同一地區120個及以上小區退服且未恢復。
⑵批量中斷工單。2分鐘內同一地區30個及以上、120個以下小區退服且未恢復。
⑶頻繁中斷工單。非VIP基站下掛小區30分鐘內發生5次及5次以上退服。
⑷A類中斷工單。A類基站下小區發生退服并持續30分鐘未恢復。派單前將1分鐘內發生的未恢復的同一邏輯站下的小區退服合并為一個工單。
⑸普通中斷工單。除以上情況外發生小區中斷并持續30分鐘未恢復的退服。派單前將1分鐘內發生的未恢復的同一邏輯站下的小區退服合并為一個工單。
2.2.3 集中監控系統模塊的功能
集中監控系統為維護人員提供兩種處理系統派發工單的方式,一種是通過電腦終端登錄電子運維系統進行工單處理,另一種是通過掌中運維手機終端進行工單操作處理。
電子運維系統實現短信和工單的派發,其主要功能包括工單流轉、工單統計、相關派單規則設置等。工單類型包括較大故障、批量中斷、頻繁中斷、A類中斷、普通中斷五類工單。工單流轉實現從綜合網管接收告警、確定故障工單類型、生成派發相應工單、以及工單受理、轉派、處理、反饋、審核歸檔等所有流轉環節。工單統計可按地市、部門、網絡類型、受理人、處理人、網元等信息查詢統計,同時實現工單流轉過程、工單處理時長、超時工單等專項統計。相關派單設置規則包括基站周期性斷電、割接不派發工單的規則設置。
掌中運維可以通過手機終端實現與PC端相同的工單流轉、數據查詢功能,通過移動終端可以實時監控和移動管控故障工單從派發到處理的每一個環節,同時還可以遠程記錄網絡維護外勤人員出發、進站、出站的維護動作時間點,從而更加方便快捷的實現對網絡維護工作的有效監督管控。
3 無線網絡集中監控系統的發展趨勢
通過無線網絡小區退服自動派單的集中管控,實現對移動網末梢無線維護人員從故障發生、派發、接收、到達現場、故障處理、反饋等各個環節的時間軸的有效管控。該系統涉及的無線專業派障流程、告警梳理、實施細則、維護人員信息、統計報表等工作內容將為無線網絡集中監控的拓展提供有效的嘗試和經驗積累。因此,在實現無線網絡集中監控的基礎上,逐步建設綜合監控系統,實現告警的統一呈現、關聯分析,實現故障的聯動處理和自動派單。
3.1 綜合監控系統的定位
綜合監控系統定位于圍繞發現故障、分析故障、解決故障,面向各級運維管理和生產人員,全面提供全網絡監控功能,實現全網的集中監控、派單。綜合監控系統位于OSS域,定位于網管類系統,在各專業綜合網管系統之上。
3.2 集中監控發展遵循的原則
為了確保系統的整體部署、互聯互通、協調運營與統一管理,系統在建設過程中應該遵循以下原則:
3.2.1 標準化原則
綜合監控系統是一個面向全專業的復雜的通信網絡的實時監控系統,管理網元范圍廣,上層應用種類不斷變化和增加,因此,綜合監控系統在設計時應滿足數據模型的標準化和接口的標準化。
3.2.2 組件通用原則
綜合監控系統采用SOA的設計方法,實現業務分層和功能服務模塊化的分布式體系結構,用以保證系統的易用性、可維護性和通用性。
3.2.3 分層設計原則
綜合監控的底層數據處理和應用要分層設計,滿足應用層靈活擴展要求。
3.2.4 技術先進性
采用技術成熟、穩定且具備先進設計理念的產品,系統在建成后能通過平滑升級保持其先進性,延長生命周期。
3.2.5 高可靠性
系統軟硬件均具備極高的可靠性。主要部件采用冗余機制;高效的故障管理保證系統具備極高的可用性,在最短時間內即可恢復業務。軟件采用模塊化、分層隔離以及負載均衡的設計思想充分保證系統的高可靠性。
3.2.6 高安全性
解決方案從主機、數據及網絡等多方面采取相應措施,確保系統的高安全性。
3.2.7 高可用性
系統具有高效的軟硬件使用效率,關鍵設備均達到硬件配置最高的使用率,同時采用優化的流程設計確保系統的高效率。
3.2.8 易維護性
系統硬件可以很方便的實現遠程管理及維護;系統軟件均采用模塊化的設計,并提供友好的人機接口,確保系統的易維護性。
3.2.9 靈活的擴展性
系統關鍵設備均采用集群技術以及負載均衡技術,可充分保證系統隨著網絡規模容量的擴展,實現系統的平滑擴容。軟件系統架構充分利用網絡的擴展性強的特點,采用分散控制、集中管理的結構,使得系統可擴充性很強。網絡構建靈活,既可以實現平臺的集中處理,又能提供全面的透過網絡的分散能力,適應多種應用環境及場合。
3.3 綜合監控系統的應用場景
綜合監控系統應具備靈活、高效、多維度、可定制的場景監控能力。應用場景主要涵蓋概況監控、日常監控、節假日監控、重保監控、場景定制等。
⑴概況監控場景用于呈現全網設備運行情況或重點專業設備運行狀況,可基于地圖或網絡拓撲來呈現網絡資源信息、告警信息、性能信息、工單信息、工程信息、業務質量監控信息等。
⑵日常監控場景是從不同類型的用戶視角出發來呈現用于管理和維護所需的網絡運行情況。
⑶節假日監控主要對重大節假日業務量、系統負荷、業務質量等信息進行全專業監控展示,可根據需要靈活定制所需的信息,并基于地圖或網絡拓撲來呈現信息。
⑷重保監控主要實現對于重大事件的通訊保障的管理,重保監控通過將多種類型的數據有機整合,從不同角度監控重保區域內的網絡運行情況。
⑸場景定制指選擇監控對象、監控信息、監控模式組合成監控人員直接監控的界面,包括監控對象的定制、監控信息的定制、監控模式的定制、場景定制、場景監控等場景監控信息的定制展現,用戶定制的場景可以保存。
3.4 集中監控發展的目標
建立全省集中的綜合監控系統,采集各專業網告警數據、配置數據、性能數據、資源數據等。通過專業內告警標準化、網元設備命名規范尋找根告警壓縮大量衍生告警;利用資源模板實現專業間告警關聯,為專業間性能數據關聯性分析提供數據依據;利用性能分析模塊提取話務量、流量、性能數據來驗證告警恢復情況,通過設置性能數據閥值,將故障扼殺在萌芽狀態,提升網絡健壯性,通過分析性能數據,為市場經營決策提供趨勢性分析數據依據,為網絡建設提供累計和忙時業務量數據,滿足網絡規劃數據需求;利用派單模塊提供網絡變更上報流程,滿足資源及時更新、工程告警及性能打標識的目的,將壓縮后告警、性能匹配維護人員后以工單形式一派到底,減少中間流轉環節,提高維護效率,減少維護量,提升落地執行力,從而最終提升客戶感知及網絡支撐能力。[1]
[參考文獻]
[1]焦曉光.淺談移動通信機房設備故障集中監控系統的應用[J].科技與企業,2012(8).