劉聰



關鍵詞:浦東機場;標準化;配置管理數據庫;自動運維
為了提升旅客在浦東機場使用相關服務時的體驗,保障機場的安全穩定運營,在機場內部布設了大量的監控設備,來支撐一切突發事件的處理和解決,有助于旅客享受更加舒適的機場服務[1-3]。一旦出現監控平臺運行故障或者存在運行效果不佳,則會極大地影響機場的安全運營和高效服務。然而,隨著監控需求的增多,監控設備種類也從最開始的安全監控護大至服務監控等,現有監控系統目前已有超過1000個前端監控設備,基本覆蓋了航站樓區域的出發、到達、行李、中轉等重要區域,且仍有擴大的趨勢。眾所周知,監控系統平臺連接的設備數量越多、種類越繁雜,出現故障的概率就會增高。據浦東機場監控設備維護維修記錄顯示,在現有設備量的前提下,監控設備日均出現故障頻次約10次,嚴重影響了機場的高效運轉。
1浦東機場IT運維監控平臺
IT運維平臺是配置管理數據庫自建的綜合監控運維管理平臺,其運行目標是實現業務系統的集中監控、統一運維,規范和優化運維流程,進而獲得最佳秩序和效益。值班主任負責查看并處理告警、派發故障工單、告警消除后現場確認。系統管理員負責添加、修改監控節點、日常系統巡檢和維護。
運維的管理實踐中充斥著大量重復性事務,人工處理報修流程繁雜漫長,一般需要經歷故障發生、用戶報修、SOCC接報、故障定位、故障排除和用戶確認等環節,耗時費力,嚴重影響了機場的運行效率和服務效果[4-5]。IT運維平臺可以實現運維的標準化,提高團隊效率和快速梳理運維雜亂問題,如圖1所示。
2IT運維監控平臺建設目標
(1)以自動化的方式實現所有設備從5分鐘級提升至秒級的輪詢能力,極大地提升了基礎設施運維監控的時間粒度,為監控預警精細化、故障告警及時性、運行態勢感知能力奠定基礎。
(2)通過自動識別、解析網絡結構拓撲圖,實現基于物理鏈路關系的網絡故障關聯分析,實現對網絡設備運行故障的影響度分析和呈現,按設備所處層級、設備故障影響的下聯設備的數量來分組展現故障節點,為運維值班人員和網絡管理人員直接呈現設備的故障態勢,快速判斷故障的影響度,提升故障識別和定位的效率。
(3)通過視頻監控系統自動化巡檢功能定期巡檢攝像機點位的工作狀態,再由值班人員對巡檢結果進行二次復核判斷,作出相應的故障處理。該功能的實現,一方面大幅提升巡檢效率(如發生大面積斷電或者區域故障,便于事后進行整體檢查,確保系統完好率),另一方面通過程序每日巡檢再結合人工巡檢互補即可形成有效監督,提升了前端設備的運行完好率,最終實現提升浦東機場視頻監控系統的運維服務質量和效率。
(4)建設一體化、標準化的運維管理體系,實現統一運維平臺的底層數據源建設,厘清數據源格式類型、運維數據量級、配置項關系信息。做好向四期延伸的準備,為四期新系統的建設提供開放和標準的API接口。
3IT運維監控平臺存在的主要問題和優化方向
3.1監控平臺存在的主要問題
隨著平安城市、雪亮工程的持續推進,城市視頻監控的數量越來越多,機場作為重點防控區域,安裝監測設備的數量和密度均遠高于其他區域。隨之而來的問題就是如何持續、有效地使這些監控設備發揮作用、保障城市安全。目前浦東機場視頻監控運維與保障存在如下問題。
(1)設備類型多、數量大、分布廣、管理難。視頻監控建設涉及攝像頭、存儲、服務器、路由器、交換機、防火墻、PON接人以及eLTE無線寬帶接人等眾多設備,基本覆蓋了航站樓區域的出發、到達、行李、中轉等重要區域。眾多不類型的設備對系統承載和日常運行維護造成了較大的困擾。
(2)整體運營成本高,管理復雜。同時,需要多個管理平臺和大量運維人員來承擔各種設備的監測和現場維護。
(3)難以感知系統全面健康狀況。監控設備的維護目前仍以人工巡檢為主,設備的數據收集、管理缺乏數字化,難以實現高可靠的視頻巡檢和安全保障。
(4)運維管理難以閉環和考核。設備維護以故障報修為主,管理過程難以監測,對運維單位缺乏有效的考核機制。
(5)重復建設,管理成本過高。目前,浦東機場的IT設備與視頻設備監測分開運維和管理,增加了運維成本。
(6)監測時效性差,準確性不足,無針對性。監測結果反饋不及時,漏報誤報率高,監測不能有所側重。
3.2監控平臺優化方向
為了實現高效完成監控平臺的穩定運行,對原先的監控平臺進行升級優化,使之更加貼合浦東機場運行實際以及提高工作效率。(1)要求監控平臺對視頻監控設備運行狀況進行實時跟蹤和監測,確保能夠長時間良好運行,若發生視頻設備故障,則應立即報警,不得遺漏。最終達到視頻監控系統故障告警覆蓋率高于80%。(2)增加對終端設備的巡檢頻次和設備運行狀態的記錄,確保所有的設備都處于穩定運行狀態,最終達到視頻監控系統用戶報修數量減少20%、攝像機平均故障時間減少30%、人工巡檢自查故障占比低于10%。
4監控平臺運維系統整體結構
監控是整個運維乃至整個產品生命周期中最重要的一環,事前及時預警發現故障,事后提供詳實的數據用于追查定位問題。
浦東機場監控平臺運維系統(圖2)通過將機場內部所有運行和需要維護的設備進行統一監控,繼而建立統一配置管理數據庫,對監測目標的運行數據進行收集和管控體系。因此,以監測目標的運行數據分析為根基,提供開放和標準的API接口,將機場所有的運維監控設備鏈接進入管控平臺中,進而消除各運行維護工具標準差異的壁壘。
配置管理數據庫是監控平臺得以有效運行的根基,通過SNMP協議和ICMP協議讀取各檢測設備的指標,從而了解集成、機房動環、生產實況、航班顯示和云平臺2分鐘內的運行狀態,進而根據運行維護標準作出是否告警的決定。具體如表1所列。
5監控告警與處置的閉環管理設計
浦東機場監控設備IT運維平臺以配置管理數據庫中模型為基礎,使用開放和標準的API接口,對交換機、服務器、集成、航班信息顯示系統、機房動力環境監控系統、云平臺等各類設備和監控目標進行統一監測。
即可使用統一的讀取方式、讀取時長間隔、讀取數據格式等,進而完成對各類監測設備的全方位的指標讀取,并可進行統一、高效的數據分析,對于異常數據能夠快速進行辨別,最終通過大屏進行顯示。
5.1統一監控管理設計
傳統的人工處理報修,對于監控設備的運維都是采用自身習慣的標準進行,且時常出現在運行維護日寸使用不同的工具,即使運行維護多年,積累了大量的工作數據,也無法大規模地進行推廣,無法有效形成合力。因此,對于運維管理體系的優化應實現標準的監控管理體系流程(圖3),統一標準,進而提高運行維護業務的效率和一致性。
5.2統一告警管理設計
監控目標運行狀態不佳同樣對整個系統的正常運轉起到了非常不利的作用,因此,監控目標運行不良時及時地向IT運維平臺告警極其重要。然而,連接進入IT運維管理平臺的設備種類繁多,設備信息運行數據的采集和狀態的把控對于判別有效告警或無效告警需要制定統一的標準,對于讀取的數據進行必要的過濾,并通過歷史數據比對,最后對有效的告警信息進行相應處理。
6工單生成與分派的標準流程
6.1告警管理與故障處置流程
工作人員通過大屏顯示了解IT運維管理平臺推送的告警信息后,應第一時間將信息事件上報并錄入系統,或通知事件相應的負責人,及時進行處置。處置后,生成此次告警信息全方位的處理報告,為后續同類事件的處理提供經驗。同時,豐富系統庫中數據的儲存量,為往后系統對于有效告警事件的判別提供依據。
在浦東機場日常運行中,航班信息顯示系統故障偶有發生,其告警與處置流程如下:IT運維管理平臺監測到航班信息顯示系統運行狀態出現故障,進而進入預設的自動處置程序,對于可能出現的軟件運行問題進行自我處理。然而,若是因為航班信息顯示系統的硬件設施出現故障,則系統無法徹底完成進一步的處置工作,但IT運維管理平臺仍然可以通過對設備運行數據的分析,來指導現場維修人員進行故障原因判別,縮短修復時間。另外,若出現航班信息顯示系統大批量的組件同時出現故障(機場緊急事故)或維修維護人員不能及時處置的情況,系統將故障自動升級,并傳輸至更高基層管理人員,避免事態無法收場。具體如圖4所示。
6.2業務終端變更管理流程
業務終端變更管理涉及機場的運行安全,對于流程的審核要求相對較為嚴謹。機場運行設備中出現局部細小的故障或者常見問題,可以應用標準化統一預設定的流程進行處置,進而實現業務終端變更管理的標準化和自動化,減少因為需要人為干涉而帶來的時效性問題和其他不可控因素。對于非常見問題或無法通過標準程序解決的監控目標故障,則應嚴格準照業務終端變更管理流程進行。
以浦東機場航班信息顯示系統故障時的業務終端變更管理流程(圖5)為例,在IT運維監控平臺讀取到設備運行狀態出現異常并符合告警后,系統自動對故障原因做出判別,如系統故障可通過IT運維監控平臺自動完成自我修復和處置,則處置程序自動進入該程序(如航班信息顯示系統內存超過預警值),如當存在硬件故障,IT運維監控平臺無法自我進行處置時,則通過技術人員對故障的原因和類別以及處置方式做出定性,進而請求相應的處置權限,得到授權后方可進行修復工作,同時將相關信息備份至配置管理數據庫。
7結束語
IT運維監控平臺的基本點在于工作人員的主動作為和系統的自動化處置,參與運維各環節的工作人員應當在系統的指引下,以最快的速度查找問題并解決故障,使監控目標得以正常運轉。基于標準化運維管理體系——浦東機場統一運維監控平臺優化項目的實施,切實提高了系統運行中心的運維效率,降低自營人力成本。經過檢驗,運維平臺軟件架構可滿足日后T3航站樓新增設備統一運維的需求,可為用戶提供更加及時的故障處理服務,有助于提高科室對業務系統的保障能力和各業務單位(如AOC和TOC、安檢等)的客戶滿意度。