穆浩澤 陶欣 王曉輝 王健 劉鳳陵 劉青 劉曉疆







摘要:隨著國內民航業的迅猛發展,為應對日益提高的業務量和運營管理要求,機場業務系統的數量和復雜度呈爆炸式增長,系統的運維管理壓力劇增,傳統的運維方式已無法滿足當前的運維需求。本文論述了針對民航業務的智能運維監控系統的設計及實現,通過對機場各業務系統運行產生的各類指標、日志、鏈路數據進行收集、融合、統計和分析,結合運用自動化數據采集、大數據存儲、云計算、人工智能算法等熱門技術,實現對機場各業務系統全方位、多層次、全流程的智能化監控與運維支撐,提供實時監控、事前預警、事中輔助、事后追溯的輔助運維手段,提升運維工作效率,降低整體IT運維服務成本。
關鍵詞:運維監控;人工智能算法;事前預警;事中輔助
中圖分類號:TP311.1? ? 文獻標識碼:A
文章編號:1009-3044(2023)36-0087-04
開放科學(資源服務)標識碼(OSID)
0 引言
民航業作為現代交通運輸的重要組成部分,直接關乎人民出行和國家經濟發展。機場各業務系統是保障民航業有序、高效、安全運行的基礎,因此保障機場各業務系統的穩定運行是重中之重[1-2]。
隨著國內民航業的迅猛發展,我國機場尤其是大型機場的運量逐年遞增,在帶來可觀經濟效益和顯著社會效益的同時,超大型機場由于航班時刻編排緊密,機場資源長期飽和,系統、設備長時間滿負荷甚至超負荷運轉,加之接近使用年限,故障率開始增多,機場運行的各類系統和設備的故障問題開始凸顯,傳統的運維方式難以滿足機場安全生產要求,主要表現在:
1) 資產管理混亂,缺少對業務系統、設備、軟件、基礎設施等資產進行集中、規范管理的手段。
2) 監控覆蓋度低,部分業務系統未采取監控措施,或僅針對本系統進行零散監控,缺少集中、全面的監控手段。
3) 故障難預警,缺少故障預警機制,故障發生率高。
4) 故障處置難,缺少故障處置輔助手段,出現故障依賴特定技術人員人工排查,過程復雜且耗時長。
5) 巡檢任務重,缺少自動化巡檢手段,依靠人力巡檢,工作量巨大且易遺漏、出錯。
6) 運維管理信息化程度低,運維任務依靠人工線下溝通和紙質記錄方式,人員協同度低、任務閉環難、流程追溯難。
針對以上問題,機場業務智慧運維監控系統提供完備的解決方案,可以提高運維工作效率,降低服務成本,對機場的安全運行具有十分重要的意義。
1整體架構研究與設計
系統自下而上劃分為監控資源層、數據采集層、業務能力層、深化應用層四個層級。
監控資源層為納入系統監控的目標資源,包含基礎設施[3]、硬件設備、操作系統、組件服務、業務應用、業務系統等多類監控目標,針對監控目標類型定義監控對象模型,由資產中心統一管理。
數據采集層負責對監控目標運行相關數據進行采集,如指標、日志、鏈路、行為、異常、業務數據等,通過多種接入方式將監控數據匯聚至平臺進行統一存儲及進一步加工、分析,作為業務能力層的數據基礎。
業務能力層按運維業務領域劃分為資產中心、監控中心、告警中心、運維中心、數據中心等五個中心,提供運維監控系統核心業務能力。
該系統以資源為核心、監控為基礎、流程為導向、客戶為中心,打造一套機場特色的智慧IT運維管理平臺,為機場注入全面的IT資產管理能力、資產數據采集與監控能力、主動故障預警能力、智能化的故障與風險分析能力、全生命周期的運維流程信息化能力,以下將從資產中心、監控中心、告警中心、運維中心等核心能力維度分別論述。
1)資產中心
資產中心負責對機場資產進行統一建模與實例管理,包括資產的全生命周期管理及資產間的邏輯、物理關系,構建一套統一、權威的資產數據源。
2)監控中心
監控中心負責管理監控目標的監控模型,并通過統一采集、統一管理、統一視圖、統一分析,將機場所有業務系統及相關資源納入監控,并提供統一、多維的監控視圖,幫助運維人員隨時隨地掌握應用和資源的健康狀態,保障業務穩定安全運行。
3)告警中心
告警中心負責管理監控目標的告警模型,基于監控數據進行告警模型分析,推送告警通知并進行閉環管理。支持多種數據源的監控數據分析與靜態規則、動態規則預警模型的靈活設定,并提供多種通知渠道實現預警及時通知,幫助運維人員提前預知問題,從而規避故障的發生。
4)運維中心
運維中心負責日常運維工作,如運維任務工單管理、值班管理、交接班管理、系統自動巡檢等。系統對運維日常工作進行信息化管理,提高了工作效率,規范了管理流程。
5)數據中心
數據中心是系統所有數據的管理中心,匯聚監控、告警、運維業務等全量數據,提供集中治理、關聯分析、共享交換等能力。針對監控、告警、運維業務產生的海量數據,系統提供多樣化的數據存儲方案,同時對數據質量和標準進行把控,保證數據的標準化及權威性。基于海量數據,從多維度進行關聯分析,提取深層價值,應用于運營管理決策支撐。支持數據共享,提供接口、文件、報表等多種途徑的共享交換方式,為上層應用和各級用戶提供靈活、高效、安全的數據支撐。
2 關鍵技術研究與設計
2.1多源監控數據采集
系統集成prometheus、zabbix[4]、elk、skywalking等現有監控平臺,利用其數據采集能力,并結合自研探針、自定義協議、Webhook上報等方式,實現對業務系統、應用服務、中間件、操作系統、硬件設備[5]、基礎設施等資源的運行數據進行全面的采集匯聚[6]。其整體流程如圖2:
監控中心針對資產實例定義監控模型。采集平臺從監控中心拉取監控模型,針對監控模型生成各類監控工具的監控配置,同步給監控工具。各類監控工具按照監控配置執行監控數據采集任務,去監控目標終端采集監控數據,返回采集平臺。采集平臺接收監控工具采集的數據,進行匯聚,存儲入數據中心,用于監控呈現或后續應用。
1)自研探針
自研探針分前端探針和后端探針兩類,前端探針包括Web端SDK、Android端SDK、IOS端SDK、JavaFx端SDK、.Net端SDK5類,分別適配不同語言、平臺下的前端應用,接入方式為侵入式,須在代碼開發階段引入探針SDK,SDK將自動采集客戶端頁面性能、前端頁面異常、用戶行為等數據,上傳至監控服務端;后端探針主要針對Java語言程序,接入方式為無侵入性,在Java程序啟動時以java-agent形式掛載探針,agent將自動采集Java程序內的線程、線程池、內存用量、CPU用量等數據,上傳至監控服務端,服務端支持通過agent對Java進程執行特定的操作,如線程棧轉儲、堆內存轉儲等,流程如圖3:
2)自定義協議
針對攝像頭、門禁、傳感器等現有監控平臺無法接入的設備,采用自定義協議的方式進行數據采集,系統支持常見協議的定義與擴展,如SNMP、ICMP、TCP/UDP等,由采集平臺向監控目標發起相應的協議請求,解析返回數據,清洗后存入數據中心。
3)Webhook
針對已有監控系統,本系統支持外部監控數據的接入。支持自定義Webhook接口,外部監控系統按其數據格式定義上傳數據參數,本系統自動生成Webhook接口,提供數據接收服務。
2.2智能故障自愈控制
系統具備靈活的告警自愈能力,針對服務級別的告警系統將定時自巡檢,實時探測服務的最新狀態,并自動恢復;針對故障級別或來電上報的告警,此類需要人工確認事件的影響范圍后再處理的告警,系統支持通過配置的形式設置告警恢復周期和恢復方式,以便運維人員確認告警的影響。
在運維監控系統的告警集成中,也可以通過配置告警恢復規則,當告警內容中某個字段的值滿足條件時,視為恢復告警。根據該告警的其他字段的內容尋找對應的告警進行恢復。
2.3 智能呼叫中心和一體化事件管理
有別于傳統運維模式下工單管理存在的派單效率低,工作過程不透明問題,智慧運維監控系統可以采用來電彈屏[7]、工作流、智能派工算法等技術,實現IT事件工單的全流程管理和可視化分析,覆蓋從異常事件的發生到歸檔的全生命周期。
1)來電彈屏技術
通過在運維監控系統中集成呼叫中心,基于websocket和sip協議與呼叫中心服務器進行交互,結合業務系統中預存的用戶數據,實現用戶來電快速獲取客戶個人信息和所在位置,幫助運維人員快速創建工單。
2)工作流引擎
工作流是實現運維事件管理的先決條件,有效的事件管理計劃是一個端到端的處理流程,workflow引擎的集成,可以幫助運維監控平臺具備個性化定制工單處理流程的能力,通過模板化定制多個不同的工單類型,覆蓋部門、工種和派單流轉方式,能夠保證系統功能和工單模板與負責部門精確匹配,從本質上帶來服務效率的提升。
3)自動派工算法
運維監控系統具備自動派工的能力,客戶派單人員可按照問題的緊急程度,快速對工單進行分級處理,以便更好地調配人力資源和有針對性地執行任務,系統可以根據故障問題的需求和優先級,自動地將工單請求分配給最適合的運維人員,同時檢索故障案例庫,推薦最合適的解決方案,減少人工判斷和操作,提升整體工單流轉的效率。
2.4 一鍵生成巡檢報告
運維日常的設備和系統巡檢皆人工或者半自動化的方式進行,每次例行巡檢往往需要專人去登錄相關設備,手動輸入巡檢指令,根據命令的執行結果手動捕獲關鍵信息,將結果記錄到巡視本中,設備多的情況下往往重復上述工作,耗時長且不利于巡檢報告的流轉。
運維監控系統提供了自動化的巡檢技術[8],對10+種型號300多個設備進行巡檢,覆蓋常見的10項指標,每日巡檢3次,單次巡檢耗時由1h+,減少到20min;針對6大平臺200+主機的20+指標進行應用巡檢,單應用單次巡檢耗時由45min縮短到5min。
1)設定巡檢規則和計劃
系統結合promtheus、zabbix等開源監控工具,基于metric級別的監控指標,通過可視化的方式,提供巡檢規則的配置和啟用,支持PQL語法格式。巡檢規則的配置是系統實現自動化巡檢的前提條件,巡檢規則的內容包含巡檢項、閾值、通過條件、PSQL語句等,完整的配置結束后,系統會進行語法格式的轉換,以兼容監控工具配置文件的格式,對異常配置會進行實時的提醒。
2)一鍵實施巡檢
巡檢人員根據設定的巡檢計劃,執行巡檢任務,業務后臺將通過HTTP API的形式進行監控接口的訪問和巡檢結果集的抓取,并對json返回值進行格式化重新封裝,對巡檢結果結合巡檢規則進行自動分析和失敗判定,如上述流程圖所示,最終將巡檢結果反饋給前端運維人員。
3)分析巡檢報告并采取措施
運維監控系統會自動上傳采集到的數據,并生成相應的PDF報告。對于采集到的數據和報告,管理人員進行分析,并根據分析結果采取相應的措施。這可以包括設備維護、故障修復或更換等,確認之后進行電子簽名上傳,最終完成整個巡檢過程的閉環。
3 系統開發與成效
系統部分核心業務包含告警大屏,一鍵巡檢等。
1)告警大屏
告警大屏以中型機場IT規模為例,報警及時,可以快速接收故障通知或提前預警,可實現300+服務器的運行態勢監測;實現單服務器200+指標項的數據抓取,500+類型的告警實時監控。
2)一鍵巡檢
自動巡檢按照運維人員日巡檢10個系統30臺服務器,巡檢2次為例,通過系統的自動化巡檢導出報告,替代人工巡檢。原來每個系統巡檢5分鐘,采用工具巡檢,巡檢時間約為10s,效率提升50倍。
通過本系統的應用案例統計,上線本系統,能夠減少90%以上的人工運維工作量;80%以上的故障可以通過預警提前規避;報警準確率、告警響應率均為100%,故障處理時間降低80%。初步計算可以節約客服處工作人員2人、區域內巡視4人、故障處理員2人,每天8人,三班倒共計節約24人,再加上正常休假等情況可節約27~30人,節約大量人力成本,極大提升IT運維效率。
4 結束語
本項目研究的機場業務運維監控系統是集成一體的平臺化產品,是集預警告警、故障處置和運維體系管理于一體的一站式管控平臺,實現多維度數據共享,全流程高度協同,業務流閉環管控,打造面向智慧機場的專業化運維平臺,經過在青島膠東機場和烏魯木齊機場投產驗證,并取得了較好的效果,主要表現在:①資產可視化,可以快速查看資產當前使用情況。②能輔助定位故障,便于快速排查故障。③實現工單閉環,提升運維管理能力。④能集中監控、巡檢系統,減少運維工作量。綜上,機場業務智慧運維監控系統能極大提高機場運維效率及質量。
參考文獻:
[1] 王漢宸.關于機場運維設備的智能在線監測探討[J].機場與航班,2019(14):77-78.
[2] 梁毅.大型機場運維管理模式優化與應用[J].民航管理,2017(11):65-67.
[3] 韓榮飛.大興機場數字化運維平臺IT運維監控管理體系研究報告[J].中國航班,2022(34):12-14.
[4] 陳穎.基于ZABBIX的空管數據中心運維監控系統[J].科學與生活,2021(17):23-25.
[5] 韓嘉騮.機場智能化設備的運維管理[J].中國航班,2021(16):35-36.
[6] 顧佳歡.聚焦:H機場空管設備運維管理系統建設方案[J].機場與航班,2021(1):12-23.
[7] 曹陽.機場綜合運維管理系統設計與實現[J].微電子學,2020,50(4):24-26.
[8] 曾瑩.信息技術在機場運維管理中的應用[J].信息技術與信息化,2020(3):55-56.
【通聯編輯:梁書】