孫超 肖文名 陳永濤 曾樂 張小纓
(1 國家氣象信息中心,北京 100081;2 中國氣象局預報與網絡司,北京 100081)
隨著氣象信息化、集約化、標準化進程的加速推進,建立統一數據環境、整合業務應用系統、建設集約共享的氣象云等各項工作都在穩步推進和實施,氣象業務信息化正由技術應用走向工作協同。但是,現有各業務系統監控系統仍然呈現信息孤島現象,上下游監控信息沒有共享,導致運維效率低,正制約著氣象業務集約化健康發展,需根據業務監控和運維需求實施標準化與集約化整合與集中。因此,急需打通氣象綜合業務監控流程,實現業務集中監控、有機融合,構建開放的、全流程、一體化、可視化的氣象綜合業務實時監控系統,提高集約化后的氣象業務運行質量與效率。
目前國內氣象行業的業務監控系統,主要功能是實現對觀測裝備、系統資源、數據收集分發、核心業務運行狀況的監視和運維,如全國綜合氣象信息共享系統業務監控系統(CIMISS-MCP)對數據收集、分發、處理、存儲和共享進行綜合監視和統計分析[1],綜合氣象觀測系統運行監控平臺(ASOM)[2]對天氣雷達、國家級臺站自動氣象站、探空系統和風能等觀測網的運行進行監控。
國外氣象行業的監視系統也是主要圍繞著數據傳輸網絡、數據收集生成、數據質量、觀測設備狀態進行監控,如美國國家海洋和大氣管理局(NOAA)建設了觀測系統監控中心(OSMC)實時監測全球海洋觀測系統的性能[3],歐洲中期天氣預報中心(ECMWF)通過常規觀測告警系統檢測數據可用性和質量問題[4],美國國家環境預報中心(NCEP)的實時數據監測系統(RTDMS)主要監測數據的數量和時效性[5]。
隨著氣象信息化的快速推進,業務高度集約化的發展趨勢對監控系統提出了更高的要求,現有監控系統在監控范圍和技術框架上已經出現了明顯的瓶頸。
1)沒有實現全流程、一體化監控
氣象業務現有監視系統都是獨立開發和運維,監控系統分散且數量龐大,運行維護人力成本高。各監控系統僅監控全業務流程中的獨立環節,無法實現跨業務部門的全業務流程集中監視,監視信息無法上下游共享,存在信息孤島,無法實現面向全流程的業務監視和分析,造成業務故障定位困難,無法關聯分析業務流程問題。
2)數據監控功能不足
現有監控系統普遍側重于基礎平臺及應用進程監視,針對業務應用的數據完整性、質量及時效的監控功能缺乏,同時缺少主動運維管控功能。業界先進的信息系統運維普遍采用ITIL運維流程管理模式,通過流程化的運維管理工具進行信息系統的運維工作。
3)監控系統技術架構難以支撐高度集約化業務精細化監控要求
現有監控系統架構存在與業務系統“耦合過緊”的問題,監控系統故障影響業務系統性能的情況時有發生。而且現有監控系統采用傳統的集中式技術架構,面對精細化的監控需求,日益增長的海量監視數據,現有技術架構的處理、存儲和服務能力嚴重不足。
在電力等其他行業中,對于一體化監控的研究成為熱點和趨勢,如趙世龍探討了電力企業信息系統性能一體化監控管理模式[6];譚軍通過對國家電網公司一體化監控系統的設計,實現了對數據中心內各個智能化系統,包括環境監控、安防、消防、BA、電力系統監控、RFID 資產管理、MMT 氣流與熱場管理等子系統的統一監控管理[7]。
因此,業務監控系統分散運維,正制約著氣象業務集約化健康發展,需根據業務監控和運維需求實施標準化與集約化整合與集中。氣象綜合業務實時監控系統的設計也應面向業務系統、數據、基礎設施資源提供一體化的實時運行監視。
德國工業4.0強調企業信息系統的一體化,所追求的就是在整體業務范疇內實現所有環節信息的無縫鏈接,即所謂“縱橫一體化”,是所有智能化的基礎[8]。氣象綜合業務實時監控系統設計定位于對觀測、信息、預報預測、公共服務及政務管理的“全流程、一體化、可視化”監控,按照“橫向集中、下沉一級、綜合監控”的原則,建立橫縱一體化的氣象綜合業務全流程監控,實現“兩橫兩縱”(圖1)。橫向整合氣象核心業務系統運行監控,整合數據從采集、傳輸、處理、存儲到服務的全流程監控;縱向實現對支撐氣象業務的基礎設施、場地環境全面監控,實現對全國省級數據中心的集中監視。

圖1 橫縱一體化監控設計Fig. 1 Design of the integrated monitoring
實現氣象綜合業務橫縱一體化監控,需打通氣象業務流程、數據流程的各環節,實現信息融合與共享,有助于全面掌握氣象綜合業務的運行狀態,實現故障的快速定位和解決,促進流程優化,并通過海量監視信息的挖掘分析,為氣象現代業務發展提供科學依據。
氣象綜合業務實時監控系統軟件總體框架由接口層、存儲層、處理層、服務層組成(圖2)。
監視源:包括觀測系統、基礎設施資源、數據全流程、業務應用系統、信息安全設施五類被監視源。
接口層:根據規范的接口協議,與外部系統進行對接,采用“推”“拉”兩種方式支持各業務系統監視信息的主動推送和被動采集,并實現控制指令的自動推送。
存儲層:采用大數據技術,實現監控信息的實時緩存、實時指標的高效存儲訪問和歷史日志的永久在線存儲。
處理層:采用流式計算、分布式處理技術,實現指標計算、告警處理、挖掘分析。
服務層:基于生成的監視指標和監視視圖,在運維平臺、展示大屏幕上實現一體化、多維度、由面到點逐級深入的監視展示,實現告警集中發布及運維管理,提供業務報表及監視信息分析服務,實現精細化的資源和運維服務統計或計費服務。
用戶層:包括業務運維人員、業務管理人員、參觀來賓等三類用戶。

圖2 系統技術架構Fig. 2 System technology architecture
監控系統主要功能圍繞監視信息的全生命周期,從監視信息匯聚、分析到可視化監視、集中告警、運維管理、運營服務。監控系統能從不同業務視角綜合監控業務的實時運行狀態,根據業務監控需求進行指標的多維統計分析、業務影響分析等處理,生成監控系統的多級別、多維度綜合性指標、超閾值監測指標和關聯分析視圖;根據業務決策需求,對實時、歷史監視信息進行數據挖掘,提供業務和流程的分析評估管理視圖。同時,監控系統具備集中告警和運維管理功能,具備與業務系統對接,并接入省級數據中心監視指標,實現全國集中監視。
1)監視信息匯聚
根據規范的監控信息采集標準協議,采集來自氣象數據全流程、觀測系統、氣象業務應用系統、基礎設施資源、場地環境、信息安全系統的運行狀態、性能指標、日志、異常等監視信息;對分散的、異構的監視信息進行標準化處理,并存儲到監控信息數據庫中統一管理。不同形式的監視數據的采集方式如表1所示。

表1 監視信息分類及采集方式Table 1 Collection and classification methods of monitoring information
2)監視信息處理
根據氣象業務的監視邏輯對收集的監視信息進行集中處理分析,生成軟硬件層面、數據層面、業務運行層面、信息安全層面的監視指標(表2),反映業務系統的運行狀態,分析基礎設施資源的容量和瓶頸,發現業務和系統的運行問題,對故障進行關聯分析。
3)綜合監視
利用圖形圖表、儀表盤、三維立體展示、實時視頻等多種可視化技術,通過不同的維度和業務視角,靈活、按需的對國省兩級數據中心的監控信息進行綜合展示。實時監視綜合觀測、信息基礎設施資源、數據流程、業務應用系統、信息安全各個方面的運行狀態,全面展示氣象業務流程串接的國家級及各省業務系統的核心監視指標。
對各類資源和業務系統的異常狀態進行告警集中發布,實現告警的壓縮、歸并、顯示、提醒和管理,支持頁面顯示、聲音、短信等多種告警通知方式,能實現從告警到運維派單的聯動,支持基于手機等移動設備的告警分類發布。

表2 監控指標數據分類Table 2 Classification of monitoring index data
4)在線管控
實現基于數據完整性驅動的自動業務調度管理,實現基于人機交互的業務調度和控制;擴展自動化運維場景,支持腳本或可視化的業務編排管理,支持裸機安裝、自動巡檢、軟件部署、文件清理等業務資源管理。
5)運維管理
基于配置建模、發現、維護,形成統一可信的配置管理數據庫,實現對各類資源對象配置信息的生命周期管理;實現運維流程ITIL事件管理、問題管理、變更發布管理、知識庫等管理;實現日常運維操作的服務封裝,通過業務場景編排建立一定自動化運維能力。
6)統計分析
基于實時和歷史監視信息,具備數據挖掘及統計分析功能。根據業務要求,統計分析自動生成各類業務運行報表;根據業務決策需要,提供任意時段、任意維度的監視信息檢索、統計分析及可視化展示功能;根據其他業務系統需要,提供監視信息服務接口,實現監視信息實時獲取。
7)運營服務
通過統一入口受理用戶的服務請求,實現對用戶計算資源、存儲資源、網絡資源的彈性按需分配,實現資源和服務的計費,對運維服務進行多維分析,通過服務清單支持精細化的資源和運維服務。
資源計費的實現需要資源池管理平臺提供的計算資源、存儲資源、網絡資源分配數據、資源所屬業務系統和單位的資源配置數據,然后根據計費規則來統計計算;運維服務統計主要基于運維流程工單數據來進行統計分析。
1)“松耦合”的技術架構
為解決現有監控系統與業務系統“耦合過緊”影響業務系統性能的問題,本系統建設采用“松耦合”的技術架構。監控系統與業務系統的數據庫物理分離,不會產生數據庫性能的互相影響;監視信息入庫通過監控系統提供的接口推送或者主動獲取,從而降低業務系統直接向監控系統數據庫插入監視信息造成的入庫延遲對業務系統的性能影響(圖3)。

圖3 “松耦合”的技術架構Fig. 3 Loosely coupled technical architecture
2)“開放”的系統框架
為實現與氣象綜合業務的對接,監控系統須具備開放的系統框架,具備與現有業務系統及新建業務系統的集成對接能力。對接的核心是提供規范化的監視信息采集和控制接口、以及能支撐各種類型監視信息接入、處理、存儲及可視化顯示的系統框架,以實現系統對接的敏捷擴充(圖4)。

圖4 “開放”的系統框架Fig. 4 Open system framework
3)采用“大數據”技術的技術平臺
現有監控系統采用的是傳統的IOE架構(Intel、Oracle、Emc),面臨快速增長的海量監控數據和復雜的監控功能,IOE架構已疲于應付。為適應業務高度集約化背景下對系統監控在性能和擴展性方面提出的更高挑戰,氣象綜合業務實時監控系統的建設將采用云計算、大數據等新一代IT技術,具體技術平臺及應用設計見表3。

表3 技術平臺及應用設計Table 3 Technology platform and application design
為落實中國氣象局“發展智慧氣象”“全面推進氣象現代化”的工作部署,國家氣象信息中心正在深入打造氣象大數據中心。建立集中管理的氣象綜合業務實時監控系統,將有利于:(1)集中展示氣象大數據中心能力,監控其實時運行狀態,保障大集中模式下氣象業務、服務、管理系統穩定運行;(2)提升智慧氣象時代下大數據中心[9]的運維能力,實現從被動運維階段到主動運維、服務導向階段的轉型;(3)通過一體化監控設計,實現業務信息及業務流程的融合監控,基于海量監控信息挖掘分析業務流程的問題,促進業務流程優化,進一步推動氣象業務現代化、綜合化、集約化發展。
為實現一體化監控,在氣象綜合業務實時監控系統的建設過程中,重點是實現與各業務系統的對接,實時采集業務系統運行狀態信息,與上下游業務流程實現自動關聯,實現業務系統故障或問題的快速定位及解決。同時,逐步實現基于數據完整性驅動的自動業務調度管理、基于作業運行驅動的自動資源調度管理,實現業務在線管控,進一步提高系統運行及運維管理的自動化、智能化水平。
[1]熊安元, 趙芳, 王穎, 等. 全國綜合氣象信息共享系統的設計與實現. 應用氣象學報, 2015, 26(4): 500-512.
[2]李峰, 秦世廣, 周薇, 等. 綜合氣象觀測運行監控業務及系統升級設計. 氣象科技, 2014, 42(4): 539-544.
[3]Bouchard R, Kern K, Hankin S, et al. Observing system monitoring center. IUGG XXV General Assembly. 2011.
[4]Dahoui M, Isaksen L, Bormann N. Monitoring for conventional observation systems at ECMWF. Observation monitoring meeting, 2013.
[5]Kumar K V, Ballish B, Stoudt, J. Real time data monitoring at NCEP.22nd International Conference on Interactive Information Processing Systems for Meteorology, Oceanography, and Hydrology, 2006.
[6]趙世龍, 李姝文, 胡欣. 探討電力企業信息系統性能一體化監控管理模式. 信息化建設, 2016(1): 208-211.
[7]譚軍, 王文亮. 國家電網數據中心一體化監控系統的部署實施. 電力信息化, 2011(10): 93-97.
[8]沈文海. “智慧氣象”內涵及特征分析. 中國信息化, 2015(1):80-91.
[9]沈文海. 向氣象數據中心演進. 氣象科技進展, 2012, 2(4): 53-57.
Advances in Meteorological Science and Technology2018年1期