鄒娟娟
(解放軍新聞傳播中心,北京 100011)
目前,廣電行業各單位業務系統的運行維護依舊采用傳統人工運維的方式。各系統運行普遍處于孤島狀態,被動發現故障的情況時有發生,系統運行的實時數據狀態無法監控和共享。每個系統是由不同的設備廠商搭建,系統的架構也不一樣,并且設備類型也多、設備更新的年代也不一樣,所以在系統維護和問題定位上必然會產生效率低下的問題。而當系統出現問題時,通常的方法是根據故障現象,通過逐一排查解決故障點。這樣的方法會導致診斷耗時費力、無法提供詳實的決策數據、無法快速定位故障點,有時只是在治標不治本。為了解決以上各自為戰、難以管理、分析片面、疲于應付等問題,統一的運維監測監控平臺就顯得尤為重要。
統一智能監測監控系統的建設解決了目前各業務監測系統獨立、數據分散、無法從全局的角度呈現全臺的運行狀態,無法提供有效的故障定位和智能化故障自愈的監控痛點,摒棄了“救火式”、人工盯防、低效率的運維模式。
統一智能監測監控系統整體采用積木式的模塊化設計,可以根據業務的需要進行橫向或縱向的擴容,軟件采用標準的B/S架構設計。系統以“運維實際需求”為原則設計,解決在運維管理中遇到的各種問題。
系統面向IT化設備及機房環境進行監控,根據指定范圍,自動發現可被監控的設備對象以及被監控設備之間的鏈接關系,并形成系統拓撲。事件處理引擎和性能處理引擎分別接收告警信息和性能信息,進行分析,按相關的策略進行邏輯或運算處理,通過統一監測監控平臺及時進行發布和展示。
監測監控系統總體架構從下往上依次分為基礎資源層、數據采集層、匯聚存儲層、分析處理層、業務應用層、展示層、用戶層等七個層次,另外具備接口服務層,方便與第三方系統進行對接。
此體系架構可以實現針對不同監管對象、不同數據的歸一化采集、處理、分析,便于各類事件、數據的過濾、合并、關聯定義、匯總,并對報警進行集中展現,為決策分析提供參考依據。
基礎資源層為被監管對象,各類被監測對象統稱為基礎資源。例如:各類視音頻信號(SDI、ST2110、TS、RF等)、IT設備、AV設備、通用軟件、業務軟件、機房環境等。

圖1 統一智能監控系統架構設計
數據采集層針對系統所有納入監管范圍的IT設備、信號等,部署不同的監測采集器。在監測信息指標數據采集時,被監測設備需開放其標準化或私有化協議,支持數據指標的采集。對于視音頻處理設備,系統通過接口方式接收和適配專業設備廠商網管信息,完成告警和性能采集。
匯聚存儲層是對采集性能指標信息、告警數據、各種規則庫和數據庫的基礎配置等信息進行集中存儲,存儲的數據可以通過管理平臺進行查詢,同時供其他業務模塊進行調用,實現進一步的分析和處理。
分析處理層是依據不同監管對象、不同規則策略,對各種事件、性能數據等進行分析、處理并輸出結果。既可對事件數據進行處理分析,并發出告警;也可對收集到的性能數據進行運算處理,提供用戶化的性能數據。
業務處理層是根據統一監測監控系統包含的不同監管業務進行任務部署、規則配置等,實現基礎數據的配置管理和監管業務的處理。
展示層可對系統告警、監控信號、設備狀態等信息進行統一的展現。重要事件的告警信息還可通過多種形式通知運維人員。
用戶層是面向不同工作崗位,通過訂閱方式提供的個性化監控數據服務。依據用戶權限和角色不同,實現功能區分。
2.2.1 監控對象及范圍
監測監控范圍及對象主要有存儲、服務器、交換機、安全設備等核心業務機房的IT類設備;UPS、機房溫濕度、空調運行狀態、空調或水管下方積水、機柜溫濕度等機房動力及基礎環境;并在機房內合適的位置安裝視頻攝像機,監控人員在機房的活動。
IT設備監控對象包括機房中所有可進行監控設備,包括服務器、存儲、交換機、安全設備、工作站等設備。
2.2.2 監控功能實現方法
針對IT設備的監控主要是對各個設備的性能指標、報警信息以及日志等數據實時采集和越界報警。本系統采用無代理、分布式部署的采集服務器進行響應數據的采集,采集任務和采集策略通過統一的管理平臺進行集中配置管理。
基礎環境監控通過部署溫濕度傳感器對機房的溫濕度進行實時監測;部署水浸傳感器,對可能產生漏水位置進行漏水監測;機柜部署微環境傳感器,實現機柜微環境實時監測,并將所有監測結果上報至統一監測監控平臺。
視頻安防監控是通過部署視頻攝像機對機房及重要位置進行7×24小時視頻監控,并進行錄像。錄像文件長期存儲,通過管理系統可以實現錄像文件查找、回看及下載等。視頻監控攝像機、錄像的管理通過統一監測監控平臺集中實現。
節目信號監錄是對各種信號源內容實時監測、監看和7×24小時收錄,收錄文件存儲至磁盤陣列中,可以通過統一監測監控平臺進行錄像文件的查看、下載和收錄任務的管理等。
對業務機房的UPS狀態、空調運行狀態進行實時監控,獲取性能指標和運行狀態信息上報至統一監測監控平臺。平臺可以設置報警開關和門限,一旦出現越界即產生報警,及時通知相關人員,防止重大播出事故的產生。同時可以借助3D可視化技術實現對機房動力環境、報警信息、資產管理等的三維可視化統一展現。
2.2.3 統一監管平臺功能設計
統一監管平臺具備豐富的功能,其中核心業務功能主要有:
告警管理是統一監控平臺的核心功能,它將系統中產生的事件,按照一定的規則進行定級、分類等處理,最終生成告警信息,并及時通知系統運維人員。在平臺中,還可以隨時查詢歷史告警信息。
性能管理是通過多種協議、標準或接口等方式獲取包括服務器、存儲、網絡設備、中間件、數據庫、動力環境系統等的運行參數和性能指標參數并通過管理平臺進行展示或者報警。系統可以通過樹狀目錄的方式查詢任意一臺設備的性能實時指標或歷史性能指標,性能指標同餅圖、曲線圖、柱狀圖等多種圖標進行可視化展現,提高可讀性。
采集策略及門限管理是根據不同的采集對象和要求涉及不同的采集策略和報警的開關、閾值等。采集策略主要包括采集范圍、采集周期、采集指標等參數,報警門限支持按照每一個參數設置開關和門限,滿足個性化監測要求。
3D可視化是借助面向瀏覽器的成熟3D圖形技術,實現對被監控機房及所有管理對象的虛擬仿真,以完全3D模式構建整個新聞中心環境。可視化子系統通過系統接口與IT設備監控子系統、動力環境監控子系統、安防環境監測子系統等其他監測監管子系統進行對接后,實現多個業務子系統的監控數據、資源及報警信息的等可視化。其主要功能包括:
(1)環境可視化:實現對被監控機房樓層、機房及內部設備位置、信息等的仿真可視化展示。
(2)資產可視化:實現可視化的資產配置管理、快速查詢等操作,支持與配置管理數據庫進行對接,實現資產數據的自動更新。
(3)容量可視化:容量可視化是對機房機柜空間、機柜功率、承重及機柜容量等進行可視化的查詢、統計和展現。
(4)監控可視化:監控可視化是將設備監控、動環監控等相關監控產生的報警信息通過顏色閃爍方式在仿真的對象的機房、設備上進行顯示并可以進行查詢詳細報警信息。同時也支持對設備的性能指標進行實時查詢。
建設統一的智能監測監控系統,可以實現各業務系統設備狀態和信號的監控,將各后臺核心機房的IT設備、動力環境、業務流程等納入統一的管理。建立集中監測展示和報警平臺,可以對業務系統和支撐系統集中進行監測,及早、及時發現問題,消除系統管理盲點,提高整體業務運維能力、事件響應和問題處理能力,防止重大播出事故的產生。