茹軍 徐浩
構建智能化的機房運維管理系統,保障機房中的設備高可靠運行,使機房運維和管理在日常工作變被動為主動,將出現的問題做到早發現、早解決,提前預警。
機房是政府機關企事業單位的數據核心和網絡安全重地,是數據中心的物理存放單元,一旦網絡等重要設備出現故障,會導致數據傳輸和存儲出現異常,嚴重的情況下,甚至會導致數據的丟失和一些關鍵設備報廢,產生不可估量的損失。這給機房及網絡運維管理帶來巨大挑戰,完全依靠傳統人工監測、排查已不可行。如何構建智能化的機房運維管理系統,保障機房中的設備高可靠運行,使機房運維和管理在日常工作變被動為主動,將出現的問題做到早發現、早解決,提前預警,提高對網絡設備智能化監控能力等方面值得深究。
建立3D機房運維可視化系統,實現自主運維
調研發現,目前機房日常運維管理存在著幾個主要問題:一是無法實時掌握關鍵設備的運行狀態,導致出現網絡中斷、網絡服務停止等情況無法及時處理。二是機房管理工作不到位,容易產生人工誤操作造成機房設備損傷和損壞。三是機房管理存在安全隱患,可能出現因環境或人為破壞因素對機房設備產生破壞。四是管理工作繁瑣,沒有統一管理平臺,管理人員不能有效地管理機房設備。
基于以上原因,建立一個直觀、高效的機房運維管理系統變得非常迫切。因此,為探索機房的3D可視化智慧監管,浙江省林業信息宣傳服務中心針對以上問題“開展3D機房運維可視化系統”試點建設,通過采用3D虛擬現實技術,在三維環境中構建機房環境、資源、設備和監控管理信息的機房運維可視化平臺,實現對機房和各類設備的智能可視化管理。管理人員可一目了然地掌握設備的運行狀態及當前各項性能指標、業務運行狀況、資產使用情況、IP地址使用情況等信息,從而實現主動式、自動化、統一化的運維工作方式,為機房智能化監管的探索解決方案。
打造機房智能運維系統,提升智慧預警
打造機房智能運維系統,需要建立一體化監控、統計報表、故障管理、評估優化、大屏整合管理等五大系統。
監控體系是整個機房運維系統的核心。監控系統能對其多個因子實現集中監控和管理,實現24小時無人值守,節省人員財力。有告警時可以根據告警的不同級別,通過不同的顏色標識告警的設備,在告警的設備上懸浮顯示告警圖標,并能查看具體的告警信息。同時可以實現短信、郵件等多種方式結合發送,保障運維人員能夠實時獲取異常信息,系統將會告警通知到對應運維人員,確保告警得到及時處理。
與以往人工巡檢相比,一體化監控系統主要有兩大優勢:其一是故障告警實時性提高。以往人工巡檢為每天4次,無法實現24小時不斷巡查,往往要在接到求助電話后才去排查,并花費時間去查找故障位置。而通過監控系統,設置的輪詢時間為1分鐘,即當設備、網絡出現故障后,最晚1分鐘就可以監測到故障位置并短信報警。其二是故障檢測時間減少。以往用人工檢測的話,每個設備需要大約30秒,總共需要15分鐘左右。而通過監控系統系統巡檢,只需要登錄設備狀態頁面,就能一眼看出設備總體狀況
統計報表體系提供了運行狀態報表、流量報表、故障報表等內容豐富的報表模板,可以從資產/資產組、性能指標、時間段三個維度進行選擇,生成自定義報表。報表以柱狀圖、餅狀圖、表格、趨勢曲線圖等形式展現,并且可以pdf、word等文檔形式導出,為運維管理工作總結、改進決策、編寫報告,提供客觀、詳細、全面、可靠的數據支撐。
故障管理功能可以通過SNMP、NetFlow、WMI、SSH、Telnet、JDBC、API等協議,實現對主流廠商服務器、交換機、路由器等設備的關鍵指標進行365×24小時集中、統一監控。監控內容包括:設備概覽(IP地址、接口總數、版本信息、響應時間、系統可用性、CPU利用率、內存使用率等),網絡狀況(上傳速率、下載速率、接口狀態),告警(告警統計、告警列表),日志(日志分析、日志查詢),TRAP等;
設備監控功能可以對監控對象的關鍵性能指標的閾值進行靈活設置,系統會將監控到的性能數據與設定的閾值進行對比分析,在第一時間內將故障位置和故障詳情通知運維管理人員,并記錄其相應的告警事件,做到事件可追溯。運維管理人員及時發現和分析設備故障,及時排除設備故障,幫助擺脫被動式的運維局面,保障機房運維過程有據可依。
監控平臺支持日志分析評估功能支持日志全文檢索和關鍵字檢索,可以根據指定時間范圍內,對日志內容、日志級別進行統計與分析。通過評估優化體系使得運維人員可以在定期的時間內發現不足的地方,更好地優化網絡配置。
大屏展示系統提供設備類型統計視圖、告警統計視圖、響應時間視圖、流量排名視圖、TopN等綜合視圖,為運維人員清晰、直觀地展現運維數據,快速了解設備的整體運行狀態,實現隨時瀏覽機房的日常情況。
構建三維可視化管理體系,助力智慧監管
以三維虛擬仿真的最佳形式實現對機房的真實展現,體現其各類保障能力,實現基于三維環境對其運行情況進行實時監控,構建一個立體式、可視化的機房綜合管理系統。
機房環境可視化仿真。根據機房實際布局情況建立全三維的完整場景,包括機柜安裝布局擺放情況、配線橋架的走向、靜電地板、玻璃隔斷、機房門及配電設備、空調設備、UPS、監控設備環境等輔助設施布局擺放情況都按照實際位置、品牌、樣式在系統中展示。
設備資產可視化管理。根據機房設備資產情況,進行3D建模,實現在三維可視化環境中進行設備上下架操作,運維人員能夠像在真實機房對設備上架一樣,在三維可視化系統中預演設備上架過程,設備上架后,設備的型號、房間名、機柜、U高等基本信息能夠自動關聯,自動賦予上架設備基本的屬性信息,實現設備資產上架、下架、遷移的自動化管理。同時,提供歷史跟蹤和查詢記錄,完善信息資產管理檔案。
機柜容量可視化展示。對機房的U位空間進行以3D形式做可視化展示,用色彩分割展現不同容量范圍的機柜空間,并能對查看范圍內的U位空間容量進行統計,顯示總空間、已用空間和使用率等指標。
動環情況可視化監控。動環監控可實時監控機房的精密空調、功耗、溫濕度等信息,在3D設備上展示精密監控數據和告警數據,自動統計機房總功耗容量,目前功耗狀況及剩余容量。管理員可依據監控情況調整精密空調運行方式,有效降低PUE值,推進節能降耗。
配線走向可視化管控。配線走向可視化管控能夠管理各種網絡設備、服務器間的所有的配線關系。根據設備的跳線數據自動通過算法繪制網絡三維鏈路,以動態的三維效果呈現整條鏈路的連接情況,實現機房配線管理的可視化。該功能極大方便了運維人員進行網絡拓撲調整、網絡故障排查等工作。
機房虛擬漫游。機房虛擬漫游實現機房3D實景虛擬漫游,在三維場景中第一人稱視角瀏覽數據中心全貌,可以不用進入機房就能夠瀏覽其場景結構布局,掌握設備信息。
在機房運維管理過程中如何及時發現運行風險,是運維管理工作關心的永恒話題。3D機房可視化系統可以提前發現問題,給出告警,并且準確在三維場景中定位故障設備位置。通過完善的監控系統可以大大避免很多故障,同時在事后故障分析中,3D機房可視化監控系統的各種技術參數和記錄依然是可供分析的重要資料,通過對這些監控記錄很可能可以找出故障的原因。
隨著信息化技術的不斷迭代更新,機房智能化監控能力需不斷增強,進一步提升機房運維管理水平,使運維管理工作越來越完善。浙江省林業信息宣傳服務中心將基于現有調研及探索建設成果,繼續深入研究3D虛擬現實技術在智慧機房中的應用,以智慧化機房安全監管,切實推動林業信息化、現代化、智能化進程。
(作者單位:浙江省林業信息宣傳服務中心)