馮佳麗
(中國石化石油物探技術研究院 地球物理信息中心,江蘇 南京 211103)
隨著信息技術的提升和普及以及大數據的處理需求,計算機系統設備數量與日俱增,各大機構、企業紛紛建成現代化信息機房,并配備了相應規模的電池室與配電室等。中心機房中存放了大量的硬件、軟件以及數據資產,采用高速網絡與各個辦公設備相連通。其中IT設備的運行離不開穩定可靠的電源系統和良好安全的機房環境[1]。為保障機房設備的安全穩定運行,需要確保與之配套的機房動力系統、環境系統、消防系統以及安保系統時刻穩定協調。如果機房動力及環境設備出現故障,那么輕則影響業務,重則造成系統癱瘓[2]。
傳統的機房維護工作主要靠工作人員值班看護,需要對機房及其配套設備間內的各類設備進行巡查,發現問題后迅速報告處理。這種方式有很大的局限性,無法保證能夠第一時間發現機房設備工作過程中的問題,而且在人員配置方面也是一種消耗[3,4]。因此,通過技術手段實現365×24 h不間斷監控與異常情況告警顯得非常必要,動力環境監控系統能夠實現中心機房的集中監控、統一告警、集中管理,對機房動力和環境進行實時監控,提高運維人員工作效率,及時消除設備隱患,實現機房的科學管理[5,6]。
數據中心機房設備往往分批次采購,涉及十幾個廠家,如艾默生、中興、華為以及英維克等。其結構、通信協議等也各不相同,部分廠家帶有監控工具或監控頁面,能夠展示某批次設備的運行情況。想要了解機房整體動力環境情況,可能要逐個登錄十幾個動力環境監控系統網管,有告警發生時,也無法及時傳遞給運維人員。各廠家監控系統數據孤立,缺少關聯,形成信息孤島,同類設備或同區域設備難以集中進行關聯分析與應用,無法支持決策。
針對中心機房的動力系統和機房環境,需要對機房內的供配電設備、不間斷電源(Uninterruptible Power System,UPS)、蓄電池組、母排柜等動力系統的運行情況以及機房的空調運行情況、溫度、濕度、煙霧、水浸等環境量實現遠程監測功能[7]。動力環境監控系統需要通過數據采集、傳輸、存儲、分析,實現多級或多區域網管,使無人職守成為可能。動力環境監控系統還可實現中文圖形化人機界面的操作,實現對機房總體監控及局部監控,提高管理效率。
要建設動力環境監控系統實現集中監控統一管理,需要監測的主要對象包括以下幾點。
(1)空調。空調作為機房必配設備,其主要功能是制冷,保持機房內的環境溫濕度在一定的范圍內,為設備的可靠運行提供保障,包括精密空調和列間空調。所需監控內容包括設備的開關機狀態、出風溫度、出風濕度、回風溫度、回風濕度、壓縮機工作狀態、電壓、液管溫度、吸氣溫度、吸氣濕度、壓縮機運行狀態、電加熱功能開關狀態、告警情況以及告警閾值等。
(2)配電設備。低壓配電進線柜也稱為市電進線柜,市電(電力網)供給機房使用的電能,其電力參數是重要的監控對象,監測一級、二級交流配電柜的主回路和各分回路。所需監控內容包括配電箱運行狀態、三相電壓、三相線電壓、三相電流、電流百分比、支路電流、負載情況、告警情況以及告警閾值等。交流電源分配列柜簡稱列頭柜,為各網絡機柜提供電源動力支持,集中提供電源管理。其遙測信號有主備路交流三相電壓、主備路交流三相電流、有功功率、無功功率、視在功率、電度數、支路電流以及支路功率等;遙信信號有主備路總開關狀態、支路開關告警狀態、輸出過流、輸出電壓以及防雷器故障等。
(3)UPS。UPS為機房內重要的供配電設備,是一種含有儲能裝置的不間斷電源(連接多個電池組),主要用于給計算機、計算機網絡系統或其他電力電子設備(如電磁閥、壓力變送器等)提供穩定、不間斷的電力供應,保證系統的穩定不間斷運行,避免硬件損壞及軟件數據的丟失。當市電輸入正常時,UPS將市電穩壓后供應給負載使用,此時的UPS相當于一臺穩壓器,同時向電池組進行充電;當市電中斷(事故停電、維修停電)時,UPS利用電池的電能進行轉換,向負載繼續供電,從而使負載的IT設備維持正常工作并保護軟、硬件不受損壞[8]。UPS需監控的主要數據有三相輸入電壓、直流輸入電壓、三相輸出電壓、三相輸出電流、輸出頻率、輸出功率、同步狀態,供電模式以及故障告警等。
(4)蓄電池組。蓄電池組由多個電池單體組成,每個電池單體在質量及放電使用不一致,導致電池組損耗與壽命長短不一。通過電池組監控,可以對各電池單體電壓及總電壓、總電流、電池表面溫度等使用狀況進行實時監控,一旦發現某個電池單體發生故障,則可以及時修復或更換,避免造成更大損失,同時節省了更換整套蓄電池組的開支。需要監控的內容包括蓄電池組的狀態、總電壓、總電流、電池剩余百分比、單體電池容量、單節電池電壓、單節電池內阻以及單節電池溫度等。
(5)智能電表。需要監控的內容包括運行狀態、三相電壓、三相線電壓、三相電流、三相有功功率、三相視在功率、三相功率因數、平均電流、平均電壓、系統有功功率、系統視在功率、正向有功電能以及告警狀態等,并根據監測數值計算出耗電量數據。
(6)機房環境。需要監控的內容包括溫度、濕度、水浸以及煙霧等。機房內的服務器、交換機等重要數據設備和通信設備對溫濕度具有嚴格要求,超過允許的溫度范圍則可能會造成設備的不穩定工作或數據損壞。通過安裝智能溫濕度傳感器(RS485溫濕度傳感器)能夠實現對機房溫濕度的監控。通過安裝漏水傳感器發現,機房最容易出現漏水的地方為空調附近,在空調的安裝地板下面安裝線式漏水感應傳感器,主要監控內容為溫濕度、浸水位置以及告警狀態等。
(7)網絡。中心機房中通常有多套集群、存儲、高性能服務器,這些設備采用分級的網絡交換機進行連接,保證辦公設備能夠使用這些計算存儲資源,因此交換機的運行情況也是監控對象之一。監控內容包括交換機端口狀態、中央處理器(Central Processing Unit,CPU)利用率、內存利用率、傳感器溫度、出口流量以及入口流量等,并形成網絡拓撲圖,全面了解機房主要交換機間的連接及網絡傳輸情況。
動力環境監測系統設計遵循的原則包括可靠性、適用性、開放性以及可擴展性。系統建設應采用通用技術,形成一個開放、通用的系統,適用范圍廣,支持不同廠商設備的連接,滿足第三方系統的數據對接。系統運行需要具有高可靠性,保證數據傳輸可靠,并具有連續無故障運行的能力,數據庫應具備快速存儲和檢索能力以及良好的歷史數據存儲機制[9]。嚴格按照模塊化結構方式開發以滿足可重用性及可擴展性,支持容量的擴展和功能的擴展等。各模塊間開發標準接口實現數據交換,依照標準進行注釋,系統功能及代碼應易于維護、易于發現和定位故障。
被監控對象按采集方式可分為智能設備和非智能設備兩大類,智能設備本身配置傳輸控制協議/網際協議(Transmission Control Protocol/Internet Protocol,TCP/IP)及一定的數據采集能力,并帶有智能接口,可以與上位機通信;非智能設備本身不具備數據采集和處理能力,需要增加傳感器、變送器以及采集器來完成數據采集和上報[10]。
本文根據區域配置了一體化采集裝置,通過RS232、RS485總線就近連接非智能的動力環境設備,形成小范圍的集中采集單元,再由各個采集代理將數據匯總至數據庫。所選用的一體化采集裝置有6路智能設備接口,能夠進行協議轉換,采集實時數據。智能IP設備則直接形成采集單元。研發基于通用協議數據采集代理程序,進行實時數據采樣并傳輸數據入庫;研發數據聚合轉化程序,對數據進行分析和處理,形成歷史數據與衍生數據。通過服務后端編寫接口供前端調用數據,在監控大屏上展示各類動力環境數據及重要告警信息。動力環境監控系統架構如圖1所示。

圖1 動力環境監控系統架構
本文中建設的動力環境監測系統主要功能有數據采集、機房動環系統大屏總覽、場地監控、設備監測、告警以及事務處理,具體內容如下。
(1)數據采集。一體化采集器與設備建立連接,進行解碼,采集、存儲大量的監控數據,并在后臺異步進行聚合,形成多種尺度的監控大數據集。(2)機房動環系統大屏總覽。展示機房三維布局、溫場分布、溫濕度、UPS剩余電量等關鍵的實時信息以及耗電量、負載率、能耗占比等統計數據。(3)場地監控。實現3D機房及2D機房功能,能夠了解機房整體布局、設備位置情況、溫度分布以及冷通道位置等。(4)設備監測。包括網絡交換機監測、智能電表監測、母排監測、UPS監測、空調(列間空調、精密空調)監測、漏水監測等。(5)告警。根據機房管理標準及管理需求,對告警閾值進行設置,系統根據設置范圍自動生成告警信息,并根據告警級別形成工單。(6)事務處理。告警形成工單,自動發送給相應的運維管理人員,收到工單后遠程或現場處理問題,填寫解決方法,完成工單。
本軟件實現了對中心機房所需配電柜、智能電表、UPS電池組、母排柜、精密空調、列間空調、網絡交換機、溫濕度傳感器、水浸以及煙霧等設備的全面監控,使得運維管理人員能夠快速了解所有動力環境設備的運行情況,并及時獲取告警信息,進行巡查處理,保障設備運行安全。減輕了機房管理人員的工作壓力,實現了中心機房動力設備遠程監控功能。此外,以數據為依據,可統計分析當前機房各個主要部分(如空調機組用電、UPS自身用電、照明用電、集群用電等)的能耗,并且通過餅狀圖、柱狀圖、折線圖等方式顯示出來。還可輔助采購決策,優化中心機房整體布局、通風系統、電氣系統、布線系統、機柜布局,形成最優的動力環境配置,提高能源效率,建設環保綠色低碳機房。