蔡幸波, 祝可穎
(浙江德塔森特數據技術有限公司,寧波 315000)
隨著數字新基建的啟動,以及5G和邊緣云技術的普及,智能微型數據機房建設數量日益增長,大量數據機房處于二十四小時不間斷運行狀態。通過對智能微型數據機房需求的調查,筆者發現,數據機房建設地理位置較為分散,有些分散建設在城市各棟大樓中,還有些建設在海島、高山等偏遠地帶,存在數量大、規模小、地遠分散、人員管理不便等情況,造成機房運維人力成本高、管理困難、安全性低等問題。智能微型數據機房邊緣云綜合監控系統能夠提高機房的管理效率,減少運維費用,使機房運行更安全高效。因此,構建一套完整的智能微型數據機房邊緣云綜合監控系統(以下簡稱“綜合監控系統”)是十分有意義的。
綜合監控系統設計是計算機技術、通信技術、自動化技術、人工智能技術的融合。管理人員可遠程對機房設備進行監測、控制和管理,實現對機房高效便捷的運維。綜合監控系統自身具備高可靠性和智能處置能力,遇到機房故障自主采取及時有效地處理,方便機房管理人員留有充足時間趕到現場更換設備進行維護。2020年國家標準GB/T 51409-2020 《數據中心綜合監控系統工程技術標準》發布,因此綜合監控系統的設計在遵循國家相關標準的基礎上,更注重突出智能微型數據機房分布式、無人值守、邊緣云運維的需求特性。
綜合監控系統采用模塊化設計,實現了模塊的獨立性,達到了快速部署、降低運維成本的目的。系統各模塊設計雙活互備同時具備健康監控功能,實現了系統的高可靠性,能夠在降低成本的同時,實時保障監控系統穩定高效地運行。通過遙測、遙信、遙控、遙調和實時報警管理,實現對機房供配電模塊、冷量模塊、安防模塊等基礎設施運行狀態的實時監控并記錄歷史數據,通過IT設備的SNMP協議和IPMI接口,實現機房IT設備的參數查看、工作性能跟蹤和日志分析等功能。通過遠程集中監控技術,結合智能聯動參數配置,使設備智能化,遇到設備故障,系統能夠在第一時間做出基本判斷并處理,減少故障損失。
綜合監控系統由機房監控系統和邊緣云平臺兩大系統構成,前者由數據采集模塊和智能管控模塊兩部分組成,后者由數據傳輸模塊、動環監控模塊、IT設備監控模塊、3D可視化監控模塊和數字化運維模塊五部分組成。綜合監控系統由多個單點機房監控系統構成并分布式部署,圖1所示為系統組成示意圖。

圖1 邊緣云平臺綜合監控系統示意圖
整體系統具備如下特點。
(1)部署方便,運維成本低:系統整體采用模塊化設計,降低了系統的復雜程度,每個設備可作為單獨的模塊,系統整體可上機架安裝,僅需占用機柜1U高的空間,可簡化系統調試,方便設備實施安裝及維護拆卸,從而減少人工費用,降低了運維成本。
(2)安全可靠性高:系統軟硬件采用模塊雙活互備實現了高可靠性,當任一模塊的服務停止時,由另一模塊接管,以保證機房監控服務的正常運行。系統對機房設備運行異常實時檢測,遇到故障迅速告警且對基礎故障進行智能判斷處置,確保機房健康穩定高效運行。
(3)管理高效率:系統通過遠程集中監控、3D可視化管理和數字化運維,實現邊緣云平臺智能集中管控,實時監測整個數據中心機房的運行狀況、智能事件記錄和聲光語音報警,簡化機房管理人員的維護工作。
智能微型數據機房數量眾多且區域分散,設計要求機房監控系統安裝維護方便,系統可靠性高,具有機房異常智能聯動處置能力,滿足機房無人值守需求。
機房監控系統硬件采用一體化控制板設計,數據采集模塊和智能管控模塊的硬件設備設計在一塊PCB板上,以簡化配件安裝,減少連接線,提高硬件設備的可靠性。硬件系統的CPU選用工業級ARM處理器,操作系統選用成熟的開源操作系統或符合國家安全認可的操作系統,如烏班圖系統或麒麟系統。系統具有雙電源輸入,控制板設計雙網口,內置短信電話報警裝置。具體模塊設計如下。
(1)數據采集模塊設計
數據采集模塊的軟硬件設計都需考慮冗余特效,以保證系統的可靠性。在硬件端口設計時,可采用多個RS232、RS485以及DI信號采集端口,2個標準以太網口,考慮工程接線通用性,端口全部采用標準RJ45接口。在軟件功能設計時,數據采集模塊設計支持Modbus、SNMP、Web Service、BAC net、IPMI、OPC等多種標準化協議和接口。
通過Modbus和SNMP協議采集機房基礎設施的空調、配電、UPS、智能PDU、溫濕度、煙感、水浸等設備,同時可對空調、配電、UPS、智能PDU等設備進行參數配置。通過SNMP協議和IPMI接口采集并管理服務器、交換機、存儲等IT設備。
采用Modbus RTU協議的多個采集設備可以設計成Bus總線方式與數據采集模塊連接在一起,以提高系統可靠性,也支持設計成環網方式與數據采集模塊連接。
(2)智能管控模塊設計
智能微型數據機房的智能化不僅僅體現在可通過Web端與手機App來控制設備,即軟件與設備之間的聯動,還可以在邊緣云集中監控平臺設置告警聯動,實現設備與設備之間的智能聯動。具體實現方式如下。
1)“軟件-設備”聯動:在保證軟件和設備已經成功建立通訊的情況下,通過Web端或手機App上相應的提示操作發送控制指令,系統軟件做出安全分析判斷后將獲取到的命令信息傳給設備做出相應動作。如當冬夏季環境溫度變化,管理人員可以遠程根據需要設置和關閉空調制冷。此外,在智能化安防方面,當有人在門口呼叫時,可以通過系統遠程控制球機的轉動,以調整監控視角,確認人員后可在系統上遠程控制門禁設備開門。
2)“設備-設備”聯動:系統實時采集機房設備和環境的數據,當一項或多項監控數據達到預設的聯動閥值時,系統可以觸發反向控制命令,通過SNMP或Modbus協議經數據采集連接線或專用設備控制接口,向機房設備傳遞一個命令。如當遇到雷電等異常天氣,可觸發系統上防雷設置的告警閾值,系統通過聯動設置關閉受雷電影響的設備;當空調異常時,可觸發聯動設置中的告警閾值,打開應急風扇并關閉相關基礎設施和IT設備。
智能管控模塊設計的“軟件-設備”及“設備-設備”的智能聯動,實現了智能微型數據機房在無人值守的情況下,能夠第一時間處理機房的異常情況,減少機房的意外損失,極大地提高了機房的可靠性。
為進一步提高監控系統自身的可靠性,機房監控系統采用雙活設計,支持熱備方式部署,其設備連接網絡拓撲圖如圖2所示。

圖2 智能微型數據機房監控拓撲圖
考慮Modbus等采集協議在同一時間點只支持一臺上位機采集數據,設計兩臺互備的機房監控系統做心跳檢測和工作時序控制,確保數據采集不會單點重入,當單點出現故障時,也不會遺漏任何時序的采集點數據。
納入邊緣云平臺集中監控的機房節點數量較多,要求邊緣云平臺具備高可靠性、高可用性、高安全性。邊緣云平臺各功能模塊采用分布式多點冗余熱備設計(圖3),在達到數據中心監控系統雙活設計目標的同時具備負載均衡功能,以滿足邊緣云平臺幾十萬機房監控節點的高并發接入需求。

圖3 邊緣云平臺模塊分布式冗余結構
邊緣云平臺需具備開放性、易維護和可擴展性,平臺設計采用微服務架構,各模塊間信息傳輸采用消息中間件。具體模塊設計如下。
(1)數據傳輸模塊和存儲設計
智能微型數據機房分布區域廣,網絡連接條件受限,存在部分機房節點短時間斷網的可能性,設計數據傳輸模塊有數據傳輸斷點補全功能。考慮智能微型數據機房在實際建設中往往在不同時間段分批次投入應用,設計數據傳輸模塊能快捷規范對接機房節點,后續機房節點加入平臺對系統整體集中監控不產生影響。
設備監控數據實時采集處理后不再需要修改,設計采用時序數據庫存儲監控數據。系統平臺信息需要增/刪/改維護及高安全性,設計采用關系數據庫存儲平臺信息數據。
(2)動力環境監控平臺設計
動力環境監控平臺會將UPS、供配電、精密空調、智能PDU、電磁閥、漏水、溫濕度、消防、門禁、視頻、防盜報警、蓄電池、新風等子系統集成在一個動力環境監控平臺上進行節能優化、集中控制管理。不僅包括對智能微型數據機房的能耗數據監測、統計和能效優化建議,還提供優化調節控制系統,進行有效的智能節能優化控制。展示界面能清晰地展示當前數據機房整體能耗狀況、PUE等關鍵能效指標,可實時顯示關鍵子系統的能效分布狀況,查詢任意時段的能效歷史曲線。
監控平臺設計3D仿真監控功能,具備機房3D建模、設備和數據3D展示、在3D界面故障定位和自動巡檢,支持在同一個瀏覽器窗口中查看機房、微模塊、機柜的3D視圖,可以真實展示UPS、空調等基礎設施設備安裝位置。
(3)IT設備監控平臺設計
IT設備監控平臺設計包括服務器設備系統、存儲設備系統、網絡拓撲系統、數據庫系統、中間件系統等進行實時監控管理。以上各子系統集成在一個IT設備監控平臺上進行集中控制管理,滿足“集中監控、集中維護、集中管理”,為用戶直接提供與應用相關的集中監測的能力、手段和工具。
IT設備監控平臺實現對在各個機房運行的服務器、存儲設備、網絡系統、設備以及安全系統等的監測和管理:可以對IT運維系統網絡節點進行遠程配置,并能實時監控各節點的性能狀態,一旦出現故障便能自動及時報警;能夠進行高度的自動化管理,盡量減少人為干預,避免由于人員操作不當引起的系統故障;幫助IT運維系統管理人員采集、統計和分析來自網絡各方面的報警信息和故障信息,準確預警、定位網絡中的故障,出現網絡故障時可以快速響應,同時為系統的長期規劃提供統計依據。
(4)數字化運維模塊設計
邊緣云平臺提供數字化運維功能,對智能數據機房日常運維活動進行智能化管理,設計功能包含:資產管理、電子巡檢、運維知識庫等。
資產管理設計支持各類基礎設施及IT設備,包括機架、服務器、存儲、網絡設備、UPS、PDU、空調等設備,并呈現一個資產統一視圖。系統支持全局的設備查找定位,可根據模糊條件進行設備檢索。查詢條件支持基于設備名稱、設備型號、位置、序列號、條形碼、安裝日期等設備屬性。
電子巡檢設計支持移動App巡檢功能,可在手機等移動終端上處理機房巡檢等事項;支持機房巡檢計劃制定與路線規劃;支持用戶設置巡檢任務;支持生成機房巡檢類報表,并發送給相關人員。
運維知識庫包括基礎設施和IT設備運維知識庫,大多數常見問題及其解決方案都可以從知識庫中簡單、方便獲取,提升工作效率,降低設施設備維護成本。系統關聯資產管理模塊中的設備分類,支持自定義設置各類設備標準操作內容、操作步驟和安全注意事項。
