張建雪,侯曉雯,王 青,張慧玲,夏 潔
(中國移動通信集團內蒙古有限公司,內蒙古 呼和浩特 010000)
隨著云計算、大數據、人工智能等技術的發展,各大企業的數字化建設逐步向數智融合方向轉型,數智化已經成為更高的轉型發展要求。在此背景下,針對目前數據中心基礎設施管理(Data Center Infrastructure Management,DCIM)系統存在的數據處理、分析、聯動能力不足等突出問題,結合數據中心運維人員對DCIM系統最迫切的需求,如全景可視、自動運維、智能運營以及能效自動調優等,探索DCIM系統升級方案,依托智能化系統進一步提高數據中心的運維質量與效率,實現DCIM價值最大化[1]。
DCIM系統主要對數據中心動環設備、互聯網技術(Internet Technology,IT)設備、安防設備以及消防設備等專業關鍵設備的重要信息進行統一采集,實現集中監控和管理,其基礎功能一般有告警管理、統一視圖管理、報表管理、工單管理、能耗管理、容量管理以及資產管理等[2]。
DCIM系統通常被定位為數據中心的決策者和管理者,通過將數據中心各個子系統統一管理、綜合規劃,協調各子系統之間的相互聯動關系,同時能夠全局處理分析、資源共享,為數據中心提供有力的科學決策支持,有效提升數據中心的管理效率,控制運營成本[3]。數據中心DCIM系統架構如圖1所示。

圖1 數據中心DCIM系統架構
目前,隨著數據中心建設數量、建設規模越來越大,各大數據中心基本均建有各自的DCIM系統。由于系統廠商、系統功能等水平參差不齊,導致DCIM系統與現場運維工作的融合度不高,除了數據和告警能夠集中化監控外,大多數DCIM系統并沒有達到運維人員預期的智能化監控和管理效果,DCIM系統并不完全適合業務需求。
1.2.1 缺乏從全局視角考慮問題
目前,DCIM系統管控的基礎設施主要是電源、制冷設備等,并沒有納管IT設備、安防設備、消防設備等專業設施,缺少從全局角度反映數據中心上下游整體的運行狀況。例如,當發生業務中斷故障時,要想確認是動環設備的問題還是IT設備的問題,只能依賴人工電話溝通IT中心確認[4]。此外,為了調取就近的攝像頭查看故障現場實時畫面,還要再登錄安防監控系統。
1.2.2 數據挖掘能力不足
DCIM系統作為數據中心上層的綜合系統,數據集中度較高,但是對海量數據缺乏足夠的全局分析能力。一旦需要分析具體異常點或者數據變化的原因等,系統無法自動化、智能化輸出分析結果和建議,數據挖掘能力嚴重不足,海量數據價值無法真正利用起來。
1.2.3 機柜資源使用及規劃過度依賴人工
目前,大部分數據中心的機柜資源管理仍然處于依靠人工的粗放管理階段,機柜資源浪費情況嚴重。DCIM系統現階段僅針對變壓器、通信電源等基礎設施實現了資源及容量實時監控,對機柜資源的管理還沒有較為成熟的功能模塊普遍應用[5,6]。
基于上述情況,本文將數據中心DCIM系統轉型重構路徑分為輔助運維階段(L1)、部分自動駕駛階段(L2)、有條件自動駕駛階段(L3)、高度自動駕駛階段(L4)以及完全自動駕駛階段(L5)共5個階段。
輔助運維階段,系統能夠實現部分電子化和數字化運維工作,能夠減少人工巡檢內容,同時實現能耗實時監控。
部分自動駕駛階段的系統標準化流程比較成熟完備,系統能夠實現部分自動化分析工作,并通過人工智能(Artificial Intelligence,AI)技術識別啞設備狀態,基本能夠取消大部分日常人工巡檢工作。同時,系統能基于規則對電源使用效率(Power Usage Effectiveness,PUE)進行優化。
有條件自動駕駛階段的系統對標準化流程進行持續優化,系統具備通過AI主導部分重點運維工作的能力。利用AI技術能夠對設備運行過程中出現的問題進行智能診斷,基本不需要人工分析,同時能實現能效自動優化。
高度自動駕駛階段的系統實現了自動運維,使基礎設施資源自動與IT及云業務實現協同,通過AI技術對設備健康狀態進行預測并提前發現問題,具有較強的適應性。
完全自動駕駛階段的系統能夠自動感知、自動調整,幫助數據中心實現真正的無人值守。系統能夠智能預測業務需求,實現智能協同,達到最優運行狀態。
根據目前DCIM的發展,大部分數據中心DCIM系統處于輔助運維階段(L1),個別數據中心DCIM系統已經達到部分自動駕駛階段(L2)。DCIM系統數智化轉型路徑如圖2所示。

圖2 DCIM系統數智化轉型路徑
根據上述DCIM系統數智化轉型路徑,結合實際運維經驗,提出以下5個DCIM系統轉型方向。
3.1.1 全局可視
DCIM系統必須集中統一監控全專業基礎設施,對接入指標統一標準化管理,實現數據中心全覆蓋監控,同時通過建立數據中心樓宇、房間、設備、管線等3D仿真模型,全鏈路展示供電、制冷、網絡等關鍵部件和系統的拓撲結構。系統支持自定義重要指標和展示形式,有效幫助運維人員縮短故障定位時間,全局掌控數據中心運維現狀。
3.1.2 BIM數字孿生
將DCIM系統與建筑信息模型(Building Information Modeling,BIM)融合,實現運維與設計、交付環節的無縫對接,使得運維基礎數據更加精準。同時,系統支持一鍵式生成3D運維模型,大幅縮短交付周期,幫助運維人員實現全生命周期的精細化管理。
DCIM系統應具備告警智能分析能力,通過傳感器、采集器、信號傳輸處理服務器整個鏈路的上下流關聯關系,精準識別告警之間的相關性。基于故障關聯樹實時屏蔽無效的次生告警,自動分析出源頭告警,快速定位各類設備的故障,評估故障影響范圍,大幅縮短故障響應與修復時間,輔助運維人員進行決策。
以配電鏈路智能分析為例,通過配電鏈路分析可以智能分析出受影響的鏈路范圍,了解到哪些設備會受到影響,并在配電圖上直觀呈現出來,實時顯示近24 h的歷史數據,便于用戶評估故障嚴重程度。同時,根據設備關聯關系自動屏蔽次生告警,僅顯示設備的根因告警,便于用戶快速識別并制訂處理措施,縮短故障處理時長。
針對數據中心基礎設施,利用AI大數據分析與預測技術提前進行故障預測,降低故障率。目前,一般可以劃分為設備級預測和鏈路級預測兩種。
3.3.1 設備級預測
設備級預測主要對某些特定設備進行故障預判,例如配電柜溫度、斷路器健康度、落后單體蓄電池等。以配電柜溫度故障預測為例,通過在配電柜安裝溫度傳感器,檢測配電柜母排溫度、開關溫度、端子溫度等。預測模型如圖3所示。

圖3 配電柜溫度故障預測模型
模型中的負載率(電流)、環境溫度、端子溫度以及插框溫度之間呈正相關關系,將這些溫度測點當作先驗條件,采用機器學習的方法通過AI預測找出配電柜在正常工況下的溫度。當測試運行時配電柜的某些支路實際溫度超過正常預測溫度,實際溫度高出AI預測溫度越多,那么隱形故障的風險越大。
3.3.2 鏈路級預測
根據全鏈路運行情況進行故障預判,以供電鏈路開關參數整定為例,開關層級多,整定過程人工分析費時、易錯且無法實時匹配負載波動。DCIM系統支持在線整定,即開關鏈路系統自動生成,系統自動根據上下級開關整定值進行判斷,能夠有效避免參數設置不合理而導致的開關越級跳閘供配電故障。供電鏈路開關參數在線整定過程如圖4所示。

圖4 供電鏈路開關參數在線整定過程
DCIM系統通過應用機器學習、人工智能、AI等較為先進的技術,實現對海量數據的分析和處理,得到對生產運維有利的信息或結果。運用AI及大數據分析節能新技術,根據負載、溫度等信息調節冷機、水泵、冷塔,實現PUE智能優化,具體包括同頻控制尋優、最佳水溫建議尋優、制冷模式尋優、數量尋優、功率尋優以及蓄冷控制尋優等。
數據中心機房存在大量的機柜和IT設備,DCIM系統可以基于當前情況對機房進行三維建模分析,優化當前機房的氣流組織,針對局部熱點等問題給出合理的解決方案。基于三維模型仿真分析,對室內空調進行升溫仿真預測,告知運維人員當前機房溫度可提升的空間,以達到降低數據中心PUE和節能的目的。
空調設備運行數量優化的原則是使機房或微模塊內運行的空調設備總制冷能力與實際需求基本匹配。結合數據中心機房內的IT能耗分布、空調設備布局及氣流分布均勻性等實際情況,給出合理的空調設備運行優化方案。此外,DCIM系統支持實現數據中心統一的空調末端群控管理,根據機房的負荷變化自動控制空調的冷量輸出,實現節能運行。系統按照群控功能規則,完成對空調群控機組的調度工作。
DCIM系統按設備型號進行最佳機位搜索,可以自動關聯設備模型庫中的設備型號、功率、U位高度以及承重信息等,在用戶指定的區域內查找可用的機位信息,為需要上架的設備提供推薦方案。此外,DCIM系統還可以按預留容量、機柜進行最佳機位搜索,結合設備數量、客戶類型、預留連續空間間隔等因素,為需要上架的設備提供推薦方案。對于推薦上架的機柜,需要給出具體理由;對于可以上架但是不推薦的機柜,需要提供是哪些因素造成了影響;對于不能上架的機柜,需要提供具體不能上架的原因,從制冷、配電、網絡及物理容量等角度進行分析,確保用戶知情決策。
結合數據中心實際運維經驗,討論了目前數據中心DCIM系統的發展現狀及存在的問題,并給出了相應的DCIM系統重構發展路徑與重點研究方向。DCIM系統未來發展中,利用大數據和AI等先進技術深入挖掘數據價值,開發更加強大、實用、高效的分析處理功能模塊。只有基礎功能和高級功能均完善,才能真正發揮出DCIM系統的最大價值,有效實現數據中心自動化轉型。