馬寅生, 丁 昊
(中國建設銀行股份有限公司,武漢 430074)
數據中心的供配電、暖通、給排水、消防、安防等基礎設施系統是保障各種應用業務不間斷運行的基石,但是長期以來相較于IT業務系統,數據中心基礎設施系統的運行管理一直沒有受到應有的重視。武漢生產園區作為中國建設銀行核心生產基地之一,為切實提升防范金融風險能力,針對園區數據中心基礎設施運營管理中的痛點難點,建設了集基礎設施集中監控、運營運維、資產和能效管理等功能于一體的基礎設施運維管理平臺(以下簡稱“DCIM”,Data Center Infrastructure Management),將三維建模、NFC、大數據分析等技術創新性地運用于運維,實現了基礎設施的預防性維護、問題預警、故障處置和結果檢查的全流程管控,對資產設備實現了全生命周期器件級管理。DCIM投用后納管了數據中心基礎設施設備6 300多臺,監控點位81萬點,對UPS、柴油發電機等742臺核心設備實現了器件級管理,使故障點精準定位時間縮短75%,設備故障率降低16%。本文主要研究中國建設銀行武漢生產園區DCIM項目的建設經驗與應用實踐。
目前業內在基礎設施運維管理方面存在的主要問題包括以下四點。
(1)運維管理缺少全局視圖,管理信息割裂。在基礎設施運維方面缺少對管理全局視圖的研究,即使使用了部分運維工具,也局限于解決單個領域范圍內的問題(比如使用流程工具解決流程管理的問題,使用巡檢App解決巡檢的問題),這種分散的運維工具和系統使完整的運維信息流被割裂到不同的系統中,無法從整體對運維工作、質量進行管控。
(2)運維管理的自動化水平較低。相較于IT業務管理,基礎設施的運維事務如維護維修、資產、容量等管理仍依靠手動紙質方式,基礎設施系統如供配電、空調暖通的自動化水平較低。
(3)管理精細化水平不夠,流程使用僵化。受限于基礎設施管理的自動化水平較低,因此無法實現龐大設備資產的全生命周期管理,如對設備實現器件級管理的手段等,難以實現精細化的管理。流程過于繁重,使用僵化,同時流程又沒有與對象和任務執行關聯,導致實際運維操作完全脫離流程本身。
(4)缺少可視化的監控管理工具。因為基礎設施不同于IT設備設施一般位于可見的位置區域,大量的基礎設施關鍵設備設施(如閥門、供電、供水管線等)位于天花板上、地板下甚至地下等隱蔽區域,在沒有可視化監控工具支持的時候,對于故障點、影響區域、關聯系統的快速定位存在較大問題。
為了能清晰的解決問題,數據中心行業內定義了傳統運維向智能運維的變化和演進過程,共分為L0~L4五個階段,并定義了每個階段的典型特征。表1所示為各運維階段主要特點。

各運維階段主要特點 表1
(1)L0 手工運維:無標準運維流程,依賴個人或團隊的經驗,運維質量基本取決于運維人員的經驗和能力。
(2)L1 規范運維:已經形成標準化流程,可以通過培訓等手段對運維團隊循環賦能,但普遍存在部分流程過于僵化或部分實踐游離于流程之外的問題,運維效率較低,對團隊及核心骨干的依賴度很高,運維質量評估難,自動化程度較低,使用簡單監控、自動控制等系統輔助運維。
(3)L2 成熟運維:運維流程趨于成熟,運維質量有較好的保障,但運維效率不高,重視運維團隊的建設,團隊能力通常有較好的延續性,但無法自主優化;輔助系統較為完備,部分核心子系統具備自動化能力。
(4)L3 數字運維(現階段水平):在L2的能力基礎上,建立適用于大型數據中心基礎設施運維管理的運維平臺,將運維各事項納入運維平臺,管理和驅動運維流程的執行,并對各項運維過程數據進行收集,運維質量可以準確評估,運維效率大幅提升;關鍵子系統(如配電和制冷)實現自動運維,AI等機器智能嘗試在節能、故障預測等特定領域進行探索與實踐。
(5)L4 自動運維:基礎設施實現自動運維,重復性的工作(如巡檢等)基本交由自動化系統實現,分析性事務可由人工智能進行輔助決策,運維效率極高,運維流程復雜度大幅下降,運維人員需求大幅降低,基礎設施資源能夠根據IT及業務需求變化動態調整,實現少人值守、無人值守。
結合DCIM系統架構圖(圖1),可以了解如下內容。

圖1 DCIM系統架構圖
(1)運維平臺應是對基礎設施運維管理全領域的納管和優化。不同于一般監控軟件或者其他(如流程平臺等)關注特定領域的管理事項,運維管理平臺應是在梳理清楚基礎設施全部管理領域的基礎上,對全領域進行納管,在此基礎上以資產對象為主線,將運維的完整信息流通過資產管理對象串聯起來。
(2)運維平臺應具備運維過程數據的收集能力,并可基于數據做相應的分析和處理。運維的過程數據(包括監控、巡檢、流程等)是驅動運維工作轉向智能的基礎。
(3)強調計劃執行檢查優化(“PDCA戴明環”,Plan Do Check Action)在平臺的整合。主要是解決管理“最后一公里”的問題,要確保所有的計劃都有對應的執行,執行的情況可以回溯、檢查。運維管理的計劃-執行-檢查-結果處理優化與整個“PDCA戴明環”是不可分割的。通過系統實現閉環管理,并不斷提升執行力,優化工作的各個環節。
在上述的基礎上,建設銀行武漢生產園區通過建設數字運維平臺對數據中心龐大的基礎設施系統和設備進行管理,并進一步進行智能運維的探索與實踐,以下是部分建設內容的經驗總結。
(1)電子巡檢
電子巡檢功能著力解決兩項問題,一是確保巡檢質量。通過NFC卡片確保人員必須到達工作地點,通過平臺對巡檢路線和巡檢時間進行約束,確保巡檢質量。二是提升巡檢效率。通過與后臺監控對接,減少抄表的環節,使單次巡檢的時間減少了40%,同時更多地將巡檢重點放在監控覆蓋不到的地方(比如異味、異響等),同時校驗監控系統,更好地實現巡檢與監控的互補。三是通過系統收集巡檢數據,可以方便后期對數據進行分析和檢查,不斷優化巡檢路線、時間和次數等,提升對設備的預防性維護的能力。
(2)全生命周期器件級資產管理
資產對象是運維平臺的基礎,幾乎所有的運維活動都是針對資產對象(如巡檢、維修、維護、監控等),資產管理既要解決不全面、不精細的問題,也要對運維的信息流進行有效串聯。一是對設備實現器件級管理,消除潛在的隱患。基礎設施系統的核心設備普遍生命周期較長,但是其關鍵部件的生命周期往往較短,以UPS為例,UPS本身生命周期基本是20年左右,但是電容器壽命僅為4年,對這類核心設備實現更精細的器件級管理,在關鍵部件壽命到期后,系統自動提示更換,提升了管理的精細化水平。二是實現設備從需求、采購入庫、使用、報廢的全生命周期管理。考慮到核心設備的生命周期較長,因此需要對從需求到報廢各階段的信息統一納管。
(3)可視化監控
采用可視化監控在出現故障以后可以極大提升應急處置的效率,因為基礎設施系統管理的難點在于系統內部和系統之間的邏輯、關聯關系多而且復雜(比如供配電系統會影響暖通、安防等相關系統),同時系統設備量大,位置分布廣,同時存在關鍵設備與管線處于隱蔽區域。基于這些特點,可視化監控采用二維和三維相結合的方式實現,通過這兩者的結合與互補,可以更全面展現系統的物理、空間和邏輯關系。在發生故障的時候可以迅速從系統和空間層面對故障點進行定位,其故障定位的效率可比傳統的方式提升約75%,故障點的平均定位時間可縮短至1min以內。
表2所示為DCIM平臺應用效果對比情況。

DCIM平臺應用效果對比 表2
運維管理平臺、結構化的過程運維數據和自動化是實現智慧運維的基礎,但后續還需尋找契合AI等技術的運維業務場景。以下是筆者所在團隊正著力推進的兩個方向。
(1)從數據收集向挖掘利用轉變
運維平臺具備了對過程數據的收集能力,在此基礎上應考慮挖掘應用場景,從數據的收集整理向挖掘利用方面轉變。例如數據中心的空調暖通系統由樓控系統進行控制,樓控系統提取制冷系統的運行參數及運行狀態數據后,將數據發送給人工智能平臺,通過人工智能對歷史數據的學習,訓練出PUE優化控制模型。模型固化到推理平臺,推理平臺根據實時氣候條件、IT負載等因素,輸出最佳的控制策略下發群控系統優化制冷系統能耗。
(2)從數字運維向自動運維轉變
AI在基礎設施運維活動中有廣闊的應用前景,特別是在設備故障預測方面。運維平臺具備了對基礎設施數據的收集能力,為AI運用提供了有效的樣本數據支撐,能夠快速訓練出較高準確度的故障預測模型。通過對設備故障的預測,可以把例行的巡檢、保養變成更有針對性的運維活動,隨著預測準確率的不斷提升,最終可以極大地減少甚至取消日常的人工運維。
