岳 備
(上海寶信數據中心有限公司 上海 200949)
伴隨著大數據技術與云計算計算的飛快發展,許多公司都對服務器運維十分重視。一些大型的互聯網計算公司的服務器機房數據中心占地面積越來越大,而且還存在多地多數據中心聯動工作[1],數據中心的平穩運行關系著公司業務的命脈。在數據中心維護中,公司對數據中心也越來越重視,數據中心的供配電、暖通空調、消防弱電等系統日益變得復雜,大量傳感器、智能儀表應用于各系統。通過采集并監控現場各類傳感器和智能儀表數據,并加以分析和處理,能夠有效降低電力成本,減少事故發生率,提高設備運行效率,保障設備機組安全,提高數據中心的經濟效益[2]。
由于大型數據中心采集海量數據,機房維護人員往往難以通過傳統手工模式及時完成數據校核分析,從而導致故障信息無法提前獲取,延誤處理時機,給機房管理工作帶來運營風險。另外,由于一些測量設備隨著運行時間增加而發生測量偏差,也會誤導維護人員對故障和業務容量的準確判斷,從而影響機房運維質量和成本等。針對這些低概率測量誤差設備,采用大面積統一校核不太合適,還會增加運營成本和維護風險[3]。機房維護部門通常把數據校核分析業務外包給各類供應商。由于各類供應商主要針對各自設備單獨校核,工具方法標準不統一,相互間提供校核數據和分析結果就會出現偏差,達不到維護效果,也給機房運營帶來巨額成本。
本文所述校核不是簡單核對的意思,而是指針對尋找和發現大型數據中心所產生數據之間的關聯依附關系,進行比對、校正、匯總、處理和相關性分析,進而發現系統或設備運行規律和趨勢。最終為機房管理者和運行維護人員提供決策依據等系列工作。
大型數據中心現場通過傳感器采集溫度、壓力、真空、熱電偶、熱電阻、電壓、電流、電阻、頻率等運行數據。運行設備根據這些初步采集數據進行一些加工成中間數據[4],如功率因數、功率、有功功率、無功功率、電能、流量、冷量等。環控系統將這些不同設備和傳感器初步數據和中間數據集中匯總。關于這些不同系統、設備和傳感器,本文根據已研究的成果,主要從6個維度進行數據的關聯,分別為上下級關聯校驗、同級左右校驗和歷史前后校驗。(1) 上下級校核:通過校核上下級儀表之間數據,進而發現數據是否異常和運行趨勢。(2) 同級左右校核:通過校核同級儀表之間數據,進而發現數據是否異常和運行趨勢[5]。(3) 時間前后校核:通過校核儀表歷史前后之間數據,進而發現數據是否異常和運行趨勢。
隨著自動化和信息化技術的不斷發展,目前大型數據中心數據將逐漸由手工校核工作向自動化校核的方向發展。本文根據上文數據關聯性研究成果,通過信息化系統自動完成大型數據中心數據統計、匯總、處理和相關性分析。研究如何呈現哪些主要關聯性數據及其處理,從而幫助機房維護人員提高工作效率,降低運維風險。
數據中心服務終極目標為用最低成本提供最好服務。根據行業實際調查結果,大部分機房運營目標主要有兩點:確保客戶業務持續性,即業務和設備運行不得中斷;運營成本有效降低,即降低維護成本和實現機房設備運行節能[6]。為此,數據校核分析系統作為數據中心信息化管理系統的子系統,其建設主要圍饒以上兩個目標開展,即通過實施數據校核分析系統可有效幫助機房維護人員確保客戶業務連續性,并降低運營成本,數據校核分析系統如圖1所示。

圖1 數據校核分析系統
從圖1可以看出,數據校核系統可通過不同層面實現以下目標:通過機房全系統數據校核,可發現全系統運行健康程度、系統隱患和能效,進而幫助機房管理者從整體上把控整個機房運行狀況;通過子系統數據校核,可發現子系統健康程度、系統隱患和能效,進而幫助專業工程師從子系統層而把控其運行狀況,調整和改善子系統運行策略,從而實現機房節能運行;通過設備數據校核,可幫助一線運維人員發現設備健康程度、設備運行隱患和能效,提醒運維人員提前做好設備維護保養、檢修準備[7];通過業務數據校核,可幫助客戶調整和優化實際業務策略,并提高客戶滿意度;通過儀表數據校核,及時發現個別儀表誤差,避免大面積計劃性維護帶來成本。根據上述不同層面數據校核,設計了5個系統子模塊,并與上述目標一一對應。
全系統級校核模塊主要從全局視角關注機房全系統運行數據校核,如圖2所示。涉及機房全系統校核數據主要有兩個輸入變量,分別為IT負載變量和機房環境變量,輸出數據主要有PUE、用電總量、總耗冷量以及之間比較機房EOP。通過校核輸入變量與輸出變量變化,進而提取整系統運行規律和趨勢,從而可以判斷出存在哪些隱患,系統健康程度如何以及能效高低,進而幫助機房管理者做出系統級項目改造和調整。

圖2 全系統級校核模塊圖
子系統級模塊主要從局部關注子系統運行數據校核,主要分為供配電子系統、暖通空調子系統、消防子系統和弱電子系統。本文只介紹暖通空調子系統,子系統校核模塊圖如圖3所示。涉及暖通空調子系統校核數據主要有4個輸入變量[8],分別為IT負載數據、冷機出水溫度數據、末端空調出風溫度數據、室外環境干濕球溫度數據。輸出變量數據主要有:暖通設備總功耗及組成功耗、暖通設備供冷量、冷機EOP等。通過校核輸入變量與輸出變量變化趨勢和規律,幫助專業工程師及時發現子系統存在運行隱患、健康和能效狀況,提前做應對防范措施,調整和優化運行設備及其參數,從而避免故障發生,提高系統能效。

圖3 子系統校核模塊圖
設備級校核模塊主要關注具體設備運行數據,并通過6個維度校核設備之間數據。設備級校核模塊圖如圖4所示。主要數據有:電能、電壓、電流、有功功率、功率因數等。通過上下儀表、同級儀表和歷史數據校核[9],發現儀表數據是否誤差,運行數據趨勢突變規律或異常,進而幫助專業工程師或一線運維人員提前發現設備運行隱患和故障情況,做好提前檢修和維保準備。可通過不同顏色(本文用灰度表示)顯示其偏差,如校核數據按偏差范圍設為三個級別,顯示三種顏色,分別為紅色、黃色、綠色。目前暫定偏差≤±10%區間顯間綠色,±10%≤偏差≤±20%顯示黃色,偏差≥±20%顯示紅色。

圖4 設備級校核模塊圖
業務級校核模塊主要關注客戶機柜及其列頭柜運行數據校核。主要有整個IT機房運行功率、整個冷通道運行功率、機柜電流、電壓和功率、精密空調供冷量、機房溫濕度、精密空調功耗等校核數據[10]。業務級校核模塊圖如圖5所示。通過校核這些數據,并提供相應機柜負載報表,可以幫助客戶及時發現IT設備異常狀況,精密空調運行健康狀況等,進而可以幫助客戶合理調整IT設備負載和空調供冷模式。

圖5 業務級校核模塊圖
儀表級校核模塊主要關注傳感器數據與環控數據之間校核,儀表級校核模塊如圖6所示。儀表級校核模塊主要校核數據有電壓、電流、電阻、頻率、壓力、溫度、濕度、流量計等。現場運維人員通過一些校驗工具,將測量的數據錄入手持終端系統后,系統自動判斷數據偏差,進而幫助一線運維人員工作量,節省運維成本。原先校核方法是:兩名維護人員,一名在現場測量,另一名在監控大廳通過對講機聯系校核環控數據與傳感器,效率較低。

圖6 儀表級校核模塊圖
大型數據中心數據校核由于工作量較大,校核難度高,往往外包給維護商。供應商采用方法往往采用手工校核,采集數據時間一致性存在一定誤差。供應商技術人員經常出入機房且進行大量接觸性操作,給機房帶一些不確定因素,也給管理增加一些難度和成本。采用自動化校核不僅能節省維護外包費用,還能避免一些不必要事件發生。另外,自動化校核通過同時關聯實時數據,引入許多數學分析模型,比逐點校核效率高,且能發現一些系統層面上的問題,系統自動化校核取代人工校核示意圖如圖7所示。

圖7 系統自動化校核取代人工校核示意圖
關于故障診斷與故障預測方法的分類,現在許多方法的標準都是不統一的,基于經驗、趨勢、模型和數據等分類方法也是片面化的方法。本文系統從故障診斷與故障預測的運行趨勢數據出發,依據采集數據校核分析,對眾多的故障診斷與故障預測方法進行歸類分析,形成較為完善故障診斷與故障預測技術。設備健康管理把設備分為三類狀態:健康——亞健康——故障。設備使用壽命是一個由健康——亞健康——故障——報廢,即設備形態與性能由量變到質變的動態過程。設備現行管理和維修的理論、模式、制度是一種被動式滯后性管理。它以設備的故障管理與維修為核心,重點關注設備的故障階段,以被動保養、排故診斷、解體換件維修為基本模式,缺乏對設備在“亞健康”階段的形態與性能的動態劣化和系統平衡紊亂的控制對策。其結果勢必造成無可挽回的能源、備件、人力、時間、生產和產品的損失。因此,設備健康管理是監控的重中之重。本文系統根據設備數據校核分析,診斷系統及設備的健康狀態,為設備健康管理提供決策信息。圖8為冷水機組數據校核分析表,其中深色區域數據已超出其基準范圍,代表設備運行不健康,而淺色區域在基準范圍之內,代表健康。

圖8 冷水機故障校核表
根據校核數據得到的結果,可以給數據中心節能降耗提供直觀科學的依據,為機房查找能耗弱點,促進機房管理水平的進一步提高及運營成本的進一步降低,冷凍機設備動態分析圖如圖9所示。通過數據分析,一方面可以使能源使用合理,控制能源浪費,達到節能減排的目的,節能降耗,創造能源效益;另一方面,可以幫助機房對整個系統進行全面的了解,對各個機房以及主要耗能設備進行實時考核比較,防止能源浪費,并可以幫助機房進一步優化用電措施,以降低單位能耗成本。圖9中關聯了冷卻水出水溫度和冷凝器飽合溫度,當冷凝器飽合溫度與冷卻水出水溫度數據貼合度較近時,表明整個冷機系統換熱效率較高,冷機能效較高。當冷凝器飽合溫度偏離冷卻水出水溫度較大時,表明冷機系統換熱效率差,能效較低,需要清洗冷凝器。

圖9 冷凍機設備動態分析圖
通過校核分析系統研究并實現,可及時發現系統和設備隱患,提前做好檢修和維保工作,從而減少甚至避免事件發生,最終提高機房服務質量和效率。另外, 該系統通過數據校核,可及時發現影響系統能效指標 因素,通過技改或調整系統和設備運行模式,從而達到 節能降耗目標。