李程貴,王 瑊,張建雪
(中國移動通信集團內蒙古有限公司,內蒙古 呼和浩特 010000)
隨著互聯網+和云計算業務需求的飛速增長,數據中心的建設逐漸呈現向超大規模、高度集中以及綠色節能的方向發展。目前,數據中心機電工程設計和土建工程設計已經有了國家標準《數據中心設計規范》(GB50174—2017)和Uptime Tier國際標準。《數據中心設計規范》(GB50174—2017)將機房劃分為A、B、C共3級,級別依次降低。Uptime Tier國際標準將機房劃分為TierⅣ、TierⅢ、TierⅡ、TierⅠ共4級,級別依次降低。一般來說,A級相當于TierⅣ-或TierⅢ+,B級相當于TierⅢ-或TierⅡ+,C級相當于TierⅡ-或TierⅠ+[1-2]。國家標準《數據中心設計規范》和Uptime Tier國際標準給出了數據中心機房的建設要求,明確要有智能化控制系統,但是對數據中心智能化控制系統的建設標準和系統架構沒有明確的指導,導致機電工程硬件已經到達了較高級別,但智能化監控系統的建設卻級別較低,數據中心的冷源BA控制系統問題尤為突出。
目前,中國移動(呼和浩特)數據中心已經建成3棟機房,均為國標A級。圖1是中國移動(呼和浩特)數據中心冷源系統示意圖。
從圖1可以看出,數據中心的冷源系統裝配了大量配套設施,包括管路、閥門、冷卻塔、風機、冷水機組、板式換熱器、分集水器、蓄冷罐、冷卻水泵、冷凍水泵、蓄冷泵、水源熱泵、電伴熱、補水泵、排污泵、集水坑及相關各類傳感器與執行機構等,組成了3套冷機系統。這些設施的有效運行和故障監控全部依賴數據中心的冷源BA控制系統。
BA控制系統作為數據中心集中式水冷系統的控制大腦,重要性不言而喻。單套系統承擔著超過1 000個機柜、超過15 000臺服務器的制冷要求[3]。數據中心冷源BA控制系統結構如圖2所示。
本控制系統采用4層網絡通信結構[4]:第一層為現場采集層,由冷源系統的各硬件組成部分組成,提供監測控制點,包括送排風系統、污水坑系統、集成冷水機組、集成蓄冷罐以及集成水源熱泵機組等;第二層為系統接入層,采用DDC(Direct Data Controller)控制器及I/O模塊或網關連接底層設備;第三層為系統控制層,控制設備NAE(Enhanced Network Communication Equipment) 互 聯, 采 用BACNET通信協議,用于連接控制設備(DDC及I/O模塊或網關),并進行邏輯運算和下發決策控制命令,NAE設備則通過TCP/IP協議接入BA智能化監控服務器;第四層為系統顯示層,使用TCP/IP協議,用于連接系統服務器、工作站及第三方系統。

圖1 中國移動(呼和浩特)數據中心冷源系統示意圖

圖2 數據中心冷源BA控制系統結構示意圖
中國移動(呼和浩特)數據中心一期工程的DDC、NAE和BA服務器組網結構,如圖3所示。
從圖3可以看出,一棟機房樓包括制冷站的30個DDC控制器串聯在一條總線上,一旦其中某個DDC設備接線端子故障或者DDC之間的連接線故障,將導致下端相連的DDC均無法正常工作,進而引發DDC下端設備的失控。

圖3 數據中心冷源BA控制系統組網示意圖
同時,單體機房樓和制冷站僅配置1臺NAE設備。當單臺NAE軟件故障、硬件故障或者NAE到上游交換機的鏈路故障或者到DCC方向的總線故障,冷源BA控制系統將無法正常使用,甚至造成制冷系統失控或中斷,存在較大的安全風險。即使此時的冷機系統是2+1保護,供電系統是1+1保護,若BA智能化控制系統處于失控狀態,將無法控制現場制冷站內的多臺高壓冷水機組、水源熱泵機組、循環水泵、冷卻塔以及管路閥門等一系類設備,即機電配置的A級因智能化監控的低等級而無法發揮設計時應用的保護作用。
數據中心冷源自控系統來源于傳統的樓宇自控系統(Building Automation System),針對數據中心運行特點,對系統架構和控制邏輯進行了深度的定制化。經調研多個數據中心發現,冷源系統機電硬件建設是A級或者TierⅢ+,而智能化監控智能層級僅僅是B級或者TierⅡ甚至更低,導致監控故障頻發。而大型數據中心通常采用集中制冷系統,一旦集中制冷系統出現問題沒有被及時發現和及時處理,將造成整個數據中心高溫宕機。數據中心的冷源BA控制系統管理的大量制冷設備啟停、閥門切換、模式切換以及故障應急切換等,一旦BA控制系統故障或者癱瘓,將不能有效、及時地發現現有機電硬件的各類故障,從而可能導致大故障發生。
分析近年數據中心故障情況,智能化BA控制系統的層級不匹配對數據中心的穩定運行構成了隱患,存在的主要問題可概括為以下3個方面。
用SPSS 20.0統計學軟件分析研究數據,t用于檢驗計量資料,即(±s),x2用于檢驗計數資料,即[n(%)],P<0.05差異有統計學意義。
目前,A級數據中心的冷源系統從市電配置、變配電配置、冷機、循環水泵以及管路等配置方面均要求有備份保護[5],但為其建設的冷源BA控制系統沒有要求,所以目前的建設方案中存在大量的單點隱患問題,如單串行總線、單控制器以及電閥門單DO(Direct Output)控制等。當一棟機房的串行監控總線有一點故障時,將導致大量制冷設備失控;當BA系統單控制器故障時,群控系統同樣會失控。
BA控制系統測點到DDC控制器、NAE或者網關到服務器,往往是單條鏈路。當鏈路中的網線、交換機、路由器、尾纖以及光纖有任何一處故障,甚至電磁干擾大、光纖衰耗大等,都會造成智能化監控系統斷鏈。據不完全統計,一套監控系統有上千個故障點或者場景能夠導致智能化監控系統斷鏈退服。
數據中心機電配置規范基本形成,明確了各類機電設備的保護要求和方案。但是,冷源BA控制系統目前沒有有效的、明確的方案,僅能發現一處故障及時處理一處來盡可能減少故障時長。但是,有些故障定位難度大、故障時間長,有些故障需要更換備件,而備件采購周期長,造成了一段時間的監控盲點。
綜上,迫切需要一種大型數據中心高可靠性冷源BA控制系統架構指導數據中心BA控制系統的建設。本文以A級數據中心為研究對象,提出一種大型數據中心高可靠性冷源BA控制系統優化方法,建議數據中心進行機電設計時同步設計與機電保護級別一致的高可靠性冷源BA控制系統,包括高可靠性冷源BA控制系統架構、BA控制系統設備供電可靠性優化和BA控制系統網絡保護優化。國標A級大型數據中心機電設施按容錯系統配置,同樣A級數據中心的冷源BA控制系統也應該按照容錯系統配置,以保證冷源系統在運行期間不因單次設備故障、外電源中斷、維護和檢修導致電子信息系統運行中斷,從而為國標A級大型數據中心冷源BA控制系統設計或者改造提供參考。
以中國移動(呼和浩特)數據中心一期工程為例,高可靠性冷源BA控制系統優化方法的具體實現過程包括以下3個方面。
以中國移動(呼和浩特)數據中心的集中制冷系統為例,每棟機房配置了N+M(B01/B02/B03機房是2+1)保護的冷機系統。每套冷機系統保護高壓冷水機組、循環冷卻水泵、循環冷凍水泵、冷卻塔、板式換熱器和管路閥門等一系類設備。這些設備必須都正常可控,這套制冷系統才能協調一致地正常工作。若這些設備分散由不同的NAE控制,或者一臺NAE控制多套冷機系統組件,那么一臺NAE故障時,多套冷機系統不能運行。同樣,一臺NAE控制3套制冷系統的不同部件時,一旦該NAE設備故障,則3套制冷系統均無法正常工作,從而導致制冷站冷源中斷,機房高溫宕機。因此,每套系統的各個組件都應該由一臺NAE控制,N+M套制冷系統應配置N+M臺NAE控制設備。中國移動(呼和浩特)數據中心每個樓的2+1保護的冷機系統需要配置3臺NAE,同時將原來的1條總線結構變更為4條總線結構,第4條是機房的各類消防排風機和新風風機等。任意某臺NAE故障時機房的制冷系統還有2套可用,能夠保障數據中心的穩定運行。優化后的數據中心高可靠性系統示意圖,如圖4所示。
從圖4可以看出,高可靠性BA智能化監控系統把制冷站和機房的各個DDC進行分類,將控制同一套系統的一組DDC串接在一條總線上由一臺NAE控制,以保障監控的保護級別和機電配置的保護級別一致。
控制系統服務器通常只有一路UPS保障供電,存在單點隱患,可靠性不足。如遇供電中斷,將導致整個制冷系統癱瘓。設備DDC沒有UPS保障供電,如遇市電停電,管路閥門及控制系統均無法正常工作,也無法對下端設備發出任何指令。停電后管路閥門停止,再次來電時閥門需要先關閉再打開。如果DDC掉電而管路閥門有電時,管路閥門將直接關閉,導致冷凍水或者冷卻水水流中斷,存在較大隱患。
所以,冷源系統的冷水機組控制電源、電動閥門、DDC以及NAE等重要設備負荷均需要接入UPS,防止控制電源在市電供電一旦中斷,冷機啟動所需時間延長,制冷系統停止運行,造成機房高溫。圖5為數據中心BA系統DDC供電示意圖。
本文提出將現有冷源系統的冷水機組控制電源、電動閥門、DDC以及NAE等重要設備負荷均接入UPS不間斷電源,將單電源設備接入由2臺UPS組成的“1+1”UPS并機系統,將雙電源設備接入由2臺UPS形成2N甚至3N的UPS保護系統,以提高冷源系統相關控制組件的供電可靠性,如圖6所示。
通常,冷源BA控制系統現網中DDC控制器-NAE控制設備的網絡連接,NAE控制設備-BA控制系統服務器的網絡連接,BA控制系統服務器-監控中心網絡物理單鏈路連接,同時BA服務器到數據中心綜合管理平臺也是物理單鏈路連接,網絡安全存在巨大隱患。即使上述穩定性提高了,但是冷源BA控制系統網絡如果存在隱患,整套冷源BA控制系統的可靠性還是難以保障,為此本提案提出了對冷源BA控制系統網絡保護優化。
現網中采用單個10GE端口對接,存在安全性低和帶寬不足問題。本提案提出采用鏈路聚合、設備主備冗余或者設備負載分擔等方式,在兩個匯聚或者核心的設備之間加強鏈路的健壯性。鏈路聚合、設備主備冗余或者設備負載分擔的物理鏈路要求是物理不同路由,即不同的敷設方式、不同光纜以及不同波分系統等,避免存在單點隱患。
一種大型數據中心高可靠性冷源BA控制系統優化方法,在中國移動(呼和浩特)數據中心應用后,對現有冷源BA控制系統架構進行了優化改造,實現流程如圖7所示。

圖4 數據中心高可靠性BA智能化監控系統示意圖

圖5 數據中心BA系統DDC供電示意圖

圖6 數據中心高可靠性BA系統DDC供電示意圖

圖7 數據中心冷源BA控制系統優化流程圖
優化改造后進行全量驗證。模擬某制冷組故障,系統是否自動切換至下一組,直至切換到可用的制冷組。制造NAE故障、DDC故障、單鏈路網絡故障以及雙路市電斷電場景,驗證群控系統是否正常,釋冷泵是否正常啟動。制造冷機群控系統斷電場景,驗證系統閥門管路是否能夠狀態保持。結果表明,冷源系統穩定性大大提高,方案滿足預期要求。
本文提出了高可靠性的智能化監控架構理念,數據中心進行機電設計時要同步設計與機電保護級別一致的高可靠性冷源BA控制系統,提升網絡安全性。為從規劃設計源頭打造低成本、高效率的數據中心,數據中心將該方案的要點及時提交集團設計院,經評審多個要點由集團設計院寫入《中國移動數據中心機電工程建設指導意見V3.0》,用于指導數據中心存量機房機電工程的擴容、新建,同時為同行業國標A級大型數據中心冷源BA控制系統設計或者改造提供參考,具有一定的指導作用和實踐推廣價值。