中國農業銀行數據中心 秦冰月 鄭匡慶 閆 濤 楊 欣 楊 帆 潘蘭娜 原洪濤 程戈亮
保持計算機設備安全穩定運行對數據中心至關重要,美國數據中心電力中斷調研報告顯示,在所有引起服務器宕機的原因中,由于冷卻系統失效造成的宕機占33%,并且有逐年增長的趨勢[1]。
造成數據中心冷卻系統失效的一個主要原因是無計劃停電[2]。停電后機房計算機設備由不間斷電源UPS供電而保持運行,計算機設備持續發熱;而空調系統雖然有柴油發電機作為后備電源,但柴油發電機啟動需要時間,因此停電后空調系統會失效一段時間。此時機房溫度驟然升高,直至計算機設備達到極限溫度發生宕機。因此研究空調系統失效時機房溫度的變化及計算機設備的宕機時間(這個時間直接關系到空調系統可用性和連續性冷卻問題,涉及柴油發電機啟動時間及電源后備時間長短等問題),對數據中心系統設計及后期運維應急工作具有非常重要的意義。
造成冷卻系統失效的另一個原因是多臺空調同時故障導致機房冷量不足。目前數據中心大多采用多臺空調冗余配置、備機輪巡的運行方案。單臺冷卻失效時,備用空調會開啟用以保證計算機設備的冷量需求。若某一機房發生多臺空調同時失效,空調系統將無法滿足所有設備負載,這種情況發生的概率極小,但也屬于空調系統失效的研究范疇。了解此工況下計算機設備的宕機時間,對于數據中心運維人員制定冷卻失效應對方案至關重要。
傅烈虎通過研究數據中心冷卻失效引起溫升的速率與機柜功率密度的關系得出:功率密度小于10 kW/機柜時,數據中心冷卻失效后,溫升速率與功率密度基本呈線性關系;機柜功率密度大于10 kW/機柜時,溫升速率與功率密度呈二次多項式關系[2]。在不同的功率密度下,服務器機柜平均進風溫度的溫升速度不同;功率密度越大,服務器機柜平均進風溫度升高得越快[3]。
機房溫升與很多因素有關,拋開機房本身建筑結構與機房功率密度外,還包括機柜通道是否封閉、空調冷卻失效臺數、空調設定溫度、空調冷卻失效部件(壓縮機、風機)等多因素,本文根據上述因素劃定多種冷卻失效場景,利用CFD模擬各類場景冷卻系統失效后機房溫升情況。
本文采用6sigmaRoom仿真模擬軟件進行CFD仿真,它是由Future Facilities公司開發的專用于數據中心CFD仿真分析的軟件。在建模方面,它具有各類數據中心專用模型庫,空調、機柜、計算機設備等模型庫完備。仿真時只需從設備庫中挑選所需設備拖入計算域內,即可完成該模型的建立。大大降低了建模難度,縮短了計算周期。在劃分網格方面,6sigmaRoom按照設備類型,對計算域內的網格進行智能劃分,節省大量的網格劃分時間,劃分后的網格質量較高,滿足計算要求。
計算機設備極限溫度是指設備能維持正常工作狀態的最高環境溫度,超過該溫度計算機設備CPU性能將下降甚至出現宕機的危險。ASHRAE中A3、A4類設備環境溫度要求分別為5~40 ℃和5~45 ℃。數據中心的服務器、存儲器品牌型號眾多,工作溫度范圍也各不相同,表1給出了數據中心某品牌不同型號設備的工作溫度范圍。

表1 數據中心某品牌計算機設備工作溫度 ℃
雖然不同計算機設備的極限溫度存在差異,但主要集中在40~45 ℃,再結合ASHRAE TC9.9[4]中規定設備進口最大允許溫度為32 ℃,因此本文在模擬冷卻失效場景時取32、40、45 ℃進行不同場景的橫向對比,記錄機房冷卻失效時計算機設備進風溫度達到32、40、45 ℃的時間。
本文研究模擬7種常見冷卻失效場景,如表2所示;模擬取室外極端溫度40 ℃的夏季工況,場景1、2、4~6模擬因數據中心電力中斷導致某一機房精密空調19臺全部失效的場景;場景3模擬因室外機局部溫度過高觸發空調壓縮機停機失效、室內風機仍運行的冷卻失效場景;場景7模擬多臺空調同時失效(10臺空調故障)場景。冷卻失效模擬計算包括2個步驟:首先是失效前對機房熱環境進行仿真,這是一個穩態計算結果,機房環境各點溫度不會隨時間發生改變。然后在此結果基礎上進行不同場景冷卻失效計算,這是一個瞬態計算過程,機房內各點溫度將隨時間發生改變,設定每10 s監測1次數據,當計算機設備的最高進風溫度達到45 ℃時計算終止。通過比較計算機設備達到極限溫度的時間,評估不同場景應對冷卻失效風險的能力。
場景1、場景2與場景6研究機柜開放通道、機柜封閉冷通道與機柜封閉熱通道的機房冷卻失效影響對比。
場景2與場景3均為機柜冷通道封閉,區別是冷卻失效時,場景2空調壓縮機、風機均失效,場景3空調壓縮機失效,風機仍運行。空調實際運行時會出現此類狀況,即當夏季極端高溫天氣或空調室外機布局較密集時,室外機局部溫度過高,觸發壓縮機跳機、停機從而導致機房冷卻系統失效,而此時空調室內風機仍保持運轉,維持送風狀態。
場景2、場景4、場景5比較不同空調回風溫度設定值對冷卻失效的影響。
場景7研究多臺空調同時故障,制冷系統無法滿足機房制冷、冷卻失效時機房溫升情況。
選取某機房為研究對象,建立基準模型。機房有11排機柜,每2排機柜構成一個通道單元,機柜間面對面一側形成冷通道,背對背一側形成熱通道,平均功率密度為3 kW/機柜。采用高架地板送風方式,地板高度0.9 m。機房共布置19臺房間級精密空調,其中北側空調間布置11臺,機房內南側布置8臺,采用14臺+5臺運行模式,回風溫度控制。按照上述7種失效場景分別建立失效前基準模型,計算采用K-ε湍流模型,選用軟件默認設置的殘差來控制求解方程的收斂精度。在基準模型達到機房穩態基礎上,設定相應冷卻失效場景,進一步模擬冷卻失效時機房溫升情況。數據中心機房CFD模型見圖1。

圖1 數據中心機房CFD模型
通過在機房中選取若干點進行溫度實測,并將實測結果與模擬結果對比分析,從而驗證模擬結果的真實可靠性。采用溫度自記儀,測量精度為±0.5 ℃,記錄不同位置的氣流溫度。在機房冷通道設備進風側布置12個測量點。為更加準確地驗證模擬結果的可靠性,分別在距離地板0.5、1.0、1.5 m高度進行測量,機房設備布局及測量點位置如圖2所示。位置點的送風溫度模擬結果與實測結果對比如圖3所示。

圖2 機房設備布局圖及溫度測點位置



圖3 仿真與實測對比
由圖3可知,模擬結果與實測結果的溫度偏差為1 ℃左右,誤差保持在6%以內。鑒于模擬結果與實際測量數值的變化趨勢始終保持一致,且誤差在實驗測量允許范圍之內,認為模型仿真結果與實驗測試結果基本一致,基準模型采用的模擬設置正確,此次仿真結果具有較高的可信度,對后續基于此基準模型的冷卻失效模擬研究及模型參數的設置都具有指導意義。
表3顯示了7種不同失效場景的模擬結果。在冷卻失效場景下,計算機設備進口溫度達到其極限溫度的時間主要取決于穩態時計算機設備最高進口溫度,并且受不同場景下機房熱環境和氣流組織的綜合影響。

表3 7種冷卻失效場景模擬結果對比分析 s
場景1、場景2、場景6模擬結果顯示,計算機設備進口溫度達到45 ℃的時間:封閉熱通道(740 s)>不封閉通道(600 s)>封閉冷通道(540 s),說明在抵抗冷卻失效風險能力方面,依次為封閉機柜熱通道、不封閉通道、封閉機柜冷通道。原因是封閉熱通道的機房回風熱氣流更集中,控制相同回風溫度時,送風溫度偏低(即計算機設備初始進口溫度偏低),而不封閉通道機房存在冷熱氣流混合現象,同樣的回風溫度設定值,其送風溫度稍高,而封閉冷通道的機房由于冷量更集中,同樣負荷同樣回風溫度設定值下,送風溫度三者最高,因此計算機設備達到極限溫度的時間最短。用冷池也可解釋此結果,冷通道封閉的機房,其冷池區域為地板下送風靜壓箱和冷通道,冷池面積為三者中最小;熱通道封閉的冷池為除熱通道以外的機房全部區域,冷池面積為三者中最大;不封閉通道沒有明顯的冷池區域,其冷池面積介于兩者之間。圖4顯示了封閉熱通道、不封閉通道、封閉冷通道的溫升對比。

圖4 封閉熱通道、不封閉通道、封閉冷通道溫升對比
場景2與場景3對比:同樣是封閉機柜冷通道,在壓縮機失效而風機運行場景下,計算機設備達到極限溫度45 ℃的時長(1 300 s)遠大于在壓縮機風機均失效場景下的時長(540 s),風機運行相較于風機失效可多抵御冷卻失效風險近13 min。空調系統雖壓縮機失效無法制冷,但風機連續運行,計算機設備能夠充分利用地板下的剩余冷風進行散熱,而壓縮機、風機均失效的場景,計算機設備利用的地板下剩余冷風有限,因此前者抵抗失效風險能力強,后者溫升較快。僅壓縮機失效與壓縮機、風機均失效時的溫升對比如圖5所示。

圖5 僅壓縮機失效與壓縮機、風機均失效時的溫升對比
在機房滿負載運行時,冷通道封閉且精密空調壓縮機、風機均失效的極端情況下,機柜進風溫度分布如圖6所示。




圖6 失效后機柜進風溫度分布(場景2)
場景2、場景4、場景5對比:如圖7所示,3種空調回風溫度設定值下計算機設備溫升趨勢相同,溫升速率與回風溫度設定值基本無關,但由于回風溫度設定值為25 ℃時,機房初始進口溫度更低,當冷卻系統失效后計算機設備達到極限溫度的速度更緩慢。因此,回風溫度設定值越低,抵御冷卻失效風險的能力越強。

圖7 空調在不同回風溫度設定值下失效機房溫升對比
場景7中機房達到計算機極限溫度45 ℃的時間為820 s(約13 min),如果是由于空調壓縮機故障、室內風機故障亦或動力配電柜故障等重大故障引起的多臺空調冷卻失效,在實際運維中13 min內無法徹底解決多臺空調故障、恢復空調運行,因此在實際運維中,需及時處理單點故障,盡量避免多臺空調冷卻失效情況,并認真做好空調系統的定期檢查工作,采用定期備機輪巡機制而避免固定幾臺空調經常使用和固定幾臺空調長期處于備機狀態。
1) 對于中低密度機房來說,在承擔冷卻失效風險的能力方面:
① 熱通道封閉機房強于不封閉冷通道機房,冷通道封閉機房最差。對于本文模擬的某機房,在冷卻系統失效后,設備達到極限溫度的時間三者差距都在3 min以內。采用封閉熱通道方式不僅節能,而且有較好的抵御空調失效的風險,但它對機房的空間要求高,改造難度大;采用封閉冷通道方式改造方便且節能,但抵御空調失效能力弱;開放式通道抵御空調失效的能力介于兩者之間,但不利于節能。因此應充分考慮節能、運維風險、施工難度等因素選取通道封閉方式。
② 空調僅壓縮機失效強于空調壓縮機、風機均失效,風機運行相較于風機失效而言,計算機設備能夠充分利用地板下的剩余冷風進行散熱,前者較后者可多抵御冷卻失效風險近13 min。
③ 回風溫度設定值的升高雖然有利于節能,但一旦空調系統失效,會承擔更高的風險。因此應對機房節能及運維風險進行綜合考慮,根據機房設備布局、空調系統制冷能力等情況,因地制宜設定合理的回風溫度。
2) 本文研究的7種場景達到設備極限溫度的時間都長于6 min,在這個時間段內數據中心的柴油發電機系統及其后級負載設備可以全部啟動,但多臺空調故障無法全部處理,因此對于無計劃停電的冷卻失效風險在安全可控范圍;而對于因多臺空調同時故障導致空調系統失效仍存在風險,需定期做好空調檢查,及時處理單點故障,配置空調冗余運行及定期輪巡工作機制,保障空調系統良好運行狀態。