◆文 洮 范瑞龍 趙志威
(甘肅省計算中心 甘肅蘭州 730030)
甘肅省計算中心高性能計算機房于2005年投入建設并使用,位于辦公大樓二層,機房凈空高度3.5m,建筑面積為32.5m2。機房在2009年進行第一次擴容升級之后,其內部擺放一排5個機柜,其中3個機柜集中放置刀片服務器100個,另外2個機柜放置管理節點、磁盤陣列、網絡交換機等設備。隨著甘肅省計算中心高性能計算用戶的不斷增長,對計算資源的需求隨之增加。2017年對機房進行了第二次擴容升級,增加機柜2個,新增刀片式計算節點20個,磁盤陣列存儲100T。2005年至2017年機房內的制冷一直由一臺總制冷量為45.2kW的精密空調完成,另外一臺冗余的5P空調在機房溫度超過35℃時自動啟用。由于計算機設備的使用周期一般為5年,2009年擴容的設備運算速度在2017年已不能滿足大部分用戶的計算需求。因此,在2018年進行第三次擴容之前,本文對該機房的效能進行了分析,不斷增加的計算設備需要更高效的制冷系統,對該機房進行更加合理的規劃從而達到節能目的是本文最終要解決的問題。
甘肅省計算中心高性能計算集群用戶主要來自甘肅省內各大科研院所與高校,計算領域涉及氣象、化學、材料等,集群設備無間斷24h工作,每年運行天數約345天。運行過程中產生大量的熱,安全運行范圍 25℃-35℃。機房幾何尺寸:長×寬×高=9.88m×3.15m×3m,機柜幾何尺寸為:1.1m×0.6m×2.2m,機房內共有1排7個機柜,沿著z方向是機柜正面,機房幾何模型三維示意圖見圖1所示。精密空調采用下送風上回風的氣流組織方式。據機房值班人員日常記錄的數據可知,精密空調送風的溫度一般在18℃-20℃之間,機柜正面的最高溫度是25℃,機柜背面的最高溫度出現過 42℃,都是出現在機柜上部并且是計算刀片密集的部位。

圖1 機房平面示意圖
為了對機房的能耗有一個較為詳細的了解,我們對該機房進行了電表以及電費的數據收集(圖2),通過對數據的分析可知,計算設備和精密空調所占能耗的比例是最多的,分別是 48%與46%,照明設備所占的能耗比例為4%,其他能耗為8%。由此可見,該機房節能的重點應該是計算設備與精密空調。根據日常運行經驗可知,計算設備大多數情況下都是無法避免的能耗,但是也可以通過精準的管理用戶作業來避免一部分計算資源的浪費。另外,還可以通過先進的制冷手段來減少精密空調的能耗,這樣整個機房的節能目標才能實現。

圖2 機房能耗占比
根據機房幾何模型建立相應的物理模型,利用ANSYS ICEM軟件進行模型的網格劃分后導入到 FLUENT中進行模擬計算。機柜內部IT設備的排布情況一般只影響到內部的氣流走向,對機柜外面造成的氣流影響相對較少,因此在模擬過程中不考慮機柜內部 IT設備的排布情況,將機柜看成一個整體來進行模擬,降低了模型的復雜性[1]。
由于機房墻面由絕熱材料構成并且密閉性良好,所以邊界條件設置中機房各壁面為絕熱壁面,精密空調送風口設置為速度入口,空調回風口設置為壓力出口邊界條件,機柜前面散熱量小忽略不計設置為絕熱壁面,熱量主要集中在機柜背面,按照機房面積校核機柜背面的熱交換率并在邊界條件中進行設置[2]。計算收斂條件為:流動方程相對誤差10-3,能量方程相對誤差1×10-6。最終得到的計算結果文件在 FLUENT中進行流場的顯示,可得到如圖3所示的速度矢量圖與溫度云圖。可見在這種計算工況下,如圖3a,從空調送風口送出的冷空氣在接觸到機柜表面后迅速上移,在空調壁面與機柜表面之間的區域形成一個較大的回流區,此刻的冷空氣移動了很短的距離就回到了空調的回風口,并沒有流動到需要降低溫度的機柜背面區域,機柜背面的空氣流動速度非常小。相應的,從圖3b的溫度分布云圖中可見,機房內部溫度非常不均勻,發熱量最大的機柜背面的溫度依然沒有得到有效降低,出現了部分冷熱空氣摻混現象,使冷空氣利用效率降低。該模擬結果與日常機房內檢測的溫度分布數據基本一致,尤其在夏季室外溫度較高,精密空調滿負荷運行時,機柜背面的溫度依然會出現超過 40℃的情況,導致管理人員不得不關閉部分計算節點保證機房的安全,這同時也影響到了用戶完成計算作業任務的效率。

圖3 計算后處理圖
根據以上分析可知該機房目前在氣流組織、機房管理、UPS規劃等方面存在一定問題。
(1)該機房面積較小而且狹長,空調與機柜的擺放不合理,空調送風口的風直吹到機柜鐵皮表面形成一個巨大的渦流,導致冷風不能及時運送到機柜背面發熱量大的區域,大大降低了制冷效果,造成了冷空氣的浪費;
(2)老舊計算設備使用率低、能耗高,缺乏整合資源利用率低的服務器[3];
(3)舊的精密空調壓縮機已超出使用年限,自身能耗較高,增加了運行成本。
近幾年,隨著國家各行業對高性能計算需求的日益增長,數據機房的數量與承載能力也在相應的不斷增加,單機密度越來越大,單機柜最大容量可達15kW/柜[4]。在此情況下,老舊設備的淘汰率不斷升高。因此,該機房2009年購置的老舊服務器需要遷移走,不讓其開機運轉,舊設備上的用戶基本很少提交作業,資源利用率低,如果讓其繼續運行需要很多能耗,管理也不方便。另外,應拆除舊的精密空調,安裝最新的節能制冷空調,降低運行成本,提高制冷效率。
根據該機房實際尺寸可知,其縱向距離較長,橫向距離小,屬于窄長形的小型機房。冷通道封閉技術施工相對簡單,成本較低,適合該機房的改造需求。將舊的精密空調機組拆除后整個機房的空間變大了一些,為了方便今后機房的再次擴容,將機柜的個數增加為9個;另外,每間隔3個機柜安裝1個與機柜外形尺寸一致的行級空調,如圖4所示,空調的送風口在機柜前側,空調為水平送風方式,氣流路徑為后進前出,其將服務器排出的熱風吸入冷卻后吹出;冷空氣再被服務器吸入、排出,如此反復。在機柜前側頂部邊緣與機房側面墻壁之間搭建冷通道頂部,如圖5所示,冷通道出口入口均安裝電動門,冷通道與電動門采用8mm的防火玻璃,隔熱效果較好。這樣整個送風區域形成了封閉的環境,由空調送出的冷空氣被隔離開,不會與熱空氣摻混,提高了冷空氣的利用效率。機柜背面為主要的散熱面,并且精密空調的回風口也安裝在背面側,熱空氣進入空調壓縮機進行降溫后繼續制冷。

圖4 機房改造方案平面示意圖
根據改造前機房氣流組織模擬與實際機房溫度分布可知,若更換老舊設備、增加服務器數量之和仍然采用舊的空調氣流組織方式是不能解決機房局部溫度過高的問題,也不能達到節能降耗的目的。在此基礎上,通過采取“封閉冷通道”或“封閉熱通道”的技術錯說來達到進一步提高制冷效率的目的。采用冷熱通道分離,穩定的溫度確保有效的制冷,并提供持續的高溫回風以更有效的改善精密系統的制冷性能[5]。
采用與改造前機房數值模擬同樣的方法建立物理模型以及數學模型,封閉后的冷通道以及機柜內部的區域不在網格計算范圍內,機柜的背面設置邊界條件為速度入口,行級空調的回風口設置邊界條件為壓力出口,在FLUENT中進行計算。計算后的氣流組織模擬結果如圖6所示,由圖6a可見機房內空氣流動的一個分布,流動區域內沒有出現大的回流區以及冷熱空氣摻混現象,圖6b溫度分布圖中也未出現局部的溫度過高的現象,整個機房內溫度分布較為均勻,有兩處溫度相對較高的位置是因為這兩個機柜內擺放的刀片服務器非常密集。這樣一來,封閉的冷通道完全將冷熱空氣隔離,冷通道內的空調送風方式為水平送風,氣流路徑為后進前出,將服務器派出的熱風吸入冷卻后吹出,冷空氣再被服務器吸入、排出,如此反復。與機柜并列的空調靠近熱源,送風距離大大縮短,從而減少氣流沿程壓力損失和冷空氣的泄露量,提高了冷量的利用效率[6]。

圖5 冷通道安裝平面示意圖

圖6 封閉冷通道之后的氣流組織模擬
目前該機房放置9個機柜,三套獨立運行的高性能計算集群,共計刀片式服務器60余臺、機架式服務器26臺、8路胖節點2臺、管理節點4臺、存儲服務器8臺、網絡交換機數個。空調制冷系統由2臺制冷量為38kW的精密空調來調節機房溫度,實施封閉冷通道方案之后,空調送風溫度穩定在15.9℃,在冷通道外面加裝了1臺制冷量為12.5kW的立式空調作為補充,如圖7所示。根據該機房實際穩定運行后的功率,也就是整個機房實際運行效率維持在 70-80%時,由專業的熱線風速儀測量機柜正面平均溫度穩定在 18℃,機柜背面靠近精密空調的兩個機柜背面平均溫度穩定在 30℃左右,其他距離空調較遠的機柜背面平均溫度穩定在25℃左右,相比改造前機柜背面溫度的40℃降低了大概10℃,并且在2019年夏天室外溫度較高的時間段,機房內溫度也保持恒定,沒有局部溫度過高出現報警的情況。在拆除舊的計算設備以及空調之后,由甘肅省計算中心財務年度支出數據可知,該機房2019年全年的用電量500976kWh,按工業用電價格核算后,一年總的電費約44萬元左右,相比于改造前平均每年的電費50萬元,節省電費6萬元。

圖7 改造后機房實景圖
機房的制冷環境必須與機房內設備運行情況協調才能使整個機房運行安全、穩定,如果不斷更新設備而機房制冷環境得不到改善就容易造成資源的浪費。因此,對于小型機房來說,受機房面積的限制,如果設備過于集中擺放容易造成部分位置出現熱點,增加發生消防事故的概率[7]。在機房的實際運行維護工作中,技術人員應不斷總結方法和經驗,利用科學的方法模擬、預測機房改造后的各種可能性與問題,根據設備情況不斷改進和完善現有的做法,從而選擇最有效、最節能的方法來對機房進行升級改造工作。