于傳波, 張泉*, 鄒思凱
(1.湖南大學土木工程學院, 長沙 410082; 2. 華東交通大學土木建筑學院, 南昌 330013)
人工智能、物聯網等計算密集型技術的發展,對服務器CPU算力提出了更高的要求。為滿足算力要求,芯片晶體管密度不斷加大,導致服務器功率增加,散熱需求增大,進而使數據中心能耗提升[1]。目前,中國數據中心能耗占中國總用電量的1.5%,其中空調系統能耗約占40%[2]。降低空調能耗是降低數據中心能耗的重要舉措。傳統的機房精密空調采用彌散式送風,存在冷熱氣流摻混和冷量的浪費[3]。在冷源側,研究者通常采用天然冷源(湖水[4]、海水[5]等)和水側節能[6]自然冷卻技術,取得了較好的節能效果。在末端側,研究人員首先采用冷/熱通道封閉的方式改善氣流組織,研究表明,封閉冷通道后數據中心的回熱指數(return heat index, RTI)相比封閉前提升了0.1,使得冷熱氣流摻混問題得以解決[7]。但由于房間級冷卻的送風距離長,且空氣的比熱和密度較小,當機房平均發熱密度超過6 kW/機柜,房間級冷卻便難以滿足高效的散熱要求[8]。對此,研究人員進一步開發了機柜級、芯片級以及浸沒式冷卻系統,由于將液態載冷劑送至熱源附近,冷量輸配效率和散熱效率更高。但芯片級末端采用冷板對CPU散熱,系統結構復雜,使得設備費用高且維護困難[9]。而浸沒式冷卻為防止冷卻液腐蝕電子元件,對于冷卻液和電子元件的要求更高,增加了設備成本[10]。相比之下,機柜級冷卻系統可以縮短送風距離,消除局部熱點,可直接安裝在機柜后門處,不需要對機柜和服務器改動,更適用于普通數據機房的建設和老舊機房的改造。機柜級冷卻系統早期主要采用水作為載冷劑,存在單相換熱效率低和泄露可能損壞服務器的問題[11]。因此,目前機柜級冷卻系統常采用制冷劑作為載冷劑,采用分離式熱管作為機柜級冷卻系統末端[12]。由于采用潛熱換熱,可以提高冷水的供水溫度,提高了對自然冷源的利用率。東江湖數據中心部分機房采用了分離式熱管系統,并采用湖水冷卻,全年平均電源使用效率(power usage effectiveness, PUE)為1.18[13]。海蘭信海底數據中心采用海水冷卻分離式熱管系統,其PUE為1.076[14]。采用自然冷源冷卻后,數據中心運行能耗顯著降低。
目前,研究人員對分離式熱管系統的換熱器結構[15]、制冷劑類型[16]、充液率[17]等結構參數進行了研究分析,提高了分離式熱管系統的換熱性能。為進一步降低分離式熱管系統的運行能耗,部分研究者對高換熱性能的分離式微通道熱管系統的送風參數對換熱性能的影響展開了研究。張泉等[18]和Ling等[19]根據實驗數據建立了分離式微通道熱管換熱器的一維穩態換熱模型,研究了風量在1 500~6 000 m3/h 時,對熱管系統制冷量的影響,闡明了換熱器的冷卻能力和風量之間的關系。張泉等[20]還建立了適用于低風量、低負載的分離式微通道熱管換熱器的數值模型,分析了在200~1 400 m3/h風量下,服務器排風溫度對換熱器換熱性能的影響,結果表明適當提升排風溫度可增加熱管換熱器的換熱性能。鄭振[21]通過實驗研究了風速對換熱器換熱性能的影響,實驗發現當風速從2 m/s提升到4 m/s時,系統的單體當量換熱系數從21 W/K提升到了56.2 W/K,風速對微通道熱管換熱器換熱量的提升作用明顯。Zhan等[22]通過建立機柜的仿真模型,研究熱管換熱器在背板風機產生的非均勻風場下的換熱性能和機柜熱環境,結果表明換熱器表面不均勻的風速通過影響風側換熱系數影響了換熱器性能。
前人在研究中分析了送風參數對分離式微通道熱管系統換熱性能的影響,得出了有價值的結論。然而,在實際運行過程中,背板風量不僅會影響熱管的換熱性能,還會對機柜中服務器芯片散熱產生影響。背板風量降低會使機柜內風速下降從而影響芯片散熱效率,導致芯片溫度升高,增大芯片損壞風險。對于持續運行的芯片,芯片溫度不能超過85 ℃,否則容易造成芯片損壞[23]。但現有鮮有研究涉及背板風量對分離式熱管系統換熱性能和芯片散熱的綜合影響。
在使分離式熱管滿足機柜冷量需求的基礎上,為了研究背板風量對芯片溫度的影響,首先采用ICEPAK軟件建立了采用分離式微通道熱管換熱器機柜的物理模型。ICEPAK軟件由電子設計技術人員開發,用于熱流體分析,軟件基于ANSYS Fluent有限體積法計算,計算結果準確[22]。而后將建立的機柜物理模型與前期研究建立的分離式微通道熱管系統一維穩態換熱模型[20]耦合,形成綜合模型,描述熱量從芯片傳遞到室外冷源的完整換熱過程。利用該模型,研究和分析在不同服務器負載下,背板風量對芯片溫度的影響。研究成果將對數據中心的節能運行有一定促進作用。
分離式微通道熱管冷卻系統由蒸發器、板式冷凝器以及之間的連接管組成。數據中心機房內分離式熱管冷卻系統的工作流程如圖1所示。芯片產生的熱量通過散熱器傳遞給服務器吸入的機房冷空氣,升溫后的空氣由服務器排風扇排至分離式熱管蒸發器,蒸發器內的制冷劑吸收空氣的熱量蒸發,被冷卻后的空氣排出機柜進入機房,再由服務器吸入進入下一循環。制冷劑在蒸發器內吸收服務器熱排風的熱量蒸發并通過氣管進入冷凝器,在冷凝器內制冷劑凝結放熱將熱量傳給冷凍水,凝結后的液態制冷劑通過液管流入蒸發器進行下一循環。

Rjc為芯片結點至散熱器的熱阻; Rjb為芯片結點至電路板的熱阻圖1 分離式熱管冷卻系統工作流程和芯片雙熱阻模型Fig.1 Work flow of separate heat pipe cooling system and dual thermal resistance model of chip
由于背板熱管冷卻過程中各部件幾何尺寸差異較大(熱管換熱通道為毫米級、機柜為米級),若要通過一個單一尺度的CFD(computational fluid dynamics)模型同時描述熱管換熱過程和氣流場分布,將存在計算成本過大或精度不高的問題。因此,使用ICEPAK建立了機柜物理模型以描述氣流場,并采用前期研究建立的分離式微通道熱管系統一維穩態換熱模型[20]描述熱管換熱過程,二者耦合的綜合模型描述機柜用背板熱管冷卻服務器的全流程換熱過程。為保證綜合模型的模擬和理性,假設如下:①熱量在各傳輸過程中無損失,即在機柜內芯片發熱量全部由背板換熱器帶走,空氣在機房內流通時無能量損失(機柜進、排風溫度相等);②機柜和服務器壁面不漏風;③機柜內布滿服務器,且機柜服務器負載隨服務器內電子元件功率改變;④熱管背板制冷劑溫度為制冷劑平均溫度。以上假設只會引起芯片溫度數值的變化,對所得的規律無影響。
模型包括機柜、服務器及服務器芯片部分和分離式熱管部分。機柜、服務器及服務器芯片部分基于實際產品結構和運行參數建立,用來描述芯片被服務器吸入空氣冷卻的過程。分離式熱管部分描述服務器熱排風被背板換熱器冷卻的過程和制冷劑在熱管制冷循環中的換熱過程。
依據標準機柜的結構參數,建立尺寸為1 000 mm(長)×600 mm(寬)×2 000 mm(高)的42U機柜模型,機柜模型如圖2所示。在機柜背板上配置5個排風機,單風機最大風量165 CFM,并在模型機架上布置21個2U服務器。

圖2 機柜結構模型Fig.2 Structrue model of rack
所布置的2U服務器的尺寸為750 mm(長)×450 mm(寬)×88 mm(高),服務器的結構參數如表1所示,該服務器圖和服務器芯片在此服務器中的位置分布如圖3所示。此服務器含有4個服務器內風機,風機風量為6 CFM,壓降為25 Pa。該服務器含有2顆CPU,單顆發熱量為80 W,內存、電路板和電源等發熱元件的發熱量為126 W,并將內存、電路板和電源等其他發熱元件整合為其他熱源[24]。該服務器發熱量為286 W,機柜發熱量為6 kW。

表1 服務器和芯片結構和運行參數Table 1 Structure and operating parameters of server and chip

圖3 服務器結構模型Fig.3 Structrue model of server
服務器采用封裝芯片雙熱阻模型反映CPU的散熱特征,如圖1所示。雙熱阻模型具有較高的準確性,能較好地反映封裝芯片的實際發熱情況[25-26]。雙熱阻模型將封裝芯片的散熱路徑簡化為兩條,即熱量僅通過上表面傳遞到散熱器,熱阻為Rjc和通過下表面傳遞到電路板,熱阻為Rjb[27]。雙熱阻模型基于某廠家的封裝芯片參數建立,芯片熱設計功耗為80 W,最高容許溫度105 ℃,Rjc為0.1 ℃/W,Rjb為5 ℃/W[28]。CPU采用鋁散熱器散熱,散熱器及封裝芯片的結構參數如表1所示。
機柜背板換熱器為分離式微通道熱管蒸發器,換熱器中制冷劑為R22,換熱器結構尺寸、風側和制冷劑側的換熱關聯式、計算條件以及分離式熱管系統的計算流程在文獻[20]中已得到詳細描述,該模型在預測風側雷諾數低于100的低風量工況時擁有較高的精度。利用分離式微通道熱管穩態換熱模型計算熱管蒸發器的制冷劑溫度、傳熱系數、壓降系數以及機房溫度,并作為機柜物理模型背板換熱器的計算邊界條件。
機柜級物理模型模擬了風在機柜內的換熱過程,所涉及的物理模型主要為流動和熱交換,并遵循質量守恒、動量守恒和能量守恒定律。ICEPAK中能量方程計算如式(1)所示[22]。

(1)
式(1)中:v為速度,m/s;為矢量微分算子;k為分子導熱系數,W/(m2·K);kt為由湍流引起的導熱系數,W/(m2·K);Sh為熱源項,W;ρ為密度,kg/m3;h為空氣的焓,kJ/kg;T為溫度,K。
流體區域的湍流對流換熱采用湍動能(k)-耗散率(ε)標準模型計算,k方程和ε方程分別如式(2)和式(3)所示,湍流黏性系數ηt表達式如式(4)[29]所示。

(2)

(3)
(4)
式中:xi、xj、xk為直角坐標系中i、j、k3個方向上的分量;ui、uj、uk為流體速度矢量U在坐標系上的分量;t為時間:c1、c2、c3為經驗系數,σk、σε、σt為常數;cμ為比熱,J/(kg·K)。
模型的計算流程如圖4所示,計算過程如下:①根據前文中服務器、服務器風機、機柜、背板風機和芯片的結構和運行參數建立機柜物理模型;②在分離式微通道熱管穩態換熱模型的基礎上迭代計算機房溫度,同時輸出換熱器制冷劑溫度、風側換熱系數和壓降系數;③采用非結構化網格對機柜模型進行網格劃分,為減小網格個數提高計算速度,使用非連續性網格對封裝芯片、散熱器、風機等關鍵部分單獨劃分網格進行局部加密;④依據熱管穩態模型算得的機房溫度,設置機柜空氣進口溫度和機柜環境溫度,根據軟件計算的雷諾數選擇k-ε標準公式,根據推薦收斂標準,設置計算結果收斂標準參數,將能量方程殘差設為1×10-7,流動方程殘差設為0.001[30];⑤對計算結果后處理并輸出計算結果。

圖4 計算流程Fig.4 Calculation process
使用ICEPAK軟件默認網格尺寸劃分機柜模型,網格數量為2 079 583。在此基礎上分別對機柜和芯片進行局部網格加密,加密后網格數量分別為2 337 601和6 891 807。基于以上3種網格劃分方式,對機柜負載6 kW,風量1 400 m3/h 的標準工況進行模擬,結果表明:網格數量2 079 538與網格數量2 337 601和6 891 807在相同服務器位置芯片的芯片溫度分別平均相差0.1 ℃和0.57 ℃,溫差較小,對芯片溫度影響不大。當減少芯片局部網格數量后,網格數量為1 352 740,模型計算結果不收斂。因此,為保障模型計算精度和計算速度,選擇網格數量2 079 538進行模擬。
為研究不同服務器負載對背板熱管換熱和芯片散熱的影響,將服務器負載設置為高(6 kW)、中(4 kW)、低(2 kW)三擋。在中低負載時,機柜物理模型中芯片熱功率分別設置為53 W和27 W。為分離式熱管系統水側節能,使用東江湖湖水對熱管系統進行自然冷卻,東江湖近5年最高湖水溫度為16 ℃,湖水與冷凍水之間通過板式換熱器換熱,板式換熱器的換熱溫差為2 ℃[13]。因此分離式熱管冷凝器冷凍水進口溫度為18 ℃。冷凍水定溫差變流量運行,送回水溫差為5 ℃,服務器負載為6、4、2 kW時,冷凍水流量分別為1.03、0.69、0.34 m3/h。根據《數據中心設計規范》(GB 50174—2017)標準[31],將機房送風溫差設為13 ℃,在服務器負載為6 kW時,機柜風量1 400 m3/h。以100 m3/h風量為步長,將1 400 m3/h和200 m3/h風量分別作為起始點,采用分離式熱管系統的穩態換熱模型計算風量對熱管背板運行參數和機房溫度的影響。
在服務器運行時,芯片溫度一般比服務器排風溫度高15~25 ℃[32]。在圖5(a)中,機柜負載6 kW,風量200 m3/h時,服務器排風溫度為115 ℃,使芯片溫度超出了最高允許溫度。芯片安全運行溫度85 ℃[23],因此,使服務器排風溫度低于60 ℃,可保證芯片安全運行。在2、4、6 kW服務器負載時,最小風量分別為200、400、600 m3/h,對應服務器進排風溫差為30.5 ℃。從圖5(b)中還可以看出,為保證熱管背板制冷量滿足機柜散熱需求,服務器進出風溫差隨著風量的減小而增大,排風溫度隨著風量的減小而升高。

圖5 風量對熱管的影響Fig.5 Effect of airflow on loop thermosyphon
在熱管穩態換熱模型模擬結果的基礎上,機柜物理模型取部分典型風量對芯片溫度進行研究分析。機柜風量對機柜內環境的影響如圖6、圖7所示。圖6為2 kW機柜各風量下沿機柜寬度方向截面的云圖,反映芯片中心處截面的機柜內溫度、速度和壓力分布,中高負載時,隨著風量變化,機柜內環境特征與低負載時一致。圖7為沿機柜長度方向在A列芯片中心處的溫度云圖。從圖6可以看出,由于21號服務器位于機柜頂部背板風機的上部,不受風機直吹,同時受熱壓影響,經芯片和其他熱源加熱后,空氣會上浮,使氣流流通不利,導致機柜頂部服務器處(21號服務器)的壓力高于其他位置的壓力,風速低于其他位置服務器。從圖6(h)可以看出,當風量為1 400 m3/h時,頂部服務器處的壓力比機柜平均壓力增大6%,頂部服務器芯片散熱器表面平均風速比底部服務器低0.043 m/s。由圖7可以看出,由于芯片散熱器散熱效率受風速影響,頂部服務器芯片散熱效率低于底部服務器,使頂部服務器芯片溫度僅高出機柜內平均芯片溫度0.2 ~1 ℃,服務器安裝位置對芯片溫度的影響不大。

圖6 2 kW服務器機柜寬度方向截面云圖Fig.6 Cloud diagram in the width direction of 2 kW server rack

圖7 服務器機柜長度方向截面溫度云圖Fig.7 Temperature cloud diagram of the section along the length of the server rack
從圖8(a)可以看出,芯片溫度與風量和芯片熱功率(服務器負載)有關,相同風量時,芯片熱功率高的芯片溫度也高。在機柜低負載額定風量(1 400 m3/h)時,芯片溫度為33.6 ℃,當風量降低至200 m3/h時,芯片溫度增長為70.8 ℃。芯片溫度隨著風量減少而升高,且隨著風量的減小升溫加快,芯片溫度與服務器排風溫度之間的差值也存在相同的規律。從圖8(b)中可以看出,風量減小使得散熱器表面的平均風速下降,降低了芯片散熱器散熱效率,同時使芯片與空氣之間的熱阻(熱阻為芯片溫度與服務器排風溫度差值和芯片熱功率的比值)升高,低風量時熱阻升高迅速。從圖8(a)中還可以看出,芯片溫度最高為75.7 ℃,芯片安全運行。因此,在機柜滿負載運行時,可降低風量至額定風量的43%(600 m3/h)運行,在中低負載運行時,也可分別降低70%和85%的風量,保證數據中心的安全運行并降低運行能耗。

圖8 風量對芯片散熱的影響Fig.8 Effect of airflow on chip heat dissipation
能效比EER(energy efficiency ratio)是評價冷卻設備節能的重要指標,其計算公式為

(5)
式(5)中:Q為熱管制冷量,kW;Pf為背板風機總功率,kW。
風機功率與風量、風壓、風機效率和傳動效率有關,將風壓、風機效率和傳動效率作為定值,分析風量對能耗的影響。背板風機額定風量(1 400 m2/h)運行時,風機總功率為0.1 kW[33]。
風量對EER的影響如圖9所示。可以看出,服務器負載6 kW時,風量由額定風量降低67%,EER升高了130%,在服務器負載為4 kW和2 kW時,將風量降低70%和85%,能效比分別提升了600%和245%。在保障芯片安全運行的基礎上,降低風量,系統能效提升明顯。

能效比(energy efficiency ratio,EER)圖9 風量對熱管EER的影響Fig.9 Effect of airflow on EER of loop thermosyphon
數據中心用機柜級分離式熱管冷卻系統可充分利用自然冷源,節能潛力高。為進一步降低背板風機的運行能耗,研究者研究了送風參數對分離式微通道熱管系統換熱性能的影響。然而在實際運行過程中,降低風量會使得服務器芯片溫度升高,造成芯片失效。因此,為保證芯片安全運行,使用ICEPAK建立標準機柜的物理模型,并與分離式微通道熱管系統的一維穩態換熱模型耦合形成機柜用熱管背板冷卻的全流程模型。通過該模型,研究了不同服務器負載時,熱管背板風量對芯片溫度的影響,并進行了能耗分析,得出如下主要結論。
(1)降低熱管背板風量導致散熱器表面平均風速降低,降低芯片散熱器散熱效率,使芯片與空氣之間的熱阻升高,進而導致芯片溫度和服務器排風溫度升高,在服務器負載為6 kW時,將風量將低67%,芯片溫度和服務器排風溫度均升高,但芯片正常運行。
(2)受熱壓和服務器與背板風機相對位置的影響,頂部服務器芯片溫度高于機柜平均芯片溫度0.2~1 ℃,服務器位置對芯片溫度影響不大。
(3)服務器在高、中、低負載下運行時,在保證芯片安全運行的基礎上,分別將熱管背板風機從額定風量調低67%、70%和85%,系統能效比可分別提升132%、245%和600%,節能效果顯著。