袁曉東,肖 瑋,盧乙彬
(1.雄安云網科技有限公司,河北 雄安 071000;2.廣東合一新材料研究院有限公司,廣東 廣州 510000)
目前,國內外數據中心IT設備的散熱絕大多數采用風冷技術。空氣作為冷媒的熱傳導效率很低,不僅導致散熱能耗居高不下,而且對大功率芯片和高密度圖形處理器(Graphics Processing Unit,GPU)板卡的散熱越來越力不從心。
隨著全球數字化應用進程的快速擴展,大數據、云計算、5G移動通信和人工智能(Artificial Intelligent,AI)對數據中心、邊緣計算等數據處理基礎設施建設的需求越來越大。同時,由于數據處理技術向數字計算技術的全面轉移,高性能服務器、高性能芯片、高密度GPU板卡用量突飛猛進。傳統風冷散熱已成為制約從信息智能化走向信息智慧化的“瓶頸”。
因此,近兩年來一些高性能數據中心、邊緣計算中心和超算中心,在一些大功率高密度IT設備上紛紛采用液冷技術。由于液體的比熱容和密度具有明顯優勢,采用液體作為IT設備的冷媒,其冷卻效果比空氣強1 000~3 000倍[1-3]。風冷技術所面臨的散熱能耗高和散熱性能低的問題,用液冷技術可以得到根本改善。
眾所周知,數據中心是典型的“高能耗”產業。儲能系統可以在一定程度上減少數據中心對柴油發電機的依賴,是數據中心產業發展的一個重要方向。工信部印發《新型數據中心發展三年行動計劃(2021-2023年)》明確:支持探索利用鋰電池、儲氫和飛輪儲能等作為數據中心多元化儲能和備用電源裝置,推動新型數據中心高效利用清潔能源和可再生能源。但是,在安全性方面,鋰離子電池儲能系統一直存在一定的隱患。采用油劑單相液冷技術的儲能系統能夠很好地解決這一難題,為鋰電池進入數據中心打開了一扇安全之門。
綜合考慮冷卻液成本、設備工藝復雜度、應用工況、儲能安全和維護便捷性,油劑單相液冷技術比相變液冷技術和非油劑液冷技術更適用于數據中心IT設備和鋰電池安全保障應用場景。
液冷技術概覽如圖1所示[4]。液冷技術路線可分為直接接觸式液冷技術和間接接觸式液冷技術。直接接觸式液冷技術路線又可分為浸沒式液冷技術和噴淋式液冷技術兩大方向。其中:浸沒式液冷技術方向有單相浸沒式液冷技術和相變浸沒式液冷技術2種實現途徑;噴淋式液冷技術方向采用單相液冷實現途徑。間接接觸式液冷技術路線又可分為水冷冷板式液冷技術和非水冷板式液冷技術兩大方向。其中:水冷冷板式液冷技術方向有單相水冷板液冷技術和相變水冷板液冷技術2種實現途徑;非水冷板式液冷技術方向有單相非水冷板式液冷技術和相變非水冷板式液冷技術2種實現途徑。

圖1 液冷技術概覽
就其本質而言,液冷技術利用液體將電子設備中芯片和器件產生的熱量散除。直接接觸式液冷技術路線由于液體與電子設備中的電路直接接觸,因此采用的液體一定是導熱不導電的,簡單的說液體必須是絕緣介質。而間接接觸式液冷技術路線,可以采用非絕緣液體,比如水。利用絕緣液體可以對電子設備中全部芯片和器件實施散熱,因此電子設備的散熱無須風冷輔助散熱。利用非絕緣液體一般只能對電子設備中芯片和大功率器件實施散熱,其他電路仍需風冷輔助散熱。無論是絕緣液體還是非絕緣液體,對電子設備中的芯片和器件散熱后,溫度都會升高。由于絕緣液體直接和電路接觸而非絕緣液體間接和電路接觸,絕緣液體溫度升高比非絕緣液體要低很多,因此二次換熱時通常非絕緣液體需要制冷降溫,而絕緣液體無須制冷只需自然換熱降溫。非絕緣液體采用冷卻純凈水,而絕緣液體(簡稱冷卻液)分為氟化液和油類冷卻液,氟化液又分為單相和兩相。總體來說:氟化液具有沸點低、密度大、成本高的特點,氟化液使用中有消耗,省電不省錢,經濟成本性差,優點是黏度小、無閃點、易清洗;油基冷卻液具有成本低、密度小、閃點高的優點,更適合企業數據中心(Internet Data Center,IDC)和企業數據中心(Enterprose Date Center,EDC),缺點是黏度相對大、清洗相對復雜[5-8]。
目前常用的單相液冷技術有冷板式液冷技術、浸沒式液冷技術和噴淋式液冷技術,如圖2所示。

圖2 3種常用的單相液冷技術
冷板式液冷技術。將服務器大功率發熱芯片和器件(CPU/GPU/DIMM等)貼近冷板,利用冷板中流動的介質帶走熱量。工作介質可以選擇去離子水、水溶液、氟化液等。液冷服務器安裝于機架,并設置風冷空調輔助制冷。風冷負責液冷冷板無法覆蓋的部件。由于去離子水密封工藝要求太高,而氟化液價格昂貴,因此冷板式液冷冷媒一般采用冷卻的純凈水溶液。
浸沒式液冷技術。將服務器完全浸沒在非導電性工作介質中,工作介質與功耗器件直接接觸換熱,通過工作介質的蒸發冷凝或循環流動帶走熱量。介質采用氟化液或普通油劑冷卻液等。
噴淋式液冷技術。將冷卻液通過設置在服務器中的噴淋頭精準噴灑到服務器中的芯片、器件和所有電路上,直接接觸式帶走熱功耗。升溫后的冷卻液通過自然風或水換熱(無須制冷冷卻)后,再由壓力泵送入服務器中實現對芯片、器件和所有電路的循環散熱。系統通過噴淋頭的精準設計,不同熱功耗芯片、器件和各種電路可以獲得不同的冷卻液流量滿足各自不同的散熱要求。
流動浸沒式單相液冷工作原理是冷卻液直接將電池組完全浸沒,冷卻液與電芯表面接觸并流動,在流動過程中將電芯熱量帶走,通過熱控系統將熱量散發到空氣中,最終達到對電池控溫的目的。通過冷卻液的循環,可以達到電池系統的區域溫差超低,整個電池系統的不同區域的電芯工作溫度差距在±2 ℃,從源頭上降低了電芯熱失控的風險。
在3種液冷方式中,冷板式是液冷和風冷相結合的散熱模式,熱功耗大的芯片貼上冷板散熱,其他電路散熱仍然需要風扇通過空氣散熱,所以業內戲稱為“貼膏藥止痛”模式。冷板式的突出優點是:國外專利已過期,沒有專利壁壘;散熱冷媒介質采用低成本的純凈水;服務器維修時不需要清洗。主要缺點是:節能效果不好(電源利用效率為1.4左右),需要對自然水制冷低至15 ℃的冷卻水;需要風冷輔助,仍然需要建數據機房,建設成本高;冷板和冷管工藝要求高,確保冷水不泄漏外溢;服務器關閉再啟動,凝露水珠容易導致電路短路故障。
浸沒式有兩種散熱技術路線:相變散熱和流動浸沒散熱。相變散熱采用低沸點的氟化液作為冷媒介質。浸泡在氟化液中的芯片和電路產生的熱功耗,通過氟化液氣化傳導至冷凝板,冷凝板利用冷卻水將氣化后的氟化液轉換回液態氟化液實現對芯片和電路的循環散熱。相變浸沒散熱的突出優點是:散熱效率高,節能效果好(數據中心能源效率為1.1左右);氟化液換熱過程在同一箱體內,控制簡單;服務器維修時免清洗;無需建設數據機房。主要缺點是:國外核心專利仍在保護期內,存在專利壁壘;氟化液價格高,是普通冷卻液的10倍左右;氟化液有泄漏風險,要求箱體密封工藝高;芯片和電路是浸泡在氟化液中,氟化液用量大;浸沒式機柜的承重要求是普通機房建設標準的2倍以上,常規只能放在地面一樓;需要改變傳統數據中心的維護規程和習慣。
流動浸沒散熱采用一種導熱不導電的冷卻液作為冷媒介質,浸泡在冷卻液中的芯片和電路產生的熱功耗通過冷卻液的溫度升高傳導至換熱單元。換熱單元利用風或涼水對升溫后的冷卻液進行降溫,再將降溫后的冷卻液傳送至芯片和電路上,實現循環散熱。流動浸沒散熱的突出優點是:節能效果好(數據中心能源效率為1.1左右);采用普通冷卻液,價格低廉;冷卻液不存在泄漏問題,無須密封,箱體工藝要求低;冷卻液換熱單元無須對水制冷,采用常溫水即可;無須建設數據機房。主要缺點是:國外核心專利仍在保護期內,存在專利壁壘;為了克服大功率芯片熱功耗聚集導致傳熱效率低的問題,需要在箱體中打入空氣促進冷卻液流動;由于芯片和電路是浸泡在冷卻液中,冷卻液用量大;浸沒式機柜的承重要求是普通機房建設標準的2倍以上,因此常規只能放在地面一樓;因冷卻液用量大,消防安全存在隱患;要改變傳統風冷數據中心的規程和習慣;服務器維修時需要清洗[9]。
噴淋式散熱模式的基本原理與流動浸沒式散熱相同,不同的是流動浸沒式散熱是將芯片和電路浸泡在冷卻液中,而噴淋式散熱模式是將冷卻液噴灑到芯片和電路上,實現散熱。簡單類比就是:流動浸沒式散熱模式是讓芯片、器件和電路“洗池浴”,噴淋式散熱模式是讓芯片、器件和電路“洗淋浴”。噴淋式散熱的突出優點是:自主知識產權,無專利壁壘(全部核心知識產權掌握在廣東合一新材料研究院);傳熱效率高,節能效果好(數據中心能源效率為1.1左右)(與相變浸沒散熱模式等同,優于流動浸沒散熱模式);無須建設數據機房(與浸沒式相同);采用普通冷卻液,價格低廉(類比相變浸沒散熱模式);冷卻液用量少,約為浸沒式的1/4;冷卻液不存在泄漏問題,無須密封,箱體工藝要求低(類比相變浸沒散熱模式);承重要求與普通機房建設標準相同,僅為浸沒式散熱模式要求的一半;冷卻液用量少,便于解決消防隱患問題;冷卻液換熱單元無需制冷,采用自然風或常溫水即可(類比相變浸沒散熱模式);不改變傳統風冷數據中心的維護規程和習慣。主要缺點是:各箱體按熱功耗不同需要進行冷卻液分配控制(類比流動浸沒散熱模式);普通冷卻液需要抗氧化稀釋處理(類比流動浸沒散熱模式);服務器維修前需要清洗。
雄安云網科技有限公司對國內3種常用的單相液冷技術和實際應用進行了充分的調研和深入的對比分析研究,并結合雄安城市計算(超算云)中心項目分別對冷板式液冷(氟劑)、浸沒式液冷(氟劑)、噴淋式液冷(油劑)和浸沒式液冷儲能(油劑、磷酸鐵鋰電池組)進行了試點應用。盡管相變液冷技術本身優點很多,但相變冷卻液價格昂貴、用量巨大、對機房承重超過常規要求、確保無泄漏工藝要求太高等制約了面向數據中心特別是中大規模數據中心的實際應用。經過技術特點、成本分析、應用工況、適用場景、后續維護等方面綜合分析認為,單相液冷實際應用于數據中心有11個大優勢。
(1)總能耗節省1/2,數據中心能源效率小于1.10。總能耗指數據中心IT設備和確保IT設備安全穩定工作的支撐設備能耗之和。單相液冷技術不再需要冷空氣,不再需要保持空氣濕度穩定,不僅確保IT設備安全穩定工作的支撐設備能耗大幅降低,而且傳統風冷服務器中的風扇完全拆除,數據中心IT設備自身的能耗也會降低20%左右。20個機架200 kW模塊綜合測試總能耗比傳統風冷降低48.7%,數據中心能源效率達到1.09[10]。
(2)省空間。單個噴淋液冷機架可以承載4個風冷機架的高性能服務器,占地面積節省3/4。從承載電功率的角度看,常規單個噴淋液冷機架可以承載20 kW的服務器電功率,而傳統風冷機柜僅能承載不超過5 kW的服務器電功率,所以單個噴淋液冷機架可以承載的電功率是傳統風冷的4倍。從另一個角度看,4U高性能服務器改裝成液冷服務器后高度降為2U,并且噴淋液冷機架可以依序堆疊放滿,而傳統風冷機架需要在高性能服務器間留有1~2U空間隔開堆疊放滿。從實際空間占用情況來看,一個噴淋液冷機架相當于4個風冷機架,節省了3/4的占地面積。
(3)無須建設標準專用機房,建設經費節省1/3。一方面,采用單相液冷技術后,服務器芯片、器件和電路的工作環境實際上已與空氣無關,僅取決于單相冷卻液的工況,因此傳統風冷機房溫度、濕度、防靜電等問題無須考慮,即無須按照國際上T1/2/3標準建設專用機房。另一方面,由于總能耗節省一半,供電容量也會降低一半。這不僅大大降低了機房建設供電線路的成本,而且將為機房提供的應急供電的柴油發電設備需求和不間斷電源的配置需求降低一半。同時,在同等規模和性能的條件下,機房面積會節省3/4。綜上所述各種因素,噴淋液冷數據中心一次性建設經費投入將節省1/3左右。
(4)電費節省1/2,房租費節省3/4。以200 kW數據中心模塊為參考計算,每年電費節省約101萬元,房租費節省約9萬元,直接運行成本節省110余萬元。
(5)計算能力提高1/2。在風冷的情況下,服務器不能長時間滿負荷工作,輕則大大降低芯片可靠工作壽命,重則損壞芯片導致服務器故障。在液冷情況下,由于液體熱轉換效率高,服務器可以長時間滿負荷工作,不會導致芯片故障。因此,風冷條件下,服務器工作的平均負荷量只能按60%設計,而液冷條件下,服務器的平均負荷量可以按照90%設計,計算能力提高1/2。換句話說,2臺液冷條件下工作的服務器,實際計算能力等效為3臺風冷條件下工作的服務器。對于價格昂貴的高性能服務器,計算能力的提升為用戶節省了大量服務器購置經費。
(6)平均維護工作量比風冷節省3/4。服務器產生故障有3大因素:一是風扇震動,因為印制電路板(Printed Circuit Board,PCB)安裝到服務器機箱內無法消除安裝點之間的力矩,震動會導致PCB電路板各層內的連接發生斷裂;二是灰塵,空氣潮濕會引起電路短路擊穿,空氣干燥會引起芯片、器件和電路表面產生靜電導致電路短路;三是芯片溫度的抖動,風冷條件下芯片隨負荷量變化溫度抖動達40 ℃,而液冷條件下,這一抖動范圍為20 ℃,因此大幅降低了芯片的故障情況。由于液冷服務器中沒有風扇、沒有灰塵,同時芯片因業務負荷變化引起的故障率低,服務器工作的可靠性系數估測至少提高一個數量級,因此平均維護工作量比風冷降低3/4。
(7)無噪聲污染。服務器運行處于靜音狀態,噪聲系數低于50 dB,可以與人同處一室工作。風冷數據中心的噪聲主要來源于服務器中的風扇,特別是高性能服務器中的變頻風扇。噴淋液冷條件下,服務器中所有風扇被拆除,只有冷卻液流動的輕微且人耳不敏感的噪聲[11]。
(8)工作環境無要求,可以放置于車間、辦公室,甚至樓道和樓梯間內。液冷條件下,服務器芯片、器件和電路的工況僅取決于噴入服務器中的冷卻液,與周圍環境無關。服務器盡管不是密封的但是密閉的,即使有微量灰塵進入冷卻液,也會被外部換熱單元設置的過濾器循環過濾掉。只要外部換熱單元將冷卻液的溫度控制在設置的范圍內,環境溫度高低對服務器工作不會產生任何影響。
(9)服務器壽命可以從6年延長至9年。從降低維護工作量方面分析,服務器工作的可靠性系數至少提高一個數量級,那么服務器的故障率就會降低一個數量級,因此服務器的使用壽命會延長1/2。
(10)工廠預制,組件化/模塊化安裝,交付快。在液冷條件下,無須按照國際上T1/2/3標準建設專用機房,所有設備分組件和模塊在工廠已標準化預制完畢,現場只是完成標準化組件/模塊的安裝和調試,將數據中心建設由傳統工程項目平滑過渡到產品安裝調試,縮短了2/3的交付周期。
(11)通過高效率安全儲能省電。將鋰電池系統整個浸沒到阻燃的冷卻液中,和空氣完全隔離。在前段預防措施失效的情況下,部分電芯熱失控時,一是加快循環把局部熱量帶走防止熱失控進一步擴大。二是和空氣完全隔離,不會發生明火燃燒,將熱失控風險控制在局部范圍,只有部分電芯損壞,不影響系統和周邊環境。電芯在溫度可控且溫差極小的條件下,還可以有效延長電池的循環壽命[12]。
綜上所述,從現有數據中心工況的綜合適應性分析,油劑單相液冷技術可廣泛應用于數據中心。就目前常用的3種油劑單相技術研究現狀、實際應用和試運行情況看:
(1)冷板式液冷技術由于需要經過制冷的冷卻水,而且要確保大規模使用時冷水不外溢到電路上,工藝要求過高,作為數據中心主流選用技術不是很理想;
(2)浸沒式顛覆原有的機房體系架構,對機房布局、樓板承重、配電設施、管線系統及運維習慣變動較大,空間利用率相對較低;
(3)噴淋式保留了原有機房布局和運維習慣,空間利用率較高,而且用液量小成本較低,是值得推薦的數據中心特別是中大規模數據中心主流選用技術。