








摘要:本文介紹了浸沒式液冷冷卻技術(shù)在數(shù)據(jù)中心中的應用與測試,結(jié)果表明,浸沒液冷系統(tǒng)在GPU到CPU帶寬、浮點運算性能和內(nèi)存帶寬性能方面均優(yōu)于傳統(tǒng)風冷系統(tǒng)。通過分析功耗和溫度數(shù)據(jù),發(fā)現(xiàn)液冷系統(tǒng)能夠有效降低服務器運行溫度,提高系統(tǒng)穩(wěn)定性和可靠性。研究表明,浸沒式液冷技術(shù)在高性能計算環(huán)境中具有顯著優(yōu)勢,為數(shù)據(jù)中心的高效能運作提供了可靠的技術(shù)支持。
關(guān)鍵詞:浸沒式液冷冷卻技術(shù);數(shù)據(jù)中心;測試
doi:10.3969/J.ISSN.1672-7274.2025.02.042
中圖分類號:TB 66;TP 308" " " " " 文獻標志碼:A" " " " " " 文章編碼:1672-7274(2025)02-0-04
Application and Testing of Immersion Liquid Cooling Cooling Technology"in Data Centers
ZHOU Yu1, LI Xiaoping1, AN Hong1, ZHANG Xing1, YAO Junchuan2
(1.China Mobile Communications Group Ningxia Co., Ltd., Yinchuan 750002, China; 2.Hangzhou Yunku Intelligent Technology Co., Ltd., Hangzhou 310000, China)
Abstract: This paper investigates the application and testing of immersion liquid cooling cooling technology in data centers. The results show that immersion liquid cooling outperforms traditional air-cooled systems in terms of GPU-to-CPU bandwidth, floating-point performance and memory bandwidth performance. By analyzing the power consumption and temperature data, it is found that the liquid-cooling system can effectively reduce the server operating temperature and improve system stability and reliability. The study shows that immersion liquid cooling technology has significant advantages in high-performance computing environments and provides reliable technical support for high-performance operation of data centers.
Keywords: submerged liquid cooling cooling technology; data center; testing
0" "引言
隨著碳中和目標的逐步推進,各國對數(shù)據(jù)中心能效要求日益嚴格,浸沒式液冷技術(shù)因其優(yōu)越的節(jié)能效果和環(huán)境友好性,得到了政策的鼓勵和支持。本文通過對烽火通信浸沒式液冷系統(tǒng)的應用場景進行測試,分析其在不同冷卻條件下的性能表現(xiàn),驗證其在高負載、高密度計算環(huán)境中的優(yōu)勢,并探討其在未來數(shù)據(jù)中心優(yōu)化升級中的應用潛力。
1" "浸沒式液冷冷卻技術(shù)在數(shù)據(jù)中心中的應用場景
1.1 技術(shù)原理
浸沒式液冷冷卻技術(shù)可提高效熱管理解決方案,專為高性能計算設備的數(shù)據(jù)中心設計,其核心原理是將計算設備完全浸沒在高導熱性絕緣冷卻液(如氟化液、礦物油或合成液體)中,通過液體直接接觸設備表面,吸收并迅速帶走熱量。冷卻系統(tǒng)由冷卻池、冷卻液、熱交換器和循環(huán)泵組成[1]。冷卻池為密封結(jié)構(gòu),防止冷卻液蒸發(fā)和污染;冷卻液具有高熱傳導性和電絕緣性,確保安全性和高效散熱;熱交換器通過液體與外部冷卻系統(tǒng)(如冷水機組或干冷器)進行熱交換,循環(huán)泵維持冷卻液在系統(tǒng)中流動。設備產(chǎn)生的熱量通過液體高效傳導,液體循環(huán)系統(tǒng)將熱量帶至熱交換器,通過外部冷卻系統(tǒng)散熱后再返回設備容器中。浸沒式液冷技術(shù)的主要優(yōu)勢包括高散熱效率、低能耗(PUE值顯著降低)、高設備密度、低噪音和簡化維護[2],其技術(shù)原理圖如圖1所示。
1.2 應用場景
浸沒式液冷冷卻技術(shù)在數(shù)據(jù)中心中的應用場景廣泛,尤其適用于高性能計算(HPC)、人工智能訓練(AI Training)、區(qū)塊鏈挖礦和其他需要高密度計算和低延遲環(huán)境的應用。該技術(shù)利用高導熱性和電絕緣性的液體冷卻介質(zhì),如3M Novec 7000、礦物油或合成液體,通過液體直接接觸計算設備表面,迅速吸收并傳遞熱量,顯著提升散熱效率和能源使用效率[3]。在高性能計算領(lǐng)域,浸沒式液冷技術(shù)能有效解決風冷系統(tǒng)的散熱瓶頸問題,確保設備在進行每秒高達數(shù)千億次浮點運算(FLOPS)時,溫度保持在最佳工作范圍內(nèi),避免因過熱導致的性能衰減。在人工智能訓練方面,浸沒式液冷技術(shù)為大規(guī)模GPU集群提供低溫環(huán)境,通過直接液冷將每小時高達數(shù)百瓦的熱量高效帶走,維持GPU在高負載下的穩(wěn)定運行,顯著提升訓練效率和模型精度。
2" "浸沒式液冷冷卻技術(shù)在數(shù)據(jù)中心中的應用測試
2.1 測試目標
對烽火通信浸沒式液冷系統(tǒng)進行測試,通過對GPU模組的CPU到GPU、GPU到CPU以及GPU到GPU之間的帶寬性能、浮點運算性能(FP16、TF32、FP64)、內(nèi)存帶寬性能和服務器核心溫度等多個維度進行詳細測試,驗證浸沒液體冷卻不會對服務器性能造成負面影響。此外,測試還包括對服務器運行狀態(tài)、冷卻系統(tǒng)效率、硬件兼容性和PUE值檢測,確保浸沒式液冷系統(tǒng)在長時間高負載運行下的可靠性和高效性[4]。測試樣品如圖2和圖3所示。
2.2 測試環(huán)境與配置工具
在硬件配置方面,選用具備高計算能力的NVIDIA H800 SXM3 GPU服務器,該服務器包含8個圖形處理單元(GPU),每個GPU提供32 GB的顯存,支持FP16、TF32和FP64等多種浮點運算精度。為了進一步驗證系統(tǒng)性能,還配置了Intel Xeon Scalable CPU,采用雙路架構(gòu),總共提供96個物理核心和192個線程,運行頻率為2.6 GHz。存儲系統(tǒng)采用高帶寬的DDR4內(nèi)存,總?cè)萘繛?12 GB,以確保數(shù)據(jù)處理的高效性和穩(wěn)定性。在網(wǎng)絡配置方面,采用Mellanox InfiniBand網(wǎng)絡適配器,支持100 Gbps高速網(wǎng)絡連接,保證數(shù)據(jù)在不同節(jié)點間的快速傳輸。
在軟件配置方面,測試環(huán)境中安裝了Ubuntu 20.04操作系統(tǒng),該系統(tǒng)以其穩(wěn)定性和廣泛的硬件兼容性為基礎,支持多種高性能計算應用。GPU驅(qū)動采用NVIDIA CUDA 11.4,支持最新的GPU加速計算技術(shù)。為了進行性能測試,我們部署了多個專業(yè)的測試工具,包括Linpack、Cuda Samples和Stream等,這些工具分別用于測試CPU和GPU的計算性能、內(nèi)存帶寬和數(shù)據(jù)傳輸速度。Linpack用于評估CPU的浮點運算性能,特別是在高性能計算(HPC)環(huán)境中的表現(xiàn);Cuda Samples主要測試GPU的計算性能和帶寬性能;Stream用于測試內(nèi)存帶寬,評估系統(tǒng)在處理大數(shù)據(jù)量時的性能表現(xiàn)。
此外,測試環(huán)境還包括專門設計的液冷系統(tǒng)。該系統(tǒng)采用雙循環(huán)結(jié)構(gòu),包含冷卻液泵和冷卻塔,以保證在不同負載條件下的穩(wěn)定運行。冷卻液采用3M Novec 7100工程液體,具有良好的熱傳導性能和電絕緣性能,適用于高密度計算環(huán)境。冷卻液泵的頻率和流量根據(jù)服務器的實時溫度進行動態(tài)調(diào)整,確保系統(tǒng)在高效散熱的同時,保持低功耗運行。
3" "測試過程與結(jié)果分析
3.1 GPU性能檢測
3.1.1 CPU到GPU帶寬性能
配置好測試環(huán)境,確保服務器正常供電,無告警信息,并在操作系統(tǒng)上安裝并運行CUDA和相關(guān)GPU驅(qū)動程序。具體測試使用了cuda-samples工具,通過執(zhí)行./bandwidthTest --device ID命令,對所有GPU進行遍歷測試,并記錄相關(guān)數(shù)據(jù)。液冷系統(tǒng)和風冷系統(tǒng)的測試結(jié)果對比如表1所示。
進一步分析測試結(jié)果表明,液冷系統(tǒng)在高負載下保持穩(wěn)定的性能優(yōu)勢。在液冷環(huán)境中,GPU和CPU之間的數(shù)據(jù)傳輸效率更高,延遲更低,帶寬利用率更好。在執(zhí)行./bandwidthTest腳本時,液冷系統(tǒng)顯示出更高的帶寬數(shù)值,這意味著在實際應用中,液冷系統(tǒng)能夠更有效地處理大量數(shù)據(jù)交換工作,提升整體系統(tǒng)性能和效率。
3.1.2 GPU到CPU帶寬性能
確保服務器供電正常,且沒有任何告警信息。在已安裝操作系統(tǒng)且運行正常的服務器上,完成CUDA的安裝,確保GPU驅(qū)動程序安裝并運行正常。上傳CUDA samples測試工具并完成編譯。進入對應的工具目錄,執(zhí)行測試腳本,通過命令./bandwidthTest --device ID進行測試。遍歷所有GPU,記錄測試結(jié)果。具體的測試數(shù)據(jù)如表2所示。
從測試數(shù)據(jù)可以看出,液冷環(huán)境下GPU到CPU帶寬性能略優(yōu)于風冷環(huán)境,表明液冷技術(shù)在高性能計算中具有一定的優(yōu)勢。進一步分析顯示,液冷環(huán)境下,由于冷卻效率更高,能夠更好地維持GPU和CPU的溫度穩(wěn)定,減少了熱量對數(shù)據(jù)傳輸速率的影響,從而提高了帶寬性能。
3.2 CPU性能檢測
3.2.1 浮點運算性能
測試環(huán)境采用多臺高性能服務器,每臺服務器配置多塊NVIDIA GPU。服務器運行穩(wěn)定且無告警信息,已安裝操作系統(tǒng)和CUDA環(huán)境,并確保GPU驅(qū)動程序正常運行。測試開始之前,確保服務器正常供電,無告警信息。在服務器上安裝CUDA并配置相應的驅(qū)動程序,確保環(huán)境正常。將Linpack測試工具上傳至服務器并完成編譯。進入測試工具目錄,使用如下命令進行測試:
./run_linpack -fp16
./run_linpack -tf32
./run_linpack -fp64
遍歷所有GPU,記錄各浮點運算規(guī)格下的測試結(jié)果,具體測試數(shù)據(jù)如表3所示。
從表3數(shù)據(jù)可以看出,液冷環(huán)境在FP16和FP32性能方面略優(yōu)于風冷環(huán)境,尤其在FP16性能上差異更加明顯。這表明液冷技術(shù)在高性能計算中具有顯著優(yōu)勢,能夠有效提高浮點運算性能。
3.2.2 內(nèi)存帶寬性能
在測試前,確保所有服務器的電源供應正常,并無任何系統(tǒng)告警。在已安裝操作系統(tǒng)且運行正常的服務器上,完成Stream工具的安裝,確保內(nèi)存系統(tǒng)已被正確識別并能正常工作。安裝完成后,通過初步測試確認Stream工具和服務器內(nèi)存之間的兼容性。上傳Stream測試工具并完成編譯。通過編譯生成可執(zhí)行文件,確保測試工具能夠在目標服務器上正常運行。上述工作完成后,進入對應的工具目錄,執(zhí)行測試腳本。通過命令 ./stream執(zhí)行測試,分別測試Copy、Scale、Add和Triad四種操作的內(nèi)存帶寬。對每臺服務器上的所有內(nèi)存模塊進行測試,記錄每次測試的帶寬值。具體測試數(shù)據(jù)如表4所示。
測試結(jié)果顯示,在液冷和風冷兩種環(huán)境下,內(nèi)存帶寬性能表現(xiàn)出一定差異。液冷環(huán)境下,內(nèi)存帶寬性能整體優(yōu)于風冷環(huán)境。表明浸沒液冷技術(shù)在高性能計算中具有一定的優(yōu)勢。進一步分析可知,液冷環(huán)境下,由于冷卻效率更高,能夠更好地維持內(nèi)存模塊溫度穩(wěn)定,減少了熱量對內(nèi)存?zhèn)鬏斔俾实挠绊懀瑥亩岣吡藥捫阅堋?/p>
3.3 服務器運行狀態(tài)驗證
3.3.1 核心溫度監(jiān)控
啟動服務器,檢查并確保所有電源和冷卻系統(tǒng)正常工作,無任何告警信息。之后在服務器上安裝NVIDIA DCGM溫度監(jiān)控軟件,用于實時監(jiān)控和記錄CPU和GPU的溫度數(shù)據(jù)。在滿負載條件下運行服務器,通過執(zhí)行高強度計算任務(如CUDA計算、Linpack測試),使CPU和GPU持續(xù)高負荷運行,使用溫度監(jiān)控軟件每分鐘記錄一次CPU和GPU的溫度數(shù)據(jù)。分別在液冷和風冷條件下進行相同的測試,比較兩種冷卻方式下的溫度變化情況。測試結(jié)果如表5所示,顯示了液冷和風冷條件下,GPU和CPU在滿負載運行時的溫度。
從測試數(shù)據(jù)可以看出,液冷環(huán)境下的核心組件溫度明顯低于風冷環(huán)境。這表明液冷技術(shù)在高性能計算中具有顯著的冷卻優(yōu)勢,可以有效降低核心組件的工作溫度,提升系統(tǒng)的穩(wěn)定性和可靠性。其主要原因在于,液冷系統(tǒng)能夠更有效地控制核心組件的溫度,使得GPU和CPU在高負載運行時溫度保持在較低水平,減少了因過熱導致的性能下降和系統(tǒng)不穩(wěn)定問題。相比之下,風冷系統(tǒng)在高負載條件下難以維持穩(wěn)定的溫度控制,導致溫度波動較大。
3.3.2 電源與光模塊插拔測試
測試環(huán)境設置在高性能液冷數(shù)據(jù)中心內(nèi),服務器浸沒在液冷液體中,配置高效電源模塊和10 Gbps或更高帶寬的光纖模塊,均支持熱插拔功能。在電源熱插拔測試中,確保液冷系統(tǒng)正常運行且服務器無任何告警信息,記錄初始功耗和服務器運行狀態(tài)。在服務器滿負載運行時,進行電源插拔操作,每次插拔間隔5分鐘,累計進行18次插拔操作,每次插拔后記錄服務器功耗變化和運行狀態(tài),確保服務器在每次插拔操作后能正常啟動并穩(wěn)定運行。
在光模塊熱插拔測試中,同樣確保液冷系統(tǒng)正常運行且服務器無任何告警信息,記錄初始網(wǎng)絡通暢性和光模塊運行狀態(tài)。在服務器滿負載運行時,進行光模塊插拔操作,每次插拔間隔5分鐘,累計進行9次插拔操作,每次插拔后記錄網(wǎng)絡狀態(tài)和光模塊運行情況,確保光模塊在每次插拔操作后能正常啟動并保持網(wǎng)絡通暢。具體測試數(shù)據(jù)如表6所示。
通過以上數(shù)據(jù)可知,液冷環(huán)境下,光模塊在9次插拔操作后,能正常運行,網(wǎng)絡保持通暢,無任何連接問題。表明液冷環(huán)境對光模塊的插拔操作影響較小,光模塊能在多次插拔操作中保持穩(wěn)定。在高性能計算環(huán)境中,采用浸沒式液冷技術(shù)不會對服務器的電源和光模塊的熱插拔操作產(chǎn)生負面影響。
4" "結(jié)束語
綜上所述,浸沒式液冷技術(shù)在多個關(guān)鍵性能指標上具有顯著優(yōu)勢,在高性能計算、人工智能訓練和區(qū)塊鏈挖礦等高密度計算場景中表現(xiàn)優(yōu)異,具有高效散熱、低能耗和高可靠性的特點,為數(shù)據(jù)中心的優(yōu)化升級提供了堅實的技術(shù)保障。浸沒式液冷技術(shù)的廣泛應用,不僅提升了數(shù)據(jù)中心的整體性能,還顯著降低了系統(tǒng)的能耗和運營成本,為未來高性能計算系統(tǒng)的冷卻方案提供了強有力的技術(shù)支持。
參考文獻
[1] 朱佳佳,趙妍.數(shù)據(jù)中心浸沒式液冷技術(shù)研究[J].通信管理與技術(shù), 2022(01): 12-15.
[2] 周婷,王瑋,常傳源,等.液冷技術(shù)在數(shù)據(jù)中心的應用[J].河南科技,2022, 41(23):36-39.
[3]" 趙春曉.淺談液冷技術(shù)在數(shù)據(jù)中心的應用[J].工程建設標準化2021(S1):107-110.
[4] 謝麗娜,邢玉萍,藍濱.數(shù)據(jù)中心浸沒液冷中冷卻液關(guān)鍵問題研究[J].信息通信技術(shù)與政策,2022(03):40-46.
作者簡介:周" " 瑜(1988-),男,回族,寧夏銀川人,中級工程師,碩士研究生,研究方向為液冷技術(shù)。
李小平(1986-),男,回族,寧夏銀川人,工程師,本科,研究方向為數(shù)據(jù)中心基礎設施。
安" "紅(1972-),女,漢族,寧夏銀川人,中級工程師,本科,研究方向為低碳節(jié)能。
張" "星(1980-),男,漢族,寧夏銀川人,工程師,本科,研究方向為數(shù)據(jù)中心制冷技術(shù)。
姚俊川(1992-),男,漢族,浙江杭州人,工程師,碩士研究生,研究方向為液冷技術(shù)。