俞嘯玲,盧科帆,張宓璐
(國網浙江杭州市余杭區供電有限公司,浙江 杭州 311100)
隨著信息化產業的發展和電力系統數據中心業務的開展,數據中心的應用越來越廣泛。數據中心內服務器的核心電子元器件(如CPU、芯片和內存等元器件)在日常運行時,因為電子元器件內部電阻的作用會產生熱量,這些熱量在電子元器件內部如果不能有效的散發,將會導致電子元器件的計算性能和運轉效率降低,如果溫度一直過高電子元器件故障率將隨之升高,引起服務器故障,數據丟失破環,甚至有可能導致整個數據中心的癱瘓。因此,如何將數據中心服務器產生的熱量快速地排去顯得特別重要。
目前,服務器散熱主要還是采用自身風扇把熱量排除服務器機箱,再利用機房空調使溫度降低。傳統的服務器散熱存在以下不足的地方:①在使用風扇對服務器內部進行吹風時,風扇往往會只往一個方向進行吹動,導致服務器的散熱不均勻;②據統計,傳統采用空調散熱的方法,空調所消耗的電量最高可達整個機房耗電量的40%~50%,而且機房空調降溫不能直接作用于服務器內直接發熱電子元器件,大部分浪費在機房環境中。
目前,機房內的服務器散熱方式通常采用風冷式降溫方法。通過散熱風扇單向吹風,進行服務器機箱內部熱量跟外部冷空氣交換從而達到服務器內部降溫。
但是,僅靠風冷已經不足以滿足高熱流密度服務器的散熱要求。傳統的風冷模式均采用間接冷卻的方式進行,換熱效率較低,換熱過程高低溫熱源間溫差較大,需要較低的機房低溫引導換熱過程進行等諸多缺點,通過調研討論,需要從以下2 個方面著手解決服務器散熱問題。
(1)提升服務器降溫效率。由于通過環境散熱和降溫存在效率低等弊端,本文從服務器自身降溫入手,研究服務器自身的通風散熱問題,探討如何在有限的環境條件下,提高服務器散熱效率,降低服務器本身工作溫度,從而提高其工作穩定性。
(2)溫度監控預警。根據已掌握的故障情況來看,故障設備的分布、設備自身使用年限并無完全可循的規律,總體來說,設備密集、設備老化、風扇灰塵過多、運轉不良、服務器通風管被灰塵堵塞等都有可能導致服務器設備溫度上升或宕機重啟,需要具備有效的手段對服務器工作溫度集中進行實時監控和預警,由此可以在服務器出現溫度升高征兆時及時采取措施,降低整體網絡故障率。
服務器通電開機狀態電流通過服務器電子元器件使其正常運轉,同時因為電子元器件內部電阻的原因使電子元器件在工作的同時會產生大量的熱量,而這些電子元器件都自己的適宜運行溫度環境,一旦溫度過高或者過低都將導致電子元器件故障率升高。在服務器運行時對其內部溫度進行監測,可以發現服務器80%發熱來自處理器(CPU)。如果能夠通過技術手段從源頭上對服務器的處理器(CPU)進行降溫則可以有效地降低服務器運行溫度。通過查閱文獻資料后分析以及借鑒普通電腦現有水冷產品方案,本文提出一種新型的服務器降溫裝置,應用水冷技術以及負壓技術改進傳統的服務器風冷降溫,從而有效增強服務器的降溫效果。
規劃設計服務器水冷降溫裝置由負壓泵體水冷頭、冷卻液導管、冷排、冷卻液箱、溫度顯示等部件組成,所有部件通過導管連通,構成一個循環管路。
2.1.1 負壓泵體水冷頭設計
水冷頭由導熱銅排、真空負壓泵體液冷頭、壓螺母、壓力彈簧、絕緣墊片、固定螺母、螺絲桿等組件組成。導熱銅排包括與主板相連的支架,以及與處理器相接的導熱銅板,導熱板安裝在支架上,支架上設有凹槽,導熱板可拆卸并安裝在凹槽內。支架上設有螺桿,螺桿上設有調壓螺母和彈簧,螺桿的一端依次穿過主板和支架后通過調壓螺母鎖緊,彈簧設置在支架和調壓螺母之間。
2.1.2 冷排設計
設計冷排由鋁制水道、散熱片和低速風扇組成。散熱片內部包裹鋁制水道,外部采用蜂窩狀設計增加與空氣接觸面積。低速風扇通過長桿螺絲固定散熱片上,通過轉動使空氣流動,加速散熱片散熱。冷排上設計有進水口、出水口,冷排進水口與水泵出水口連接,冷排出水口與水泵進水口連接,使水冷裝置形成一個循環,通過泵體抽取冷卻液使冷卻液在水冷頭和冷排之間循環流動,實現通過冷卻液熱交換從而使服務器處理器溫度降低。
2.1.3 溫度監測設計
通過在水冷頭出口與冷排之間安裝部署溫度監測器件,實時監測水冷頭出口冷卻液溫度并通過監測裝置自帶顯示屏幕直觀顯示CPU 實時溫度。方便運維巡檢人員及時掌握服務器CPU 運行溫度環境。
目前采用SNMP 協議可以實現監控收集服務器運行溫度。在服務器端開啟SNMP 協議,通過開源軟件平臺Zabix 網絡管理系統采用SNMP 協議獲取服務器溫度信息,也可以實現對服務器溫度實時監測。
2.1.4 散熱原理
冷卻液箱用于存儲冷卻液,通過降溫裝置負壓水泵抽取冷卻液由導管輸送到水冷頭內部,通過水冷頭熱交換帶走CPU 熱量,再由導管將冷卻液輸送到冷排進水口流入冷排,通過冷排散熱降溫,使冷卻液進行循環,達到降溫效果。負壓水泵在水冷裝置運行時同時開啟運行抽取水冷裝置內部氣體,使裝置內部氣壓低于外部氣壓,形成水冷裝置內部負壓狀態。
傳統正壓水液散熱裝置通過冷卻液傳遞熱量,因為內部壓強大于外部壓強,所以一旦破損就會漏液,而它又在機箱里,一旦漏液就會導致硬件損壞同時耽誤工作,同時由于漏液前沒有預兆,所以無法提前維護,只能盲目地定期頻繁維護。
負壓水冷散熱裝置同樣通過冷液傳遞熱量,通過內部抽取真空使內部壓強小于外部壓強,確保出現破損后,內部冷液不會立刻漏出,方便使用者在負壓液冷散熱器泄漏前做好維護,在安全性方面更優化于正壓液冷散熱裝置。
服務器水冷散熱裝置與傳統的服務器風冷散熱裝置,從本質上看散熱的原理大同小異,只是散熱的介質由空氣替換為冷卻液。由于冷卻液相對于空氣的散熱效率高,因此該項目研發的服務器水冷散熱裝置的效率更高、溫度波動差更小,使用水冷散熱裝置可以良好控制服務器CPU 溫度,不會因為服務器突發計算性能而引起CPU 溫度的大幅度變化,服務器運行更平穩。
該項目結合國家電網有限公司的質量管理目標,研究將當前主要用于傳統終端機等設備降溫的水冷散熱裝置用來解決服務器過熱頻繁故障重啟等問題,取材簡單、經濟實惠,經實踐檢驗取得了良好的效果,方案實施部署后具有良好的經濟效益、社會效益。詳細有以下2 點。
(1)提高了故障設備壽命,節約了寶貴的建設資金。服務器的電子元器件在處理轉發數據過程中因為電流的熱效應會散發熱量,使其溫度升高。高溫會導致使用壽命縮短,甚至造成部件燒毀,釀成損失。絕大多數服務器可以在其標稱工作溫度范圍內正常運行。但是,個別服務器由于設備老化、風扇故障等原因,在高溫環境下會發生高溫過熱現象。采用水冷散熱裝置,成本低(材料購置200 元左右)、工藝簡單、降溫效果明顯,大大降低設備故障率,可以大大延長這些服務器的使用壽命,延長設備更新換代的周期,節省大量建設資金。按照每臺服務器6000 元計算,5 年折舊周期,平均每延長一年可節省1200 元,以余杭公司為例,11臺服務器每延長一年使用壽命可節省1200 元×11=13200 元。直接的經濟效益十分明顯。
(2)保障了業務系統正常運行率,為業務開展提供了穩定支撐。電力供配電生產安全關系到國計民生和公共利益,隨著信息技術在電力企業推廣和深化應用,日常業務開展對于信息化系統的依賴越來越嚴重。針對故障頻繁的服務器配置水冷散熱裝置后,業務系統整體故障率明顯下降,大大提高運行穩定性可靠性,從而有效改善業務系統可用性的用戶滿意度。
通過對該服務器降溫裝置的研究項目進行攻關,解決針對服務器傳統風冷效果差,提出了優于傳統風冷降溫的負壓水冷降溫方案,方案實施后改善了傳統的服務器降溫效果。在改善降溫效果的同時節約電力能源消耗。項目小組成功研制了可用于服務器的水冷散熱裝置,實現了服務器散熱降溫、減少故障宕機重啟的目標。在全年最炎熱的8 月,發生故障的服務器總數從6 月11 臺降低為4 臺,宕機重啟總次數從6 月的26 次降低為8 次,較去年8 月數據同比降低70%以上,研制成果較為理想,達到了預期設定的目標,在實際生產過程中發揮了良好的作用。
(1)創新方面提升:創新地將當前主要用于PC 機等設備降溫的水冷散熱裝置用來解決服務器過熱頻繁故障重啟問題,取材方便、制作工藝簡單、經濟實惠,對容易因溫度過高發生故障服務器具有良好的降溫散熱作用。
(2)專業化技術層面提升:項目小組在項目的前期調研以及后期方案設計研發階段,了解熟悉了服務器主板、芯片處理器、供電系統、散熱系統等模塊結構,加深了對IT 信息化資產的技術了解,積累了相關的研究、制作等經驗。