當前,我國經濟已由高速增長轉向高質量發展階段,數字經濟正深刻地改變著人類生產和生活方式。作為產業升級的新動能,企業數字化轉型在迎來發展新機遇的同時,也對信息產業的持續創新和突破發展提出了更高要求。
曙光信息產業股份有限公司作為在中國科學院大力推動下組建的國家高新技術企業,是中國高性能計算、服務器、云計算、大數據領域的領軍企業。自成立以來,曙光的服務器、存儲、安全、數據中心等計算產品、 解決方案及云計算、大數據、人工智能、先進計算服務已被廣泛應用于政府、能源、互聯網、教育、氣象、醫療及公共事業等社會各個領域。
其中,在深圳市氣象局超級計算中心項目中,曙光用優質的產品、專業的服務交上了令深圳市氣象局乃至氣象局業主們滿意的答卷,也為深圳市乃至整個粵港澳大灣區帶來了更高效的計算能力、更精細化的氣象預報水平,更為城市的防災減災工作、智慧城市的建設和數字經濟的發展作出了巨大貢獻。
天氣預報,“準”字當先。但對深圳市氣象局來說,一套2010年采購的超級計算機,其計算性能及存儲容量已經遠不能滿足業務開展和科研創新的運行需求。隨著氣象局業務種類的日益增加、各行各業對預報水平精細化要求的日益提高,深圳市氣象局需建立一個氣象預報更精準、氣象業務更智慧便民、氣象研究更深入的新一代氣象超級計算平臺。
在充分了解深圳市氣象局業務模式和功能需求后,曙光快速成立專項業務組,并制定了可大幅度縮減項目交付周期的部署流程,確保了新氣象超級計算平臺快速、穩定的交付使用。在具體實施過程中,曙光HPC產品事業部氣象行業技術團隊充分發揮新氣象超級計算平臺的計算能力,在整體提高天氣預報精確性的同時,定制化編制了詳細完善的遷移方案,保障氣象業務系統的順利遷移,確保超級計算平臺與氣象局業務系統的完美匹配和結合。
曙光氣象超級計算平臺的核心優勢,主要體現在計算性能、網絡性能、存儲性能、冷卻技術和綠色節能、行業應用模式研究、專業在線服務等多個方面。而在此次項目中, 最大的突破創新主要有以下兩點:
1.冷板式液冷——打破高性能計算平臺運算力瓶頸的節能關鍵
眾所周知,傳統數據中心的散熱方式是風冷,即通過空調或風扇設備,借助降低空氣溫度、加快冷空氣流速等方式直接對流走計算設備運行所產生的熱量。隨著超級計算機的發展,芯片的集成度和計算的速度愈來愈高,與此相對應的是計算設備運行所產生的熱量也越來越高。為了降低溫度,數據中心不得不部署更多的風冷設備降溫,與之相伴的高能耗已經成為數據中心建設的最大難點。
而且,當熱流密度大于10瓦每平方厘米時,風冷技術就無能為力了。散熱技術的天花板,已成為制約服務器和數據中心發展的瓶頸。如何才能突破風冷散熱極限,滿足滿載工作的服務器的散熱需求,成為了擺在全世界高性能計算機研發人員面前的一道難題。
曙光依托多年來在服務器研發制造領域所積累的深厚經驗,引入先進理念與技術,潛心研發,于2015年率先推出了冷板式液冷服務器TC4600E-LP。該款服務器是國內首款實現產品化、商業化的液冷服務器,也是國內首款實現量產和大規模商業應用的液冷服務器。
實現精確制冷
對服務器而言,CPU是其主要發熱源,其次為內存,通過冷板式液冷技術,將制冷系統由機房外部轉移到服務器內部,分別針對CPU和內存進行散熱,實現了部件級的精確制冷。
提高散熱效率
與空氣相比,液體的比熱容更大,導熱系數更高,傳熱效率是空氣的1000~3000倍,因此液冷散熱效率遠遠高于風冷散熱。
節能降耗
與傳統風冷散熱模式相比,使用液冷技術的CPU在滿載工作時核溫降低了20℃,降低了30%-40%的基礎設施冷卻能耗,數據中心整體 PUE 值可達1.2 以下。
提升服務器性能
在傳統風冷散熱模式下,CPU的運行溫度高達80℃至90℃,而使用冷板式液冷散熱的CPU,滿載運行溫度可維持在40℃至50℃。不僅可以使CPU的性能提高約5%,完全釋放CPU的超頻性能,并且可以延長器件的使用壽命。
降低噪聲
經第三方權威機構檢測,曙光液冷服務器TC4600E-LP(僅CPU采用液冷)的滿載運行噪音小于60dB,比普通服務器降低約30dB左右。這得益于曙光液冷服務器采用液冷+風冷混合散熱的模式,90%以上的熱量可通過液冷方式帶走,其它元器件散發的不到10%的熱量仍然采用風冷散熱方式,因此對服務器內部風扇的轉速要求大大降低,風扇的功耗和噪聲也隨之減小。
降低TCO
采用液冷散熱模式的數據中心,在初期建設時成本比傳統風冷散熱模式高15%左右(含服務器與基礎設施)。但因液冷散熱模式能耗更低,在正常情況下,采用液冷散熱模式的數據中心運營3年左右,其間所節省的運營費用即可與初期多投入的成本抵消,其后每年所節省的運營費用都可視為正收益。除此之外,如果將采用液冷散熱模式所帶來的服務器性能的提升也折算到收益當中,那么約2年左右即可收回初期建設時多投入的成本。
方便維護
液冷服務器全部部件均采用熱插拔設計,其安裝和維護與普通服務器相近。同時,為保障產品的可靠性,所有接口部件均采用自封閉無滴漏的接口技術,且液冷系統內部具備完善的漏液監測和處理機制,大大縮減了維護成本,降低了維護難度。
2.分布式存儲——來自ParaStor存儲方案的核心優勢
曙光ParaStor分布式存儲系統是基于一種開放式的存儲架構,將多臺物理存儲設備的存儲空間虛擬成一個具有統一訪問接口和管理界面的存儲池。應用服務器通過統一訪問接口(NFS/CIFS/POSIX/HDFS)獲得所需要的存儲資源,將用戶數據按照一定的負載均衡策略,均勻地分布到后端的存儲設備上,進而實現數據的并行讀寫,并獲得更高的并發訪問性能。同時,所有的存儲設備在WEB界面中進行統一的管理和監控,大大減輕管理工作負擔。
液冷方案的關鍵優勢:
單一命名存儲空間,集中化共享虛擬存儲池;Scale-out擴展方式,性能和容量隨數據存儲節點數量的增加而線性增長;支持高并發IO,提供高達數百TB/s級的聚合帶寬;單一命名空間支持千億級文件數量;全冗余架構、糾刪碼等多種數據保護機制,無單點故障。
如今,深圳市氣象局超級計算平臺的部署及運行,不僅大幅度提升了氣象數據計算的速度和精度,讓氣象信息采集點倍數級密度增加成為可能,實現了天氣預報精準化、精細化,更實現了對氣象高風險區域的實時監測、實況通報及定時定點定量預估的“點對點”預報服務,滿足了氣象數據運算及預報多元化需求的全覆蓋。同時,運算能力的跨越式提升,讓大區域氣象數據的整合處理、存儲、查詢、分析和統計成為可能,實現了氣象趨勢預報的深度挖掘和分析,讓天氣趨勢的預測更加完善、更為準確。這是曙光高性能計算業務在氣象行業應用、高性能項目的實施與部署、新型液冷解決方案的建設上又一份扎實的實戰經驗,也是曙光立足核心技術、賦能數字經濟,堅持創新驅動、強化基礎支撐,為中國企業數字化轉型和數字經濟發展提供創新空間和強大動力的經典案例。
曙光,依托自身科研實力和創新能力,推動“百城百行”數據化進程,帶動產業創新,服務社會轉型。通過深耕計算產業的研究探索,不斷打造計算、數據、智能、安全四大領域的數字經濟核心技術,形成垂直一體化生態,賦能各領域數字化轉型與產業變革,讓全社會共享數據價值,為中國數字經濟發展提供強勁動力。