999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于“碳中和”的高性能計(jì)算集群組網(wǎng)建設(shè)方法探析

2022-12-08 17:03:22陳堅(jiān)澤
現(xiàn)代計(jì)算機(jī) 2022年19期
關(guān)鍵詞:資源建設(shè)管理

陳 陽(yáng), 陳堅(jiān)澤

(廣東液冷時(shí)代科技有限公司,佛山 528000)

0 引言

2021 年3 月13 日,新華社公布了《中華人民共和國(guó)國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展第十四個(gè)五年規(guī)劃和2035 年遠(yuǎn)景目標(biāo)綱要》(以下簡(jiǎn)稱《綱要》),《綱要》指出以人工智能為代表的新一代信息技術(shù),將成為我國(guó)“十四五”期間推動(dòng)經(jīng)濟(jì)高質(zhì)量發(fā)展、建設(shè)創(chuàng)新型國(guó)家,實(shí)現(xiàn)新型工業(yè)化、信息化、城鎮(zhèn)化和農(nóng)業(yè)現(xiàn)代化的重要技術(shù)保障和核心驅(qū)動(dòng)力之一[1]。圍繞國(guó)家人工智能戰(zhàn)略布局和產(chǎn)業(yè)發(fā)展需求,各地政府積極建設(shè)人工智能技術(shù)支撐平臺(tái),如人工智能基礎(chǔ)研究[2]、智慧交通[3]、區(qū)塊鏈金融、物聯(lián)網(wǎng)技術(shù)[4]等,同時(shí)啟動(dòng)智慧城市大數(shù)據(jù)平臺(tái)[5]等建設(shè),為人工智能研究和應(yīng)用提供健全完善的基礎(chǔ)平臺(tái)服務(wù)。這些平臺(tái)建設(shè)對(duì)基礎(chǔ)計(jì)算算力提出了更高的要求,亟需建設(shè)一個(gè)高性能計(jì)算服務(wù)器集群公共服務(wù)平臺(tái),為人工智能技術(shù)支撐平臺(tái)以及人工智能科學(xué)研究提供高性能、高通量的算力科研保障。同時(shí),高計(jì)算平臺(tái)也意味著需要更高的能耗才能支撐高算力,在國(guó)家“碳中和”的政策下,如何利用新型技術(shù),解決高性能數(shù)據(jù)中心所帶來(lái)的高能耗問(wèn)題也是建立高性能數(shù)據(jù)中心的潛在研究問(wèn)題。

本文以華南某科研機(jī)構(gòu)建立高性能計(jì)算服務(wù)器集群建設(shè)項(xiàng)目為例,重點(diǎn)介紹高性能計(jì)算服務(wù)器集群建設(shè)中的高性能計(jì)算集群、節(jié)能建設(shè)、分布式存儲(chǔ)集群、高性能計(jì)算網(wǎng)絡(luò)等方案建設(shè)內(nèi)容,并討論高性能計(jì)算服務(wù)器集群管理需求以及相應(yīng)管理方法。

1 高性能計(jì)算服務(wù)器集群建設(shè)

華南某科研機(jī)構(gòu)在前期投資建設(shè)項(xiàng)目中已基本完成實(shí)驗(yàn)室數(shù)據(jù)中心基礎(chǔ)條件建設(shè),包括完成基礎(chǔ)機(jī)房環(huán)境、電氣系統(tǒng)、基礎(chǔ)綜合布線鋪設(shè)等方面的建設(shè),現(xiàn)針對(duì)人工智能關(guān)鍵技術(shù)攻關(guān)的算力需求,搭建十個(gè)小型計(jì)算集群,每個(gè)計(jì)算小型集群配置算力1PFLOPS 計(jì)算資源,構(gòu)建一個(gè)柔性的高性能計(jì)算集群,同時(shí)采用液冷散熱技術(shù)提升集群服務(wù)器散熱問(wèn)題,減少空調(diào)機(jī)組裝配,實(shí)現(xiàn)“碳中和”節(jié)能目標(biāo)。

圖1 高性能計(jì)算服務(wù)器集群建設(shè)機(jī)柜置放示意圖

下面從高性能計(jì)算集群、節(jié)能建設(shè)、分布式存儲(chǔ)集群、高性能計(jì)算網(wǎng)絡(luò)等方面闡述高性能計(jì)算服務(wù)器集群建設(shè)內(nèi)容。

1.1 高性能計(jì)算集群方案

高性能計(jì)算集群建設(shè)基于高性能計(jì)算(High Performance Computing, HPC)技術(shù)基礎(chǔ)構(gòu)建計(jì)算集群平臺(tái),其中十臺(tái)管理服務(wù)器,分別用于管理十個(gè)集群,同時(shí)配備兩臺(tái)管理服務(wù)器,用于做統(tǒng)一集群管理。高性能計(jì)算集群總體業(yè)務(wù)架構(gòu)分為以下四層遞進(jìn)建設(shè)。

(1)基礎(chǔ)設(shè)施層:利用已建成的模塊,方便快速組裝,本項(xiàng)目在現(xiàn)有機(jī)房基礎(chǔ)設(shè)施上部署服務(wù)器集群、搭建高性能存儲(chǔ)集群、搭建內(nèi)部集群網(wǎng)絡(luò)。

(2)平臺(tái)核心集群模塊:搭建核心GPU 計(jì)算集群、分布式存儲(chǔ)集群、高性能運(yùn)算網(wǎng)絡(luò)。計(jì)算方面,搭建高性能GPU 計(jì)算服務(wù)器集群,支撐高密度算力運(yùn)算需求;存儲(chǔ)方面,搭建分布式海量存儲(chǔ)集群,支撐海量數(shù)據(jù)高吞吐訪問(wèn)及高容量存儲(chǔ);網(wǎng)絡(luò)方面,搭建高速運(yùn)算網(wǎng)絡(luò)、高速存儲(chǔ)網(wǎng)絡(luò)、管理網(wǎng)路。

(3)硬件上構(gòu)建核心軟件中臺(tái):主要實(shí)現(xiàn)集群管理與作業(yè)調(diào)度功能,其中,集群管理通過(guò)安裝部署集群管理軟件,構(gòu)建服務(wù)器集群體系,實(shí)現(xiàn)算力資源虛擬化管理;作業(yè)調(diào)度則在集群基礎(chǔ)上部署作業(yè)調(diào)度管理軟件,構(gòu)建算力資源調(diào)度體系,實(shí)現(xiàn)算力資源彈性調(diào)度管理。

(4)算力業(yè)務(wù)應(yīng)用層:通過(guò)構(gòu)建高性能計(jì)算開(kāi)放平臺(tái),對(duì)各用戶提供適用于各種運(yùn)算業(yè)務(wù)的運(yùn)算資源和數(shù)據(jù),如大數(shù)據(jù)計(jì)算、基因測(cè)序、多模態(tài)數(shù)據(jù)模型、圖像識(shí)別等。

1.2 節(jié)能建設(shè)方案

從最新的國(guó)家政策導(dǎo)向可知,數(shù)據(jù)中心低碳節(jié)能已經(jīng)是數(shù)據(jù)中心建設(shè)和運(yùn)營(yíng)很重要的一個(gè)指標(biāo),數(shù)據(jù)中心節(jié)能降耗成為國(guó)家“碳中和”“碳達(dá)峰”戰(zhàn)略的重要一環(huán)。因此,基礎(chǔ)計(jì)算平臺(tái)建設(shè)應(yīng)該滿足IDC能耗政策要求。

本次高性能計(jì)算服務(wù)器集群節(jié)能方案采用液冷熱管理節(jié)能技術(shù),該技術(shù)利用超高導(dǎo)熱系數(shù)的液冷導(dǎo)熱模組將服務(wù)器高熱流密度的核心芯片熱量通過(guò)液冷模塊帶到服務(wù)器外,進(jìn)一步通過(guò)水循環(huán)冷卻系統(tǒng)排到室外,液冷循環(huán)采用自然冷卻無(wú)需壓縮機(jī),實(shí)現(xiàn)節(jié)能效果。圖2為本次建設(shè)采用的間接液冷系統(tǒng)熱管理架構(gòu)圖,間接液冷系統(tǒng)由導(dǎo)熱液冷模組、快速接頭、液冷分配單元、冷量溫控單元、一次冷卻環(huán)路、二次冷卻環(huán)路、封閉氣冷通道、自然冷卻單元等構(gòu)成,具有低能耗、高功率密度、高可靠性等優(yōu)點(diǎn)。

圖2 間接液冷技術(shù)原理圖

1.3 分布式存儲(chǔ)集群方案

為構(gòu)建分布式高性能存儲(chǔ)集群,集群建設(shè)采用基于BeeGFS 并行文件系統(tǒng)分布式存儲(chǔ)方案, 其主要優(yōu)勢(shì)表現(xiàn)在:①分布式文件內(nèi)容和元數(shù)據(jù),有效避免架構(gòu)瓶頸,一方面可跨多個(gè)服務(wù)器的條帶化文件內(nèi)容,另一方面則可使文件系統(tǒng)的元數(shù)據(jù)存放于多個(gè)元數(shù)據(jù)服務(wù)器內(nèi)。②兼容性好,BeeGFS存儲(chǔ)服務(wù)基于橫向擴(kuò)展(Scale-Out)設(shè)計(jì)。每個(gè)BeeGFS文件系統(tǒng)實(shí)例可以具有一個(gè)或多個(gè)存儲(chǔ)服務(wù)組件,方便提高性能與空間。一個(gè)存儲(chǔ)服務(wù)實(shí)例具有一個(gè)或多個(gè)存儲(chǔ)服務(wù)組件。③緩存優(yōu)化能力強(qiáng),由于BeeGFS 自動(dòng)使用存儲(chǔ)服務(wù)器上的所有可用RAM 自動(dòng)進(jìn)行緩存,因此它還可以在將數(shù)據(jù)寫(xiě)入磁盤(pán)之前將較小的IO 請(qǐng)求聚合到較大的塊中。④優(yōu)化高并發(fā)訪問(wèn),BeeGFS用于在高I/O負(fù)載的情況下提供最佳的穩(wěn)健性和性能,優(yōu)化解決簡(jiǎn)單的文件系統(tǒng)(比如NFS)在高并發(fā)訪問(wèn)的情況下存在嚴(yán)重的性能問(wèn)題,以及在多個(gè)客戶端寫(xiě)入同一個(gè)共享文件時(shí)會(huì)損壞數(shù)據(jù)等典型問(wèn)題。

1.4 高性能計(jì)算網(wǎng)絡(luò)方案

在高性能計(jì)算場(chǎng)景下,由于集群之間需要相互通信,所以對(duì)網(wǎng)絡(luò)的帶寬和時(shí)延要求比較高(應(yīng)用之間帶寬>40 Gbps,時(shí)延<10 us 微秒),現(xiàn)有的TCP/IP 軟硬件結(jié)構(gòu)無(wú)法滿足該需求,因此需要使用RDMA(Remote Direct Memory Access)技術(shù)遠(yuǎn)程直接內(nèi)存訪問(wèn),構(gòu)建IB(Infiniband)網(wǎng)絡(luò)實(shí)現(xiàn)高性能場(chǎng)景下高速度、高吞吐網(wǎng)絡(luò)傳輸需求。RDMA 模式對(duì)數(shù)據(jù)包的加工都在網(wǎng)卡內(nèi)完成。因此就跳過(guò)了操作系統(tǒng),直接把數(shù)據(jù)發(fā)送到網(wǎng)卡內(nèi),少了應(yīng)用內(nèi)存與內(nèi)核數(shù)據(jù)之間的交互,所以速度上更快,時(shí)延更短。IB網(wǎng)絡(luò):基于無(wú)限帶寬技術(shù),這種網(wǎng)絡(luò)有很高的帶寬(100 Gb/s 以上)和非常低的時(shí)延(毫秒級(jí))。

2 高性能計(jì)算服務(wù)器集群管理方法

2.1 高性能計(jì)算服務(wù)器集群管理需求分析

本次高性能計(jì)算服務(wù)器集群管理通過(guò)集群管理軟件,構(gòu)建服務(wù)器集群體系,實(shí)現(xiàn)算力資源虛擬化管理。其中集群管理需求主要表現(xiàn)在如下方面:

(1)滿足對(duì)多種深度學(xué)習(xí)、機(jī)器學(xué)習(xí)及大數(shù)據(jù)任務(wù)的資源調(diào)度和管理需求,要求提供大規(guī)模GPU 集群調(diào)度、集群監(jiān)控、任務(wù)監(jiān)控、分布式存儲(chǔ)等功能。

(2)實(shí)現(xiàn)集群資源調(diào)度與服務(wù)管理統(tǒng)籌,提供針對(duì)GPU 優(yōu)化的調(diào)度算法,實(shí)現(xiàn)集群資源調(diào)度高效管理。

(3)提供面向用戶的可視化接口或應(yīng)用接口,網(wǎng)頁(yè)端可視化界面、客戶端SDK、集成開(kāi)發(fā)環(huán)境(IDE)拓展接口等。

(4)提供豐富的用戶管理,集群、任務(wù)監(jiān)控,任務(wù)調(diào)度,任務(wù)錯(cuò)誤分析,任務(wù)監(jiān)控等服務(wù)功能,提高運(yùn)維人員的工作效率。

(5)實(shí)現(xiàn)容器化和微服務(wù)化,使得運(yùn)行環(huán)境可以在開(kāi)發(fā)和運(yùn)維達(dá)到統(tǒng)一。軟件需支持任何形式的計(jì)算任務(wù)以及大部分計(jì)算框架,包括各種深度學(xué)習(xí)框架和機(jī)器學(xué)習(xí)框架(如PyTorch、Tensorflow)等。

2.2 高性能計(jì)算服務(wù)器集群管理方法探析

針對(duì)以上分析的高性能計(jì)算服務(wù)器集群管理需求,設(shè)計(jì)圖3的高性能計(jì)算服務(wù)器集群管理架構(gòu)圖,共分為用戶管理、集群管理、業(yè)務(wù)管理三大方面。

圖3 高性能計(jì)算服務(wù)器集群管理架構(gòu)圖

2.2.1 用戶管理

及對(duì)用戶組群集資源參數(shù)進(jìn)行管理如用戶組的GPU 數(shù)量、存儲(chǔ)配額、組名、最大運(yùn)行作業(yè)數(shù)、等待作業(yè)數(shù)等;支持同時(shí)在多個(gè)已分配資源的租戶空間執(zhí)行任務(wù),各用戶資源互不影響。設(shè)置不同的資源分配和服務(wù)訪問(wèn)權(quán)限;不同用戶組間實(shí)現(xiàn)數(shù)據(jù)隔離。

2.2.2 集群管理

包括分布式管理、并行訓(xùn)練作業(yè)管理、集群總計(jì)顯示等內(nèi)容。分布式管理是集群管理的重點(diǎn),包括如下方面:

(1)分布式計(jì)算集群監(jiān)控:包括集群資源總體監(jiān)控人GPU資源監(jiān)控。集群資源總體監(jiān)控,監(jiān)控和顯示群集GPU、內(nèi)存和存儲(chǔ)總體使用情況。

(2)分布式計(jì)算集群管理:對(duì)用戶組進(jìn)行集群資源配額管理,對(duì)組內(nèi)用戶進(jìn)行集群資源配額管理;集群資源管理,動(dòng)態(tài)添加基礎(chǔ)資源,動(dòng)態(tài)分配和管理集群資源。

(3)分布式資源調(diào)度管理:執(zhí)行任務(wù)優(yōu)先級(jí)管理;實(shí)時(shí)任務(wù)資源分配和調(diào)度管理;以任務(wù)方式根據(jù)優(yōu)先級(jí)分配計(jì)算資源,任務(wù)完成進(jìn)行計(jì)算資源回收;計(jì)算作業(yè)資源監(jiān)控和執(zhí)行情況顯示。

(4)分布式訓(xùn)練任務(wù)管理:訓(xùn)練任務(wù)配置管理,基礎(chǔ)任務(wù)參數(shù)管理;訓(xùn)練任務(wù)執(zhí)行管理;訓(xùn)練任務(wù)監(jiān)控,查看模型訓(xùn)練和資源使用情況。

2.2.3 業(yè)務(wù)管理

基于高性能計(jì)算服務(wù)器集群應(yīng)用的一站式業(yè)務(wù)流程管理,包括一站式項(xiàng)目流程管理、一站式AI開(kāi)發(fā)工程管理、交互式開(kāi)發(fā)管理等。

(1)一站式項(xiàng)目流程管理:實(shí)現(xiàn)項(xiàng)目流程構(gòu)建、項(xiàng)目流程表單設(shè)計(jì)、任務(wù)分配、團(tuán)隊(duì)管理、項(xiàng)目流程可視化、項(xiàng)目檢索等項(xiàng)目流程管理支持。

(2)一站式AI開(kāi)發(fā)工程管理:包括數(shù)據(jù)集管理、數(shù)據(jù)集推薦、模型訓(xùn)練、模型部署、API調(diào)用示例、關(guān)聯(lián)用戶訓(xùn)練任務(wù)與部署任務(wù)等內(nèi)容。

(3)交互式開(kāi)發(fā)管理:支持用戶通過(guò)平臺(tái)內(nèi)置AI 鏡像進(jìn)行創(chuàng)建交互式開(kāi)發(fā)環(huán)境,環(huán)境實(shí)例可以使用CPU 資源也可以使用GPU 資源;平臺(tái)支持開(kāi)發(fā)實(shí)例的持久化。

3 結(jié)語(yǔ)

在國(guó)家人工智能戰(zhàn)略布局和產(chǎn)業(yè)發(fā)展大背景下,高性能計(jì)算服務(wù)器集群公共服務(wù)平臺(tái)建設(shè)需求日漸突出。本文提供一種切實(shí)可行、低碳高能效的高性能計(jì)算服務(wù)器集群建設(shè)方案,并探析高性能計(jì)算服務(wù)器集群管理方法,借助自主研發(fā)集群管理軟件,構(gòu)建服務(wù)器集群體系,實(shí)現(xiàn)算力資源虛擬化管理。相關(guān)管理方法有待在實(shí)踐中進(jìn)一步優(yōu)化和深化。

猜你喜歡
資源建設(shè)管理
棗前期管理再好,后期管不好,前功盡棄
基礎(chǔ)教育資源展示
一樣的資源,不一樣的收獲
自貿(mào)區(qū)建設(shè)再出發(fā)
資源回收
基于IUV的4G承載網(wǎng)的模擬建設(shè)
電子制作(2018年14期)2018-08-21 01:38:28
《人大建設(shè)》伴我成長(zhǎng)
保障房建設(shè)更快了
民生周刊(2017年19期)2017-10-25 10:29:03
資源再生 歡迎訂閱
資源再生(2017年3期)2017-06-01 12:20:59
“這下管理創(chuàng)新了!等7則
雜文月刊(2016年1期)2016-02-11 10:35:51
主站蜘蛛池模板: 国产欧美专区在线观看| aa级毛片毛片免费观看久| 在线播放真实国产乱子伦| 日韩高清欧美| 欧美国产三级| 日韩成人在线视频| 天天躁日日躁狠狠躁中文字幕| 久热中文字幕在线| 高清免费毛片| 91极品美女高潮叫床在线观看| 日韩黄色精品| 亚洲福利片无码最新在线播放| 2021无码专区人妻系列日韩| 欧美成人精品一级在线观看| 国产成人精品免费视频大全五级| 国产午夜一级毛片| 国产成人综合久久| 亚洲精品视频免费看| 婷婷六月色| 久久久久亚洲精品无码网站| 77777亚洲午夜久久多人| 九九这里只有精品视频| 国产v欧美v日韩v综合精品| 久久黄色小视频| 亚洲男人的天堂久久精品| 亚洲欧洲AV一区二区三区| 日韩无码真实干出血视频| 99精品在线视频观看| 久久亚洲国产一区二区| V一区无码内射国产| 国产第八页| 亚洲三级成人| 亚洲精品你懂的| 黄色网站不卡无码| 日韩av资源在线| 国产成人免费视频精品一区二区| 欧美一级高清片欧美国产欧美| 国产波多野结衣中文在线播放 | 亚洲视频色图| 国产毛片高清一级国语 | 色噜噜狠狠色综合网图区| 99在线视频网站| 久久精品国产精品国产一区| 亚洲欧美极品| 国产亚洲欧美在线视频| 亚洲VA中文字幕| 尤物视频一区| 国产国语一级毛片| 成人亚洲视频| 污网站免费在线观看| 97在线碰| 婷婷五月在线视频| 亚洲成a人片77777在线播放| 香蕉视频国产精品人| 国产精品女在线观看| 日本高清成本人视频一区| 中文字幕一区二区人妻电影| 中文字幕亚洲电影| 国产极品美女在线| 色一情一乱一伦一区二区三区小说| 亚洲无码在线午夜电影| 特级aaaaaaaaa毛片免费视频| 欧美色综合网站| 国产亚洲欧美在线人成aaaa| 9966国产精品视频| 国产亚洲精品无码专| 久久公开视频| 欧美亚洲一二三区| 欧美专区日韩专区| 人禽伦免费交视频网页播放| 国产18在线播放| 色爽网免费视频| 亚洲人成人无码www| 亚洲精品图区| 久久久久青草大香线综合精品 | 精品伊人久久久大香线蕉欧美| 综合色区亚洲熟妇在线| 手机精品视频在线观看免费| 国产麻豆福利av在线播放| 麻豆精品视频在线原创| 狠狠色成人综合首页| 亚洲日韩高清无码|