999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種自主設(shè)計(jì)的面向E級高性能計(jì)算的異構(gòu)融合加速器

2021-06-17 14:03:06陳海燕雷元武孫海燕楊乾明陳小文陳勝剛劉必慰魯建壯
關(guān)鍵詞:優(yōu)化

劉 勝 盧 凱 郭 陽 劉 仲 陳海燕 雷元武 孫海燕 楊乾明 陳小文 陳勝剛 劉必慰 魯建壯

(國防科技大學(xué)計(jì)算機(jī)學(xué)院 長沙 410073)

(liusheng83@nudt.edu.cn)

高性能計(jì)算(high performance computing,HPC)是推動科學(xué)技術(shù)發(fā)展的基礎(chǔ)性領(lǐng)域之一,被稱為超級計(jì)算機(jī)的“下一個明珠”的E級高性能計(jì)算時代已經(jīng)悄然來臨.面向E級高性能計(jì)算的加速器領(lǐng)域逐漸發(fā)展成為全球最高端芯片的競技場.由AMD公司于2020年11月推出的INSTINCTTMMI100加速器的雙精度峰值計(jì)算能力已經(jīng)突破10TFLOPS量級,達(dá)到11.5TFLOPS,典型功耗為300 W[1].由英偉達(dá)公司于2020年5月推出的A100 GPU[2],其可編程部分的雙精度浮點(diǎn)峰值計(jì)算能力為9.7TFLOPS,張量核(tensor core)部分的雙精度浮點(diǎn)峰值計(jì)算能力高達(dá)19.5TFLOPS,典型功耗為400 W.根據(jù)報(bào)導(dǎo),英特爾公司也將于2021年末甚至更早推出代號為Ponte Vecchio的XeHPC系列GPU,預(yù)計(jì)性能也將高達(dá)數(shù)十TFLOPS[3].

作為國內(nèi)最早開始自主處理器設(shè)計(jì)的優(yōu)勢單位之一,國防科技大學(xué)一直以來都是高性能加速器領(lǐng)域強(qiáng)有力的競爭者.本文主要對國防科技大學(xué)自主設(shè)計(jì)的一款面向E級高性能計(jì)算的加速器進(jìn)行介紹.該芯片采用了CPU+GPDSP的異構(gòu)融合架構(gòu),兼顧高性能、高效能和高可編程性的特點(diǎn),雙精度浮點(diǎn)峰值性能可達(dá)10TFLOPS以上,典型應(yīng)用情況下效能在50GFLOPS/W左右,有望成為新一代E級超算系統(tǒng)的核心計(jì)算芯片.

1 體系結(jié)構(gòu)

該芯片采用了異構(gòu)融合架構(gòu),如圖1所示.由多核CPU和4個GPDSP_Cluster五部分組成.多核CPU包含32個FT-C662 CPU內(nèi)核(兼容ARM指令集),每個GPDSP_Cluster包含24個自定義指令集的FT-M64DSP核.作為芯片的主控部分,多核CPU可以訪問和調(diào)用所有的資源,4個GPDSP_Cluster相互獨(dú)立.該芯片將主控部分和運(yùn)算部分的互連在片內(nèi)解決,從而為兩者間的通信提供高數(shù)據(jù)帶寬.

Fig.1 Architecture of the chip圖1 芯片體系結(jié)構(gòu)

GPDSP_Cluster從標(biāo)、向量并行的64 b單核結(jié)構(gòu)、可擴(kuò)展多核結(jié)構(gòu)等方面實(shí)施了全方位、多層次并行優(yōu)化,充分開發(fā)應(yīng)用的指令級、數(shù)據(jù)級、任務(wù)級并行,并針對應(yīng)用進(jìn)行了指令集級別的定制,提高了典型應(yīng)用的峰值運(yùn)算能力和效能.每個GPDSP_Cluster包含6個DSP節(jié)點(diǎn)(每個DSP節(jié)點(diǎn)包含4個DSP核).GPDSP_Cluster內(nèi)包含一個全局共享存儲器,提供了片上高帶寬的數(shù)據(jù)傳輸.還包含一個HBM2轉(zhuǎn)接橋和控制器,以支持片外高帶寬數(shù)據(jù)傳輸.采用了具備高帶寬、支持優(yōu)先權(quán)仲裁和QoS等多個特點(diǎn)的多級CrossBar(CrossNet)片上網(wǎng)絡(luò)結(jié)構(gòu),保證了數(shù)據(jù)帶寬的穩(wěn)定發(fā)揮.

1.1 GPDSP內(nèi)核結(jié)構(gòu)

DSP內(nèi)核基于自主知識產(chǎn)權(quán)的指令集設(shè)計(jì).如圖2所示,采用了超長指令字(very long instruction word,VLIW)技術(shù)和標(biāo)向量協(xié)同融合的結(jié)構(gòu).向量部件由16個同構(gòu)的VPE陣列組成,每個VPE內(nèi)部包含3個乘加單元.指控單元(L1P/Fetch/Dispatch)同時向標(biāo)量單元(scalar unit)和向量單元(vector unit)派發(fā)指令,16個VPE采用SIMD的方式同時執(zhí)行相同的向量指令.標(biāo)量部件和向量部件各自有對應(yīng)本地的局部存儲器:標(biāo)量存儲器和陣列存儲器.DSP內(nèi)核擁有一個的DMA,支持靈活高效的數(shù)據(jù)傳輸方式(如點(diǎn)對點(diǎn)、廣播、分段、Super Gather等)以充分適應(yīng)不同的應(yīng)用需求.

Fig.2 Structure of DSP Core圖2 DSP內(nèi)核結(jié)構(gòu)圖

1.2 存儲層次

為了簡化存儲管理硬件邏輯設(shè)計(jì),多核CPU內(nèi)部支持硬件Cache一致性(包含16 MB的L2Cache),GPDSP_Cluster支持軟件管理的垂直存儲一致性.面向高性能計(jì)算以及AI等應(yīng)用需求,提出了一種多層次協(xié)同共享存儲結(jié)構(gòu),將加速器GPDSP核內(nèi)的私有存儲(近80 MB,峰值帶寬98TB/s)、全局共享存儲(共24 MB,峰值帶寬1.2 TB/s)、HBM存儲(4個HBM2,峰值帶寬1.2 TB/s,容量32 GB)三級存儲架構(gòu),通過高速DMA和片上網(wǎng)絡(luò)連接,提供了高帶寬的數(shù)據(jù)傳輸和核間數(shù)據(jù)交互能力.

1.3 先進(jìn)、靈活的PCIE4.0接口

本加速器集成了2個PCIE4.0接口.每個PCIE接口除了支持4.0規(guī)范外,還兼容3.0,2.0規(guī)范.每個接口為X16設(shè)計(jì),支持EP和RC模式.

2 軟件開發(fā)環(huán)境

針對異構(gòu)融合架構(gòu)設(shè)計(jì)并實(shí)現(xiàn)了一套支持異構(gòu)多核的類CUDA開發(fā)調(diào)試運(yùn)行環(huán)境.支持用戶在同一個界面中進(jìn)行多核CPU和GPDSP異構(gòu)程序的調(diào)試,支持用戶在同一個工程甚至在一個文件中編寫CPU和GPDSP異構(gòu)程序.

如圖3所示,該芯片軟件工具鏈包含了異構(gòu)編譯器、資源管理庫、異構(gòu)運(yùn)行時庫、異構(gòu)設(shè)備庫等,方便用戶快速開發(fā)面向典型領(lǐng)域的高性能應(yīng)用.GPDSP編譯器針對多核、超長指令字、向量等特點(diǎn)進(jìn)行了一系列優(yōu)化,具體包括標(biāo)量和向量指令級并行優(yōu)化、SIMD優(yōu)化、循環(huán)展開和軟流水優(yōu)化、跳轉(zhuǎn)延遲槽調(diào)度優(yōu)化、寄存器分配優(yōu)化、謂詞優(yōu)化等.

Fig.3 Structure of the software chain圖3 軟件工具鏈結(jié)構(gòu)圖

為了發(fā)揮加速器的計(jì)算能力和易用性,提供了面向用戶核心級代碼的線性匯編開發(fā)工具,能夠在大幅提高核心代碼效率的同時 降低程序優(yōu)化難度.此外還提供與結(jié)構(gòu)相匹配的手工匯編優(yōu)化算法庫,手工匯編優(yōu)化后的算法庫比普通C語言實(shí)現(xiàn)的庫函數(shù)效率能夠提高一個數(shù)量級以上.目前已經(jīng)完成了Linpack,HPCG,CNN等算法核心算法庫的開發(fā).

3 算法效率評估

1)雙精度通用矩陣乘法(double general matrixmatrix multiplication,DGEMM)算法.采用DGEMM算法(執(zhí)行C′=A×B+C)對系統(tǒng)的計(jì)算效率進(jìn)行評測,其中矩陣A的規(guī)模為24576×512,矩陣B的規(guī)模為512×(1152×n),矩陣C的規(guī)模為24576×(1 152×n),n為矩陣規(guī)模的系數(shù).如圖4所示,DGEMM算法在系統(tǒng)的實(shí)測計(jì)算效率方面平均為94%.

Fig.4 Efficiency of DGEMM圖4 DGEMM算法的效率

2)卷積神經(jīng)網(wǎng)絡(luò)模型算法.在加速器上實(shí)現(xiàn)了深度卷積神經(jīng)網(wǎng)絡(luò)模型Alex Net.表1對比了本加速器與其他5種高性能GPU[4]實(shí)現(xiàn)Alex Net推理的計(jì)算性能.本加速器在深度卷積神經(jīng)網(wǎng)絡(luò)推理計(jì)算方面能夠達(dá)到15 108幀/秒,具有較高的計(jì)算性能.

Table 1 Comparison of Our Accelerator and Other GPUs表1 本加速器與其它GPU的性能對比

4 小 結(jié)

本文主要介紹了國防科技大學(xué)自主設(shè)計(jì)的面向E級高性能計(jì)算的加速器芯片.目前該芯片已經(jīng)順利流片和量產(chǎn),下一步將圍繞該芯片進(jìn)行工具鏈和應(yīng)用開發(fā)進(jìn)行更深入的工作.

作者貢獻(xiàn)聲明:盧凱(芯片架構(gòu)設(shè)計(jì))、郭陽(芯片結(jié)構(gòu)設(shè)計(jì))、劉仲(芯片算法評估)三人對本文具有同等貢獻(xiàn),均為通信作者.

猜你喜歡
優(yōu)化
超限高層建筑結(jié)構(gòu)設(shè)計(jì)與優(yōu)化思考
PEMFC流道的多目標(biāo)優(yōu)化
能源工程(2022年1期)2022-03-29 01:06:28
民用建筑防煙排煙設(shè)計(jì)優(yōu)化探討
關(guān)于優(yōu)化消防安全告知承諾的一些思考
一道優(yōu)化題的幾何解法
由“形”啟“數(shù)”優(yōu)化運(yùn)算——以2021年解析幾何高考題為例
圍繞“地、業(yè)、人”優(yōu)化產(chǎn)業(yè)扶貧
事業(yè)單位中固定資產(chǎn)會計(jì)處理的優(yōu)化
4K HDR性能大幅度優(yōu)化 JVC DLA-X8 18 BC
幾種常見的負(fù)載均衡算法的優(yōu)化
電子制作(2017年20期)2017-04-26 06:57:45
主站蜘蛛池模板: 久久人人妻人人爽人人卡片av| 中国毛片网| 国产成人在线无码免费视频| 91九色视频网| 亚洲人成人伊人成综合网无码| 中国成人在线视频| 免费无码一区二区| 一区二区三区国产精品视频| 99尹人香蕉国产免费天天拍| 欧美综合激情| 欧美成人一级| 亚洲午夜18| 国产成人欧美| 日本亚洲成高清一区二区三区| 欧美国产日韩另类| a亚洲视频| 综合亚洲网| 91久久大香线蕉| 日韩资源站| 国产亚洲视频免费播放| 日韩视频精品在线| 成年女人18毛片毛片免费| 正在播放久久| 国产成人高清精品免费| 男女猛烈无遮挡午夜视频| 国产主播福利在线观看| 久久久久人妻一区精品色奶水| 91精品国产一区| 欧美日韩激情| www精品久久| 亚洲综合亚洲国产尤物| 久久黄色一级片| 久久黄色一级视频| 无码免费的亚洲视频| 久久精品只有这里有| 国产精品hd在线播放| 理论片一区| 欧美日韩另类国产| 中文字幕人成人乱码亚洲电影| 亚洲综合国产一区二区三区| 亚国产欧美在线人成| 日韩精品中文字幕一区三区| 久草视频中文| 少妇人妻无码首页| 一级毛片无毒不卡直接观看| 国产精品久久久久久久久久98| 高清色本在线www| 真人免费一级毛片一区二区| 亚洲国产午夜精华无码福利| 国产乱人乱偷精品视频a人人澡| 欧美人在线一区二区三区| 国产AV无码专区亚洲精品网站| 中文字幕久久亚洲一区| 福利国产微拍广场一区视频在线| 国产视频你懂得| 国产欧美精品一区二区| 亚洲欧洲日韩久久狠狠爱| 91久久偷偷做嫩草影院精品| 亚洲综合精品香蕉久久网| 看你懂的巨臀中文字幕一区二区| 国产在线欧美| 乱人伦99久久| 国产伦精品一区二区三区视频优播 | 亚洲欧美一区二区三区蜜芽| 日韩毛片免费视频| 亚洲综合色婷婷| 欧美成人免费午夜全| 亚洲无码91视频| 五月婷婷丁香综合| 丁香婷婷久久| 亚洲成av人无码综合在线观看 | 国产亚洲高清在线精品99| 中文天堂在线视频| 亚洲精品卡2卡3卡4卡5卡区| 97青青青国产在线播放| 第九色区aⅴ天堂久久香| www亚洲精品| 亚洲视频免费播放| 波多野结衣无码AV在线| aa级毛片毛片免费观看久| 国产精品自在拍首页视频8| 久久99国产综合精品女同|