999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

可重構(gòu)卷積神經(jīng)網(wǎng)絡(luò)加速器設(shè)計與實(shí)現(xiàn)*

2022-02-28 13:52:14鄧軍勇謝曉燕
傳感器與微系統(tǒng) 2022年2期
關(guān)鍵詞:設(shè)計

王 肖, 鄧軍勇, 謝曉燕

(1.西安郵電大學(xué) 電子工程學(xué)院,陜西 西安 710121; 2.西安郵電大學(xué) 計算機(jī)學(xué)院,陜西 西安 710121)

0 引 言

目前,基于FPGA的加速器設(shè)計工作大多是以減少訪存次數(shù)或者提升計算吞吐量來優(yōu)化性能或能效,如文獻(xiàn)[3]中Eyeriss提出了一種行固定數(shù)據(jù)流來減少數(shù)據(jù)移動來提高能效;文獻(xiàn)[4]針對在計算資源和存儲帶寬受限情況下,通過提高加速器的計算并行度來提高能效;文獻(xiàn)[5]通過定點(diǎn)量化、激活函數(shù)近似、流水線并行化等方法來優(yōu)化加速器的性能。然而,由于卷積神經(jīng)網(wǎng)絡(luò)的多樣性,給加速器的高能效設(shè)計和數(shù)據(jù)復(fù)用帶來了挑戰(zhàn),通常一種處理引擎只能處理一種卷積核,卷積核種類和計算資源之間的不匹配導(dǎo)致資源利用率的下降。針對此類問題,一些學(xué)者提出了可重構(gòu)卷積神經(jīng)網(wǎng)絡(luò)加速器的設(shè)計方法,文獻(xiàn)[6]提出了一種細(xì)粒度可支持多種卷積神經(jīng)網(wǎng)絡(luò)的可重構(gòu)加速器,由484個PEs構(gòu)成22×22矩陣的異構(gòu)陣列,并且采用多級內(nèi)存層次結(jié)構(gòu)提供更高的計算并行度;然而該設(shè)計是將整個22×22矩陣陣列展開,導(dǎo)致加速器面積較大,功耗較高。文獻(xiàn)[7,8]提出了一種基于FPGA可重構(gòu)卷積神經(jīng)網(wǎng)絡(luò)加速器,利用基本處理單元作為計算引擎的構(gòu)建塊,處理單元可擴(kuò)展為支持多種網(wǎng)絡(luò)體系結(jié)構(gòu),雖然可以支持多種網(wǎng)絡(luò)結(jié)構(gòu)的處理,但由于重構(gòu)方式不理想,導(dǎo)致通過基本處理單元擴(kuò)展為支持多種網(wǎng)絡(luò)結(jié)構(gòu)的處理單元會造成部分計算單元的浪費(fèi)以及不必要的數(shù)據(jù)搬移。

針對當(dāng)前卷積神經(jīng)網(wǎng)絡(luò)加速器難以在實(shí)現(xiàn)高能效的同時卷積處理引擎靈活地適應(yīng)多種卷積核,本文提出一種卷積神經(jīng)網(wǎng)絡(luò)的可重構(gòu)加速器設(shè)計方案。

1 卷積神經(jīng)網(wǎng)絡(luò)模型分析

卷積神經(jīng)網(wǎng)絡(luò)通常由卷積層、池化層和全連接層構(gòu)成,如圖1所示,其中的K,S分別代表卷積核的大小和卷積步長。通常不同的卷積神經(jīng)網(wǎng)絡(luò)的卷積層通常體現(xiàn)在這些參數(shù)的差異上,如AlexNet 的k2=5,k3,k4,k5=3,LeNet-5網(wǎng)絡(luò)的k1,k2,k3=5。

圖1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

從卷積神經(jīng)網(wǎng)絡(luò)算法層面上來看,卷積層的數(shù)據(jù)復(fù)用關(guān)系和并行處理方式[8,9]具有以下特點(diǎn):

1)卷積核在圖像上移動,會存在部分重復(fù)數(shù)據(jù),可以直接用于下一次卷積運(yùn)算。

2)多個卷積核和同一幅圖像做卷積運(yùn)算,生成的多個卷積輸出通道可以做并行計算處理。

3)當(dāng)處理多幅圖像時,同一個卷積核與多幅圖像做卷積計算,卷積核在多張圖像上實(shí)現(xiàn)共享。

通過上述分析,卷積神經(jīng)網(wǎng)絡(luò)是一種規(guī)律可循的模型,模型的計算方式是逐層計算,并且每一層卷積計算是相對獨(dú)立的,根據(jù)網(wǎng)絡(luò)當(dāng)前層的處理需要分配合適的處理單元進(jìn)行計算,這種計算方式適合采用可重構(gòu)的設(shè)計方法。不同的重構(gòu)方式,對硬件計算單元的利用率不同,因此采用合適的重構(gòu)設(shè)計方式,并利用卷積層中的數(shù)據(jù)復(fù)用關(guān)系和多通道并行處理能力,通過改變PE的數(shù)據(jù)通路實(shí)現(xiàn)不同卷積的處理,不僅可以節(jié)省大量的硬件資源,同時可以加速不同的卷積神經(jīng)網(wǎng)絡(luò)模型。

3) CTV與常規(guī)油船外輸軟管連接。啟動CTV軟管收放滾筒,由艉部服務(wù)吊機(jī)協(xié)助,將外輸軟管放到輔助拖船上,拖船將軟管拖到常規(guī)油船中部,油船吊機(jī)將軟管吊至油船集管區(qū),與接油管連接好。

由于卷積層計算的密集性給加速器的設(shè)計帶來了諸多挑戰(zhàn),采用多處理器(PE)的設(shè)計方式實(shí)現(xiàn)并行處理是必要的選擇[10]。在卷積層中使用較小的卷積核可以保持網(wǎng)絡(luò)性能的同時降低計算復(fù)雜度,因此,本文設(shè)計采用3×3大小卷積核作為基礎(chǔ)PE,以適應(yīng)卷積神經(jīng)網(wǎng)絡(luò)模型中的大多數(shù)層,考慮到FPGA有限的硬件資源和加速器的低功耗設(shè)計,設(shè)計一個由18個PE組成的處理器陣列。

2 卷積神經(jīng)網(wǎng)絡(luò)可重構(gòu)設(shè)計

2.1 整體結(jié)構(gòu)

根據(jù)上述對卷積神經(jīng)網(wǎng)絡(luò)可重構(gòu)方案分析和文獻(xiàn)[4,7,10],提出本文的加速器架構(gòu),硬件的整體結(jié)構(gòu)如圖2所示,主要由計算核堆、片上緩沖區(qū)、控制器組成。其中,計算核堆承擔(dān)了卷積神經(jīng)網(wǎng)絡(luò)中的主要計算任務(wù),片上緩沖區(qū)包括輸入緩沖、權(quán)值緩存和輸出緩沖三個部分,分別用于存儲即將被計算核消耗的數(shù)據(jù)、各種大小的卷積核和計算核生成的中間數(shù)據(jù)。控制器控制接收和發(fā)送信息給其他四個部分,控制每部分的狀態(tài)并檢查當(dāng)前狀態(tài)是否可以運(yùn)行。

圖2 加速器結(jié)構(gòu)

2.2 計算核設(shè)計

計算核模塊主要包括卷積器單元、加法樹單元、非線性單元和池化單元,計算核的計算流程如圖3所示,實(shí)線計算路徑進(jìn)行3×3卷積運(yùn)算,虛線計算路徑進(jìn)行5×5卷積運(yùn)算。

圖3 計算核總體結(jié)構(gòu)

2.3 PE結(jié)構(gòu)設(shè)計

本文設(shè)計的基礎(chǔ)PE如圖4所示,其中,寄存器堆由9個寄存器組成,主要功能是暫存乘法運(yùn)算后得到的9個數(shù)據(jù),在AlexNet網(wǎng)絡(luò)中,當(dāng)計算3×3大小卷積時,步長為1,計算一次卷積計算會有6個數(shù)據(jù)可以在下一次卷積運(yùn)算中實(shí)現(xiàn)復(fù)用,根據(jù)電路的設(shè)計,9個寄存器采用流水線的設(shè)計方式,每次處理時更新一個數(shù)據(jù),三個時鐘周期即可完成3個數(shù)據(jù)的更新,并與保留的6個寄存器數(shù)據(jù)做加法操作,如此迭代,可以在每次卷積運(yùn)算中減少6次乘法計算,有效減少處理時間。

圖4 基礎(chǔ)PE結(jié)構(gòu)

PE的重構(gòu)通過多個基礎(chǔ)PE組合來實(shí)現(xiàn),為了盡可能提高計算資源的利用率,采用圖5所示的重構(gòu)計算方式,當(dāng)處理5×5卷積運(yùn)算時,設(shè)計由3個基礎(chǔ)PE組合來完成,在處理之前首先利用控制器對特征圖進(jìn)行預(yù)處理,對特征圖上的每個權(quán)值進(jìn)行標(biāo)記,使得PE可以根據(jù)地址找到需要處理的特征圖區(qū)域,例如,調(diào)用PE0,PE1,PE2完成一次5×5卷積計算時,需要通過控制器控制PE處理的地址,定義PE0的處理地址從0到8;定義PE1處理的地址從9到17;定義PE2的地址從18到24;三個PE對同一幅特征圖做卷積計算,完成卷積運(yùn)算后將三個寄存器堆中的數(shù)據(jù)求和完成一次5×5卷積運(yùn)算,構(gòu)建的5×5處理PE結(jié)構(gòu)如圖5(a)所示。5×5卷積過程如圖5(b)所示,PE0,PE1,PE2分別和空白區(qū)域、深灰色區(qū)域、淺灰色區(qū)域做卷積計算,每個PE的控制器控制其區(qū)域的移動,直到完成整個特征圖的卷積運(yùn)算,三個PE每完成一次滑窗的卷積做一次加法完成一次5×5卷積運(yùn)算。斜線區(qū)域是一次5×5卷積可以數(shù)據(jù)復(fù)用的部分,該區(qū)域的復(fù)用同時也劃分為三個區(qū)域,白色區(qū)域由PE0中的寄存器存儲,深灰色區(qū)域由PE1中的寄存器存儲,淺灰色區(qū)域由PE2中的寄存器存儲。每完成一次5×5卷積運(yùn)算有20個數(shù)據(jù)可以用于下次的卷積運(yùn)算,一次5×5卷積運(yùn)算可以減少20次乘法計算,最大程度地利用有限的計算單元,而文獻(xiàn)[8]的重構(gòu)設(shè)計方式是利用4個3×3卷積核構(gòu)建一個5×5卷積核,導(dǎo)致更多的計算單元被浪費(fèi),同時增加了不必要的數(shù)據(jù)搬移。因此相比于文獻(xiàn)[6~8],本文在計算資源的利用率和系統(tǒng)功耗上優(yōu)勢明顯。

圖5 5×5卷積運(yùn)算PE結(jié)構(gòu)和處理過程

2.4 非線性單元設(shè)計

每一層卷積計算完成,會加上一個修正線性單元對數(shù)據(jù)進(jìn)行非線性化,優(yōu)勢是在更高維度上對圖像進(jìn)行分類,本文采用ReLU作為激活函數(shù),當(dāng)輸入為負(fù)時,輸出值均為0,當(dāng)輸入為非負(fù)時,輸出與輸入的數(shù)值保持一致。計算公式如下

f(x)=max(0,x)

(1)

在池化層處理過程中,AlexNet網(wǎng)絡(luò)采用3×3大小的池化窗口,使用一個臨時緩存將上一層卷積計算結(jié)果保存,每一次的卷積輸出都和這個臨時緩存做比較,較大的數(shù)據(jù)繼續(xù)存儲在這個臨時緩存中,較小的數(shù)據(jù)被丟棄,使用一個控制信號控制池化窗口的步長,完成一次池化后,重復(fù)以上的操作,直至完成一層的池化。

2.5 調(diào)度控制器設(shè)計

當(dāng)接收到輸入圖像的像素信息時,首先對卷積神經(jīng)網(wǎng)絡(luò)算法要處理的網(wǎng)絡(luò)層進(jìn)行判斷,確定當(dāng)前處理層在整個網(wǎng)絡(luò)中的位置后,根據(jù)網(wǎng)絡(luò)算法對應(yīng)層所需的數(shù)據(jù)進(jìn)行塊取數(shù),在取出來的像素值和與之對應(yīng)的權(quán)值進(jìn)行卷積計算之前,對當(dāng)前層所需要的卷積核大小進(jìn)行判斷,當(dāng)前層計算3×3卷積核時,不需要進(jìn)行調(diào)度,直接使用計算核堆中的PE進(jìn)行卷積運(yùn)算;若當(dāng)前層計算5×5卷積核時,需要調(diào)度計算核堆中的3個3×3的PE來處理一個5×5卷積核。在完成一層的計算操作后,判斷若當(dāng)前層數(shù)小于整個網(wǎng)絡(luò)的層數(shù)時,重復(fù)上面的運(yùn)算操作;若判斷當(dāng)前層等于整個網(wǎng)絡(luò)的層數(shù)時,整個網(wǎng)路完成數(shù)據(jù)處理,計算結(jié)束得到最終結(jié)果。

3 實(shí)驗結(jié)果

為了驗證所提出的卷積神經(jīng)網(wǎng)絡(luò)加速器,采用Xilinx公司的Vivado2017.4開發(fā)環(huán)境進(jìn)行功能仿真和綜合驗證,通過Xilinx公司的ZYNQ系列芯片XC7Z045開發(fā)板對設(shè)計的加速器進(jìn)行綜合測試。

傳統(tǒng)方法完成一次5×5卷積需要25次乘法和24次加法共需要26個時鐘周期。本文完成一次3×3卷積需要10個時鐘周期,完成一次5×5卷積僅需要11個時鐘周期,其中,C2生成27×27×96×256個卷積結(jié)果,C3生成13×13×256×384個卷積結(jié)果,C4生成13×13×384×384個卷積結(jié)果,C5生成13×13×384×256個卷積結(jié)果,對應(yīng)層所需時鐘周期數(shù)如表1所示。

表1 卷積層計算時間

表1是AlexNet網(wǎng)絡(luò)計算時間,本文的特征圖和文獻(xiàn)[11,12]處理的特征圖數(shù)量不同,文獻(xiàn)[11,12]的第二層輸入只有7張?zhí)卣鲌D,輸出64張?zhí)卣鲌D,而本文第二層的輸入特征圖數(shù)量有96張?zhí)卣鲌D,輸出了256張?zhí)卣鲌D,相比于文獻(xiàn)[11,12]處理的數(shù)據(jù)量更多。通過輸入特征圖的歸一化處理,在同時處理單張輸入特征圖時,相比于文獻(xiàn)[11,12],本文設(shè)計的加速器花費(fèi)的時間更少,加速器處理時間減少了98.95 %。

表2是各種卷積神經(jīng)網(wǎng)絡(luò)加速器的性能對比,從表2可以看出,相比于文獻(xiàn)[4,6,13],本文設(shè)計的加速器占用較少的硬件資源,同時可以處理多種如LeNet—5、VGG等采用3×3或5×5大小卷積的神經(jīng)網(wǎng)絡(luò),在靈活性和高能效上優(yōu)勢明顯,同時能效比達(dá)到了16.89 Gop/s/W,本文設(shè)計與文獻(xiàn)[4,6,8,13]對比,能效比分別提升410 %,78 %,19 %,270 %。

表2 加速器性能對比

4 結(jié)束語

本文根據(jù)卷積神經(jīng)網(wǎng)絡(luò)逐層計算方式和卷積計算特點(diǎn),設(shè)計了一種可重構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)加速器,該方案設(shè)計3×3大小的卷積核作為基礎(chǔ)PE,利用3個基礎(chǔ)PE構(gòu)建5×5卷積核,并且每一個基礎(chǔ)PE內(nèi)部設(shè)計有寄存器堆用于暫存數(shù)據(jù),寄存器之間采用流水線的設(shè)計方式,每次處理時更新一個數(shù)據(jù),三個時鐘周期即可完成3個數(shù)據(jù)的更新,并與之前保留的6個寄存器數(shù)據(jù)做加法操作,可以在每次卷積運(yùn)算中減少6次乘法計算。構(gòu)建5×5卷積核時,3個基礎(chǔ)PE可以分別控制可數(shù)據(jù)復(fù)用的區(qū)域?qū)崿F(xiàn)重構(gòu)后的數(shù)據(jù)復(fù)用,每完成一次5×5卷積運(yùn)算有20個數(shù)據(jù)可以用于下次的卷積運(yùn)算,一次5×5卷積運(yùn)算可以減少20次乘法計算。通過加速器處理時間實(shí)驗對比,本文設(shè)計的加速器處理單張?zhí)卣鲌D時,處理時間僅需要51 074個時鐘周期,并且加速器的功耗僅為1.8 W,低功耗的設(shè)計帶來了16.89 Gop/s/W的高能效比,相比于當(dāng)前典型設(shè)計,能效比分別有410 %,270 %,78 %,19 %的提升。

猜你喜歡
設(shè)計
二十四節(jié)氣在平面廣告設(shè)計中的應(yīng)用
河北畫報(2020年8期)2020-10-27 02:54:06
何為設(shè)計的守護(hù)之道?
《豐收的喜悅展示設(shè)計》
流行色(2020年1期)2020-04-28 11:16:38
基于PWM的伺服控制系統(tǒng)設(shè)計
電子制作(2019年19期)2019-11-23 08:41:36
基于89C52的32只三色LED搖搖棒設(shè)計
電子制作(2019年15期)2019-08-27 01:11:50
基于ICL8038的波形發(fā)生器仿真設(shè)計
電子制作(2019年7期)2019-04-25 13:18:16
瞞天過海——仿生設(shè)計萌到家
設(shè)計秀
海峽姐妹(2017年7期)2017-07-31 19:08:17
有種設(shè)計叫而專
Coco薇(2017年5期)2017-06-05 08:53:16
從平面設(shè)計到“設(shè)計健康”
商周刊(2017年26期)2017-04-25 08:13:04
主站蜘蛛池模板: 凹凸精品免费精品视频| 99精品伊人久久久大香线蕉| 国产高清不卡视频| 1级黄色毛片| 久久人人妻人人爽人人卡片av| 国产精品观看视频免费完整版| 亚洲成A人V欧美综合天堂| 久久超级碰| 青青草国产免费国产| 亚洲精品无码抽插日韩| 国产自无码视频在线观看| 精品国产乱码久久久久久一区二区| 久久久亚洲国产美女国产盗摄| 伊大人香蕉久久网欧美| 亚洲福利一区二区三区| 亚洲Av激情网五月天| 亚洲最新在线| 国产丰满大乳无码免费播放| 国产在线视频导航| 91免费观看视频| 青草91视频免费观看| 久热99这里只有精品视频6| 国产精品视屏| 99成人在线观看| 最新无码专区超级碰碰碰| 国产一区二区三区在线观看视频| 超清无码一区二区三区| 九九热视频精品在线| 草草线在成年免费视频2| 国产精品黄色片| 天堂成人在线| 国产成人乱无码视频| 欧美无遮挡国产欧美另类| 精品国产电影久久九九| 国产亚洲精| 国产综合另类小说色区色噜噜| 91成人在线免费视频| 激情综合图区| 欧美成人日韩| 国产综合另类小说色区色噜噜| 午夜a级毛片| 激情综合图区| 国产在线拍偷自揄拍精品| 亚洲嫩模喷白浆| 99999久久久久久亚洲| 精品国产www| 狠狠综合久久| 欧美亚洲综合免费精品高清在线观看| 国产亚洲欧美在线视频| 成年人免费国产视频| 久久综合AV免费观看| 国产拍在线| 国国产a国产片免费麻豆| 色综合五月婷婷| a级毛片免费播放| 日韩精品一区二区三区大桥未久| 国产在线观看91精品| 亚洲精品无码日韩国产不卡| 67194在线午夜亚洲| 免费国产无遮挡又黄又爽| 91在线无码精品秘九色APP| 999精品色在线观看| 99re热精品视频国产免费| 午夜老司机永久免费看片| 日本精品一在线观看视频| 日韩精品成人在线| 久久久国产精品免费视频| 波多野结衣亚洲一区| 啊嗯不日本网站| 在线视频97| 亚洲黄色片免费看| 华人在线亚洲欧美精品| 国产精品自在线天天看片| 国产手机在线小视频免费观看| 亚洲乱码在线视频| 欧美日韩理论| 国产精品久久自在自2021| 黄片在线永久| 四虎永久在线| 性欧美久久| 婷婷亚洲天堂| a级毛片免费播放|