999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

二值VGG 卷積神經網絡加速器優化設計*

2021-03-11 03:48:38張旭欣李新增
電子技術應用 2021年2期
關鍵詞:優化資源

張旭欣,張 嘉,李新增,金 婕

(上海工程技術大學 電子電氣工程學院,上海201600)

0 引言

深度卷積神經網絡(Convolutional Neural Network,CNN)已經成為了當前計算機視覺系統中最有前景的圖像分析方法之一。

近 年 來,隨 著Binary-Net、Dorefa-Net、ABC-Net 等[1-3]低精度量化神經網絡的深入研究,越來越多的研究集中于在FPGA 硬件中構建定制的加速器結構,實現CNN 的加速[4]。 基于FPGA 的低精度量化神經網絡實現主要可分為兩類:流架構[5-6]和層架構[7-8]。 其中,由于流架構實現了流水線化,每個階段都可以獨立處理輸入且可以針對CNN 逐層設計并優化相應層的加速運算單元, 因此擁有更高的吞吐率和更低的延遲以及內存帶寬,但其邏輯資源等消耗也相當可觀。 因此,現有的基于流架構實現的二值神經網絡加速器研究大多是針對32×32 尺度MNIST 數據集等小尺度的圖像輸入。 而實際應用中更多使用如448×448 尺度的YOLO、224×224 尺度的VGG 等作為骨干網絡,一方面,大尺度輸入的網絡結構參數量往往較大(以VGG 為例,其參數量大約500 MB),高端FPGA 的片上內存容量也僅32.1 Mb 左右,這對FPGA 實現CNN 加速將是資源瓶頸。 即使采用低精度量化策略,FPGA 有限的片上內存資源仍捉襟見肘。另一方面,雖然各層運算單元可以得到特定優化,然而由于網絡拓撲結構限制,往往各層網絡很難實現計算周期的匹配,從而造成推斷性能難以進一步提高。針對基于流架構的二值卷積神經網絡加速器設計存在的資源與性能的瓶頸,本文以224×224 尺度的VGG-11 網絡加速器設計為例,重點研究了大尺度的二值卷積神經網絡硬件加速器設計、優化及驗證,主要工作如下:

(1)針對大尺度流架構的二值VGG 卷積神經網絡加速器設計存在的資源與性能瓶頸,提出了網絡模型優化和流水線優化的方法。

(2)設計并優化了224×224 尺度的基于流架構的二值VGG 卷積神經網絡加速器。實驗表明基于FPGA 平臺實現了81%的準確率,219.9 FPS 的識別速度,相較于同類型的加速器識別速度最高提升了33 倍。

1 二值卷積神經網絡加速器

二值卷積神經網絡激活與權值均采用符號函數進行二值化,如式(1)所示:

其中w 為單精度浮點權重,wb為二值權重。 在硬件設計中若以邏輯0 表示-1,邏輯1 表示1,則有:

(1)乘法運算可簡化為Xnor 運算和PopCount 累加運算[6]。 因此,對于特征圖r 行c 列卷積核大小為(kc,kr)的卷積運算,如式(2)所示:

(2)二值卷積神經網絡的批歸一化與符號激活函數運算過程如圖1 所示。

圖1 批歸一化與激活

若結合歸一化與符號激活函數即y=sign (BN(x)),可得:

其中x 為前一層卷積層輸出,μ、σ 是批量輸入的均值和方差,ε、γ、β 為參數,chin表示輸入通道數。

綜上所述,二值卷積運算單元(Processing Element,PE)計算流程如下:輸入特征圖與權值經過同或門與累加器進行卷積運算, 再經閾值比較器實現批歸一化與激活函數運算,硬件結構如圖2 所示。

卷積層包含了多通道輸入與多通道輸出。 因此,單層計算引擎通常由PE 陣列構成,如圖3 所示,計算引擎從緩沖區讀入SIMD 通道特征圖,經PE 陣列并行計算得到多個輸出到緩沖區。

基于數據流結構的加速器,通過層間流控模塊,逐層將二值卷積計算引擎連接起來,整體結構如圖4 所示,通過調節各層SIMD 與PE 參數,可以實現性能與邏輯資源的最優化。

圖2 二值卷積運算單元

圖3 二值卷積計算引擎

圖4 數據流架構

2 優化設計

針對二值卷積神經網絡加速器存在的資源瓶頸以及性能瓶頸,需要從網絡拓撲、流水線運算周期均衡等多方面進行優化設計:

(1)由于硬件資源限制、網絡結構以及大量的網絡參數,往往造成片上存儲資源瓶頸,因此需要首先針對網絡結構進行優化。

(2)由于不同網絡層運算量各不相同,運算所需周期也不同,因此需要針對流水線進行逐層的運算優化,平衡每層的運算周期。

2.1 網絡結構優化

原始VGG-11 的網絡拓撲中的首個全連接Fc1 層參數量顯著高于其余各層,約占網絡整體參數量79%。由于其參數量過大,既造成了片上內存資源瓶頸又導致計算量過大,與其余各層計算周期嚴重不均衡,使流水線阻塞造成性能瓶頸。針對上述問題,對VGG-11 網絡結構的瓶頸層進行優化:

(1)對原始浮點卷積VGG-11 進行二值化,以有效降低內存占用以及邏輯資源數量。

(2)在卷積層與Fc1 層之間添加全局最大池化層,將卷積層輸出特征圖從7×7 池化到1×1。

優化后的二值VGG-11 網絡拓撲如表1 所示,添加全局最大池化層(Global Max Pool)后,Fc1 層參數量降低了約49 倍,同時由于對網絡進行了二值化,整體網絡參數所占內存空間從511.3 MB 降低到3.66 MB,因而有效地從網絡結構層面降低了內存資源瓶頸。

表1 二值VGG-11 網絡拓撲

2.2 流水線優化

基于數據流架構示意圖如圖5 所示,Initiation Interval為兩個任務間的時間間隔,Latency 為整體任務完成的延遲。 由于采用數據流架構,網絡加速器的吞吐率可以采用Fclk/IImax來進行估算。 計算延遲最慢的網絡層會導致任務間的時間間隔最大為IImax,從而決定了網絡的吞吐率。

圖5 流水線時序圖

根據上述分析可知,消耗時鐘周期數最多的計算引擎會成為整體性能的瓶頸,從而會造成其他層資源的浪費和性能的下降。因此,針對流水線優化,需要針對不同的計算引擎之間進行整體的計算周期均衡,盡可能地保證各層的計算周期相近。

為了有效提高加速器的性能與資源利用率,本文設計了不同的PE 陣列參數配置,以驗證不同的PE 和SIMD 配置對分類效率的影響,表2 中給出的計算陣列結 構 參 數,A 是 最 低 速 的 配 置,B、C、D、E 依 次 增 加 了PE 以及SIMD,E 是根據調整得到的最好的結果。

表2 PE 陣列配置

如表3 所示,根據表2 中SIMD 及PE 參數所對應的各網絡層計算周期,通過盡可能將各網絡層運算周期均衡調整,從而可以在相應的資源占用率下實現最大化加速器推斷速率。

表3 運算周期

3 結果

在Ubuntu16.04 操作系統下,基于Pytorch 深度學習框架訓練二值VGG-11 卷積神經網絡,實驗基于CIFAR-10數據集驗證,將數據集圖像尺寸放大到224×224 作為網絡輸入,數據訓練利用NVIDIA Quadro P2000 GPU 實現加速。 基于流架構二值VGG-11 加速器硬件系統開發基于ZCU102 開發板,最終硬件系統實現了81%的識別率,推斷速率、資源占用率等如表4 所示,最高實現了219.9 FPS。

表4 資源利用率對比

通過實驗對比可得出如下結論:

(1)逐漸增加PE 或SIMD 的數量能提高深度神經網絡加速器的推斷速率,但會占用更多邏輯資源,反之也可以通過降低推斷速率來換取邏輯資源占用面積的縮減。

(2)比較方案E 和方案D,除Conv1 卷積層外,其余各層均提高了SIMD 和PE 數量以及縮減了計算周期,然而對比實現結果,可以發現邏輯資源占用率有了大幅增長,而推斷速度卻并沒有得到大幅提升。 這驗證了針對于流水線結構的深度卷積神經網絡加速器來說,計算周期延遲最大的計算引擎對網絡整體性能有較大的影響,在設計中對各層運算單元計算周期進行均衡尤為重要。

(3)對比FPGA 片上資源LUT、FF 以及BRAM 等資源,片上內存數量是限制進一步提高神經網絡層數以及提高推斷速度的資源瓶頸。

與國內外相關基于FPGA 的VGG 網絡加速器實現進行比較,如表5 所示。通過優化設計,實現了相較于其他VGG 加速器最高33 倍推斷加速,相比基于層架構的同類型二值VGG 網絡加速器[8]提高了7 倍。

表5 基于FPGA 的VGG 加速器對比

4 結論

本文通過從網絡結構、流水線均衡等多方面優化設計,實現了輸入尺度更大的二值VGG-11 卷積神經網絡加速器,并驗證了優化方法的有效性,為更大尺度、更深層次的卷積神經網絡加速器提供了設計優化思路。

猜你喜歡
優化資源
讓有限的“資源”更有效
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
基礎教育資源展示
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
由“形”啟“數”優化運算——以2021年解析幾何高考題為例
一樣的資源,不一樣的收獲
資源回收
資源再生 歡迎訂閱
資源再生(2017年3期)2017-06-01 12:20:59
主站蜘蛛池模板: 免费在线国产一区二区三区精品| 又黄又湿又爽的视频| 乱人伦中文视频在线观看免费| 伊伊人成亚洲综合人网7777| 天天综合天天综合| 欧美在线视频不卡第一页| 久久亚洲AⅤ无码精品午夜麻豆| 国产精品性| 98超碰在线观看| 久久国产精品夜色| 国产丰满大乳无码免费播放| 一本大道香蕉高清久久| 国产av无码日韩av无码网站 | 中国国产A一级毛片| 国产精品无码AV中文| 婷婷五月在线视频| a级免费视频| 天天综合色网| 日韩在线中文| 国产又色又刺激高潮免费看| 福利在线不卡| 国产精品亚洲一区二区三区在线观看| 99热亚洲精品6码| 成人av手机在线观看| 久久久久国产一级毛片高清板| 91热爆在线| 国产综合无码一区二区色蜜蜜| 日韩高清无码免费| 在线日本国产成人免费的| 亚洲有无码中文网| 18禁高潮出水呻吟娇喘蜜芽| 日韩视频精品在线| 一级毛片a女人刺激视频免费| 久久五月天综合| 久久国产精品77777| 在线观看视频99| 欧美午夜小视频| 免费在线一区| 又爽又黄又无遮挡网站| 久久国产精品电影| 亚洲av色吊丝无码| 91麻豆精品国产91久久久久| 国产精品视频第一专区| 动漫精品啪啪一区二区三区| 5388国产亚洲欧美在线观看| 亚洲成人一区二区| 免费一看一级毛片| 欧美日韩另类在线| 最新国语自产精品视频在| 亚洲无码A视频在线| 午夜a视频| 乱色熟女综合一区二区| 婷婷亚洲视频| 欧美第一页在线| 亚洲成a∧人片在线观看无码| 日韩亚洲综合在线| 2021国产精品自拍| 人妻少妇乱子伦精品无码专区毛片| 欧美.成人.综合在线 | 国产原创演绎剧情有字幕的| 呦视频在线一区二区三区| 在线观看欧美国产| 中文字幕资源站| 国产成人久久综合777777麻豆| 青草娱乐极品免费视频| 91成人在线免费视频| 日日拍夜夜操| 亚洲无码高清视频在线观看| 亚洲激情区| 伊人激情久久综合中文字幕| 激情無極限的亚洲一区免费| 免费可以看的无遮挡av无码| 亚洲日韩日本中文在线| 美女无遮挡拍拍拍免费视频| 亚洲第一成年人网站| 日本日韩欧美| 男女猛烈无遮挡午夜视频| 玖玖精品视频在线观看| 丁香婷婷久久| 欧美激情伊人| 国产欧美自拍视频| 久久亚洲国产一区二区|