卷積神經網絡的軟硬件協同加速技術

2021-08-23 07:30:46李欣瑤劉飛陽文鵬程李鵬

航空兵器 2021年3期

李欣瑤劉飛陽文鵬程李鵬

摘要：面向構建智能化航空電子系統的需求，提升有人機/無人機智能化作戰水平，設計并實現卷積神經網絡CNN的軟硬件協同加速技術，以解決目標識別、輔助決策、自主規劃等復雜問題。針對算法模型的龐大參數量與嵌入式環境有限存儲資源的沖突問題，采用模型結構優化及量化算法壓縮網絡規模。針對復雜浮點運算與計算資源緊缺的沖突問題，基于Verilog HDL設計卷積、池化兩種加速算子，采用流水線+全并行方式，以達到計算加速的目的。通過軟件優化設計與硬件加速運算的協同作用，實現卷積神經網絡的推理過程加速。以YOLOv3及YOLOv3-Tiny兩種典型CNN為例進行加速，并在Xilinx ZCU102 FPGA評估板上進行驗證。結果表明，加速后的模型與原模型對比，參數量可壓縮3/4左右，YOLOv3的推理速度提升近65倍，YOLOv3-Tiny提升23倍左右。

關鍵詞：智能計算;硬件加速;目標檢測;模型壓縮;FPGA

中圖分類號：TJ760; TP18? 文獻標識碼： A? 文章編號：1673-5048（2021）03-0099-06

0 引? 言

隨著人工智能算法模型結構的快速更迭，神經網絡正逐步被應用于解決智慧醫療、自動駕駛等多種復雜智能問題。在航空領域，有人機與無人機的空戰過程均朝著智能化的方向發展[1]，目標識別跟蹤、輔助決策、自主規劃等復雜任務均可依賴神經網絡完成。但機載嵌入式環境對功耗、實時性都有著嚴格的制約，且存儲、計算資源都較為緊缺，如何將神經網絡模型部署于資源受限的嵌入式環境成為亟待解決的問題。

本文面向智能化航空電子系統的需求，設計并實現一種面向卷積神經網絡（Convolutional Neural Network，CNN）的軟硬件協同加速方法。針對龐大網絡模型參數量與有限存儲資源的沖突問題，以及大量復雜浮點運算與計算資源緊缺的沖突問題，從軟硬件兩方面對網絡模型進行了優化與加速，解決了基于CAFFE（Convolutional Architecture for Fast Feature Embedding）框架的網絡結構優化問題、模型參數量化問題以及神經網絡加速算子的構建問題，以YOLOv3及YOLOv3-Tiny兩種用于目標檢測的典型CNN網絡為例進行加速，并在Xilinx ZCU102 FPGA評估板上進行驗證。

1 國內外研究現狀

一個完整的深度學習框架通常包含訓練與推理兩個主要部分，本文所針對的主要是推理部分的優化與加速。

在軟件加速方面，分解卷積核使得參數量大幅減少的SqueezeNet模型[2]、逐個通道進行卷積后將結果串聯以減少計算量的MobileNet模型[3]、采用殘差網絡思想并在不影響精度的情況下降低分辨率的ShuffleNet模型[4]、更改卷積運算流程以提高網絡效率的Xception模型[5]等輕量化模型被相繼提出并不斷優化。除輕量化模型以外，剪枝、奇異值分解、哈弗曼編碼等輕量化技術亦得到廣泛采用，該類方法的核心思想均為壓縮網絡模型大小，以減少計算量和降低計算復雜度，雖然會損失網絡模型的部分精度，但模型推理速度會得到大幅度提升。目前，在眾多輕量化算法中，量化算法具有較為突出的表現。

深度神經網絡的訓練階段普遍采用float 32（簡稱FP32）的數據格式，量化算法即采用較低精度的數據格式（如float 16和int 8，簡稱FP16和INT8）代替高精度的數據格式[6]。此外，二值化（所有權重的值取+1或-1）[7]和三值化（將所有權重的值量化為[-α，0，+α]三個數之一，其中α為可訓練的參數） [8]也是常用的量化方法。

在硬件加速方面，目前主流采用GPU，ASIC與FPGA三種智能計算架構進行深度神經網絡模型加速[9]。其中，高性能GPU主要應用于神經網絡訓練階段，對環境和庫的依賴性較大，國內技術積累較弱，難以實現技術自主可控;ASIC是為特定需求而專門定制優化開發的架構，靈活性較差，缺乏統一的軟硬件開發環境，開發周期長且造價極高;FPGA是可編程的半定制芯片，具有高靈活性、低延時特性，開發難點在于硬件邏輯實現復雜。目前，面向智能化航空電子系統多應用需求的智能計算加速技術多處于預研階段，考慮后期的移植、再開發等工作，相對來說FPGA架構更適用于航空領域的智能計算加速。

2 面向CNN的軟硬件協同加速方法

卷積神經網絡在處理復雜智能問題時具有巨大的優勢，但機載嵌入式環境的存儲、計算資源均受限，為滿足航空電子系統智能化場景感知的應用需求，本文設計了一種面向CNN的軟硬件協同加速方法，如圖1所示。

軟硬件協同設計方法是針對系統開發中軟硬件設計的相互作用關系而提出的[10]。由于在機載嵌入式環境中，存儲資源與計算資源均較為受限，難以將規模龐大的神經網絡移植到FPGA平臺上，且FPGA并不擅于進行浮點運算，不能發揮FPGA在算力方面的優勢，實現計算加速。因此，本文選用軟硬件協同方法對卷積神經網絡進行加速。軟件優化方面，基于CAFFE框架實現結構優化與參數量化，旨在壓縮網絡模型規模，以大幅降低網絡模型對嵌入式平臺功耗、內存的需求。硬件加速方面，基于Verilog HDL設計加速算子，采用流水線+全并行的方式，充分利用有限的計算資源，達到計算加速的目的。軟件優化與硬件加速兩部分協同作用，使得卷積神經網絡能夠部署于資源受限的嵌入式環境。

本文構建了含雷達、艦船、坦克、汽車、建筑五類物體在內的空對地小目標數據集，從30°和90°兩類不同視角以及彩色、紅外、黑白三種不同視圖場景進行影像采集，將采集到的12個視頻片段逐幀截取成5 000余張1 024×768像素的高分辨率圖片，參照PASCAL VOC標準數據集格式，標注生成以航空應用為背景的數據集，包括訓練集3 000余張、測試集1 000余張和驗證集1 000余張，單張圖片平均含有7.4個物體。

開發階段分為軟件優化設計與硬件加速設計兩部分。軟件優化設計基于CAFFE框架對網絡結構進行調整、優化，并采用量化算法壓縮網絡模型，為模型部署于嵌入式環境奠定基礎。硬件加速設計基于FPGA 模塊化設計思想，針對典型CNN網絡中占用資源最多的卷積、池化網絡層設計加速算子。

驗證階段將網絡移植到Xilinx ZCU102評估板上進行驗證。其中，卷積、池化加速算子封裝為IP核，在PL端實現，其余各層算子在以ARM為核心的PS端實現，PL與PS之間通過DMA進行通信。

3 面向CNN的軟件優化技術

由于構建的空對地小目標數據集以小目標（目標占圖片總比例的0.5%以內）為主，且目標分布較為集中，綜合考慮航空嵌入式環境對實時性的需求，選用YOLOv3及YOLOv3-Tiny兩種典型CNN網絡模型進行優化與加速[11]。YOLOv3及YOLOv3-Tiny模型具有高檢測速度及小目標高檢測精度的特點，適用于本文構建的數據集。

文獻[12]指出，FPGA加速卷積神經網絡推理過程時面臨的主要瓶頸體現在兩方面，一是計算量，二是數據傳輸。其中計算量對應本文所述計算資源受限的瓶頸，數據傳輸對應存儲資源受限的瓶頸。具體來看，卷積神經網絡中的卷積層、池化層等網絡層涉及大量復雜浮點運算，浮點運算占用資源較多且運行速度較慢，而FPGA中DSP資源較少，若在FPGA加速之前對數據類型進行轉化，可有效提高FPGA中的并行計算能力和計算效率，從而解決計算量龐大造成的瓶頸。此外，由于片上存儲資源有限，大量中間網絡層數據在運算過程中需進行多次訪問存儲，由此導致嚴重的傳輸延遲。為解決該瓶頸，本文對模型結構進行優化設計，減少中間參數，降低訪問存儲次數，從而降低數據傳輸開銷，提高FPGA加速性能。

3.1 基于CAFFE框架的模型結構優化

CAFFE是一個開源的深度學習框架，無硬件與平臺的限制，提供網絡模型訓練、微調、部署所需的完整工具包。與Darknet框架相比，CAFFE框架提供了卷積、池化、激活等多種算法接口，能夠快速、高效地搭建網絡模型;而Darknet框架較為小眾，對除YOLO系列以外的網絡模型支持度較低。本文基于CAFFE框架搭建YOLOv3以及YOLOv3-Tiny兩種網絡，并在原有模型基礎上對卷積層結構進行調整優化。CAFFE框架雖然提供了卷積層的接口，但由于YOLOv3及YOLOv3-Tiny兩種網絡中，每一個卷積層之后都會連接一個歸一化層（Batch Normalization，BN），而BN層主要用于訓練時解決梯度消失或梯度爆炸問題，單獨實現會占用大量顯存空間。為提高本文構建模型的推理速度，減少BN層的運算，在基于CAFFE框架搭建時，將BN層參數合并到卷積層，實現為Conv+BN層。融合前原卷積層運算公式為

Y=W×X+b（1）

式中：X為卷積層輸入特征圖參數;W為卷積層濾波器參數;b為偏置值;Y為卷積層輸出值。BN層共包含兩部分運行，分別為歸一化運算以及尺度變換偏移運算：

i← xi-μxδ2x+ε（2）

yi← γxi+β（3）

式中：μx為輸入參數均值;δ2x為輸入參數方差;ε為避免除數為0的微小正數;γ為尺度因子，用于調整數值大小;β為偏移因子，用于增加數據偏移，γ及β是模型在訓練過程中自學習得到的兩個參數。將BN層的兩種運算融合到原卷積層運算中：

Y′=γ×（W×X+b）-μxδ2x+ε+β（4）

對該式進行展開，即可得到融合后新卷積層濾波器參數W′以及新偏置值b′：

W′=γδ2B+ε×W（5）

b′=γδ2x+ε（b-μx）+β （6）

將式（5）～（6）合并到式（4）中，即可得到融合BN層后的新卷積層運算公式：

Y′=W′×X+b′（7）

式（7）即為Conv+BN層輸出值的運算公式。

基于以上推理，在原CAFFE框架中增加了Conv+BN層，可應用于基于CAFFE框架搭建的網絡中，將BN層融合到卷積層內進行實現，消除推理過程中BN層單獨運算對硬件資源的占用與消耗。

3.2 模型量化處理

網絡模型參數量會直接影響存儲資源和計算資源的占用情況，從而影響網絡推理速度。為能更精準地提取出待識別圖片的各類特征，神經網絡通常需要大量卷積層和大量濾波器進行復雜浮點的乘加運算，這意味著一個精度較高的網絡模型在計算量上可達10億量級，參數量更是輕易突破百兆量級[13]。如在YOLOv3-Tiny網絡中，僅第13層的參數量便高達8億個，在不考慮復用的情況下，該層需進行的乘加運算約9 000萬次。如果將原始FP32型數據映射到硬件上，不僅會占用大量的BRAM存儲資源，其推理過程更會消耗大量的DSP計算資源，這對資源受限的嵌入式環境來說是難以承受的。基于硬件資源的考慮，采用量化算法將FP32位數據映射為INT8位數據，節省存儲資源占用情況。以n×n卷積核K為例，量化過程為

K=（k11，k12，…，kin，k（i+1）1，…，knn）（8）

kmax=max（k11，k12，…，kin，k（i+1）1，…，knn）（9）

δ=127/kmax（10）

K′=（k11×δ，k12×δ，…，kin×δ，…，knn×δ）（11）

式（8）為卷積核K的n2個參數;式（9）取卷積核K參數中的最大值，記為kmax;式（10）計算量化系數δ，其中127為INT8值域中的最大值;式（11）為量化后的卷積核K′。偏置值由于數量較少，對其進行量化并不會節省太多存儲資源，反而會導致模型精度嚴重下降，因而對偏置值直接進行保存處理。

使用構建的空對地小目標數據集中的測試集進行精度測試，模型量化前后對比如表1所示。網絡模型壓縮處理后，其規模可縮小約3/4，解決了硬件存儲資源受限的瓶頸。

量化算法主要用于壓縮參數規模龐大的網絡模型，減小權重參數的存儲資源占用，緩解嵌入式環境存儲資源受限的瓶頸，為網絡模型移植到嵌入式環境奠定基礎。

4 面向CNN的硬件加速技術

FPGA作為一種可編程重構的硬件架構，能夠很好地兼顧處理速度與調控能力。目前，高層次綜合（High-Level Synthesis，HLS）與Verilog HDL是常用于設計神經網絡加速模塊的硬件結構及硬件語言。HLS是指將高層次語言（如C， C++， System C等）描述的邏輯結構，自動轉換成低抽象級語言描述的電路模型[14]，更注重于上層算法的實現，但基于HLS結構實現的神經網絡有兩個弊端，一是資源占用不合理、不可控，網絡運行時能達到的并行度較為受限，特別是搭建中大型神經網絡時，并行度較低直接導致其推理速度難以提升;二是轉換后的代碼不具備可讀性，這不僅加大了排查故障的難度，在不滿足設計需求時也很難對其進行優化。

Verilog HDL適合于RTL級的硬件描述，用于從算法級、門級到開關級的多種抽象設計層次的數字系統建模，更偏重于底層，因而基于Verilog HDL的設計更靈活，且效率更高。

在YOLOv3（共106層網絡層）及YOLOv3-Tiny（共23層網絡層）網絡中，卷積層與池化層（共94層）占所有網絡層的73%左右，其中涉及的乘加、比較等運算是影響其推理性能的主要因素。為充分合理利用有限的計算資源以滿足卷積神經網絡中的大量運算，從而達到加速目的，基于Verilog HDL設計卷積、池化兩種加速算子，并將其封裝為IP核，便于在加速其他具有相同結構的網絡模型時復用。

4.1 卷積加速算子的設計與實現

卷積加速算子實現3×3濾波器的卷積運算。采用全并行加流水線方式，單次卷積運算調用9個乘法器，每個時鐘處理9組數據的乘法運算，加法運算通過2級流水線完成。

卷積算子端口時序如圖2所示。ORDER為輸入特征圖階數，特征圖讀取共需ORDER×ORDER個CLK時鐘周期，濾波器需9個CLK時鐘周期，偏置值Bias需1個CLK時鐘周期，結果特征圖從第（2×ORDER+7）個CLK時鐘周期開始輸出（無偏置值時，有偏置值則從第（2×ORDER+8）個時鐘周期開始輸出），每個時鐘周期輸出一個值，輸出（ORDER-2）2個CLK時鐘周期。

4.2 池化加速算子的設計與實現

池化加速算子實現步長為2的最大池化運算，采用全并行加流水線方式。

池化加速算子端口時序如圖3所示。其中，ORDER為輸入特征圖階數，特征圖輸入共需ORDER×ORDER個CLK時鐘周期，結果特征圖從第（2×ORDER+1）個CLK時鐘周期開始輸出，每隔一個時鐘周期輸出一個值，輸出（ORDER/2）2個CLK時鐘周期。由于每次讀取2×2數據進行比較之后，輸出數據會減少一半，因此valid信號表現為2分頻。

4.3 卷積加速算子仿真及資源占用情況

以5×5特征圖與3×3濾波器進行卷積運算為例，仿真結果如圖4所示。每幀特征圖輸入到輸出延時為2行輸入的時間，使用2個FIFO緩存將特征圖輸入數據延時1行和2行，當第3行特征圖數據到達時，由于延時，此時第1行和第2行數據會同時輸出。將3行數據和每行對應的濾波器數據進行滑動相乘，通過2級流水相加求和，即可得到卷積運算結果。

以Xilinx ZCU102評估板上的運行為例，占用資源情況如表2所示。該算子在9組乘加并行運算且含2級流水線的條件下，DSP資源僅占用了9個，占總資源的0.36%， LUT僅占用了0.07%，資源占用量較少，且并行度較高，能夠達到節省計算資源且運算加速的目的。4.4 池化加速算子仿真及資源占用情況

以4×4特征圖、步長為2進行池化運算為例，仿真結果如圖5所示。當奇數行特征圖數據輸入時，會寫入FIFO進行緩存。當偶數行特征圖數據輸入時，同時讀出FIFO中的數據，每隔兩個數據進行2×2的數據比較，將最大數據進行輸出。

以Xilinx ZCU102評估板上的運行為例，該算子占用資源情況如表3所示。

5 測試與驗證

本文在Xilinx ZCU102評估板上進行驗證，該評估板含有2 520個DSP單元、32 Mb RAM內存、512 MB與PL端相連的DDR4存儲器件以及4 GB與PS端相連的DDR4存儲器件，能夠滿足神經網絡硬件部署的基本資源需求。在100 MHz時鐘頻率下，YOLOv3網絡對單張圖片的推理過程需1.49×107個時鐘周期，YOLOv3-Tiny網絡對單張圖片的推理過程需4.17×106個時鐘周期。

為評估本文算法在航空背景特定數據集上的有效性以及推理階段的時效性，本文以構建的空對地小目標數據集作為樣本集，采用功耗、均值平均精度（mean average precision，mAP）以及推理階段運行時間FPS（frames per second）作為評價指標，衡量智能計算加速技術的綜合性能。表4列出了加速方法基于構建的空對地小目標數據集（1 024×768像素）在不同硬件平臺上測試的功耗與運行時間的對比情況。

采用量化后的同一權重參數在不同硬件平臺上進行測試，測試結果表明，在CPU，GPU與FPGA三種硬件平臺上，網絡檢測精度基本一致。在模型推理過程的加速方面，兩種網絡部署于ZCU102評估板后的運行速度均有大幅提升。與原網絡在CPU上的運行速度相比，YOLOv3提升了65倍，可達到每秒6幀，YOLOv3-Tiny可達到每秒23幀。雖然推理速度與高性能GPU相比還有較大差距，但在功耗方面，ZCU102上的功耗不到GPU功耗的十分之一，能夠滿足嵌入式環境低功耗的需求?？梢?，卷積加速算子與池化加速算子在加速神經網絡模型的推理過程方面發揮了重要作用。檢測效果如圖6所示。

綜上，本文采用了軟硬件協同加速技術，為卷積神經網絡部署于資源受限的嵌入式環境提供了支撐。其中，軟件優化技術對模型結構進行優化，并實現量化算法，有效壓縮了網絡模型規模，極大緩解了機載嵌入式環境存儲資源受限的瓶頸，為神經網絡移植到嵌入式平臺建立基礎。硬件加速技術基于Verilog HDL設計并實現卷積、池化兩種加速算子，僅需占用少量計算資源即可實現這兩種復雜運算。通過軟硬件兩種加速技術的協同作用，有效解決機載嵌入式環境下部署卷積神經網絡時面臨的存儲資源緊缺與計算資源受限瓶頸，達到智能計算加速的目的。

6 結? 論

面向空戰過程智能化的應用需求，提高有人機/無人機自主感知、目標識別跟蹤、自主決策等能力，設計并實現了應用于資源受限的嵌入式環境的CNN軟硬件協同加速技術，旨在解決龐大模型參數量與有限存儲資源的沖突問題以及大量復雜浮點運算與計算資源緊缺的沖突問題。在開發階段，構建了空對地小目標數據集，基于CAFFE框架對YOLOv3和YOLOv3-Tiny兩種網絡進行了結構優化。對兩種模型進行壓縮量化處理，壓縮模型約3/4。基于Verilog HDL設計并實現兩種加速算子，僅需占用少量資源即可完成相應運算。通過軟硬件協同作用，達到推理過程加速的目的。其中，基于CAFFE框架的結構優化方法、模型壓縮量化算法以及卷積池化加速算子均具備一定的通用性，便于構建其他網絡模型時使用。在驗證階段，將兩種網絡模型部署于Xilinx ZCU102評估板上進行了驗證。實驗證明，兩種加速算子在計算資源緊缺的嵌入式環境下，可有效加速兩種網絡的推理過程。

下一步工作主要著眼于構建加速算子庫，封裝除卷積、池化以外的多種算子，搭建結構更為復雜的神經網絡模型，以滿足智能化航空電子系統的多應用需求。同時，設計數據重用算法，提高存儲空間利用率，進一步加速嵌入式環境下深度神經網絡模型的推理過程。

參考文獻：

[1] 鮮勇，李揚. 人工智能技術對未來空戰武器的變革與展望[J]. 航空兵器，2019，26（5）： 26-31.

Xian Yong，Li Yang. Revolution and Assumptions of Artificial Intelligence Technology for Air Combat Weapons in the Future[J]. Aero Weaponry，2019，26（5）： 26-31. （in Chinese）

[2] Wu B C，Iandola F，Jin P H，et al. SqueezeDet： Unified，Small，Low Power Fully Convolutional Neural Networks for Real-Time Object Detection for Autonomous Driving[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops （CVPRW），2017： 446-454.

[3] Chollet F. Xception： Deep Learning with Depthwise Separable Convolutions[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition （CVPR），2017： 1251-1258.

[4] Shen Y R，Han T，Yang Q，et al. CS-CNN： Enabling Robust and Efficient Convolutional Neural Networks Inference for Internet-of-Things Applications[J]. IEEE Access，2018，6： 13439-13448.

[5] Zhang X Y，Zhou X Y，Lin M X，et al. ShuffleNet： An Extremely Efficient Convolutional Neural Network for Mobile Devices[C]∥2018 IEEE Conference on Computer Vision and Pattern Recognition（CVPR），2018： 6848-6856.

[6] Vanhoucke V，Senior A， Mao M Z. Improving the Speed of Neural Networks on CPUs[C]∥Deep Learning and Unsupervised Feature Learning Workshop，NIPS，2011.

[7] Courbariaux M，Bengio Y，David J P. BinaryConnect： Training Deep Neural Networks with Binary Weights During Propagations[C]∥Advances in Neural Information Processing Systems（NIPS）， 2015： 3123-3131.

[8] Alemdar H，Leroy V，Prost-Boucle A，et al. Ternary Neural Net

works? for Resource-Efficient AI Applications[C]∥2017 International Joint Conference on Neural Networks （IJCNN），2017： 2547-2554.

[9] Sze V，Chen Y H，Yang T J，et al. Efficient Processing of Deep Neural Networks： A Tutorial and Survey[J]. Proceedings of the IEEE，2017，105（12）： 2295-2329.

[10] 崔小樂，陳紅英，崔小欣，等. 一種軟硬件協同設計工具原型及其設計描述方法[J]. 微電子學與計算機，2007，24（6）： 28-30.

Cui Xiaole，Chen Hongying，Cui Xiaoxin，et al. A HW/SW Codesign Design Tool and its Specification[J]. Microelectronics & Computer，2007，24（6）： 28-30. （in Chinese）

[11] Redmon J，Divvala S，Girshick R，et al. You Only Look Once： Unified，Real-Time Object Detection[C]∥ 2016 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）， 2016： 779-788.

[12] 吳艷霞，梁楷，劉穎，等. 深度學習FPGA加速器的進展與趨勢[J]. 計算機學報，2019（11）： 2461-2480.

Wu Yanxia，Liang Kai，Liu Ying，et al. The Progress and Trends of FPGA-Based Accelerators in Deep Learning[J]. Chinese Journal of Computers， 2019（11）： 2461-2480. （in Chinese）

[13] Cheng Y，Wang D，Zhou P，et al. Model Compression and Acce-leration for Deep Neural Networks： The Principles，Progress，and Challenges[J]. IEEE Signal Processing Magazine，2018，35（1）： 126-136.

[14] 盧冶，陳瑤，李濤，等. 面向邊緣計算的嵌入式FPGA卷積神經網絡構建方法[J].計算機研究與發展，2018，55（3）： 551-562.

Lu Ye，Chen Yao，Li Tao，et al. Convolutional Neural Network Construction Method for Embedded FPGAs Oriented Edge Computing[J]. Journal of Computer Research and Development，2018，55（3）： 551-562. （in Chinese）

Software and Hardware Cooperative Acceleration Technology for CNN

Li Xinyao1*，Liu Feiyang1，2，Wen Pengcheng1，2，Li Peng 1，2

（1. Xian Aeronautics Computing Technique Research Institute，AVIC，Xian 710068，China;

2. Aviation Key Laboratory of Science and Technology on Airborne and Missileborne Computer，Xian 710068，China）

Abstract： To meet requirements of building intelligent avionics systems，and improve the intelligent combat level of manned/unmanned aerial vehicles，the software and hardware cooperative acceleration technology for CNN is designed and implemented to solve complex problems such as target recognition，auxiliary decision-making，and autonomous planning. Aiming at solving the conflicts between the huge amount of parameters and the limited storage resources for embedded environment，the neural network model is optimized with model structure optimization and quantization of parameters. Aiming at solving the conflicts between complex floating-point operations and the shortage of computing resources，the convolution accelerating operator and the pooling accelerating operator are designed based on Verilog HDL. The pipeline and full parallel method are used to achieve the purpose of acceleration. Through the synergy of software optimization and hardware accelerated，the inference process of convolutional neural network is accelerated. Two popular CNN networks，that are YOLOv3 and YOLOv3-Tiny，are used as examples to accelerate and verify on the Xilinx ZCU102 FPGA development board. The results show that compared with the original models，the parameters of the accelerated models can be compressed about 3/4. The inference speed of YOLOv3 is increased by nearly 65 times，and that of YOLOv3-Tiny is increased by about 23 times.

Key words：? intelligent computing;hardware acceleration;target detection;model compression;FPGA

收稿日期：2020-01-19

基金項目：航空科學基金項目（2018ZC31002;2018ZC31003）

作者簡介：李欣瑤（1994-），女，陜西西安人，碩士，研究方向為智能計算加速技術。

航空兵器2021年3期

航空兵器的其它文章: 一種滾轉角穩定控制系統設計方法; InAlSb材料禁帶寬度的溫度特性研究; 寬帶雷達目標模擬系統在線校準技術研究; 基于小樣本失效數據的復雜裝備可靠性評估研究進展與挑戰; 基于JSBSim的通用空中目標機動仿真模型設計及實現; 彈載電子設備HALT在延壽中的應用研究