面向多功能張量加速器的細(xì)粒度結(jié)構(gòu)化稀疏設(shè)計(jì)

2024-11-13 00:00:00趙樺箏龐善民趙英海華高暉李晨陽段戰(zhàn)勝梅魁志

西安交通大學(xué)學(xué)報(bào) 2024年11期

摘要：為解決模型壓縮算法與多功能張量加速器（VTA）的適配性問題，通過改進(jìn)經(jīng)典的YOLObile分塊剪枝方法，完成面向該加速器的自適應(yīng)細(xì)粒度結(jié)構(gòu)化稀疏設(shè)計(jì)及性能評估。針對VTA的多重循環(huán)維度展開特性，對模型的權(quán)重張量進(jìn)行32×32大小的分塊；結(jié)合時(shí)間維度的自蒸餾與空間維度的教師蒸餾，進(jìn)行多維度特征對齊；通過一階段式迭代訓(xùn)練方式，改進(jìn)原有的ADMM算法計(jì)算流程，在提升模型部署精度的同時(shí)減少訓(xùn)練成本；提出自適應(yīng)層剪枝率模塊，進(jìn)行總剪枝率的自適應(yīng)分配，實(shí)現(xiàn)端到端的自動化剪枝。實(shí)驗(yàn)結(jié)果表明：改進(jìn)方法有效減少了約2.4%的浮點(diǎn)計(jì)算量，并在圖像分類、目標(biāo)檢測等多項(xiàng)任務(wù)中提升了壓縮模型的精度，最大增長百分比為2.6%。該方法為深度學(xué)習(xí)模型在VTA上的稀疏化部署提供了一種高效、輕量級的軟件解決方案。

關(guān)鍵詞：神經(jīng)網(wǎng)絡(luò)輕量化；模型稀疏化；深度學(xué)習(xí)；多功能張量加速器；模型部署

中圖分類號：TP31 文獻(xiàn)標(biāo)志碼：A

DOI：10.7652/xjtuxb202411017 文章編號：0253-987X（2024）11-0176-09

Fine-Grained Structured Sparse Design for Versatile Tensor Accelerator

ZHAO Huazheng¹，PANG Shanmin¹，ZHAO Yinghai²，HUA Gaohui¹，LI Chenyang¹，DUAN Zhansheng³，MEI Kuizhi⁴

（1. School of Software Engineering，Xi’an Jiaotong University，Xi’an 710049，China；2. Beijing Huahang Institute of Radio Measurement，Beijing 100013，China；3. School of Automation Science and Engineering，Xi’an Jiaotong University，Xi’an 710049，China；4. College of Artificial Intelligence，Xi’an Jiaotong University，Xi’an 710049，China）

Abstract：In order to address the compatibility issue between model compression algorithms and the versatile tensor accelerator （VTA），an adaptive fine-grained structured sparse design tailored for this accelerator is proposed by enhancing the classical YOLObile block-wise pruning method and evaluates its performance. In light of the multi-dimensional loop unfolding characteristics of VTA，the model’s weight tensors are divided into 32×32 blocks. This approach integrates temporal distillation and spatial distillation to align multidimensional features. Through a single-stage iterative training method，the calculation process of the original ADMM algorithm is refined to improve model deployment accuracy while reducing training costs. An adaptive layer pruning rate module is introduced to dynamically allocate the total pruning rate，facilitating end-to-end automated pruning. The experimental results demonstrate that this improved method effectively reduces floating-point computations by approximately 2.4% and enhances the accuracy of compressed models across various tasks such as image classification and object detection，with a maximum growth percentage of 2.6%. This method offers an efficient and lightweight software solution for the sparse deployment of deep learning models on VTAs.

Keywords：neural network compression；model sparsity；deep learning；versatile tensor accelerator；model deployment

隨著深度學(xué)習(xí)的發(fā)展，神經(jīng)網(wǎng)絡(luò)的復(fù)雜度及其對硬件計(jì)算資源的需求量與日俱增。現(xiàn)如今，參數(shù)量在幾十億甚至萬億級別的大模型層出不窮，在算法功能愈發(fā)完善的同時(shí)，也向硬件算力和存儲空間提出了新的挑戰(zhàn)^［1^］。深度學(xué)習(xí)模型壓縮部署作為深度學(xué)習(xí)領(lǐng)域研究的重點(diǎn)之一^［²^］，其目標(biāo)是解決模型的工程應(yīng)用問題^［³^］。在軟件算法方面，快速、輕量級的嵌入式端深度學(xué)習(xí)模型部署^［⁴^］，要求提供高效、準(zhǔn)確且適用于硬件設(shè)備的神經(jīng)網(wǎng)絡(luò)推理方案^［⁵^］。

目前，通用的硬件架構(gòu)和復(fù)雜的軟件編譯工具鏈已經(jīng)成為深度學(xué)習(xí)模型部署領(lǐng)域的共識^［6^-7^］。深度學(xué)習(xí)編譯器框架（TVM）^［8^］作為深度學(xué)習(xí)編譯器的代表，是目前應(yīng)用最廣泛的開源軟硬件協(xié)同加速引擎。作為TVM框架的擴(kuò)展，多功能張量加速器（VTA）^［9^］是一個開放、通用、可定制的深度學(xué)習(xí)加速器，具有完整且適用于TVM的編譯器堆棧。TVM和VTA共同構(gòu)成了端到端的軟硬件協(xié)同加速堆棧解決方案^［10^］，但當(dāng)前較少見到針對該方案討論稀疏化的方法。

剪枝技術(shù)通過刪除模型中次重要的神經(jīng)元降低模型的參數(shù)量^［11^］。Nvidia提出的2∶4細(xì)粒度結(jié)構(gòu)化稀疏性方案^［12^］只能針對Nvidia芯片完成50%的稀疏任務(wù)。SR-STE算法^［13^］提出的N∶M結(jié)構(gòu)化稀疏神經(jīng)網(wǎng)絡(luò)訓(xùn)練方式仍存在較大精度損失。本文提出的面向張量處理器的細(xì)粒度結(jié)構(gòu)化稀疏設(shè)計(jì)方法，同時(shí)兼顧了非結(jié)構(gòu)化細(xì)粒度剪枝和結(jié)構(gòu)化粗粒度剪枝方案的優(yōu)勢。

1 研究方案

為了在獲得較高剪枝結(jié)構(gòu)自由度的同時(shí)，使剪枝后的模型結(jié)構(gòu)能夠較好地利用硬件資源實(shí)現(xiàn)并行計(jì)算^［14^-15^］，本文對剪枝算法YOLObile^［16^］進(jìn)行了改進(jìn)，即將神經(jīng)網(wǎng)絡(luò)的權(quán)重矩陣按照m×n維度進(jìn)行分塊，并針對不同的剪枝塊設(shè)計(jì)不同的剪枝規(guī)則，同時(shí)保證同一剪枝塊內(nèi)的剪枝規(guī)則相同。YOLObile算法通過實(shí)驗(yàn)得出最佳的分塊方案為8×4大小^［16^］，將該方法直接應(yīng)用在VTA張量加速器的硬件加速設(shè)計(jì)中時(shí)，會導(dǎo)致精度損失較大。為了提升粗粒度分塊造成的精度損失，本文設(shè)計(jì)了如圖1所示的結(jié)構(gòu)化稀疏設(shè)計(jì)方法，充分保證了剪枝后模型的準(zhǔn)確率和較高的運(yùn)算速度，并將任務(wù)領(lǐng)域由目標(biāo)檢測任務(wù)擴(kuò)展至分類任務(wù)。

1.1 研究動機(jī)

本文首先根據(jù)硬件算力對分塊粒度大小進(jìn)行計(jì)算。針對VTA張量加速器架構(gòu)，計(jì)算模塊的計(jì)算資源受限，典型配置為32×32大小的計(jì)算矩陣，也就是最大支持到單次計(jì)算32×32=1 024個數(shù)據(jù)。本文的細(xì)粒度結(jié)構(gòu)化稀疏方法保證了每個塊內(nèi)剪枝規(guī)則的一致性，為了降低模型壓縮后的精度損失，各塊之間使用不同的剪枝規(guī)則。本文方法不僅可以應(yīng)用在卷積核尺寸為3×3、1×1、5×5等的卷積層上，也同樣適用于線性層。

如圖2所示，本文以YOLOv3模型^［17^］的Conv2d.1張量為例，展示了稀疏化權(quán)重?cái)?shù)值分布。原始的Conv2d.1張量大小為［64，32，3，3］，按照32×32大小進(jìn)行分塊后，可得兩個大小分別為［32，32，3，3］的子張量。圖中灰色陰影方塊所代表的數(shù)值為0的部分可以通過循環(huán)指令跳過進(jìn)行硬件端的加速計(jì)算。

1.2 分塊稀疏化設(shè)計(jì)方案

為了改進(jìn)張量處理器在32×32分塊粒度配置下的稀疏模型精度下降問題，首先設(shè)計(jì)了1.2.1小節(jié)中的多維知識蒸餾模塊和1.2.2小節(jié)中的一階段式迭代ADMM訓(xùn)練方法提升稀疏模型精度。然后，通過1.2.3小節(jié)中的自適應(yīng)層剪枝率模塊自動化分配各層剪枝率。最后，通過自動權(quán)重分配策略平衡各部分損失。

1.2.1 多維知識蒸餾模塊

知識蒸餾通常是指使用高精度的教師模型指導(dǎo)低精度的學(xué)生模型^［18^］，在結(jié)構(gòu)相似的情況下效果尤為明顯，而剪枝得到的稀疏模型與原模型在結(jié)構(gòu)上高度相似，非常符合知識蒸餾的應(yīng)用條件。為了同時(shí)學(xué)習(xí)空間維度上未剪枝教師模型的輸出及時(shí)間維度上前一個訓(xùn)練批次該模型本身的輸出，本文設(shè)計(jì)了多維知識蒸餾模塊，如圖3所示。圖中s代表學(xué)生模型，t代表教師模型。該模塊可分為空間維度的教師模型蒸餾損失_dis以及時(shí)序維度的自蒸餾損失^self_dis兩部分。相較于前者，后者在非目標(biāo)類別上的概率信息更為豐富。

本文提出的自蒸餾方法按照批次b將訓(xùn)練階段的時(shí)間維度劃分為b_i和b_i-1兩個小批次，并在第i個批次計(jì)算二者的軟輸出值pⁱ_b和p^i-1_b的KL散度，具體計(jì)算過程如下

式中：f為KL散度函數(shù)；i為批次數(shù)；j為單個批次的矩陣數(shù)；p為模型的輸出，在YOLO系列模型中即為YOLOLayer層的輸出；S_i，j=∑mi=1exp（pⁱ_j，r）；S_i-1，j=∑mi=1exp（p^i-1_j，r），其中m為模型輸出張量單個矩陣的行數(shù)；T為溫度，主要起到平滑正則化作用。

教師蒸餾又可進(jìn)一步劃分為類別損失^cls_dis、坐標(biāo)損失^box_dis以及特征損失^feat_dis這3部分。分類損失首先計(jì)算得到樣本屬于每個類別的概率，并通過KL散度分別度量原模型與稀疏模型分類類別分布之間的差異性；坐標(biāo)損失通過計(jì)算預(yù)測框中心坐標(biāo)及錨框?qū)捀撸饬肯∈枘Ｐ皖A(yù)測的邊界框與真實(shí)邊界框之間的差異；特征損失通過對剪枝前后模型的中間層的特征圖進(jìn)行提取并蒸餾，使稀疏模型能夠更好地保留原模型中的細(xì)節(jié)特征。綜上，可得最終的多維知識蒸餾損失_dis，算式如下

式中：λ_self、λ_cls、λ_box、λ_feat分別為自蒸餾損失項(xiàng)、分類損失項(xiàng)、坐標(biāo)損失項(xiàng)、特征損失項(xiàng)的平衡系數(shù)。

1.2.2 一階段式迭代ADMM訓(xùn)練

傳統(tǒng)的分塊剪枝算法^［16^］是先得到剪枝掩碼再剪枝并訓(xùn)練的兩階段式方案。為了節(jié)省訓(xùn)練計(jì)算成本，避免重復(fù)訓(xùn)練剪枝前的預(yù)訓(xùn)練模型，以及針對稀疏模型的重新微調(diào)訓(xùn)練，本文嘗試采用SR-STE^［13^］算法進(jìn)行修改，將傳統(tǒng)的兩階段式剪枝方式改為一階段式剪枝方式，即在剪枝得到稀疏權(quán)重和剪枝掩碼后，直接通過反向傳播更新近似梯度來訓(xùn)練稀疏網(wǎng)絡(luò)，一步到位，不再進(jìn)行剪枝后的微調(diào)。

通過2.1.2小節(jié)中的消融實(shí)驗(yàn)發(fā)現(xiàn)，引入SR-STE一階段式剪枝訓(xùn)練后，模型產(chǎn)生了較大的精度損失，為此本文對一階段式剪枝進(jìn)行了改進(jìn)，同時(shí)調(diào)整了懲罰參數(shù)ρ，以便更好地應(yīng)用到模型剪枝領(lǐng)域，并得到了較好的實(shí)驗(yàn)結(jié)果。

ADMM算法中，通過引入增廣拉格朗日量來求解原始的具有非凸約束的優(yōu)化問題^［19^］。如式（3）所示，引入分段函數(shù)g_i（W_i），以不含獨(dú)立約束條件的形式求解原來的非凸優(yōu)化問題，表達(dá)式為

式中：（·）為激活函數(shù)；W為權(quán)重參數(shù)；b為偏置參數(shù)；g（·）為引入的分段函數(shù)；card（·）為返回其矩陣參數(shù)中非零元素?cái)?shù)量；N為總網(wǎng)絡(luò)層數(shù)；l_i為第i層的層剪枝率。

引入增廣拉格朗日量，提取縮放對偶變量，即可得到ADMM算法迭代式如下

式中：L（·）為拉格朗日函數(shù)；Z為優(yōu)化問題的目標(biāo)函數(shù)；U為拉格朗日乘子。

使用對偶上升法的思路，針對（W^k+1_i，b^k+1_i）、Z^k+1_i、U^k+1_i這3組變量，分別在固定另外兩個變量的條件下，更新其中一個變量，重復(fù)迭代循環(huán)直到數(shù)值穩(wěn)定，模型也就達(dá)到收斂了。其中，對于對偶子問題的求解，采用梯度下降法計(jì)算如下

即，ADMM損失_admm=∑Ni=1ρ_i2W_i-Z^k_i+U^k_i2F。基于此，本文設(shè)計(jì)了如圖4所示的一階段式迭代ADMM訓(xùn)練優(yōu)化流程。

在設(shè)定了總剪枝率后，通過1.2.2小節(jié)中提出的自適應(yīng)層剪枝率模塊獲得各層的剪枝率l_i。將總的訓(xùn)練流程分為4個連續(xù)不斷的訓(xùn)練階段，每一個階段都使用前一個得到的最終權(quán)重作為模型初始化權(quán)重，設(shè)定懲罰參數(shù)ρ的初始值為10^－4，ρ在10^－4～10^－1范圍內(nèi)變化，第i個階段的懲罰參數(shù)ρ_i=10ρ_i-1，通過動態(tài)調(diào)整懲罰參數(shù)，在訓(xùn)練初期盡量使其逼近損失函數(shù)（·）的最小值，在訓(xùn)練后期進(jìn)一步正則化權(quán)重，從而達(dá)到較好的模型精度。在每一個批次的訓(xùn)練中，都使用剪枝后得到的稀疏權(quán)重和剪枝掩碼計(jì)算近似梯度，反向傳播更新剪枝前密集權(quán)重的梯度。

1.2.3 自適應(yīng)層剪枝率模塊

為了評估度量剪枝率對稀疏模型的性能影響，本文定義對某一層進(jìn)行單層剪枝后測定的全類平均精度為該層的層精度敏感度。圖5所示為不同剪枝率下YOLOv3層精度敏感度變化趨勢圖，用不同顏色標(biāo)記了不同總剪枝率的設(shè)定分類，并在層疊圖中進(jìn)行了分層繪制。例如，當(dāng)剪枝率設(shè)定為0.7時(shí)，測得第29層單層剪枝后的全類平均精度指標(biāo)為0.46，即其精度敏感度為0.46。

由圖5可得，不同的剪枝率下，層精度敏感度變化趨勢是一致的，即層敏感度是由模型結(jié)構(gòu)決定的固有屬性，不隨剪枝率的變化而變化，因此可以通過分析預(yù)訓(xùn)練模型結(jié)構(gòu)及權(quán)重?cái)?shù)值特征，得到恰當(dāng)?shù)膶蛹糁β史峙洳呗浴；谏鲜鼋Y(jié)論，本文進(jìn)一步提出了自適應(yīng)的層剪枝率模塊。本文采用傳統(tǒng)的用于求解非凸約束優(yōu)化問題的交替向乘子法（ADMM）算法選取最優(yōu)剪枝權(quán)重。為了保證總剪枝率的設(shè)定需求，先前的工作大多通過多次調(diào)參設(shè)置，選取最優(yōu)的層剪枝比率。

BN層在卷積層之后進(jìn)行了數(shù)據(jù)歸一化，BN層中的α參數(shù)包含了數(shù)據(jù)分布信息，可依據(jù)BN層的權(quán)重?cái)?shù)據(jù)進(jìn)行每層重要性衡量。基于此，本文提出了如圖6所示的自適應(yīng)層剪枝率模塊。

將每個BN層權(quán)重的均值作為評估各層重要性的指標(biāo)，并通過Softmax函數(shù)將其映射為取值區(qū)間在［0，1］范圍內(nèi)且和為1的概率分布，然后按照指定的剪枝比率進(jìn)行放縮，最終得到自適應(yīng)的各層剪枝率。選層策略主要可分為按照BN層權(quán)重的最大值排序以及按照均值排序兩種方案，本文通過實(shí)驗(yàn)發(fā)現(xiàn)按照均值排序效果更優(yōu)。

為了更好地平衡多維知識蒸餾損失、一階段式迭代ADMM訓(xùn)練損失以及傳統(tǒng)訓(xùn)練損失在梯度下降過程中的作用，本文設(shè)計(jì)了如下所示的自適應(yīng)損失權(quán)重分配策略

式中：為總損失；s為上述三項(xiàng)損失之和；為傳統(tǒng)訓(xùn)練損失；λ為超參數(shù)。

通過實(shí)驗(yàn)發(fā)現(xiàn)，深度學(xué)習(xí)模型訓(xùn)練損失函數(shù)與知識蒸餾損失_dis的梯度調(diào)整需要相互制約，因此在前面分別乘上了對方的比例系數(shù)，而_admm極小，不需要進(jìn)行比例調(diào)整。

2 實(shí)驗(yàn)結(jié)果與分析

2.1 消融實(shí)驗(yàn)

為了探究面向張量處理器VTA的細(xì)粒度結(jié)構(gòu)化稀疏設(shè)計(jì)中各個模塊的有效性，本節(jié)在COCO128數(shù)據(jù)集上，使用YOLOv3模型并將總剪枝率設(shè)定為30%，進(jìn)行了如下消融實(shí)驗(yàn)。

2.1.1 多維知識蒸餾模塊

表1為多維知識蒸餾模塊消融實(shí)驗(yàn)結(jié)果，采用精度、F₁、FLOPS壓縮率衡量本文方法的有效性。針對目標(biāo)檢測任務(wù)，由于8×4分塊粒度較細(xì)，加入多維知識蒸餾模塊后，全類平均精度指標(biāo)有所提升但不明顯，而對于粒度較粗的32×32分塊，加入多維知識蒸餾模塊后，剪枝后的模型精度由0.801提升至0.822，但仍有較大的優(yōu)化空間。

2.1.2 SR-STE模塊

為了減少訓(xùn)練代價(jià)，本文采用SR-STE算法^［13^］將傳統(tǒng)的兩階段式流程優(yōu)化為直接進(jìn)行稀疏訓(xùn)練的一階段式流程，結(jié)果見表2。

由于一階段式訓(xùn)練輪次的減少，模型產(chǎn)生了較大的精度損失，全類平均精度下降了6.8%，為此本文將通過后續(xù)2.1.3小節(jié)及2.1.4小節(jié)中的模塊對經(jīng)典的SR-STE算法進(jìn)行改進(jìn)。

2.1.3 自適應(yīng)層剪枝率模塊

表3所示為自適應(yīng)層剪枝率模塊的消融實(shí)驗(yàn)結(jié)果，本文通過如下消融實(shí)驗(yàn)以數(shù)值化形式驗(yàn)證自適應(yīng)層剪枝率模塊的有效性。可以看出，當(dāng)分塊大小為32×32時(shí)，加入自適應(yīng)層剪枝率模塊的方案4對比未加入的方案3，精度提高了2.5%，且此時(shí)的FLOPS壓縮率也提升了1.8%，實(shí)驗(yàn)結(jié)果表明了自適應(yīng)層剪枝率分配的有效性。

2.1.4 一階段式迭代ADMM訓(xùn)練

表4所示是一階段式迭代ADMM訓(xùn)練的消融實(shí)驗(yàn)結(jié)果，當(dāng)分塊大小為32×32時(shí)，通過懲罰參數(shù)遞增的迭代訓(xùn)練方式，實(shí)驗(yàn)4對比未改進(jìn)的實(shí)驗(yàn)3，精度提高了5.7%，驗(yàn)證了該模塊的有效性。

2.2 對比實(shí)驗(yàn)

2.2.1 目標(biāo)檢測任務(wù)剪枝率對比實(shí)驗(yàn)

為了驗(yàn)證目標(biāo)檢測任務(wù)中不同剪枝率下的剪枝效果，本文進(jìn)行了剪枝率對比實(shí)驗(yàn)。目標(biāo)檢測任務(wù)剪枝率對比實(shí)驗(yàn)結(jié)果見表5。

如表5所示，本文分別使用YOLOv3^［17^］、YOLOv4^［20^］模型在VOC07+12數(shù)據(jù)集上進(jìn)行了驗(yàn)證，并選用分塊剪枝的代表性方法YOLObile^［16^］作為基準(zhǔn)進(jìn)行對標(biāo)。針對YOLOv3模型，當(dāng)總剪枝率設(shè)定為30%時(shí)，全類平均精度的增長百分比為1.0%。表明針對目標(biāo)檢測任務(wù)，本文提出的方案在常見的YOLO系列模型架構(gòu)和常用的目標(biāo)檢測數(shù)據(jù)集上具有良好的精度。

為了進(jìn)一步可視化不同剪枝率下各類別平均精度指標(biāo)的變化曲線，本文在不同總剪枝率下進(jìn)行剪枝，結(jié)果見圖7。

如圖7所示，本文從VOC2007+2012數(shù)據(jù)集的20個分類中選取5個（小汽車、貓、公共汽車、奶牛、椅子）分為一組繪制折線圖。由圖可得，隨著剪枝率的增大，各類別平均精度呈下降趨勢。

2.2.2 分類任務(wù)剪枝率對比實(shí)驗(yàn)

為了驗(yàn)證分類任務(wù)中不同剪枝率情況下的剪枝效果，本文分別使用ResNet18^［21^］、ResNet34^［21^］、MobileNetV2^［22^］、SENet^［23^］、DenseNet^［24^］模型在CIFAR-100數(shù)據(jù)集下進(jìn)行了剪枝率對比實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果如圖6所示。

從表6可得，在CIFAR-100數(shù)據(jù)集下，針對ResNet18模型，當(dāng)總剪枝率為70%時(shí)，Top1準(zhǔn)確率的增長百分比為0.67%。針對MobileNetV2模型，當(dāng)總剪枝率為80%時(shí)，Top1準(zhǔn)確率的增長百分比為2.6%，Top-5準(zhǔn)確率的增長百分比為1.2%。本文方案與YOLObile^［16^］相比有明顯的改進(jìn)。

3 結(jié) 論

本文改進(jìn)了一種針對VTA張量處理器的細(xì)粒度結(jié)構(gòu)化稀疏方法。該方法有效解決了傳統(tǒng)分塊剪枝方法在粗粒度稀疏計(jì)算時(shí)精度下降的問題，并將任務(wù)領(lǐng)域進(jìn)行了拓展。通過對比實(shí)驗(yàn)結(jié)果，驗(yàn)證了壓縮后的模型推理精度，改進(jìn)方法在目標(biāo)檢測任務(wù)和圖像分類任務(wù)上均取得了較好的實(shí)驗(yàn)結(jié)果，同時(shí)對剪枝的容忍性更高，可以達(dá)到更高的模型稀疏程度。該方法為模型稀疏領(lǐng)域提供了一種高效適配硬件加速器的解決方案，主要包含以下4部分貢獻(xiàn)：

（1）針對VTA的多重循環(huán)維度展開特性，對模型的權(quán)重張量進(jìn)行32×32大小的分塊；

（2）結(jié)合時(shí)間維度的自蒸餾與空間維度的教師蒸餾，進(jìn)行多維度特征對齊；

（3）通過一階段式迭代訓(xùn)練方式，改進(jìn)原有的ADMM算法計(jì)算流程，在提升模型部署精度的同時(shí)減少訓(xùn)練成本；

（4）提出自適應(yīng)層剪枝率模塊，進(jìn)行總剪枝率的自適應(yīng)分配，實(shí)現(xiàn)端到端的自動化剪枝。

考慮到針對不同模型壓縮方案的普適性問題，在后續(xù)的研究中可以設(shè)計(jì)通用軟件壓縮工具鏈^［25^］，實(shí)現(xiàn)快捷通用的模型稀疏化設(shè)計(jì)。同時(shí)可以嘗試將其拓展應(yīng)用于更多不同的網(wǎng)絡(luò)架構(gòu)，并將其進(jìn)一步部署到VTA加速的硬件設(shè)備上，驗(yàn)證實(shí)際FPGA硬件推理時(shí)的精度及效率^［26^］。

參考文獻(xiàn)：

［1］高晗，田育龍，許封元，等. 深度學(xué)習(xí)模型壓縮與加速綜述［J］. 軟件學(xué)報(bào)，2021，32（1）：68-92.

GAO Han，TIAN Yulong，XU Fengyuan，et al. Survey of deep learning model compression and acceleration ［J］. Journal of Software，2021，32（1）：68-92.

［2］BERTHELIER A，CHATEAU T，DUFFNER S，et al. Deep model compression and architecture optimization for embedded systems：a survey ［J］. Journal of Signal Processing Systems，2021，93（8）：863-878.

［3］符惠桐，王鵬，李曉艷，等. 面向移動目標(biāo)識別的輕量化網(wǎng)絡(luò)模型［J］. 西安交通大學(xué)學(xué)報(bào)，2021，55（7）：124-131.

FU Huitong，WANG Peng，LI Xiaoyan，et al. Lightweight network model for moving object recognition ［J］. Journal of Xi’an Jiaotong University，2021，55（7）：124-131.

［4］BA L J，CARUANA R. Do deep nets really need to be deep？［C］//Proceedings of the 27th International Conference on Neural Information Processing Systems. Cambridge，MA，USA：MIT Press，2014：2654-2662.

［5］KIM T，KWON Y，LEE J，et al. CPrune：compiler-informed model pruning for efficient target-aware DNN execution ［C］//Computer Vision -ECCV 2022. Cham，Switzerland：Springer Nature，2022：651-667.

［6］LI Zhengang，YUAN Geng，NIU Wei，et al. NPAS：A compiler-aware framework of unified network pruning and architecture search for beyond real-time mobile acceleration ［C］//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）. Piscataway，NJ，USA：IEEE，2021：14250-14261.

［7］GUAN Hui，LIU Shaoshan，MA Xiaolong，et al. CoCoPIE：enabling real-time AI on off-the-shelf mobile devices via compression-compilation co-design ［J］. Communications of the ACM，2021，64（6）：62-68.

［8］CHEN Tianqi，MOREAU T，JIANG Ziheng，et al. TVM：an automated end-to-end optimizing compiler for deep learning ［C］//Proceedings of the 13th USENIX conference on Operating Systems Design and Implementation. USA：USENIX Association，2018：579-594.

［9］MOREAU T，CHEN Tianqi，VEGA L，et al. A hardware-software blueprint for flexible deep learning specialization ［J］. IEEE Micro，2019，39（5）：8-16.

［10］Mudigere D，HAO Yuchen，HUANG Jianyu，et al. Software-hardware co-design for fast and scalable training of deep learning recommendation models ［C］//Proceedings of the 49th Annual International Symposium on Computer Architecture. New York，USA：ACM，2022：993-1011.

［11］VADERA S，AMEEN S. Methods for pruning deep neural networks ［J］. IEEE Access，2022，10：63280-63300.

［12］HUANG Sitao，PEARSON C，NAGI R，et al. Accelerating sparse deep neural networks on FPGAs ［C］//2019 IEEE High Performance Extreme Computing Conference （HPEC）. Piscataway，NJ，USA：IEEE，2019：1-7.

［13］ZHOU Aojun，MA Yukun，ZHU Junnan，et al. Learning N：M fine-grained structured sparse neural networks from scratch ［EB/OL］. （2021-04-18）［2024-04-01］. https：//arxiv.org/abs/2102.04010.

［14］CHANG S E，LI Yanyu，SUN Mengshu，et al. Mix and match：a novel FPGA-centric deep neural network quantization framework ［C］//2021 IEEE International Symposium on High-Performance Computer Architecture （HPCA）. Piscataway，NJ，USA：IEEE，2021：208-220.

［15］林景棟，吳欣怡，柴毅，等. 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化綜述［J］. 自動化學(xué)報(bào)，2020，46（1）：24-37.

LIN Jingdong，WU Xinyi，CHAI Yi，et al. Structure optimization of convolutional neural networks：a survey ［J］. Acta Automatica Sinica，2020，46（1）：24-37.

［16］CAI Yuxuan，LI Hongjia，YUAN Geng，et al. YOLObile：real-time object detection on mobile devices via compression-compilation co-design ［C］//Proceedings of the AAAI Conference on Artificial Intelligence. Palo Alto，CA，USA：AAAI Press，2021：955-963.

［17］FARHADI A，REDMON J. Yolov3：an incremental improvement ［C］//Computer Vision and Pattern Recognition. Berlin/Heidelberg，Germany：Springer，2018：1-6.

［18］HINTON G，VINYALS O，DEAN J. Distilling the knowledge in a neural network ［EB/OL］. （2015-03-09）［2024-04-01］. https：//arxiv.org/abs/1503.02531.

［19］NIU Wei，LI Zhengang，MA Xiaolong，et al. GRIM：a general，real-time deep learning inference framework for mobile devices based on fine-grained structured weight sparsity ［J］. IEEE Transactions on Pattern Analysis and Machine Intelligence，2022，44（10）：6224-6239.

［20］BOCHKOVSKIY A，WANG C Y，LIAO H Y M. YOLOv4：optimal speed and accuracy of object detection ［EB/OL］. （2020-04-23）［2024-04-01］. https：//arxiv.org/abs/2004.10934.

［21］BAE W，YOO J，YE J C. Beyond deep residual learning for image restoration：persistent homology-guided manifold simplification ［C］//2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops （CVPRW）. Piscataway，NJ，USA：IEEE，2017：1141-1149.

［22］SANDLER M，HOWARD A，ZHU Menglong，et al. MobileNetV2：inverted residuals and linear bottlenecks ［C］//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway，NJ，USA：IEEE，2018：4510-4520.

［23］HU Jie，SHEN Li，SUN Gang. Squeeze-and-excitation networks ［C］//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway，NJ，USA：IEEE，2018：7132-7141.

［24］HUANG Gao，LIU Zhuang，VAN DER MAATEN L，et al. Densely connected convolutional networks ［C］//2017 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. Piscataway，NJ，USA：IEEE，2017：2261-2269.

［25］FANG Gongfan，MA Xinyin，SONG Mingli，et al. DepGraph：towards any structural pruning ［C］//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）. Piscataway，NJ，USA：IEEE，2023：16091-16101.

［26］SUN Yongshuai，GUO Mengyu，LIANG Dacheng，et al. Exploiting dynamic bit sparsity in activation for deep neuralnetwork acceleration ［C］//2021 IEEE 14th International Conference on ASIC （ASICON）. Piscataway，NJ，USA：IEEE，2021：1-4.

（編輯亢列梅）