深度卷積神經網絡的柔性剪枝策略

2022-02-12 02:14:26陳靚錢亞冠何志強關曉惠王濱王星

電信科學 2022年1期

陳靚，錢亞冠，何志強，關曉惠，王濱，王星

研究與開發

深度卷積神經網絡的柔性剪枝策略

陳靚1,2，錢亞冠1,2，何志強1,2，關曉惠3，王濱4，王星4

（1. 浙江科技學院理學院/大數據學院，浙江杭州 310023；2. 海康威視?浙江科技學院邊緣智能安全聯合實驗室，浙江杭州 310023； 3. 浙江水利水電學院信息工程與藝術設計學院，浙江杭州 310023；4. 浙江大學電氣工程學院，浙江杭州 310063）

盡管深度卷積神經網絡在多種應用中取得了極大的成功，但其結構的冗余性導致模型過大的存儲容量和過高的計算代價，難以部署到資源受限的邊緣設備中。網絡剪枝是消除網絡冗余的一種有效途徑，為了找到在有限資源下最佳的神經網絡模型架構，提出了一種高效的柔性剪枝策略。一方面，通過計算通道貢獻量，兼顧通道縮放系數的分布情況；另一方面，通過對剪枝結果的合理估計及預先模擬，提高剪枝過程的效率。基于VGG16與ResNet56在CIFAR-10的實驗結果表明，柔性剪枝策略分別降低了71.3%和54.3%的浮點運算量，而準確率僅分別下降0.15個百分點和0.20個百分點。

卷積神經網絡；網絡剪枝；縮放系數；通道貢獻量

0 引言

從最初的8層AlexNet[1]，到上百層的ResNet[2]，深度學習技術的發展得益于日益加深的網絡結構，但同時受其制約。一個152層的ResNet有超過6 000萬個參數，在推斷分辨率為224dpi×224 dpi的圖像時需要超過200億次浮點運算（floating point operation，FLOP）。盡管這在擁有大量高性能GPU的云平臺上不成問題，但對于移動設備、可穿戴設備或物聯網設備等資源受限的平臺是無法承受的。然而，集中化的云端推理服務存在帶寬資源消耗大、圖像數據隱私泄密嚴重、時效性難以保證等問題[3]。因此，如何在邊緣端部署深度神經網絡模型是解決問題的關鍵。

為此學術界提出了很多壓縮卷積神經網絡的方法，包括低秩近似[4]、網絡量化[5]和網絡剪枝等，其中剪枝技術被證實是一種有效的方法。剪枝方法按照移除的粒度大小可以被分為兩大類：權重剪枝和結構化剪枝。權重剪枝[6]也被稱作非結構化剪枝，可以剪除網絡中的任意連接權重。盡管它具有較高的剪枝率，但稀疏權重矩陣的存儲和關聯索引需要特定的計算環境，在實際中難以實現硬件加速[7-8]。結構化剪枝[9-12]直接減小權重矩陣的大小，同時保持完整矩陣的形式，因此它可以更好地兼容硬件進行加速，成為目前的主流研究方向。

早期的剪枝方法[12-14]通常根據權重重要性決定哪些通道被剪除，忽略權重重要性之間相互聯系，從而容易造成過度剪枝或剪枝不足的問題，導致剪枝后模型性能不可復原地下降。最新的研究通常使用漸進的迭代剪枝方法[15]，或將網絡結構搜索問題轉化為優化問題[16]，逐步逼近最佳的網絡架構。然而當這些方法應用于大剪枝率時，受到網絡稀疏程度的影響，在實際剪枝過程中會帶來額外的計算量。

為了能夠更高效地剪枝得到最佳的模型結構，本文提出一種柔性剪枝策略。該方法以通道為單位剪枝，首先結合批歸一化（batch normalization，BN）層的縮放系數值及其分布情況，計算通道貢獻量作為衡量通道重要性的依據，并初步估算每層的剪枝比例。然后通過模擬剪枝調優剪枝策略，以此快速逼近最佳的網絡架構。最后根據得到的架構對每一層分別剪枝，獲得緊湊的模型。本文提出的剪枝方法，采用全局的結構化剪枝方式，過程中不需要對局部手動調參，剪枝后的模型無須特定的環境支持，是一種高效的模型壓縮方法。

1 相關工作

剪枝作為網絡壓縮的有效方法之一，通過裁剪網絡中不重要的權重，在不影響性能的情況下，提升網絡運算速度，減少存儲容量。早在1989年，LECUN等[17]就指出神經網絡中存在大量冗余，刪除網絡中不重要的權重能夠獲得更好的泛化能力，消耗更少的訓練和推理時間。文獻[6]通過修剪網絡中的不重要連接，減少網絡所需要的參數，減少內存和計算消耗。盡管權重剪枝在降低網絡參數上有顯著的效果，但會導致模型的非結構化，很難實現硬件加速[7-8]。

為兼容現有的硬件加速，近期的剪枝工作[9-12]集中在結構化剪枝上，通過修剪整個通道或者卷積核以保持結構的規則性，并提出了多種重要性度量標準。文獻[9]使用卷積核的L1范數作為重要性度量，計算卷積核中所有權值的絕對值之和，從而規則地刪除數值較小的卷積核避免稀疏連接。文獻[10]通過計算激活層后神經元中數值為0的比例衡量神經元的重要性。文獻[11]根據刪除一個通道后對下一層激活值的影響衡量該通道重要性，尋找這一層輸入的最優子集代替原來的輸入，得到盡可能相似的輸出，剪除子集外的通道。文獻[12]提出網絡瘦身（network slimming，NS）方法，用BN層的縮放系數作為通道重要性的評價標準，根據全局閾值剪除縮放系數小于閾值的通道。

NS方法[12]是一種經典的自動化剪枝方法[18]，可以根據整體剪枝率自動地生成剪枝后的網絡架構，無須人為設計每層的剪枝比例。文獻[19]指出，NS方法中基于預定義的全局閾值（optimal thresholding，OT）的設計忽略了不同層之間的變化和權重分布，并提出一種最優閾值設定策略，根據不同層的權重分布設計各層的最優閾值。文獻[20]同樣基于NS方法，提出了一種極化正則化器（polarization regularizer，PR），通過調整稀疏化訓練的策略，對不同重要性的通道進行區分。

常規的剪枝方法是一個不可逆過程，被剪除的通道或者卷積核不參與后續訓練過程，也被稱為“剪枝”。文獻[21]和文獻[15]提出“剪枝”法，在訓練期間將被剪除的卷積核參數重置為零，并在后續訓練階段持續更新，以此降低過度剪枝風險。文獻[22]在此基礎上提出ASRFP方法，漸進地修剪卷積核，使得訓練和剪枝過程更加穩定。文獻[23]提出BN-SFP方法，根據BN層縮放系數進行軟剪枝，實現性能的提升。

最新的研究工作通過自動搜索最優子網絡結構實現網絡剪枝，文獻[24]預先訓練大型PruningNet預測剪枝模型的權重，通過一種進化搜索方法搜索性能良好的修剪網絡。文獻[25]提出了近似的Oracle過濾器剪枝，用二分搜索的方式確定每層的剪枝數。文獻[26]基于人工蜂群算法，搜索最優的剪枝架構。

相比于以往的剪枝方法通過去除冗余或者結構搜索的方式，漸進地逼近目標壓縮模型，柔性方法的優越性體現在，通過分析模型的權值分布和對目標壓縮模型的快速模擬，以少量計算成本獲得高性能的壓縮模型架構。

2 方法描述

神經網絡的前向傳播是一個連續過程，剪除其中一部分權重必然對后續的計算產生影響。原先的NS方法中基于預定義全局閾值的設計忽略了權重的關聯性。另外，網絡架構的改變會對權重的分布產生影響，即當對神經網絡模型進行迭代剪枝時，每輪迭代后的模型由于架構發生改變，權重分布也會相應發生變化。當網絡架構越接近于最佳的剪枝后架構時，權重分布也越接近。據此本文提出柔性剪枝策略，結合BN層縮放系數的分布情況，構建一個新的通道重要性評價指標——通道貢獻量。并提出一種通道等效重組方法，對剪枝后的網絡架構進行模擬，獲得接近于最佳網絡架構的權重分布。

柔性剪枝算法的流程如圖1所示，整個流程可以分為獲取架構和獲取參數兩個部分。通過計算通道貢獻量、通道等效重組和適配調整縮放系數3個步驟獲取壓縮模型的架構，即剪枝后模型各層剩余的通道數。然后以此進行硬剪枝，微調獲取壓縮模型參數。其中，通道貢獻量的計算包括閾值函數平滑和位序相關性加權兩步，本文將在下面詳細地闡述實施細節。需要指出的是，本文提出的柔性剪枝在模擬訓練過程中提供了更多的網絡架構調整機會，有效地避免一次性剪枝帶來的過度剪枝問題。

圖1 柔性剪枝的流程

2.1 閾值函數平滑

由于縮放系數局限于反映單個通道的重要性，因此在縮放系數的基礎上提出通道貢獻量，以便于擴展到對整個層的度量。通道貢獻量的設計初衷是用于抑制通道的輸出，實現模擬剪枝。NS方法根據全局閾值，剪除縮放系數小于全局閾值的通道，保留縮放系數大于全局閾值的通道。其剪枝過程可以視為將通道輸出乘以一個關于縮放系數的閾值函數，類似于階躍函數，即縮放系數小于閾值的通道輸出乘以0，縮放系數大于閾值的通道輸出乘以1。然而這會造成被剪除部分信息不可恢復的損失，并且無法體現不同通道的重要性差異，因此為便于對剪枝后架構的模擬，將其改造成平滑度可控的函數。

首先，根據通道縮放系數的大小，設計一個平滑函數：

圖2 不同平滑系數下的平滑函數

2.2 位序相關性加權

其中，表示在加權過程中使用了當前通道位序前后項的值，體現了序列中的相鄰通道對于當前通道貢獻量的影響程度。

2.3 通道等效重組

使用通道貢獻量對初始模型進行等效重組的過程，可以視作一種模擬剪枝方法，此時雖然保留了模型所有信息的完整，但是各層的輸出近似于被剪枝之后的輸出。

圖4 通道等效重組的過程示意圖

2.4 縮放系數的適配調整

2.5 微調

通過上述步驟，能夠獲取目標剪枝率下壓縮模型的架構。根據各層的剩余通道數，分別進行硬剪枝，根據此時各通道通過式（5）得到的縮放系數大小，剪除數值較低的部分通道。由于柔性剪枝是一步式的剪枝方法，因此最后的訓練過程根據剪枝率的大小，提供兩種方案。當剪枝率較小時，對剪枝后的模型微調。當剪枝率較大時，考慮使用壓縮模型架構直接從頭訓練（train from scratch）。

3 實驗與分析

本文實驗代碼采用Pytorch編程框架，所使用的GPU為NVIDIA RTX 2080Ti。本節將結合實驗驗證深度卷積神經網絡柔性剪枝策略的實際性能。

3.1 實驗數據與評價指標

實驗采用CIFAR-10/100[28]數據集，其被廣泛應用于評價網絡剪枝方法。CIFAR-10/100數據集都包括50 000個訓練數據和10 000個測試數據，每張圖像的大小是32 dpi×32 dpi，分別有10個和100個類。按照文獻[12]的方法對CIFAR-10/100進行預處理圖像。

本文選取經典的VGG[27]和ResNet[2]作為剪枝的預訓練網絡。這兩個網絡分別作為無跨層連接和有跨層連接的代表，能夠最直觀地反映出網絡壓縮對于一般網絡模型的效果。需要指出的是，當對ResNet上的跨層連接進行剪枝時，通過剪枝得到一個錢包型（wallet）[29]的結構會更有利于剪枝后的網絡架構。因此，本文設計一種相對保守的剪枝策略：對于跨層連接的通道，以每次跨層連接前后的BN層縮放系數中的最大值作為它的重要性度量，再計算得到跨層連接所需要的通道數。相比于NS剪枝完全不對跨層的通道進行裁剪，通過這一策略能夠在最大程度保證剪枝后準確率不會驟降的同時，對跨層連接的通道進行裁剪。

實驗主要通過剪枝后模型的準確率、浮點運算量和參數量3個評價指標與其他剪枝方法對比。準確率指的是分類神經網絡在測試數據集上的Top-1分類準確率。浮點運算量用于衡量模型的計算復雜度，浮點運算量越低說明模型實際運算所需的計算量越少，模型加速的效果越好。參數量表示模型占用的內存大小量，參數量的減少可以直接體現模型壓縮的效果。

3.2 參數設定

稀疏訓練：與NS[12]一樣，通過對BN層縮放系數施加L1懲罰項進行稀疏化訓練。在CIFAR數據集上，對于VGG16選擇10?4作為稀疏率，ResNet56則選擇10?5。所有其他設置與正常訓練保持一致。

3.3 CIFAR10/100上VGG16的剪枝實驗

在CIFAR10/100數據集上修剪VGG16的比較結果見表1。為了保證數據的準確性，直接使用文獻[19-20, 25]中的實驗數據與柔性剪枝方法進行對比。由于NS[12]最先提出使用BN層的縮放系數作為衡量通道重要性的度量，OT[19]、PR[20]是基于NS的最新改進工作，AOFP降低剪枝過程的運算成本，這些都與柔性剪枝有一定關聯，因此后續實驗主要與這些工作進行比較。首先修剪VGG16模型使其減少與PR方法相當的浮點運算量，實驗結果顯示在CIFAR10/100數據集上，柔性剪枝方法在浮點運算量較基線模型分別降低55%和45%時，準確率為94.04%和74.33%，分別比PR提高0.12%和0.08%，比OT提高0.17%和0.71%。其中在CIFAR10數據集上，柔性剪枝比AOFP多減少14%的浮點運算量，但準確度基本一致。

表1 在CIFAR10/100數據集上修剪VGG16的比較結果

大剪枝率下CIFAR10數據集上修剪VGG16的比較結果見表2。為公平地比較壓縮模型網絡架構的性能，分別使用文獻[18]提出的兩種訓練方法Scratch-E、Scratch-B對各網絡架構進行從頭訓練。其中，Scratch-E表示使用與預訓練相同的160個訓練輪次，Scratch-B則使用相同計算預算，如剪枝后的網絡比初始模式減少了一半的浮點運算量，則用兩倍的訓練輪次。表2中依次展示通道剪枝率為74%、76%、80%和86%時柔性剪枝后壓縮模型的網絡架構。與OT相比，當剪枝率相同時，柔性剪枝方法（剪枝率74%）得到的架構準確率更高，但浮點運算量更大。而當浮點運算量相當時，柔性剪枝方法（剪枝率76%）與OT[19]的結果準確率非常接近。從架構上看，柔性剪枝方法（剪枝率76%）與OT在前6層的通道數非常接近，每層的通道數差別都在10以內，而在后面幾層，柔性剪枝方法則保留了更少的通道。RBP[30]是一種在貝葉斯框架下的層遞歸貝葉斯剪枝方法，與其相比，在相同的浮點運算量下，柔性剪枝方法（剪枝率80%）在兩種訓練方法下的準確率比RBP分別提高了0.49%和0.53%。在相同的剪枝率下，柔性剪枝方法（剪枝率86%）雖然在Scratch-E訓練下的準確率比RBP降低了0.51%，但在Scratch-B訓練下的準確率提高了0.17%。其主要原因是柔性剪枝方法（剪枝率86%）得到的架構浮點運算量太低，只有RBP架構的一半。實驗結果表明，在大剪枝率下，柔性剪枝方法得到的網絡架構性能超過了一些當下最新的剪枝方法。

表2 大剪枝率下CIFAR10數據集上修剪VGG16的比較結果

3.4 CIFAR10/100上ResNet56的剪枝實驗

在CIFAR10/100數據集上修剪ResNet56的比較結果見表3。為了保證數據的準確性，使用文獻[12,15,20-21,23,26]中的實驗數據與柔性剪枝方法對比，其中，NS[12]、PR[20]、BN-SFP[23]是基于BN層縮放系數的剪枝方法，SFP[21]、BN-SFP、ASFP[15]是軟剪枝方法，與柔性剪枝方法存在一定關聯。從表3中可以看出，在相同浮點運算量下，柔性剪枝方法在CIFAR10/100數據集上分別比NS[12]提高了0.58%和1.11%，而與PR的方法結果非常接近，僅提高了0.02%和0.08%。與軟剪枝方法對比中，柔性剪枝具有一定優勢，在CIFAR10數據集上的準確率分別比SFP、BN-SFP、ASFP提高了0.25%、0.31%、0.48%。除此以外，柔性剪枝方法在浮點計算量減少48%時，準確率達到93.85%，優于一些其他最新剪枝ABCPruner[26]、DCP[31]、DeepHoyer[32]、LPEC[33]。

表3 在CIFAR10/100數據集上修剪ResNet56的比較結果

3.5 超參數分析

3.6 迭代訓練分析

為了進一步驗證柔性剪枝策略的高效性，本節設計實驗分析柔性剪枝方法所需的迭代次數以及每次迭代后再訓練的輪次對剪枝效果的影響，如圖6所示。首先，如圖6（a）所示，固定總訓練輪次為80輪，分別測試1次、2次、4次迭代，每次迭代后再訓練輪次相同。結果顯示，迭代次數的增加不會對柔性剪枝的性能產生較大影響。其次，如圖6（b）所示，測試更多的總訓練輪次是否導致更好的剪枝效果，實驗中分別測試80次、160次、240次總訓練輪次。結果顯示，隨著總訓練輪次的增加，剪枝性能沒有顯著提升。通過迭代訓練的實驗可知，柔性剪枝方法的優越性在于，與傳統的迭代剪枝方法不同，柔性剪枝的過程不需要重復“剪枝?再訓練”的過程，僅需要消耗較少的運算成本，獲得高性能的壓縮模型架構。

圖5 超參數對剪枝的影響

圖6 迭代訓練對剪枝的影響

3.7 重構實驗分析

柔性剪枝方法不僅適用于網絡壓縮，同時還可以在浮點運算量相同的條件下，對原網絡重構，提高分類準確率。具體地，通過先將原網絡架構等比例放大，再對其進行剪枝，從而獲得與原網絡浮點運算量相同的網絡架構，并使得其中一些層的通道數多于原網絡中該層的通道數。以此在不減少網絡計算的同時調整其各層的通道數，獲得更高的準確率。在CIFAR10/100數據集上重構VGG16、ResNet56的效果見表4，對VGG16和ResNet56進行重構后，再重新訓練得到的準確率提升。結果顯示，相比原始網絡架構，在同等的浮點運算量下，柔性剪枝方法重構的VGG16準確率分別提升超過0.32%和0.37%，重構的ResNet56準確率分別提升超過0.24%和0.23%。通過重構實驗說明，人工預定義的網絡架構對于特定的分類任務往往不是最優的，通過剪枝的方法可以獲得同等浮點運算量下準確率更高的架構。

表4 在CIFAR10/100數據集上重構VGG16、ResNet56的效果

4 結束語

本文提出了一種柔性剪枝策略，一方面，結合神經網絡模型中的權重分布情況，設計了通道貢獻量作為通道重要性評價指標，以層的視角宏觀地設計整層的剪枝方案；另一方面，創造性地提出了一種模擬剪枝方案，使用較少的計算消耗獲取高性能的網絡架構。在公開數據集上的對比實驗表明，柔性剪枝后模型架構的性能優于其他最新的剪枝方法，是一種非常高效的剪枝方法。在后續的工作中，將進一步測試在跨層連接上的剪枝策略，以及將柔性剪枝策略應用于其他最新的輕量級網絡。

[1] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90.

[2] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE Press, 2016: 770-778.

[3] 唐博恒, 柴鑫剛. 基于云邊協同的計算機視覺推理機制[J]. 電信科學, 2021, 37(5): 72-81.

TANG B H, CHAI X G. Cloud-edge collaboration based computer vision inference mechanism[J]. Telecommunications Science, 2021, 37(5): 72-81.

[4] WANG Y, BIAN Z P, HOU J H, et al. Convolutional neural networks with dynamic regularization[EB]. 2019.

[5] COURBARIAUX M, BENGIO Y, DAVID J P. Binary Connect: training deep neural networks with binary weights during propagations[J]. CoRR, 2015.

[6] HAN S, POOL J, TRAN J, et al. Learning both weights and connections for efficient neural networks[J]. CoRR, 2015.

[7] WEN W J, YANG F, SU Y F, et al. Learning low-rank structured sparsity in recurrent neural networks[C]//Proceedings of 2020 IEEE International Symposium on Circuits and Systems (ISCAS). Piscataway: IEEE Press, 2020: 1-4.

[8] HE Y H, ZHANG X Y, SUN J. Channel pruning for accelerating very deep neural networks[C]//Proceedings of 2017 IEEE International Conference on Computer Vision (ICCV). Piscataway: IEEE Press, 2017: 1398-1406.

[9] LI H, KADAV A, DURDANOVIC I, et al. Pruning filters for efficient ConvNets[EB]. 2016.

[10] HU H Y, PENG R, TAI Y W, et al. Network trimming: a data-driven neuron pruning approach towards efficient deep architectures[EB]. 2016.

[11] LUO J H, WU J X, LIN W Y. ThiNet: a filter level pruning method for deep neural network compression[C]//Proceedings of 2017 IEEE International Conference on Computer Vision (ICCV). Piscataway: IEEE Press, 2017: 5068-5076.

[12] LIU Z, LI J G, SHEN Z Q, et al. Learning efficient convolutional networks through network slimming[C]//Proceedings of 2017 IEEE International Conference on Computer Vision (ICCV). Piscataway: IEEE Press, 2017: 2755-2763.

[13] YE J B, LU X, LIN Z, et al. Rethinking the smaller-norm-less-informative assumption in channel pruning of convolution layers[EB]. 2018.

[14] IOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift[J]. CoRR, 2015.

[15] HE Y, DONG X Y, KANG G L, et al. Asymptotic soft filter pruning for deep convolutional neural networks[J]. IEEE Transactions on Cybernetics, 2020, 50(8): 3594-3604.

[16] LIN M B, JI R R, ZHANG Y X, et al. Channel pruning via automatic structure search[C]//Proceedings of Proceedings of the Twenty-Ninth International Joint Conference on Artificial Intelligence. California: International Joint Conferences on Artificial Intelligence Organization, 2020.

[17] LECUN Y, DENKER J S, Solla S A. Optimal brain damage[C]// Proceedings of the Advances in Neural Information Processing Systems. Berlin: Springer, 1989: 598-605.

[18] LIU Z, SUN M J, ZHOU T H, et al. Rethinking the value of network pruning[EB]. 2018.

[19] YE Y, YOU G M, FWU J K, et al. Channel pruning via optimal thresholding[M]//Communications in Computer and Information Science. Cham: Springer International Publishing, 2020: 508-516.

[20] ZHUANG T, ZHANG Z X, HUANG Y H, et al. Neuron-level structured pruning using polarization regularizer[C]// Advances in Neural Information Processing Systems. 2020: 1-13.

[21] RONG J T, YU X Y, ZHANG M Y, et al. Soft Taylor pruning for accelerating deep convolutional neural networks[C]//Proceedings of IECON 2020 The 46th Annual Conference of the IEEE Industrial Electronics Society. Piscataway: IEEE Press, 2020: 5343-5349.

[22] CAI L H, AN Z L, YANG C G, et al. Softer pruning, incremental regularization[C]//Proceedings of 2020 25th International Conference on Pattern Recognition (ICPR). Piscataway: IEEE Press, 2021: 224-230.

[23] XU X Z, CHEN Q M, XIE L, et al. Batch-normalization-based soft filter pruning for deep convolutional neural networks[C]//Proceedings of 2020 16th International Conference on Control, Automation, Robotics and Vision (ICARCV). Piscataway: IEEE Press, 2020: 951-956.

[24] LIU Z C, MU H Y, ZHANG X Y, et al. MetaPruning: meta learning for automatic neural network channel pruning[C]// Proceedings of 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Piscataway: IEEE Press, 2019: 3295-3304.

[25] DING Y X, ZHAO W G, WANG Z P, et al. Automaticlly learning featurs of android apps using CNN[C]//Proceedings of 2018 International Conference on Machine Learning and Cybernetics (ICMLC). Piscataway: IEEE Press, 2018: 331-336.

[26] LIN M B, JI R R, ZHANG Y X, et al. Channel pruning via automatic structure search[C]//Proceedings of Proceedings of the Twenty-Ninth International Joint Conference on Artificial Intelligence. California: International Joint Conferences on Artificial Intelligence Organization, 2020: 673-679.

[27] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. CoRR, 2014.

[28] KRIZHEVSKY A, HINTON G. Learning multiple layers of features from tiny images[J]. Handbook of Systemic Autoimmune Diseases. 2009,1(4).

[29] LUO J H, WU J X. Neural network pruning with residual-connections and limited-data[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE Press, 2020: 1455-1464.

[30] ZHOU Y F, ZHANG Y, WANG Y F, et al. Accelerate CNN via recursive Bayesian pruning[C]//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Piscataway: IEEE Press, 2019: 3305-3314.

[31] PENG H Y, WU J X, CHEN S F, et al. Collaborative channel pruning for deep networks[C]//Proceedings of the International Conference on Machine Learning. New York: ACM Press, 2019:5113-5122.

[32] YANG H R, WEN W, LI H. DeepHoyer: learning sparser neural network with differentiable scale-invariant sparsity measures[EB]. 2019.

[33] HE Y, DING Y H, LIU P, et al. Learning filter pruning criteria for deep convolutional neural networks acceleration[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE Press, 2020: 2006-2015.

A flexible pruning on deep convolutional neural networks

CHEN Liang1,2, QIAN Yaguan1,2, HE Zhiqiang1,2, GUAN Xiaohui3, WANG Bin4, WANG Xing4

1. School of Science/School of Big-data Science, Zhejiang University of Science and Technology, Hangzhou 310023, China 2. Hikvision-Zhejiang University of Science and Technology Edge Intelligence Security Lab, Hangzhou 310023, China 3. College of Information Engineering & Art Design, Zhejiang University of Water Resources and Electric Power, Hangzhou 310023, China 4. College of Electrical Engineering, Zhejiang University, Hangzhou 310063, China

Despite the successful application of deep convolutional neural networks, due to the redundancy of its structure, the large memory requirements and the high computing cost lead it hard to be well deployed to the edge devices with limited resources. Network pruning is an effective way to eliminate network redundancy. An efficient flexible pruning strategy was proposed in the purpose of the best architecture under the limited resources. The contribution of channels was calculated considering the distribution of channel scaling factors. Estimating the pruning result and simulating in advance increase efficiency. Experimental results based on VGG16 and ResNet56 on CIFAR-10 show that the flexible pruning reduces FLOPs by 71.3% and 54.3%, respectively, while accuracy by only 0.15 percentage points and 0.20 percentage points compared to the benchmark model.

convolutional neural network, network pruning, scaling factor, channel contribution

TP183

10.11959/j.issn.1000?0801.2022004

2021?08?04；

2021?12?13

國家重點研發計劃項目（No.2018YFB2100400）；國家自然科學基金資助項目（No.61902082)

The National Key Research and Development Program of China (No.2018YFB2100400), The National Natural Science Foundation of China (No.61902082)

陳靚（1995?），男，浙江科技學院碩士生，主要研究方向為網絡剪枝。

錢亞冠（1976?），男，博士，浙江科技學院副教授，主要研究方向為深度學習、人工智能安全、大數據處理。

何志強（1996?），男，浙江科技學院碩士生，主要研究方向為網絡剪枝。

關曉惠（1977?），女，博士，浙江水利水電學院副教授，主要研究方向為數字圖像處理與模式識別。

王濱（1978?），男，博士，浙江大學研究員，主要研究方向為人工智能安全、物聯網安全、密碼學。

王星（1985?），男，博士，浙江大學在站博士后，主要研究方向為機器學習與物聯網安全。