999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于稀疏約束濾波器剪枝策略的模型壓縮方法

2022-10-01 02:41:28劉小輝湯水利劉洲峰李春雷
計算機工程與設計 2022年9期
關鍵詞:特征模型

董 燕,劉小輝,湯水利,劉洲峰,李春雷+

(1.中原工學院 電子信息學院,河南 鄭州 450007;2.恒天重工股份有限公司 技術開發中心,河南 鄭州 450000)

0 引 言

近年來,卷積神經網絡(convolutional neural network,CNN)在計算機視覺領域表現出了顯著的優勢,如分類[1-5]、檢測[6]及分割[7]等。在卷積神經網絡性能提高的同時,高存儲與高功耗使其難于部署在資源受限的邊緣設備上。因此,構建輕量級的卷積神經網絡,提高模型的推理速度,具有重要的理論及應用研究價值。

參數剪枝受哺乳動物大腦發育過程的啟發[8],通過修剪不重要的網絡連接來生成最優的子網絡,具有較高的模型性能及自適應性。濾波器剪枝不僅能實現精細化的修剪[9],而且可以運行在通用硬件平臺或BLAS庫上,因此成為當前參數剪枝的重要研究方向。

然而,現有濾波器剪枝算法通常是逐層固定比率的修剪,不易尋找到最優子網絡。因此,本文提出了一種基于稀疏約束的濾波器剪枝方法。首先從訓練樣本中自動學習BN層比例因子[10],將其作為特征圖及濾波器的重要性權重,并通過反向傳播進行動態更新。然后對其進行稀疏正則化訓練,經排序計算出全局最優閾值,從而修剪出最優子網絡。為了解決因修剪率較大而導致斷層的問題,提出了全局-局部閾值策略。最后利用過參數化的卷積替換傳統卷積方法,在不增加模型尺寸的前提下,提升剪枝模型性能。

1 卷積神經網絡

為了更好地描述濾波器剪枝過程,本文首先介紹卷積神經網絡及其卷積方式。卷積神經網絡由多個卷積層與全連接層組成,如圖1所示。其中卷積層通過卷積計算、正則化、非線性變換及池化操作實現對輸入圖像的特征抽取,全連接層通過矩陣運算及非線性變換生成類別得分。卷積神經網絡這種分層處理結構,通過對低層、中層及高層特征的提取,顯著提升了對圖像的特征表示能力。

圖1 卷積神經網絡

卷積運算的輸入由多個被稱為通道的2D特征圖組成,與3D卷積核進行卷積計算后,生成下一層的特征圖。其中,第l層卷積計算可以表述如下

(1)

對濾波器剪枝來講,卷積核Kl被分為重要的與非重要的兩類。濾波器剪枝通過移除非重要的卷積核,實現對模型的壓縮。而卷積核粒度上的修剪,與特征圖通道剪枝本質上是一致的,即當移除某個卷積核時,對應的特征圖被刪除。同樣,如果某個特征圖被移除,那么相對應的濾波器也會被修剪。因此,本文從特征圖的重要性評估出發,實現卷積神經網絡的濾波器剪枝。

2 提出方法

針對現有逐層固定比率的濾波器剪枝算法不易尋找到最優子網絡的問題,本文提出了一種基于稀疏約束的濾波器剪枝方法。該方法通過搜索網絡模型中最優的特征圖通道配置,實現網絡模型中冗余參數修剪,具體包括稀疏正則化訓練、全局-局部閾值策略及過參數化卷積,整體流程如圖2所示。

圖2 稀疏約束濾波器剪枝框架流程

2.1 基于稀疏正則化訓練的濾波器剪枝

濾波器剪枝算法通過移除不重要的特征通道進行模型壓縮。其中,特征通道重要性的評估對模型剪枝至關重要。BN層廣泛存在于卷積神經網絡中,因此選取對應通道激活程度的BN層比例因子,作為特征圖的重要性衡量標準,可增加提出剪枝方法的普適性。然而該比例因子通過反向傳播動態更新生成,層與層之間的尺度不一致。本文引入稀疏正則化訓練,迫使不重要特征圖的比例因子趨近于0,從而移除對應的特征圖,進行安全的修剪,剪枝過程如圖3所示。

圖3 剪枝

首先利用式(2)對BN層進行歸一化處理,但是該變換操作丟失了從底層網絡學習到的參數信息。因此,本文通過引入了兩個可學習(learnable)的參數γ和β, 利用式(3)對規范化后的數據進行線性變換,恢復數據本身的表達能力

(2)

(3)

其中,zin、zout為BN層的輸入與輸出特征圖,B為最小的批圖像數據,μB和σB是B特征圖的平均值和標準偏差,γ為比例因子,β是偏置項。

BN層比例因子γ分布均衡,難以直接用于特征圖重要性判定指標。因此,本文提出稀疏正則化訓練方法,通過對損失函數中的比例因子施加l1正則項,使不重要特征圖對應的比例因子趨近或者等于0。其中,基于稀疏正則化訓練的損失函數為

L′=L+λRs(γ)

(4)

L是損失函數,γ∈n表示BN層的比例因子,λ為懲罰因子,Rs(·) 表示在BN層比例因子上施加的稀疏正則化函數。

通過式(4)對比例因子進行稀疏正則化訓練,使得不重要特征圖對應的比例因子趨近或者等于0。因此,可對特征圖重要性指標γ∈n排序,根據預設的剪枝率,刪除較小的比例因子對應的特征圖。其中剪枝閾值θ表示如下

θ=Sortp(γ)

(5)

式中:Sort(·) 表示對稀疏正則化訓練后的比例因子排序操作,p表示預設的特征圖及濾波器的剪枝率。

由于對所有比例因子進行統一排序,在刪除低于剪枝閾值θ對應的特征圖過程中,會出現由于某一層全部被修剪而引起的斷層現象。為此,本文提出了全局-局部閾值的防斷層機制,當某一層的所有尺度因子均低于設定的全局閾值時,對該層所有尺度因子進行排序,選取最大和次大因子的平均值作為該層的局部閾值,保留比例因子大于該閾值所對應的特征圖,從而可以防止斷層現象。

2.2 過參數化卷積

剪枝操作通過刪除非重要的特征圖實現對模型的壓縮,由于損失部分特征信息,可能會導致模型精度下降。因此,本文采用過參數化卷積去替換網絡模型中的普通卷積,在保持模型大小的前提下,加速模型訓練并提升被修剪模型的性能。該計算方式由普通卷積和深度卷積組成[11]。

普通卷積操作基于一組卷積核對輸入特征圖進行滑動窗口處理。假設第i層的滑動窗口表示為張量Pi∈(ki×ki)×ni-1, 其中ki是核大小,ni-1是第i-1層中特征圖的通道數。則卷積操作可表示為特征圖張量P與權值W的乘積,計算公式如下

(6)

式中:t表示特征圖滑動窗口號。對于ki、ni-1和ni分別取2、3和2時,一個普通卷積的運算如圖4所示。

圖4 普通卷積計算

深度卷積將上一層的多通道特征圖拆分為單個通道的特征圖,分別對它們進行單通道卷積并重新堆疊在一塊。其中拆分操作只是對上一層的特征圖做了尺寸的調整,而通道數沒有發生變化,因此降低了參數量。深度卷積核表示為3D張量Wi∈Dmul×(ki×ki)×ni-1, 其中i為卷積層數,ki是核大小,ni-1是第i-1層中特征圖的通道數,Dmul被稱為深度乘子。則深度卷積算子‘°’可以描述為卷積核Wi與特征圖張量Pi的乘積,輸出為Dmul×ni-1維特征圖計算公式如下

(7)

式中:t表示特征圖滑動窗口號。對于ki、Dmul和ni分別取2、2和3時,一個深度卷積的運算如圖5所示。

圖5 深度卷積計算

過參數化卷積由帶有可訓練核Di∈Dmul×(ki×ki)×ni-1的深度卷積和帶有可訓練核Wi∈ni×Dmul×ni-1的普通卷積組成,其中Dmul≥(ki×ki)。 與普通卷積相同,過參數化的卷積輸出也是一個ni維特征圖過參數化卷積表示為卷積核 (Di,Wi) 與特征圖張量P的乘積。該過程可通過兩種等價方式實現,特征圖組合(a)和卷積核組合(b),具體計算公式如下

(8)

對于ki、Dmul、ni-1和ni分別取2、4、3和2時,一個過參數化卷積的運算如圖6所示。

圖6 過參數化卷積計算

3 實驗結果與分析

為了驗證所提方法的有效性,本文基于PyTorc[12]框架,選用VGG、ResNet[13]及DenseNet在不同的基準圖像數據集上進行實驗。實驗環境為Intel(R)Xeon(R)CPU E5-2650 v4@2.20 GHz,兩塊NVIDIA Quadro M5000 GPUs、32 GB RAM、64位Windows 10版本。

3.1 數據集

卷積神經網絡模型輕量化領域最常用的數據集有MNIST、CIFAR-10/100、ImageNet。MNIST數據集過小,ImageNet對于機器硬件要求極高,CIFAR有兩種不同規模的數據集,可適用于不同的應用場景,因此本文采用CIFAR數據集用于評測算法有效性。該數據集圖像分辨率為32×32的彩色圖像,CIFAR-10由10個不同類別的6萬張圖像數據構成,其中訓練圖像5萬張(每類5千張),測試圖像1萬張(每類1千張)。而CIFAR-100由100個不同類別的圖像數據構成,其中訓練圖像5萬張(每類500張),測試圖像1萬張(每類100張)。

3.2 網絡模型訓練細節

本文采用隨機梯度下降法進行網絡權重參數的尋優,其中Batch大小設為64,總周期(epoch)為160,初始學習率設為0.1,在訓練總周期數的50%和75%處調整學習率為原來的十分之一。另外,采用文獻[14]的權值初始化方式,權重衰減為10-4,動量為0.9,通道縮放因子初始化為0.5。當對施加通道稀疏正則化的網絡模型進行訓練時,不同的網絡模型采用不同的權衡因子λ。 選用的VGG、ResNet與DenseNet的λ取值分別設為10-4、10-5和10-5。

3.3 實驗結果及分析

3.3.1 CIFAR-10實驗結果與分析

本文基于小規模的CIFAR-10數據集,在VGG、ResNet和DenseNet這3種典型的神經網絡架構上評估了所提出方法的有效性。為了與現有SOTA方法Liu et al[9]對比,本文實驗采用VGG的改進版本(https://github.com/szagoruyko/cifar.torch),ResNet采用了164層預激活瓶頸結構的ResNet(ResNet-164),DenseNet使用生長率(growth rate)為12的40層網絡(DenseNet-40)。3種網絡架構的參數量,FLOPs及其分類精度所對應數值作為衡量剪枝后模型性能的基準,實驗結果見表1。

表1 基準網絡模型在CIFAR-10上的參數數量、FLOPs與分類準確率(Top-1)

首先給出了VGG-16在CIFAR-10上的實驗結果對比,如表2所示。當70%的通道被修剪時,參數量減少了79.43%,FLOPs為基準值的40.24%,此時被剪枝模型精度與原始模型精度相當。當80%通道被修剪時,參數量與FLOPs分別減少了80.83%與55.55%,在保持模型識別精度相似的前提下,本文提出方法的FLOPs減少量明顯優于Liu et al[9]。因此,所提方法在普通的神經網絡壓縮中表現出了優越的性能,實現了較大的壓縮和加速比。

表2 CIFAR-10上VGG-16的剪枝效果

在ResNet-164上的實驗結果見表3。當40%的通道被修剪時,相對基準網絡模型,參數量下降19.41%,FLOPs降低了17.85%。與Liu et al[9]相比,參數量與FLOPs有明顯的降低,且模型性能提升0.54%。當60%的通道被修剪時,模型參數量及FLOPs分別降低了35.88%與33.93%,與Liu et al[11]相比,參數量與FLOPs有明顯的降低,且模型精度提升0.36%。同具有大量冗余權重參數的VGG網絡相比,由于瓶頸結構(bottleneck)的存在,ResNet-164參數與FLOPs下降不明顯,但仍取得了令人滿意的效果。

表3 CIFAR-10上ResNet-164的剪枝效果

由于DenseNet層與層之間的復雜連接,本文引入通道選擇層使得卷積與恒等連接的通道數保持一致,剪枝效果見表4。當40%的通道剪枝時,模型參數與FLOPs分別下降35.23%、19.04%,與Liu et al[9]相比,本文所提方法參數量與FLOPs有明顯降低,且識別精度相當。當60%的通道被修剪時,模型參數量與FLOPs分別有86.67%和79.74%的下降,與Liu et al[9]相比,本文提出算法壓縮與加速優勢明顯,同時相對原始的基線模型,仍有0.28%的精度提升。因此,本文所提方法對于具有密集連接的網絡同樣十分有效。

表4 CIFAR-10上DenseNet-40的剪枝效果

3.3.2 CIFAR-100實驗結果與分析

為進一步驗證提出方法的有效性,本文選用3種典型網絡VGG-16、ResNet-164與DenseNet-40在較大數據集CIFAR-100上進行了實驗。其中3種基準網絡模型的參數量,FLOPs及其分類精度見表5。

表5 基準網絡模型在CIFAR-100上的參數量、FLOPs與分類準確率(Top-1)

由于CIFAR-100數據集較大,需要較多的參數量用于模型的表征,區別于CIFAR-10,在CIFAR-100上,VGGNet的修剪比例不易過大,調整為50%、60%,實驗結果見表6。當50%的通道被剪枝時,所提方法模型參數下降54.23%,FLOPs下降29.56%,與Liu et al[9]相比,所提算法的精度提升0.39%。當剪枝率增至60%時,所提方法的參數量與FLOPs分別下降65.64%和40.50%,此時所提算法仍具有較高的分類精度。由于FLOPs主要由卷積層決定,所提方法主要針對卷積層進行的修剪,因此導致VGG-16在較大數據集CIFAR-100上的剪枝效果出現參數量與FLOPs下降不一致的現象,但所提方法在較大數據集上對于普通卷積仍表現出了優越性。

表6 CIFAR-100上VGG-16的剪枝效果

對于帶有殘差塊的ResNet-164,本文所提方法在CIFAR-100上分別進行了40%與60%粒度的通道修剪,其剪枝結果見表7。當40%的通道被修剪時,模型參數量下降了13.95%,FLOPs下降了26.94%,與Liu et al[9]相比,所提方法具有更好的識別精度。當60%的通道被修剪時,參數量與FLOPs分別下降了26.74%和46.42%,與Liu et al[9]相比,本文所提算法的下降精度更小。因此在較大的數據集CIFAR-100上,本文所提剪枝方法對于帶有殘差塊的網絡也有良好的性能。

表7 CIFAR-100上ResNet-164的剪枝效果

最后,本文在較大數據集CIFAR-100上,對有密集連接塊的DenseNet-40進行了剪枝操作,實驗結果見表8。當40%的通道被修剪時,模型參數量與FLOPs分別下降37.27%和26.89%,與Liu et al[9]相比,所提算法的精度提升了0.25%。在60%的通道被修剪時,參數量與FLOPs下降55.45%和42.61%,Liu et al[9]識別精度下降了0.36%,但本文所提方法反而有0.03%的精度提升。實驗結果表明,在較大的數據集CIFAR-100上,本文所提方法對帶有密集連接塊網絡仍具有較好的剪枝性能。

表8 CIFAR-100上DenseNet-40的剪枝效果

3.4 消融實驗

卷積神經網絡的性能會受很多因素的影響。為了驗證過參數化卷積對改善被修剪模型性能的有效性,本文選用VGG-16、ResNet-164與DenseNet-40在小圖像數據集CIFAR-10上進行了系列實驗,只用過參數化卷積代替傳統卷積層,而不改變其它設置。這保證了觀察到的性能變化是由于過參數化卷積的應用,而不是其它因素造成的。此外,這也意味著沒有超參數調優以有利于使用過參數化卷積的模型,實驗結果如圖7所示。可以看到,無論任意組合的FLOPs剪枝率與網絡模型,加入過參數化卷積的網絡在精度上始終優于傳統的卷積方式。另外,由于ResNet-164網絡模型的緊致性,使得其剪枝率不宜過大,否則易導致精度下降明顯,但是其剪枝網絡模型與在性能上始終優于VGG-16與DenseNet-40。此外,雖然VGG-16與DenseNet-40具有相似的性能,但由于密集連接的存在,DenseNet-40網絡的參數量與FLOPs下降最多。同時,VGG-16模型的FLOPs下降不是最多,但經過修剪后模型的精度反超DenseNet-40,這也間接表明,VGG-16內存存在大量的冗余,通過本文提出方法能夠找到更好的子網絡。

圖7 普通卷積與過參數化卷積的性能對比

4 結束語

本文提出了一種基于稀疏約束的濾波器剪枝算法,通過對批處理歸一化層比例因子引入稀疏正則化,在全局-局部閾值策略的約束下,使得網絡模型可以自動識別與修剪不重要的特征圖通道。此外,在保持網絡模型大小的前提下,采用過參數卷積改善被剪枝網絡模型的性能。在CIFAR-10和CIFAR-100上,我們選用VGG-16、ResNet164與DenseNet40這3種典型的網絡進行了剪枝實驗。實驗結果表明,在較大的壓縮比下,相比SOTA方法,本文提出方法的參數量與FLOPs下降明顯,且保持了較高的識別精度。同時,提出方法訓練成本小且模型較易部署。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 精品人妻一区无码视频| 欧美一级夜夜爽www| 一级毛片免费不卡在线| 在线另类稀缺国产呦| 精品久久人人爽人人玩人人妻| 国产精品成| 国产资源站| 国产欧美日韩va另类在线播放 | 国产XXXX做受性欧美88| 91精品在线视频观看| 丝袜国产一区| 九色视频最新网址| 一区二区三区四区精品视频| 亚洲色婷婷一区二区| 在线观看网站国产| 亚洲天堂自拍| 亚洲免费福利视频| 五月婷婷导航| 玖玖免费视频在线观看| 久久综合国产乱子免费| 国产高潮流白浆视频| 成年免费在线观看| 国产成人1024精品| 亚洲欧洲日韩综合色天使| 久久综合丝袜长腿丝袜| 高清亚洲欧美在线看| 亚洲精品福利视频| 日韩欧美国产三级| 欧美国产成人在线| 日韩精品成人在线| 日韩成人在线网站| 国产精品人莉莉成在线播放| 亚洲妓女综合网995久久| 亚洲国产在一区二区三区| 视频国产精品丝袜第一页| 亚洲天堂日韩av电影| 婷婷伊人久久| 欧美在线三级| 在线va视频| 丰满人妻久久中文字幕| 自慰网址在线观看| 久久人午夜亚洲精品无码区| 国产91九色在线播放| 亚洲色中色| 久久久亚洲色| 成年女人18毛片毛片免费| 国产小视频网站| 无码中文字幕精品推荐| 国产精品免费露脸视频| 国产91在线|日本| 97se亚洲| 欧美成人精品一级在线观看| 日韩AV无码免费一二三区| 婷婷综合缴情亚洲五月伊| 国产精品网址在线观看你懂的| 亚洲中文精品人人永久免费| 中文字幕亚洲专区第19页| 影音先锋丝袜制服| 亚洲精品第一页不卡| 欧美.成人.综合在线| 99热这里只有精品在线观看| 97成人在线视频| 久久精品嫩草研究院| 国产欧美日韩综合在线第一| 色成人综合| 五月天婷婷网亚洲综合在线| 国产美女无遮挡免费视频网站 | 精品少妇人妻无码久久| 国产精品亚洲片在线va| 午夜精品影院| 欧美日韩高清在线| 噜噜噜久久| 国产成人a毛片在线| 久久99蜜桃精品久久久久小说| 久久男人视频| 亚洲高清无码久久久| 欧美色图久久| 4虎影视国产在线观看精品| 日本国产在线| 国产丝袜第一页| 爆操波多野结衣| 国产丰满大乳无码免费播放|