








摘要: 針對現有模型對細粒度圖像關鍵信息精準識別較難, 分類指標較單一且特征利用不充分的問題, 提出一個新的細粒度圖像分類網絡模型. 該模型在
網絡訓練步驟中嵌入雙注意力網絡以強化中層特征與深度特征的相關性, 根據網絡不同層的感受野大小不同將數據剪裁后再拼接成新的樣本數據作為下一層輸入, 采用支持向量機分類器將中層和深度特征輸出結果一同作為最終分類指標. 在3個經典數據集CUB-200-2011、 Stanford Cars和102 Category Flower上的實驗結果表明, 其分類準確率分別達89.56%,95.00%,96.05%, 相比于其他網絡模型有較好的分類準確率和泛化能力.
關鍵詞: 細粒度圖像分類; 注意力機制; 數據增強; 多粒度特征融合
中圖分類號: TP391.41""文獻標志碼: A""文章編號: 1671-5489(2024)06-1447-08
Fine-Grained Image Classification Based onMulti Granularity Fusion and Dual Attention
LI Pengsong1, ZHOU Bingqian1, JI Zhiyi1, YU Yongping2
(1. School of Science, Northeast Electric Power University, Jilin 132012, Jilin Province, China;2. College of Construction Engineering,
Jilin University, Changchun 130021, China)
Abstract: Aiming at the problems that it was difficult to accurately identify the key information of fine-grained images, the classification index was relatively simple and the feature utilization was not sufficient
in existing models, we "proposed a new "fine-grained image classification network model. In the network training step, the model embedded a dual attention network
to strengthen the correlation between middle-level features and depth features. According to the different receptive field sizes of different layers of the network,
the data were trimmed and then spliced into new sample data as the input for the next layer. The support vector machine classifier was used to take the output results of middle-
level features and depth features together as the final classification index.
The experimental results "on three classic datasets CUB-200-2011, Stanford Cars and 102 Category Flower show that the classification accuracy reaches 89.56%, 95.00% and 96.05%, respect
ively. Compared with other network models, it has better classification accuracy and generalization ability.
Keywords: fine-grained image classification; attention mechanism; data augmentation; multi granularity feature fusion
區別于傳統的圖像分類任務, 細粒度圖像分類(fine-grained visual classification, FGVC)是一種將圖像進行更精細的分類工作, 需要學習同一類別圖像的較深層特征并做比較. 由于細粒度圖像數據樣本集中, 同一類別下的基礎類別間具有非常高的相似性, 因此需要細粒度圖像分類技術能精準地識別子類別間的細微差異.
在細粒度圖像分類的許多方法中已證明局部檢測對細粒度圖像分類的性能有較大改善[1-4]. 一些方法[5-8]通過使用額外的標簽幫助卷積神經網絡在學習過程中捕捉同一子類的區分性局部特征. Farrell等[9]提出了用于細粒度分類的姿態歸一化表示法, 盡管該方法取得了較好的分類效果, 但需要人工標注, 工作成本較高. 區別于局部特征提取, 端到端的特征編碼更傾向于增強圖像信息的全局特征, 進而對具有判別性全局特征進行學習, 目前主流的端到端圖像特征編碼框架是雙線性模型[10-13], 對細粒度圖像分類有較好性能, 但該方法一般提取特征尺度較單一, 會減弱細粒度圖像數據的位置信息.
近年來, 一種可以精準關注圖形有效區域的方法——注意力機制, 被用于細粒度圖像識別的局部信息特征提取中, 其數學思想就是給局部關鍵性的信息特征分配較高的權重. 文獻[14]首次將注意力機制應用到計算機視覺領域, 使注意力機制在圖像處理中取得了良好的效果. 朱麗等[15]設計了一種引入雙路通道注意力的殘差網絡模型, 并應用了多頭自注意力機制, 但該方法僅考慮了特征通道之間的關系, 未考慮特征空間對細粒度圖像分類的影響. Liu等[16]提出了一種基于強化學習的全卷積注意力定位網絡, 采用全卷積網絡架構可以避免全連接層的超大計算量, 但局部區域的高分辨率處理會導致在多步前向和后向傳播過程中很耗時. 在細粒度圖像分類中, 常見的方法大多數是對圖像數據先捕捉關鍵性局部特征, 再進行特征學習, 這種方法雖取得了較好的效果, 但都只關注了數據的局部信息特征, 而很少考慮到注意力機制對不同粒度圖像數據的影響, 并且大多數方法均只考慮了深度特征的輸出, 將中層特征和深度特征綜合考慮到最終結果中的研究報道較少.
針對上述問題, 本文提出一種基于卷積塊注意力模型(convolutional block attention module, CBAM)和多粒度融合(multi granularity fusion)的細粒度圖像分類網絡框架. 首
先, 在訓練過程中嵌入卷積塊注意力網絡訓練網絡更高層, 該注意力網絡考慮了特征通道和特征空間兩個維度的權重系數, 有助于弱監督學習過程中更好地突出細粒度圖像類內區分性特征, 并考慮了注意力模塊對不同粒度特征的影響; 其次, 在網絡的前一階段將樣本數據特征圖分割成不同小塊, 再應用拼圖生成器代碼生成新的特征圖作為下一階段的輸入, 使其可充分利用細粒度圖像數據的特征, 起到數據增強的作用; 最后, 在分類階段, 本文將特征圖的中層和深度多粒度特征一同輸出, 用于損失計算和參數更新, 以保證分類結果的全面性. 實驗結果表明, 本文提出的網絡框架提升了數據集測試結果的準確率.
1"模型原理與架構
1.1"卷積塊注意力網絡模型
卷積塊注意力模型如圖1所示. 其是一種結合了空間和通道的注意力機制模塊, 相比于只關注通道或空間的注意力機制, 它的效果更好.
由圖1可見, CBAM在輸入端和輸出端之間分別將通道和空間注意力機制兩個模塊部分串聯, 按順序對圖像特征的通道和空間兩個維度進行學習并計算得到注意力權重, 將模型學習后得到的注意力權重與輸入特征圖矩陣相乘, 得到細粒度圖像顯著特征圖, 計算公式如下:
F″=MS(MC(F)F)(MC(F)F),(1)其中F∈C×H×W表示上一層的輸入圖像特征, MC∈C×1×1和MS∈1×H×W分別表示卷積模塊注意力中依次得到的通道注意力特征和空間注意力特征, F″為得到的最終輸出, 表示特征相乘操作.
通道注意力模塊[17]的構造是通過不同的壓縮方式將平面壓縮成一個值后, 再經過全連接層連接后對特征進行重新組合并求積運算得到輸出特征, 如圖2所示.
由圖2可見, 分別對每個特征圖F∈H×W×C進行全局平均和最大池化操作以降低特征圖維度. 先將池化后的特征圖輸入多層感知機中進行學習, 再將兩張特征
圖在通道維度上進行堆疊操作, 經過Sigmoid激活函數層將特征圖中每個通道的權重進行歸一化, 生成注意力權重, 最后將歸一化注意力權重與特征圖相乘, 生成空間注意力模塊需要的輸入特征為
MC(F)=Fσ(MLP(Fcavg)MLP(Fcmax)),(2)
其中表示特征堆疊操作, 表示特征相乘操作, σ表示Sigmoid函數變換, Fcavg和Fcmax分別表示對輸入特征圖在通道維度上的全局平均池化和最大池化后的特征圖, MLP(multi-layer perceptron)表示多層感知機操作.
通道注意力模塊主要集中在給定輸入圖像“什么”信息是重要的, 空間注意力模塊[18]則關注重要信息區域“在哪里”, 可以作為通道注意力的補充, 如圖3所示.
由圖3可見, 首先將通道注意力的計算輸出特征作為本模塊的輸入, 然后在同一通道下的不同空間對圖像特征分別做池化計算, 對池化后的兩張特征圖進行通道維度堆疊, 再做卷積計算, 將特征維度降為1, 以方便下一步進行的Sigmoid歸一化計算, 最后將輸入特征圖與歸一化權重相乘, 用公式表示為
MS(F)=Fσ(f7×7*(FsavgFsmax)),(3)
其中Fsavg∈1×H×W和Fsmax∈1×H×W分別表示平均池化和最大池化后的特征圖, f7×7表示一個7×7卷積核, *表示卷積操作.
1.2"本文網絡模型架構
本文改進模型使用ResNet-50網絡作為基本特征提取網絡, 其原始框架如圖4所示. 由圖4可見, 該網絡架構主要部分包括1個卷積模塊、 4個殘差模塊和1個輸出層.
殘差網絡結構突破了傳統對網絡簡單疊加的思想, 從而實現了數據在模塊內部特征的傳遞不會丟失, ResNet-50網絡疊加卷積和殘差模塊列于表1.
本文改進模型總體框架如圖5所示. 由圖5可見, 該模型框架由基于雙注意力機制的特征提取網絡模塊組成, 將通道和空間特征信息融合到中層特征提取網絡中, 中層特征提取部分在原始網絡中進行修改, 并融合多粒度特征, 同時對網絡的輸入圖像數據進行再次拆分重拼接, 保證數據充分被利用并提升網絡模型的魯棒性和泛化能力. 原始網絡的分類方法只把最后一層的輸出作為指標計算分類結果, 本文將中層特征輸出加入到最終分類指標中.
在網絡經過兩階段卷積操作后, 本文使用拼圖生成器代碼將特征圖像分解后重組, 對細粒度圖像數據特征充分利用. 為強化局部關鍵性特征提取加入卷積注意力模塊, 對網絡的
深中層特征進行輸出, 將多粒度特征融合, 再經過分類模塊得到預測分類結果. 其中分類模塊包括兩個全連接層, 使用Softmax激活函數將一個數值向量歸一化為另一個實數向量, 使新的實數向量中每個元素取值都介于(0,1)內, Softmax函數計算公式如下:
yij=eαj∑kj=1eαj,(4)
其中αj為輸出層的第j個輸出值, k為數據集分類樣本類別數, yij表示第i個樣本數據為數據集中第j類的概率值. 本文算法使用隨機梯度下降法不斷迭代更新權重優化改進網絡模型, 權重系數更新公式如下:
θi+1=θi-α∑ni=1f(θ1,θ2,…,θi)θi,(5)
其中: θi為第i次迭代的待求解權重系數; α為下降系數, 即學習率; ∑ni=1f(θ1,θ2,…,θi)θi為損失
函數f(θ1,θ2,…,θi)對第i次權重系數的導數.
2"實驗與分析
2.1"實驗設置與數據集
本文實驗采用的服務器硬件配置為Tesla T4 16 GB的顯卡, 內存為32 GB, CUDA11.4的驅動, 語言環境為Python3.7, 深度學習框架為Pytorch1.7.1. 輸入圖像尺寸為500×500, 在訓練階段將其固定剪裁為448×448的尺寸, 訓練迭代次數為300次, batch_size設為16.
本文使用3個經典的細粒度圖像分類數據集, 分別為CUB-200-2011(CUB)、 Stanford Cars(Cars)和102 Category Flower(Flower), 各數據集類別信息及劃分情況列于表2.
2.2"實驗結果與分析
本文構建了雙注意力和多粒度特征融合的改進細粒度圖像分類算法, 并通過將訓練圖像數據拆分重組進而豐富了數據的多樣性, 提高了網絡模型的泛化性能. 在鳥類、 車類和花類細粒度3種公開數據集上實驗, 分類精確度較好. 為進一步驗證本文算法中每個模塊的有效性, 進行了消融實驗. 圖6為消融實驗與文本算法的對比結果. 結果表明, 在3個數據集上準確率分別提升0.74,0.2,0.39個百分點.
由圖6(A)可見, 數據集CUB-200-2011在優化迭代55次時, 測試集準確率達88.87%, 最后經過165次迭代訓練, 算法損失收斂至0.5附近, 準確率最高達89.56%. 由圖6(B)
可見, 數據集Stanford Car優化迭代到50次時, 測試集準確率達94.6%, 最后經過170次迭代訓練, 算法損失收斂至0.4左右, 準確率最高達95%. 由圖6(C)可見, 數據集102 Category Flower在優化迭代45次時, 測試集準確率達94.56%, 最后經過115次迭代訓練后, 準確率達最高為96.05%.
由圖6(D),(E)和(F)可見, 本文改進網絡模型在迭代約100次時收斂, 損失值幾乎不變, 而不加卷積注意力模塊的網絡模型收斂較慢, 并且本文模型在準確率提高的同時也
更穩定, 進一步驗證了本文改進模型既可識別細粒度圖像關鍵性區域, 又可以捕捉中間層和深層抽象特征相關性和融合多種粒度信息特征, 具有較好的分類性能. 因此, 本文網絡模型適用于圖像背景復雜、 類內差距不明顯的細粒度圖像分類問題.
為證明本文改進算法具有較優的分類準確率和泛化能力, 表3列出了不同網絡模型在3個數據集上的分類準確率對比結果.
在細粒度圖像分類任務中, 表3中的幾種網絡都是基于弱監督學習網絡, DFL-CNN增強了中層學習能力, PCA-Net,RA-CNN,CABMN均是一種引入注意力機制的網絡模型, 本文的網絡
模型在數據集CUB-200-2011和Stanford Cars上分類準確率分別達89.56%和95.00%, 與其他幾種模型相比, 鳥類數據集分類準確率分別提升了2.16,0.66,4.26個百分點,
分類準確率略低于CABMN模型, 車類數據集分類準確率分別提升了1.2,0.7,2.5,3.05個百分點. 文獻[23]是使用CNN作為特征提取器并引入遷移學習的網絡模型, 文獻[15]是一種引入雙路通道注意力機制的網絡模型, 與兩種網絡模型相比, 本文模型在數據集102 Category Flower上達到96.06%的分類準確率, 準確率分別提升了2.64,1.63個百分點. 由表3可見, 與其他的細粒度圖像分類模型相比, 本文網絡模型的分類準確率較高, 從而驗證了該模型具有較好的分類效果.
實驗結果表明, 相比于其他的細粒度圖像分類網絡模型, 本文構建的基于多粒度融合和雙注意力的網絡模型不僅從多維度對數據顯著性特征進行學習, 且保證了分類數據結果的全面性, 通過在3個經典數據集上進行實驗對比, 網絡具有較高的識別準確率, 說明模型在細粒度圖像分類上能更好地捕捉數據的顯著特征, 有較好的分類性能和一定的實際應用價值.
綜上所述, 針對現有模型對細粒度圖像關鍵信息精準識別較難, 分類指標較單一且特征利用不充分的問題, 本文提出了一個多粒度融合和雙注意力的細粒度圖像分類網絡模型. 該模型通過提取網絡不同層特征進行多粒度特征融合起到數據增強作用, 更好地定位了細粒度圖像數據區分性特征. 此外, 通過構建基于雙注意力機制的特征提取網絡, 使模型能更好地學習不同空間和通道間的聯系. 該算法的實現過程只用到數據類別標簽的監督信息, 模型可達到端到端訓練. 最后在3個經典公開數據集上測試, 結果表明, 本文模型達到了較高的分類率, 并且優于其他對比模型.
參考文獻
[1]"ARDHENDU B, ZACHARY W. Context-Aware Attentional Pooling (CAP) for Fin
e-Grained Visual Classification [J]. Proceedings of the Conference on Artificial Intelligence, 2021, 35(2): 35-37.
[2]"CHEN J M, HU J G, LI S R. Learning to Locate for Fine-Grained Image Recognition [J]. Computer Vision and Image Understanding, 2021, 206(3): 103-184.
[3]"YANG S K, LIU S, YANG C, et al. Re-rank Coarse Classification with Local Region Enhanced Features for Fine-Grained Image Recognition "[EB/OL]. (2021-02-19)[2023-09-06]. https://arxiv.org/abs/2102.09875.
[4]"張志林, 李玉鑑, 劉兆英. 深度學習在細粒度圖像識別中的應用綜述 [J]. 北京工業大學學報, 2021, 47(8): 942-953. (ZHANG Z L, LI Y J, LIU Z Y. A Review of the Application of Deep Learning in Fine Grained Image Recognition [J]. Journal of Beijing University of Technology, 2021, 47(8): 942-953.)
[5]"AMOUS F I, NARAYANAN R M, LI B C. Application of Multidomain Sensor Image Fus
ion and Training Data Augmentation for Enhanced CNN Image Classification [J]. Journal of Electronic Imaging, 2022, 31(1): 013014-1-013014-8.
[6]"LI H H, WEI Y N, ZHANG H M, et al. Fine-Grained Classification of Grape Leave
s via a Pyramid Residual Convolution Neural Network [J]. International Journal of Agricultural and Bioengineering, 2022, 15(2): 197-203.
[7]"ZHU H G, GAO Z, WANG J Y, et al. Few-Shot Fine-Grained Image Classification via Multi-frequency Neighborhood and Double-Cross Modulation [EB/OL]. (2022-07-18)[2023-09-05]. https://arxiv.org/abs/2207.08547.
[8]"王永雄, 張曉兵. 聚焦-識別網絡架構的細粒度圖像分類 [J]. 中國圖象圖形學報, 2019, 24(4): 23-34. (WANG Y X, ZHANG X B. Fine-Grained Image Classification w
ith Network Architecture of Focus and Recognition [J]. Chinese Journal of Image and Graphics, 2019, 24(4): 23-34.)
[9]"FARRELL R, OZA O, ZHANG N, et al. Birdlets: Subordinate Categorization Using Volumetric Primitives and Pose-Normalized Appearance [C]//Proceeding
s of the 2011 International Conference on Computer Visio. Piscataway, NJ: IEEE, 2011: 161-168.
[10]"朱晨鵬, 彭宏京, 劉學軍. 基于雙注意力核化雙線性網絡的細粒度圖像分類 [J]. 計算機工程與設計, 2022, 43(7): 2007-2014. (ZHU C P, PENG H J, LIU X J. Fine Gra
ined Image Classification Based on Dual Attention Kernel Bilinear Networks [J]. Computer Engineering and Design, 2022, 43(7): 2007-2014.)
[11]"蔡茂, 劉芳. 基于細粒度圖像分類算法的新冠CT圖像分類 [J]. 吉林大學學報(信息科學版), 2023, 41(4): 676-684. (CAI M, LIU F. CT Image Classification of COVID-19 Based on Fine-Grained Image Classification Algorithm [J]. Journal of Ji
lin University (Information Science Edition), 2023, 41(4): 676-684.)
[12]"ZHENG Q H, YANG M Q, ZHANG Q R, et al. A Bilinear Multi-scale Convolutional
Neural Network for Fine-Grained Object Classification [EB/OL]. (2018-03-12)[2023-09-05]. https://api.semanticscholar.org/CorpusID: 211538378.
[13]"王越, 馮振. 基于CAM與雙線性網絡鳥類圖像識別方法 [J]. 重慶理工大學學報(自然科學版), 2021, 35(11): 136-141. (WANG Y, FENG Z. Bird Image Recognition Method Based on CAM and Bilinear Network [J]. Journal of Chongqing University of Technology (Natural Science Edition), 2021, 35(11): 136-141.)
[14]"XU K, BA J, KIROS R, et al. Show, Attend and Tell: Neural Image Caption Gene
ration with Visual Attention [EB/OL]. (2015-02-10)[2023-09-06]. https://doi.org/10.48550/arXiv.1502.03044.
[15]"朱麗, 王新鵬, 付海濤, 等. 基于注意力機制的細粒度圖像分類 [J]. 吉林大學學報(理學版), 2023, 61(2): 371-376. (ZHU L, WANG X P, FU H T, et al. Fine-Grain
ed Image Classification Based on Attention Mechanism [J]. Journal of Jilin University (Science Edition), 2023, 61(2): 371-376.)
[16]"LIU X X, WANG T, JIANG Y, et al. Fully Convolutional Attention Networks for
Fine-Grained Recognition [EB/OL]. (2016-03-22)[2023-09-06]. https://arxiv.org/abs/1603.06765.
[17]"ZHONG X, GONG O B, HUANG W X, et al. Squeeze-and-Excitation Wide Residual Networks in Image Classification [C]//2019 IEEE International Conference on Image Processing(ICIP). Piscataway, NJ: IEEE, 2019: 395-399.
[18]"YANG X Y, YU C, GAO J X, et al. SAVE: Spatial-Atte
ntion Visual Exploration [C]//2022 IEEE International Conference on Image Processing(ICIP). Piscataway, NJ: IEEE, 2022: 1356-1360.
[19]"WANG Y M, MORARIU V I, DAVIS L S. Learning a Discriminative Filter Bank with
in a CNN for Fine-Grained Recognition [C]//Proceedings of the IEEE Conference
on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2018: 4148-4157.
[20]"ZHANG T, CHANG D L, MAI Z Y, et al. Progressive Co-attention Network for Fin
e-Grained Visual Classification [C]//International Conference on Visual Communications and Image Processing (VCIP). Piscataway, NJ: IEEE, 2021: 2664-2677.
[21]"FU J L, ZHENG H L, MEI T. Look Closer to See Better: Recurrent Attention Con
volutional Neural Network for Fine-Grained Image Recognition [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2017: 4438-4446.
[22]"李曉旭, 安文娟, 武繼杰, 等. 通道注意力雙線性度量網絡 [J]. 吉林大學學報(工學版), 2022, 54(2): 524-532. (LI X X, AN W J, WU J J, et al. Channel Attention
Bilinear Metric Network [J]. Journal of Jilin University (Engineering Edition), 2022, 54(2): 524-532.)
[23]"GOGUL I, KUMAR V S. Flower Species Recognition System Using Convolution Neural
Networks and Transfer Learning [C]//2017 Fourth International Conference on Signal Processing, Communication and Networking (ICSCN). Piscataway, NJ: IEEE, 2017: 1-6.
(責任編輯: 韓"嘯)