朱麗 王新鵬 付海濤 馮宇軒 張競吉



摘要: 針對細粒度圖像分類中數據分布具有小型、 非均勻和不易察覺類間差異的特征,提出一種基于注意力機制的細粒度圖像分類模型. 首先通過引入雙路通道注意力與殘差網絡融合對圖像進行初步特征提取,然后應用多頭自注意力機制,達到提取深度特征數據之間細粒度關系的目的,再結合交叉熵損失和中心損失設計損失函數度量模型的訓練. 實驗結果表明,該模型在兩個標準數據集102 Category Flower和CUB200-2011上的測試準確率分別達94.42%和89.43%,與其他主流分類模型相比分類效果更好.
關鍵詞: 細粒度圖像分類; 注意力機制; 殘差網絡
中圖分類號: TP391.41? 文獻標志碼: A? 文章編號: 1671-5489(2023)02-0371-06
Fine-Grained Image Classification Based on Attention Mechanism
ZHU Li,WANG Xinpeng,FU Haitao,FENG Yuxuan,ZHANG Jingji
(College of Information Technology,Jilin Agricultural University,Changchun 130118,China)
Abstract: Aiming at the? characteristics of? subtle,uneven,imperceptible inter-class differences between classes and real-world data distribution
in? fine-grained image classification,we proposed a fine-grained image classification model based on attention mechanism. Firstly,the preliminary feature extraction of
the image was carried out? by introducing the fusion of a two-way channel attention and residual network. Secondly, the multi-head self-attention mechanism was applied to extract
fine-grained relationships between? deep feature data. Thirdly,the training of loss function measurement system was designed by combining cross entropy loss and center loss.
The experimental results show that the test accuracy of the model on two standard datasets 102 Category Flower and CUB200-2011 is? 94.42% and 89.43%,respectively.
Compared with other mainstream classification models,the classification effect is better.
Keywords: fine-grained image classification; attention mechanism; residual network
收稿日期: 2022-07-24.
第一作者簡介: 朱 麗(1973—),女,漢族,碩士,副教授,從事機器學習和智能農業的研究,E-mail: jolielang@163.com.
通信作者簡介: 馮宇軒(1980—),男,漢族,博士,講師,從事機器學習和智能規劃的研究,E-mail: fengyuxuan.cn@163.com.
基金項目: 吉林省教育廳科學技術研究項目(批準號: JJKH20220331KJ; JJKH20220332KJ; JJKH20220
333KJ)和吉林省發展和改革委員會省預算內基本建設基金(批準號: 2020C037-7).
圖像分類任務是根據圖像中的特征對圖像進行類別劃分,而細粒度圖像分類是在傳統圖像分類任務的基礎上更進一步的工作,涉及更高層語義特征的學習和比較. 某些細粒度樣本集合中存在類別間差異細微但類別內差異顯著的特點,使細粒度分類問題變得更難. 如同屬于同一個子類的鳥類圖像可能有差異較大的背景或姿態,但兩個子類別之間的鳥類圖像如果在同一背景、 同一姿態下幾乎無差異. 目前,部分前沿水平的細粒度分類方法主要根據手工標注圖像的特征區域,再通過可學習的特征描述子表示圖像的特征[1]. 這種通過精細標注做端到端的特征學習,可在目標域上顯著提高分類效果,但成本較高.
細粒度圖像分類的研究多基于經典分類方法,在使用更深的主干網絡提取特征的同時存在更大的過擬合風險. 這類研究目前已有許多成果,例如: 結合了注意力機制抽取特征間關系的方法[2],該方法為降低計算復雜度,使用固定尺寸的注意力區域方法學習定位物體的多個局部區域,提取局部區域的細粒度特征用于分類,但該方法無法有效避免背景干擾,泛化性較差; 在卷積神經網上遞歸進行注意力學習的方法[3],該方法以循環的方式從粗到細迭代地生成區域注意力,可得到更好的結果,但如果前一階段不能很好地檢測,則進入的噪聲將在后續階段不斷被放大; 在卷積神經網上執行通道注意力機制求解小樣本分類問題的方法[4],利用特征圖不同通道關注不同的視覺部位,但分類網絡只能把目標的每個部位單獨處理而忽略了局部特征與細粒度特征之間的相互關聯.
損失函數的設計和選擇是決定卷積神經網絡性能的關鍵,常用于衡量分類的交叉熵損失函數(coss entropy loss,CE-Loss)[5]收斂速度,會放大正確標簽預測概率的準確性,但忽略了其他標簽的差異,易擬合噪聲,泛化能力較差; Liu等[6]提出的A-Softmax損失(angular Softmax loss)通過增加一個角度邊界增大特征的類間差距,但訓練時需要處理過多的超參數,反向傳播計算較復雜,不易優化. 對于細粒度這種需要做精細分類的數據,通常希望數據在特征同類樣本之間更緊湊,不同類樣本之間更分散,能反應這種需求的損失函數顯然更適合該類問題的求解.為更好地解決細粒度圖像的分類問題,本文設計一種基于多頭自注意力(multi-head self attention)和嵌入壓縮激勵網絡(squeeze and excitation networks,SENet)的殘差網絡模型,用于細粒度圖像的分類. 本文模型采用ResNet-50[7]作為基礎網絡,用于對輸入圖像進行初步的特征嵌入. 輸入圖像經過ResNet-50得到特征圖后采用雙路SENet做通道注意力特征權重校準[8]后,采用Transformer中的多頭自注意力機制學習雙路SENet輸出的特征圖中的空間關系. 在損失函數方面,考慮到CE-Loss學習到的特征比較離散,結合中心損失函數(center loss,C-Loss)能進一步減小同一類細粒度特征的類內距離,同時又能保持不同類別特征的可區分的特點,將CE-Loss與C-Loss進行組合實現對模型的訓練. 實驗結果表明,相比于當前主流的分類模型,本文模型對細粒度圖像的分類效果更好.
1 預備知識
1.1 注意力機制
在神經網絡中,注意力機制[9]的作用是給網絡提供可供訓練的權重參數,通過學習權重值,網絡能學習到目標特征之間的關系,采用注意力機制對特征圖進行按位的加權權重訓練,可學習到特征之間的深層關系.
注意力機制可分為基于空間關系的注意力和基于通道數據的注意力. 基于空間關系的神經網絡主要是將視覺信息視為一個大的區域,長度為n的注意力計算相當于一個面積為n的卷積核,通過將注意力的尋址目標放在尋找區域中可篩選出重要的特征,并降低無關背景信息的影響[10]. 而基于通道的注意力網絡則是將檢測目標視為單一個體,將注意力的尋址目標放在對單一個體部分特征的尋址上,綜合該個體不同位置的特征信息,給出合理的預測結果. 本文引入SENet[11]的思想,先對每個輸出通道賦予權重參數,再通過梯度更新使數據驅動參數更新,從而對每個通道進行加權參數的學習. 本質上,SENet是在通道維度上做注意力,這種注意力機制使模型可以更關注信息量最大的通道特征,而抑制那些不重要或者無效的通道特征訓練模型以達到更好的效果. 并且SENet的網絡結構相對簡單,可方便地集成到各種神經網結構中,提升網絡性能,其結構如圖1所示.
參考文獻
[1] 馬瑤,智敏,殷雁君,等. CNN和Transformer在細粒度圖像識別中的應用綜述 [J]. 計算機工程與應用,2022,58(19): 53-63. (MA Y,ZHI M,
YIN Y J,et al. Review of Applications of CNN and Transformer in Fine-Grained Image Recognition [J]. Computer Engineering and Applications,2022,58(19): 53-63.)
[2] LIU X,XIA T,WANG J,et al. Fully Convolutional Attention Localization Networks: Efficient Attention Localization for Fine-Grained
Recognition [EB/OL]. (2016-05-22)[2022-05-01]. https://arxiv.org/abs/1603.06765.
[3] FU J L,ZHENG H L,MEI T. Look Closer to See Better: Recurrent Attention Convolutional Neural Network for Fine-Grained Image Recogni
tion [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway,NJ: IEEE,2017: 4476-4484.
[4] ZHENG H,FU J,TAO M,et al. Learning Multi-attention Convolutional Neural Network for Fine-Grained Image Recognition [C]//
Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway,NJ: IEEE,2017: 5209-5217.
[5] GHOSH A,KUMAR H,SASTRY P S. Robust Loss Functions un
der Label Noise for Deep Neural Networks [J]. Proceedings of the AAAI Conference on Artificial Intelligence,2017,31(1): 1919-1925.
[6] LIU W Y,WEN Y D,YU Z D,et al. SphereFace: Deep Hypersphere Embedding for Face Recognition [C]//International Conferenc
e on Computer Vision and Pattern Recognition (CVPR). Piscataway,NJ: IEEE,2017: 6738-6746.
[7] HE K,ZHANG X,REN S Q,et al. Deep Residual Learning for Image Recognition [C]//Proceedings of International Confe
rence on Computer Vision and Pattern Recognition (CVPR). Piscataway,NJ: IEEE,2016: 770-778.
[8] SUN M,YUAN Y C,ZHOU F,et al. Multi-attention Multi-class Constraint for Fine-Grained Image Recognition [C]//Eur
opean Conference on Computer Vision (ECCV). Berlin: Springer,2018: 834-850.
[9] BAHDANAU D,CHO K,BENGIO Y. Neural Machine Translation by Jointly Learning to Align and Translate [EB/OL]. (2016-03-19)[2021-
03-10]. https://arxiv.org/abs/1409.0473.
[10] HE K M,GKIOXART G,DOLLAR P,et al. Mask R-CNN
[J]. IEEE Transactions on Pattern Analysis and Machine Intellgence,2017,42(2): 386-397.
[11] HU J,SHEN L,ALBANIE S. Squeeze-and-Excitation Network
s [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2020,42(8): 2011-2023.
[12] VASWANI A,SHAZEER N,PARMAR N,et al. Attention Is All You Need [C]//Proceedings of the 31st International
Conference on Neural Information Processing Systems. New York: ACM,2017: 6000-6010.
[13] WEN Y D,ZHANG K P,LI Z F,et al. A Discriminative Feature Learning Approach for Deep Face Recognition [C]//Proc
eedings of the European Conference on Computer Vision (ECCV). Berlin: Springer,2016: 499-515.
[14] NILSBACK M E,ZISSERMAN A. Automated Flower Classif
ication over a Large Number of Classes [C]//2008 6th Indian Conference on Computer Vision,Graphics & Image Processing (ICCV). Piscataway,NJ: IEEE,2008: 722-729.
[15] WAH C,BRANSON S,WELINDER P,et al. The Caltech-UCSD Birds 200-2011 Dataset [DB/OL].
(2011-07-01)[2022-03-01]. https://paperswithcode.com/dataset/cub-200-2011.
[16] KRIZHEVSKY A,SUTSKEVER I,HINTON G E. ImageNet Cla
ssification with Deep Convolutional Neural Networks [J]. Communications of the ACM,2017,60(6): 84-90.
[17] SIMONYAN K,ZISSERMAN A. Very Deep Convolutional Networks for Large-Scale Im
age Recognition [EB/OL]. (2015-04-10)[2021-02-01]. https: //arxiv.org/abs/1409.1556v4.
[18] 張潛,桑軍,吳偉群,等. 基于Xception的細粒度圖像分類 [J]. 重慶大學學報,2018,41(5): 85-91. (ZHANG Q,SANG J,WU W Q,
et al. Fine-Grained Image Classification Based on Xception [J]. Journal of Chongqing University,2018,41(5): 85-91.)
(責任編輯: 韓 嘯)