中圖分類號:TP391.4 文獻標志碼:A 文章編號:1671-6841(2025)03-0065-07
DOI:10.13705/j.issn.1671-6841.2023171
Still Image Action Recognition Method Combining ResNet and CBAM
GAO Han,WAN Fangjie,MA Mingxu (School of Cyber Science and Engineering, Zhengzhou University, Zhengzhou 4500O2, China)
Abstract: To address the problem of poor recognition performance caused by the lack of large-scale datasets and the inability to utilize spatiotemporal features,a model that combined residual neural network (ResNet)and convolutional block attention module(CBAM)was proposed for still image action recognition.Specific data augmentation techniques were employed to extend the dataset. Transfer learning was applied to initialize the model,followed by fine-tuning to enhance feature representation of still image action recognition. The CBAM was embedded into the first convolutional layer of ResNet to adjust the model's attention. The Grad-CAM method was utilized to extract and visualize the regions of interest in image which provided an explanation for the precision improvement. On the PPMI dataset,the proposed model achieved the average precision for instrument-playing, instrument-holding,and overall categories of 88.30% , 81.94% and 77.93% ,respectively,which verified the effectiveness of the method.
Key words: residual network;action recognition;convolutional block attention module; still image; transfer learning
0 引言
目前,行為識別研究主要集中在視頻領域,基于靜態圖像的行為識別工作較少。無法利用時空特征和缺乏大規模數據集是基于靜態圖像的行為識別工作所面臨的主要挑戰[1]。人體動作大都可以在單張圖像中表現出來,這是在靜態圖像上進行行為識別工作的前提[2]。人類可以僅由單幀圖像判斷出行為類別,因此基于單幀圖像的行為識別研究對探索計算機視覺和人類視覺的關系具有重要意義。早期的靜態圖像行為識別研究主要是提取圖像底層特征。Yao等[3]對人物交互動作中物體和人體姿勢之間的相互上下文進行建模,以便每個上下文都可以促進彼此的識別。楊紅菊等[4提取圖像中的方向梯度直方圖線索和尺度不變特征變換(scale-invari-antfeaturetransform,SIFT)描述,使用空間金字塔模型加入粗略空間信息作為特征進行訓練。王恩德等[5]使用局部約束線性編碼和池化的SIFT融合通用搜索樹來共同描述圖像特征,利用支持向量機進行分類,也有一定的效果。但這些借助圖像底層特征的方法無法區分許多行為之間的差別,也未考慮人體動作與物體或環境的關系,因此早期的研究方法精度較低。
許多學者意識到卷積神經網絡(convolutionalneural network,CNN)在行為識別研究上的價值[6]Pratt等首先檢測人體和對象的位置,之后利用LSTM網絡來識別人體與對象的交互。Lavinia等[8]利用多個CNN與兩個顏色空間融合來改善識別效果。Li等提出深度選擇性特征學習網絡,學習具有細粒度和全局信息的特征圖。魏麗冉等[10]采用遷移學習的思想對GooLeNet模型進行改進,并使用邏輯回歸進行動作的多分類。但是,一方面深層神經網絡訓練較為困難,并且網絡深度增加會導致模型退化;另一方面,缺乏大規模數據集使得訓練深度神經網絡時容易出現過擬合,而淺層神經網絡又學習不到有效特征,效果較差。因此,本文提出一種結合殘差神經網絡(residualneuralnetwork,ResNet)和卷積注意力模塊(convolutionalblockattentionmodule,CBAM)的網絡模型。通過實驗調整并確定CBAM的添加位置,使得網絡能夠注意那些更加重要的特征,以此改善模型效果;使用微調的遷移學習方法,將來自大型數據集的預訓練權重作為模型的初始化權重,提升模型的識別精度。
1方法設計
1. 1 網絡結構
使用的網絡結構以ResNet152為主體,在Res-Net的第1個卷積層后引入1個CBAM,之后是4個由BottleNeck組成的卷積層,網絡最終以1個平均池化層和softmax函數的全連接層結束。將基于Im-ageNet數據集預訓練的ResNet網絡權重作為初始化權重,最后一層全連接層從應用于ImageNet分類任務的1000個類改為對應任務的分類數。具體的網絡結構如圖1所示。

1. 2 ResNet
ResNet[]是一種通過在網絡中加入恒等映射來解決深度神經網絡梯度爆炸問題的CNN。采用ResNet152作為網絡基本結構,淺層和深層殘差網絡分別使用BasicBlock和BottleBlock兩種殘差塊,其基本結構如圖2所示。為了體現網絡深度對于圖像特征提取能力的影響,并對比CBAM在不同深度網絡模型中的效果,選取了ResNet18(殘差層 =[2 2,2,2])、 ResNet50 (殘差層 =[3,4,6,3] )和Res-Net152(殘差層
)進行對比實驗。Res-
Net結構如圖3所示。
1.3 CBAM
CBAM[12]由1個通道注意力模塊和1個空間注意力模塊連接組成。在計算通道注意力時,首先采用平均池化和最大池化對每個通道特征圖中的空間信息進行聚合,生成2個不同的空間上下文描述符,再將其經過2個全連接層來獲取通道中的注意力權重,對不同通道的特征進行對比,學習通道之間的重要性,調整每個通道的權重。通道注意力模塊如圖4所示。

將通道注意力的輸出作為空間注意力模塊的輸入,對其進行基于通道維度的最大池化和平均池化操作,將這2個結果連接起來以生成有效的特征描述符,在連接的特征描述符上卷積生成空間注意力特征圖。經過1個sigmoid激活函數得到注意力權重,用來編碼在哪些位置強調或者抑制。空間注意力模塊如圖5所示。
將CBAM加人ResNet各卷積層后進行對比實驗,以此探究CBAM位置變化對識別效果的影響。對比實驗包括將CBAM模塊單獨加入各卷積層后、同時加入第1個卷積層和第5個卷積層后以及同時加入每個卷積層后。CBAM位置對比結果如表1所示。
ResNet的第1層卷積主要是對低級特征進行提取,其他4層卷積主要是對更高級和語義相關特征進行提取。在加入CBAM后,通過對特征圖在通道和空間上的注意力進行調整來增強重要通道和位置的信息。CBAM對于這些包含更多語義信息和抽象表示的高級特征不太適用,而在低級特征上能夠更好地提取和強調關鍵信息。
由表1可知,在每個卷積層后加人CBAM,導致精度下降嚴重,對比不加人CBAM模塊的網絡,平均識別精度下降1.24個百分點,而僅在第1個卷積層后加入CBAM模塊,平均識別精度則提升1.92個百分點。




1. 4 數據增強
使用的數據集為 PPMI[13],共有2110 張訓練圖像,每一類行為的訓練圖像只有 70~100 張。在訓練網絡時,使用數據增強技術來增加數據量。由于靜態圖像的行為識別是一種較為特殊的圖像分類任務,并不能適用于所有的數據增強技術。Chakraborty等[14]對在靜態圖像行為識別數據集上應用數據增強技術的效果進行對比實驗,證明了鏡像技術中的水平翻轉對于效果提升非常有效,而垂直翻轉在大多數情況下變成了非標簽保留轉換,導致結果惡化。在幾何變換技術中,透視傾斜和輕微旋轉有助于訓練,但當旋轉量較大時,也會導致類似垂直翻轉的效果。在變焦技術中,放大需要保持在適當范圍內,以免錯失需要捕捉的特征和關鍵對象。而對于隨機擦除技術,由于靜態圖像行為識別對動作對象的強依賴性,為了防止擦除動作對象或人體部位影響識別效果,本文不引入。因此,數據增強管道選擇使用幾何變換、水平翻轉和變焦技術。將圖像的像素調整為標準大小( 224×224. )后通過數據增強管道,依次執行以下操作。(1)幾何變換。主要包括透視傾斜和圖像旋轉等操作,其中圖像旋轉操作時,左右旋轉最大角度在 10° 以內,圖像經過管道時應用這項操作的概率為 70% 。(2)變焦操作。最小因子為1.1,最大因子為1.5,操作概率為 50% 。(3)鏡像操作。即水平翻轉,操作概率為 50% 。
2 實驗與分析
2.1 數據集
所提方法在PPMI數據集上進行實驗評估。PPMI 的全稱為 people playing musical instruments,意為演奏樂器的人。該數據集包含的圖像是人體與12種不同樂器之間的互動,分為演奏樂器和持有樂器兩種動作類型,每種類型都含有12種樂器,共24種動作分類。PPMI數據集包含2231張演奏樂器類圖像和1978張持有樂器類圖像。圖6顯示了PPMI數據集的一些示例圖像。由于PPMI數據集中的圖片類內相似度較高,因此對于識別方法在細粒度分類方面的能力要求更高。識別任務分為在演奏樂器類、持有樂器類上分別識別和在總24類上識別3項任務。
2.2 實驗設置
在Ubuntu18.04系統下進行實驗,硬件為NVIDIAQuadroRTX600O,程序環境為Python3.8.12,使用PyTorch1.10.2深度學習框架,CUDA版本為10.2.89。由于需要訓練較深的網絡,考慮硬件限制,批尺寸大小設置為8。得益于遷移學習方法,訓練周期僅為30個輪次,初始學習率為0.001,每5個輪次后學習率衰減為原來的0.1。使用交叉熵損失函數和隨機梯度下降優化算法,Mo-mentum動量設置為0.9。使用1.4節所述的數據增強技術后,演奏樂器類訓練圖像數量為5590張,持有樂器類訓練圖像數量為4905張。使用PyTorch提供的在ImageNet數據集上預訓練的ResNet網絡權重作為所提模型的初始化權重。

2.3 實驗結果與分析
2.3.1消融實驗為了驗證方法的有效性,在PPMI數據集上進行消融實驗,所有實驗使用相同硬件與超參數。為了顯示CBAM對不同網絡深度的影響,增加了ResNet18和ResNet50模型的實驗。消融實驗結果如表2所示,給出了應用數據增強技術和加入CBAM對演奏樂器類、持有樂器類和總24類的平均識別精度。

由表2可知,在僅加人CBAM后,ResNet50與ResNet152在3項任務上的識別效果均有所提升。加入CBAM后的ResNet50和ResNet152網絡在PP-MI總24類動作識別精度上分別提升0.73個百分點和1.17個百分點,幾乎達到了只使用數據增強后的效果。在同時應用數據增強和加入CBAM后,3種網絡模型在3項任務上的識別效果均有提升。改進后的ResNet18在演奏樂器類、持有樂器類、總24類3項行為識別任務上的平均識別精度分別提升3.09、5.02、4.25個百分點,ResNet50在3項任務上的平均識別精度分別提升1.90、1.23、2.79個百分點,ResNet152在3項任務上的平均識別精度分別提升1.58、1.42、3.82個百分點。
網絡深度的增加對于平均識別精度的提升有著較大幫助。加人CBAM對于網絡層數較淺模型的提升效果比深層網絡更好,這主要是因為較淺層的ResNet對于圖像的特征信息提取能力不足,注意力機制可以很好地在這方面幫助模型提升識別效果,而在深層網絡中CBAM幫助提取特征的效果相對不明顯。在不應用數據增強時,ResNet18不僅沒有提升識別精度,反而有所下降。在模型對特征提取能力不強的情況下,加人CBAM放大了缺乏訓練數據的問題,受到訓練圖像背景雜亂等影響,出現了嚴重的過擬合情況。在3項行為識別任務中,加入CBAM后對于總24類的精度提升效果高于其他兩類,這說明CBAM緩解了原模型對細粒度的特征信息分辨能力不強的問題。總的來說,應用的數據增強方法和加人的注意力模塊都對識別效果有著改善作用。
2.3.2對比實驗在PPMI數據集上,將所提方法與其他文獻提出的靜態圖像行為識別方法進行平均精度對比,結果如表3所示。可以看到,所提方法在演奏樂器類、持有樂器類和總24類的平均識別精度分別為 88.30% 、81.94%和 77.93% ,相比對比方法有著較為明顯的提升。值得注意的是,所提方法在演奏樂器類上的效果要比持有樂器類更好,表明模型能夠從與物體有明顯交互的動作中提取到更多的識別信息。
2.3.3混淆矩陣和可視化結果所提方法在PPMI數據集演奏樂器類驗證集上的混淆矩陣如圖7所示,在PPMI數據集持有樂器類驗證集上的混淆矩陣如圖8所示。演奏樂器類和持有樂器類都在豎琴(harp)、吉他(guitar)等這些目標較大且與其他樂器差異較大的類別上識別效果較好。同時,也容易受到物體形狀相似的影響而誤識別一些動作,如演



奏樂器類和持有樂器類都易將單簧管(clarinet)與豎笛(recorder)誤判。
所提方法在PPMI數據集總24類動作識別驗證集上的混淆矩陣如圖9所示。對總24類動作進行識別,模型效果相比演奏樂器類和持有樂器類都有所下降,準確率為 77.22% 。對于相同的樂器,動作是演奏還是持有,模型會有不同程度的誤判,例如將持有巴松管識別為演奏巴松管等。這說明在細粒度的行為上,所提方法在處理圖像信息進行特征提取時,所獲取的交互信息還不能夠完全地將兩種行為分辨出來,同時圖像中同種樂器的物體信息也影響了模型的預測。在一些形狀相似的樂器上,模型也產生了一些誤判,例如豎笛和單簧管兩種樂器較為相似,持有動作也較為一致,使得模型將一些真實標簽為持有單簧管的圖像判斷為持有豎笛。

為了分析所提方法的模塊作用,增強可解釋性,通過Grad-CAM可視化方法[]進行了演奏圓號(Frenchhorn)行為識別對比,Grad-CAM可視化結果如圖10所示。可以看出,在無數據增強、無CBAM的模型中,網絡比較關注人體與交互對象的連接點。應用數據增強后,對于交互物體的關注度增加。而在加入CBAM后,網絡的注意力明顯由原來的小部分轉移為人體與交互物體的整體以及交互物體的大致形狀,同時也增加了一些無關區域的關注度。這就解釋了所提方法識別精度提升和對于細粒度行為識別改善的原因。

3結語
本文提出一種結合ResNet和CBAM的靜態圖像行為識別方法,將在ImageNet上預訓練的ResNet網絡權重作為模型的初始化權重,新的網絡模型在ResNet的第1個卷積層后加人由通道注意力機制和空間注意力機制組成的CBAM。在模型訓練部分,對原訓練集圖像進行數據增強,在數據增強后的訓練集上進行訓練,改變權重。所提方法在PPMI數據集演奏樂器類和持有樂器類的平均識別精度分別為 88.30% 和 81.94% ,而在總24類的平均識別精度為 77.93% ,取得了較好的效果。所提方法對于細粒度行為的識別雖有改善,但還會受到相似交互對象的影響。對于相似行為和相似物體導致的誤識別,還需要在細粒度方面進行更多的研究。盡管應用數據增強和加入注意力模塊緩解了缺乏訓練數據的問題,但仍舊需要一個大規模的靜態圖像人體行為識別數據集來開展更多的研究,這也是未來的工作方向。
參考文獻:
[1] GUO G D,LAI A.A survey on still image based human actionrecognition[J].Patternrecognition,2O14,47(10): 3343-3361.
[2] GIRISH D,SINGH V,RALESCU A. Understanding action recognition in still images[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Piscataway:IEEE Press,2020:1523-1529.
[3] YAOBP,LIFF. Recognizing human-object interactions instill images by modeling the mutual context of objects and human poses[J]. IEEE transactions on pattern analysis and machine intelligence,2012,34(9):1691- 1703.
[4] 楊紅菊,馮進麗,郭倩.基于多核學習的靜態圖像人 體行為識別方法[J].數據采集與處理,2016, 31(5) : 958-964. YANG HJ,FENG JL,GUO Q.Action recognition in still image based on multiple kernel learning[J]. Journal of data acquisition and processing,2016,31(5) : 958- 964.
[5] 王恩德,劉巧英,李勇.基于LLC與GIST 特征的靜 態人體行為分類[J].計算機工程,2018,44(8): 268-272,278. WANG E D,LIUQY,LI Y.Static human behavior classification based on LLC and GIST features[J].Computer engineering,2018,44(8):268-272,278.
[6] 錢文祥,衣楊.視頻識別深度學習網絡綜述[J].計 算機科學,2022,49(S2):341-350. QIAN W X,YI Y. Survey of deep learning networks for video recognition[J].Computer science,2022,49 (S2): 341-350.
[7]PRATT S,YATSKAR M,WEIHS L,et al. Grounded situation recognition[C]//European Conference on Computer Vision. Cham: Springer International Publishing, 2020:314-332.
[8]LAVINIA Y, VO H, VERMA A. New colour fusion deep learning model for large-scale action recognition[J].International journal of computational vision and robotics, 2020,10(1):41.
[9]LIZQ,GEYX,FENGJY,et al.Deep selective feature learning for action recognition[C]//IEEE International Conference on Multimedia and Expo. Piscataway : IEEE Press,2020:1-6.
[10]魏麗冉,岳峻,朱華,等.基于深度神經網絡的人體 動作識別方法[J].濟南大學學報(自然科學版), 2019,33(3):215-223,228. WEI L R,YUE J,ZHU H,et al. Human action recognition method based on deep neural network[J]. Journal of university of Jinan (science and technology),2019, 33(3):215-223,228.
[11]HEKM,ZHANGXY,RENSQ,etal.Deepresidual learning for image recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition. Piscataway : IEEE Press,2016:770-778.
[12]WOO S,PARKJ,LEEJY,et al. CBAM:convolutional block attention module[C]// European Conference on Computer Vision. Cham:Springer International Publishing,2018:3-19.
[13]YAO BP,LI FF.Grouplet:a structured image representation for recognizing human and object interactions [C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press , 2010:9-16.
[14]CHAKRABORTY S,MONDAL R,SINGH P K,et al. Transfer learning with fine tuning for human action recognition from still images[J].Multimedia tools and applications,2021,80(13):20547-20578.
[15]IANDOLAFN,HAN S,MOSKEWICZ M W,et al. SqueezeNet:AlexNet-level accuracy with 5Ox fewer parameters and lt;0.5 MB model size[EB/OL]. (2021-04- 15)[2023-03-06]. https: //arxiv.org/pdf/1602.07360. pdf.
[16]HOWARD A,SANDLER M,CHEN B,et al. Searching for MobileNetV3[C]//IEEE/CVF International Conference on Computer Vision.Piscataway:IEEE Press, 2020:1314-1324.
[17] SELVARAJU R R,COGSWELL M,DAS A,et al. GradCAM:visual explanations from deep networks via gradient-based localization[J]. International journal of computer vision,2020,128:336-359.