
















[摘"要]"正確的垃圾分類不僅能有效保護環境,還為后續的垃圾回收工作打下堅實基礎。為了提高垃圾分類的精度和模型的泛化能力,提出了一個
C-ResNet網絡,采用ResNet101架構,利用CBAM注意力機制,提升對垃圾特征的提取能力,并采用EMA訓練機制提高垃
圾分類的效果。實驗結果表明,與傳統的ResNet101網絡相比,C-ResNet網絡的平均精度均值達到92.5%,高出原網絡30個百分點,困難類別精度達到92.3%,高出原網絡44.5個百分點,分類性能優于原網絡。
[關鍵詞]"垃圾分類;殘差網絡;CBAM注意力機制;EMA訓練機制
[中圖分類號]"X 70;TP 18;TP 391.41[文獻標志碼]"A[文章編號]"1005-0310(2025)02-0045-07
C-ResNet: Waste Classification Network Based on Attention Mechanism
LIU "Zeyu, FANG "Jianjun, YUAN "Yongbo, WANG "Zijian
(College of Urban Rail Transit and Logistics, Beijing Union University, Beijing 100101, China)
Abstract: "Accurate waste classification not only effectively protects the environment, but also lays a solid foundation for subsequent garbage recycling efforts. To enhance the accuracy and generalization of waste classification models, a C-ResNet network is proposed, "which adopts the ResNet101 architecture, utilizes the CBAM attention mechanism to improve the extraction of waste features. Additionally, the EMA training mechanism is employed to enhance classification performance. The experimental results demonstrate that compared with the traditional ResNet101 network, the C-ResNet achieves a
mean
average precision of 92.5%, which is 30 percentage points higher than the original network. For challenging categories, the accuracy reaches 92.3%, exceeding the original network by 44.5 percentage points, showcasing superior classification performance.
Keywords: waste classification;residual networks;CBAM attention mechanism;EMA training mechanism
0"引言
垃圾伴隨人類而生,垃圾處理是人類社會
的重要話題。數量龐大的垃圾如果得不到有效處理,不僅會造成嚴重的環境污染,還會威脅到人類自身的安全。解決垃圾處理這個難題的首要環節就是垃圾分類,而傳統的人工分類方式處理效率低、衛生風險高。近年來,由科技進步帶來的智能垃圾分類技術通過圖像識別進行垃圾分類,對自然環境和人類發展都有
重要意義。
學術界對垃圾分類的研究已持續多年,專家學者提出了多種垃圾分類方法,其中,較常用的是基于卷積神經網絡的方法。
ResNet網絡的泛用性很強,可以處理多領域的分類任務,但面對種類繁多、無法簡單歸類的垃圾分類任務時,效果并不理想
[1]。Cai等基于這個問題,在垃圾分類前加入數據增強操作,讓分類網絡學習到更多的圖片信息[2]。Frost等通過遷移學習改進預訓練圖像分類模型,提升了分類精度[3]。Yun等提出了一種基于分類器的正則化策略,用來實現數據增強[4]。Mao等利用遺傳算法優化了卷積神經網絡的全連接層[5]。Yang等利用ResNet構建了一個垃圾分類網絡WasNet,并建立了垃圾分類系統[6]。Meng等
設計了一個X-DenseNet模型,依據密集連接和多尺度的特性有效提升了分類精度[7]。Chen等通過引入PMAM模塊輔助分類網絡訓練[8]。盡管垃圾分類技術發展迅速,效果日益增強,但在垃圾顏色和背景相近的情況下,分類效果并不理想。
北京聯合大學學報2025年3月第39卷第2期劉澤宇等:C-ResNet:基于注意力機制的垃圾分類網絡Parmar等將原本應用于文本領域的 Transformer 網絡架構的相關理念和技術巧妙地遷移到圖像領域,在很大程度上提高了分類網絡的精度,增強了在相似背景下區分物體類別的能力[9]。Cheng等利用SE(squeeze-and-excitation)注意力機制,為每個通道分配不同的權重,使重要的通道得到增強,不重要的通道被抑制[10]。但其在通道分配時采用了全局平均池化操作,忽視了局部的信息特征。Wang等利用ECA(efficient channel attention)注意力機制,在空間維度上關注圖像的重要區域,忽略不重要的區域,從而更好地關注前景對象,不受背景的影響[11]。其中1D卷積只在通道維度上進行操作,捕捉通道復雜關系的能力較弱。Woo等在此基礎上利用CBAM(convolutional block attention module)混合注意力機制,即結合通道注意力和空間注意力機制,在通道和空間兩個維度上同時進行權重分配,從而更有效地分離前景和背景[12]。
本文提出一個C-ResNet垃圾分類框架,在傳統的ResNet網絡中加入CBAM注意力機制,在通道和空間層面提取圖像特征。同時,在訓練階段加入EMA(exponential moving average)訓練機制,有效提升了分類效果及困難類別精度,并提高了分類網絡的可靠性。
1"數據處理與模型改進方法
1.1"數據預處理
為了提升模型的泛化能力,本研究對原有數據集進行了增強操作,如圖1所示。首先,對原始圖像進行水平翻轉,幫助模型學會識別圖像在不同視角下的特征;其次,進行隨機旋轉,幫助模型學會識別圖像在不同旋轉角度下的特征;最后,進行高斯模糊操作,模擬真實世界中的模糊圖像,增強模型對模糊情況的魯棒性。
1.2"算法改進
1.2.1"ResNet網絡架構
ResNet(residual network)是一種廣泛應用
的網絡架構,解決了神經網絡中的參數爆炸問題,為神經網絡的深層發展打下了堅實基礎。同時,該網絡在眾多分類任務中表現優秀[13-16],因此,本文選取ResNet作為主干網絡進行改進,整體架構如圖2所示。該網絡架構在經過最初的卷積池化后進入殘差模塊、通道采樣殘差模塊,最后進行平均池化,由全連接層輸出結果。
1.2.2"CBAM注意力機制
隨著時代的發展,在目標分類中對區分背景與前景的需求越來越高,CBAM注意力機制可以顯著提升該能力。圖3為CBAM整體結構,它是一個具有輕量化特征的卷積注意力模塊,包括通道注意力模塊和空間注意力模塊兩大部分。
圖4為通道注意力模塊示意圖, 其機理與SE注意力機制相似,在保持通道不變的前提下壓縮空間維度,其計算公式為
M1(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))。(1)
式中:F為輸入特征圖,M1(F)為處理后的特征圖,其大小為1×1;AvgPool和MaxPool分別表示對特征圖進行平均池化和最大池化,MLP為感知機。共享多層感知機對訓練參數進行共享,減少了模型參數的數量,從而降低了過擬合的風險,并且提高了計算效率。該模塊通過全局平均池化和全局最大池化得到兩個特征描述,然后通過共享的全連接層和Sigmoid激活函數生成通道注意力權重,得到通道特征。
圖5為空間注意力模塊示意圖,其機理與ECA注意力機制相似,通過壓縮通道的維度,同時保持空間維度不變,關注目標之間的位置變化,其計算公式為
Ms(F′)=σ(f7×7([AvgPool(F′); MaxPool(F′)]))。(2)
式中:F′為M1(F)與F的乘積,F′的尺寸和F完全相同,Ms(F′)為經過Sigmoid函數處理后的特征圖。
1.2.3"EMA訓練機制
模型測試精度在達到瓶頸后往往無法再提升,這可能是由于訓練過程中過度學習樣本的噪聲信息產生的副作用。為了緩解該現象,讓參數更新變得更加平滑,本文引入了EMA訓練機制。
EMA訓練機制最早廣泛應用于優化算法中,特別是在動量優化和Adam優化算法[17]中。在Adam算法中,EMA訓練機制主要作用于梯度上,在本文中主要用于模型參數的平滑與追蹤。首先,EMA訓練機制通過對模型參數進行平滑處理,減小
了訓練過程中的參數波動,使模型訓練更加穩定,這對減
少訓練帶來的噪聲尤為有效。其次,EMA訓練機制通過對模型參數進行加權平均,提高模型的穩定性和泛化能力。
1.2.4"C-ResNet網絡架構
本文對ResNet網絡架構進行改進,在網絡原有的4層卷積和平均池化之后、全連接層之前加入CBAM注意力機制(見圖6)。模型可以自動聚焦于前景物體的邊緣、形狀等重要特征,忽略背景的相似部分,增強了顏色與背景相似情況下的垃圾檢測精度。具體說來,首先,在平均池化操作后添加一個通道注意力分支,通過多層卷積改變形狀,在通道不變的情況下壓縮空間,提取圖片中有意義的信息,之后恢復原圖大??;其次,添加空間注意力分支,通過最大池化與平均池化生成特征圖,在空間特征不變的情況下壓縮通道,提取目標的位置信息;最后,調整特征的權重,在參數增加較少的情況下提高分類效果。在模型的訓練方面,本研究添加了EMA訓練機制,減少數據噪聲,使模型訓練更加穩定,提高了模型的泛化能力。
圖6"C-ResNet整體結構圖
Fig.6"The overall architecture of C-ResNet
1.3"分類性能指標
分類指標主要包括準確率(P)、召回率(R)、F1分數(F1)、平均精度均值(mAP)及困難類別精度。準確率和召回率的計算公式分別為
P=XTPXTP+XFP,(3)
R=XTPXTP+XFN。(4)
式中:XTP是實際為正類且被正確分類為正類的樣本數,XFP是實際為負類但被錯誤分類為正類的樣本數,XFN是實際為正類但被錯誤分類為負類的樣本數。
準確率是正確分類為正類的樣本數占預測為正類樣本數的比例,它反映了模型在預測正類時的準確性。召回率是正確分類為正類的樣本數占實際為正類樣本數的比例,它反映了模型檢測正樣本的能力。
F1分數(F1)提供了一個更全面的評價指標,適用于需要同時考慮準確率和召回率的情況,其計算公式為
F1=2×P×RP+R 。(5)
平均精度均值(mAP)為所有類別準確率的平均值,可以用來檢測整體模型效果,其計算公式為
mAP=
1CCk=1
APk"。(6)
式中:APk為每個類別的準確率,C為類別數量。
困難類別精度是指垃圾分類中分類效果較差的單類別精度。由于本研究中的背景均以偏白色為主,分類網絡難以區分垃圾與背景,因此,本文的困難類別精度是指玻璃垃圾單類別精度。
2"數據集與實驗結果分析
2.1"數據集
基于垃圾復雜多樣的特點,本文選用2023年發布的RealWaste數據集[18]。該數據集包括日常生活中常見的紙殼、剩余食物、玻璃、易拉罐、雜項垃圾、廢紙、塑料、布條及菜梗9類垃圾,共4 752張圖片,如圖7所示。每張圖片的分辨率為524×524,本文選取其中的3 802張圖片用于訓練,950張圖片用于測試。
2.2"實驗環境與訓練策略
本實驗采用Linux x86_64系統搭建實驗環境,搭載Xeon(R) Gold 6230R處理器,使用NVIDIA GeForce A100顯卡訓練網絡;訓練框架為PyTorch 1.13.0,支持GPU加速,Python版本為3.8.3。本文將學習率統一設置為0.000 01,訓練輪次設置為300輪,batch_size設置為128。
2.3"ResNet網絡性能對比
為了驗證ResNet網絡層數對分類網絡的影響,本文選取ResNet34、ResNet50和ResNet101網絡進行實驗對比,結果如表1所示。實驗結果顯示,隨著ResNet網絡層數的增加,分類效果得到明顯提升,網絡復雜度對分類效果有正向收益。由此表明,網絡層數更多的ResNet模型會記住更高等級、更抽象的特征,因此本文采用ResNet101作為基礎網絡進行改進。
2.4"注意力機制性能對比
通道注意力和空間注意力機制對網絡區分顏色相近的
圖像前景背景具有重要作用。本實驗選取ResNet101作為主干網絡,將SE、ECA和CBAM 3種注意力機制引入任務。由于數據集的背景多為偏白色,因此本實驗選取玻璃類別進行困難類別精度檢測,比較不同注意力機制對前景背景分類效果的影響。由表2可知,CBAM注意力機制在各項指標上均有優勢,能較好地適配垃圾分類任務。
2.5"EMA實驗
為了緩解過度學習訓練數據中噪聲導致的過擬合現象,本文引入EMA訓練機制,讓數據更新變得更加平滑,進一步提高分類精度和模型的泛化能力,實驗結果如圖8所示。
2.6"消融實驗
為了說明各個改進點對模型分類效果的影響,本實驗將這些改進點依次加入網絡,并
進行消融實驗,結果如表3所示,平均精度均值如圖9所示。本實驗構建了4種不同的分類
網絡,效果差異較大。
第一種為ResNet101原始網絡,體現未改進的效果。第二種為ResNet101+通道注意力,僅加入通道注意力機制來提取有意義的信息,平均精度均值沒有變化,但困難類別精度有所提升。第三種為ResNet101+通道注意力+空間注意力,即加入CBAM注意力機制,在此前模型的基礎上進一步提取位置信息,顯著提高了各項指標。第四種為ResNet101+通道注意力+空間注意力+EMA,有效提高了平均精度均值和困難類別精度,提升了分類網絡的泛化性。
3"結束語
垃圾的正確分類及有效回收與利用不僅可以保護環境,還可以提高資源利用率。本文提出了C-ResNet分類網絡,對數據進行水平翻轉、高斯模糊等預處理,在ResNet101的基礎上引入CBAM注意力機制,以及EMA訓練機制,其分類的平均精度
均值達到92.5%,比原網絡提高30個百分點,困難類別精度達到92.3%,比原網絡提高44.5個百分點。由此表明,本文提出的改進網絡能夠提高垃圾分類精度,可為垃圾分類技術的改進提供參考和借鑒。
[參考文獻]
[1]"TARG S, ALMEIDA D, LYMAN K. ResNet in ResNet:generalizing residual architectures[J]. arXiv,2016:1603.08029.
[2]"CAI X C, SHUANG F, SUN X M, et al. Towards lightweight neural networks for garbage object detection[J]. Sensors,2022,22(19):7455.
[3]"FROST S, TOR B, AGRAWAL R, et al. CompostNet: an image classifier for meal waste[C]//2019 IEEE Global Humanitarian Technology Conference (GHTC). Seattle, USA: IEEE,2019:1-4.
[4]"YUN S, HAN D, OH S J, et al. CutMix: regularization strategy to train strong classifiers with localizable features[J]. arXiv,2019:1905.04899.
[5]"MAO W L, CHEN W C, WANG C T, et al. Recycling waste classification using optimized convolutional neural network[J]. Resources, Conservation and Recycling, 2021,164:105132.
[6]"YANG Z H, LI D. WasNet: a neural network-based garbage collection management system[J]. IEEE Access,2020,8:103984-103993.
[7]"MENG S, ZHANG N, REN Y W. X-DenseNet: deep learning for garbage classification based on visual images[J]. Journal of Physics: Conference Series,2020,1575(1):012139.
[8]"CHEN Z C, YANG J, CHEN L F, et al. Garbage classification system based on improved ShuffleNet v2[J]. Resources, Conservation and Recycling, 2022, 178:106090.
[9]"PARMAR N, VASWANI A, USZKOREIT J, et al. Image transformer[EB/OL].(2018-02-15)[2024-09-02].https://arxiv.org/pdf/1802.05751v1.
[10]"CHENG D C, MENG G F, CHENG G L, et al. SeNet: structured edge network for sea-land segmentation[J]. IEEE Geoscience and Remote Sensing Letters,2016,14(2):247-251.
[11]"WANG Q L, WU B G, ZHU P F, et al. ECA-Net: efficient channel attention for deep convolutional neural networks[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA:IEEE, 2020:11531-11539.
[12]"WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[C]//Proceedings of the Europea
n Conference on Computer Vision (ECCV). Munich, DE: Springer,2018:3-19.
[13]"楊紅艷,杜健民.基于無人機遙感與深度學習的芨芨草識別方法[J].內蒙古工業大學學報(自然科學版),2024,43(3):250-256.
[14]"莊曉濠,張衛信,劉勝杰.深度學習算法在識別鑒定陸地節肢動物中的應用[J/OL].生態學雜志.(2024-06-06)[2024-09-02].http://kns.cnki.net/kcms/detail/21.1148.Q.20240605.1702.010.html.
[15]"FU J J, YI X M, WANG G Y, et al. Research on ground object classification method of high resolution remote-sensing images based on improved DeeplabV3+[J]. Sensors,2022,22(19):7477.
[16]"SONG W, ZHANG L F, TIAN Y F, et al. CNN-based 3D object classification using Hough space of LiDAR point clouds[J]. Human-centric Computing and Information Sciences,2020,10(5):1176-1194.
[17]"KINGMA D P, BA J. Adam: a method for stochastic optimization[EB/OL].(2017-01-30)[2024-09-02].https://arxiv.org/pdf/1412.6980.
[18]"SINGLE S, IRANMANESH S, RAAD R. RealWaste: a novel real-life data set for landfill waste classification using deep learning[J]. Information,2023,14(12):633.
(責任編輯"白麗媛;責任校對"柴"智)