引言
隨著智慧城市建設(shè)的加速推進(jìn),垃圾分類處理已成為城市環(huán)境治理的重要環(huán)節(jié),智能化技術(shù)成為解決效率瓶頸的關(guān)鍵路徑。但在實(shí)際應(yīng)用場(chǎng)景中,智能分揀設(shè)備常需要部署于算力受限的邊緣終端,其對(duì)算法模型的計(jì)算效率與資源占用提出了嚴(yán)苛的要求[1]。與此同時(shí),生活垃圾因形態(tài)多變、堆疊遮擋及光照條件復(fù)雜等特點(diǎn),使得主流檢測(cè)模型在真實(shí)場(chǎng)景中面臨精度下降與誤檢率攀升的挑戰(zhàn)。開發(fā)兼顧精度與效率的輕量化識(shí)別算法,已成為推動(dòng)智慧環(huán)保落地的核心技術(shù)需求[2]。
現(xiàn)有輕量化目標(biāo)檢測(cè)模型多通過簡(jiǎn)化網(wǎng)絡(luò)深度或通道數(shù)降低計(jì)算負(fù)擔(dān),但這類策略會(huì)削弱模型的特征提取能力[3]。以最新的YOLOv11系列為例,輕量化版本YOLOv11n通過縮減骨干網(wǎng)絡(luò)規(guī)模實(shí)現(xiàn)參數(shù)壓縮,在保持較高檢測(cè)速度的同時(shí),通過改進(jìn)特征金字塔結(jié)構(gòu)和損失函數(shù),在通用目標(biāo)檢測(cè)任務(wù)中展現(xiàn)出色性能。然而,垃圾識(shí)別任務(wù)中普遍存在的類內(nèi)差異大、形態(tài)不規(guī)則等特性,導(dǎo)致識(shí)別精度顯著降低。
為了解決這一問題,本文提出一種改進(jìn)的YOLOv11n垃圾識(shí)別算法。首先,采用EfficientNetv2網(wǎng)絡(luò)5重構(gòu)YOLOv11n的骨干特征提取層,在降低參數(shù)量的同時(shí),增強(qiáng)對(duì)垃圾目標(biāo)多尺度特征的提取能力;其次,引入可變形注意力機(jī)制(deformable attention transformer,DAT)解決堆疊遮擋導(dǎo)致的特征混淆問題;最后,設(shè)計(jì)基于Slim-Neck的優(yōu)化頸部結(jié)構(gòu),采用GSConv(ghostshuffleconvolution)模塊替代傳統(tǒng)卷積層,在保持多尺度特征融合效果的前提下顯著壓縮計(jì)算量。在這三種改進(jìn)策略優(yōu)化下,該算法在提升垃圾目標(biāo)的識(shí)別精度的同時(shí),顯著降低了參數(shù)量,為邊緣計(jì)算設(shè)備部署提供了更好的解決方案。
1.YOLOv11n網(wǎng)絡(luò)結(jié)構(gòu)
YOLOv11n是Y0L0v11系列的輕量化版本,其網(wǎng)絡(luò)結(jié)構(gòu)由主干網(wǎng)絡(luò)(Backbone)、頸部網(wǎng)絡(luò)(Neck)和檢測(cè)頭(Head)三部分構(gòu)成(如圖1所示)。
Backbone負(fù)責(zé)多尺度特征提取,由基礎(chǔ)卷積模塊(Conv)、跨階段特征增強(qiáng)模塊(C3k2)、快速空間金字塔池化模塊(SPPF)、跨階段部分金字塔切片注意力機(jī)制(C2PSA)組成。Neck部分通過上采樣(Upsample)、拼接(Concat)和C3k2模塊實(shí)現(xiàn)多尺度特征融合。

Head基于解耦式預(yù)測(cè)機(jī)制,采用Detect模塊完成目標(biāo)分類與邊界框回歸任務(wù)。
2.YOLOv11n的改進(jìn)策略及成果
2.1YOLOv11n的改進(jìn)策略
2.1.1輕量化網(wǎng)絡(luò)EfficientNetv2
EfficientNetV2作為一種新型卷積神經(jīng)網(wǎng)絡(luò),通過訓(xùn)練感知的神經(jīng)架構(gòu)搜索與模型縮放策略,顯著提升了訓(xùn)練速度與參數(shù)效率。在結(jié)構(gòu)設(shè)計(jì)上,EfficientNetV2采用融合MBConv(Fused-


MBConv)與標(biāo)準(zhǔn)MBConv的混合架構(gòu),MBConv 模塊包含深度可分離卷積[8](depthwise Conv)與SE(squeeze andexcitation)通道注意力機(jī)制。Fused-MBConv則將 1×1 卷積和深度可分離卷積替換為標(biāo)準(zhǔn) 3×3 卷積,通過減少內(nèi)存訪問開銷提升計(jì)算效率。
2.1.2可變形注意力機(jī)制(DAT)
傳統(tǒng)深度網(wǎng)絡(luò)在視覺任務(wù)中通過全局自注意力機(jī)制建模長(zhǎng)程依賴關(guān)系,但其計(jì)算復(fù)雜度隨圖像分辨率呈平方級(jí)增長(zhǎng),難以適配高分辨率垃圾圖像的高效處理需求。此外,固定感受野機(jī)制難以應(yīng)對(duì)垃圾目標(biāo)的形態(tài)不規(guī)則性與堆疊遮擋問題。為此,本文引入可變形注意力機(jī)制(DAT),通過動(dòng)態(tài)稀疏注意力建模與自適應(yīng)特征采樣策略,與傳統(tǒng)自注意力機(jī)制相比,DAT通過局部特征采樣將計(jì)算復(fù)雜度從0 (N×N) 降低至O(N×K) 。
2.1.3優(yōu)化頸部結(jié) 構(gòu)Slim-Neck
傳統(tǒng)頸部網(wǎng)絡(luò)中密集的標(biāo)準(zhǔn)卷積,其計(jì)算復(fù)雜度隨通道數(shù)呈平方增長(zhǎng),難以滿足輕量化需求;而深度可分離卷積雖通過通道解耦降低計(jì)算量,卻因完全割裂通道交互導(dǎo)致多尺度特征融合性能下降。為此,本文使用GSConv的Slim-Neck結(jié)構(gòu),通過混合密集-稀疏卷積與通道混洗機(jī)制,在計(jì)算效率與特征表達(dá)能力間實(shí)現(xiàn)最優(yōu)平衡。GSConv由密集卷積、稀疏卷積、通道混洗三階段構(gòu)成。通過隨機(jī)排列操作,促進(jìn)跨組信息交互[1]。
2.2YOLOv11n的改進(jìn)成果
綜合上述改進(jìn)策略,基于YOLOv11n的輕量化垃圾識(shí)別網(wǎng)絡(luò)如圖2所示。在主干網(wǎng)絡(luò)中用Fused-MBConv和MBConv替換原本的Conv,且在頸部網(wǎng)絡(luò)中引入GSConv替代原本的Conv,將原本注意力機(jī)制中的C2PSA替換為DAT提升識(shí)別精度。
3.1實(shí)驗(yàn)案例和數(shù)據(jù)集
3.實(shí)驗(yàn)結(jié)果和分析
本實(shí)驗(yàn)案例依托中國(guó)大學(xué)生工程實(shí)踐與創(chuàng)新能力大賽——生活垃圾智能分類比賽[開展,該賽事聚焦人工智能技術(shù)在環(huán)保領(lǐng)域的落地應(yīng)用,要求參賽隊(duì)伍針對(duì)不同種類的垃圾開發(fā)高精度、低延時(shí)的垃圾智能分類算法。實(shí)驗(yàn)數(shù)據(jù)集為自建數(shù)據(jù)集,數(shù)據(jù)集中的照片都拍攝于固定場(chǎng)景的不同角度物品,像素均為 640×640 。垃圾被分為四大類:有害垃圾、廚余垃圾、一般垃圾和建筑垃圾,其中又根據(jù)具體垃圾種類分成13個(gè)小類。
3.2結(jié)果分析
訓(xùn)練結(jié)束后的部分識(shí)別結(jié)果如圖3所示,從圖中可以看出網(wǎng)絡(luò)第一行第一列的塑料瓶和第四行第一列的金屬瓶被正確識(shí)別,這里體現(xiàn)了目標(biāo)被遮擋以及外觀類似的場(chǎng)景下的識(shí)別精度。此外,無論目標(biāo)物體大小都可以被正確識(shí)別,如第三行第四列的瓷片即使在過曝情況下依舊能夠被準(zhǔn)確識(shí)別。
為驗(yàn)證各改進(jìn)策略的有效性,本研究設(shè)計(jì)漸進(jìn)式消融實(shí)驗(yàn),將綜合IoU閾值在 0.5~0.95 的mAP和參數(shù)量作為模型性能的評(píng)估標(biāo)準(zhǔn)。
改進(jìn)算法1:在原始YOLOv11n
P-流水-輕量化垃圾識(shí)別改進(jìn)算法研究
基礎(chǔ)上,將其骨干網(wǎng)絡(luò)替換為EfficientNetv2中的MBConv模塊,保留原頸部與檢測(cè)頭結(jié)構(gòu)。
改進(jìn)算法2:在改進(jìn)算法1的基礎(chǔ)上,引入Slim-Neck模塊的GSConv改進(jìn)頸部網(wǎng)絡(luò)。
本算法在改進(jìn)算法2的基礎(chǔ)上,引入注意力機(jī)制DAT。
根據(jù)表1的實(shí)驗(yàn)數(shù)據(jù)顯示,改進(jìn)算法1在將骨干網(wǎng)絡(luò)重構(gòu)為EfficientNetv2后,參數(shù)量從原模型的 2.58×106 顯著降低至 2.09×106 ,同時(shí)mAP從 90.9% 提升至 93.6% 。這表明EfficientNetv2的漸進(jìn)式縮放策略與MBConv模塊在減少計(jì)算冗余的同時(shí),通過多尺度特征融合增強(qiáng)了垃圾目標(biāo)的表征能力。改進(jìn)算法2引入Slim-Neck結(jié)構(gòu)替代原頸部網(wǎng)絡(luò),參數(shù)量由 2.09×106 顯著降低至 1.99×106 ,mAP微增至 93.9% ,驗(yàn)證了GSConv模塊在特征交互效率與輕量化間的平衡優(yōu)勢(shì)。最終,本算法通過嵌人可變形注意力機(jī)制(DAT),在參數(shù)量?jī)H小幅回升的情況下,mAP顯著提升至 94.2% 。實(shí)驗(yàn)結(jié)果證明,本算法的改進(jìn)帶來的性能增益遠(yuǎn)超參數(shù)量的邊際成本增長(zhǎng),最終實(shí)現(xiàn)模型規(guī)模與檢測(cè)精度的協(xié)同優(yōu)化。
為驗(yàn)證本算法在垃圾識(shí)別任務(wù)中的有效性,選取YOLO系列最具代表性的輕量化基準(zhǔn)模型( YoLOv5n 、YOLOv8n、YOLOv10n、 YoLov11n )進(jìn)行橫向?qū)Ρ龋⒕C合IoU閾值在 0.5~0.95 的mAP和參數(shù)量作為模型性能的評(píng)估標(biāo)準(zhǔn),比較結(jié)果如表2所示。
根據(jù)表2的數(shù)據(jù)可知,本算法在參數(shù)量與檢測(cè)精度上均展現(xiàn)出顯著優(yōu)勢(shì)。相較于原算法,本算法的mAP提升3.3個(gè)百分點(diǎn),參數(shù)量降低 22.1% ;與 Y0L0v10n 相比,mAP優(yōu)勢(shì)達(dá)7.6個(gè)百分點(diǎn),參數(shù)量減少 25.8% ;面對(duì)模型 Y0L0v8n ,本算法在參數(shù)量壓縮 25.3% 的情況下,仍實(shí)現(xiàn)2.8個(gè)百分點(diǎn)的 mAP 提升;相較于YoLOv5n ,本算法以 8.2% 的參數(shù)量降幅取得5.6個(gè)百分點(diǎn)的精度優(yōu)勢(shì)。實(shí)驗(yàn)結(jié)果表明,本算法突破了輕量化模型中精度與效率的權(quán)衡壁壘,達(dá)到了輕量化和精準(zhǔn)度的統(tǒng)一。

結(jié)語
本文針對(duì)智慧城市中生活垃圾識(shí)別任務(wù)的特殊需求,提出一種基于YOLOv11n的輕量化改進(jìn)算法。通過輕量化網(wǎng)絡(luò)EfficientNetv2、可變形注意力機(jī)制(DAT)、優(yōu)化頸部結(jié)構(gòu)Slim-Neck的三階段改進(jìn)策略,有效解決了傳統(tǒng)模型在復(fù)雜場(chǎng)景下精度與效率難以平衡的問題。實(shí)驗(yàn)證明,改進(jìn)算法在參數(shù)量降低的情況下,mAP達(dá)到 94.2% ,較原模型提升3.3個(gè)百分點(diǎn),且在邊緣設(shè)備上實(shí)現(xiàn)實(shí)時(shí)檢測(cè)性能。算法通過DAT機(jī)制對(duì)堆疊目標(biāo)的動(dòng)態(tài)感知能力,以及Slim-Neck結(jié)構(gòu)的多尺度特征融合效率,為城市垃圾智能分揀系統(tǒng)提供了高精度、低功耗的解決方案。未來工作將聚焦于模型量化壓縮與多模態(tài)數(shù)據(jù)融合,進(jìn)一步提升算法在極端光照、雨霧天氣等惡劣環(huán)境下的魯棒性。

參考文獻(xiàn):
[1]譚瑞鴻,劉宇杰,劉杭,等.基于樹莓派的智能化垃圾分類系統(tǒng)[].物聯(lián)網(wǎng)技術(shù),2025,15(6):113-115.
[2]溫洋,董靖川,趙鵬飛,等.多感知融合的智能垃圾識(shí)別分揀實(shí)驗(yàn)系統(tǒng)設(shè)計(jì)[].實(shí)驗(yàn)室研究與探索,2025,44(2):52-56.
[3]龍子晗,肖小玲.改進(jìn)YOLOv8s的輕量化人臉識(shí)別算法[].信息技術(shù)與信息化,2024(12):201-204.
[4]王寧,智敏.深度學(xué)習(xí)下的單階段通用目標(biāo)檢測(cè)算法研究綜述[].計(jì)算機(jī)科學(xué)與探索,2025,19(5):1115-1140.
[5]呂一鳴,王激揚(yáng).基于改進(jìn)Efficientnetv2模型的鐵礦石圖像分類方法[J].計(jì)算機(jī)科學(xué),2024,51(S1):561-566.
[6]曾旺丁.基于Deformable Attention和自監(jiān)督學(xué)習(xí)的微表情檢測(cè)[D].北京:北京郵電大學(xué),2024.
[7]周洋,胡國(guó)強(qiáng),汪行健,等.融合 GSConv輕量化YOLOv5s的電力作業(yè)穿 戴設(shè)備檢測(cè)算法[J].軟件導(dǎo)刊,2024,23(11): 172-180.
[8]曹渝昆,桂麗嬡.基于深度可分離卷積的輕量級(jí)時(shí)間卷積網(wǎng)絡(luò)設(shè)計(jì)[J].計(jì)算機(jī)工程,2020,46(9):95-100
[9]張少華,馮炎,余仁杰,等.基于SE注意力機(jī)制和深度卷積的語音情感識(shí)別[J]現(xiàn)代電子技術(shù),2024,47(22):64-70.
[10]夏長(zhǎng)權(quán),汪李超,韓一帆,等.融合Shufflenet-V2的Yolov5輕量化目標(biāo)檢測(cè)方法[].信息技術(shù)與信息化,2023(3):100-104.
[11]于兆勤.智能+賽道命題及評(píng) 分解讀[EB/OL].(2023-6-30)[2025- 05-10].http://www.gcxl.edu.cn/new/ res/20230630/Intelligence.pdf.
作者簡(jiǎn)介:姜玉斌,碩士研究生,助教,研究方向:人工智能與深度強(qiáng)化學(xué)習(xí);通信作者:胡智慧,碩士研究生,助理實(shí)驗(yàn)師,824789141 @ qq.com,研究方向:強(qiáng)化學(xué)習(xí)與智慧校園。