邢潔潔,謝定進,楊然兵※,張喜瑞,孫文斌,伍世斌
基于YOLOv5s的農田垃圾輕量化檢測方法
邢潔潔1,謝定進1,楊然兵1※,張喜瑞1,孫文斌2,伍世斌1
(1. 海南大學機電工程學院,???570228;2. 海南大學信息與通信工程學院,???570228)
針對目前垃圾檢測算法在農田復雜環境下檢測精度不高、檢測效率低,模型復雜等問題,該研究提出了基于YOLOv5s的農田垃圾輕量化檢測方法。首先,使用輕量級分類網絡ShuffleNetV2的構建單元作為特征提取網絡,降低模型的計算量和參數量,提高運行速度,以滿足移動端的應用要求;其次,為應對模型輕量化后帶來的檢測精度降低,該文相繼對ShuffleNetV2的構建單元進行了卷積核擴大化改進和激活函數優化,在增加部分計算量的前提下提高了模型精度;此外,為增強模型在田間環境下對目標的精準定位能力,該研究針對邊界框損失函數進行了優化,將CIoU邊界框損失函數高寬縱橫比的損失項拆分為預測框的高寬分別與最小外接框高寬的差值,然后通過不斷迭代減小差值,提高模型的收斂速度和回歸精度。試驗結果顯示,最終的改進模型檢測精度達到了90.9%,此時檢測速度為74 ms/幀,計算量僅為3.6 GFLOPs,與當前主流的目標檢測算法SSD、YOLOv3等相比,不僅具有更優越的檢測精度和推理速度,同時還大幅減少了計算量;最后,將改進前后的模型部署到Jetson TX1和Raspberry 4B 兩種邊緣計算設備上進行測試,測試結果表明,改進后的YOLOv5s模型在邊緣計算設備上的檢測速度相對原模型提高了至少20%,同時保持了較好的檢測效果,平衡了邊緣計算設備對精度和速度的性能需求,為田間垃圾檢測任務提供了參考。
神經網絡;垃圾;目標檢測;YOLOv5s;輕量化;損失函數;邊緣計算
在現代農業生產中,地膜、農藥等農資產品發揮著重要作用,有效保障了農作物的快速生長[1-2]。但是農資產品在使用的同時會產生廢棄垃圾,如地膜殘留碎片、農藥廢棄瓶、種子包裝袋等。由于使用者處理不科學,隨處丟棄,導致田間地頭積攢了大量的廢棄垃圾,給土壤環境和水質帶來了嚴重破壞[3-4]。為了遏制農田垃圾帶來的生態破壞,保障農業可持續發展,有必要對農田垃圾進行智能分揀。目前農田垃圾的分揀仍依賴人工,工作強度大、效率低,且存在一定的危險性。隨著智慧農業和人工智能技術的快速發展,農田垃圾拾撿智能化勢在必行。當前,農田垃圾智能分揀研究仍處于探索階段[5-6],然而,實現田間復雜環境下的垃圾精準識別是完成智能化分揀的基礎,具有重要的研究意義。
隨著深度學習理論的不斷深入發展以及軟硬件性能的提高,卷積神經網絡被應用于諸多領域[7-8]。有關垃圾檢測的算法也被相繼提出。Liu等[9]基于YOLOv2網絡進行了輕量化改進,然后將改進模型移植到嵌入式模塊中實現垃圾的自動檢測,該方法相對傳統的監控系統,不僅降低了成本,還提高了檢測精度;Zeng等[10]提出了一種新的高光譜圖像分類網絡MSCNN(Multi-Scale Convolutional Neural Network,MSCNN),對高光譜圖像的像素進行分類并生成二值垃圾分割圖,最后再通過垃圾分割圖提取垃圾所在的區域位置和大小;Wang等[11]在Faster-RCNN上應用了一種新的數據融合和增強策略,試驗結果表明,經過訓練后得到的模型具有良好的泛化能力和高精度檢測能力,能準確檢測出城市中的垃圾;Gou等[12]在YOLOv4的特征提取網絡中加入了CBAM注意力模塊,并引入了焦點函數Focal loss,解決了原網絡模型檢測精度不高,不同數量的類別性能差異大的問題,最終的試驗結果也驗證了所改進檢測器的有效性;Deng等[13]在Mask R-CNN網絡的基礎上,引入了空洞卷積以及空間通道注意力機制模塊,提高了模型對小目標的特征提取能力,同時還在原始網絡的基礎上優化了IoU計算,提高了實例分割的準確性;王子鵬等[14]為解決智能垃圾桶檢測效率低的難題,將輕量級分類網絡MobileNetv3代替掉YOLOv3的主干網絡Darknet53,并增加空間金字塔池化結構和檢測輸出層,最終在減小網絡模型復雜度的同時保證了模型檢測精度。雖然以上研究在垃圾檢測方面已經取得了很大的進展,但關于農田環境下的垃圾檢測研究較少,本文就現有模型在農田復雜環境下垃圾檢測精度不高、檢測效率低、模型復雜的問題,開展了關于農田垃圾的輕量化檢測研究,通過輕量化特征提取網絡的方式來達到降低模型復雜度,提高運行速度的目的。此外,為提高田間環境下的模型檢測性能,對檢測模型的邊界框損失函數進行了優化,減小田間檢測時的目標定位誤差,以此滿足田間復雜環境下的垃圾檢測任務需求。
本文的檢測對象為農田常見的地頭垃圾,數據集主要由農藥廢棄瓶,農藥袋和種子包裝袋,地膜殘塊三種類別組成。采集設備為一臺HONOR 20Pro,拍攝圖像像素大小為4 000×3 000。拍攝時,為了接近移動檢測平臺板載相機的離地面高度,使其獲得與移動平臺板載相機相同的圖像視野,相機離地面水平高度為50 cm,共拍攝了1 000張圖片。為了減小計算負擔和適應移動檢測平臺板載相機的分辨率,這里將采集到的圖像統一處理為640×640像素。部分數據樣本如圖1所示,采集場景包括晴天、多云、陰天,目標半體被泥土掩埋,雜草遮擋等多種不同環境狀態,盡可能提高訓練模型在不同環境下對圖像的辨識能力。

a. 晴天a. Sunb. 雜草遮擋b. Weeds shadec. 泥土掩埋c. Dirt burial
由于大田環境復雜,田地垃圾的風化程度,目標表面被泥土污染程度以及日照強度等干擾因素都會影響目標辨識度,因此,為提高模型的泛化能力,如圖2所示,從拍攝的圖片中選出了部分樣本進行亮度增強、噪點添加以及模糊化處理,提高樣本的多樣性。

圖2 數據處理
最終將數據集擴充到了1 500張,其中80%作為訓練集,20%作為驗證集。
在移動端的檢測任務中,檢測精度和檢測速度以及模型體積占用內存空間的大小是衡量模型是否能應用在工程上的重要參考指標,由文獻[15]可知,YOLOv5s是一種性能優異的單階段目標檢測算法,它集成了YOLOv1-YOLOv4算法的優點,具有檢測精度高、推理速度快、模型體積占用緩存空間小的特點。目前在目標檢測領域也獲得了廣泛應用[16-17],因此,YOLOv5s非常適合作為本次研究的基礎算法,考慮到移動端邊緣計算設備的計算能力和內存空間的大小,本研究基于YOLOv5s做了進一步的適應性改進,優化了模型性能。改進后的網絡結構如圖3所示。

注:CBRM表示由卷積層Conv、BN層(Batch Normalization)、Relu激活函數以及池化層(Maxpool)組成的卷積模塊;CBS表示由Conv、BN以及SiLU激活函數組成的卷積模塊;S_Block表示輕量級網絡單元模塊;s=n表示卷積步長為n;Concate表示特征圖融合;Upsample表示上采樣;P3、P4、P5表示3個不同尺度的檢測頭。
由圖3可知,基于改進YOLOv5s的農田垃圾檢測模型網絡結構分為4部分,即輸入端(Input)、特征提取網絡(Backbone)、特征融合網絡(Neck)和檢測輸出(Prediction Head)端,輸入端保留了原YOLOv5s模型的圖像預處理方式和錨框生成機制優化策略,包括Mosiac數據增強、自適應錨框計算、自適應圖片縮放[18];為了降低模型計算量和參數量,提高運行速度,本文使用輕量級網絡單元模塊S_Block進行農田垃圾的特征提取,該模塊是通過改進輕量級分類網絡ShuffleNetV2[19]的構建單元而得到的特征提取模塊,能在保持檢測精度的前提下降低模型復雜度;特征融合網絡沿用了YOLOv5s的結構,通過FPN(Feature Pyramid Networks, FPN)[20]和PAN(Path Aggregation Network, PAN)[21]的組合結構,實現了模型從不同主干對不同檢測層的參數聚合;輸出端設置了3個不同尺度的檢測頭,主要對不同大小的特征圖進行目標位置、類別、以及置信度的判斷,并輸出具有目標類別和預測邊界框標記信息的相應向量。
2.2.1 特征提取網絡輕量化
在原YOLOv5s檢測模型中,其特征提取網絡使用的是CSP-Darknet53結構,該結構通過跨階段連接的方式將基礎層的特征映射合并,加深網絡的同時避免了梯度爆炸和梯度消失。然而,雖然深層神經網絡能夠增強模型的特征提取能力,但是,由于邊緣計算設備計算能力有限,基于ARM的移動設備無法承擔繁重的計算量,模型復雜度過大反而會影響最終的檢測性能?;诖?,本文對YOLOv5s的特征提取網絡進行了輕量化改進。如圖4所示,圖中的兩個網絡單元是輕量級分類網絡ShuffleNetV2的構建單元,沿用了ShuffleNetV1[22]的通道混洗(Channel Shuffle)和深度可分離卷積操作,在降低計算量的同時提高了檢測精度。在圖4a的基本單元中,當特征圖輸入時,網絡單元先對其進行等通道劃分,分為兩個分支,其中一個分支直接向下傳遞,另一個分支則依次經過3個步長為1的卷積,且輸入輸出通道數相同,降低了內存訪問量,其中,兩個1×1卷積是常規卷積,3×3卷積是深度可分離卷積的深度卷積(Depthwise Convolution,DWConv),與普通卷積不同,深度可分離卷積由深度卷積和逐點卷積構成,深度卷積的每個卷積核都有對應的輸入輸出通道,計算量和參數量是原來的1/(為輸入通道數),其卷積產生的分組數量等于輸入通道數量,而逐點卷積本質上為通道的1×1卷積,在深度卷積后使用,彌補DWConv卷積缺少的特征交互過程,因此,相比于常規卷積,深度可分離卷積的參數量和計算成本更低[23-24]。卷積完后,兩個分支會進行拼接操作,通道數相加以及特征融合,最后再進行通道隨機化,使得各通道之間的信息相互流通;與基礎單元模塊不同,圖4b的下采樣單元中,取消了通道切分操作,特征圖直接輸入到兩個步距為2的分支中進行高寬降維,輸出后再進行拼接操作,此時特征圖高寬減半,通道數擴增了一倍,加大了網絡寬度,在不顯著增加計算量的情況下提高了網絡的特征提取能力,最后再進行通道隨機化,加強各通道之間的信息融合。
2.2.2 卷積核擴大化
特征提取網絡使用圖4的網絡單元進行重構后,由于網絡深度和卷積數量的減少,新模型的計算量和參數量相對原模型將會大幅削減,對應的特征提取能力也會減弱,這將容易造成特征圖部分細節特征丟失,從而影響最終的檢測精度。在神經網絡中,感受野是影響網絡性能的重要指標,更大的感受野可以提取到更多的細節特征[25],因此,可通過擴大感受野來提高模型的檢測精度,感受野的反向計算式如式(1)所示。

式中R是第層卷積層的感受野;R1是第+1層的感受野,S是第層的卷積步長;K是第層的卷積核大小。感受野的大小不僅卷積核大小有關,還與卷積步長有關,當步長過大時會影響卷積層對細節特征的提取,造成部分邊緣特征丟失,因此本文將圖4中網絡單元的卷積步長保持不變,將深度卷積(DWConv)的卷積核進行擴張,即將3×3的卷積核尺寸改為5×5,增大網絡感受野,使其提取到高層語義信息,提高模型精度。
注:Channel split表示通道切分;BN表示批量歸一化操作;ReLU是激活函數;Conv表示卷積;Concate表示通道相加,特征融合;Stride=2表示使用步長為2的深度卷積實現空間下采樣。
Note: Channel split means channel slicing; BN means batch normalization operation; ReLU is the activation function; Conv represents convolution; Concate means channel addition and feature fusion; and Stride=2 means using depth convolution with step size of 2 to realize spatial down sampling.
圖4 ShuffleNetV2構建單元
Fig.4 ShuffleNetV2 building block
2.2.3 激活函數優化
在多層神經網絡中,激活函數承擔著神經元上下節點間由線性向非線性轉化的任務,非線性激活函數具有較強的網絡逼近能力,能夠促使深層神經網絡的表達能力更加強大,由圖4的網絡單元模塊可知,網絡中使用了ReLU非線性激活函數,該激活函數具有加快收斂速度,緩解梯度消失等優點[26]。如圖5所示,當神經元激活值進入負半區時,ReLU激活函數輸出截斷為零實現非線性,此時梯度為0,容易出現部分神經元壞死的現象,從而使網絡變得稀疏。當函數處于正半區時,梯度始終為1,不會出現梯度飽和、梯度消失的問題。因此該函數只能靠輸入小于0時實現非線性,相比之下,SiLU激活函數全域不存在單調增減的情況,該函數無上界,有下界,具有較好的非線性能力和自穩定特性,既保留了ReLU激活函數的優點,又能有效提高深層神經網絡的表征能力?;诖?,這里將SiLU激活函數引入到圖4的網絡單元中,替換掉ReLU激活函數,提高模型的檢測精度。

圖5 激活函數對比圖
目標檢測任務中目標定位是實現準確識別的關鍵,需要依賴邊界框回歸模塊來完成定位任務,而邊界框回歸是指使用矩形邊界框去預測目標在圖像中的位置,然后不斷細化預測邊界框的位置,這個過程在神經網絡中需要依靠邊界框損失函數來完成預測框位置的修正。在本文的農田垃圾檢測任務中,由于田間環境復雜,在一定程度上會影響目標的定位精度,為解決這一問題,本文研究了邊界框損失函數對模型性能的影響,希望通過優化邊界框損失函數,減小目標定位誤差。

注:ρ表示預測框和真實框中心點坐標之間的歐氏距離,b、bgt分別代表預測框和真實框的中心點,c代表的是能夠同時包含預測框和真實框的最小閉包區域的對角線距離。
在原YOLOv5s檢測模型中使用的是CIoU邊界框損失函數,如圖6所示,該損失函數通過最小化預測框和真實框兩個中心點的距離來實現回歸過程,于此同時,為了加快收斂速度,CIoU損失函數還增加了高寬縱橫比的損失項,盡可能的保證預測框和真實框的高寬縱橫比更為接近。具體計算方法如式(2)~(5)所示:




式中是衡量預測框和真實框高寬比例差值的歸一化參數,值在0到π/4之間,是衡量高寬比例損失和IoU損失的平衡因子。但根據的定義可知,反應的是預測框和真實框縱橫比的差異,預測框回歸過程中,一旦預測框和真實框的高寬縱橫比呈現線性比例時,=0,此時CIoU損失函數的損失項便不再起作用。除此之外,由于關于預測框的高和寬偏導正負符號相反,這將導致預測框的高和寬一個增大,另一個必然減小,高寬不能同時增加或減少,抑制了模型的回歸優化速度。為促使模型在復雜的田間環境下能具有更精準的目標定位能力,針對上文所提到的問題,本文引入了EIoU[27]邊界框損失函數,在CIoU邊界框損失函數懲罰項的基礎上將預測框和真實框縱橫比的損失項拆分成預測框的高寬分別與最小外接框高寬的差值,通過最小化差值使得模型具有更快的收斂速度,并提高預測框的回歸精度。EIoU的損失計算如式(6)所示:

式中C、C分別表示覆蓋真實框和預測框的最小外接框的高和寬,IoU、L、L分別表示預測框和真實框的重疊損失、中心點距離損失、以及高寬損失。
本文模型均在Window 10操作系統下進行訓練,主機CPU為Intel i5-10500,GPU為NVIDIA GTX 3060顯卡,顯卡內存大小為12 G,采用Pytorch深度學習框架,CUDA版本為11.1。
由于數據集較小,為了防止過擬合且加快收斂速度,本文使用預訓練權重進行遷移學習,并使用隨機梯度下降法(Stochastic Gradient Descent, SGD)作為優化器來對神經網絡進行優化,加快訓練過程。試驗初始學習率設為0.001,批量大小為32,權重衰退系數設為0.001,動量因子設為0.95,共迭代300輪。


召回率()表示分類器中正確預測數量占總正例的比例,如式(8)所示:

式中TP表示被正確劃分的正樣本,FP表示被錯誤劃分的負樣本,FN表示被錯誤劃分的正樣本。
3.3.1 特征提取網絡輕量化改進結果分析
本小節主要對2.2節做的輕量化改進方法進行驗證和分析。由于現有模型計算量和參數量大,占用芯片內存空間,且運行效率低下等原因影響了模型在移動端的應用部署,為使農田垃圾檢測模型能滿足移動端應用的需要,本次研究基于YOLOv5s做了輕量化改進并進行了相關試驗,試驗結果如表1所示。

表1 主干網絡輕量化消融對比試驗
注:“×”表示不使用該項改進因素,“√”表示使用該項改進因素;Version_1表示原YOLOv5s模型的主干網絡由ShuffleNetV2的網絡單元重構。
Note: “×” means not to use the improvement factor, “√” means to use the improvement factor;Version_1 indicates that the backbone network of the original YOLOv5s model is reconstructed by the network unit of ShuffleNetV2.
根據表1的消融對比試驗可知,YOLOv5s模型經過輕量化改進后,計算量、參數量以及模型體積都得到了大幅度的降低;同時,由于特征提取網絡輕量化后,網絡深度降低,卷積數量減少,主干網絡的特征提取能力減弱,最終模型精度降低了3.2%。為恢復模型精度,該文將輕量級網絡單元模塊的卷積核進行擴張,并引入SiLU激活函數對該模塊進行優化。由表1可知,當卷積核尺寸增大為5×5后,檢測網絡的感受野增大,特征提取能力增強,在增加5.5%計算量的前提下換來了0.6%的精度提升,其增幅較小。分析原因在于,增大感受野后,伴隨著分辨率的降低,較小的目標特征提取困難,容易被忽略或誤判為背景,無法得到有效識別,而稍微大一點的物體就能被檢測出來,因此獲得了較小的提升;此外,SiLU激活函數的引用也加強了網絡的非線性表達能力,進一步提高了模型精度,最終檢測精度達到了89.1%,與原YOLOv5s模型差異不大,但此時模型體積僅為3.31M,相比原YOLOv5s模型減少了占用75.8%的緩存空間,為移動端的部署提供了模型選擇。
3.3.2 損失函數優化結果分析
為了驗證EIoU邊界框損失函數在本文數據集中的性能優于CIoU,能夠適用于田間復雜壞境下的垃圾檢測任務,在經過特征提取網絡輕量化和精度恢復措施后,本文繼續對比了CIoU以及EIoU兩種邊界框損失函數對模型性能的影響,所有模型均經過300次迭代后,各模型的邊界框損失曲線和檢測精度曲線如圖7所示。
由圖7可知,在相同的迭代次數下,CIoU和EIoU的邊界框損失值和檢測精度值差異較小,他們都是通過最小化預測框和真實框兩個中心點的距離來為預測框提供移動方向,并優化了預測框的重疊損失,中心點距離損失,以及高寬損失,具有較快的預測回歸過程;但從圖中曲線來看,EIoU損失函數具有更高的檢測精度和更快的收斂速度。分析原因在于EIoU邊界框損失函數能將預測框的高寬同時放大或縮小,使得預測框與真實框的高寬之差最小,因此其預測回歸過程的效果更好。

圖7 邊界框損失曲線和mAP曲線
3.3.3 模型有效性分析
該文研究了模型輕量化和邊界框損失函數優化后對模型性能的影響,為了驗證最終模型的有效性,本文就不同影響因素下分析了模型的各項性能指標,包括召回率,各個類別的平均精度AP以及平均精度均值mAP,具體數據詳情如表2所示。
從表2中可以看出,本文的最終改進模型具有最高的mAP值和召回率,分別達到了90.9%和90.8%,說明本文的改進措施對模型產生了積極作用,有效提高了識別精度;從單個類別的檢測精度來看,地膜殘塊的平均精度在各個模型中都處于最高值,分析原因在于這種類別的特征較為明顯,前景和背景色差較大,從而獲得了較好的學習效果;其他兩種類別中,廢棄袋在各個模型中的檢測精度都較低,分析原因在于廢棄袋邊緣特征較少,且由于目標主體表面受到長時間的風化影響和淤泥污染,特征提取困難,容易將其誤識別為背景,因此該類別的平均精度較低。然而,在同等條件下,農藥廢棄瓶具有更規則的邊緣特征,且和背景之間具有層次落差,因此農藥廢棄瓶的檢測精度要比廢棄袋略高。綜合上表中各個模型的綜合檢測性能可以看出,本文最終的改進模型檢測性能更佳,可滿足實際檢測的需求。

表2 模型有效性分析
注:“×”表示不使用該項改進因素,“√”表示使用該項改進因素;Ours表示本文的最終改進版本。下同。
Note: “×” means not to use the improvement factor, “√” means to use the improvement factor; Ours represents the final improved version of this article. Same as below.
為了更加直觀的展示本文最終改進算法的有效性,針對YOLOv5s和本文的最終改進模型使用了類激活熱力圖對輸出層進行可視化分析,根據某一區域亮度的深淺直觀的了解這一區域對預測輸出產生的作用權重大小。網絡模型對圖像中各區域的響應程度如圖8所示。
從圖8可以看出,YOLOv5s模型在復雜的田間壞境下容易受到圖像背景的干擾,如石塊、雜草等色彩飽和度較高的干擾物,在一定程度上影響了最終的判斷結果,而本文的最終改進模型能夠減輕背景的影響,更多的關注目標主體部分,這將有利于獲得更高的召回率,由此也證明了本文最終改進模型的優越性。
3.3.4 不同檢測算法對比
為了驗證YOLOv5s及其改進模型相對其他目標檢測模型的優越性,本文研究了目前幾種主流的目標檢測算法在當前數據集中的性能表現,包括單階段目標檢測算法SSD,YOLOv3,以及文獻[30]中基于YOLOv5s和MobileNetv3網絡組合形成的輕量化改進算法,比較結果如表3所示。

表3 不同檢測算法性能對比
由表3可知,雖然SSD相比于其他目標檢測算法,獲得了最快的檢測速度,但其檢測精度太低,平均精度均值只有78.9%,無法滿足正常的需求;而在表中的YOLO系列算法中,YOLOv3擁有最大的計算量和模型體積,嚴重占用了芯片的計算資源和緩存空間,不符合移動端應用部署的條件;YOLOv5s和文獻[30]中基于YOLOv5s的輕量化改進算法在各方面的性能指標都相差不大,但其綜合性能仍不及本文的最終改進算法,本文最終改進模型的平均精度均值相對于基線模型YOLOv5s提高了1.5%,推理速度提高了5.1%,計算量和模型體積都降低了70%以上,在滿足移動端設備應用要求的同時還節省了計算資源和緩存空間。

圖9 多種算法檢測效果對比
圖9對比了表3中幾種目標檢測算法的實際檢測效果。從檢測效果圖中可以看出,本文所改進的YOLOv5s模型具有較高的回歸精度和檢測置信度,且對圖像的邊緣檢測能力要強于其他目標檢測算法。綜上所述,本文所提出的檢測模型在大田環境下具有更強的適應性。
為了進一步驗證改進模型在移動端的有效性,本文將YOLOv5s改進前后的模型部署到搭載了邊緣計算設備的移動檢測平臺上,并在海南大學農業試驗田內進行測試,如圖10所示。該平臺采用STM32四輪驅動控制,配置有Astra S深度相機,可搭載Jetson、樹莓派等多種邊緣計算設備,其中Jetson系列屬于中高端計算設備,具備顯卡加速功能,成本較高;樹莓派屬于低端計算設備,成本較低,應用廣泛。本文選用Raspberry 4B和Jetson TX1兩種常用的邊緣計算設備進行模型部署與驗證,兩種設備均運行Linux系統。為了在移動檢測過程中能獲得較為清晰的圖像,減少雜草,石塊等障礙物的干擾,相機放置高度離地50cm,拍攝角度設置為俯視45°,這里的相機選用的是Astra S深度相機的RGB攝像模式。

圖10 移動檢測平臺
表4為YOLOv5s改進前后分別在Raspberry 4B和Jetson TX1上的檢測速度對比情況,在樹莓派4B上,受限于設備本身的計算能力,檢測速度較慢,但最終改進模型的檢測速度相對原模型提升了22.1%,提升效果明顯;在Jetson TX1上,檢測速度較快,改進后的模型檢測速度相對原模型提升了20.5%,進一步增強了Jetson TX1的實時性效果。由圖11可知,改進后的模型在邊緣計算設備上也保持了較好的檢測效果,與訓練結果保持一致,檢測置信度較原模型略有提升。

表4 模型在邊緣計算設備上的檢測速度對比

圖11 模型在邊緣計算設備上的檢測效果對比
綜上可知,改進后的模型部署到Raspberry 4B和Jetson TX1兩種邊緣計算設備上檢測速度均有較大的提升,證明了該輕量化模型在移動設備上具有較好的適應性。結合現場的實際效果來看,檢測高效,目標識別精準,可滿足實際應用中準確性和高效性的要求,具有較好的應用價值。
本文針對農田環境下垃圾檢測精度不高、檢測效率低,模型復雜等問題,提出了一種基于YOLOv5s的農田垃圾輕量化檢測方法。1)該方法通過引入ShuffleNetV2的構建單元作為特征提取網絡的基本單元,大幅削減了模型的計算量和參數量,節省了計算資源和緩存空間,提高了檢測速度;2)為消除模型輕量化后帶來的精度下降,首先,將輕量級網絡單元的卷積核進行擴張,增大網絡的感受野,增強模型的特征提取能力,其次,利用SiLU激活函數較好的非線性,提高了深層神經網絡的表征能力,由此恢復了模型精度。3)由于田間環境復雜,為了減小目標定位誤差,該文引入了EIoU邊界框損失函數,該函數基于CIoU將預測框和真實框縱橫比的損失項拆分成預測框的寬高分別與最小外接框寬高的差值,通過不斷迭代減小差值加快模型的收斂,提升回歸精度,最終模型檢測精度達90.9%,檢測速度為74 ms/幀,與其他目標檢測算法相比具有一定的優勢;4)為驗證改進的模型在移動端的檢測效果,將改進前后的模型部署到Raspberry 4B和Jetson TX1兩種邊緣計算設備上進行測試,測試結果表明,最終的改進模型具備較好的檢測效果,檢測速度相對原模型也具有較大的提升。雖然本文的研究對象為農田垃圾,但文中所提出的檢測策略也可應用于類似環境下的目標檢測任務,解決類似的問題。
[1] 陳琦,趙敏娟. 國內外農藥對農產品安全的影響及農戶安全生產行為評述[J]. 北方園藝,2012(21):196-202.
Chen Qi, Zhao Minjuan. Review on the influence of pesticides on the safety of agricultural products and the safe production behavior of farmers at home and abroad [J]. Horticulture in North China, 2012(21): 196-202. (in Chinese with English abstract)
[2] 王文軍,俞成乾,張桂娥. 農村資源利用與環境保護[M]. 北京:中國農業科學出版社,2020:161-164.
[3] 馬廷新,張廣東. 馬鈴薯收獲機增添殘膜回收試驗研究[J]. 農機質量與監督,2019(12):19-18.
Ma Tingxin, Zhang Guangdong. Experimental study on recovery of residual film added to potato harvester[J]. Quality and Supervision of Agricultural Machinery, 2019(12): 19-18. (in Chinese with English abstract)
[4] 翟志強,陳學庚,邱發松,等. 基于像素塊和機器學習的播前棉田地表殘膜覆蓋率檢測[J]. 農業工程學報,2022,38(6):140-147.
Zhai Zhiqiang, Chen Xuegeng, Qiu Fasong, et al. Detecting surface residual film coverage rate in pre-sowing cotton fields using pixel block and machine learning[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(6): 140-147. (in Chinese with English abstract)
[5] Qin B, He J. Research on garbage classification based on convolutional neural network[J]. Wireless Communication Technology, 2019, 28(3): 51-56.
[6] Zhou J, Zhao Y. Application of convolution neural network in image classification and object detection[J]. Computer Engineering and Applications, 2017, 53(13): 34-41.
[7] 孫少杰,吳門新,莊立偉,等. 基于CNN卷積神經網絡和BP神經網絡的冬小麥縣級產量預測[J]. 農業工程學報,2022,38(11):151-160.
Sun Shaojie, Wu Menxin, Zhuang Liwei, et al. Forecasting winter wheat yield at county level using CNN and BP neural networks[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(11): 151-160. (in Chinese with English abstract)
[8] 張順,龔怡宏,王進軍. 深度卷積神經網絡的發展及其在計算機視覺領域的應用[J]. 計算機學報,2019,42(3):453-482.
Zhang Shun, Gong Yihong, Wang Jinjun. Development of deep convolution neural network and its application in the field of computer vision[J]. Journal of computer science, 2019, 42(3): 453-482. (in Chinese with English abstract)
[9] Liu Y, Ge Z, Lv G, et al. Research on automatic garbage detection system based on deep learning and narrowband internet of things[C]//Journal of Physics: Conference Series. IOP Publishing, 2018, 1069(1): 012032.
[10] Zeng D, Zhang S, Chen F, et al. Multi-scale CNN based garbage detection of airborne hyperspectral data[J]. IEEE Access, 2019, 7: 104514-104527.
[11] Wang Y, Zhang X. Autonomous garbage detection for intelligent urban management[C]//MATEC Web of Conferences. EDP Sciences, 2018, 232: 01056.
[12] Guo D, Cheng L, Zhang M, et al. Garbage detection and classification based on improved YOLOV4[J]. Journal of Physics: Conference Series. IOP Publishing, 2021, 2024(1): 012023.
[13] Deng H, Ergu D, Liu F, et al. An embeddable algorithm for automatic garbage detection based on complex marine environment[J]. Sensors, 2021, 21(19): 6391.
[14] 王子鵬,張榮芬,劉宇紅,等. 面向邊緣計算設備的改進型 YOLOv3 垃圾分類檢測模型[J]. 激光與光電子學進展,2022,59(4):291-300.
Wang Zipeng, Zhang Rongfen, Liu Yuhong, et al. Improved YOLOv3 garbage classification and detection model for edge computing device[J]. Advances in Laser and Optoelectronics, 2022, 59(4): 291-300. (in Chinese with English abstract)
[15] Guo G, Zhang Z. Road damage detection algorithm for improved YOLOv5[J]. Scientific Reports, 2022, 12(1): 1-12.
[16] Yang G, Feng W, Jin J, et al. Face mask recognition system with YOLOV5 based on image recognition[C]//2020 IEEE 6th International Conference on Computer and Communications (ICCC). IEEE, 2020: 1398-1404.
[17] Yan B, Fan P, Lei X, et al. A real-time apple targets detection method for picking robot based on improved YOLOv5[J]. Remote Sensing, 2021, 13(9): 1619.
[18] Luo S, Yu J, Xi Y, et al. Aircraft target detection in remote sensing images based on improved YOLOv5[J]. IEEE Access, 2022, 10: 5184-5192.
[19] Ma N, Zhang X, Zheng H T, et al. ShufflenetV2: Practical guidelines for efficient cnn architecture design[C]// Proceedings of the European Conference on Computer Vision (ECCV). 2018: 116-131.
[20] Lin T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 2117-2125.
[21] Liu S, Qi L, Qin H, et al. Path aggregation network for instance segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 8759-8768.
[22] Zhang X, Zhou X, Lin M, et al. Shufflenet: An extremely efficient convolutional neural network for mobile devices[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 6848-6856.
[23] 孔英會,朱成誠,車轔轔. 復雜背景下基于MobileNets的花卉識別與模型剪枝[J]. 科學技術與工程,2018,18(19):84-88.
Kong Yinghui, Zhu Chengcheng, Che Linlin. Flower recognition in complex background and model pruning based on MobileNets[J]. Science Technology and Engineering, 2018, 18(19): 84-88. (in Chinese with English abstract)
[24] 郝琨,王闊,王貝貝. 基于改進Mobilenet-YOLOv3的輕量級水下生物檢測算法[J]. 浙江大學學報(工學版),2022,56(8):1622-1632.
Hao Kun, Wang Kuo, Wang Beibei. Lightweight underwater biological detection algorithm based on improved Mobilenet-YOLOv3[J]. Journal of Zhejiang University (Engineering Science), 2022, 56(8): 1622-1632. (in Chinese with English abstract)
[25] Luo W, Li Y, Urtasun R, et al. Understanding the effective receptive field in deep convolutional neural networks[J]. Advances in Neural Information Processing Systems, 2016, 29: 4905-4913.
[26] Glorot X, Bordes A, Bengio Y. Deep sparse rectifier neural networks[C]//Proceedings of the fourteenth international conference on artificial intelligence and statistics. JMLR Workshop and Conference Proceedings, 2011: 315-323.
[27] Zhang Y, Ren W, Zhang Z, et al. Focal and efficient IOU loss for accurate bounding box regression[J]. Neurocomputing, 2022, 506: 146-157.
[28] 李尚平,李向輝,張可,等. 改進YOLOv3網絡提高甘蔗莖節實時動態識別效率[J]. 農業工程學報,2019,35(23):185-191.
Li Shangping, Li Xianghui, Zhang Ke, et al. Increasing the real-time dynamic identification rate of sugarcane nodes by improved YOLOv3 network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(23): 185-191. (in Chinese with English abstract)
[29] Liu W, Anguelov D, Erhan D, et al. SSD: Single shot multibox detector[C]//European Conference on Computer Vision. Springer, Cham, 2016: 21-37.
[30] Wang C, Wang H, Yu F, et al. A high-precision fast smoky vehicle detection method based on improved Yolov5 network[C]//2021 IEEE International Conference on Artificial Intelligence and Industrial Design (AIID). IEEE, 2021: 255-259.
Lightweight detection method for farmland waste based on YOLOv5s
Xing Jiejie1, Xie Dingjin1, Yang Ranbing1※, Zhang Xirui1, Sun Wenbin2, Wu Shibin1
(1,,570228,; 2.,,570228,)
Farmland waste has been one of the most important influencing factors on the soil environment. It is very necessary to realize an intelligent and efficient picking of farmland wastes, particularly for the high accuracy and efficiency of recognition with the simple models under complex field environments. In this study, a lightweight detection was proposed for the farmland waste under the actual field situation of the equipment using the improved yolov5s, according to the target detection and edge computing. More importantly, Artificial Intelligence (AI) was promoted in the field of smart agriculture. Firstly, some images of common wastes were collected under the complex actual field environment in the farmland. The data enhancement was then performed on the image data for the large-scale farmland wastes datasets without the over-fitting during model training. Secondly, the network unit of the classification network ShuffleNetv2 was selected to reconstruct the feature extraction network of yolov5s. The calculation and parameter amount of the model were significantly reduced to improve the running speed for the cost saving in the chip cache space. Thirdly, the convolution kernel expansion and activation function optimization were performed on the introduced lightweight network unit module, in order to effectively restore the detection accuracy of the model with less amount of model computation and parameters. Finally, the efficient intersection over union (EIoU) bounding box was introduced to reduce the target positioning error of the model in the complex environment. The reason was that there were many interference factors in the process of motion detection under the complex field environment, thus easily leading to the positioning accuracy of the target in the image. In the case of the aspect ratio for the predicted and the real frame in the loss function of complete intersection over union (CIoU), the loss item was divided into the difference between the height/width of the predicted frame and the minimum bounding frame. At the same time, the difference was gradually reduced to speed up the convergence speed and regression accuracy using the proper iteration. The experimental results show that the detection accuracy of the improved model reached 90.9% with a detection speed of 74 ms/frame. Higher detection accuracy and speed of the improved model were achieved to better balance the calculation and parameter amount, compared with the current target detection of SSD and yolov3. A tradeoff was made on the performance requirements of edge computing devices for accuracy and speed. The mobile terminal was selected to verify the application of the improved model. The models before and after the improvement were deployed on the two edge computing devices (JetsonTX1 and Raspberry4B). Compared with the original, the detection speed of the improved model increased by at least 20% on the edge computing devices, indicating an excellent detection performance. The finding can provide a lightweight solution to the detection tasks of field wastes.
neural networks; wastes; target detection; YOLOv5s; lightweight; loss function; edge computing
10.11975/j.issn.1002-6819.2022.19.017
S513; TP391.4
A
1002-6819(2022)-19-0153-09
邢潔潔,謝定進,楊然兵,等. 基于YOLOv5s的農田垃圾輕量化檢測方法[J]. 農業工程學報,2022,38(19):153-161.doi:10.11975/j.issn.1002-6819.2022.19.017 http://www.tcsae.org
Xing Jiejie, Xie Dingjin, Yang Ranbing, et al. Lightweight detection method for farmland waste based on YOLOv5s[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(19): 153-161. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2022.19.017 http://www.tcsae.org
2022-06-30
2022-09-14
海南省自然科學基金青年基金項目(520QN233);海南省院士創新平臺科研專項(YSPTZX202008)
邢潔潔,博士,講師,碩士生導師,研究方向為計算機技術在農業工程中的應用。Email:584731137@qq.com
楊然兵,博士,教授,博士生導師,研究方向為智能農業裝備與農業機器人。Email:yangranbing@163.com