基于改進YOLO v8的輕量化玉米害蟲識別方法

2024-08-23 00:00:00李志良李夢霞董勇李龍

江蘇農業科學 2024年14期

摘要：針對目前玉米害蟲識別領域中識別算法參數量大、計算量大導致玉米害蟲識別算法不能部署在移動智慧農業設備中及玉米害蟲識別算法檢測精度低等問題，基于網絡復雜程度最小的YOLO v8n，提出一種輕量化玉米害蟲識別算法YOLO v8n-ERM。首先，在骨干特征提取網絡引入EfficientNet-B0輕量化網絡，通過對神經網絡模型進行縮放，采用深度可分離卷積，有效降低了模型參數量、計算量；在頸部網絡中引入RepVGG結構重參數化模塊，融合多分支特征以提升模型的檢測精度，同時有效降低模型的計算量；最后，用MPDIoU損失函數替換原損失函數，使最終預測框更接近真實框。用本研究算法處理數據增強后的IP102數據集，結果表明，相較于基線模型YOLO v8n，YOLO v8n-ERM算法的參數量為2.4 M，計算量為3.7 GFLOPs，二者分別下降了0.6 M、4.4 GFLOPs，而且YOLO v8n-ERM算法的mAP@0.5、mAP@0.5 ∶0.95分別為91.8%、62.0%，相較于基線模型分別提升了3.6、2.1百分點，表明使用更少的參數量、計算量得到了更高的精度。另外在黑暗、有遮擋、個體重疊及害蟲與環境背景相似的復雜環境下的處理結果表明，YOLO v8n-ERM算法能夠準確識別出玉米害蟲個體，極大降低了復雜環境下的漏檢率，具有一定的魯棒性，可為玉米病蟲害的數字智能防控提供技術支持。

關鍵詞：玉米害蟲識別；YOLO v8；EfficientNet-B0；RepVGG；MPDIoU

中圖分類號：TP391.41" 文獻標志碼：A

文章編號：1002-1302（2024）14-0196-11

收稿日期：2024-01-14

基金項目：國家自然科學基金（編號：62173049、62273060）；湖北省教育廳科學研究計劃資助項目（編號：D20211302）。

作者簡介：李志良（1999—），男，湖北洪湖人，碩士研究生，研究方向為深度學習與目標檢測。E-mail：2022710652@yangtzeu.edu.cn。

通信作者：李夢霞，博士，副教授，碩士生導師，研究方向為油氣田軟件開發、最優化理論與算法。E-mail：limengxia@yangtzeu.edu.cn。

當前，玉米產業中面臨多種害蟲威脅，這些害蟲對玉米的產量、質量構成了潛在威脅。根據全國農作物病蟲測報網監測及專家會商，預計到2023年，我國玉米病蟲害呈重發趨勢，玉米螟、黏蟲等害蟲的發生面積逐漸增加［1］。作為全球的農業大國，我國在害蟲監測與預報方面的責任顯得至關重大。在農業體系中，確保農產品產量、質量的有效害蟲監測和預報機制具有關鍵意義［2-3］。傳統的病蟲害鑒別方法主要依賴人工實地檢查、經驗識別以及對癥狀特征的觀察。然而，這些方式存在主觀性較高、對經驗的依賴性強、工作繁雜等諸多問題［4］。

隨著深度學習的飛速發展，部分學者采用基于深度學習的目標檢測算法進行農作物病蟲害的識別研究［5-7］。目前主要的目標檢測算法分為2類，一類是以Fast-RCNN為代表的2階段算法，這種算法雖然檢測精度較高，但檢測速度較慢［8］。由于這類算法需要先生成候選框，再進行特征提取和目標回歸，整個流程通常較為繁瑣，導致在實時應用中可能無法滿足高速處理的要求。另一類是以YOLO系列為主的一階段算法，這類算法的檢測準確率相對2階段算法較低，但是它將定位和分類任務合并為一個階段，避免了生成候選框的繁瑣過程，因而在實時檢測方面表現出明顯優勢［9］。

Teng等提出的害蟲檢測模型MSR-RCNN采用多尺度超分辨率特征增強模塊，成功在LLPD-26數據集上實現了67.4%的檢測精度，為害蟲檢測領域帶來了新突破［10］。陳峰等采用機器視覺、卷積神經網絡技術建立了一種用于辨識東北寒地玉米害蟲的方法，用于檢測包括玉米螟、草地貪夜蛾、玉米黏蟲等在內的害蟲［11］。Jia等將MobileNet、坐標注意力機制CA整合到YOLO v7模型中，通過自建水稻數據集測試，達到了92.3%的準確率［12］。段新濤等設計了基于性誘測報原理的玉米害蟲誘集裝置，引入SENet模塊、Soft-NMS算法到YOLO v4模型中，成功提升了夏季玉米主要害蟲的檢測精度，為田間害蟲種群監測預警提供了高效、準確的解決方案［13］。Zhang等在YOLO v8模型中引入了基于DenseBlock改進的C2F模塊和可以更好提取低級特征的DCF模塊，最后替換CBS激活函數為Mish激活函數，有效解決了訓練過程中梯度消失的問題，改進的YOLO v8模型在害蟲檢測中有更高的準確性和多功能性［14］。

然而，上述模型所需的計算資源較為龐大，且在一些復雜環境下對玉米害蟲的漏檢率較高。在玉米害蟲檢測領域，終端檢測設備的計算能力一般只有幾個GFLOPs級別，這樣的計算需求已經超過了終端檢測設備的處理能力。為了保證玉米害蟲識別算法能夠部署在終端檢測設備上，通常需要減少模型的計算量和一些不必要的參數量。因此，設計一種既能保證檢測精度又能保證部署在低算力設備上的算法變得尤為重要［15］。因此，本研究提出了一種基于改進的YOLO v8的算法，旨在在更低的計算量和參數量的基礎上，實現對復雜環境下玉米害蟲的高效檢測，以滿足當前移動農業智慧檢測設備的需求。

1 材料與方法

1.1 數據集來源

本研究數據以CVPR2019上發布的大型農業害蟲數據集IP102作為基礎，IP102是一個專為圖像分類、目標檢測而設計的大型農業害蟲數據集，包含水稻、玉米、小麥、甜菜等不同作物在不同生長周期下的害蟲圖像［16］。最終，從該數據集中篩選出了與玉米相關的6類主要害蟲，分別是金針蟲、小地老虎、玉米螟、黏蟲、白星花金龜和桃蛀螟，收集了 1 149 張圖像。圖1展示了數據集中的部分圖像，表1提供了各個類別害蟲的圖像數量統計結果。

1.2 數據預處理

由于數據樣本只包含1 149張，為了防止模型過擬合，使網絡模型具有較高的準確性、魯棒性，對現有數據集進行數據增強。為了盡量接近真實復雜環境下的害蟲，采用以下數據增強方法：（1）隨機旋轉，將圖像進行-45°～45°隨機旋轉，模擬相機不同的拍攝角度；（2）隨機亮度，將圖像進行范圍為 -30%～30%的隨機亮度調整，以模擬不同光照條件下的圖像；（3）高斯模糊，對圖像添加高斯模糊，以得到模糊頭像，模擬拍攝抖動的情形；（4）高斯噪聲，對圖像添加高斯噪聲，以得到不同拍攝情況下的圖像，模擬不同場景下的拍攝質量；（5）隨機遮擋，對圖像進行隨機遮擋，通過引入隨機遮擋塊，以模擬圖像中部分區域的信息缺失。對原有數據集進行上述5種數據增強處理，將數據集擴充至 5 383 張圖像。將數據集按照8 ∶1 ∶1的比例劃分為訓練集、驗證集和測試集，圖像的部分數據增強示例見圖2。

1.3 YOLO v8模型

YOLO v8是YOLO系列目標檢測算法發布的最新版本，YOLO v8已經在多個領域取得顯著的性能提升，集成了輕量化的C2f模塊、解耦頭結構、Anchor-Free思想和新的損失函數策略，同時使用mosaic數據增強，提升了模型的魯棒性。上述關鍵特點，共同使YOLO v8成為一款SOTA模型，在目標檢測、圖像分類和實例分割等多個領域具有出色性能。

其中，C2f模塊的引入使得模型更輕量、計算效率更高，同時保持了檢測性能。解耦頭結構的采用將分類、檢測頭分離，提高了模型的靈活性和可調性。Anchor-Free思想舍棄了傳統的Anchor-Based思想，使模型更好地適應不同尺寸、形狀的目標。新的損失函數策略采用Task-Aligned Assigner正樣本分配策略和Distribution Focal Loss，優化了損失函數的計算，增強了模型學習能力，提高了目標框回歸的效果。YOLO v8有YOLO v8n、YOLO v8s、YOLO v8m、YOLO v8l、YOLO v8x等5個版本，這5種網絡的參數量、計算量隨著模型深度、寬度的增大而增加，能夠根據不同的場景選擇合適的網絡。為了保證模型的輕量化，本研究選擇網絡復雜程度最小的YOLO v8n版本作為本研究的基線模型。YOLO v8結構如圖3所示。

1.4 改進的YOLO v8n-ERM模型

鑒于基線模型 YOLO v8n 具有的計算量較大、復雜度較高等不足，導致在玉米害蟲檢測領域的終端設備上部署該模型時遇到計算能力受限制的問題。因此，本研究提出了一種輕量化玉米害蟲檢測模型 YOLO v8-ERM（YOLO v8-EfficientNet-RepVGG-MPDIoU），其結構如圖4所示。

首先，針對YOLO v8n的復雜骨干特征提取網絡，引入輕量級網絡 EfficientNet-B0以降低模型的復雜度［17］。接著，在頸部特征融合網絡中引入RepVGG結構重參數化模塊，在顯著降低模型計算復雜度的同時，提升了模型的檢測精度［18］。最后，將YOLO v8n原有的損失函數替換為MPDIoU，提升了復雜環境下害蟲邊界框的預測精準度，使得模型能夠更高效、更準確地預測害蟲的位置和形狀，從而進一步提升整體性能［19］。通過這些改進，YOLO v8n-ERM在滿足終端設備計算能力限制要求的同時，實現了輕量化和高識別率的害蟲檢測。

1.4.1 EfficientNet-B0模型由于在害蟲檢測領域，終端設備的計算能力有限，使得部署計算量較大的玉米害蟲檢測模型受到了限制。為此，在基線模型YOLO v8n的骨干特征提取網絡中，引入了高效、準確且模型規模較小的EfficientNe-B0作為基礎特征信息提取模型，以充分提取害蟲圖像的語義信息，通過對神經網絡模型進行縮放，有效降低了模型參數量和計算量，提高了模型的學習效率，使其能夠更好地適應終端設備有限的計算資源。

與傳統方法中對模型深度、寬度和分辨率的獨立調整不同，EfficientNet-B0模型使用復合系數來實現對模型深度（d）、寬度（w）與分辨率（r）的同步、協同縮放，具體縮放公式如下：

d=α，w=β，r=γ；（1）

約束條件：α·β2·γ2≈2

α≥1，β≥1，γ≥1。（2）

式中：α、β、γ是由模型搜索確定的常數。

EfficientNet-B0模型主要由多個移動翻轉卷積模塊（mobile inverted bottleneck convolution，MBConv）堆疊組成，在改進模型中，MBConv1、MBConv6中的數字1、6表示倍率因子，即MBConv中的第1個1×1卷積層會將輸入特征矩陣的通道數擴展為n倍（n=1或6）。MBConv模塊包括1×1的逐點卷積、k×k的深度卷積、壓縮和激勵（squeeza-and-excitation，SE）模塊以及Dropout層，形成了一種類似倒瓶頸結構的設計，結構如圖5所示。

害蟲圖像的特征信息首先通過MBConv模塊中的逐點卷積進行增強，隨后經過深度卷積，有效降低了模型的計算量、參數量，降低了模型的計算性能需求。接下來，通過SE模塊進行自適應的注意力操作，獲取不同通道的權重，通過權重與原始特征相乘，以有效地捕捉與害蟲相關的圖像特征信息，隨后對特征信息進行降維操作。最后，通過引入隨機失活層，實施隨機失活操作，使得模型能夠學習到更為魯棒性的特征表示，從而增強模型的泛化能力。

1.4.2 RepVGG模塊

為了更好地適應復雜環境下的害蟲，滿足對害蟲高精度檢測要求及更好地將其部署在移動端檢測設備上，本研究在原YOLO v8頸部網絡中引入了RepVGG模塊，在降低模型計算量的同時，保持較好的多尺度特征融合能力，極大地提高了模型的檢測精度，能夠滿足模型低算力、高精度的部署需求。

RepVGG模塊是1種輕量而高效的卷積神經網絡結構，在訓練階段，用由3×3卷積、1×1卷積和BN層組成的多分支架構，增強了網絡的特征提取能力，有效減輕了梯度消失問題。在推理階段，結構重新參數化技術將上述模塊轉換為3×3 Conv。ReLU激活函數與后續層一起構成了RepVGG模塊的整個推理階段，在進行多分支結構推理時，需要分別計算各分支結果再做進一步融合，導致復雜度不同的分支不能同步完成計算，使得硬件算力得不到充分利用。因此，在推理時將多分支結構轉換為單路結構，能夠獲得更好的計算效率，同時減少硬件的內存占用。RepVGG模塊的結構如圖6所示。

如圖7所示，結構重參數化涉及2個主要階段。在第1階段，卷積層、BN層合并為單個3×3卷積，僅包含BN的分支也轉換為單獨的3×3卷積。在第2階段，每個分支上的3×3卷積層合并為單層。

其中，卷積層公式如式（3）所示：

Conv（x）=W×x+b。（3）

式中：W為權重；b為偏置。

BN層的相關公式如下：

BN（x）=γ×x-meanσ2+ε+β。（4）

式中：γ與β為學習參數；mean為批次樣本數據均值；σ為方差；ε為極小但不為零的數。

將卷積層結果帶入到BN層公式中，得到融合BN層和卷積層的結果，如式（5）所示：

BN［Conv（x）］=γ×W×x+b-meanσ2+ε+β。（5）

令BN［Conv（x）］=y，作進一步化簡，如式（6）所示：

y=γ×W×xσ2+ε+γ×（b-mean）σ2+ε+β。（6）

得到重參數化后的卷積核權重（Wfused）、偏置項（bfused），如式（7）、式（8）所示：

Wfused=γ×W×xσ2+ε；（7）

bfused=γ×（b-mean）σ2+ε+β。（8）

最終得到融合結果，如式（9）所示：

BN［Conv（x）］=Wfused×x+bfused。（9）

1.4.3 MPDIoU損失函數由于害蟲通常具有不規則的形狀和多樣的尺寸，且容易受到實際環境中的遮擋及光照條件等影響，本研究將YOLO v8原損失函數替換為MPDIoU，以更好地適應這些復雜情況，提高模型對不同復雜條件下害蟲的適應性。因此，引入MPDIoU損失函數有助于模型更準確地捕捉目標的位置和形狀信息，解決復雜環境下的漏檢問題，進一步提升復雜環境下害蟲檢測任務的性能。

原始的YOLO v8使用的是CIoU損失函數，CIoU在度量2個邊界框相似度時存在不足，特別是在目標存在部分遮擋及重疊的情況下，其無法準確預測目標的實際情況，容易出現漏檢的情況。MPDIoU是一種基于最小點距離的邊界框相似性比較度量，對目標檢測任務的精確性、性能提出了全面的改進。MPDIoU通過考慮目標框的局部分布，通過對目標區域的分布進行交叉比較，能夠更全面地捕捉目標的形狀信息，從而更準確地評估2個框之間的相似性。而且它通過直接最小化預測邊界框和實際標記邊界框之間的左上和右下點距離，簡化了計算過程。

MPDIoU的定義式如下：

MPDIoU=IoU-d21h2+w2-d22h2+w2。（10）

d21、d22、IoU的計算方法如式（11）、（12）、（13）所示：

d21=（xB1-xA1）2+（yB1-yA1）2；（11）

d22=（xB2-xA2）2+（yB2-yA2）2；（12）

IoU=|A∩B||A∪B|。（13）

式中：A、B為任意2個矩形；w、h分別表示輸入圖像的寬度、高度；（xA1，yA1）、（xA2，yA2）分別表示A的左上角、右下角點坐標；（xB1，yB1）、（xB2，yB2）分別表示B的左上角、右下角點坐標；其中d21、d22計算的分別是A、B左上角、右下角點坐標的歐氏距離；IoU為交并比。

MPDIoU作為損失函數，表示方式見公式（14）：

LMPDIoU=1-MPDIoU。（14）

1.5 試驗平臺和評價指標

1.5.1 試驗環境與參數設置本試驗的硬件環境：CPU Intel Xeon Platinum 8 255C CPU@2.50 GHz；內存為40 Gb；顯卡為RTX 3080，顯存為10 Gb。軟件試驗環境：操作系統版本為Ubuntu 22.04；編譯環境為Python 3.8；編程平臺為Pycharm 2023.2；深度學習框架為Pytorch 2.0.0；CUDA版本為11.8。試驗時間為2023年9—12月，試驗地點為長江大學計算機科學學院，試驗初始參數的設置見表2。

1.5.2 評價指標利用參數量（parameters）、模型計算力（GFLOPs）和平均精度均值（mAP）3個指標來評價網絡模型的效果。參數量是指模型中可學習的參數數量。較小的參數量通常意味著模型更為簡潔和輕量，適用于資源受限的環境。在實際應

用中，特別是在移動設備或嵌入式系統中，小參數量的模型更容易被部署和維護。

模型計算力是指模型在進行推理時執行的浮點運算的數量，通常以十億次浮點運算（GFLOPs）為單位。較小的模型計算力表示模型在進行推理時對計算資源的要求較低，更適合資源受限的環境。在對實時性能要求高的場景中，低模型計算力通常意味著更高的效率。

mAP是衡量模型在各個目標類別上的平均準確性。高mAP值表示模型在多類別目標檢測中性能出色。在模型性能評估中，IoU表示預測框與真實標注框的重疊程度。目前常用不同IoU閾值來判定預測的準確性。例如，IoU≥設定閾值表示為正確，lt;設定閾值為錯誤。本研究采用mAP@0.5、mAP@0.5：0.95作為評估指標，分別表示IoU閾值為0.5時的mAP值和IoU從0.5開始、以步長為0.05增加到0.95的mAP值。mAP越大，表示模型的整體精度越高，mAP的計算方法如式（15）所示。AP是對P-R（Precision-Recall）曲線上的精度值求均值，其計算方法如公式（16）所示。精確率、召回率的計算方法如公式（17）、（18）所示。

mAP=∑ni=1APin。（15）

式中：n為數據集類別數量。

AP=∫10=P（r）dr；（16）

Precision=TPTP+FP；（17）

Recall=TPTP+FN。（18）

式中：TP為實際為正類被預測為正類的數量；FP為實際為負類被預測為正類的數量；FN為實際為正類被預測為負類的數量。

2 結果與分析

2.1 不同網絡骨干改進對比

在對不同網絡骨干進行改進的對比試驗中，MobileNeXt采用一種創新的網絡結構，通過改變卷積核批歸一化的順序和引入線性瓶頸層，成功減少了計算、內存的使用［20］。然而，替換MobileNeXt為骨干網絡后，盡管參數大幅減少，但模型精度相比于基線卻下降了6.9百分點。ShuffleNet v2通過通道重排和混合處理，降低了計算量、參數量［21］。但是，在替換為骨干網絡后，雖然參數量較MobileNeXt更小，但精度下降了1.3百分點，精度相較于基線模型下降了8.2百分點。MobileNet v3結合硬件感知網絡架構搜索（NAS）和NetAdapt算法以獲取卷積核和通道的最佳數量［22］。替換為骨干網絡后，精度較基線下降了2.8百分點，而參數量略微減少，相較于其他骨干網絡表現仍可接受，但仍不太理想。而將EfficientNet-B0替換為骨干網絡之后表現優秀，參數量大幅減少，精度僅下降了1.3百分點，且參數、計算量分別僅為基線模型的63%、70%，相較于其他網絡很好地平衡了輕量化和性能。相關網絡骨干的對比結果見表3。

2.2 與其他模型的對比

為了驗證本研究模型YOLO v8n-ERM輕量化、出色的檢測性能，將YOLO v8n-ERM與現階段的其他目標檢測算法進行對比。由表4可以看出，YOLO v8n-ERM算法在mAP@0.5、mAP@0.5 ∶0.95、參數量和計算量等方面都領先于其他算法。將YOLO v8n-ERM與YOLO v3-Tiny、YOLO v5n、YOLO v6n及YOLO v7-Tiny進行對比發現，mAP@0.5和mAP@0.5 ∶0.95都要高于其他算法，且參數量、計算量都最低。YOLO v3-Tiny的精度最低，相較于YOLO v5n，YOLO v8n-ERM的mAP@0.5增長了11.7百分點，mAP@0.5 ∶0.95增長了24.5百分點，且參數量下降了9.7 M，計算量下降了15.2 GFLOPs。在其他算法中，YOLO v6n的精度最高，相較于YOLO v6n，YOLO v8n-ERM 的mAP@0.5增長了5.4百分點，mAP@0.5 ∶0.95增長了2.2百分點，且參數量下降了1.8 M，計算量下降了8.1 GFLOPs。各模型的mAP@0.5和mAP@0.5 ∶0.95對比結果如圖8所示。

2.3 不同尺寸YOLO v8改進前后的對比

為了進一步說明YOLO v8改進模塊的有效性，筆者還進行了YOLO v8n、YOLO v8s等2種不同尺寸改進前后的對比試驗，以展示改進后的模型在不同深度網絡的優化效果。由表5可以看出，YOLO v8n、YOLO v8s在改進前后都明顯實現了模型的輕量化，這些改進不僅在模型大小、計算開銷方面取得了顯著降低，而且在精度上也表現出一定的提升。整體對比結果顯示，YOLO v8n-ERM在mAP@0.5方面的參數量及計算量表現最優，YOLO v8s-

ERM在mAP@0.5 ∶0.95方面的表現最優。

2.4 消融試驗

通過對比試驗可知YOLO v8n-ERM模型相較于其他模型的優勢，但是為了驗證改進模塊的有效性，還需要做消融試驗以進一步說明。在基線模型不變的情況下，每次只添加1個模塊。由表6中的消融試驗結果可知，在骨干網絡中引入EfficientNet-B0網絡后，在mAP@0.5只下降1.3百分點的情況下，參數量由3.0 M降至1.9 M，降低了1.1 M，計算量從8.1 GFLOPs降至5.7 GFLOPs，降低了2.4 GFLOPs，參數量、計算量都有大幅下降。在骨干網絡引入EfficientNet-B0后，接著在頸部網絡引入RepVGG重參數化模塊，參數量相較于只引入EfficientNet-B0的條件有略微增長，但mAP@0.5相較于基線模型上升了1.5百分點，并且計算量大量壓縮，比基線模型下降了4.4 GFLOPs。最后，在YOLO v8n模型中同時引入EfficientNet-B0網絡、RepVGG重參數化模塊和MPDIoU損失函數之后，參數量、計算量有了極大壓縮，分別較基線模型下降了0.6 M、4.4 GFLOPs，在這種情況下，mAP@0.5、mAP@0.5 ∶0.95相較于基線模型分別提升了3.6、2.1百分點，有大幅度提升。

2.5 檢測效果及其分析

由圖9可知，YOLO v8n-ERM在各類玉米害蟲上的檢測精度相較于YOLO v8n都有不同程度的提高，其中白星花金龜、桃蛀螟的提升最明顯，分別提升了5.7、5.5百分點。

由圖10可知，原始圖像1中，在光線較暗的環境中存在2頭金針蟲，其中1頭被部分遮擋，導致害蟲的部分信息丟失，這導致YOLO v8n對另一頭金針蟲發生漏檢的情況。在原始圖像2中，存在7頭白星花金龜，由于個體重疊，導致，1頭白星花金龜漏檢了，且還有1頭因為與背景相似，也出現了漏檢情況表明。相比之下，YOLO v8n-ERM在這些情況下仍然能夠準確識別出害蟲個體，未出現漏檢的情況。YOLO v8n-ERM在處理遮擋和光線較暗、個體重疊及害蟲與環境背景相似的復雜場景時表現出了明顯的優勢。

3 討論與結論

本研究提出了一種高效且輕量的YOLO v8n-ERM模型，旨在更好地識別玉米害蟲。本研究引入了EfficientNet-B0輕量化網絡，以有效減少模型的參數量、計算量。在頸部網絡中，筆者引入RepVGG結構的重參數化模塊，以提升模型對多分支特征的融合能力，同時顯著減少模型的計算復雜性。此外，本研究以MPDIoU作為損失函數，以提升網絡模型的邊界框回歸性能，更好地適應檢測復雜環境下的玉米害蟲，解決復雜環境下玉米害蟲的漏檢問題，提升模型的檢測性能。

試驗結果表明，相較于基線模型，YOLO v8n-ERM在mAP@0.5、mAP@0.5 ∶0.95方面分別提升了3.6、2.1百分點。與此同時，模型的參數量、計算量分別僅為2.4 M和3.7 GFLOPs，分別較基線模型降低了0.6 M、4.4 GFLOPs。對于一些復雜環境下的玉米害蟲，該模型展現出較高的識別率，且滿足了部署在智慧農業檢測設備的要求，在病蟲害防護中具備一定應用價值。在后續工作中，我們將進一步擴充數據集，引入更多多目標、小目標等復雜環境下的數據，以提升模型在不同復雜環境下識別玉米害蟲的泛化性能。

參考文獻：

［1］劉杰，曾娟，楊清坡，等." 2023年農作物重大病蟲害發生趨勢預報［J］. 中國植保導刊，2023，43（1）：32-35.

［2］Cheng X，Zhang Y H，Chen Y Q，et al. Pest identification via deep residual learning in complex background［J］. Computers and Electronics in Agriculture，2017，141：351-356.

［3］Zheng L，Shen L Y，Tian L，et al. Scalable person re-identification：a benchmark［C］//2015 IEEE International Conference on Computer Vision （ICCV）.Santiago，Chile.IEEE，2015：1116-1124.

［4］翟肇裕，曹益飛，徐煥良，等." 農作物病蟲害識別關鍵技術研究綜述［J］. 農業機械學報，2021，52（7）：1-18.

［5］馬曉，邢雪，武青海. 基于改進ConvNext的復雜背景下玉米葉片病害分類［J］. 江蘇農業科學，2023，51（19）：190-197.

［6］張航，程清，武英潔，等." 一種基于卷積神經網絡的小麥病害識別方法［J］. 山東農業科學，2018，50（3）：137-141.

［7］周紹發，肖小玲，劉忠意，等." 改進的基于YOLO v5s蘋果樹葉病害檢測［J］. 江蘇農業科學，2023，51（13）：212-220.

［8］Girshick R. Fast R-CNN［C］//2015 IEEE International Conference on Computer Vision （ICCV）.Santiago，Chile.IEEE，2015：1440-1448.

［9］Jiang P Y，Ergu D J，Liu F Y，et al. A review of yolo algorithm developments［J］. Procedia Computer Science，2022，199：1066-1073.

［10］Teng Y，Zhang J，Dong S F，et al. MSR-RCNN：a multi-class crop pest detection network based on a multi-scale super-resolution feature enhancement module［J］. Frontiers in Plant Science，2022，13：810546.

［11］陳峰，谷俊濤，李玉磊，等." 基于機器視覺和卷積神經網絡的東北寒地玉米害蟲識別方法［J］. 江蘇農業科學，2020，48（18）：237-244.

［12］Jia L Q，Wang T，Chen Y，et al. MobileNet-CA-YOLO：an improved YOLO v7 based on the MobileNet v3 and attention mechanism for rice pests and diseases detection［J］. Agriculture，2023，13（7）：1285.

［13］段新濤，王伸，趙晴，等." 基于改進YOLO v4的夏玉米主要害蟲檢測方法研究［J］. 山東農業科學，2023，55（10）：167-173.

［14］Zhang L J，Ding G C，Li C R，et al. DCF-YOLO v8：an improved algorithm for aggregating low-level features to detect agricultural pests and diseases［J］. Agronomy，2023，13（8）：2012.

［15］慕君林，馬博，王云飛，等." 基于深度學習的農作物病蟲害檢測算法綜述［J］. 農業機械學報，2023，54（增刊2）：301-313.

［16］Wu X P，Zhan C，Lai Y K，et al. IP102：a large-scale benchmark dataset for insect pest recognition［C］//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）. Long Beach，CA，USA.IEEE，2019：8779-8788.

［17］Tan M X，Le Q V. EfficientNet：rethinking model scaling for convolutional neural networks［EB/OL］. ［2023-11-11］. http：//arxiv.org/abs/1905.11946.

［18］Ding X H，Zhang X Y，Ma N N，et al. RepVGG：making VGG-style ConvNets great again［C］//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）.Nashville，TN，USA.IEEE，2021：13728-13737.

［19］Ma S L，Xu Y. MPDIoU：a loss for efficient and accurate bounding box regression［EB/OL］. ［2023-11-11］. http：//arxiv.org/abs/2307.07662.

［20］Zhou D Q，Hou Q B，Chen Y P，et al. Rethinking bottleneck structure for efficient mobile network design［C］//Vedaldi A，Bischof H，Brox T，et al. European Conference on Computer Vision.Cham：Springer，2020：680-697.

［21］Ma N N，Zhang X Y，Zheng H T，et al. ShuffleNet v2：practical guidelines for efficient CNN architecture design［C］//Computer Vision -ECCV 2018：15th European Conference，Munich，Germany，September 8-14，2018，Proceedings，Part ⅩⅣ. ACM，2018：122-138.

［22］Howard A，Sandler M，Chen B，et al. Searching for MobileNet v3［C］//2019 IEEE/CVF International Conference on Computer Vision （ICCV）.Seoul，Korea （South）.IEEE，2019：1314-1324.