基于改進(jìn)YOLOv8的復(fù)雜果園環(huán)境下杏果的目標(biāo)檢測

2025-04-02 00:00:00買買提?沙吾提,阿爾慶?西力克

中國農(nóng)機化學(xué)報 2025年3期

摘要：

為解決復(fù)雜果園環(huán)境中，因遮擋、重疊導(dǎo)致杏果識別誤檢率較高、檢測精度較低的問題，提出一種基于改進(jìn)YOLOv8n網(wǎng)絡(luò)模型的杏果檢測算法。該算法采用輕量化模塊MobileViT—XS替換原有骨干網(wǎng)絡(luò)，保證特征提取能力，同時降低模型的參數(shù)量與計算量，并且將原始的損失函數(shù)CIoU替換為WIoUv3，動態(tài)優(yōu)化損失權(quán)重提高模型的檢測精度。為驗證改進(jìn)方法的有效性，選取6種主流的目標(biāo)檢測模型、5種骨干網(wǎng)絡(luò)的輕量化改進(jìn)模型以及5種不同的損失函數(shù)進(jìn)行對比試驗。結(jié)果表明，改進(jìn)后的模型相比原始模型在F1、平均精度均值mAP上提升1.25%、1.48%，參數(shù)量、浮點運算量、模型大小分別降低28.06%、0.1G、1.48MB。改進(jìn)后的算法能夠精準(zhǔn)、快速地在復(fù)雜的果園環(huán)境中識別出杏果。

關(guān)鍵詞：杏果；目標(biāo)檢測；復(fù)雜果園環(huán)境；輕量化網(wǎng)絡(luò)；YOLOv8算法；損失函數(shù)

中圖分類號：S662.2

文獻(xiàn)標(biāo)識碼：A

文章編號：2095-5553 （2025） 03-0246-08

收稿日期：2023年10月9日" 修回日期：2024年1月18日*

基金項目：新疆自然科學(xué)計劃（自然科學(xué)基金）聯(lián)合基金項目（2021D01C055）

第一作者：買買提·沙吾提，1976年生，男，維吾爾族，新疆喀什人，博士，副教授；研究方向為干旱區(qū)資源環(huán)境及農(nóng)業(yè)遙感應(yīng)用。E-mail： korxat@xju.edu.cn

Target detection of apricots in complex orchard environments based on improved YOLOv8

Mamat Sawut1， 2， 3， Aerqing Xilike1

（1. College of Geography and Remote Sensing Sciences， Xinjiang University， Urumqi， 830046， China；

2. Xinjiang Key Laboratory of Oasis Ecology， Xinjiang University， Urumqi， 830046， China； 3. Key Laboratory of

Smart City and Environment Modelling of Higher Education Institute， Xinjiang University， Urumqi， 830046， China）

Abstract：

This study addresses the challenges of high 1 detection rates and low accuracy in apricot recognition within complex orchard environments due to occlusion and overlap. An apricot detection algorithm based on an improved YOLOv8n network model is proposed. The algorithm replaces the original backbone network with the lightweight MobileViT—XS module， maintaining feature extraction capabilities while reducing the number of parameters and computational demands. The original loss function CIoU is substituted with WIoUv3， which dynamically optimizes loss weights and improves detection precision. Comparative experiments are conducted using six mainstream target detection models， five lightweight improved models with backbone networks， and five different loss functions. The results show that the improved model increases the F1 score and mAP by 1.25% and 1.48%， respectively， and reduces parameters， FLOPs， and model size by 28.06%， 0.1G and 1.48MB. This improved algorithm can accurately and quickly detect apricots in complex orchard environments.

Keywords：

apricots; target detection; complex orchard environment; lightweight network; YOLOv8 algorithm; loss function

0 引言

杏（Prunus armeniaca L.）原產(chǎn)自中國的特色果樹，具有食用品質(zhì)特點突出、類型豐富、加工產(chǎn)品多樣等特點。我國杏栽培面積和產(chǎn)量均居世界首位［1］。由于杏果果實生長較為密集，且果樹的葉片、枝干遮擋嚴(yán)重，杏果生長高度不一，采收的環(huán)節(jié)成為最耗時耗力的部分［2］。目前對于果實的采摘主要依靠人工，采摘機械化率不足3%，這種傳統(tǒng)的方式消耗了大量的人力物力［2］。隨著科技的發(fā)展，機器人采摘逐漸取代人工采摘的方式，但采摘同樣需要高精度算法的支持來提升機器人采摘的效率，未經(jīng)精確識別而直接對其進(jìn)行采摘可能會造成果實的損傷或者采摘機器人的損壞［3］。因此，研究具有高精度識別果實并且適合部署于采摘機器人的模型算法，對于實現(xiàn)復(fù)雜果園環(huán)境中杏果的精準(zhǔn)識別具有重要意義。

近年來，國內(nèi)外學(xué)者關(guān)于采摘機器人的識別技術(shù)已有大量的研究，技術(shù)發(fā)展歷程主要分為兩個階段，一是傳統(tǒng)的基于果實特征的圖像分割方法，二是基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型。傳統(tǒng)的基于果實紋理、形狀、顏色進(jìn)行特征分析是較為常見的識別策略，Lin等［4］通過訓(xùn)練顏色和紋理特征的支持向量機對所有果實進(jìn)行識別檢測，取得了較好的識別結(jié)果。Liu等［5］提出了一種構(gòu)建Cr—Cb坐標(biāo)多橢圓邊界模型來檢測自然光環(huán)境下柑橘果實和樹干的方法，發(fā)現(xiàn)太陽光照方向的不同會影響最終的檢測結(jié)果。廖崴等［6］基于RGB顏色空間進(jìn)行了Otsu閾值分割和濾波處理去除背景對果實進(jìn)行快速識別。以上方法雖然實現(xiàn)了對各類果實的識別，但只是針對果實單一的特征進(jìn)行識別，在場景復(fù)雜的果園環(huán)境中性能仍然會受到限制。隨著深度學(xué)習(xí)算法的發(fā)展，因其具有特征自學(xué)習(xí)，能夠應(yīng)對不同光照、遮擋情況下對果實的學(xué)習(xí)，近年來逐漸應(yīng)用于對果實的識別當(dāng)中。Wan等［7］提出了基于改進(jìn)Faster R—CNN的果實檢測方法，該方法相對于傳統(tǒng)方法具有更高的識別精度。彭紅星等［8］提出一種改進(jìn)的SSD果實檢測模型，相比于原始模型精度得到了提升，在遮擋面積低于50%的情況下，F(xiàn)1值達(dá)到96.12%。趙輝等［9］提出了一種基于改進(jìn)YOLOv3的果實識別方法，改進(jìn)后的模型在多種場景下識別蘋果取得了較好的結(jié)果。可見，深度學(xué)習(xí)的方法對復(fù)雜的果園環(huán)境中果實識別檢測優(yōu)勢較為顯著。目前，對于復(fù)雜果園環(huán)境中果實精準(zhǔn)識別主要存在以下問題：高精度檢測模型的尺寸較大、參數(shù)量多以及計算復(fù)雜度較高；而模型較小、參數(shù)量少且計算量低的模型，其檢測精度較低。如何平衡模型精度與模型大小，設(shè)計適用于復(fù)雜果園環(huán)境中杏果識別的模型是當(dāng)前研究的重點。并且杏樹具有二次分枝、三次分枝，骨干枝強壯、喜光并且果實生長旺盛等特點，在這種不同光照環(huán)境，枝干、果實遮擋的情況下，也增加了精準(zhǔn)識別杏果的難度。

針對以上問題，本文設(shè)計一種適用于在復(fù)雜果園環(huán)境中杏果精準(zhǔn)識別的改進(jìn)YOLOv8n的輕量級檢測模型。首先，在自然環(huán)境下果園中采集不同光照環(huán)境（正光、側(cè)光、逆光），不同遮擋情況（枝干遮擋、葉片遮擋、果實重疊）的杏果圖片，并且在拍攝時模仿采摘機器人的采集過程，不斷變化拍攝角度和距離，盡可能還原真實采摘場景。然后，將YOLOv8n的骨干網(wǎng)絡(luò)替換為輕量級的網(wǎng)絡(luò)模型MobileViT—XS，降低原始模型的參數(shù)量、GFLOPs以及模型大小，替換原始的損失函數(shù)，更換為WIoUv3，更好地處理樣本提升模型邊界框回歸性能以及檢測精度。最后，通過對比試驗驗證改進(jìn)YOLOv8n模型在復(fù)雜的果園環(huán)境下對杏果的精準(zhǔn)識別效果，為后續(xù)采摘機器人對杏果的精準(zhǔn)采摘提供理論支撐。

1 材料與方法

1.1 數(shù)據(jù)集的構(gòu)建

數(shù)據(jù)集拍攝于新疆庫車市阿克吾斯塘鄉(xiāng)英達(dá)里亞河附近，研究對象為果園中的杏果。考慮實際采摘任務(wù)中需要在不同距離進(jìn)行識別果實并進(jìn)行近距離采摘，設(shè)計在中距離、近距離兩種拍攝模式下的不同光照環(huán)境、遮擋狀況的拍攝場景。除去重復(fù)和模糊的圖像之后，杏果原始數(shù)據(jù)集共計491張，使用labelimg對杏果進(jìn)行人工標(biāo)注，標(biāo)注框選擇杏果的最小外接矩形，標(biāo)注后產(chǎn)生的信息文件為txt類型，該文件存儲了杏果圖像的文件名、標(biāo)注框的位置與種類信息，之后以7∶1.5∶1.5劃分訓(xùn)練集、測試集以及驗證集進(jìn)行模型的訓(xùn)練及測試。為減少模型過擬合的現(xiàn)象，提高模型的泛化能力，使用翻轉(zhuǎn)、中心裁剪、對比度以及亮度變換等數(shù)據(jù)增強［10］的方式對原始數(shù)據(jù)集進(jìn)行擴充至3798張圖像。圖1為不同光照條件以及不同遮擋情況下的杏果圖像。

1.2 YOLOv8n改進(jìn)模型構(gòu)建

1.2.1 YOLOv8模型介紹

YOLOv8是YOLO目標(biāo)檢測模型的最新系列，根據(jù)模型尺寸從小到大包括YOLOv8n、YOLOv8s、YOLOv8m、YOLOv8l、YOLOv8x這5個版本。基于研究需求，選擇模型小、精度高的YOLOv8n模型。YOLOv8n模型主要由骨干網(wǎng)絡(luò)（backbone）、頸部網(wǎng)絡(luò)（neck）以及檢測頭（head）3個部分組成。

骨干網(wǎng)絡(luò)的整體結(jié)構(gòu)包含Conv、C2f、SPPF這3個部分，Conv模塊主要是對圖像進(jìn)行卷積、BN和SiLU激活函數(shù)操作，全新的C2f結(jié)構(gòu)使YOLOv8n輕量化的同時擁有豐富的梯度流信。SPPF又稱空間金字塔池化，能夠?qū)⑷我獯笮〉膱D像轉(zhuǎn)換成固定大小的特征向量。頸部網(wǎng)絡(luò)的主要作用是融合多個尺度的特征，采用PAnet結(jié)構(gòu)，其核心結(jié)構(gòu)由特征金字塔網(wǎng)絡(luò)FPN［11］和路徑聚合網(wǎng)絡(luò)PAN［12］兩部分組成。檢測頭作為最后的預(yù)測部分，根據(jù)不同的特征圖獲取目標(biāo)物體的類別及位置信息。YOLOv8對比YOLOv5［13］模型的變化主要是將原來的6×6卷積替換為3×3卷積，并且參考YOLOv7—ELAN［14］替換c3模塊為C2f，深度由c3模塊的3、6、9、3調(diào)整為C2f的3、6、6、3，頸部網(wǎng)絡(luò)則刪除了降低維度使用的1×1卷積，檢測頭部分則是將原本的耦合頭改成解耦頭，回歸分支使用Distribution Focal Loss［15］中提出的積分形式表示法，YOLOv8整體結(jié)構(gòu)如圖2所示。

1.2.2 MobileViT模型

MobileViT是一種計算機視覺模型，將適用于移動設(shè)備的CNN（卷積神經(jīng)網(wǎng)絡(luò)）與Transformer相結(jié)合［16］。CNN專注于提取局部信息，但忽略了這些信息之間的相關(guān)性，并且過度使用卷積會導(dǎo)致目標(biāo)關(guān)鍵信息的丟失；與CNN相比，Transformer的方法在全局特征提取方面表現(xiàn)更好，也更能夠識別相鄰位置之間的相關(guān)性，從而改善圖像的淺層信息保存方式。然而，由于Transformer的結(jié)構(gòu)較為復(fù)雜，缺乏直接遷移到目標(biāo)檢測的歸納偏差，通常導(dǎo)致算法性能較差。MobileViT共有3組模型配置，分別是MobileViT—S、MobileViT—XS、MobileViT—XXS，其具有CNN高效輕量的特性以及Transformer強大的整體視覺能力，更適用于對圖像輕量級的識別。MobileViT的兩個核心組件分別是MobileViT模塊和MobileNetV2模塊［17］，首先，該網(wǎng)絡(luò)結(jié)構(gòu)通過1×1卷積進(jìn)行升維；然后，通過3×3卷積進(jìn)行深度卷積（DW卷積）；最后，通過再1×1卷積降維，其深度可分離卷積的操作使得該組件在保留CNN結(jié)構(gòu)的同時，有效減少其參數(shù)量以及計算量，MobileNetV2模塊的結(jié)構(gòu)如圖3所示。

MobileViT模塊結(jié)構(gòu)如圖4所示。

MobileViT模塊主要由局部表征模塊、全局表征模塊以及特征融合模塊3個部分組成。首先，輸入一個寬為W，高為H，通道數(shù)為C的特征圖，表示為X［H，W，C］，通過一個卷積核大小為n×n的卷積操作提取杏果的圖像特征；然后，通過一個卷積核大小為1×1的卷積層進(jìn)行通道調(diào)整；接著，依次通過序列展開、Transformer、序列折疊結(jié)構(gòu)進(jìn)行全局特征建模，通過一個1×1的卷積核將通道調(diào)整為原始大小；最后，與原始的特征圖進(jìn)行拼接，通過n×n的卷積核進(jìn)行特征融合得到最終輸出的杏果特征結(jié)果。

1.2.3 WIoUv3損失函數(shù)

在復(fù)雜的果園環(huán)境中，杏果的檢測任務(wù)中小目標(biāo)檢測也占有一定比例，因此，合理設(shè)計損失函數(shù)可以顯著提高模型的檢測性能。YOLOv8使用DFL和CIoU［18］來計算邊界框的回歸損失，但CIoU具有3個缺點：（1）CIoU不考慮難易樣本的平衡。（2）CIoU將縱橫比作為損失函數(shù)的懲罰因素之一，如果實際邊界框和預(yù)測邊界框的縱橫比相同，但寬度和高度的值不同，懲罰項無法反映這兩個邊界框之間的真實差異。（3）CIoU的計算涉及反三角函數(shù)，會增加模型算力的消耗。CIoU計算如式（1）所示。

LCIoU=

1-IoU+ρ2（b，bgt）

cw2+ch2+

4π2tan-1wgthgt-tan-1wh

（1）

式中： IoU——

預(yù)測邊界框與實際邊界框的交集比例；

ρ2（b，bgt）——

實際邊界框和預(yù)測邊界框的質(zhì)心之間的歐幾里得距離；

h、w——預(yù)測邊界框的高度和寬度；

hgt、wgt——實際邊界框的高度和寬度；

ch、cw——

由預(yù)測邊界框和實際邊界框形成的最小外接矩形的高度和寬度。

除CIoU還有幾種主流的損失函數(shù)，EIoU［19］在CIoU的基礎(chǔ)上進(jìn)行改進(jìn)，通過分別將長度和寬度作為懲罰項處理，反映實際邊界框與預(yù)測邊界框之間寬度和高度的差異，與CIoU的懲罰項相比更為合理。SIoU［20］首次引入了預(yù)測邊界框和實際邊界框之間的角度作為懲罰因素，減少回歸的自由度，加速模型的收斂。

雖然幾種主流損失函數(shù)都采用靜態(tài)的聚焦機制，但WIoU不僅考慮了縱橫比、質(zhì)心距離和重疊區(qū)域，還引入了動態(tài)的非單調(diào)聚焦機制。WIoU采用合理的梯度增益分配策略來評估錨框的質(zhì)量。目前，主要提出3個版本的WIoU［21］。WIoUv1設(shè)計了基于注意力的預(yù)測邊界框損失，而WIoUv2和WIoUv3則添加了聚焦系數(shù)。WIoUv3定義了異常值β來衡量錨框的質(zhì)量，構(gòu)建了一個基于β的非單調(diào)聚焦因子r，并將其應(yīng)用于WIoUv1中。β為小值表示高質(zhì)量的錨框，因此，會分配一個較小的r值，從而減少在較大的損失函數(shù)中高質(zhì)量錨框的權(quán)重。β為大值表示低質(zhì)量的錨框，因此，會分配一個較小的梯度增益，從而減少低質(zhì)量錨框產(chǎn)生的有害梯度。WIoUv3采用了合理的梯度增益分配策略，以動態(tài)優(yōu)化損失中高質(zhì)量和低質(zhì)量錨框的權(quán)重，使模型關(guān)注平均質(zhì)量樣本，從而提高了模型的整體性能。WIoUv3計算如式（2）～式（4）所示。式（3）中的δ和α是可以根據(jù)不同模型進(jìn)行調(diào)整的超參數(shù)。

LWIoUv3=r×LWIoUv1

（2）

r=βδαβ-δ

（3）

β=L*IoUG∈0，+∞

（4）

通過比較上述幾種主流損失函數(shù)，最終在目標(biāo)邊界框回歸損失中引入了WIoUv3。一方面，WIoUv3考慮了EIoU和SIoU的一些優(yōu)點，另一方面，WIoUv3使用了動態(tài)的非單調(diào)機制來評估錨框的質(zhì)量，使模型更關(guān)注普通質(zhì)量的錨框，提高了模型對目標(biāo)的定位能力。對于果園場景中的目標(biāo)檢測任務(wù)，高比例的小目標(biāo)識別增加了檢測的難度，而WIoUv3可以動態(tài)優(yōu)化小目標(biāo)的損失權(quán)重，從而提高模型的檢測性能。

1.2.4 改進(jìn)后的輕量化網(wǎng)絡(luò)結(jié)構(gòu)

改進(jìn)后的輕量級化網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。

針對在復(fù)雜果園環(huán)境中精準(zhǔn)識別杏果模型的問題，對原始的YOLOv8n網(wǎng)絡(luò)模型的基礎(chǔ)上進(jìn)行優(yōu)化改進(jìn)。選擇輕量級的網(wǎng)絡(luò)模型MobileViT 3組模型配置中的MobileViT—XS來替換YOLOv8n的骨干網(wǎng)絡(luò)，使其更適用于采摘機器人的模型部署，同時采用WIoUv3替換YOLOv8n原始的CIoU損失函數(shù)進(jìn)行損失計算，提升模型邊界框回歸性能以及檢測精度。

1.3 試驗設(shè)備及評價指標(biāo)

所用方法基于Python3.8（ubuntu20.04），PyTorch2.0，Cuda11.8實現(xiàn)，硬件測試環(huán)境CPU為Intel（R） Xeon（R） Gold 6330，GPU選用RTX 3090。為測試改進(jìn)模型的檢測性能，使用精確度P、召回率R、F1、mAP、浮點運算量FLOPs、模型參數(shù)量、模型大小作為評估指標(biāo)，通常，模型參數(shù)量和FLOPs越小，表示模型所需的計算資源就越小，對硬件的性能要求就越低，在低端設(shè)備中的部署就越容易。各評價指標(biāo)計算如式（5）～式（8）所示。

P=TPTP+FF

（5）

R=TPTP+FN

（6）

F1=2×P×RP+R

（7）

IoU=A∩BA∪B

（8）

式中： TP——

被預(yù)測為正樣本，但實際上是正樣本；

FP——

被預(yù)測為正樣本，但實際上是負(fù)樣本；

FN——

被預(yù)測為負(fù)樣本，但實際上是正樣本；

IoU——

交并比，邊界框A與真實邊界框B之間的交集與并集的比率。

3 結(jié)果與分析

3.1 多種目標(biāo)檢測網(wǎng)絡(luò)模型檢測效果

為評估原始YOLOv8網(wǎng)絡(luò)模型對杏果的檢測效果，使用目前目標(biāo)檢測方法中經(jīng)典的網(wǎng)絡(luò)模型EfficientDet、Centernet、Faster R—CNN、Retinanet、SSD、YOLOv5n對杏果數(shù)據(jù)集進(jìn)行訓(xùn)練和測試，對比原始YOLOv8n模型的檢測效果，表1為上述7種網(wǎng)絡(luò)模型的性能指標(biāo)。由表1所知，在環(huán)境較為復(fù)雜的果園環(huán)境中，YOLOv8n相比于其他主流模型有更好的識別結(jié)果，F(xiàn)1比EfficientDet、Centernet、Faster R—CNN、Retinanet、SSD、YOLOv5n高出13.65、3.31、21.94、2.43、36.88、1.93個百分點，平均精度高出16.84、0.32、20.59、3.61、30.91、0.8個百分點。其中雖然Centernet、Retinanet檢測精度較為良好，但其模型較大，兩階段目標(biāo)檢測模型Fast R—CNN對杏果的識別精度低且模型較大，雖然YOLOv5n模型在眾多經(jīng)典的網(wǎng)絡(luò)模型中最小，但其模型的整體精度與YOLOv8n相比有較大差距。因此，原始的YOLOv8n模型綜合表現(xiàn)最好，更適用于在復(fù)雜的果園環(huán)境中杏果的檢測。

3.2 不同輕量化模型的對比

模型的輕量化是后續(xù)在機器設(shè)備上部署的關(guān)鍵。因此，對原始YOLOv8n模型進(jìn)行輕量化改進(jìn)，用MobileViT—XS更換其骨干網(wǎng)絡(luò)部分，對比原模型，改進(jìn)后的YOLOv8n模型參數(shù)量減少約28.06%，F(xiàn)LOPs降低0.1G，模型大小減少1.48MB，F(xiàn)1提高0.7%，mAP提高1.07%。為探討改進(jìn)后的YOLOv8n模型與其他流行輕量級模型在復(fù)雜環(huán)境中對杏果的識別效果，將GhostnetV2、Fasternet、Shufflenet、MobileNetV3逐個替換YOLOv8骨干網(wǎng)絡(luò)，還加入輕量化注意力機制ECA進(jìn)行性能比較，對比結(jié)果如表2所示。

由表2可知，Shufflenet模型的輕量化效果最好，參數(shù)量減少約43.06%，F(xiàn)LOPs降低3.2G，模型大小減少2.48MB，但F1卻降低17.01%，mAP下降17.72%，F(xiàn)asternet在參數(shù)量、FLOPs、模型大小方面與Shufflenet相差不大，識別的效果也好于Shufflenet，但還是沒有在精度上超過原始的YOLOv8n模型，而加入輕量化注意力模塊ECA的方法雖然在精度上相比原始模型有所提升，但參數(shù)量、FLOPS等指標(biāo)并沒有減少，綜合所有指標(biāo)來看，加入MobileViT—XS的輕量化方式更適用于YOLOv8n的改進(jìn)，不僅降低計算資源的需求，而且提升杏果識別的精度，更加適合在嵌入式設(shè)備的實時杏果的識別，滿足復(fù)雜果園環(huán)境中杏果精準(zhǔn)識別的需求。

3.3 不同損失函數(shù)的對比

為分析不同損失函數(shù)的性能表現(xiàn)，將YOLOv8n的損失函數(shù)CIoU分別替換為DIoU、GIoU、EIoU、SIoU以及WIoUv3在同一試驗條件下進(jìn)行對比，表3為上述損失函數(shù)的對比結(jié)果。對6種損失函數(shù)的性能進(jìn)行分析可知，與原始的CIoU相比，WIoUv3得到最好的精度結(jié)果，F(xiàn)1、mAP分別提升0.55%、0.41%，證明引入WIoUv3的有效性。

3.4 杏果圖像檢測結(jié)果

圖6是在不同光照條件、遮擋情況的場景下原始YOLOv8n與加入MobileViT—XS、引入WIoUv3的改進(jìn)YOLOv8n模型的檢測結(jié)果對比圖。如圖6所示，紅色為模型的識別檢測框下方的數(shù)字為識別的置信度，置信度是用于衡量一個假設(shè)或預(yù)測的準(zhǔn)確性或可靠性，通常以百分比的形式表示一個事件或陳述發(fā)生的概率或被認(rèn)為是真實的程度，藍(lán)框則為兩種模型對比的高亮區(qū)域。可以看出，兩種模型的檢測效果從全局來看都具有較好表現(xiàn)，圖6中出現(xiàn)的杏果基本上都能識別出來，但也有部分細(xì)節(jié)的細(xì)微差距，如在3種不同光照條件下的側(cè)光條件圖6（b）中，原始的YOLOv8n出現(xiàn)錯誤判斷，將樹干旁空白的區(qū)域識別為杏果（藍(lán)框區(qū)域），而改進(jìn)后的模型沒有出現(xiàn)這種錯誤；逆光條件中，原始模型將處于圖中較為模糊遠(yuǎn)距離的密集大量的杏果單獨識別為一個，而改進(jìn)后的模型避免了這種錯誤，并且在單個細(xì)微的杏果的識別當(dāng)中，做出的識別效果更好，在置信度上有更好的表現(xiàn)情況。在3種遮擋條件下的葉片遮擋圖6（d）中，左上角區(qū)域原圖只有8個處于陰影葉片遮擋下的杏果，從原始模型密集的檢測框可以看出，并沒有對杏果得到正確的識別，而是檢測到杏果不同于其他區(qū)域的顏色，從顏色的角度進(jìn)行識別從而出現(xiàn)密集檢測框的現(xiàn)象，而改進(jìn)的模型在左上角區(qū)域也有部分杏果沒有得到正確的識別，但檢測框的表現(xiàn)說明，改進(jìn)后的方法是從全局視覺的角度進(jìn)行分析識別出杏果的，檢測框更趨近于杏果的實際大小，在枝干遮擋的對比圖6（e）中也有效說明在對于目標(biāo)果實較小、遮擋程度較高的區(qū)域，改進(jìn)后的模型在杏果識別的細(xì)節(jié)方面做得更好，果實重疊的對比圖6（f）中，兩種模型都具有較好的識別效果，只有置信度的差別。綜合來看，改進(jìn)后的模型相比于原始模型，在識別精度上得到提升，降低了模型的參數(shù)量、計算量以及模型大小，而且在真實的杏果場景識別中提升更加精確。

4 結(jié)論

1）提出一種改進(jìn)輕量化YOLOv8n網(wǎng)絡(luò)模型應(yīng)用于復(fù)雜環(huán)境中杏果的識別。該網(wǎng)絡(luò)將YOLOv8n原始模型中的骨干網(wǎng)絡(luò)替換為輕量化的MobileViT—XS結(jié)構(gòu)并且將原始的損失函數(shù)CIoU替換為WIoUv3，降低模型的參數(shù)量、FLOPs，檢測精度也得到提升，能夠更輕便快捷地實施設(shè)備部署識別杏果。

2）為驗證改進(jìn)YOLOv8n的性能，設(shè)置6種主流經(jīng)典網(wǎng)絡(luò)模型，5種輕量化改進(jìn)模型，5種損失函數(shù)替換，在同種條件下進(jìn)行對比試驗。試驗結(jié)果表明，原始的YOLOv8n相比于其他目前主流的原始模型，在檢測精度上效果更好，模型更加精巧；改進(jìn)后的輕量化模型中，MobileViT—XS的輕量化程度以及檢測精度更好；在損失函數(shù)的對比試驗中，WIoUv3在模型檢測精度上也均高于其他損失函數(shù)。

3）在相同的試驗條件下，通過與其他原始模型的對比可知，改進(jìn)后的YOLOv8n模型在杏果數(shù)據(jù)集上取得較優(yōu)的結(jié)果，對比原始的YOLOv8n模型，在F1、mAP上提升1.25%、1.48%，參數(shù)量、FLOPs、模型大小分別降低28.06%、0.1G、1.48MB。試驗充分證明，所提出的輕量化改進(jìn)方案切實有效，在檢測精度、模型參數(shù)上均有較好的優(yōu)化結(jié)果。可以將杏果識別應(yīng)用于農(nóng)業(yè)設(shè)備對果實的采摘、打藥等操作當(dāng)中，為其他農(nóng)業(yè)設(shè)備機器提供精準(zhǔn)識別、目標(biāo)定位等后續(xù)工作提供理論參考。

參考文獻(xiàn)

［1］呂春晶，章秋平，劉寧，等. 杏果核物理特性與其主要化學(xué)組分的相關(guān)性分析［J］.果樹學(xué)報， 2021， 38（10）： 1717-1724.

Lü Chunjing， Zhang Qiuping， Liu Ning， et al. Correlations between physical properties and major chemical components of shells in apricot ［J］. Journal of Fruit Science， 2021，38（10）：1717-1724.

［2］散鋆龍，楊會民，王學(xué)農(nóng)，等. 振動方式和頻率對杏樹振動采收響應(yīng)的影響［J］. 農(nóng)業(yè)工程學(xué)報， 2018， 34（8）： 10-17.

San Yunlong， Yang Huimin， Wang Xuenong， et al. Effects of vibration mode and frequency on vibration harvesting of apricot trees ［J］. Transactions of the Chinese Society of Agricultural Engineering， 2018， 34（8）： 10-17.

［3］閆彬，樊攀，王美茸，等. 基于改進(jìn)YOLOv5m的采摘機器人蘋果采摘方式實時識別［J］. 農(nóng)業(yè)機械學(xué)報， 2022，53（9）：28-38，59.

Yan Bin， Fan Pan， Wang Meirong，et al. Real-time apple picking pattern recognition for picking robot based on improved YOLOv5m ［J］. Transactions of the Chinese Society for Agricultural Machinery，2022，53（9）：28-38，59.

［4］ Lin G， Tang Y， Zou X， et al. Fruit detection in natural environment using partial shape matching and probabilistic Hough transform ［J］. Precision Agriculture， 2020， 21： 160-177.

［5］ Liu T H， Ehsani R， Toudeshki A， et al. Detection of citrus fruit and tree trunks in natural environments using a multi-elliptical boundary model ［J］. Computers in Industry， 2018， 99： 9-16.

［6］廖崴，鄭立華，李民贊，等. 基于隨機森林算法的自然光照條件下綠色蘋果識別［J］. 農(nóng)業(yè)機械學(xué)報， 2017， 48（S1）：86-91.

Liao Wei， Zhen Lihua， Li Minzan， et al. Green apple recognition in natural illumination based on random forest algorithm ［J］. Transactions of the Chinese Society for Agricultural Machinery，2017，48（S1）：86-91.

［7］ Wan S， Goudos S. Faster R—CNN for multi-class fruit detection using a robotic vision system ［J］. Computer Networks， 2020， 168： 107036.

［8］彭紅星，黃博，邵園園，等. 自然環(huán)境下多類水果采摘目標(biāo)識別的通用改進(jìn)SSD模型［J］. 農(nóng)業(yè)工程學(xué)報， 2018，34（16）：155-62.

Peng Hongxing， Huang Bo， Shao Yuanyuan，et al. General improved SSD model for picking object recognition of multiple fruits in natural environment ［J］. Transactions of the Chinese Society of Agricultural Engineering， 2018， 34（16）： 155-162.

［9］趙輝，喬艷軍，王紅君，等. 基于改進(jìn)YOLOv3的果園復(fù)雜環(huán)境下蘋果果實識別［J］. 農(nóng)業(yè)工程學(xué)報， 2021， 37（16）：127-35.

Zhao Hui， Qiao Yanjun， Wang Hongjun，et al. Apple fruit recognition in complex orchard environment based on improved YOLOv3 ［J］. Transactions of the Chinese Society of Agricultural Engineering， 2021， 37（16）： 127-135.

［10］趙凱琳，靳小龍，王元卓. 小樣本學(xué)習(xí)研究綜述［J］. 軟件學(xué)報，2021，32（2）：349-369.

Zhao Kailin， Jin Xiaolong， Wang Yuanzhuo. Survey on few-shot learning ［J］. Journal of Software， 2021， 32（2）：349-369.

［11］ Lin T Y， Dollár P， Girshick R， et al. Feature pyramid networks for object detection ［C］. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition， 2017： 2117-2125.

［12］ Liu S， Qi L， Qin H， et al. Path aggregation network for instance segmentation ［C］. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition， 2018： 8759-8768.

［13］彭炫，周建平，許燕，等. 改進(jìn)YOLOv5識別復(fù)雜環(huán)境下棉花頂芽［J］. 農(nóng)業(yè)工程學(xué)報， 2023， 39（16）： 191-197.

Peng Xuan， Zhou Jianping， Xu Yan，et al. Cotton top bud recognition method based on YOLOv5-CPP in complex environment ［J］. Transactions of the Chinese Society of Agricultural Engineering， 2023， 39（16）： 191-197.

［14］彭書博，陳兵旗，李景彬，等. 基于改進(jìn)YOLOv7的果園行間導(dǎo)航線檢測［J］. 農(nóng)業(yè)工程學(xué)報， 2023，39（16）131-138.

Peng Shubo， Chen Bingqi， Li Jingbin， et al. Detection of the navigation line between lines in orchard using improved YOLOv7［J］. Transactions of the Chinese Society of Agricultural Engineering， 2023， 39（16）： 131-138.

［15］

Li X， Wang W， Wu L， et al. Generalized focal loss： Learning qualified and distributed bounding boxes for dense object detection ［J］. Advances in Neural Information Processing Systems， 2020， 33： 21002-12.

［16］ Mehta S， Rastegari M. MobileViT： Light-weight， general-purpose， and mobile-friendly vision transformer ［J］. arXiv preprint arXiv：2110.02178， 2021.

［17］ Sandler M， Howard A， Zhu M， et al. MobileNetV2： Inverted residuals and linear bottlenecks ［C］.

Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition， 2018： 4510-4520.

［18］ Zheng Z， Wang P， Liu W， et al. Distance-IoU loss： Faster and better learning for bounding box regression ［C］. Proceedings of the AAAI Conference on Artificial Intelligence， 2020， 34（7）： 12993-13000.

［19］ Zhang Y F， Ren W， Zhang Z， et al. Focal and efficient IoU loss for accurate bounding box regression ［J］. Neurocomputing， 2022， 506： 146-157.

［20］ Gevorgyan Z. SIoU loss： More powerful learning for bounding box regression ［J］. arXiv preprint arXiv：2205.12740， 2022.

［21］ Tong Z， Chen Y， Xu Z， et al. Wise-IoU： Bounding box regression loss with dynamic focusing mechanism ［J］.arXiv preprint arXiv：2301.10051， 2023.

中國農(nóng)機化學(xué)報2025年3期

中國農(nóng)機化學(xué)報的其它文章: 金融助力鄉(xiāng)村振興的門檻效應(yīng)研究; 基于字詞融合和注意力機制的獸藥文本命名實體識別; 農(nóng)業(yè)高職院校工科專業(yè)課程混合式教學(xué)現(xiàn)狀調(diào)查研究; 基于遺傳算法的農(nóng)機服務(wù)資源優(yōu)化配置方法; 數(shù)字經(jīng)濟背景下組織模式的增收效應(yīng); 農(nóng)機社會化服務(wù)對種植結(jié)構(gòu)“趨糧化”的影響