中圖分類號(hào):TP391.41 文獻(xiàn)標(biāo)志碼:A
0 引言
在現(xiàn)代農(nóng)業(yè)生產(chǎn)中,藍(lán)莓作為一種富含營(yíng)養(yǎng)且經(jīng)濟(jì)價(jià)值較高的水果,其種植規(guī)模與產(chǎn)量呈現(xiàn)持續(xù)增長(zhǎng)的趨勢(shì)。為了實(shí)現(xiàn)果園的自動(dòng)化管理和精準(zhǔn)農(nóng)業(yè)生產(chǎn),藍(lán)莓果實(shí)的檢測(cè)與識(shí)別技術(shù)變得至關(guān)重要。然而,藍(lán)莓果實(shí)在復(fù)雜自然環(huán)境下的檢測(cè)面臨多重挑戰(zhàn)[1-2],例如樹葉枝條遮擋導(dǎo)致果實(shí)部分不可見,不均勻光照影響成像質(zhì)量,且果實(shí)體積小、分布密集,易造成小目標(biāo)漏檢[3-4] 。
盡管傳統(tǒng)的YOLOv11模型在通用目標(biāo)檢測(cè)領(lǐng)域性能優(yōu)異,但在應(yīng)對(duì)上述復(fù)雜場(chǎng)景下的藍(lán)莓果實(shí)檢測(cè)時(shí),存在一定的局限性[5]。一方面,該模型對(duì)于小目標(biāo)的識(shí)別能力不足,難以準(zhǔn)確檢測(cè)出密集分布且體積較小的藍(lán)莓果實(shí);另一方面,其多特征融合效果不佳,無(wú)法充分利用不同層次的特征信息來(lái)提高檢測(cè)精度。
劉擁民等[將YOLO系列模型應(yīng)用于藍(lán)莓成熟度檢測(cè),通過(guò)改進(jìn)模型結(jié)構(gòu)、融合注意力機(jī)制等方法,提高了模型在復(fù)雜場(chǎng)景下的檢測(cè)性能。同時(shí),溫艷蘭[7]針對(duì)目標(biāo)小、易受遮擋等特點(diǎn),設(shè)計(jì)專門的算法和模型,解決小目標(biāo)檢測(cè)和遮擋問(wèn)題。此外,一些研究還結(jié)合其他技術(shù),如遷移學(xué)習(xí)、多尺度特征提取等,進(jìn)一步提升藍(lán)莓檢測(cè)的精度和魯棒性[8]。盡管對(duì)此的研究已經(jīng)取得了一些成果,但在實(shí)際應(yīng)用中,如何在復(fù)雜的自然環(huán)境下實(shí)現(xiàn)快速、準(zhǔn)確的藍(lán)莓檢測(cè)與識(shí)別,仍然是一個(gè)具有挑戰(zhàn)性的問(wèn)題,需要進(jìn)一步的研究和探索。
針對(duì)上述問(wèn)題,本文提出一種專門用于藍(lán)莓檢測(cè)任務(wù)的BCD-YOLO模型。該模型基于YOLOv11進(jìn)行優(yōu)化升級(jí),引入多項(xiàng)創(chuàng)新設(shè)計(jì)來(lái)提升復(fù)雜場(chǎng)景下對(duì)藍(lán)莓果實(shí)的檢測(cè)性能,旨在為果園自動(dòng)化采收和產(chǎn)量預(yù)估提供一種更加高效、準(zhǔn)確且魯棒的技術(shù)手段,推動(dòng)藍(lán)莓產(chǎn)業(yè)的智能化發(fā)展。
1數(shù)據(jù)集構(gòu)建
目前,藍(lán)莓檢測(cè)的數(shù)據(jù)集仍較為稀缺,本文為滿足藍(lán)莓檢測(cè)識(shí)別需求,構(gòu)建了專屬的藍(lán)莓?dāng)?shù)據(jù)集。數(shù)據(jù)采集自不同地區(qū)的藍(lán)莓種植園,通過(guò)實(shí)地考察,多角度拍攝,確保圖像能夠真實(shí)反映藍(lán)莓自然生長(zhǎng)狀態(tài),同時(shí)兼顧光照、角度、生長(zhǎng)階段及遮擋物等因素,以保證圖像的多樣性。本文利用專業(yè)工具對(duì)圖像中每顆藍(lán)莓果實(shí)進(jìn)行精準(zhǔn)標(biāo)注,記錄其位置、大小、成熟度等信息并標(biāo)注遮擋、光照不均等干擾因素,從而提升檢測(cè)模型對(duì)復(fù)雜場(chǎng)景的適應(yīng)能力,數(shù)據(jù)集內(nèi)藍(lán)莓圖片如圖1所示。
圖1數(shù)據(jù)集示例

數(shù)據(jù)集按照 7:2:1 的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,分別用于模型參數(shù)學(xué)習(xí)、性能評(píng)估與調(diào)整及最終性能測(cè)試。自建藍(lán)莓?dāng)?shù)據(jù)集共包含1640張照片和10468個(gè)標(biāo)注的邊界框。該數(shù)據(jù)集具有高質(zhì)量、多樣性和實(shí)用性的特性,為BCD-YOLO模型的藍(lán)莓檢測(cè)識(shí)別研究提供了可靠的數(shù)據(jù)基礎(chǔ),有助于提高模型檢測(cè)精度和泛化能力,推動(dòng)藍(lán)莓產(chǎn)業(yè)智能化發(fā)展。
2模型設(shè)計(jì)
2.1 YOLOv11模型
YOLOv11憑借其精簡(jiǎn)架構(gòu)和快速檢測(cè)速度,在目標(biāo)識(shí)別任務(wù)中得到了廣泛應(yīng)用,模型架構(gòu)如圖2所示[9]
圖2YOLOv11檢測(cè)模型架構(gòu)

YOLOv11主干網(wǎng)絡(luò)由Conv、C3k2、SPPF和C2PSA等模塊構(gòu)成,這些模塊負(fù)責(zé)從多個(gè)尺度的輸入圖像中提取特征。Neck 部分由C3K2、Upsample 和Concat模塊構(gòu)成,作為一個(gè)中間處理階段,通過(guò)專門的層聚合和增強(qiáng)不同尺度上的特征表示。Head組件作為預(yù)測(cè)機(jī)制,基于細(xì)化的特征圖生成目標(biāo)定位和分類的最終輸出。
2.2 改進(jìn)的YOLOv11模型
基于YOLO系列的最新迭代版本YOLOv11,本文提出了改進(jìn)的檢測(cè)模型BCD-YOLO。該模型對(duì)Neck、Backbone和Head3個(gè)關(guān)鍵組件進(jìn)行了優(yōu)化,優(yōu)化后的模型架構(gòu)如圖3所示。
圖3BCD-YOLO檢測(cè)模型架構(gòu)

2.2.1Neck組件的改進(jìn)
鑒于藍(lán)莓檢測(cè)任務(wù)的獨(dú)特性,新模型需要具備強(qiáng)大的多尺度特征捕獲能力和穩(wěn)健的上下文建模能力。然而,YOLOv11原始的Neck組件在應(yīng)對(duì)這類復(fù)雜任務(wù)時(shí)存在一定的局限性。因此,本文對(duì)YOLOv11的Neck組件進(jìn)行了重新設(shè)計(jì)并引入了創(chuàng)新的BIMAFPN(BidirectionalMulti-AttentionFeaturePyramidNetwork)模塊。傳統(tǒng)的特征金字塔網(wǎng)絡(luò)上采樣和下采樣操作均是單向的,單個(gè)節(jié)點(diǎn)獲取信息的能力有限,對(duì)于藍(lán)莓小目標(biāo)的特征信息融合效果不佳。BIMAFPN雙向特征融合機(jī)制能夠克服以上問(wèn)題,它允許在特征網(wǎng)絡(luò)層中的信息在自頂向下和自底向上2個(gè)方向上流動(dòng)和融合[10],能夠在不同層級(jí)之間更高效地融合特征,且不會(huì)顯著增加計(jì)算成本。
在BIMAFPN網(wǎng)絡(luò)架構(gòu)(見圖4)中,每個(gè)單獨(dú)的特征網(wǎng)絡(luò)層可以被多次重復(fù)使用,通過(guò)自頂向下和自底向上的路徑進(jìn)行采樣,在不同層次上執(zhí)行卷積操作,從而提取到更加豐富和細(xì)致的特征。簡(jiǎn)化的雙向網(wǎng)絡(luò)結(jié)構(gòu)增強(qiáng)了網(wǎng)絡(luò)對(duì)特征融合的能力,使網(wǎng)絡(luò)能夠更有效地整合不同尺度的信息,為檢測(cè)頭提供豐富的上下文信息,從而提高目標(biāo)檢測(cè)的性能。
圖4 BIMAFPN網(wǎng)絡(luò)架構(gòu)

2.2.2 Backbone組件的改進(jìn)
為了進(jìn)一步提升改進(jìn)后模型的檢測(cè)能力,本文重新設(shè)計(jì)了Backbone組件的結(jié)構(gòu)。YOLOv11中的C3K2模塊通過(guò)重復(fù)堆疊和特征融合可以提取多尺度特征,但在處理復(fù)雜場(chǎng)景時(shí)仍存在一定局限性。C3K2模塊在捕獲全局語(yǔ)義信息和長(zhǎng)距離依賴方面表現(xiàn)不佳,其表達(dá)多尺度上下文細(xì)節(jié)的能力有限,導(dǎo)致在藍(lán)莓檢測(cè)任務(wù)中,小目標(biāo)檢測(cè)和復(fù)雜背景分離的性能不夠理想。
為了解決這些挑戰(zhàn),本文通過(guò)引入高效的部分多尺度特征提取機(jī)制PartialConv,對(duì)C3K2模塊進(jìn)行全面改造,提出了創(chuàng)新性的PMSFA(PartialMulti-ScaleFeatureAggregation)模塊。該模塊包含的 3×3.5×5 和7×7 的PartialConv卷積能夠從輸入中提取多種尺度的特征信息,但并非在所有通道上進(jìn)行這種操作,而是部分地進(jìn)行,從而顯著提高了計(jì)算效率。同時(shí),在最后的 1×1 卷積層,該模塊將不同尺度的特征融合在一起并通過(guò)殘差連接將輸入特征與處理后的特征相加,如圖5所示。PMSFA模塊在有效保留了原始信息的同時(shí)引入新的多尺度信息,增強(qiáng)了特征融合,從而顯著提升了模型的表達(dá)能力。
2.2.3 檢測(cè)頭Head的改進(jìn)
針對(duì)標(biāo)準(zhǔn)卷積在目標(biāo)檢測(cè)任務(wù)中的缺陷,本文進(jìn)行了相應(yīng)的改進(jìn)。標(biāo)準(zhǔn)卷積由于感受野固定,難以精確捕捉目標(biāo)的細(xì)節(jié)特征,尤其是在處理小目標(biāo)時(shí),容易出現(xiàn)定位不準(zhǔn)確和漏檢率高的問(wèn)題。此外,標(biāo)準(zhǔn)卷積對(duì)復(fù)雜背景的抗干擾能力較弱,容易受到背景的干擾,從而降低檢測(cè)的精度。為了有效解決這些問(wèn)題,本文將YOLOv11的檢測(cè)頭替換為DyHead。DyHead的核心改進(jìn)是將尺度感知、空間感知和任務(wù)感知統(tǒng)一在一個(gè)框架中。給定一個(gè)特征金字塔狀的特征輸出Fin={Fi}iL ? L 為金字塔的層數(shù),假設(shè)其下采樣率分別為 1/8,1/16,1/32 。為了統(tǒng)一尺度,將1/8和 1/32 大小的特征統(tǒng)一調(diào)整至 1/16 大小,得到尺寸相同的3個(gè)層級(jí)特征。通過(guò)將層級(jí)的特征連接,得到 F∈ RL*H*W*C ,在空間維度上用 S=H*W 計(jì)算注意力權(quán)重,將其變形為 F∈RL*S*C 。分別對(duì) L,S 和 c 做注意力,就可以得到3種感知能力。
圖5PMSFA的原理結(jié)構(gòu)

給定一個(gè)特征層 F ,將自注意力機(jī)制(Self-Attention)應(yīng)用在上,得到公式(1)。
W(F)=π(F)?F
其中, π(?) 是一種注意力機(jī)制。使用全連接層的方案計(jì)算量過(guò)大。
將注意力分為3個(gè)維度進(jìn)行,得到公式(2)。
W(F)=πc(πs(πL(F)?F)?F)?F
其中, πL(?) 是尺度注意力函數(shù), πs(?) 是空間注意力函數(shù), πc(?) 是信道注意力函數(shù)。先通過(guò)πL(?) 處理多尺度特征,再經(jīng) πs(?) 優(yōu)化空間位置,最后用 πc(?) 調(diào)整通道權(quán)重。上述3種注意力機(jī)制通過(guò)級(jí)聯(lián)或并行方式集成,形成端到端的動(dòng)態(tài)檢測(cè)頭。
3 實(shí)驗(yàn)分析
3.1 實(shí)驗(yàn)環(huán)境
本研究中實(shí)驗(yàn)使用的硬件平臺(tái)包括AMDEPYC7H1264核CPU和NVIDIAGeForceRTX4O90,用于該代碼的Python版本是3.10.14。實(shí)驗(yàn)使用了PyTorch框架、Ubuntu操作系統(tǒng)和SGD優(yōu)化器。該模型的具體訓(xùn)練參數(shù)如表1所示。
3.2實(shí)驗(yàn)結(jié)果分析
為了驗(yàn)證BCD-YOLO檢測(cè)模型引入BIMAFPN模塊后的性能,實(shí)驗(yàn)中替換不同的FPN模塊進(jìn)行對(duì)比,對(duì)比結(jié)果如表2所示。
表1實(shí)驗(yàn)參數(shù)設(shè)置

表2不同F(xiàn)PN的實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果表明,引人BIMAFPN后的模型性能顯著提升。同時(shí)為了驗(yàn)證模型中的PIMSFA模塊性能,本文在引入BIMAFPN模塊后的檢測(cè)模型中替換不同C3K2進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如表3所示。
實(shí)驗(yàn)結(jié)果表明,設(shè)計(jì)的PIMSFA性能得到了極大提高。為了驗(yàn)證每個(gè)提出的改進(jìn)策略的有效性,本文對(duì)模型進(jìn)行了消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所示。
引入BIMAFPN模塊后,模型的 mAP50 從 56.3% 提升到 57.3% ,表明其在多尺度特征融合方面具有顯著優(yōu)勢(shì)。在引入BIMAFPN的基礎(chǔ)上,進(jìn)一步引入CSP-PMSFA模塊后, mAP50 進(jìn)一步提升到 58.7% ,表明CSP-PMSFA模塊在特征提取和融合方面具有顯著的優(yōu)化效果。最后,引入DyHead模塊后,模型的mAP50達(dá)到了 59% ,表明DyHead模塊在動(dòng)態(tài)調(diào)整檢測(cè)頭方面具有顯著優(yōu)勢(shì)。實(shí)驗(yàn)結(jié)果清楚地驗(yàn)證了每個(gè)模塊和策略的有效性,每一個(gè)改進(jìn)都對(duì)提高模型的性能起著至關(guān)重要的作用。
表3不同C3K2模塊的實(shí)驗(yàn)結(jié)果

表4消融實(shí)驗(yàn)結(jié)果

4結(jié)語(yǔ)
本文提出了一種專門用于解決復(fù)雜自然環(huán)境中藍(lán)莓識(shí)別的檢測(cè)模型BCD-YOLO,該模型結(jié)合了多項(xiàng)創(chuàng)新設(shè)計(jì),包括用于增強(qiáng)多尺度特征融合的BIMAFPN模塊,用于改進(jìn)上下文表示的CSP-PMSFA模塊以及基于注意力機(jī)制的目標(biāo)檢測(cè)頭DyHead。在自建藍(lán)莓?dāng)?shù)據(jù)集上的綜合實(shí)驗(yàn)驗(yàn)證了BCD-YOLO模型的有效性,該模型在檢測(cè)精度方面得到了顯著的提高,尤其在涉及小自標(biāo)、顯著的照明變化和遮擋的場(chǎng)景中表現(xiàn)出色。未來(lái)將對(duì)當(dāng)前的檢測(cè)模型框架進(jìn)行剪枝和蒸餾優(yōu)化,進(jìn)一步提高模型的計(jì)算效率,同時(shí)嘗試將其擴(kuò)展到其他水果數(shù)據(jù)集,驗(yàn)證模型在不同環(huán)境條件下的泛化能力。
參考文獻(xiàn)
[1]張建龍.基于圖像技術(shù)的藍(lán)莓采收機(jī)作業(yè)路徑跟蹤研究[D].哈爾濱:哈爾濱理工大學(xué),2024.
[2]吳立東,夏金安,朱元宏,等.基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理技術(shù)在藍(lán)莓種植中的應(yīng)用進(jìn)展[J].上海農(nóng)業(yè)科技,2023(5):31-34,90.
[3]田有文,覃上聲,閆玉博,等.基于改進(jìn)YOLOv8的田間復(fù)雜環(huán)境下藍(lán)莓成熟度檢測(cè)[J].農(nóng)業(yè)工程學(xué)報(bào),2024(16) :153-162.
[4]許艷霞,柳江,李寶剛,等.基于改進(jìn) ΥOLOv8n 的輕量化藍(lán)莓成熟度檢測(cè)方法[J].江西農(nóng)業(yè)大學(xué)學(xué)報(bào),2025(3) :764-777.
[5]吳迪,趙品懿,甘升隆,等.基于動(dòng)態(tài)自適應(yīng)通道注意力特征融合的小目標(biāo)檢測(cè)[J].電子科技大學(xué)學(xué)報(bào),2025(2):221-232.
[6]劉擁民,張煒,麻海志,等.基于注意力機(jī)制的輕量化YOLOv5s藍(lán)莓檢測(cè)算法[J].河南農(nóng)業(yè)科學(xué),2024(3) :151-157.
[7]溫艷蘭.基于卷積神經(jīng)網(wǎng)絡(luò)和遷移學(xué)習(xí)的作物蟲害圖像識(shí)別研究[D].廣州:仲愷農(nóng)業(yè)工程學(xué)院,2023.
[8]仝召茂,陳學(xué)海,馬志艷,等.融合圖像增強(qiáng)和遷移學(xué)習(xí)的YOLOv8n夜間蘋果檢測(cè)方法[J].華中農(nóng)業(yè)大學(xué)學(xué)報(bào),2024(5):1-9.
[9]李彬,李生林.改進(jìn)YOLOv11n的無(wú)人機(jī)小目標(biāo)檢測(cè)算法[J].計(jì)算機(jī)工程與應(yīng)用,2025(7):96-104.
[10]周翔,王可慶,周新翔,等.基于改進(jìn)YOLOv10n的電動(dòng)車頭盔佩戴檢測(cè)算法[J].電子測(cè)量技術(shù),2025(5):40-49.
(編輯戴啟潤(rùn))
Research on blueberry fruit detection in complex scenarios based on BCD-YOLO algorithm
LIU Bo (Anhui Technical College of Mechanical and Electrical Engineering,Wuhu 241Ooo,China)
Abstract:Aiming at theproblems ofocclusion,uneven lighting,and missed detectionof small targets in blueberry fruitdetectionundercomplexagricultural scenarios,traditional objectdetection modelssufer from insuficientsmalltarget recognition capabilities and poor multi-feature fusion efects. This paper proposes a BCD-YOLO model specifically designed for blueberry detection tasks.Based on the latest iteration of the YOLO series,YOLOv11,this model incorporates several innovative designs.BIMAFPN(Bidirectional Feature Pyramid Network)is introducedon the basisof YOLOv11.Throughmulti-level feature pyramidsand bidirectional information transmisson,it improves the recognition accuracy of blueberries.Also,the CSP-PMSFA module is designed to optimize the backbone network.This moduleuseseficient partial multi-scalefeatureextraction toextract feature informationof multiplescales from the input,achieving enhanced feature fusion.Aditionall,an innovative detection head based on atention mechanism, DyHead,isintegrated into thedetectionmodel.Experimentsshow thaton theself-built blueberrydataset,the improved BCD-YOLO model achieves 59% in mAP50,with precision and mAP50-95 increasing by 2.7% and 3.1% (20 respectivelycompared to theoriginal YOLOv11model,while the increase inmodel parametersand computational complexity remainswithinareasonablerange.Overall,thismodelprovides a highlyrobust technical solution for automated orchard harvesting and yield prediction.
Key Words:blueberrydetectionand recognition;smalltarget detection;multi-scale feature fusion;YOLOv11;smart agriculture