中圖分類號:TP39 文獻標志碼:A DOI:10. 13705/j. issn.1671-6841. 2023256
文章編號:1671-6841(2025)05-0024-07
Abstract: Current methods of walnut yield measurement mainly relied on traditional statistical models, and the accuracy could hardly be guaranteed. Therefore,taking green walnuts as an example,an image dataset of walnuts from the perspective of drone aerial photography was established. The coordinate attention(CA) was innovatively applied to the YOLOv8 model for the first time. The improved YOLOv8-CA model algorithm was used for object detection of green walnuts. The experimental results showed that the newly improved model(YOLOv8-CA),improved the mAP value by O.004 and O.051,and the Recall value by 0. 019 and 0.089 compared with the original YOLOv8 and YOLOv5,respectively.
Key words: objection detection; drone perspective; computer vision; fruit yield measurement; walnutdetection
0 引言
核桃的果實發育周期較長,若將核桃采摘后再人工進行產量的測定,許多規劃的制定以及政策的落實就會有一定的滯后性,這不利于核桃產業經濟的發展,而如何準確地預測核桃產量,將對核桃產業的發展起到十分重要的作用。
當前,在核桃果實產量測量方面多數是依靠傳統人工目測的方法進行計量,容易在核桃計量中漏檢、復檢、誤檢等,無法為核桃增產實驗提供精確有效的數據支撐。
隨著高新技術的發展,以人工智能為核心的視覺技術已開始顯現出高效的優勢,在核桃測產領域,引入人工智能不僅能極大降低人工成本和工作時間,提高工作效率和準確性,還能提升核桃生產全過程的智能化、數字化和網絡化決策水平。在此基礎上,使用無人機作為數據采集載體,實現對核桃測產流程的標準化,進一步減少人為誤差,實現對核桃果實的精準測產。
無人機與人工智能測產方案有以下優點:
1)每年在收獲日前一個月就能開始采集圖像數據,通過核桃果樹表面的核桃數量預測核桃實際產量,為市場宏觀調控取得先機;2)基于無人機圖像采集,可以實現自動化,減少大量人力成本;3)無人機與人工智能檢測模型的結合,可以極大減少人為誤差,實現對核桃果實的精準測產。
為了實現核桃測產自動化,本文就現實中在青皮核桃測產環節中存在的困難,提出了以無人機進行影像采集,并基于深度學習的方法解決核桃測產環節中目標檢測困難的方案。
1相關工作
1. 1 果實目標檢測
在農業果實檢測方面,基于機器視覺的近背景顏色果實檢測技術受到科研工作者的普遍關注[1-3]。Song 等[2]提出了一種基于支持向量機的青甜椒檢測計數方法,并利用bag-of-words模型優化目標定位策略,實驗表明該技術方法在實際場景中能夠達到 72.4% 的準確率。 Wang[3] 等針對未成熟柑橘提出一種基于局部二值分類器的檢測算法,采用Retinex圖像增強和圖像歸一化處理,使用K-means聚類和霍夫圓變換來定位柑橘,準確率為 85.6% 。
上述傳統算法在某些特定的應用中已經取得了較好的效果,但仍然存在許多不足,比如圖像預處理步驟多且具有強烈的針對性,魯棒性差;多種算法計算量驚人且無法精確檢測缺陷的大小和形狀。
深度學習可以直接通過學習數據更新參數,避免使用人工設計復雜的算法流程,并且有著極高的魯棒性和精度。特別在圖像特征方面,深度學習在目標檢測任務上具有良好的特征提取能力、泛化能力和自主學習能力,可得到較好的檢測效果,尤其是基于卷積神經網絡的目標檢測方法[4-5]。 Sa 等[提出了一種利用深度卷積神經網絡對多種近背景顏色果蔬檢測的新方法,使用顏色(RGB)和近紅外(NIR)融合圖像進行目標檢測,相較于單獨使用RGB或NIR圖像進行目標檢測而言,其精度和召回性能均有 1%~3% 的提升。薛月菊等[針對未成熟芒果設計了新的帶密集連接的Tiny-YOLO網絡結構,該方法在測試集上,各方面性能都比Faster-RCNN優異。近年來,郝建軍等[8]將MobilNet-v3骨干網絡用于替換YOLOv3算法中的原始骨干網絡,提升了模型檢測能力并實現了輕量化。實驗表明,基于改進YOLOv3的青皮核桃檢測平均精度均值為 94.52% ,但是由于其數據集采集工具為手持設備,無法應對復雜的環境和大范圍檢測,故存在一定的局限性。Wan等°提出一種基于改進FasterR-CNN的多類水果檢測深度學習框架。所提算法具有更高的檢測精度和更短的處理時間,在構建自主、實時的收獲或產量測繪/估計系統方面具有很好的潛力。
綜上所述,近年來許多研究工作都聚焦于地面,使用手持設備或機器人搭載相機[10-1]的手段去實現果實的目標檢測,目前暫無結合無人機的果實目標檢測方面的研究。
1. 2 無人機航拍目標檢測
近年來,小型低空無人機發展迅速,基于無人機搭載視覺傳感器的目標檢測方式受到了國內外學者的廣泛關注,無人機航拍具有更開闊的視角、更廣的覆蓋范圍以及更高的靈活性,十分契合農業測產中應對復雜的環境和大范圍檢測的需求,但是目前大多數研究都聚焦于公共交通方面[12-13],在農業測產方面的研究目前還較為欠缺。為了填補這方面研究的空白,本文采用無人機進行青皮核桃目標檢測
1.3 注意力機制
注意力機制是一種強大的工具,能夠幫助模型在處理輸入數據時選擇和聚焦于重要的信息,從而提高模型的性能和效率[14]。在計算機視覺領域,注意力機制得到廣泛應用,并取得了顯著的成果。在計算機視覺中注意力機制大致可以分為空間注意力機制、通道注意力機制和混合注意力機制。空間注意力機制的主要思想是在輸人數據中根據像素之間的空間關系計算權重,從而提高模型對輸入數據的關注度,減少對無用信息的關注,進而提高模型的性能和效率。空間注意力機制的代表性方法有STN[15]和 CBAM[16] 等。通道注意力機制能夠在不增加模型復雜度的情況下,增強卷積神經網絡對不同通道特征的關注度,從而提高模型的表達能力。同時,通道注意力機制也可以與其他注意力機制結合使用。通道注意力機制的代表性方法有SENet[17]、ECA[18]和CoordAttention[19]等。混合注意力機制則可以將不同類型的注意力機制組合在一起,從而增強模型的特征表示能力。混合注意力機制的代表性方法有DANet[20]和CCNet[21]等。
2 數據準備與預處理
2.1 實驗數據采集
實驗圖像數據采集于云南省大理市漾濞縣白章村核桃生產基地,采用大疆無人機M300RTK搭載P1相機進行拍攝,其分辨率為 5472*3268 ,保存格式為JPG圖像格式,采集時間段為2022年7月份,包含多種氣象情況。采集時,無人機高度為離地30m ,離樹頂 15~25m (由于山坡有高度差),拍攝角度為垂直向下 90° ,包含日照不均勻、樹葉遮擋等各種情況。
2.2數據預處理與標注
使用Python結合OpenCV庫對原始圖像進行裁剪處理,生成新的目標檢測數據集,新的核桃數據集圖像尺寸為 640*640 像素,降低數據的圖像尺寸可以減輕目標檢測任務在訓練中所占的顯存,從而提升訓練速度以及檢測性能。在標注方面,使用了LabelImg標注軟件,按照 Voc2007 標準對數據進行標注。
裁剪后部分圖像會出現無核桃目標的現象,因此對數據進行清洗,清洗后一共有1456張核桃數據集圖像,共標注6497個核桃目標。對部分核桃原始圖像處理、標注結果見圖1。
圖1核桃圖像裁剪與標注
Figure1 Croppingand annotation of walnut images

為了更加直觀地顯示無人機數據集的優勢,本文統計了無人機圖像數據集中核桃目標框的寬高比和面積開方,寬高比集中分布在(0.2,2.5)區間內,而面積開方則分布在(20,85)區間內。
2.3 數據增強
針對本文的核桃數據集樣本量較小的問題,本文在訓練中進行了多種數據增強,如傳統的HSV色調增強、圖像平移、旋轉、裁剪、縮放、水平翻轉以及非傳統的mosaic。分別進行消融實驗探討傳統增強算法以及mosaic算法對于核桃數據集訓練的影響。具體圖像增強效果見圖2。
圖2數據增強示意圖
Figure 2Data enhancement diagram

3 YOLOv8目標檢測算法改進
在目標檢測領域,YOLOv8在繼承YOLOv5實時性特點的同時,實現了更高的準確率,且檢測速度翻倍,展現了顯著的性能優勢[22] 。
3.1 YOLOv8模型總體框架
本文擬在YOLOv8的基礎上添加注意力機制,使得該算法對通道之間的信息更為敏感,從而提升模型的準確率,改進后的框架見圖3。
圖3 YOLOv8-CA框架圖

YOLOv8 沿用了YOLOv5同樣的算法框架,其由降采樣的Backbone網絡、上采樣的Neck網絡以及檢測Head三部分組成,主要的改進是在Neck網絡中去掉了兩個Conv層,以及在檢測Head中,將YOLOv5的耦合Head改成了使用解耦Head。而其中提升的關鍵則在于將貫穿Backbone和Neck模塊中的C3模塊替換成了C2f模塊,C2f具體框架見圖4。
圖4 C2f模塊
Figure 4 C2f module

C2f比起YOLOv5使用的C3模塊,多了分離模塊,并加了許多跳層鏈接,這使得YOLOv8的C2f模塊可以考慮更多的信息,由于刪除了一個并行的卷積模塊,使得在增多跳層鏈接的情況下,其參數量并沒有較YOLOv5相差過多,保持了YOLO系列實時性的特點。
3.2 CA注意力機制改進
針對輕量級網絡的研究表明,通道注意力會給模型帶來比較顯著的性能提升,但是通道注意力通常會忽略數據在空間分布上非常重要的位置信息。
Coordinateattention(CA)將通道注意力分解為兩個沿著不同方向聚合特征的一維特征編碼過程[19]。該過程沿著兩個空間方向分別捕獲長程依賴和保留精確的位置信息;然后將生成的特征圖分別編碼,形成一對方向感知和位置敏感的特征圖,它們可以互補地通過輸入特征圖來增強模型捕捉目標特征的相關性能,CA機制見圖5。
圖5 CA機制
Figure 5 Coordinate attention mechanism

為了使得CA注意力機制與YOLOv8更好地結合,本文對YOLOv8框架以及核桃數據集進行深入研究。本文所采集的核桃數據集目標框大小分布集中,且核桃果實在圖像中分布隨機且均勻,核桃數據在空間中的信息量較低,本文通過研究發現,相較于在空間信息較大的淺層特征提取網絡,CA模型更適合在通道數較多的特征提取網絡最深層進行添加,即在YOLOv8的Backbone網絡與Neck網絡之間的SPPF后面。在本實驗過程中發現,在該位置插入CA機制較其他位置對YOLOv8模型的提升更為明顯。本文所添加的CA機制在YOLOv8框架中具體位置見圖3。
4實驗與結果分析
4.1 實驗環境
為了對比本文提出的改進YOLOv8-CA的性能與其他骨干模型的差異,本文在統一的實驗環境中
進行模型的訓練,以下為本次實驗的所有配置與超參數。
1)實驗配置
實驗環境使用了NVIDIAQuadroRTX6O00,顯存為24GB的GDDR6,接口類型為PCIExpress 4.016X,核心頻率為基礎頻率 1320MHz ,CUDA核心為4608個。系統使用了CentOSLinuxrelease7.9.2009,虛擬環境使用Anaconda3,IDE環境使用了PyCharmCommunity,開源框架使用了PyTorch。
2)訓練參數
訓練的初始學習率為0.01,周期學習率為0.01,批數量為32,訓練循環次數為300。數據增強比例參數為
0.4;平移增強:0.1;縮放增強:0.5;水平翻轉:0.5;mosaic:1.0。消融對照組均為0。
3)模型損失函數與評價指標
本文使用的損失函數為目標置信度損失函數(ObjLoss),邊界框損失函數(BoxLoss)和類別損失函數(ClsLoss),評價指標為召回率(Recal)和平均精確率 (mAP)
4.2數據增強消融實驗
為了驗證傳統數據增強和mosaic對于YOLOv8模型以及 Υ0L0v8–CA 模型的效果,本文進行了消融實驗,結果見表1。
表1數據增強消融實驗
Table1 Dataenhancedablationexperiment

從表1中可以看出,無論是YOLOv8還是本文提出的YOLOv8-CA在經過對數據集的增強后,Recall值都有了明顯的提升,這表明傳統圖像增強算法和mosaic增強算法能有效提高算法對于小批量數據集的檢測性能。而且,在YOLOv8模型中添加了CA注意力機制后,YOLOv8-CA相較于YOLOv8具有更多的參數量,因此對數據集增強更為敏感。
4.3 實驗結果對比
在實驗配置與參數相同的情況下,本文分別使用了Faster-RCNN、YOLOv5、YOLOv8、YOLOv8-CA對實驗數據集進行檢測,表2為檢測結果。表中的黑體為最優值。
表2模型對比實驗
Table2 Model comparison experiments

從表2可以看出,添加CA注意力機制后的YOLOv8-CA模型的 mAP 值均大于其他幾個模型,較YOLOv8和YOLOv5模型提高了0.004和0.051,Recal值也分別提高了0.019和0.089。與Faster-RCNN相比, Y0L0v8–CA 的Recal值僅低了O.007,但是其在檢測速度上有較大提升。
為了更直觀地顯示出本文所提出的模型與目前主流目標檢測模型YOLOv5之間的區別,本文選取了三個具有代表性的檢測場景來展示YOLOv5和YOLOv8-CA在同一張核桃圖像上的檢測性能差異。其中,三個場景分別為遮罩環境(圖6)、重疊環境(圖7)和陰影環境(圖8)。
圖6遮罩環境對比效果
Figure6Comparison of result in masked environments

圖7重疊環境對比效果
Figure 7 Comparison of result in overlapping environments

在圖6(a)中,YOLOv8-CA準確檢測出了場景中的6個核桃目標,而在圖6(b)中藍色標記框說明YOLOv5出現了漏檢現象。該現象表明YOLOv8-CA較YOLOv5對遮蔽嚴重的目標特征更為敏感
在圖7(a)中,YOLOv8-CA模型算法在兩個核桃重疊的情況下將核桃分別準確識別。但在圖7(b)上方藍色框中YOLOv5出現了復檢現象,其下方藍色框則是出現錯檢情況。
圖8陰影環境對比效果
Figure 8 Comparison of result in shadowed environments

在圖8(a)中,YOLOv8-CA檢測出了陰影中的核桃,而在圖8(b)中藍色框位置可以看出YOLOv5并未檢測出該目標。
4. 4 訓練結果
本文訓練YOLOv8-CA模型耗時為 6.609h ,得到的權重文件大小為14.8MB,隨著迭代次數增加,訓練過程中,訓練集和驗證集參數變化見圖9,評價指標參數變化見圖10。
圖9訓練損失函數變化圖
Figure 9 Training loss function change graph

通過圖9可以看出,本文所提出的 Υ0L0v8-CA 模型在目標檢測數據集循環150次左右已經達到收斂。圖10展示了模型評價指標Recal和mAP的值均在第100次迭代后開始平穩,證明YOLOv8-CA模型逐步收斂。
圖10 評價指標變化圖
Figure 1oEvaluation indicators change graph

5 結語
本文使用無人機采集數據,獲得的數據集標記框分布較手持設備采集的數據集更為集中,并提出在YOLOv8模型中添加CA機制,使得改進后的YOLOv8-CA模型較原始YOLOv8模型在Recal和mAP 值上均有所提升。在未來的研究中,可以在數據增強算法、模型網絡結構方面進一步研究,針對核桃圖像數據集特征來制定數據增強算法,優化網絡結構來提高 YOLOv8 目標檢測算法在核桃數據集上的應用性能。
參考文獻:
[1]賈偉寬,孟虎,馬曉慧,等.基于優化Transformer網 絡的綠色目標果實高效檢測模型[J].農業工程學報, 2021,37(14):163-170. JIAWK,MENGH,MAXH,etal.Efficient detection model of green target fruit based on optimized Transformer network[J]. Transactions of the Chinese society of agricultural engineering,2021,37(14):163-170.
[2]SONG Y,GLASBEY C A,HORGAN GW,et al. Automatic fruit recognition and counting from multiple images [J].Biosystems engineering,2014,118:203-215.
[3]WANG CL,LEE W S,ZOU XJ,et al. Detection and counting of immature green citrus fruit based on the local binary patterns (LBP)feature using illumination-normalized images[J].Precision agriculture,2018,19(6): 1062-1083.
[4]REHMANTU,MAHMUD M S,CHANGY K,et al. Current and future applications of statistical machine learning algorithms for agricultural machine vision systems [J]. Computers and electronics in agriculture,2019, 156: 585-605.
[5]WANG Y,XUN Y K,WANG Q H,et al. Review of smart robots for fruit and vegetable picking in agriculture [J].International journal of agricultural and biological engineering,2022,15(1):33-54.
[6]SAI,GE Z Y,DAYOUB F,et al. DeepFruits:a fruit detection system using deep neural networks[J]. Sensors,2016,16(8):1222.
[7]薛月菊,黃寧,涂淑琴,等.未成熟芒果的改進 YOLOv2識別方法[J].農業工程學報,2018,34(7): 173-179. XUE Y J,HUANG N, TU S Q,et al. Immature mango detection based on improved YOLOv2[J]. Transactions of the Chinese society of agricultural engineering,2018, 34(7):173-179.
[8]郝建軍,邴振凱,楊淑華,等.采用改進YOLOv3算 法檢測青皮核桃[J].農業工程學報,2022,38(14): 183-190. HAO JJ,BING Z K,YANG S H,et al. Detection of green walnut by improved YOLOv3[J].Transactions of the Chinese society of agricultural engineering,2022,38 (14):183-190.
[9]WAN S H,GOUDOS S. Faster R-CNN for multi-class fruit detection using a robotic vision system[J]. Computer networks,2020,168:107036.
[10]TANG YC,ZHOU H,WANG HJ,et al.Fruit detection and positioning technology fora Camellia oleifera c . Abel orchard based on improved YOLOv4-tiny model and binocular stereo vision[J]. Expert systems with applications,2023,211:118573.
[11]GAO FF,FANG W T,SUN X M,et al. A novel apple fruit detection and counting methodology based on deep learning and trunk tracking in modern orchard[J].Computers and electronics in agriculture,2022,197:107000.
[12]陳俊松,易積政,陳愛斌.CNS-Net:一種循環多注意 力特征聚合架構[J].鄭州大學學報(理學版),2024, 56(2):73-79. CHEN JS,YI J Z,CHEN A B. CNS-net:a cyclic multi-attention feature aggregation architecture[J]. Journal of Zhengzhou university(natural science edition), 2024,56(2):73-79.
[13]肖斌,羅浩,張恒賓,等.多尺度融合卷積的輕量化 Transformer無人機地物識別模型[J].鄭州大學學報 (理學版),2024,56(1):32-39. XIAO B,LUO H,ZHANG H B,et al.A lightweight transformer UAV surface feature recognition model based on multi-scale fusion convolutional networks[J]. Journal of Zhengzhou university (natural science edition),2024, 56(1):32-39.
[14]VASWANI A,SHAZEERN,PARMARN,etal. Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems.New York:ACM Press,2017:6000-6010.
[15] JADERBERG M,SIMONYAN K, ZISSERMAN A,et al. Spatial transformer networks[C]//Proceedings of the 28th International Conference on Neural Information. New York:ACM Press,2015: 2017-2025.
[16]WOO S,PARK J,LEEJY,et al. CBAM:convolutional block attention module[C]// European Conference on Computer Vision. Cham:Springer International Publishing,2018:3-19.
[17]HU J,SHEN L,SUN G. Squeeze-and-excitation networks[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press,2018: 7132-7141.
[18]WANG Q L,WUBG,ZHU PF,et al. ECA-net:efficient channel attention for deep convolutional neural networks[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press,2020: 11531-11539.
[19]HOU Q B,ZHOU DQ,FENG J S. Coordinate attention for efficient mobile network design[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE Press,2021:13708-13717.
[20]FU J,LIU J,TIAN HJ,et al. Dual attention network for scene segmentation[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway:IEEE Press,2019:3141-3149.
[21]HUANG Z L,WANG XG,HUANG L C,et al. CCNet: criss-cross attention for semantic segmentation [C]// IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE Press,2019: 603-612.
[22] JOCHER G,CHAURASIA A,QIU J. YOLO by ultralytics[EB/OL].(2023-02-28)[2023-10-15]. https:// github.com/ultralytics/ultralytics.