中圖分類號:S126:S571.1 文獻標識號:A 文章編號:1001-4942(2025)09-0173-08
Maojian Tea Bud Detection Method in Different Scene Based on Improved YOLOv5s
Cheng Zhenzhen1,Cheng Yifan2,Fang Tingting',Gong Shoufu 1 (1. Xinyang Agriculture and Forestry College, Xinyang 4640OO, China ;
CollegeofOptoelectronic Information Enginering,Huazhong UniversityofScienceandTechnology,Wuhan43O4,China
AbstractAccurate detection of tea buds is of great significance to the production and processing of tea. Aiming at the problems of insignificant small target features and serious interference from complex background in the detection of Maojian tea buds,a detection method based on improved YOLOv5s was proposed in this study.Firstly,the SE_CSP module combining the Squeeze-and-Excitation(SE)attention mechanism with the Cross Stage Partial networks(CSP)structure was designed and introduced into the backbone network of YOLOv5s. Secondly,the BiFPN(Bidirectional Feature Pyramid Network)module was introduced into the middle layer structure of the network to enhance the model's ability to extract small target features and the bidirectional fusion efect of multi-scale features,so as to adapt to the target detection needs in complex scenes. The improved YOLOv5s algorithm was verified using the tea bud datasets from diffrent scenes,and comparatively analyzed with multiple algorithms (Faster R-CNN,MobileNetV + SSD and YOLOv5s). The results showed that the model proposed in this study improved the precision,recall and mean average precision (MAP)by 3.8,6.5 and 5.8 percentage points respectively compared with the original YOLOv5s model. The improved YOLOv5s algorithm performed well in the accuracy of identifying tea buds in various scenes,significantly reducing the missed detection rate and 1 detection rate,which could provide technical supports for the automated and intelligent development of the tea industry.
KeywordsMaojian tea;Bud detection; Computer vision; YOLOv5s; Complex background; Small object detection;Attention mechanism
茶作為三大飲料之一,在全球范圍內享有極高的聲譽和廣泛的消費市場[1-2]。毛尖茶以其獨特的香氣、色澤和口感成為茶葉中的珍品[3-4]毛尖茶的品質在很大程度上取決于其嫩芽的采摘時機和質量[5]。茶葉嫩芽是指茶樹上初露頭角、尚未完全展開的幼嫩葉片,是生產高品質茶葉的關鍵原料。傳統的嫩芽采摘主要依賴于人工,存在效率低、成本高、主觀性強等缺點,無法滿足現代茶葉生產中對大規模高效采摘的需求[6-7]。相較于傳統的人工采摘方式,智能采摘機器人在提高采摘效率、降低勞動成本、減少人為誤差等方面展現出顯著優勢[8-9]。其中,茶葉嫩芽的準確識別是智能采摘機器人技術中的關鍵環節,直接關系到采摘的準確性和茶葉品質。
隨著人工智能和計算機視覺技術的快速發展,基于深度學習的目標檢測方法為茶葉嫩芽的自動化識別提供了新的契機[10-]。與傳統圖像處理方法相比,深度學習方法能夠自動學習圖像中的復雜特征,無需手動設計特征提取器,并可顯著提升檢測的準確性和效率[12-13]。在茶葉嫩芽檢測的研究中,深度學習模型如YOLO(You OnlyLook Once)[14]、Faster R-CNN(Fast Region-basedConvolutional Network )[15]和 SSD(Single ShotMultiBoxDetector)[16]等已被廣泛應用于提高茶葉嫩芽的識別率。王化佳等[17]采用MobileNetV2主干網絡與空洞卷積相結合的方法,提出了一種輕量級深度學習網絡來實現茶嫩芽分割與采摘點定位,該方法能較好地平衡茶嫩芽圖像分割速度與精度的矛盾,并通過外輪廓掃描與面積閾值過濾相結合的方法定位采摘點。朱紅春等[18]和許寶陽等[19]探索了FasterR-CNN目標檢測算法在復雜背景下茶葉嫩芽檢測方面的應用,表現出FasterR-CNN在處理復雜背景和多尺度目標方面的優勢,為茶葉嫩芽檢測提供了新的思路和方法。王子鈺等[20]利用改進后的SSD算法檢測茶葉嫩芽,結果表明該算法比傳統圖像處理方法更加準確。Yang等[21]提出了一種基于YOLOv3算法的茶葉嫩芽采摘點識別方法,結合K-means方法對圖像目標框的維度進行聚類,在茶葉嫩芽數據集上的準確率達到 90% 以上。方夢瑞等[22]提出一種改進 YOLOv4AA -tiny模型進行茶葉嫩芽的檢測,著重于解決茶葉大小不一、遮擋造成的嫩芽特征顯著性弱、漏檢率高等問題。
盡管現有研究在茶葉嫩芽檢測領域已取得了一定的成效,但在實際應用中仍面臨若干挑戰和局限性,特別是在處理小尺寸茶葉嫩芽的特征時往往因目標小、特征不顯著,在復雜背景條件下表現不佳。鑒于此,本研究提出一種基于改進YOLOv5s的毛尖茶葉嫩芽檢測方法,通過優化YOLOv5s的骨干網絡和中間層網絡結構增強模型對小目標特征的關注度,實現更高效的特征雙向融合,以期為茶葉產業的自動化和智能化提供技術支持。
1材料與方法
1.1 數據采集
原始圖像采集于河南省信陽市獅河區天云山華祥苑茶園,采集對象為信陽毛尖。茶園內的茶樹采用單壟種植方式,生長狀況優良。圖像采集使用的設備為iPhone 13Pro 和佳能EOSRP相機,分別獲取了 4 032×3 024 像素和 6240×4168 像素的高分辨率圖像。信陽毛尖是明前茶的代表,因此將數據采集時間定于2023年3月19日上午10:00至11:00,此時期的茶葉品質最佳。圖像采集過程中,拍攝設備與茶樹之間的距離控制在 10~50cm 內,拍攝角度為與嫩芽豎直方向夾角 0° 至 90° ,共獲得原始圖像587張,涵蓋了不同拍攝角度、不同背景復雜度以及單張圖像中目標數量不同的圖像,如圖1所示。為盡可能呈現茶葉的自然狀態,所有圖像均在自然光照條件下進行拍攝。
圖1不同場景下的茶葉嫩芽圖像示例

1.2 數據集構建
對拍攝的毛尖茶葉嫩芽圖像數據進行初步篩選,去除模糊、光照不均勻或構圖不合理的圖像,以確保數據的質量。使用標注工具Labelme對篩選后的圖像進行人工標注,采用矩形框精確標注出圖像中的嫩芽部分,標注的結果以COCO格式保存,包含了每個嫩芽的坐標和預測邊框數據。為了擴展和豐富訓練數據集,進一步對原始圖像進行數據增強操作(圖2),包括水平翻轉、垂直翻轉、隨機裁剪、旋轉、亮度調整等處理方式,以增強模型的泛化能力。經過數據增強后,最終生成了共計1182張圖像數據集。整個數據集按照訓練集、驗證集和測試集的比例約為8:1:1進行劃分,以確保模型的訓練效果和評估的可靠性。
圖2 數據增強處理示例

1.3基于改進YOLOv5s的毛尖茶葉嫩芽檢測算法1.3.1YOLOv5s模型網絡結構YOLOv5s(YouOnlyLookOnce,Version5Small)是一種實時目標檢測算法,由Jocher等[23]在2020 年提出。該算法基于YOLO系列模型的快速檢測框架,進一步優化了結構和檢測性能,特別是在輕量化網絡和計算效率方面。其中,YOLOv5s的一個顯著特性是采用了多尺度特征融合,能夠有效捕捉目標的全局和局部特征,從而提升對小目標的檢測能力;相比于前代模型,YOLOv5s進一步減少了參數量和計算成本,使其在嵌人式設備和實時應用中具有更高的實用性。因此,為了滿足高效、準確的目標檢測需求,本研究選擇YOLOv5s作為基礎網絡并進行改進,來執行毛尖茶葉嫩芽的檢測任務。圖3展示了YOLOv5s網絡的結構,包含輸入端、主干網絡、中間層和輸出端四個部分。在輸入端,模型接收原始圖像并進行預處理,如縮放、歸一化等操作。主干網絡包括若干個CBS 模塊(卷積、批歸一化、激活函數),用于提取圖像的初步特征。中間層通過CSP1 和 CSP2(Cross Stage Par-tialNetworks)模塊進行特征的重復利用和分流處理,以增強特征表達能力。SPP(SpatialPyramidPooling)模塊則對多尺度特征進行融合,以捕捉不同尺度的目標特征。在輸出端,模型通過3個不同尺度的檢測頭(Detect)對不同尺寸的目標進行檢測。
1.3.2主千網絡優化YOLOv5s模型的骨干網絡使用CSP結構,通過跨階段特征傳遞減少冗余計算,從而提升模型的特征提取效率。然而,該結構在小目標檢測上有一定的局限性,尤其是對于茶葉嫩芽這類細小的特征而言。鑒于此,本研究采用SE注意力機制,并將其與CSP結構相融合,構建新的SE_CSP模塊(圖4),旨在增強模型對小特征的感知與識別能力。SE模塊最初在2017年的 Squeeze-and-Excitation Networks(SENet)中被提出并得到應用,其核心包含壓縮(Squeeze)與激勵(Excitation)兩個互補的操作階段[24]。通過將SE模塊集成至CSP結構之中,不僅保留了CSP結構的輕量級特性和跨階段特征傳遞的優點,同時也引入了通道級別的特征注意力機制,提高了對小特征的識別能力。SE_CSP模塊的架構包含兩條并行處理路徑:一條路徑遵循傳統的卷積操作與殘差連接流程,另一條路徑則通過SE模塊對特征進行權重調整。兩條路徑的輸出在后續階段進行拼接,拼接后的特征圖再通過進一步的卷積處理提煉出融合后的深層特征,進而提升了模型在檢測細小目標方面的性能
圖3 YOLOv5s網絡結構

圖4SE_CSP模塊結構

1.3.3 中間層網絡優化YOLOv5s模型采用了PANet(路徑聚合網絡)架構以實現特征融合,然而,該架構在多尺度特征交互與融合方面仍具有一定的優化潛力,尤其在應對小目標檢測任務時。針對此問題,本研究引入BiFPN(雙向特征金字塔網絡)模塊對PANet進行替換,以進一步提升特征融合的效果。兩種Neck網絡結構對比如圖5所示。BiFPN模塊是基于特征金字塔網絡(FPN)的改良版本,能夠強化多尺度特征的交互與整合能力[25]。傳統FPN網絡采用自頂向下的特征融合方式,而PANet在此基礎上增加了自底向上的路徑。盡管如此,這兩種結構在處理不同層次特征時仍不能有效平衡特征圖的權重。BiFPN通過實施雙向(自頂向下與自底向上)特征融合機制,并在每一特征層采用加權求和運算,自適應地學習不同尺度特征的貢獻度,從而實現更為精確的多層次特征融合。BiFPN的核心特性主要體現在兩個方面:一是雙向融合,同時利用自頂向下和自底向上的路徑,使得高層語義信息與底層細節信息得到更充分的交互,從而提高對多尺度目標的識別能力;二是特征融合加權,在特征融合過程中引入加權策略,通過學習權重以自適應調整不同特征層的重要性,確保關鍵特征信息在融合過程中的完整性。
圖5PANet和BiFPN的網絡結構

綜上所述,本研究在兩個方面對YOLOv5s模型進行改進,一是在主干網絡中,使用結合了注意力機制的SE_CSP模塊替換關鍵層的CSP模塊,以增強對茶葉嫩芽等小尺寸目標的特征提取能力;二是在Neck網絡中,使用BiFPN模塊替代原有的PANet結構,以優化多尺度特征的融合效率。本研究提出的改進YOLOv5s模型結構如圖6所示。
1.4 評價指標
為了評估所提出算法在茶葉嫩芽檢測任務上的有效性,本研究使用精確率(Precision,P)召回率(Recall,R)和平均精度均值(Mean AveragePrecision,mAP)作為評價指標。精確率衡量了模型在所有預測為茶葉嫩芽的檢測結果中,正確識別為嫩芽的比例;召回率衡量了在所有實際為茶葉嫩芽的目標中,被正確識別為嫩芽的比例;mAP則綜合了精確率和召回率,可用于衡量模型的整體檢測性能。各評價指標的計算公式如下:
圖6改進YOLOv5s模型結構


式中:P表示精確率;R表示召回率; TP 為正確檢測出的茶葉嫩芽數量; Fp 為被錯誤檢測為嫩芽的數量; FN 為未能檢測出的茶葉嫩芽數量; YAP 表示在0~1之間的所有召回率對應的精確率的平均值,定義為不同召回率下的精確率曲線的面積;N為類別數量(在本研究中只有一個目標類別茶葉嫩芽); YAPi 表示第i個類別的平均精度;YmAP 表示所有類別的平均精度均值。
1.5 試驗平臺和參數設置
本實驗在運行Ubuntu16.04LTS的Linux工作站上進行,配備支持CUDA10.0的NVIDIAGPU(用于加速深度學習計算)。實驗環境包括Python3.7、PyTorch1.4.0和CUDNN7.5。模型訓練分為兩個階段:凍結階段和解凍階段。凍結階段的起始世代數(Init_Epoch)設置為O,凍結訓練的世代數(Freeze_Epoch)為50,批樣本數(batchsize)為4。解凍階段的總訓練世代數(UnFreeze_Epoch)為450,解凍階段的批樣本數為2。整體訓練輪數(epoch)設置為500,初始學習率(learningrate)為0.001,輸人圖片的批樣本數在凍結和解凍階段分別為4和2。
2 結果與分析
2.1 模型訓練
將訓練結果進行可視化處理,獲得模型在訓練集與驗證集上的損失值數據。圖7展示了模型在500個訓練輪次中的訓練損失與驗證損失的變化趨勢??梢钥闯?,訓練損失與驗證損失在訓練初期均呈現迅速下降的趨勢,這表明模型在初始階段實現了快速的收斂,揭示了模型在有效學習數據特征方面的能力;當訓練進行至大約50個epoch后,兩條損失曲線均呈現出趨于平穩的態勢,損失值逐漸穩定。盡管驗證損失相對較高,但它與訓練損失之間的差距保持在可接受的范圍之內,證明模型在驗證集上表現良好??傮w而言,模型在收斂過程中展現出了良好的魯棒性與穩健性。
圖7模型訓練結果

2.2 消融實驗
為了驗證改進的YOLOv5s算法對目標檢測性能的影響,進行了消融實驗,以驗證每種改進措施的貢獻。由表1可知,引入SE_CSP模塊后,相比原始模型YOLOv5s,精確率提高2.4個百分點,召回率提高2.7個百分點,mAP提高1.8個百分點。這說明SE_CSP模塊的引入通過增強特征選擇能力,有效提高了模型在區分目標和非目標時的精度。單獨引人BiFPN模塊后,相比YOLOv5s,模型的精確率提高1.1個百分點,召回率提升4.3個百分點,mAP提高4.3個百分點。對比單獨增加SE_CSP和BiFPN模塊可知,前者更加側重于通過通道間的權重調整來增強特征圖的表達能力,主要提升模型的精確率,適合對目標和非目標進行更精細的區分;后者則通過多尺度特征的融合,提升了對不同大小目標的檢測能力,更有利于提高召回率,即在復雜背景下檢測到更多目標。最終,同時引入SE_CSP和BiFPN模塊時,模型的性能達到最優,相比YOLOv5s模型,精確率提高3.8個百分點,召回率提高6.5個百分點,mAP提高5.8個百分點,表明通過SE_CSP的特征增強及BiFPN的特征融合,兩者協同作用顯著提升目標檢測的整體性能。
表1消融實驗結果

2.3 不同目標檢測模型對比試驗
為了進一步驗證改進YOLOv5s的性能,選擇3種主流的目標檢測模型進行對比,包括FasterR-CNN、MobileNetV3+SSD 和YOLOv5s。其中,FasterR-CNN是一種兩階段檢測模型,在精度上表現較好; MobileNetV3+SSD 是一種輕量級單階段檢測模型,適合資源受限的場景;YOLOv5s則是當前流行的單階段檢測模型,以速度和精度的平衡性著稱。結果(表2)顯示,在毛尖茶葉嫩芽檢測任務上,MobileNetV3+SSD的性能最差,精確率、召回率、 mAP 均低于 80% ,但推理速度較快,用時僅 0.25s ,適合對實時性要求較高的應用場景;FasterR-CNN更適用于目標細分和復雜背景的檢測任務,相比 MobileNetV3+SSD 精確率提高6.2個百分點,召回率、 .mAP 均提高6.7個百分點,但其推理時間相對較長,達到 0.54s 。與FasterR-CNN相比,YOLOv5s的精確率提高1.5個百分點,但召回率和mAP均降低0.9個百分點,推理時間為 0.32s 。這表明YOLOv5s相比Faster R-CNN更加注重速度和精確度,更適合需要高效處理的場景。本研究提出的改進YOLOv5s模型雖然推理用時比
略有增加(0.37s),但是精確率、召回率、mAP都明顯優于其他模型,分別達到 89.1%.84.7%.86.4% ,性能明顯提升。
表2不同模型的試驗結果對比

進一步對比了FasterR-CNN、MobileNetV3+SSD、YOLOv5s以及本研究提出的改進YOLOv5s算法在茶葉嫩芽識別任務中的實際檢測性能,結果(圖8)顯示,FasterR-CNN算法在目標邊界框的定位精度上表現優異,即便在復雜背景下也能有效區分茶葉嫩芽,然而當目標被遮擋時會存在一定的漏檢現象。 MobileNetV3+SSD 算法在處理復雜場景時性能有所下降,特別是在嫩芽與周圍葉片顏色相似以及特征辨識度較低的 90° 視角時,易出現誤檢、漏檢以及邊界框定位不準確的問題。作為單階段檢測模型的YOLOv5s,在多數場景下保持了較好的檢測能力,但在處理復雜背景時檢測精度略顯不足。通過引入SE_CPS和BiF-PN模塊對YOLOv5s算法進行優化后,對小目標的檢測性能明顯提升,特別是在處理復雜背景、多目標以及小目標的場景中,本研究提出的改進模型表現明顯優于其他模型,BiFPN與SE_CPS協同作用提升了檢測的全面性和準確性。
圖8不同模型對茶葉嫩芽的識別檢測效果

3 結論
針對當前茶葉嫩芽檢測過程中出現的小目標特征不明顯、復雜背景干擾嚴重等問題,本研究提出了一種基于改進YOLOv5s模型的毛尖茶葉嫩芽檢測方法。該方法首先通過替換原YOLOv5s主干網絡中的CSP1_1模塊為SE_CSP模塊,增強模型對小尺度目標特征的提取能力;其次,在頸部網絡中引人BiFPN模塊,進一步加強多尺度特征之間的雙向交互與融合,提升復雜背景下的目標檢測精度。實驗結果表明,相較于原始YOLOv5s模型,本研究提出的改進YOLOv5s模型精確率提高3.8個百分點,召回率提高6.5個百分點,mAP提高5.8個百分點,在毛尖茶葉嫩芽檢測任務中處理小目標特征和適應復雜場景方面具有顯著優勢,實現了較高的檢測準確率和魯棒性,可為茶葉產業的自動化和智能化提供有力的技術支持。未來的研究工作將通過擴展數據集、引入多模態信息或結合領域知識,進一步提升模型的識別能力和泛化性能。
參考文獻:
[1]徐陽,楊冬,王培強,等.我國茶飲料及其標準的現狀與思
考[J].茶葉,2021,47(3):169-173.
[2]王刻銘,黃勇,劉仲華.中國茶葉國際競爭力分析[J].農業現代化研究,2020,41(1):45-54.
[3] 崔繼來,周潔,周倩倩,等.信陽毛尖茶品質成分分析[J].信陽師范學院學報(自然科學版),2022,35(2):259-268.
[4]陳義,袁丁,孫慕芳.信陽毛尖茶葉感官品質與化學成分的相關性分析[J].江蘇農業科學,2014,42(11):342-344.
[5]張潔,趙仁亮,郭桂義,等.幾種信陽毛尖茶的化學成分及品質研究[J].信陽農業高等??茖W校學報,2014,24(1):105-107,113.
[6] 吳雪梅,張富貴,呂敬堂.基于圖像顏色信息的茶葉嫩葉識別方法研究[J].茶葉科學,2013,33(6):584-589.
[7]陸德彪,尹軍峰.我國名優綠茶機械化采摘的意義與實現路徑[J].中國茶葉,2018,40(1):1-4.
[8]陸鑫,李恒,徐麗明,等.雙臂式茶葉采摘機器人的改進設計[J].農機化研究,2015,37(2):101-106.
[9]李亞濤,周宇杰,王少卿,等.名優茶采摘機器人收獲試驗[J].茶葉科學,2024,44(1):75-83.
[10]邵佩迪,吳明暉,季亞波,等.茶葉嫩芽機器視覺識別算法研究[J].農業裝備與車輛工程,2020,58(4):34-36,45.
[11]高震宇,王安,劉勇,等.基于卷積神經網絡的鮮茶葉智能分選系統研究[J].農業機械學報,2017,48(7):53-58.
[12]呂盛坪,李燈輝,洗榮亨.深度學習在我國農業中的應用研究現狀[J].計算機工程與應用,2019,55(20):24-33,51.
[13]鄭遠攀,李廣陽,李曄.深度學習在圖像識別中的應用研究綜述[J].計算機工程與應用,2019,55(12):20-36.
[14]Redmon J,Divvala S,Girshick R,et al. You Only Look Once:unified,real-time objectdetection[C]//2O16IEEE Confer-ence on Computer Vision and Pattern Recognition(CVPR).IEEE,2015:779-788.
[15]Ren S,HeK,Girshick R,etal.Faster R-CNN:towards real-time object detection with region proposal networks[J]. IEEETransactionsonPattern Analysisamp;MachineIntelligence,2017,39(6):1137-1149.
[16]Liu W,Anguelov D,Erhan D,et al. SSD: Single Shot MultiBoxDetector[C]//Computer Vision-ECCV 2016.ECCV 2016.Lecture Notes in Computer Science,vol. 9905. Cham.:Spring-er,2016:21-37.
[17]王化佳,顧寄南,王夢妮,等.基于深度學習的茶嫩芽分割與采摘點定位方法研究[J].中國農機化學報,2024,45(5):246-252.
[18]朱紅春,李旭,孟煬,等.基于FasterR-CNN網絡的茶葉嫩芽檢測[J].農業機械學報,2022,53(5):217-224.
[19]許寶陽,高延峰.基于Faster-RCNN深度學習的茶葉嫩芽多維度識別及其性能分析[J].農業裝備與車輛工程,2023,61(2) :19-24.
[20]王子鈺,趙怡巍,劉振宇.基于SSD算法的茶葉嫩芽檢測研究[J].微處理機,2020,41(4):42-48.
[21]YangHL,ChenL,Chen MT,et al. Tender tea shoots recogni-tion and positioning for picking robot using improved YOLO-V3model[J]. IEEE Access,2019,7:180998-181011.
[22]方夢瑞,呂軍,阮建云,等.基于改進YOLOv4-tiny的茶葉嫩芽檢測模型[J].茶葉科學,2022,42(4):549-560.
[23]Jocher GR,Stoken A,Borovec J,et al. Ultralytics/YOLOv5:v3.1-Bug Fixes and Performance Improvements[J/OL].2020.DOI:10.5281/ZENODO.4154370.
[24]Hu J,Shen L,Sun G,et al. Squeeze-and-Excitation Networks[C]//2O18 IEEE/CVF Conference on Computer Vision andPatternRecognition,SaltLakeCity,UT,USA.IEEE,2018:7132-7141.
[25]Tan MX,PangRM,LeQV.EfficientDet:Scalable and Effi-cientObject Detection[C]//2O2O IEEE/CVFConferenceonComputer Vision and Pattern Recognition(CVPR).IEEE,2020:10781-10790.