

















摘 要:為了提高農業自動化雜草檢測的效率和準確性,提出了一種基于改進YOLOv8(YouOnlyLookOnceversion8)的百合地雜草分類識別方法。針對百合地雜草形態多樣、顏色特征復雜且區分度低的難題,引入了TransNext聚合注意力模塊和DCNv2(DeformableConvNetV2)注意力機制,優化了YOLOv8-n模型的特征提取和目標識別性能。通過實施數據增強策略,顯著地提升了模型的泛化能力和識別準確性。實驗結果表明,改進后的模型在自建數據集上的準確率達到90.1%,相比于原始YOLOv8模型的準確率提高了6百分點,充分展現了其在復雜非結構化背景下進行雜草分類的潛力和應用價值。
關鍵詞:YOLOv8;雜草識別;深度學習;目標分類
中圖分類號:TP391 文獻標志碼:A
0 引言(Introduction)
本研究主要關注蘭州百合[1]種植地的雜草種類研究。隨著百合種植面積的不斷擴大,雜草問題[2]日益突出。近年來,隨著科技的飛速發展,基于深度學習的目標識別技術被廣泛應用于農業領域,特別是在自動化雜草識別[3]方面展現出巨大的潛力。這些系統能夠通過圖像識別技術精確地識別出雜草,從而顯著地提高了除草的效率和準確性。目前,眾多學者致力于改進深度學習算法模型,并嘗試將其應用于雜草分類與識別研究中。例如,何全令等[4]提出了一種GBC-YOLOv5s(GhostBottleneckConvolution-YouOnlyLookOnceversion5small)實時目標檢測算法,在單獨類別測試任務中的平均精度達到了96.3%。李兆旭等[5]提出一種基于MobileNet-SSD的雜草識別模型,該模型的精度比原模型的精度提高了3.23百分點。
盡管已有的針對雜草分類的研究已經取得了一些進展,但是仍存在一些問題,因此本研究采用改進的YOLOv8算法對百合地的雜草進行分類研究。改進的YOLOv8算法的優勢在于它采用了先進的訓練方法和技巧,使得模型的訓練時間更短、收斂速度更快,并且具備更強的泛化能力;此外,改進的YOLOv8算法支持自定義構建的數據集訓練,適合特定場景的目標分類。
1 材料與方法(Materialsandmethods)
1.1 數據集
1.1.1 數據來源
在本研究中,構建一個高質量且具有代表性的數據集是提高百合地雜草識別模型性能的關鍵。為此,研究人員特地在甘肅省農業科學院植物保護研究所七里河西果園村試驗基地開展了廣泛的雜草圖像采集工作。來源于該基地的觀測和統計數據顯示,對百合生長的早期、中期和后期構成嚴重威脅的田間雜草主要歸屬于莧科、菊科和旋花科。實驗采集的雜草圖像如圖1所示,屬于莧科的雜草主要如圖1(a)中的凹頭莧、圖1(b)中的刺藜、圖1(c)中的反枝莧、圖1(d)中的菊葉香藜;屬于菊科的雜草主要如圖1(e)中的苣荬菜;屬于旋花科的雜草主要如圖1(f)中的田旋花。
實驗采集的雜草圖像涵蓋了雜草的不同生長階段和多種生長環境,經過精心篩選,得到了總計5666張圖像,其中包括2233張百合圖像、427張凹頭莧圖像等。每張圖像都經過了嚴格的質量控制,確保圖像清晰、雜草特征明顯,并且無過多的背景干擾,為后續的模型訓練和評估提供了堅實且可靠的基礎。百合-雜草數據集詳情表如表1所示。
1.1.2 數據增強策略
針對百合地雜草識別任務,研究人員采用了多種數據增強策略,旨在提升改進YOLOv8模型對雜草的識別準確性。部分雜草圖像增強后數據如圖2所示,其中圖2(a)為原圖。首先,通過調整圖像的亮度和對比度,模擬不同光照條件下的雜草圖像,從而增強了模型對光照變化的適應性,圖2(b)為亮度增加后的圖像,圖2(c)為亮度降低后的圖像。其次,通過對圖像進行水平翻轉,提高了模型對物體左右位置對稱性的識別能力,圖2(d)為水平翻轉后的圖像。此外,還采用隨機旋轉和縮放操作模擬了自然環境中雜草因風力等因素而呈現出的不同朝向,增強了模型對尺度變化的魯棒性。圖2(e)為隨機翻轉,圖2(f)為隨機縮放。在實施數據增強操作時,應注重保持增強后圖像的真實性和一致性,避免引入不真實的視覺效果。圖像增強示例如圖2所示。
通過實施上述數據增強策略,成功地擴充了訓練集的規模,并提高了模型對不同條件下雜草的識別能力,為后續的模型優化奠定了堅實的基礎。百合-雜草數據集經過數據增強后的各類圖像的數量如表2所示。
1.2 Yolov8網絡
YOLOv8是目標檢測領域的一項先進技術[6],是YOLO系列的最新成果,在多個方面進行了優化和改進。其中,YOLOv8包含多個版本,如YOLOv8n(YouOnlyLookOnceversion8nano)、YOLOv8s(YouOnlyLookOnceversion8small)等,本研究選用的是YOLOv8n模型,該模型具有較快的檢測速度,并且提供了最小的深度和特征圖寬度,適合資源受限或要求高效的場景。
YOLOv8的核心特點包括Mosaic圖像增強、自適應錨框計算及自適應圖片縮放。Mosaic方法通過隨機拼接4張圖像,提高了模型對多樣化場景的適應能力。自適應錨框計算和圖片縮放則確保了模型對不同尺寸目標的有效檢測。此外,YOLOv8在訓練后期關閉了圖像混疊增強技術,以優化訓練效果。
YOLOv8的結構分為輸入層、Backbone網絡、Neck網絡和Head網絡4個主要部分。Backbone[7]網絡由CBS(ContextBasedSpatialAttention)、C2F(ConvolutionaltoFeature)和SPPF(SpatialPyramidPoolingFast)模塊組成,負責從輸入圖像中提取特征。C2F模塊是YOLOv8中的一項創新設計,其結構圖如圖3所示,它基于YOLOv7(YouOnlyLookOnceversion7)的ELAN(EfficientLongRangeAttentionNetwork)和YOLOv5(YouOnlyLookOnceversion5)的C3(3convolutions)模塊設計,其中C3模塊結構圖如圖4所示。通過增加分支,C2F模塊提高了特征提取的效率。此外,YOLOv8 還沿用了YOLOv5中的SPPF 模塊,以進一步優化特征提取過程。SPPF模塊在YOLOv8中保持了其在YOLOv5中的功能和結構。Bottleneck作為一種特殊的殘差結構,也在YOLOv8中發揮了重要作用。
Neck網絡采用FPN(FeaturePyramidNetwork)和PAN(PathAggregationNetwork)結構,它們負責融合不同層級的特征信息。FPN 增強了模型的感知能力和尺度不變性,而PAN則提升了多尺度特征的融合效果。這些結構的結合使得YOLOv8在理解圖像上下文信息方面的表現更為出色。
Head網絡負責最終的目標檢測任務,包括分類和邊界框回歸。YOLOv8采用了解耦頭結構,將分類和檢測頭分離,提高了檢測的準確性,同時它引入了Anchor-Free機制,使得模型能夠更準確地預測目標的位置和大小。YOLOv8網絡結構圖如圖5所示。
本研究選取了YOLOv8系列中的YOLOv8n模型作為基礎框架,并對其進行了針對性的優化,優化后的模型因為具有較小的網絡深度和特征圖尺寸,所以展現出了檢測快速和穩定的特點,非常適合應用于百合地雜草識別任務。
2 改進的YOLOv8 算法(ImprovedYOLOv8algorithm)
為了提升百合田間雜草辨識的準確性與處理速度,并減少遺漏的檢出情況,本研究對YOLOv8n模型實施了以下兩項優化措施。
2.1TransNext聚合注意力
本研究在針對YOLOv8n模型中引入了TransNext聚合注意力模塊[8],旨在進一步提升百合地雜草識別的精度和效率。將此注意力融合至C2F模塊,通過增強特征提取的針對性和有效性,從而優化了模型的整體性能。TransNext聚合注意力位置如圖6所示。
TransNext的設計靈感來源于生物視覺系統,它采用了雙路徑設計,結合了滑動窗口注意力和集中注意力,以模擬人眼對細節的聚焦和對全局場景的理解。TransNext通過像素集中注意力PFA(Pixel-FocussedAttention)對輸入特征圖的單個像素進行操作,使用自適應平均池化和單層神經網絡提高信息壓縮率。同時,引入激活池機制能保證信息壓縮過程中的方差一致性,減少信息丟失。TransNext 還融入了可學習的鍵值LKV(Learnable-Key-Value)注意機制,這一機制與傳統QKV(Query-Key-ValueAttentionMechanism)機制不同,它通過學習定義的查詢來執行交叉注意,有效地提升了信息聚合效果,并降低了計算開銷。此外,TransNext采用的長度尺度余弦注意機制,增強了模型對多尺度圖像輸入的處理能力。同時,TransNext還設計了卷積GLU(GatedLinearUnit)作為通道混頻器,不僅能捕捉位置信息,而且還提供門控信號,解決了傳統SE(Squeeze-and-Excitation)機制問題,滿足ViT(VisionTransformer)模型對位置信息的需求。這些改進顯著提升了模型在復雜視覺任務中的識別準確性。TransNext架構如圖7所示。
2.2 DCNv2注意力機制
本研究中引入了DCNv2注意力機制來增強模型對空間特征的敏感度,特別是在百合地雜草識別任務中。DCNv2通過調制可變形卷積網絡[9],允許模型調整輸入特征的偏移量和特征幅度,從而優化了特征提取的過程[10]。將此注意機制與Bottleneck中的CBS進行替換,DCNv2注意力機制位置如圖8所示。
DCNv2注意力機制的核心在于其可學習的偏移量和調制標量,它們均通過一個單獨的卷積層獲得,為了確保初始時具有均勻的感受野,該卷積層的核權值被初始化為0。給定k 個采樣位置的卷積核[11],令wk 表示權重,pk 表示預先指定的偏移量,它們分別處于第k 個位置。設x(p)和y(p)分別表示輸入特征映射x 和輸出特征映射y 中位置p 處的特征,調制的可變形卷積則可以表示為
其中,Δpk 和Δmk 分別是第k 個位置的可學習偏移量和調制標量[12]。調制標量由sigmoid層歸一化,控制特定空間位置的特征對輸出的影響,增強模型對不同區域特征的適應性。此外,DCNv2還包括調制可變形RoIpooling,給定一個輸入RoI,RoIpooling將其劃分為k 個空間箱(例如7×7)。在每個bin中,應用偶數空間間隔的采樣網格(例如2×2)。對網格上的采樣值取平均值以計算bin輸出。設Δpk 和Δmk 為第k 個bin的可學習偏移量和調制標量,輸出的分箱特征y(k)計算公式為
其中:pkj 為第k 個bin中第j個網絡單元的采樣位置;nk 為采樣的網格單元個數,它在每個空間箱內應用采樣網格,并對網格上的采樣值取平均,以進一步提升模型對目標形狀的適應性。
3 實驗與分析(Experimentandanalysis)
3.1 實驗環境與參數配置
本實驗模型訓練使用Windows系統、圖形處理器(GPU)為NVIDIAGeForceGTX1050Ti、中央處理器(CPU)為英特爾Corei5-8300HCPU @2.30GHz、運行內存為40GB、內存為80GB、操作系統為Ubuntu20.01、深度學習框架為PyTorch1.11.0、Epoch學習率設置為100、BatchSize設置為16。損失函數在模型訓練的超參數上,初始學習率設置為0.001且采用動態學習率策略。每30個Epoch縮小10倍,有利于模型更快地收斂,避免局部最優解的誤導。利用交叉墑損失函數計算模型的損失值,使用SCD優化器迭代訓練參數。
3.2 評價指標
為了能夠量化模型的識別性能,本實驗采用準確率(Accuracy)、精確度(Precision)、召回率(Recall)和F1分數作為評價指標,用于定量比較模型的識別性能;具體計算公式如公式(3)至公式(6)所示:
其中:TP 代表真陽性,FP 代表假陽性,TN 代表真陰性,FN代表假陰性。
3.3 實驗過程結果與分析
3.3.1 不同算法對比實驗分析
為了全面評估改進后的YOLOv8算法模型在百合地雜草識別任務中的性能表現,本研究設計了一系列對比實驗。這些實驗旨在比較改進的YOLOv8 模型與原始YOLOv8、YOLOv7以及YOLOv5模型在相同數據集上的表現差異。通過這種方法,我們可以直觀地觀察到改進模型在準確率、精確度、召回率和F1分數等關鍵性能指標上的優勢。在實驗設計中,確保所有模型在相同的數據集上進行訓練和測試,以保證結果的公平性和可比性。此外,所有模型都在相同的硬件和軟件環境下運行,以排除外部因素對實驗結果的影響。本研究采用了交叉驗證的方法,確保每個模型都有充分且均等的機會在訓練集和測試集上展示其性能。實驗對比結果如表3所示。
根據表3的實驗結果,改進后的YOLOv8模型在所有評價指標上均顯著優于原始的YOLOv8、YOLOv7和YOLOv5模型的對應指標。具體來說,改進YOLOv8模型的準確率達到了90.1%,比原始YOLOv8模型的準確率提高了6百分點。在精確度方面,改進模型達到了88.7%,比原始模型的精確度提高了10.3百分點。在召回率上,改進模型同樣表現出色,達到了89.9%,比原始模型的召回率提高了9.3百分點。在綜合考慮精確度和召回率的F1分數指標上,改進模型達到了89.3%,比原始模型的F1提高了10.1百分點。這些數據表明,改進模型的特征提取能力和對小目標的識別精度有了顯著的提升。此外,改進模型在保持高識別精度的同時,還實現了存儲空間的更少占用,使得其在實際應用中更具可行性和高效性。
3.3.2 消融實驗
為了深入理解改進的YOLOv8模型中各個組件的貢獻,本研究進行了一系列的消融實驗。這些實驗通過逐步移除模型中的某些關鍵部分,細致觀察這些變動對模型性能所產生的影響。通過這種方法能夠揭示TransNext聚合注意力模塊和DCNv2注意力機制等組件對模型識別能力的具體貢獻。
在消融實驗中,本研究先訓練了一個包含所有優化和增強組件的改進YOLOv8模型。隨后,逐一移除了TransNext聚合注意力模塊和DCNv2注意力機制模塊,并記錄每次模塊被移除后模型的性能變化。這樣的實驗設計,使得我們能夠獨立地評估每個模塊對模型整體性能的貢獻。為確保對比結果的合理性,所有模型均使用相同的數據集,并在相同的參數環境下進行訓練,消融實驗對比結果如表4所示。
分析表4中的實驗結果可知,當本研究從改進的YOLOv8模型中移除TransNext聚合注意力模塊時,模型的識別準確率和F1分數分別下降了3.4百分點和4.5百分點。進一步移除DCNv2注意力機制模塊后,模型的識別準確率和F1分數再次下降,分別降低了2.3百分點和3.7百分點。添加TransNext聚合注意力模塊和DCNv2注意力機制模塊的YOLOv8-n,其識別精確率是90.1%,F1分數是89.1%,與原YOLOv8相比,分別提高6百分點和9.9百分點。這表明,TransNext聚合注意力模塊對于提升模型在復雜背景中識別雜草的能力起到了重要的作用,而DCNv2注意力機制則在優化特征提取過程及增強模型對多尺度目標識別能力方面發揮了重要作用。
3.3.3 混淆矩陣分析
模型改進前后的混淆矩陣圖如圖9所示。其中,圖9(a)為模型改進前混淆矩陣圖,圖中顯示某些類別間存在較為嚴重的誤分類現象,這可能是由于這些類別視覺相似度高或模型在相應類別的特征學習上存在欠缺。圖9(b)為模型改進后混淆矩陣圖,可以看出混淆情況有了顯著改善,特別是在那些原本難以區分的類別上,模型的識別準確率實現了顯著提升,這表明改進后的模型在特征提取和分類決策方面表現得更為精準。
具體來說,改進模型在主要類別上的預測準確率得到了提高,這反映在混淆矩陣對角線上值的增加。同時,非對角線區域的值減小,意味著誤分類的情況得到了有效控制。這些變化不僅證明了改進模型的有效性,而且提供了進一步優化模型的方向,即通過增強模型對類別間細微差別的識別能力來減少誤分類?;煜仃嚪治鲞€揭示了模型在某些特定類別上的性能瓶頸。對于那些頻繁發生誤分類的類別對,本研究可以有針對性地采取數據增強或模型調整措施,以進一步提升模型的泛化能力和魯棒性,這與實驗預期相符。
3.3.4 改進的YOLOv8模型檢測結果
本研究對改進的YOLOv8模型進行了全面的測試,以評估其在實際應用場景中的性能表現。改進的YOLOv8模型在測試機上的結果如圖10所示,測試結果表明,該模型在百合地雜草識別任務中表現出色,特別是在處理具有復雜特征和類間差異較小的雜草圖像時,展現了出色的識別能力。通過對比測試圖像及其預測結果可以看到,改進的YOLOv8模型不僅能夠準確地識別出百合植株和各類雜草,而且能夠在多變的自然環境中穩定地進行分類。這一優勢在模型檢測結果的可視化展示中得到了直觀的呈現,即便在雜草與百合植株交織錯落的復雜背景下,模型也能準確地將目標雜草定位并識別出來,特別是在面對難以區分的雜草種類時,改進的YOLOv8模型顯示出了更高的識別準確率,充分證明了其在實際應用中的優越性和可靠性。
4 結論(Conclusion)
本研究針對百合地雜草形態多樣、顏色特征復雜、區分度低的問題,提出了一種基于改進YOLOv8的雜草分類識別方法。通過構建高質量且具有代表性的百合地雜草圖像數據集,使用數據增強策略,以及引入TransNext聚合注意力模塊和DCNv2注意力機制,顯著地提升了模型的特征提取能力和對小目標的識別精度。實驗結果表明,改進的YOLOv8模型在自建數據集上的準確率達到90.1%,比原始YOLOv8模型的準確率提高了6百分點,展現了其在復雜非結構化背景下執行雜草分類任務的潛力和廣闊的應用價值。
參考文獻(References)
[1]陳應娥,梁巧蘭,魏列新,等.兩種銅制劑與化學農藥混配對蘭州百合貯存期鱗莖腐爛病防治作用[J].西北農業學報,2024,33(2):292-302.
[2]牛樹君,趙峰,王玉靈,等.幾種除草劑對蘭州百合田雜草的防除效果及其安全性評價[J].植物保護,2021,47(6):296-301,317.
[3]王建翠,惠巧娟,吳立國.基于多尺度注意力和深度可分離卷積的農田雜草檢測[J].中國農機化學報,2023,44(5):182-187.
[4]何全令,楊靜文,梁晉欣,等.面向嵌入式除草機器人的玉米田間雜草識別方法[J].計算機工程與應用,2024,60 (2):304-313.
[5]李兆旭,蔣紅海,楊肖,等.基于輕量化深度學習模型的豆角苗-雜草檢測方法[J].農業裝備與車輛工程,2022,60 (9):98-102,107.
[6]PAYGHODEV,GOYALA,BHANA,etal.Objectdetectionandactivityrecognitioninvideosurveillanceusingneuralnetworks[J].Internationaljournalofwebinformationsystems,2023,19(3/4):123-138.
[7]何穎,陳丁號,彭琳.基于改進YOLOv5模型的經濟林木蟲害目標檢測算法研究[J].中國農機化學報,2022,43 (4):106-115.
[8]代季峰.通用目標檢測技術新進展:可變形卷積網絡再升級[J].人工智能,2019,6(2):28-39.
[9]高昂,梁興柱,夏晨星,等.一種改進YOLOv8的密集行人檢測算法[J].圖學學報,2023,44(5):890-898.
[10]SURESH H R,SHANMUGANATHAN M,SENTHILKUMART,etal.Deeplearning-basedimageforgerydetectionsystem[J].Internationaljournalofelectronicsecurityanddigitalforensics,2024,16(2):160-172.
[11]HUYNHN,NGUYENDK.Real-timedropletdetectionforagriculturalsprayingsystems,adeeplearningapproach[J].Machinelearningandknowledgeextraction,2024,6(1):259-282.
[12]陳亞芳,廖飛,黃新宇,等.多尺度YOLOv5的太陽能電池缺陷檢測[J].光學精密工程,2023,31(12):1804-1815.
作者簡介:
段淳耀(2000-),男(漢族),酒泉,碩士生。研究領域:智慧農業,數據挖掘。
趙 霞(1979-),女(漢族),常州,副教授,碩士。研究領域:智慧農業,數據挖掘。
程 鴻(1972-),男(漢族),白銀,研究員,博士。研究領域:智慧農業,瓜菜選育。
基金項目:自然科學基金-甘肅省科技計劃資助(24JRRA656);2022年橫向課題:農產品物資銷售模式的數據統計分析(loonG20220201)