











摘要:針對馬鈴薯幼苗檢測中的關鍵挑戰,提出一種基于YOLO-PS的目標檢測模型。該模型在檢測骨干中引入MobileNetV4-backbone以增強對不同狀態幼苗的特征提取能力,并在檢測頭中引入DLKA注意力機制,從而增強模型對馬鈴薯幼苗局部特征的提取和關注。為優化邊界框的精確定位,采用Focal Loss損失函數。利用Pyqt5設計馬鈴薯幼苗識別系統的交互界面,使其操作簡便且可靠。通過試驗驗證,YOLO-PS模型在馬鈴薯幼苗檢測任務中表現優異,在測試集上的精確率達到94.75%,召回率為95.58%,平均精確度均值高達96.67%。該模型在馬鈴薯幼苗檢測中的有效性和優越性,也為類似作物的幼苗檢測提供新方法。
關鍵詞:深度學習;馬鈴薯幼苗;YOLO;圖像處理
中圖分類號:S24
文獻標識碼:A
文章編號:2095-5553(2024)12-0245-06收稿日期:2024年6月14日
修回日期:2024年8月18日
*基金項目:山西省高等學校科技創新項目(2019L0189);教育部產學合作協同育人項目(202002035019);教育部第二期供需對接就業育人項目定向人才培養培訓項目(20230102038)
第一作者:鄭紅娜,女,1984年生,山西大同人,碩士,講師;研究方向為物聯網應用技術、智能控制技術等。E-mail:denghd6289@163.com
Research on detection method of potato seedling based on YOLO-PS
Zheng Hongna1, 2, Zhou Lixiang2, Wang Qiang3
(1. Shanxi Railway Vocational and Technical College, Taiyuan, 030013, China; 2. College of Electronic Information and Optimal Engineering, Taiyuan University of Technology, Taiyuan, 030024, China; 3. School of Surveying, Mapping and Land Information Engineering, Henan University of Technology, Jiaozuo, 450003, China)
Abstract: Aiming at the key challenges in potato seedling detection, this paper proposes a target detection model based on YOLO-PS (You Only Look Once with Pyramid Seedling). In this model, MobileNetV4-backbone was introduced into the detection backbone to enhance the feature extraction capability of seedlings in different states. At the same time, the DLKA attention mechanism was introduced into the detection head to enhance the model’s ability to extract and focus on the local features of potato seedlings in one step. In order to optimize the precise positioning of the bounding box, the Focal Loss function was used as the loss function of the model, and finally Pyqt5 was used to design a convenient and reliable interactive interface for the potato seedling identification system. YOLO-PS model was experimentally verified to exhibit excellent performance in the potato seedling detection task. On the test set, the precision of the model reached 94.75%, the recall was 95.58%, and the mean average precision was as high as 96.67%. It effectively proved the effectiveness and superiority of the model in potato seedling detection. This study not only provides a reliable technical means for automated monitoring of potato seedlings, but also provides new ideas and methods for seedling detection of similar crops.
Keywords: deep learning; potato seedlings; YOLO; image processing
0 引言
在馬鈴薯種植過程中,覆膜技術作為一種有效的農業技術,可提高土壤溫度、保持土壤水分,從而為馬鈴薯提供適宜的生長環境。然而,當馬鈴薯萌芽后,需要人工進行扣膜操作,以便讓幼苗順利露出地面進行光合作用。這一過程不僅耗時耗力,而且效率低,易對幼苗造成損傷,影響馬鈴薯的正常生長和產量[1-3]。為提高生產效率,馬鈴薯幼苗檢測技術應運而生,通過深度學習技術對馬鈴薯幼苗進行自動識別和檢測,從而指導機器人自動完成扣膜操作,具有重要現實意義。
在采用深度學習技術對馬鈴薯的檢測中,張萬枝等[4]提出一種基于改進YOLOv7的馬鈴薯種薯芽眼檢測模型。經試驗,改進后的YOLOv7網絡模型平均準確率均值達到95.40%,較原始模型提高4.2個百分點。修春波等[5]提出了基于YOLOv4網絡的改進識別網絡。將YOLOv4特征提取部分CSPDarknet53中的殘差塊(Residual Block)替換為Res2Net,并采用深度可分離卷積操作減小計算量。有學者提出一種基于改進Cascade R-CNN的玉米幼苗檢測方法,該方法結合了深度殘差網絡ResNet-50和特征金字塔網絡FPN作為特征提取器,通過區域建議網絡和感興趣區域池化技術,實現了對玉米幼苗圖像的有效處理和分類回歸,為玉米苗期自動化精準作業提供了可靠的技術支持。Zhang等[6]提出了Seedling-YOLO西藍花幼苗檢測模型,Seedling-YOLO引入了Efficient Layer Aggregation Networks-Pconv(ELAN_P)作為骨干網絡,通過部分卷積減少冗余計算,提升效率。同時,結合CARAFE和Coordinate Attention機制,增強了對復雜場景中長程空間信息的處理能力,有效解決了“暴露種苗”誤檢和“漏栽”漏檢的問題。Dai等[7]提出改進的YOLOv5模型(DA-ActNN-YOLOv5)來研究多個區域場景下不同周期的馬鈴薯病害。在測試集中馬鈴薯早疫病和晚疫病的識別準確率達到99.81%。相比原模型平均準確率提高了9.22%。
學者們采用深度學習技術對馬鈴薯相關的芽點、病害進行了研究,但對破膜前后的馬鈴薯幼苗鮮有研究。因此提出一種基于YOLO-PS模型的馬鈴薯幼苗檢測方法。采用Pyqt5設計馬鈴薯幼苗識別系統交互界面,為馬鈴薯幼苗的自動化監測提供可靠的技術支持。
1 試驗與方法
1.1 數據集的構建
構建用于訓練和測試的馬鈴薯幼苗識別系統數據集,圖像采集地點選擇在山西省太原市婁煩縣婁煩鎮的永和種植專業合作社,使用小米13智能手機拍攝馬鈴薯幼苗圖像。采集過程中,覆蓋了不同生長階段、光照條件和土壤背景的幼苗圖像。在不同時間和地點進行了多次拍攝,數據集包含破膜幼苗1 247張和未破膜幼苗1 458張,共計2 705張,在數據標記中將完成扣膜的馬鈴薯幼苗標記為1,未完成扣膜的馬鈴薯幼苗標記為2,如圖1所示。
1.2 YOLO-PS模型
YOLO-PS模型是基于YOLO算法框架優化而來,專門針對馬鈴薯幼苗檢測任務進行優化設計,如圖2所示。
首先,該模型利用MobileNetV4作為骨干網絡,實現高效特征提取,并引入DLKA注意力機制提升局部特征關注能力,同時,采用Focal Loss損失函數優化邊界框定位。最后,通過Pyqt5設計了簡便的交互界面,提升系統可用性。
1.3 MobileNetV4-backbone
MobileNetV4通過引入通用反向瓶頸(UIB)搜索塊和Mobile MQA注意力模塊創新設計[8],實現了模型的輕量級化,UIB blocks結構示意如圖3所示。這使得MobileNetV4在保持較高性能的同時,顯著降低了模型的參數量和計算復雜度。同時,MobileNetV4采用了優化的NAS策略,通過粗粒度和細粒度搜索相結合的方法,顯著提高了搜索效率并改善了模型質量。這使得MobileNetV4能夠在多種硬件平臺上達到最優性能。
因此,將MobileNetV4作為YOLO-PS的backbone(主干網絡)以減少模型的參數量和計算復雜度,從而提升其輕量級化水平使其更適合在移動設備和嵌入式系統上運行。
1.4 DLKA Attention注意力模塊
在卷積神經網絡中,傳統的卷積操作往往受限于固定的感受野大小,在一定程度上限制了模型捕捉圖像中關鍵信息的能力。特別是在馬鈴薯幼苗識別任務中,由于幼苗的形狀、大小、姿態等變化多樣,需要模型具備更強的局部特征捕捉能力。因此,引入D-LKA Attention機制[9],以增強模型對馬鈴薯幼苗局部特征的提取和關注。
D-LKA Attention通過可變形卷積來靈活地扭曲采樣網格,使模型能夠適當地適應不同的數據模式。這種機制使得模型在關注關鍵區域時,能夠獲取更大范圍的信息,從而提高了對馬鈴薯幼苗局部特征的捕捉能力。
在YOLO-PS模型的檢測頭設計中,創新性地將D-LKA Attention機制與C2F(Conv-to-Feature)模塊相結合,旨在優化和提升模型對馬鈴薯幼苗的識別性能。在每個C2F模塊的輸出層之后,嵌入D-LKA Attention模塊,使得模型能夠更有效地聚焦于馬鈴薯幼苗的關鍵特征,從而提高了模型在馬鈴薯幼苗檢測任務中的準確性和魯棒性。
1.5 馬鈴薯幼苗識別系統交互界面設計
YOLO-PS的馬鈴薯幼苗識別系統交互界面如圖4所示,明確了系統的核心功能,即攝像頭檢測、圖片檢測、識別結果顯示和參數設置。
采用Python的Qt5框架進行界面布局和控件設計,確保界面簡潔直觀,用戶友好[10]。在數據交互方面,通過Python接口與YOLO-PS模型進行通信,實現視頻、圖像的上傳、處理和識別結果的展示。整個設計流程注重用戶體驗和系統性能,確保界面操作流暢、響應迅速。
本交互界面的主要功能包括圖像上傳與識別:用戶可輕松上傳馬鈴薯幼苗圖像,系統通過YOLO-PS模型對圖像進行快速識別,并在界面上展示識別結果,包括幼苗的類別和置信度及是否應該破膜。同時為了滿足不同用戶的識別需求,提供了靈活的參數設置功能。用戶可根據實際情況調整識別閾值、識別類型等參數,以獲得更準確的識別結果。
為了評估系統的可用性,收集了一些用戶反饋。用戶普遍認為系統界面簡潔易用,識別結果準確率高、響應速度快。但也有用戶提出希望增加批量處理功能,以提高效率。基于這些反饋,計劃在后續版本中進行優化,進一步提升用戶體驗和系統性能。
2 結果與討論
2.1 試驗環境
本研究在標準化的試驗環境中進行,采用一臺配備NVIDIA Ampere架構GPU(如NVIDIA GeForce RTX 3070)的深度學習工作站,配備64 GB RAM和Intel Core i9-11900K CPU。軟件環境基于Python 3.9和PyTorch 1.9框架,確保高效的模型訓練和評估。圖像數據經過統一預處理,包括分辨率調整和適當的數據增強,以消除潛在偏差并提高模型泛化能力。該試驗環境配置確保了研究的可靠性和可重復性。
2.2 評價性指標
針對YOLO-PS模型在馬鈴薯幼苗檢測任務中的性能評估,選取了精確率P、召回率R以及均值平均精度mAP作為關鍵評價指標。這些指標共同構成了一個全面的評估體系,能夠準確反映模型在馬鈴薯幼苗檢測中的精確性、召回能力以及多類別檢測性能[11, 12]。
精確率用于衡量模型預測為正樣本的馬鈴薯幼苗中,真正為馬鈴薯幼苗的比例,計算如式(1)所示。
P=TP/TP+FP×100% (1)
式中:TP——真正例,即被正確預測為馬鈴薯幼苗的樣本數量;
FP——假正例,即被錯誤預測為馬鈴薯幼苗的樣本數量。
召回率則用于衡量模型能夠正確找出所有馬鈴薯幼苗樣本的能力,計算如式(2)所示。
R=TP/TP+FN×100% (2)
式中:FN——假反例,即實際為馬鈴薯幼苗但被錯誤預測為其他類別的樣本數量。
平均精確度均值mAP作為多類別檢測任務中最重要的評估指標之一,能夠綜合反映模型在不同類別上的檢測性能。其計算方式為首先計算每個類別的平均精度AP,然后對所有類別的AP值取平均。計算如式(3)所示。
mAP=∑AP/N(class)×100% (3)
式中:N(class)——類別總數,即馬鈴薯幼苗檢測任務中涉及的類別數量。
2.3 結果與討論
2.3.1 改進模型驗證分析
1)MobileNetV4-backbone。為驗證MobileNetV4-backbone在基于YOLO-PS的馬鈴薯幼苗檢測模型中的性能提升效果,將YOLO系列模型中V5、V8的檢測骨干C3和C2F與采用MobileNetV4-backbone的YOLO-PS模型在相同試驗條件下進行對比。表1試驗結果表明,MobileNetV4-backbone作為主干網絡的YOLO-PS模型在多個關鍵性能指標上均取得顯著優勢。相較于C3和C2F檢測骨干,采用MobileNetV4-backbone的模型在精確率為94.75%,相較于C3和C2F檢測骨干分別提升2.43%和1.64%;在召回率方面MobileNetV4-backbone模型為95.58%,相較于C3和C2F檢測骨干分別提升2.11%和1.47%;同時,其平均精確度均值方面,MobileNetV4-backbone模型為96.67%,相較于C3-backbone的91.87%和C2F-backbone的93.46%,有明顯提升;在檢測速度方面改后的模型FPS為56幀/s,相比C3-backbone和C2F-backbone分別提升6幀/s和9幀/s,因此MobileNetV4-backbone在馬鈴薯幼苗檢測中的性能優越。
2)DLKA注意力機制。為驗證在基于YOLO-PS的馬鈴薯幼苗檢測模型中引入DLKA注意力模塊對模型性能的影響,在模型的檢測頭部分添加了兩層DLKA注意力模塊,并與未添加該注意力機制的原始模型進行對比試驗。
如表2所示,在添加DLKA注意力模塊后,模型的整體性能得到提升。在精確率方面,模型從原始模型的94.75%提升至96.11%,提高了1.36個百分點;在召回率方面,從原始模型的95.58%提升至95.97%,提高了0.39個百分點;在平均精確度均值方面,也從原始模型的96.67%提升至97.28%,提升了0.61個百分點。這說明通過引入DLKA注意力模塊模型能夠更好地關注馬鈴薯幼苗的特征,從而提高了整體的檢測性能。
3)不同損失函數對比試驗。為探究不同損失函數對基于YOLO-PS的馬鈴薯幼苗檢測模型性能的影響,本研究對比了Focal Loss、CIoU、EIoU和SIoU四種損失函數在相同試驗條件下的性能表現[13, 14]。
如表3所示,Focal Loss損失函數在基于YOLO-PS的馬鈴薯幼苗檢測模型中表現出了最優異的性能。在精確率方面,Focal Loss相較于CIoU、EIoU和SIoU分別提升了2.25%、1.4%和1.35%。在召回率方面,Focal Loss的表現尤為突出,相較于CIoU、EIoU和SIoU分別提升了2.71%、1.63%和2.38%。在平均精確度均值方面,Focal Loss的性能優勢更加顯著。相比于CIoU、EIoU和SIoU,Focal Loss分別提升了3.52%、2.57%和1.37%。
這說明Focal Loss損失函數在馬鈴薯幼苗檢測任務中的有效性。Focal Loss損失函數通過引入權重因子,使得模型在訓練過程中能夠更加關注難以分類的樣本,從而提高了模型的整體性能。
2.3.2 改進模型驗證分析
為全面評估本研究中基于YOLO-PS的馬鈴薯幼苗檢測模型的性能,選用了多個先進的目標檢測模型,包括YOLOv5、YOLOv6、YOLOv7和YOLOv8,作為基準模型進行對比分析[15, 16],試驗結果如表4所示。
從表4可以看出,基于YOLO-PS的馬鈴薯幼苗檢測模型在精確度、召回率、平均精確度均值和FPS四個指標上均取得了優于其他基準模型的表現。本文模型的精確度達到94.75%,檢測速度為56幀/s相比其他模型有顯著提升;召回率也高達95.58%,平均精確度均值為96.67%,相比于YOLOv5、YOLOv6、YOLOv7和YOLOv8,分別提升4.82%、7.62%、6.47%和5.57%。進一步表明模型在檢測馬鈴薯幼苗時具有較高的性能優越性。
2.3.3 測試圖片對比分析
為了直觀地評估基于YOLO-PS的馬鈴薯幼苗檢測模型在實際復雜環境下的性能,設計測試圖片對比分析,將YOLOv8模型與YOLO-PS模型在馬鈴薯幼苗檢測任務上的表現進行全面比較。這一對比分析不僅驗證了YOLO-PS模型的有效性和可靠性,還凸顯其在特定挑戰場景下的顯著優勢[16]。
如表5所示,特別選取3類具有代表性的圖像進行對比展示:薄膜內水汽強、光照強度強以及正常破膜的幼苗。水汽的存在往往導致圖像模糊,增加幼苗識別的難度。然而,YOLO-PS模型通過其先進的算法設計和優化,實現了對馬鈴薯幼苗的準確識別。強光環境往往會使圖像出現過曝或對比度降低,對幼苗檢測算法提出更高要求。針對光照強度強的情況,YOLO-PS模型同樣表現出色優于YOLOv8模型。在正常破膜的幼苗檢測中,YOLO-PS模型也展現出了其高精度和魯棒性。所以,YOLO-PS模型在馬鈴薯幼苗檢測中表現出了更高的檢測精度、更強的抗干擾能力和更廣泛的適應性。
3 結論
1)聚焦于馬鈴薯幼苗檢測的挑戰,提出一種YOLO-PS的馬鈴薯幼苗識別系統,顯著提高綜合檢測性能。首先,YOLO-PS模型在檢測骨干中引入MobileNetV4-backbone來增強模型對不同生長階段幼苗的特征提取能力。同時,在檢測頭引入DLKA注意力機制,進一步增強模型對馬鈴薯幼苗局部特征的提取和關注。為優化邊界框的精確定位,采用Focal Loss損失函數作為模型的損失函數,最后采用Pyqt5設計馬鈴薯幼苗識別系統方便可靠的交互界面。
2)試驗結果表明,測試集上的精確率為94.75%,召回率為95.58%,平均精確度均值高達96.67%,FPS為56幀/s。相比于YOLOv5、YOLOv6、YOLOv7和YOLOv8模型,YOLO-PS模型在精確率、召回率和mAP上均實現顯著提升。這些結果充分驗證改進后的YOLO-PS模型在馬鈴薯幼苗檢測中的有效性和優越性,為馬鈴薯幼苗的自動化監測提供了可靠的技術支持。
參 考 文 獻
[1] 常學良, 藤美茹, 田羽, 等. 馬鈴薯全程機械化發展現狀及展望[J]. 中國農機裝備, 2023(11): 6-11.
Chang Xueliang, Teng Meiru, Tian Yu, et al. Development status and prospect of full mechanization of potato production [J]. China Agricultural Machinery Equipment, 2023(11): 6-11.
[2] 孫衛孝, 劉發英, 楊振宇, 等. 基于主動熱紅外成像的馬鈴薯與雜質分類方法[J]. 中國農機化學報, 2024, 45(2): 143-150.
Sun Weixiao, Liu Faying, Yang Zhenyu, et al. Classification of potato and impurities based on active thermal infrared imaging [J]. Journal of Chinese Agricultural Mechanization, 2024, 45(2): 143-150.
[3] 呂金慶, 張璇, 竹筱歆, 等. 大壟雙行馬鈴薯覆膜機關鍵部件設計與試驗[J]. 東北農業大學學報, 2023, 54(8):88-96.
Lü Jinqing, Zhang Xuan, Zhu Xiaoxin, et al. Design and experiment of key components of large monopoly double row potato mulching device [J]. Journal of Northeast Agricultural University, 2023, 54(8): 88-96.
[4] 張萬枝, 張弘毅, 劉樹峰, 等. 基于改進YOLOv7模型的馬鈴薯種薯芽眼檢測[J]. 農業工程學報, 2023, 39(20): 148-158.
Zhang Wanzhi, Zhang Hongyi, Liu Shufeng, et al. Detection of potato seed buds based on an improved YOLOv7 model [J]. Transactions of the Chinese Society of Agricultural Engineering, 2023, 39(20): 148-158.
[5] 修春波, 孫樂樂. 基于改進YOLOv4網絡的馬鈴薯自動育苗葉芽檢測方法[J]. 農業機械學報, 2022, 53(6): 265-273.
Xiu Chunbo, Sun Lele. Potato leaf bud detection method based on improved YOLOv4 network [J]. Transactions of the Chinese Society for Agricultural Machinery, 2022, 53(6): 265-273.
[6] Zhang T, Zhou J, Liu W, et al. Seedling-YOLO: High-efficiency target detection algorithm for field broccoli seedling transplanting quality based on YOLOv7-tiny [J]. Agronomy, 2024, 14(5): 931.
[7] Dai G, Hu L, Fan J. DA-ActNN-YOLOv5: Hybrid YOLOv5 model with data augmentation and activation of compression mechanism for potato disease identification [J]. Computational Intelligence and Neuroscience, 2022, 2022(1): 6114061.
[8] Qin D, Leichner C, Delakis M, et al. MobileNetV4-universal models for the mobile ecosystem [J]. arXiv preprint arXiv: 2404.10518, 2024.
[9] Azad R, Niggemeier L, Hüttemann M, et al. Beyond self-attention: Deformable large kernel attention for medical image segmentation [C]. Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, 2024: 1287-1297.
[10] 劉鑫, 馬本學, 李玉潔, 等. 基于改進YOLOv7-ByteTrack的干制哈密大棗缺陷檢測與計數系統[J]. 農業工程學報, 2024, 40(3): 303-312.
Liu Xin, Ma Benxue, Li Yujie, et al. Detecting and counting defects in dried hami jujube using improved YOLOv7-ByteTrack [J]. Transactions of the Chinese Society of Agricultural Engineering, 2024, 40(3): 303-312.
[11] 張繼成, 侯郁碩, 鄭萍, 等. 低數據集下基于ASPP-YOLOv5的莧菜識別方法研究[J]. 農業機械學報, 2023, 54(S2): 223-228.
Zhang Jicheng, Hou Yushuo, Zheng Ping, et al. Method for amaranth identification based on ASPP-YOLOv5 model in low data set [J]. Transactions of the Chinese Society for Agricultural Machinery, 2023, 54(S2): 223-228.
[12] Prencipe B, Altini N, Cascarano G D, et al. Focal dice loss-based V-Net for liver segments classification [J]. Applied Sciences, 2022, 12(7): 3247.
[13] Gao J, Chen Y, Wei Y, et al. Detection of specific building in remote sensing images using a novel YOLO-S-CIOU model. Case: Gas station identification [J]. Sensors, 2021, 21(4): 1375.
[14] 喬琛, 韓夢瑤, 高葦, 等. 基于Faster-NAM-YOLO的黃瓜霜霉病菌孢子檢測[J]. 農業機械學報, 2023, 54(12): 288-299.
Qiao Chen, Han Mengyao, Gao Wei, et al. Quantitative detection of cucumber downy mildew spores at multi-scale based on Faster-NAM-YOLO [J]. Transactions of the Chinese Society for Agricultural Machinery, 2023, 54(12): 288-307.
[15] Elmessery W M, Gutiérrez J, Abd El-Wahhab G G, et al. YOLO-based model for automatic detection of broiler pathological phenomena through visual and thermal images in intensive poultry houses [J]. Agriculture, 2023, 13(8): 1527.
[16] 王志波, 馬晗, 馮錦梁, 等. 基于CE-YOLOv5s的安全帽檢測算法[J]. 計算機與現代化, 2024(4): 55-59, 98.
Wang Zhibo, Ma Han, Feng Jinliang, et al. Helmet detection algorithm based on CE-YOLOv5s [J]. Computer and Modernization, 2024(4): 55-59, 98.