摘要:針對煙草無人機遙感影像中病害植株尺度差異大、背景復雜、分辨率低等問題,本研究基于YOLOv10提出了一種輕量化病害檢測算法——RT-YOLOv10,用于無人機影像煙草病害的高精度實時監測。首先,引人RFAConv 卷積和 SimAM無參注意力優化下采樣模塊,提高特征提取的精確性;引人DySample上采樣,更準確地恢復顏色、紋理、邊緣等病害識別有效信息;同時,設計一種雙分支協同密集連接頸部結構,促進多層次語義信息的交互,提高網絡對不同類型病害特征的學習與表達能力。其次,使用改進后的 MS_C2f、MS_CSP模塊分別替換主干和頸部網絡中的C2f模塊,增強網絡對不同大小、形狀病害植株的多尺度特征捕捉能力和特征融合效率,并利用內部嵌入的注意力機制聚焦關鍵信息、突出病害植株目標主體,減少因雜草、光斑等復雜背景干擾帶來的誤檢漏檢。最后,將原邊界框損失函數替換為 MPDIoU,進一步提高病害識別準確度。實驗結果表明,RT-YOLOv10的標準版本RT-YOLOv10-s以 7.4M,33.3 GFLOPs的較低參數量和浮點運算量在精確率、召回率、平均精度均值 mAP50 和 mAP50-95 上分別達到 97.2%.93.6%.97.5% 和 83.9% ,相較于YOLOv10-s、YOLOv9-s、YOLOv8-s等對比模型均最優。RT-YOLOv10 的更輕量化版本 RT-YOLOv10-t 在精確率、召回率
上盡管有所下降,但仍分別達到 95.5%.92.4%.97.2%.79.7% ,且參數量僅為 2.3M ,相較于YOLOv5-s、YOLOv6-s、YOLOv7-Tiny、
分別降低 67.1% 、86.6%,61.7%,79.3%,76.3%,71.6% 。綜上,RT-YOLOv10能夠滿足實際應用的需求,并可部署在計算資源極其有限的邊緣設備上,這為煙草病害的大面積精準監測提供了一種有效手段。
中圖分類號:S126:S572 文獻標識號:A 文章編號:1001-4942(2025)09-0149-15
Research on Lightweight Detection and Identification of Tobacco Diseases Based on RT-YOLOv10 and Drone Remote Sensing Images
Chen Zili1,2,Guo Yan1,Wang Mingxin3,Lin Wei2,Wang Laigang' Yang Xiuzhong',Liu Jianjun4, Zheng Hengbiao5,Wang Aiguo6 (1.Instituteof Agricultural Information Technology,Henan Academyof Agricultural Sciences,Zhengzhou4502,China; 2. College of Computer and Information Engineering, Henan Normal University, Xinxiang 453007, China; 3. Pingdingshan Branch of Henan Tobacco Company, Pingdingshan 467ooo, China;
4. Henan Provincial Tobacco Company of CNTC, Zhengzhou 450001, China ;
5. College of Agronomy, Nanjing Agricultural University, Nanjing 21oo95, China;
6. Zhengzhou Tobacco Research Institute of CNTC,Zhengzhou 45Oo01,China)
AbstractTo address issues such as large scale differences of diseased plants,complex backgrounds, and low resolution in tobacco drone remote sensing images,this study proposeda lightweight disease detection algorithm RT-YOLOv10 based on YOLOv10,which was used for high-precision real-time monitoring of tobacco diseases in drone images.First,RFAConv convolution and SimAM parameter-free attention were introduced to optimize the downsampling module, improving the accuracy of feature extraction. DySample upsampling was incorporated to more accurately recover effective information for disease identification,such as color,texture, and edges.Meanwhile,a dual-branch collaborative dense connection neck structure was designed to promote the interaction of multi-level semantic information and enhance the network's ability to learn and expre features of diferent types of diseases. Second,the improved MS_C2f and MS_CSP modules were used to replace the C2f modules in the backbone and neck networks,respectively,which enhanced the network's capability to capture multi-scale features of diseased plants with different sizes and shapes,as well as the efficiency of feature fusion.Additionally,the atention mechanisms embedded inside these modules focued on key information, highlighted the main targets of diseased plants,and reduced 1 detections and missed detections caused by interference from complex backgrounds such as weeds and light spots.Finally,the original bounding box loss function was replaced with MPDIoU to further improve the accuracy of disease identification. Experimental results showed that the standard version of RT-YOLOv10,RT-YOLOv10-s, had lower parameter count of 7.4M (204號 and floating-point operations(FLOPs) of 33.3 GFLOPs,achieved 97.2% , 93.6% , 97.5% ,and 83.9% in precision,recall, mean average precision (mAP50),and mAP50-95,respectively,outperforming comparative models such as YOLOv10-s,YOLOv9-s,and YOLOv8-s.Although the more lightweight version(RTYOLOv1O-t) showed slight decreases in these metrics, it still reached 95.5% , 92.4% , 97.2% ,and 79.7% in precision,recall,mAP50,and mAP5O-95,respectively. Moreover, its parameter count was only 2.3M , which was 67.1% , 86.6% , 61.7% , 79.3% , 76.3% ,and 71.6% lower than that of YOLOv5-s, YOLOv6-s, YOLOv7-Tiny, YOLOv8-s, YOLOv9-s,and YOLOv10-s,respectively. In conclusion,RT-YOLOv10 could meet the requirements of practical applications and could be deployed on edge devices with extremely limited computing resources,providing an effctive method for large-scale and accurate monitoring of tobacco diseases.
KeywordsTobacco disease detection; Drones; Remote sensing images; Deep learning; Lightweight. ing;YOLOv10
煙草是我國重要的經濟作物之一,產量約占全世界的 35%[1] 。然而,煙草在生長過程中易受病害侵襲,造成降質減產,成為困擾煙農的一大嚴峻問題[2]。及時準確地監測病害發生情況是精準防治、減少損失的基礎和前提[3]。傳統的病害監測方法主要依賴于人工調查,既費時費力、效率低下,又容易在大面積區域內出現遺漏,難以實現對煙草病害的大范圍實時精準監測。近年來,低空無人機遙感技術發展迅速,憑借靈活性高、覆蓋面廣、成本低以及無損植株等優勢,在農業生產中廣泛應用。在病害監測方面,許多學者將無人機遙感技術與機器學習相結合,如Abdulridha等[4]使用無人機搭載的高光譜相機獲取植被指數,用于檢測柑橘潰瘍病,達到較好效果。然而,該方法在病害早期階段的檢測準確率較低,限制了其應用。Abdulridha等[5]基于實驗室和田間條件下無人機獲取的高光譜數據,采用逐步判別分析(ST-DA)和徑向基函數(RBF)方法,對番茄黃葉卷曲病、細菌性斑點病和靶斑病進行了識別和分類。但其不足之處在于樣本量有限且所用方法的數據處理復雜度較高。Su等[基于五波段多光譜無人機圖像和隨機森林方法開發了一種小麥黃銹病檢測系統。但其實驗數據是在人為接種黃銹病菌條件下得到的,無法完全模擬自然條件下的病害發生情況。Alberto等7利用無人機航拍獲得的洋蔥圖像,從中提取植被指數并使用支持向量機(SVM)作為分類器識別洋蔥炭疽病。但其分類準確度相對較低。此外,以上這些基于傳統機器學習的方法由于高度依賴人工特征提取,在復雜環境下表現較差[8],對于煙草無人機遙感影像的復雜背景來說,顯得尤為不足
隨著人工智能的快速發展,基于深度學習的作物病害檢測方法吸引了越來越多學者的關注,逐步成為病害識別方面的新范式。相較于傳統機器學習方法,深度學習強大的自主特征提取能力和端到端的學習能力極大提高了檢測精度、精簡了檢測過程[9-10]。當前一個備受關注的研究方向是結合計算機視覺技術、深度學習算法以及無人機遙感對植物病害進行識別[8]。如 Wu 等[]使用基于ResNet架構的遷移學習方法,通過無人機圖像檢測玉米北方葉枯病,達到 95.1% 的準確率。但值得注意的是該方法所用圖像和文獻[6]一樣都是在人工接種的試驗田中拍攝,結果缺乏嚴謹性且在其他環境中的泛化性不明。Gorlich等[12]提出一種全卷積神經網絡,探索了基于無人機獲取的RGB圖像識別甜菜葉斑病。不過該方法的識別精度相當低,難以準確預測僅部分感染的葉子。Pan等[13]基于PSPNet模型實現了從無人機圖像中識別小麥黃銹病。盡管其研究使用弱樣本監督方法一定程度上降低了標注大量樣本的成本問題,但仍依賴傳統算法(SVM)的分類結果作為弱標簽,可能引入誤差,進而影響最終的識別精度。然而,這些模型相對來說參數較多,需要較多的計算資源,難以部署在算力極其有限的移動設備上,在實際應用中具有局限性。
輕量化模型因參數少、運算量低、速度快等優勢逐漸受到研究人員的歡迎,已有一系列的相應模型用于病害檢測。如楊佳昊等[14]在YOLOv5s的基礎上,通過主干替換、模型剪枝以及知識蒸餾等構建了一種輕量化模型對番茄黃化曲葉病進行檢測,平均精度為 92.7% ,模型內存占用量為1.4MB。陳洋等[15]通過在MobileNetV2中插入坐標注意力模塊、引入TanhExp 激活函數,提出了一種輕量化的改進模型CA-MobileNetV2用于多種作物病害識別,在實驗室環境和真實環境中的準確率分別為 99.00%.93.89% ,差異較大。嵇春梅等[16通過引人Bi-FPN 方法、GhostNetV2 模塊、MDP模塊以及WiseIoU損失,設計了一種基于YOLOv8改進的輕量化模型檢測番茄病害,平均準確率達到 98.17% ,但該模型對特征較為相似的病害存在較多誤檢。胡根生等[17]使用M-Back-bone作為骨干網絡提取病害特征,引入SE和ECA模塊區分特征間相似性,構建的輕量化網絡LiTLBNet在無人機圖像中對茶葉枯病的識別精度為 75.1% ,略顯不足。針對水稻病蟲害,劉鵬等[18]在 YOLOv8的基礎上引入部分卷積設計PCBlock結構、構建平衡特征金字塔并嵌入高斯非局部注意力以及更換損失函數為MPDIOU,提出了水稻病蟲害檢測模型PBM-YOLOv8,相對減少了因種類繁多、尺度不一、環境復雜導致的誤檢漏檢現象。同樣,馬超偉等基于改進YOLOv8提出了一種輕量化的小麥病害檢測方法,旨在提升對小目標病害的檢測效果[19];然而,該方法的平均精度均值mAP50-95相對較低,對目標的定位不夠精準。盡管上述方法已經取得了一定成效,但由于并非針對無人機遙感影像中的煙草病害識別而設計,在煙草上的應用效果較差。
對于煙草,目前的研究仍主要集中在基于近距離拍攝的高分辨率圖像上的病害檢測。如劉春菊等[20]在YOLOv5的基礎上添加小目標檢測層和多尺度增強模塊,設計了一種煙葉病害識別模型YOLOv5-ME-LT,平均精度均值(mAP)達到91% 。但該模型存在相似病害間難以區分的問題。張文靜等[21]基于InceptionV3和遷移學習方法對煙草花葉病、黃瓜花葉病毒病、煙草赤星病、煙草野火病、煙草氣候性斑點病進行識別,準確率為 90.80% 。但該方法對特征不明顯病害的識別率較低。劉延鑫等[22]基于YOLOv3構建了一種煙草病害檢測模型, mAP 為 77% 。該模型的不足之處在于對小病斑或特征不明顯病斑易漏檢。Lin等[23]通過嵌人坐標注意力(CA)模塊和多特征融合(MFF)模塊,提出了一個名為CAMFFNet的模型用于識別煙草褐斑病和花葉病,準確率為89.71% 。但該模型在早期病害識別中效果不理想。Lin等[24]在YOLOX-Tiny中引入分層混合尺度單元(HMUs)和通道空間注意力模塊(CBAM),構建了一種改進的煙草褐斑病檢測模型YOLO-Tobacco,平均精度為 80.56% 。Chen等[25]針對煙葉病斑,結合多尺度卷積模塊、密集殘差擴張模塊等方式提出了一種MD-Unet病斑分割模型,Dice分數達到 94.67% 。而對于煙草無人機遙感影像來說,其相對較低的分辨率、復雜的背景、光斑等噪聲的干擾、不同生育期病害特征的差異性、病害植株多變的尺度和形狀等因素形成了煙草病害檢測過程中的特殊挑戰。因此,本研究在YOLOv10[2]的基礎上,通過引入RFAConv 與DySample分別優化下采樣、上采樣過程,構建MS_C2f與MS_CSP模塊分別替換主干網絡及頸部結構中的C2f模塊,同時重新設計頸部網絡,并引入MPDIOU損失函數,提出一種輕量化目標檢測模型RT-YOLOv10,使其能夠部署在資源極其有限的邊緣設備上,實現對無人機遙感影像中煙草病害的高精度實時監測,以期為煙草病害的及時防控提供強有力的技術支撐。
1 材料與方法
1.1 無人機圖像獲取與數據集構建
本研究所用煙草無人機遙感影像采集于河南省平頂山市郟縣和許昌市襄城縣。郟縣實驗數據采集于2023年6月26日、7月18日、8月7日,襄城縣實驗數據采集于2024年6月12日、7月3日、7月22日,煙草分別處于團棵期、旺長期和圓頂期。實驗田發生病害包括花葉病、赤星病、蛙眼病。其中,花葉病表現為葉片出現黃綠相間的花葉狀斑駁,嚴重時葉片皺縮、畸形、扭曲;赤星病病斑呈褐色或紅褐色,有明顯的深褐色輪狀紋,中央有時出現黑色霉狀物;蛙眼病病斑較小,呈灰白色或褐色,中央白色,空氣潮濕時病斑長有灰色霉層。采集數據使用的無人機型號為大疆精靈4RTK,攜帶的相機可采集2000萬像素可見光圖像。為保證影像質量,影像航向和旁向重疊率均設置為 85% ,無人機飛行高度距冠層 25m ,飛行速度為 3m/s 。
本研究共得到6幅 16 167×21 747 像素的不同生育期煙草無人機遙感影像,采用 640×640 大小滑動窗口、 10% 重疊率進行裁剪獲取圖像塊,裁剪方法示意圖見圖1。
圖1無人機影像裁剪方法示意圖

在獲取的圖像塊中選取質量較好的400幅使用LabelImg進行標注,將所有類型病害統一標注為病害,標簽格式為YOLO格式。為提高樣本魯棒性以及防止樣本數量過少導致過擬合,采用翻轉、裁剪、灰度、亮度、模糊等多種數據增強方式對樣本進行擴充,擴充后包括原始圖像塊共得到2156張標注圖像,按照8:1:1的比例劃分訓練集、驗證集、測試集,其中訓練集為1725張,驗證集為215張,測試集為216張。增強后的圖像塊樣例如圖2所示。
圖2 增強后的圖像塊樣例

(a)原圖;(b)應用了旋轉、亮度、邊界框翻轉等方式后的圖;(c)應用了垂直翻轉、飽和度、邊界框翻轉等方式后的圖;
(d)應用了水平和垂直翻轉、灰度、邊界框亮度等方式后的圖;(e)應用了裁剪、色相、噪點、邊界框翻轉等方式后的圖。
1.2 RT-YOLOv10總體網絡結構
YOLOv10是一種高效的單階段目標檢測算法,具有速度快、精度高的優點。本研究以此為基線模型,提出了一種改進的輕量化網絡RT-YOLOv10,用于無人機尺度煙草病害的實時檢測。RT-YOLOv10網絡結構如圖3所示,包含主干、頸部、檢測頭三部分。由于無人機圖像中的病害植株大小不一、形狀各異,在主干網絡中,構建MS_C2f模塊并用其替換原主干網絡中的C2f模塊,以提高模型的多尺度特征提取能力。在頸部網絡中,設計一種雙分支協同密集連接頸部結構,以增強不同層次語義信息間的交互,豐富網絡的特征表示并減少淺層信息損失;同時,為改善多尺度特征的融合,構建MS_CSP模塊,通過引入的SCSA注意力機制在通道和空間維度對特征進行重新校準,突出病害主體,過濾復雜背景中的噪聲干擾。除此之外,考慮到原CIoU損失函數對密集復雜的遙感圖像適應性較差,使用MPDIOU作為損失函數;引人RFAConv、SAConv和SSCDown優化下采樣模塊,引人DySample優化上采樣模塊,進一步增強模型的特征提取和恢復精確性。
圖3 RT-YOLOv10網絡結構

1.3 核心模塊的改進與優化
1.3.1構建MS_C2f模塊替換原主干網絡中的C2f模塊多尺度卷積塊主要用于提取特征圖的多尺度特征信息,在處理具有不同尺度目標的復雜場景時至關重要。固定感受野的卷積往往無法兼顧不同大小目標,面對大尺度目標時難以捕捉全局結構,導致語義信息缺失,而面對小尺度目標時則可能引入無關背景,淡化細節特征。為更準確地檢測不同大小和形態的病害煙草,本研究通過引入深度可分離卷積、EMA注意力機制[27]設計了一種多尺度特征提取模塊MSBlock,其結構如圖4所示。MSBlock使用3種具有不同大小感受野的卷積捕捉多個尺度上下文語義信息,極大地豐富了特征多樣性并增強了網絡的多尺度特征表達能力;同時,深度可分離卷積的使用,在很大程度上縮減了模型參數,降低了計算負擔。
圖4MSBlock結構

MSBlock由多個層構成,首先,經過一個 3×3 的卷積層對輸入數據做初步的特征提取,處理完畢后將特征圖依次送入 3×3、5×5、7×7 不同大小的深度可分離卷積(DWConv)中進一步提取特征,之后將得到的3個不同尺度的特征圖在通道維度拼接后通過 1×1 卷積降維恢復原始通道數;然后,使用EMA多尺度注意力模塊來捕捉像素級的成對關系,加強模型在不同尺度上獲取信息的能力;最后,將輸人X的恒等映射和輸出逐元素相加,以避免梯度消失或爆炸,加速模型收斂并防止網絡退化。其中,shortcut和attention分別控制是否應用殘差連接和EMA注意力機制。
EMA是一種基于跨空間學習的多尺度注意力模塊,能夠建立有效的短期和長期依賴關系,結構如圖5所示。EMA通過通道重塑和分組子特征以較低計算開銷保留了通道信息并實現全局信息編碼和跨維度交互,3個并行子路徑則用來提取分組特征圖的注意力權重描述符以調整不同通道重要性。同時,其在不同空間維度方向上提供的跨空間信息聚合方法豐富了特征聚合,有效增強了模型對細粒度特征的捕捉能力。
MS_C2f模塊是在原C2f的基礎上將Bottle-neck替換為MSBlock得到的。如圖6所示,MS_C2f 接收一個大小為 h×w×cinput 的輸入特征圖X,然后通過一個 1×1 卷積層得到大小為 h×w×cout 的中間特征圖;接著,在通道維度上,中間特征圖被均勻切分成 F1、F2 兩部分并放入存儲列表中,每部分的大小為 h×w×cout//2 ;隨后,將存儲列表中的 F1 特征圖依次送人每個MSBlock塊進行特征提取,以獲得多尺度的高級語義信息,并將每個MSBlock塊的輸出也依次放入存儲列表中;當所有MSBlock塊處理完畢后,將存儲列表中的所有特征圖進行通道拼接后再送入 1×1 卷積層以將通道數降維至 cout ,作為MS_C2f模塊的最終輸出ΔX′ 。此過程可表示為:

通過在主干網絡中使用MS_C2f模塊,可以有效提高模型對不同尺度煙草病害植株的識別效果,減少誤檢漏檢現象
圖5EMA注意力模塊結構

圖6 MS_C2f模塊

1.3.2 設計雙分支協同密集連接頸部結構YOLOv10的頸部結構繼承了 YOLOv8 的設計思路,雖然有效融合了多尺度特征,但可能會導致過度壓縮淺層特征的細節信息,對小目標檢測性能下降,同時,淺層與深層特征之間交互不夠充分,特征復用率較低。
網絡深度和寬度是影響模型性能的重要因素,在模型設計時需要綜合考慮兩者的關系,以使其達到一個良好的平衡。鑒于此,本研究設計了一種雙分支協同密集連接頸部結構(圖7)。首先,該設計通過將頸部網絡分解為兩個并行的子分支,更好地平衡了深度和寬度的關系,避免了梯度消失或爆炸,而且雙分支之間互為輔助,能夠有效發揮協同作用,增強模型魯棒性。其次,每個卷積層集成了多個輸入輸出來源,其密集連接更好地促進了不同尺度語義信息的交互,實現了不同分辨率特征間的充分融合。同時,分支間的多個跳躍連接保證了不同層級特征的直接傳遞,有效緩解了因多層卷積堆疊造成的特征損失問題,更完整地保留了顏色、紋理等淺層細節信息,助力于目標邊界的精準定位。
圖7雙分支協同密集連接頸部結構

1.3.3 在頸部網絡中引入MS_CSP模塊 CSP-Stage是DAMO-YOLO模型[28]中的特征融合模塊,通過優化的融合策略能夠有效融合不同層次特征。無人機圖像中的煙株大小、形態相差較大,在檢測過程中容易遺漏一些過小或較大的病害植株,因此,在頸部網絡中進一步加強網絡的多尺度特征提取能力十分必要。本研究以CSPStage模塊為基礎構建MS-CSP模塊,其結構如圖8所示。通過將Rep結構替換為MSBlock模塊,實現高效的跨尺度特征融合,增強對不同大小病害植株的敏感度;同時,為避免上采樣以及特征融合過程中噪聲對目標區域注意力的影響,在特征提取塊的后面引人SCSA注意力[29」,以聚焦目標主體,更有效地利用多語義信息進行特征引導,減輕語義差異,提高模型類間區分性。MS_CSP模塊由兩個并行分支構成,第一個分支通過一個 1×1 卷積層處理輸人數據,第二個分支通過一個 1×1 卷積層將輸入降維至中間通道數,并通過若干個序列卷積層進行特征提取;最后,將第一個分支的輸出和第二個分支中所有序列卷積層的輸出在通道維度拼接后,通過 1×1 卷積層輸出最終特征圖。
圖8 MS_CSP模塊

SCSA是一種通道空間協同注意力機制,由可共享的多語義空間注意力(SMSA)和漸進式通道自注意力(PCSA)兩部分串聯組成,其結構如圖9所示。其中,SMSA利用多尺度、深度共享的一維卷積來捕捉每個特征通道的多語義空間信息,有效地整合了全局上下文依賴和多語義空間先驗。
PCSA利用輸入感知的自注意力機制來計算通道之間的相似性和貢獻度,以減輕SMSA中不同子特征之間的語義差異。SCSA通過探索空間注意力和通道注意力之間的協同效應,能夠有效提升模型在煙草無人機遙感影像復雜場景中的表現。
圖9 SCSA注意力

1.3.4用MPDIoU損失函數替換原模型的CIoU損失函數損失函數作為深度學習模型優化參數不可或缺的部分,對模型最終的效果具有決定性作用。YOLOv10使用的邊界框損失函數是CIoU,CIoU相比IoU有所改進,然而,當預測框和目標框不相交時仍然存在梯度消失的問題,導致在復雜檢測場景中模型優化困難。鑒于此,本研究引人一種基于最小點距離的損失函數MPDIoU[30]公式如下:

式中, d1 是預測框左上角點到真實框左上角點的距離; d2 是預測框右下角點到真實框右下角點的距離; d 是預測框左上角點到右下角點的距離,即對角線長度;IoU是預測框和真實框的交并比。MPDIoU損失函數通過最小化預測框和真實框之間的左上和右下點距離,能夠為模型提供更穩定的梯度,并更全面地衡量兩個邊界框之間的相似性,減少位置偏差,提高在復雜環境中對小目標的檢測性能以及對不同類型目標的魯棒性。
1.3.5 引入RFAConv、SAConv 和 SSCDown 優化下采樣模塊在傳統卷積中,卷積核通常共享參數,限制了模型對復雜模式的學習能力,無法針對不同區域提供定制化的處理。因此,本研究引入RFAConv[31]替換部分標準卷積層。RFAConv 通過引入注意力機制,允許網絡為每個感受野生成特定的權重,解決了參數共享帶來的局限性。此外,RFAConv利用感受野空間特征指導注意力機制,能夠有效捕捉和利用圖像中不同區域和尺寸的信息,提高網絡性能。其計算公式可表示為:
F=Softmax(g1×1(AvgPool(X)Σ))×
ReLU(Norm(gk×k(X))))=Arf×Frf 。(3)式中,X是輸人特征圖, g1×1 是大小為 1×1 的分組卷積, k 表示卷積核的大小, Norm 為歸一化,F是通過將注意力圖 Arf 乘以變換后的感受野空間特征 Frf 而獲得的結果
另外,本研究還引人了SAConv和SSC-Down[32]。SAConv 和 SSCDown 分別是在 AConv和SCDown的后面插人SimAM無參注意力機制得到的,如圖10所示,能夠在不引入額外參數量的條件下通過自適應地重新校準特征圖的空間和通道維度上的重要性,緩解池化操作和分組卷積造成的信息損失以及不同通道間的信息阻塞所導致的性能下降。
圖10 下采樣模塊

1.3.6在頸部網絡引入DySample上采樣由于傳統的上采樣方法如最近鄰插值、雙線性插值等易出現失真和鋸齒效應,導致細節信息的丟失,嚴重影響小目標病害植株的檢測效果,本研究在頸部網絡中引入DySample[33]上采樣。DySample 通過點采樣方法,避免了動態卷積和子網絡帶來的計算開銷,以更小的成本和更高效的方法提高了網絡性能,可用以下公式表示:
式中, ΔX′ 為重新采樣后的新特征圖,X為輸入特征圖,S為采樣集,G為原始采樣網格,0為偏移量。簡單實現:給定一個上采樣因子s和一個大小為C×H×W 的特征圖X,首先使用一個線性層對X做線性投影,其輸入和輸出通道數分別為C和2s2 ,生成大小為 2s2×H×W 的偏移量0;然后通過像素洗牌將其重塑為 2×sH×sW 并和原始采樣網格G相加,得到采樣集S;其中,采樣集S的第一維度有2個通道,分別存儲了采樣位置的 x 坐標和v坐標·最后通過oridsamnle函數和采樣集S生成大小為 C×sH×sW 的最終上采樣特征圖 ΔX′
為了使偏移量。能根據輸入特征自適應調整范圍,進一步通過對輸入特征X做線性投影來生成逐點的動態范圍因子,其過程可表示為:
0=0.5 sigmoid(linear,(X)) ·linear2(X)
1.4 評價指標
本研究采用精確率(Precision)、召回率(Re-call)、mAP5O(mean Average Precision at IoUthreshold of 0.50)、mAP50-95(mean Average Pre-cision atIoUthresholdsfrom O.50 to O.95)衡量模型精度,使用參數量(Parameters)、浮點運算量(GFLOPs)衡量模型復雜度。其中精確率、召回率、mAP的計算方式分別如下:


式中, P,R 分別為精確率、召回率;TP為真正例,FP為假正例,FN為假負例; p(R) 表示在召回率R下的最大精確率;N為類別總數。
1.5 實驗環境和參數設置
本實驗所用操作系統為Windows10,計算機硬件配置為 NVIDIARTX A5000 顯卡(24GB),Intel(R)Xeon(R) Gold 5218R CPU @ 2.10GHz 處理器,使用的編程語言為Python3.10,深度學習框架為Pytorch2.0.1,CUDA版本為11.8,訓練所用圖像大小為 640×640 像素,訓練輪次均為300個epoch,采用SGD優化器,初始學習率設置為0.01,在最后10個epoch關閉馬賽克數據增強。
2 結果與分析
2.1 使用不同損失函數的對比分析
為驗證使用MPDIoU損失函數的有效性,本研究在RT-YOLOv10-s上對原始邊界框損失函數CIoU和改進邊界框損失函數MPDIoU進行對比實驗,結果如圖11所示。可以看到,MPDIoU損失函數(橙色線條)相較于CIoU損失函數(藍色線條)表現出更快的收斂速度和更低的最終損失值。這一結果反映了MPDIoU在邊界框定位或其他相關任務上的潛在優勢,其優化能力優于CIoU,從而有助于提升模型的整體性能。
圖11 損失函數對比

2.2 消融實驗結果分析
本研究以YOLOv10為基線模型,對其卷積模塊、上采樣模塊、頸部網絡以及損失函數進行了改進,為驗證這些改進的有效性,進行了消融實驗,結果如表1所示。可以看出,所有改進對模型精度均有一定的提升,當使用MS_C2f、MS_CSP模塊分別替換 C2f,C2fCIB 模塊時提升幅度最大,精確率、召回率、mAP50、mAP50-95相較于基線模型分別提升了 0.8,1.1,0.4,2.6 個百分點。分析原因主要在于其多尺度特征提取能力能夠助力網絡更好地學習到不同大小病害煙草的特征信息,同時MS_C2f內部引入的EMA注意力機制能夠通過跨維度的交互來捕捉像素級別的成對關系,生成高質量的注意力圖對輸人特征進行校準,而且MS_CSP在進行特征融合的同時,使用SCSA通道空間協同注意力機制有效地整合了全局上下文依賴和多語義空間先驗,減弱了復雜環境帶來的干擾信息對模型的影響。
然而,雖然模型的精度得到了提升,但除引入MPDIoU損失函數改進外,每種改進都引來了額外的參數或浮點運算量,加大了計算開銷,這與本研究的初衷不符。因此,當對模型應用所有改進時,為控制模型大小,在基線模型通道數的基礎上做了縮減。盡管如此, RT-YOLOv10-s 模型在各項指標上仍然有大幅提升,均優于在原通道數下應用單個改進,在比基線模型參數量降低 8.64% 的情況下,精確率、召回率、
分別提高 0.6,1.6,0.6,5.0 個百分點。
表1消融實驗結果

注:/表示不使用該改進, √ 表示使用該改進。
2.3 RT-YOLOv10與其他模型的性能對比實驗
為驗證本研究所提算法 RT-YOLOv10 的優越性,在同一訓練環境下,將其與 YOLOv5-s.
(204號YOLOv10-s在自建數據集上進行對比實驗,結果見表2。其中 RT-YOLOv10-s 是本研究所提模型的標準版本, RT-YOLOv10-t 是通道數減半的更輕量化版本。可以看出, RT-YOLOv10-s 在保持較低參數量和浮點運算量的同時,各項評估指標均優于其他算法。與 YOLOv6-s 相比,盡管RT-YOLOv10-s 模型參數量僅為前者的 43.0% ,浮點運算量也僅為前者的 75.3% ,但召回率、mAP50和 mAP50-95 分別提高了 23.00%.1.67% 和20.03% 。這一結果表明,模型性能并非簡單地與參數量和浮點運算量呈線性正比,輕量化模型經過合理設計同樣可以達到較高精度。
mAP作為能全面評價模型性能的指標,各模型在mAP50上的表現相對接近,但在mAP50-95上則呈現出較大的差異。這反映出,在較低的IoU閾值條件下,各模型在識別病害煙草和大致定位目標位置方面的能力相當,然而,當需要更精準地定位病害植株時,各模型的性能便出現了明顯的分化。在這方面,本研究提出的RT-YOLOv10-s 模型表現出色, mAP50-95 達到了83.9% ,相較于 Y0L0v5-s.,Y0L0v6-s.,Y0L0v7- Tiny ,YOLOv8-s,YOLOv9-s 和 YOLOv10-s 分別提高 9.6、14.0、16.7、4.0、3.4、5.0 個百分點。這充分驗證了本研究所提算法的優越性和實用性。
此外,從表2還可知,更輕量化的版本RT-YOLOv10-t 即便模型參數量和浮點運算量遠低于其他模型,但精確率、召回率、mAP依然相對較高,超越了大部分模型。與其他模型中參數量和浮點運算量均最低的YOLOv7-Tiny相比,RT-YOLOv10-t 的精確率、召回率、mAP50以及mAP50-95分別提高 0.6,0.8,0.6,12.5 個百分點,而參數量只有 2.3M ,浮點運算量也僅10.8GFLOPs,分別是YOLOv7-Tiny的 38.3%.81.8% 。
綜合來看,本研究所提模型的標準版本RT-YOLOv10-s 適用于需要更高精度和定位準度的場景,而更輕量化的版本 RT-YOLOv10-t 適用于在算力十分有限的邊緣設備上部署,兩者均具有優異的綜合性能。
表2本研究提出模型與其他模型性能的對比實驗結果

2.4RT-YOLOv10與其他模型對煙草病害檢測結果的對比分析
不同模型對煙草病害的檢測結果見圖12,其中藍色方框代表誤檢,黃色方框代表漏檢。可以發現,幾乎所有模型都存在一定程度的誤檢和漏檢,其中 YOLOv8-s、YOLOv10-s、YOLOv7-Tiny誤檢、漏檢的數量相對較多。本研究提出的RT-YOLOv10-s 模型通過引入注意力機制聚焦關鍵信息等,對病害煙草實現了更為精準的區分和定位,克服了復雜因素的干擾,有效地降低了誤檢漏檢率。例如,在檢測結果的中下部位有棵很小的病害煙草,在所有模型中僅有 RT-YOLOv10-s 成功將其識別出來。同時, RT-YOLOv10-s 對病害植株的檢測置信度也更高,得到的結果更為可靠,因此,RT-YOLOv10-s沒有出現誤檢情況,僅有少量漏檢現象。這些表現均說明本研究提出的RT-YOLOv10-s 模型在實際煙草病害檢測中擁有更好的性能。
圖12不同模型對煙草病害的檢測結果

2.5 不同模型對煙草病害檢測結果的Grad-CAM熱力圖可視化
為更清晰地揭示模型在檢測過程中對圖像不同區域的關注度,本研究對各個模型的最后一層應用Grad-CAM方法生成熱力圖,結果如圖13所示。可以觀察到,YOLOv5-s與 YOLOv8-s 的注意力分布較為寬泛,更多地聚焦于整個葉片區域而非病害特征本身; YOLOv6-s 的關注點主要集中在葉片邊緣區域;YOLOv7-Tiny的注意力區域看似更精細,但對一些與病害無關的區域也產生了較多關注; ΥOLOv9-s 的熱力圖顏色最深,表明其對所關注區域的響應最為強烈,但也忽略了一些關鍵的病害特征區域; Υ0L0v10-s 的熱力圖響應雖不及 YOLOv9-s 強烈,但其對病害區域的忽略現象相比其他模型有所減少。相比之下,RT-YOLOv10-s 則顯著減少了對健康葉片區域的關注,將注意力更多集中于病斑本身,從而更有效地實現了對病害區域的精準定位。
圖13 各模型熱力圖

2.6 RT-YOLOv10模型的泛化能力驗證
為驗證本研究所提算法在其他類型任務中的泛化性和普適性,選取grassweeds數據集進行實驗。該數據集是一個公開的禾本科雜草數據集,是RF100數據集的一部分,共包含2000多張圖像。實驗中,每個模型的環境配置保持一致,共訓練300輪,結果如表3所示。可以看出,本研究所提算法在該數據集上的性能總體表現較優,召回率 ,mAP50,mAP50-95 均優于其他模型;精確率與 YOLOv9-s 相當,但優于其他模型。相比基線模型YOLOv10-s,RT-YOLOv10-s算法在各指標上都有明顯提高,顯示出良好的泛化性,同時在模型輕量化方面也較有優勢。
表3基于grassweeds數據集的各模型性能對比實驗結果

3 討論
在深度學習與無人機遙感技術的融合應用中,針對作物病害監測已展現出顯著成效,并在多種農作物上得到了實踐驗證。然而,在煙草病害監測領域,該技術的發展相對滯后,已有研究多數聚焦于小尺度范圍內的葉片病害分類與識別,如文獻[1-3]的研究均以近距離手持設備拍攝的煙葉圖像作為病害診斷的依據。盡管這樣容易達到較高的識別精度,但受限于其小范圍的監測能力,難以在大規模煙田的實際應用中發揮效用。鑒于此,本研究提出煙草病害檢測模型RT-YOLOv10,可以作為在該領域的初步探索,幫助煙草從業者在實際生產中及早發現病害并及時采取措施,以遏制病害的進一步擴散,減少潛在損失。然而,與前人研究[1-3]相比,本研究并未對病害種類或嚴重程度進行細分,主要是由于所用無人機飛行高度 25m) 的限制,獲取數據的分辨率有限,難以達到近距離拍攝圖片所呈現出的明顯特征。未來的工作中,我們將采用手動飛行等方式進行更高分辨數據獲取,并進一步探索不同病害的分類研究,以提升模型的實用性和指導性。
在輕量化方面,本研究相較于已有方法,在模型大小與精度之間取得了更為理想的平衡。例如,文獻[17]的研究也是在無人機圖像上檢測病害,盡管在模型大小上實現了大幅縮減,但檢測精度卻相對較低,主要歸因于其骨干網絡使用了大量深度卷積進行特征提取,導致部分信息丟失;同時,在處理多尺度特征時的不足也使其在面對較大或較小病斑時表現出較低的敏感度。相比之下,本研究通過引入RFAConv提升特征提取的質量,并采用MSBlock模塊有效應對各種尺寸的目標,從而在模型體積縮減的同時,僅犧牲了較少的精度。具體的,文獻[17]中的模型在飛行高度為4m 時精確率為 75.1% ,而本研究所提模型即使飛行高度在 25m 時精確率也高達 95.5% 。
樣本是模型訓練的基石,盡管使用無人機采集數據極大地降低了時間成本,但仍需要相關專家運用專業知識對大量圖像進行標注。因此,在一定程度上,我們所建立的數據集可作為一種可重復使用的資源,為后來的研究提供便利的數據支持,以更好促進該領域算法的更新迭代。此外,本研究建立的數據集包含了來自多個生育時期的數據,這有助于模型學習到更廣泛、更全面的病害特征。然而,需要注意的是,盡管這些數據在時間維度上得到了豐富,但在空間維度上仍局限于同一地點。因此,氣候、種植密度、土壤肥力等地域性因素對模型表現的影響尚不可知,還需要在不同環境中進一步實驗驗證模型的有效性。
在對整幅大尺寸的無人機遙感影像進行推理時,本研究采用了滑動窗口方法,該方法簡單且高效。然而,由于滑動窗口的限制,導致檢測框不完整。在下一步工作中,我們將通過應用非極大值抑制、優化合并算法或在訓練階段降低對部分目標的敏感度等方式,改善邊界框不完整問題。
4結論
為在無人機尺度上實現對煙草病害的精準動態監測,本研究基于YOLOv10創新了一種輕量化的目標檢測模型RT-YOLOv10,有效平衡了檢測精度與模型大小,尤其通道數減半的更輕量化模型可部署在算力有限的移動端設備上。具體實驗結果如下:
(1)RT-YOLOv10 的標準版本RT-YOLOv10-s以較低的參數量和浮點運算量達到評估指標最優,精確率、召回率、
分別為)7.2%.93.6%.97.5%.83.9% ,其中mAP50-95相較于 Yozov5-s 、YOLOv6 - s、YOLOv7- Tiny、YOLOv8–s,YOLOv9–s 和 ΥOLOv10-s 分別提高了9.6,14.0,16.7,4.0,3.4 個和5.0個百分點
(2)更輕量化版本 RT-YOLOv10-t 的精確率、召回率、
分別為 95.5% !92.4%.97.2%.79.7% ,仍然優于大部分模型,與其他模型中參數量和浮點運算量均最低的YOLOv7-Tiny相比,分別提高了 0.6,0.8,0.6,12.5 個百分點,但參數量和浮點運算量分別只有 2.3M,10.8 GFLOPs,僅是YOLOv7-Tiny的 38.3%.81.8% 。
綜上,本研究提出的 RT-YOLOv10 模型綜合性能優,可在真實的復雜環境中實現對無人機遙感影像中煙草病害的高精度實時監測,為煙草乃至其他作物的病害監測和防治提供理論依據和一種新的可靠方法
參考文獻:
[1] 劉春菊,劉延鑫,李斐,等.基于YOLOv5的煙草葉部病害智能識別[J].中國煙草科學,2024,45(3):93-101.
[2] 張文靜,孫秀朋,喬永亮,等.基于InceptionV3的煙草病害識別[J].中國煙草學報,2021,27(5):61-70.
[3] 劉延鑫,王俊峰,杜傳印,等.基于YOLOv3的多類煙草葉部病害檢測研究[J].中國煙草科學,2022,43(2):94-100.
[4] Abdulridha J,Batuman O,Ampatzidis Y.UAV-based remote sen-
singtechnique to detect citrus canker disease utilizing hyper
spectral imaging and machine learning[J]. Remote Sensing, 2019,11(11) :1373.
[5]Abdulridha J,Ampatzidis Y,Qureshi J,et al. Laboratory and UAVbased identification and classification of tomato yellow leaf curl, bacterial spot,and target spot diseases in tomato utilizing hyperspectral imaging and machine learning[J]. Remote Sensing,2020,12(17) :2732.
[6]Su JY,Liu CJ,Coombes M,et al. Wheat yellow rust monitoring by learning from multispectral UAV aerial imagery[J]. Computers and Electronics in Agriculture,2018,155:157-166.
[7]Alberto R T,Rivera JC E,Biagtan A R,et al. Extraction of onion fields infected by anthracnose-twister disease in selected municipalities of Nueva Ecija using UAV imageries[J]. Spatial Information Research,2020,28(3) :383-389.
[8]Abbas A,Zhang Z H,Zheng H X,et al. Drones in plant disease assessment,efficient monitoring,and detection:a way forward to smart agriculture[J]. Agronomy,2023,13(6) :1524.
[9]左昊軒,黃祺成,楊佳昊,等.基于改進YOLOv5s的作物黃 化曲葉病檢測方法[J].農業機械學報,2023,54(增刊1): 230-238.
[10]楊路,劉俊杰,余翔.多尺度信息增強的遙感圖像目標檢測 算法[J/OL].計算機工程[2024-11-21].https://doi.org/ 10.19678/j.issn.1000-3428.00EC0070252.
[11] Wu H, Wiesner-Hanks T,Stewart E L,et al. Autonomous detection of plant disease symptoms directly from aerial imagery[J]. The Plant Phenome Journal,2019,2(1) :1-9.
[12]Gorlich F,Marks E,Mahlein AK,et al.UAV-based classification of cercospora leaf spot using RGB images[J]. Drones, 2021,5(2) :34.
[13]Pan Q,Gao M F,Wu P B,et al. A deep-learning-based approach for wheat yellow rust disease recognition from unmanned aerial vehicle images[J]. Sensors,2021,21(19) :6540.
[14]楊佳昊,左昊軒,黃祺成,等.基于YOLOv5s的作物葉片病 害檢測模型輕量化方法[J].農業機械學報,2023,54(增刊 1) :222-229.
[15]陳洋,張欣,陳孝玉龍,等.CA-MobileNetV2:輕量化的作 物病害識別模型[J].計算機工程與設計,2024,45(2): 484-490.
[16]嵇春梅,周鑫志,葉燁華.自然場景下的輕量化番茄病害檢 測模型[J/OL].南京農業大學學報.http://link.cnki.net/ urlid/32.1148.s.20241009.0833.002.
[17]胡根生,謝一帆,鮑文霞,等.基于輕量型網絡的無人機遙 感圖像中茶葉枯病檢測方法[J].農業機械學報,2024,55 (4) :165-175.
[18]劉鵬,張天翼,冉鑫,等.基于PBM-YOLOv8 的水稻病蟲害 檢測「J].農業工程學報.2024.40(20):147-156.
[19]馬超偉,張浩,馬新明,等.基于改進YOLOv8的輕量化小麥 病害檢測方法[J].農業工程學報,2024,40(5):187-195.
[20]劉春菊,劉延鑫,李斐,等.基于YOLOv5的煙草葉部病害智 能識別[J].中國煙草科學,2024,45(3):93-101.
[21]張文靜,孫秀朋,喬永亮,等.基于 InceptionV3 的煙草病害 識別[J].中國煙草學報,2021,27(5):61-70.
[22]劉延鑫,王俊峰,杜傳印,等.基于YOLOv3的多類煙草葉部 病害檢測研究[J].中國煙草科學,2022,43(2):94-100.
[23]Lin JW,Chen Y,Pan R Y,et al. CAMFFNet:a novel convolutional neural network model for tobacco disease image recognition[J]. Computers and Electronics in Agriculture,2022,202: 107390.
[24]Lin JW,Yu D Z,Pan R Y,et al. Improved YOLOX-Tiny network for detection of tobacco brown spot disease[J]. Frontiers in Plant Science,2023,14:1135105.
[25] Chen Z L,Peng Y L,Yang Y K,et al. MD-Unet: used for the segmentation of tobacco leaf lesions[C]//2024 9th International Conference on Intellgent Computing and Signal Processing (ICSP). IEEE,2024:1785-1791.
[26]Wang A,Chen H,Liu L,et al. Yolov1O:real-time end-to-end object detection[J/OL]. arXiv: 2405.14458 [cs.CV],2024. https ://doi.org/10.48550/arXiv.2405.14458.
[27] Ouyang D L,He S,Zhang G Z,et al. Efficient multi-scale attention module with cross-spatial learning[C]//ICASSP 2023- 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE,2023:1-5.
[28] Xu X Z,Jiang Y Q,Chen W H,et al. Damo-yolo: a report on real-time object detection design[J/OL]. arXiv: 2211.15444 [cs.CV],2022. https://doi.org/10.48550/arXiv.2211.15444.
[29] Si Y Z,Xu H Y,Zhu X Z,et al. SCSA: exploring the synergistic effects between spatial and channel attention[J/OL]. arXiv:2407.05128[cs.CV],2024. htps://doi.org/10.48550/ arXiv.2407.05128.
[30]Ma S L,Xu Y. MPDIoU:a loss for efficient and accurate bounding box regression[J/OL]. arXiv: 2307. 07662 [cs. CV], 2023.https://doi.org/10.48550/arXiv.2307.07662.
[31] Zhang X,Liu C,Song T T,et al. RFAConv: innovating spatial attention and standard convolutional operation[J/OL].arXiv: 2304.03198v6 [cs. CV],2024. htps://doi.org/10.48550/ arXiv.2304.03198.
[32] Yang L,Zhang R Y,Li L,et al. Simam: a simple,parameterfree attention module for convolutional neural networks[C]// International conference on machine learning. PMLR,2021: 11863-11874.
[33]Liu W Z,Lu H,Fu HT,et al. Learning to upsample by learning to sample[C]//Procedings of the IEEE/CVF Intermational Conference on Computer Vision. IEEE,2023:6027-6037.