關鍵詞:植物葉片;病害識別;數據增強;頻域SwinTransformer;邊緣檢測;高斯濾波中圖分類號:TP391.41;S4 文獻標識碼:A 文章編號:2095-5553(2025)10-0128-10
Abstract:Plantdiseasesand pests poseserious threats toagricultural production,andneedtobemonitoredand prevented inatimelymanner.Dueto the vast varietyof plant diseasesand pests and their similar earlysymptoms,it is extremely chalenging foragricultural workers todiferentiate betweenthem.Forthisreason,this studyproposesa plantleaf disease identificationmethodbasedonthefrequency-domain Swin Transformer.Initiall,themodel’strainingeficiency was enhancedbyusing animproved CutMix dataaugmentationalgorithm,which focuses themodelon thecritical partsof diseaseimages,alowing ittolearn more information,avoid overfiting,and improvegeneralization performance. Subsequently,Gausian filtering and edge detection were employed to reduce the negative impact of background noiseon theaccuracyofdiseaserecognition,highlighting theleafcontour information.Finally,afrequency-domainlayer wasadded tocapture local featuresof disease images.Theexperiments demonstrate that theproposedmethodhasachieved accuracies of 98.59% , 100% and 99.58% on datasets for tomatoes,riceand cotton,respectively,which represent improvements of 1.34% , 0.12% and 0.5% over the previous methods.Additionally,the detection speeds are increased by 2.54 frames/s,4. O4 frames/s and 9.97 frames/s,respectively.
Keywords:plant leaf;disease identification;dataaugmentation;frequency domain Swin Transformer;edge detection; gaussian filtering
0 引言
隨著全球競爭加劇和氣候變化,農作物的安全問題顯得尤為重要。植物病蟲害作為危害農作物產量的主要原因之一,給農作物的生產造成了巨大的損失。水稻、番茄和棉花是我國重要的糧食作物和經濟作物,在全球貿易中占有重要的地位。新疆伊犁地區廣泛種植水稻、番茄和棉花。但是,水稻、蕃茄和棉花的病蟲害種類繁多,給農業生產帶來了巨大的困擾?;谶@種情況,快速、準確地識別病害的類型顯得極為重要,傳統的病害識別方法依靠人工巡檢,這種方法不但效率低、病理分析復雜、受主觀影響大,而且難以大規模地開展,但隨著深度學習的發展,尤其是圖像分類和目標檢測技術的發展,為農業生產帶來了巨大的變化。
卷積神經網絡[1](CNN)從Krizhevsky等[2提出后便在圖像分類任務中快速發展,隨后出現了很多以CNN為基礎的網絡模型,對圖像分類起了巨大推動作用。Fuentes等3研究出自動檢測植株圖像中的異常位置,并能夠提供植株病害癥狀信息的系統。這一系統由2個部分組成:第一部分是使用植株異常區域的特征集輸入神經網絡訓練;第二部分使用長短期記憶,依據輸入的特征獲取癥狀描述。該方法的平均識別精度為 92.50% 。Agarwal等4提出一種使用葉片圖像進行植株病害檢測的CNN模型,該模型使用3個卷積層、3個池化層和2個全連接層對10種葉片圖像進行分類。試驗數據表明,與VGG16 77.20% )和MobileNet( 63.75% )5等模型相比,該方法的最高測試精度達到 91.20% 。李大華等提出改進的ShuffleNetv2輕量化番茄葉片病害識別模型,利用LFN輕量化特征融合模塊,實現淺層和深層網絡的信息交流,改進的方法準確率達到 96.55% 。
針對植物病害圖片相似度高、病害區域小等特點,本文提出基于頻域SwinTransformer模型,將水稻、番茄和棉花作為研究對象,使用數據增強和遷移學習的方法對數據集進行處理,并與VGG16、AlexNet、GoogLeNet、ResNet、MobileNetV2、ViT、MobileViT模型進行對比,為病害識別提供參考。
1模型選取
1.1 Swin Transformer
ViT[7] 將輸入圖像分解為若干個小塊,并將這些塊展開為序列輸人到模型中,通過TransformerEncoder后提取出信息,然后通過MLPHead8得到分類結果。由于其在解決長距離依賴時的優勢,ViT在許多計算機視覺領域的比賽和任務中表現出色。
SwinTransformer[9-1]基于ViT模型的思想,創新性地引入滑動窗口機制,讓模型能夠學習到跨窗口的信息,同時通過下采樣使得模型能夠處理超分辨率的圖片,節省計算量以及能夠關注全局和局部的信息。SwinTransformer網絡架構如圖1所示。其中, H 和W分別表示圖像的高度和寬度。

SwinTransformer使用與卷積神經網絡類似的層次化結構,對圖像進行4倍和8倍下采樣,將特征圖劃分為幾個不相交的窗口,在每個窗口中計算Multi-HeadSelf-Attention。對比ViT模型,SwinTransformer可以大大減少計算量,由于SwinTransformer在每個窗口獨立計算Multi-HeadSelf-Attention,使不同窗口的信息不能傳遞,所以提出ShiftedWindowsMulti-HeadSelf-Attention(SW—MSA)通過滑動窗口使信息在相鄰的窗口之間傳遞。
圖片在PatchPartition模塊中劃分不同的窗口,每4×4 相鄰的像素劃分為一個Patch,然后在channel方向進行展平,輸入為RGB三通道圖片,每個Patch有16個像素,展平后為48個值。通過PatchPartition后,圖像形狀由 [H,W,3] 變為 [H/4 , W/4,48] ,之后通過LinearEmbedding層對每個像素的channel數據做線性變換,使得48變成 c ,所以圖像的形狀由 [H/4 W/4,48] 變為 [H/4,W/4,C] 。通過PatchPartition模塊后依次進人4個Stage模塊,除了由LinearEmbedding和SwinTransformerBlock組成的第一個Stage以外,其余3個Stage均由PatchMerging和SwinTransformerBlock組成。一個 4×4 的單通道特征圖輸入到PatchMerging后將每個 2×2 的鄰近像素劃分為一個Patch,再將每個Patch中相同位置上的像素拼接得到4個特征圖,在深度上進行Concat拼接后,通過一個LayerNorm層,最后通過一個全連接層使得特征圖在深度上做線性變化將深度減半。
SwinTransformerBlock引人WindowsMulti-head Self-Attention(W-MSA)模塊和ShiftedWindows Multi-Head Self-Attention 模塊來減少計算量, Multi-headSelf-Attention模塊需要對特征圖的每個像 素和所有像素計算Self-Attention,在SwinTransformer 中將特征圖劃分為窗口,在窗口內計算Self-Attention。 計算量之差 Ω(MSA) 和 Ω(W-MSA) 如式(1)和 式(2)所示。
Ω(MSA)=4hwC2+2(hw)2C
Ω(W-MSA)=4hwC2+2M2hwC
式中: h 2號 特征圖的高度;w 特征圖的寬度;C 特征圖的維度;M☉ 2 每個窗口的大小。
1.2 數據增強算法
數據增強是深度學習中一種至關重要的技術,也是本文的關鍵技術之一,主要用于提高模型的泛化能力,減少過擬合。
數據增強的基本思想是通過對原始數據進行一系列變換來創建新的變換數據。這種方法可以在不實際增加數據量的情況下,提高模型對新數據的適應性和魯棒性。例如,在圖像分類任務中,常常使用的數據增強技術包括旋轉、縮放、剪切和顏色調整等。通過這一系列的操作,可以生成多樣化的圖像樣本幫助模型學習到不同角度、不同大小和不同顏色條件下的特征。數據增強不僅可以提高模型的泛化能力,還能夠一定程度上解決數據不平衡的問題。在一些情況下,原始的數據集在某些類別上的樣本可能相對較少,可以通過數據增強技術增加這部分樣本數據量。此外,遷移學習在數據增強中的應用也是一個重要的發展趨勢。
使用高斯濾波對圖像進行平滑處理,計算如式(3)所示。

式中: G(c,d) 高斯函數在坐標 (c,d) 處的值;
σ 1 標準差。
圖像中梯度的方向與邊緣的方向是垂直的,邊緣檢測算子計算圖像在水平方向和垂直方向上的梯度分量記為 Gc 和 Gd 。梯度的幅度值 G 和方向角 θ 計算如式(4)和式(5)所示。


獲得梯度的幅度和方向后,遍歷圖像中的像素點去除所有非邊緣的點。在實現過程中,判斷當前像素點是否與周圍像素點具有相同梯度方向的最大值,如果是局部最大值則保留該像素點,如果不是則抑制該像素點。圖像邊緣中可能同時存在弱邊緣和強邊緣,導致弱邊緣產生的要素可能是由真實圖像邊緣產生的,另一方面也有可能是由噪聲產生的,如高斯噪聲、泊松噪聲、椒鹽噪聲等。為有效屏蔽噪聲產生的弱邊緣對真實特征的影響,設置2個閾值:其中一個為閾值上界,另一個為閾值下界,像素點大于閾值上界認為是強邊界,小于閾值下界則認為不是邊界。之后使用輪廓檢測算法對邊緣圖像進行處理,突出顯示大物體的輪廓。
使用圖像融合公式將原始圖像與邊緣圖像進行融合,如式(6)所示。
O=α×I+β×E
式中: O —輸出圖像;I —原始圖像;E ——邊緣圖像;α,β. —權重參數
為提高模型對葉片病害識別的泛化能力,使用改進的CutMix[12.13]數據增強算法對葉片數據進行處理。CutMix與Mixup[14相似,Mixup 通過插值混合2個樣本,該方法雖然可以提高分類的準確性,但會使葉片圖片不自然。CutMix技術通過裁剪圖像中的某部分且不使用零像素填充,而是隨機地用訓練集中其他數據的區域像素值來填充,這種方法使混合后的數據更自然。盡管CutMix對比Mixup數據增強方法有巨大的提升,但是CutMix中的替換操作往往是隨機的,如果替換的是不重要的部分或是背景,則會使模型不能捕捉最具辨識度的部分,這種方式就會降低模型的訓練效率。使用改進的CutMix可以使模型關注葉片病害的重要部分且不會產生額外的計算成本。使用預訓練網絡生成的注意力圖來定位圖像需要替換哪一部分。原理是通過2個不同的樣本 (a1,b1) 和 (a2,b2) 來創建新的訓練樣本
, a∈RH×W×C 為圖像數據, b 為訓練標簽,計算如式(7)和式(8)所示。


式中: B 一二進制的掩碼, B∈{0,1}H×w λ ——混合比例;? -哈達瑪積。
首先,從預訓練的分類模型中生成第一張圖像的熱圖,熱圖通過網格形式呈現,展現圖像中各個部分的重要性,然后從網格圖中選取 N 個最重要的區域,這些區域被視為圖像中最值得關注的區域,選中的這些網格隨后會被映射到原始的圖像中。將這些網格從第一張圖像中剪切出來,并且粘貼到第二張圖像的相應位置。每一次訓練中,每張圖都通過隨機選擇的圖像剪切和粘貼網格來進行數據增強。CutMix在提高模型分類準確性上有卓越的能力。然而,CutMix有效性理論比較薄弱,一個原因是其隨機交換圖像中的一部分為圖像中的分類對象提供隨機遮擋,使得模型難以過擬合,迫使模型學習與特定對象相關的更重要的信息。但是,交換的矩形塊是隨機的,則有可能剪切出的是圖像背景且將其粘貼到第二張圖像的背景上,由于標簽按權重來分配,則在理論上需要將背景區域與標簽聯系起來給模型學習,這阻礙了模型的學習。改進的CutMix不是隨機選擇補丁,而是利用預訓練的網絡來確定最重要、最有代表性的部分用于分類任務,預訓練越好則改進的CutMix就越有效,且剪切出來的補丁被粘貼到第二張圖像的相同位置上,幫助模型進一步遮擋圖像。因此,改進的CutMix通過預訓練的網絡來減少隨機性,改進補丁的選擇和粘貼位置,使得模型學習到更多的信息。數據增強示例如圖2所示。
圖2數據增強示例Fig.2Data augmentation example

1.3 頻域SwinTransformer
SwinTransformer基于多頭注意力機制。然而,頻域層與多頭注意力層對模型的性能都至關重要。因此,提出一種新型的頻域SwinTransformer。這種模型通過頻域層捕捉圖像中的不同頻率成分以深人理解圖像的局部頻率特征。頻域模塊結構如圖3所示。
圖3頻域模塊Fig.3Frequencydomain block

給定一個包含 N 個復數的序列 x[n] ,其中 n= 0,1,…,N-1 ,一維離散傅里葉變換將序列轉換到頻域中,如式(9)所示。

式中:j— 虛數單位。
離散傅里葉變換[15]具有唯一性。通過對頻域表示的 X[k] 應用逆離散傅里葉變換可以完全恢復原始序列 x[n] ,如式(10)所示。

一維信號可擴展為二維形式,一個二維信號x[m,n] ,滿足 0?m?M-1 和 0?n?N-1 ,二維離散傅里葉變換 x[u,v] 如式(11)所示。

模型將圖像塊作為模型的輸人,將每個塊轉換為向量,每個向量包含 D 個特征。傅里葉變換層、加權門控層、逆傅里葉變換層可以混合代表不同空間位置的向量,首先進行傅里葉變換,將 x∈RH×W×D 轉換到頻域,如式(12)所示。

式中: F[?] —二維傅里葉變換;
X x 的頻譜。
其次,通過一個可學習的濾波器 K∈CH×W×D 與 X 來調制頻譜,如式(13)所示。

式中: K 上 全局濾波器。
最后,通過逆傅里葉變換將調制后的頻譜
轉換回空間域并更新向量,如式(14)所示。

本研究通過頻域門控網絡來實現,此網絡包含傅里葉變換層、加權門控層、逆傅里葉變換層,引入一個可學習的權重參數,用于調整圖像中每個頻率分量的權重,以便更有效地捕捉線條和邊緣特征。這些權重參數通過反向傳播技術進行學習。頻域層利用逆傅里葉變換將數據從頻域轉換回物理空間,隨后應用層歸一化和多層感知機進行通道混合。注意力層難以精確捕捉局部特征而頻域層也不擅長處理全局特征,頻域SwinTransformer通過在窗口中使用頻域層來識別局部特征,并通過注意力層來捕捉窗口的全局特征,最后通過滑動窗口技術來促進窗口間的信息交流。病害葉片的差別很小,這種模型在病害識別任務中能夠捕捉病害之間的細微差別。
FrequencyDomainBlock結構中先通過頻域層再通過多頭注意力層。假設輸入信號為 xl-1 ,對 xl-1 進行頻域層計算得到信號 xl ,對輸出信號 xl 計算基于窗口的多頭注意力得到信號 xl+1 ,對輸入信號進行基于移動窗口的多頭注意力得到信號 xl+2 。連續FrequencyDomainBlock的計算如式(15)~式(20)所示。

式中: W -MSA(?). ——窗口多頭注意力;
在使用頻域SwinTransformer進行葉片病害識別時,輸入圖像的質量會直接影響模型的性能。傳統的圖像預處理算法通常包括一些基本步驟,例如圖像尺寸、亮度和對比度調整等。然而,這些方法往往不能充分提取圖像的局部特征和全局信息,從而導致模型性能下降。為了解決這個問題,在實際應用中需要使用性能更好的算法,同時對輸入數據進行一定程度的處理以提高模型性能。使用高斯濾波、邊緣檢測、顏色增強、突出大物體邊緣和改進的CutMix數據增強算法等方法,并利用該方法進行基于頻域SwinTransformer模型的試驗驗證。試驗結果表明,所提出的方法可以有效提高基于頻域SwinTransformer模型在番茄、水稻和棉花葉片病害識別上的準確性。
該模型由3個部分組成,與傳統CNN模型相比,該模型在葉片病害識別上主要優化如下:(1)首先對番茄、水稻和棉花病害圖片的訓練集和測試集進行預處理和數據增強,通過高斯濾波、邊緣檢測、顏色增強和改進的CutMix數據增強來擴展訓練分布,提高模型的魯棒性。(2)為深入提取葉片病害圖像中的局部和全局特征并獲取高層次的視覺語義信息,選擇基于頻域SwinTransformer模型作為核心骨干網絡。這一網絡結構同時設置頻域層和多頭注意力層可以有效提升模型的特征建模能力,同時網絡結構借鑒卷積神經網絡中的分層構建方法,并通過不同的下采樣倍率對圖像進行逐級下采樣。在模型的識別過程中,優化了像素塊間的信息交互機制,從而更深入地提取葉片病害圖像的整體語義特性。這使得模型在病害種類的識別上更加精確。(3)通過遷移學習方法,將預先訓練好的模型參數應用于葉片病蟲害識別任務中。這種方法不僅減少了模型對大量數據的依賴,還大大縮短了訓練周期,并顯著提高了模型識別的準確度。在使用模型進行圖像分類任務時,所提出的方法可以有效地提高模型性能和泛化能力。未來的研究方向包括優化算法、增加新的數據增強算法等,以進一步探索模型的優勢,并提高其在實際應用中的性能和可靠性。基于頻域SwinTransformer模型結構如圖4所示。

2 試驗分析
2.1試驗數據集
使用番茄病害數據集[16水稻病害數據集1兩種公開可使用的植物病害數據集和自建的棉花病害數據集。番茄病害數據集來自AIChallenger20l8數據集。選取番茄病害相關的數據,構建一個包含12948張番茄葉片圖片的數據集,其中包括9種病害類型和1種健康類型。數據集中各類別的圖像數量如表1所示。可以看出,樣本數量在各類別之間存在不均衡現象。為解決這個問題,在訓練模型時采用數據增強方法,以緩解數據集類別不平衡可能導致的模型性能下降等問題,例如對圖像進行旋轉、縮放和裁剪等操作,以增加番茄病害樣本的多樣性,并有效減少類別不平衡對模型性能的負面影響。圖5為部分番茄病害圖像樣本。
表1番茄病害數據集類別及數量 Tab.1 Category and quantity of tomato disease dataset

圖5番茄病害數據集中部分圖像

水稻病害數據集包含5932張病害水稻葉片圖像,包括水稻東格魯病、水稻褐斑病、水稻細菌性條斑病和水稻枯萎病,采用尼康DSLR一D5600的 18~ 55mm 鏡頭拍攝,將圖片大小調整到224像素 x 224像素,從每類原始樣本中抽取200張圖像作為測試集,該數據集部分圖像如圖6所示。
圖6水稻病害數據集中部分圖片
Fig.6Partial images in thericediseasedataset

使用的水稻數據集病害類別及每個病害類別的具體數量如表2所示。可以看出,數據集中的樣本數量存在明顯的不均衡情況。為了應對這一問題,在模型訓練過程中采用了單樣本數據增強技術,以減輕類別不均衡導致的模型性能下降問題。
表2水稻病害數據集類別及數量 Tab.2 Classification and quantity of rice disease datasets

棉花病害數據集在2023年5月一2024年4月拍攝于新疆生產建設兵團胡楊河市。采集對象為不同病害類別的棉花植株,在多方位、多角度和不同光照條件下進行采集,采集距離為 0.1~1.5m ,圖像包含相鄰、遮擋、強光、重疊等情況。圖像格式為JPG,分辨率調整為224像素 ×224 像素,極少數病害類別中的圖像從百度收集作為補充,數據集共3600張圖像,6個類別,每個類別600張圖像,從每類原始樣本中抽取200張圖像作為測試集。棉花數據集中部分圖像如圖7所示。
圖7棉花病害數據集中部分圖像
Fig.7 Partial imagesin the cotton disease dataset

2.2 試驗環境
試驗操作系統為Ubuntu2O.O4,模型由Pytorch框架搭建,訓練100個周期,batchsize為16,使用AdamW優化器,學習率為0.0001,為抑制過擬合,權重衰減設置為 0.0005 。
2.3 評價指標
在對比試驗中,主要使用準確率Accuracy、精確率Precision、召回率 Recall,F1 分數和檢測速度FPS五個評估指標對比和判斷改進后方法的有效性,Accuracy、Precision、Recall、 F1 計算如式 (21)~ 式(24)所示。

式中: TP 真正例;FP 假正例;TN- 真反例;FN- 假反例。
2.4試驗結果分析
在番茄病害數據集、水稻病害數據集和棉花病害數據集上構建VGG16[18.19]、ViT、GoogLeNet[20.21]、ResNet[2.23]、AlexNet,MobileNetV2、MobileViT[24]和 Swin Transformer模型,參數設置相同。優化器和超參數也保持一致,對比準確率、精確率、召回率 ??F1? 分數和 FPS 指標。結果表明,基于頻域SwinTransformer在植物病害識別方面表現出更高的準確率、精確率、召回率 ??F1? 分數和FPS,該模型具有更好的效果。在番茄病害數據集、水稻病害數據集和棉花病害數據集上的結果如表 3~ 表5所示?;陬l域SwinTransformer在番茄病害數據集上準確率為98.59% ,在水稻病害數據集上準確率為 100% ,在棉花病害數據集上準確率為 99.58% ,相比于基線模型,基于頻域SwinTransformer模型在3個數據集上分別提升1.34%.0.12%.0.5% 。與其他模型相比,基于頻域SwinTransformer模型在準確率、精確率、召回率 ??F1 分數和FPS上也有較大提升,說明該模型性能更好,可以有效提升模型的特征建模能力。
表3番茄病害數據集試驗結果Tab.3Experimental resultsof tomato disease dataset

注:Ours1表示Swin Transformer+Frequency模型;Ours2表示SwinTransformer+Frequency+CutMix模型。下同。
表4水稻病害數據集試驗結果Tab.4 Experimental results of rice disease dataset

表5棉花病害數據集試驗結果Tab.5Experimental results ofcotton disease dataset

該模型使用改進的CutMix數據增強算法比使用其他或不使用數據增強算法的模型在準確率、精確率、召回率和F1分數上有所提升。這些評價指標均表明,模型使用改進的CutMix數據增強算法可以防正模型過擬合,提高模型的泛化性能。
測試集部分結果如圖8所示,例如:標簽為斑枯病的葉片基線模型將其錯誤分類為白粉病的預測概率為72% ,改進后的模型將其正確分類為斑枯病的預測概率為 100% 。
從圖8可以看出,在相同的葉片病害圖像上基于頻域SwinTransformer識別準確率和預測概率比基線模型表現更好。

通過混淆矩陣了解基于頻域SwinTransformer在不同類別之間的分類情況。基于頻域SwinTransformer比傳統的SwinTransformer漏報率和誤報率低,總體上有更好的分類結果。使用改進的CutMix數據增強算法的模型在漏報率和誤報率上比不使用該算法的模型低,說明該方法的加入能夠提升分類性能。同時,在某些類別上還有一些分類錯誤,這為進一步優化基于頻域SwinTransformer提供改進重點和方向。番茄病害數據集混淆矩陣如圖9所示,水稻病害數據集混淆矩陣如圖10所示,棉花病害數據集混淆矩陣如圖11所示。
繪制準確率曲線和損失曲線評估模型的訓練和泛化性能。準確率曲線和損失曲線隨迭代次數增加逐漸趨于平穩,模型效果穩定。番茄病害數據集準確率曲線和損失曲線如圖12所示,水稻病害數據集準確率曲線和損失曲線如圖13所示,棉花病害數據集準確率曲線和損失曲線如圖14所示。



2.5 模型熱力圖可視化
在使用模型進行番茄、水稻和棉花病害葉片識別任務時,通過模型訓練之后直接得到了關于番茄、水稻和棉花的分類結果,但是卻不了解是哪一部分的病害信息決定著最終的病害識別結果,使用SwinTransformer和頻域SwinTransformer對部分番茄、水稻和棉花葉片進行類激活圖可視化對比。如圖 15~ 圖17所示,圖中每個部分的顏色不一樣,與番茄、水稻和棉花病害相關的部分顏色越深越趨近紅色。
圖15番茄病害類激活圖

圖16水稻病害類激活圖

圖17棉花病害類激活圖Fig.17 Activation maps of cotton

從圖15可以看出,白粉病、斑枯病、晚疫病、葉霉病、早疫病分布較為分散且病斑較小,導致SwinTransformer無法全面準確鎖定病害區域,基于頻域SwinTransformer模型則可以提取出番茄病害區域的關鍵特征信息,可以準確清晰地定位出葉片病害的關鍵位置。在圖16中,由于背景干擾,SwinTransformer常常不能準確地定位病害位置,但是基于頻域SwinTransformer可以全面準確地提取出病害的特征信息,忽略背景的干擾。在圖17中,由于病害部位多病灶點小且分散,SwinTransformer無法精準鎖定病害區域,但是頻域SwinTransformer可以精準提取出每個病灶點的特征。綜上,基于頻域SwinTransformer可以準確清晰地定位出番茄、水稻和棉花病害相關區域,極大地提高了病害的識別效果。
3結論
1)提出基于頻域SwinTransformer模型,融合改進的CutMix數據增強算法、頻域層和SwinTransformer的優勢來解決模型不能捕捉最具辨識度的部分,降低模型的訓練效率,以及對葉片病害部位特征捕捉不夠精確和圖像存在背景噪聲引起的分類精度低的問題。
2)基于頻域SwinTransformer模型在番茄、水稻和棉花病害數據集上識別準確率分別為 98.59% 、100.00% 、 99.58% ,相較于基線模型分別提升1.34%.0.12%.0.5%
3)基于頻域SwinTransformer模型處理速度更快、性能更好,相比于基線模型,在番茄、水稻和棉花病害數據集中FPS分別提高2.54幀/s、4.04幀/s、9.97幀/s。
參考文獻
[1]陳孟燕,王敏娟,宋青峰,等.基于ECA一FV一CNN的 水稻單籽粒質量分級方法[J].農業機械學報,2023, 54(S2):235-243. ChenMengyan,WangMinjuan,SongQingfeng,etal. Method for single rice grain weight grading based on ECA—FV—CNN[J]. Transactions of the Chinese Society for Agricultural Machinery,2O23,54(S2): 235—243.
[2]Krizhevsky A,SutskeverI,Hinton GE.ImageNet classification with deep convolutional neural networks [J]. Communications of theACM,2017,60(6):84-90.
[3]Fuentes A,Yoon S,Park D S.Deep learning-based phenotyping system with glocal description of plant anomalies and symptoms[J].Frontiers in Plant Science, 2019,10:1321.
[4]AgarwalM,SinghA,ArjariaS,etal.ToLeD:Tomato leaf disease detection using convolution neural network [J]. ProcediaComputerScience,2020,167:293-301.
[5]王志強,于雪瑩,楊曉婧,等.基于WGAN和MCA— MobileNet的番茄葉片病害識別[J].農業機械學報, 2023,54(5):244—252. WangZhiqiang,YuXueying,YangXiaojing,etal.Tomato leafdiseases recognition based on WGAN and MCA— MobileNet [J].Transactions of the Chinese Society for Agricultural Machinery,2023,54(5): 244—252.
[6]李大華,仲婷,王筍,等.基于改進ShuffleNetv2的輕量 化番茄葉片病害識別[J].江蘇農業科學,2024,52(3): 220-228.
[7]白玉鵬,馮毅琨,李國厚,等.基于Vision Transformer的 小麥病害圖像識別算法[J].中國農機化學報,2024, 45(2):267-274. Bai Yupeng,Feng Yikun,Li Guohou,et al. Algorithm of wheat disease image identification basedonVision Transformer[J].JournalofChineseAgricultural Mechanization,2024,45(2): 267—274.
[8]Tolstikhin I O,Houlsby N,Kolesnikov A,et al. MLP-mixer: An all-MLP architecture for vision [J]. Advances in Neural Information Processing Systems, 2021,34:24261—24272.
[9]楊信廷,劉彤,韓佳偉,等.基于Swin Transformer與 GRU的低溫貯藏番茄成熟度識別與時序預測研究[J]. 農業機械學報,2024,55(3):213—220. Yang Xinting,Liu Tong,Han Jiawei,et al.Low temperature storage tomato maturity recognition and time series prediction based on Swin Transformer—GRU [J]. Transactions of the Chinese Society for Agricultural Machinery,2024,55(3):213—220.
[10]方俊澤,郭正,李歌,等.基于改進Swin—Transformer 的柑橘病葉分類模型[J].中國農機化學報,2024, 45(1):252-258. Fang Junze,Guo Zheng,Li Ge,et al. Classification model of citrus disease leaf based on improved SwinTransformer[J].JournalofChineseAgricultural Mechanization,2024,45(1):252-258.
[11]王坤俠,余萬成,胡玉霞.嵌人混合注意力機制的Swin Transformer人臉表情識別[J].西北大學學報(自然科學 版),2024,54(2):168—176. Wang Kunxia, Yu Wancheng,Hu Yuxia. Facial expression recognition in SwinTransformerembedding hybrid attention mechanism[J]. Journal of Northwest University (Natural Science Edition),2024,54(2):168-176.
[12]Yun S,Han D,Oh S J,et al. Cutmix:Regularization strategytotrainstrongclassifierswithlocalizable features [C].Proceedings of the IEEE/CVF International Conference on Computer Vision,20l9: 6023—6032.
[13]Wang T,Jiang W,Lu Z,et al.Vlmixer:Unpaired vision-language pre-training via cross-modal cutmix [C]. International Conference on Machine Learning,2022: 22680-22690.
[14] Zhang H,Cisse M, Dauphin Y N,et al. Mixup: Beyond empirical risk minimization [J].arXiv preprint arXiv: 1710. 09412, 2017.
[15]Rao Y,Zhao W,Zhu Z,et al.Global filter networks for image classification [J]. Advances in Neural Information Processing Systems,2021,34: 980-993.
[16] Zhou C,Zhou S,Xing J,et al.Tomato leaf disease identificationbyrestructureddeepresidualdense network[J]. IEEE Access,2021,9: 28822—28831.
[17]Sethy P K, Barpanda NK,Rath A K,et al. Deep feature based rice leaf disease identification using support vector machine [J]. Computers and Electronics in Agricultre, 2020,175:105527.
[18]王江晴,冀星,莫海芳,等.基于輕量化VGG的植物病 蟲害識別[J].中國農機化學報,2022,43(4):25—31. Wang Jiangqing,Ji Xing,Mo Haifang,et al.Plant disease detection based on lightweight VGG[J]. Journal of Chinese Agricultural Mechanization,2022,43(4):25-31.
[19]戚超,左毅,陳哲琪,等.基于改進VGG16的大米加工 精度分級方法研究[J].農業機械學報,2021,52(5): 301—307. Qi Chao, Zuo Yi,Chen Zheqi,et al. Rice processing accuracy classification method based on improved VGG16 convolution neural network [J]. Transactions of the Chinese Society for Agricultural Machinery,2O21, 52(5): 301—307.
[20]宋晨勇,白皓然,孫偉浩,等.基于GoogLeNet改進模型 的蘋果葉病診斷系統設計[J].中國農機化學報,2021, 42(7):148-155. Song Chenyong,Bai Haoran,Sun Weihao,et al. Design of apple leaf disease diagnosis system based on GoogLeNet improved model [J]. Journal of Chinese Agricultural Mechanization,2021,42(7):148—155.
[21]Tang P,Wang H,Kwong S. G—MS2F:GoogLeNet based multi-stage feature fusion of deep CNN for scene recognition[J].Neurocomputing,2017,225:188-197.
[22]Theckedath D, SedamkarRR.Detectingafect states using VGG16, ResNet5O and SE—ResNet50 networks[J]. SN Computer Science,2020,1(2):79.
[23]姜紅花,楊祥海,丁睿柔,等.基于改進ResNet18的蘋果 葉部病害多分類算法研究[J].農業機械學報,2023, 54(4):295-303. Jiang Honghua,Yang Xianghai,Ding Ruirou,et al. Identification of apple leaf diseases based on improved ResNet18[J]. Transactions of the Chinese Society for Agricultural Machinery,2023,54(4):295—303.
[24]楊志凱,扶蘭蘭,唐燦,等.基于MobileViT模型的小麥 收獲機喂入密度分類方法[J].農業機械學報,2023, 54(S1): 172—180. YangZhikai,FuLanlan,TangCan,etal.Classification method for wheat harvester feding density based on MobileViT model[J]. Transactions of the Chinese Society for Agricultural Machinery,2023,54(S1):172—180.