張 超,李 丹
(1.吉林化工學院信息與控制工程學院,吉林吉林 132022;2.吉林農業科技學院電氣與信息工程學院,吉林吉林 132101)
大棚水稻種植技術代表著農業領域的一項前沿實踐,通過將水稻種植移入大棚這一受控環境中,實現對光照、病蟲害等因素的精準調控。這不僅有助于提高水稻的產量和質量,同時能夠有效地管理病蟲害,減少對農藥的依賴,促進農業的可持續發展。
現如今,深度學習的快速發展為檢測植物病蟲害提供了有效幫助,但依然存在缺陷。目前大部分的病蟲害數據集都是利用相機等設備在實驗大棚內拍攝處理后獲取的靜態圖像。然而,處于大棚環境下的農作物常受亮度和搖擺運動等因素影響,降低了模型對病害特征的提取效率[1]。同時,現場拍攝獲取的數據集樣本量偏少,容易導致訓練過程中過擬合,導致模型對病蟲害識別的準確度下降[2]。
基于上述問題,本文提出了一種基于ConvNeXt-T神經網絡結構的水稻病蟲害識別模型。通過增加高斯噪聲、隨機遮擋和旋轉等數據預處理方法來增加數據集的復雜性以模擬實驗大棚中不同因素對檢測的影響,將獲取的4 268 張水稻害蟲圖像擴展到21 340 張,使得神經網絡模型在訓練過程中增強泛化能力和魯棒性。通過中心裁剪等數據增強方法,來解決訓練中易出現的過擬合現象。
本次研究所用初始水稻數據集拍攝于吉林農業科技學院實驗大棚,含有四種不同類型的病蟲害圖像,其中白葉枯病圖像有1 584 張、水稻細菌性條斑病圖像1 440 張、褐斑病圖像1 600 張和水稻東格魯病毒病圖像1 308 張,水稻病蟲害初始數據集共5 932 張圖像。將圖像尺寸(像素)統一裁剪為224×224 大小并以.jpg的格式進行保存[3]。
為了模擬實際大棚光照、風吹及葉片之間的相互遮掩等復雜環境問題,本文利用圖像預處理的方式進行環境模擬,如圖1 所示。通過添加高斯噪聲、隨機亮度、旋轉角度和隨即遮掩的數據預處理分別模擬環境中可能發生的畫面模糊、光照強度變化、大風干擾及葉片之間相互遮掩的情況,并將數據集樣本數量從5 932 張擴充到21 340 張來防止訓練過程擬合,使得模型獲取更多復雜環境中的疾病特征,提高模型驗證的準確性[4]。

圖1 數據預處理圖像樣本
2022 年1 月,Facebook AI Research 和UC Berkeley聯合發表的一篇文章提出了ConvNeXt純卷積神經網絡。對比2021 年提出的Swin Transformer 模型,ConvNeXt 在相同的浮點運算數(floating point operations,FLOPs)下具有較高的準確率[5]。ConvNeXt 網絡根據不同階段(stage)重復堆疊塊個數的不同共分為5 個版本,分別為ConvNeXt-T、ConvNeXt-S、ConvNeXt-B、ConvNeXt-L和ConvNeXt-XL。每個版本對應的通道數及網絡塊(Block)個數如表1 所示。

表1 ConvNeXt 不同版本的參數
相較于ResNet 每個stage 中大約1 ∶1 ∶2 ∶1的Block 個 數 比 例,ConvNeXt 采 用Swin-T 的1 ∶1 ∶3 ∶1 比例,準確率相比之前有所提升。在結構方面也與ResNet 的Block 有差異,ConvNeXt 網絡將Block 中depthwise conv 模塊上移,并將其3×3 的卷積核改成7×7,用Transformer 中常用的激活函數GELU 和歸一化LN(Layer Normalization)替代RELU和BN(Batch Normalization),同時減少激活函數和歸一化在Block 中的使用,這使得準確率再次提升。
ConvNeXt 網絡在整體結構的其他方面與以前的經典網絡也有所不同。對于一般卷積神經網絡,最初的下采樣模塊一般都是由卷積核大小為7×7 且步距(stride)為2 的卷積層及一個步距為2 的最大池化層組成;而ConvNeXt 網絡則采用Swin Transformer 模型常用的卷積核為4×4、步距為4 的卷積層構成模型中最初的下采樣,替換后準確率又有所提升。本文將利用ConvNeXt-T 神經網絡進行水稻病蟲害識別的研究,其結構圖如圖2 所示。

圖2 ConvNeXt-T 網絡結構圖
本次研究所用電腦系統為Windows 10 ×64 位,內存為80 G,CPU 為AMD EPYC 9654,并配備一張RTX 4090 的顯卡。采用Python 編程語言,pytorch 深度學習框架進行建模。
在本研究中,模型使用了自適應優化算法(Adaptive Gradient)。輸入圖像的尺寸大小為224×224,批量大小(Batch size)為8,遍歷次數(epochs)為50,初始學習率(lr)為0.000 5,權重衰減(wd)為0.05,并且將病蟲害識別的平均準確率作為模型評價的指標。
為了體現ConvNeXt-T 網絡模型的準確性和穩定性,圖像傳輸到模型之前,隨機抽取增強擴充過的數據集中每種病蟲害圖像的20%作為測試集,剩余的80%作為訓練集。利用相同的訓練集在AlexNet、VGG16、GoogLeNet、ResNet34 及ConvNeXt-T 中 進行訓練,各網絡在訓練集上的準確率如圖3 和表2 所示,ConvNeXt-T 準確率最高,達到了99.86%,其識別精度曲線也高于其他網絡模型,收斂速度也快于其他模型。在相同的增強擴充數據集下,AlexNet、VGG16、GoogLeNet、ResNet34 在訓練集上準確率分別為98.64%、99.14%、99.64%、98.96%,分別比ConvNeXt-T 網絡低1.22、0.72、0.22、0.90 個百分點。因此,可以證明ConvNeXt-T 神經網絡在水稻病蟲害識別上比其他網絡結構的可行性更高。

表2 各模型訓練準確率

圖3 水稻病害訓練集在各網絡上的準確率
如今,深度學習為大棚水稻病蟲害的識別提供了有效的方法,神經網絡模型的成熟有助于系統準確地對水稻病蟲害進行分類處理,提高糧食產量。研究表明,本文所用基于ConvNeXt-T 的水稻病害識別模型對大棚中水稻病蟲害具有較高的識別精度及穩定性。該模型能夠通過對不同的病蟲害圖像進行學習,獲取更多的特征信息來適應復雜的環境干擾,使得模型識別精度大大提高。在水稻病蟲害識別模型訓練過程中,通過數據預處理和數據增強,使得模型準確率到達99.86%,與AlexNet、VGG16、GoogLeNet、ResNet34相比分別提高了1.22、0.72、0.22、0.9 個百分點,基于ConvNeXt-T 神經網絡的水稻害蟲識別模型具有優越的性能。本研究同時為背景復雜、數據集過小、有效特征提取困難等關鍵問題提供了一種可行的研究方法和重要參考。