劉敏,周麗
(1. 湖南科技職業學院軟件學院,長沙市,410004; 2. 湖南農業大學經濟學院,長沙市,410128)
蘋果具有較高的經濟價值和營養價值,種植面積和產量逐年增加。據估計,2021年中國蘋果總產量達到4 597.34萬噸,同比2020年增長了4.33%。在蘋果生長過程中,葉片的病害是導致蘋果產量和質量下降的主要因素。常見的蘋果葉片病害主要有花葉病、落葉病、霉心病、灰斑病等[1-2]。因此,及時準確地檢測出這些蘋果病害,對于提高蘋果產量和質量具有重要的意義。
現有的蘋果病害診斷方法主要依靠人工經驗進行檢測[3-4],通過判斷葉片的各種顏色變化來實現病害的分類,此類方法雖然可以借助豐富的專家經驗進行病蟲害的檢測,然而主觀性較強,效率低,成本高,極易錯過最佳蘋果病害的控制期。近年來,隨著人工智能技術的快速發展,計算機技術在農業圖像處理領域引起了眾多學者的廣泛關注[5-6]。研究者通過使用支持向量機、K-means聚類、隨機森林、集成學習、濾波分割等方法提高了對農作物病害檢測的效率和準確性,降低了模型對專家知識的依賴[7]。然而,傳統圖像處理方法極易受到環境因素的影響,使得提取的特征魯棒性不強,在實際應用中檢測效果不佳。
隨著深度學習在計算機視覺領域的成功應用,特別是以卷積神經網絡、遞歸神經網絡等深度網絡的不斷完善[8-9],圖像檢測的實用性和魯棒性大幅提高。將深度學習引入農業領域,開展農作物病害的自動檢測,成為研究者關注的熱點課題。如于雪瑩等[10]針對蘋果病害數據樣本不足的問題,提出一種基于生成對抗網絡的蘋果病害葉片檢測模型,通過利用注意力機制改進深度殘差網絡,在提高蘋果病害圖像特征空間表達能力的同時,降低了模型的參數量。Yan等[11]提出一種基于卷積神經網絡的蘋果葉片霉心病、灰斑病和雪松蘋果銹病等類型的檢測模型,通過采用全局平均池化層代替Vgg-16網絡的全連接層,減少了模型參數,并結合遷移學習緩解了現有模型檢測精度不高的問題。類似地,Yu等[12]提出一種基于改進殘差網絡的蘋果葉片病害檢測方法。通過對卷積核進行分解,減少殘差模塊的數量,從而達到降低檢測時間開銷的問題。Bi等[13]針對深度網絡模型參數量大,導致檢測時間開銷大的問題,提出一種基于輕量級的Mobile-Net葉片病害檢測模型,并在移動端進行了部署與測試。潘仁勇等[14]針對基于卷積神經網絡的蘋果葉片病害檢測模型收斂速度慢的問題,提出一種新的變形卷積網絡,用于蘋果葉片的病害檢測任務中,通過在Plant Village數據集上驗證了設計的合理性。
綜上,雖然上述基于深度學習模型的蘋果病害葉片檢測模型緩解了傳統基于機器學習或手工檢測模型的性能過度依賴專家知識的問題,但現有主流模型主要利用單一的卷積神經網絡提取病害葉片圖像在空間維度上的全局特征,忽略了邊緣、紋理等局部細節特征,導致模型的檢測精度不高。為此,本文提出了一種基于多尺度特征融合注意力網絡的蘋果病害葉片檢測模型,旨在提高模型對病蟲害葉片的檢測性能。此外,通過改進傳統卷積神經網絡的結構,緩解現有深度模型參數量大,導致模型復雜度高的問題。
數據集來自“2008年人工智能挑戰者全球挑戰賽”官方開源的蘋果病害葉片檢測數據[11]。本文僅選擇數據集中的蘋果病害葉片檢測樣本,蘋果病害葉片的類型與對應的樣本總數如表1所示。所有圖片的大小均被調整為3×224×224。經過去重操作后,數據集總共包含24 602張圖片,并利用旋轉、濾鏡、裁剪等數據增強方法擴展原始數據樣本為11 010張,并按照8∶2的比例劃分為訓練集和測試集。圖1給出了部分蘋果病害葉片的案例。

(a) 健康葉片

表1 病害類型與對應的樣本數量Tab. 1 Corresponding between number and disease classes
Vgg-16卷積神經網絡在圖像分類、檢測、目標定位等各個領域得到了廣泛的應用[15-16]。然而,標準的Vgg-16網絡涉及的模型參數量大,在實際應用中收斂速度慢,訓練時間長,不符合實際生活中對于實時性的高要求。受深度可分離卷積網絡在改進深度卷積網絡中的成功應用[17-18],本文利用圖2所示的深度可分離卷積代替傳統標準卷積塊,通過將標準的深度Vgg-16網絡中的標準卷積塊分解為多個深度卷積和逐點卷積,通過減少參數量來降低模型的時間開銷;其次,并利用改進后的Vgg-16作為蘋果病害葉片圖片的全局特征提取器。改進后的Vgg-16網絡結構如圖2所示。

圖2 改進后的Vgg-16網絡結構
如圖2所示,首先利用深度卷積網絡將蘋果的病害葉片圖片映射到深度特征空間S中,生成多張特征圖FDC={F1,F2,…,Fm};然后,利用l個大小為κ×κ的卷積核將FDC沿通道方向進行組合;最后,將組合后的特征圖作為逐點卷積網絡的輸入,即將FDC利用k個大小為1×1的卷積核進行卷積運算。Vgg-16網絡進行全局特征提取的計算如式(1)所示。
Fg=VS{f(Ii)→h(FDC)}
(1)
式中:Fg——蘋果病害葉片圖片映射到深度特征空間的全局特征圖;
f(Ii)——深度可分離卷積操作;
h(FDC)——逐點卷積操作。
此外,相比標準Vgg-16卷積網絡的參數計算量,改進后的Vgg-16模型參數的計算如式(2)和式(3)所示。
P1=κ×κ×l+l×k×1×1
(2)

(3)
式中:Pdsc——深度可分離卷積的參數;
PVgg-16——Vgg的參數。
當深度卷積網絡中卷積核的個數l較大時,改進后的Vgg-16網絡參數相當于標準Vgg-16模型參數計算量的1/κ2。
雖然現有基于深度學習的蘋果病害葉片檢測模型從全局特征的角度實現了較好的檢測性能,然而,早期的病害區域小、斑點模糊,紋理不清晰,僅利用全局特征難以捕獲邊緣、紋理等細節特征。為此,本文在全局編碼的基礎上,利用Swin Transformer網絡提取蘋果病害葉片的局部特征。Swin Transformer編碼[19]結構如圖3所示。
Swin Transformer局部特征提取模塊的核心包括窗口多頭自注意力(W-MSA)和偏移窗口多頭自注意力(SW-MSA)[20]。此處,引入偏移窗口多頭自注意力(SW-MSA),旨在緩解傳統基于注意力機制的全局編碼網絡極易導致目標細節信息丟失的問題,同時Swin Transformer通過不同倍率的下采樣獲得多層次特征,有效挖掘了邊緣、紋理等細粒度的信息。Swin Transformer進行局部特征提取的計算如式(4)~式(9)所示。
(4)
(5)
(6)
(7)
(8)
(9)
式中:LN(·)——線性映射函數;
MLP(·)——多層感知機;
Fl-1——多頭自注意力窗口的輸入特征;


l——用于標識不同窗口之間特征前后處理的順序。
圖4給出了基于多尺度特征融合網絡的蘋果病害葉片檢測模型的檢測流程。具體實現細節如下。

圖4 蘋果病害葉片檢測模型
1) 全局特征提取:利用深度可分離卷積改進的輕量級Vgg-16作為全局特征提取器,利用式(1)獲得蘋果病害葉片的全局特征Fglobal。
2) 局部特征提取:利用Swin Transformer提取蘋果病害葉片的局部特征。局部特征Flocal計算如式(4)~式(9)所示。
3) 多尺度特征融合:當前主流的蘋果病害葉片檢測模型主要借助卷積神經網絡提取葉片的全局特征,然而,早期的蘋果病害葉片區域不明顯,僅利用全局特征極易導致信息的丟失,造成病害最佳治療期的延誤。為此,本文利用一種多尺度特征融合網絡對局部特征和全局特征進行融合,融合流程如圖5所示。

圖5 多尺度特征融合網絡
首先,將全局特征和局部特征利用全連接層FC進行維度的轉換并將其拼接;然后,利用sigmoid函數計算拼接特征的權重分布。計算如式(10)所示。
綜上所述,對重度的股骨粗隆間骨折患者,采用硬膜外麻醉處理能更好地穩定血液流變學指標,避免術后深靜脈血栓的發生。但本研究樣本量較小,今后需擴大樣本量進一步驗證。
w=δ[φ(Flocal)⊕φ(Fglobal)]
(10)
式中:φ(·)——FC運算;
δ(·)——sigmoid函數。
最后,利用式(11)對全局特征和局部特征進行對應位置的權重注意力分布計算,得到最終的融合特征
F=w(Flocal+Fglobal)
(11)
4) 全局平均池化和歸一化:為了進一步減少模型參數,加快收斂速度,此處將融合后的特征F依次作為全局平均池化層(global average pooling,GAP)和批歸一化層(Batch Normalization,BN)的輸入。
5) 全連接層:為了使模型具有分類能力,將歸一化后的融合特征作為全連接層的輸入,并利用softmax函數實現蘋果病害葉片的分類;最后,利用交叉熵損失函數計算真實標簽與預測結果之間的損失,根據損失值端到端優化模型參數。
采用Windows 10操作系統,編程語言為python 3.7.3;采用Pytorch深度學習框架,Tesla T4 GPU,CUDA 10.1。
由于超參數的設置對于模型的性能影響較大,本文通過對比測試,設定初始學習率為0.008,采用隨機梯度下降策略SGD來優化模型,批量大小為25,訓練迭代次數為20。各項超參數的對比試驗如圖6所示。

(a) 學習率與準確率的對應關系
為了驗證本文模型的性能,采用精準率、準確率、召回率和F1-score作為評價指標。計算如式(12)所示。
(12)
式中:TP——模型預測正確的樣本數;
TN——模型預測錯誤的樣本數;
FP——誤報樣本個數;
FN——漏報樣本個數。
為驗證本文基于多尺度特征融合網絡的蘋果病害葉片檢測模型的有效性,在相同的試驗環境下與當前主流的目標檢測模型Faster R-CNN,Yolov5,Resnet-50、Vgg-16和GoogleNet進行對比試驗,詳細結果如表2所示,部分檢測可視化結果如圖7所示。不同方法的混淆矩陣如圖8所示。

(a) 褐斑病

(a) Faster R-CNN

表2 不同模型的性能對比Tab. 2 Performance comparison of different models %
由表2可知,本文模型在四個評價指標下優勢明顯。具體地,相比所有對比模型中表現最好的兩個模型,在準確率評價指標下,相比GoogleNet和Resnet-50模型,分別提升了1.24%(92.83%→93.98%)和1.99%(92.15%→93.98%);在精準率下,相比GoogleNet和Resnet-50模型,分別提升了1.17%(93.02%→94.11%)和2.18%(92.10%→94.11%);在召回率下,相比GoogleNet和Vgg-16模型,分別提升了0.82%(93.17%→93.93%)和2.09%(92.01%→93.93%);在F1指標下,相比Vgg-16和Resnet-50模型,分別提升了1.70%(93.04%→94.62%)和1.53%(93.19%→94.62%)。上述結果進一步驗證了本文模型的有效性,究其原因是相比傳統采用單一局部或全局特征的檢測模型,本文模型利用局部和全局多尺度融合特征,充分利用了蘋果病害葉片圖片的信息。
此外,為了進一步驗證本文模型的魯棒性,分別利用Faster R-CNN、Yolov5、Resnet-50、Vgg-16、GoogleNet對褐斑病(01)、灰斑病(02)、落葉病(03)、銹病(04)和花葉病(05)五種常見的蘋果病害葉片進行檢測。
為了分析各種改進模塊對于檢測性能的整體影響,進行消融試驗,如表3所示。表3中,全局表示僅使用Vgg-16作為主干網絡;局部表示僅利用Swin Transformer作為主干網絡;改進全局表示利用深度可分離卷積改進標準Vgg-16作為主干網絡。可以看出,雖然利用改進后的Vgg-16結合局部Swin Transformer作為主干網絡,可以提取更具有魯棒性的特征,然而,在模型參數方面,開銷較大。綜合模型參數量和蘋果病害葉片的檢測性能,選擇改進后的全局Vgg-16結合局部Swin Transformer作為特征主干網絡。

表3 不同變體模型的性能對比Tab. 3 Performance comparison of different variant models
針對現有蘋果病害葉片檢測模型信息利用不充分的問題,提出了一種基于多尺度特征融合網絡的蘋果病害葉片檢測模型。通過提取蘋果病害葉片圖片的全局和局部特征,強化了深度空間特征的表達能力;此外,利用深度可分離卷積替換標準卷積塊,通過減少模型參數來降低系統時間開銷,有效緩解了深度網絡因參數量多導致時間開銷大的問題。
1) 通過在開源的蘋果病害葉片檢測數據集上進行測試,本文模型可以實現93.98%的準確率、94.11%的精準率、93.93%的召回率和94.62%的F1值。
2) 僅利用單一的局部或全局特征,極易忽略目標主體的邊緣、紋理等細節特征或顏色、形狀等整體特征。本文利用局部和全局的多尺度融合特征,有效緩解了傳統模型信息利用不充分的問題。
3) 傳統基于深度網絡的目標檢測模型參數量大,導致時間開銷較大,不符合實際應用中對于實時性的高要求。