















摘要:
針對(duì)現(xiàn)有害蟲(chóng)識(shí)別模型復(fù)雜度高、計(jì)算量和參數(shù)量巨大的問(wèn)題,提出一種基于DCP-ShuffleNetV2的輕量級(jí)森林害蟲(chóng)識(shí)別模型。該模型主要從特征提取、特征融合、輕量化方面進(jìn)行改進(jìn)。首先通過(guò)引入金字塔分割注意力模塊PSA提取多尺度的空間信息和跨通道依賴關(guān)系,有效地學(xué)習(xí)上下文信息;其次將基準(zhǔn)網(wǎng)絡(luò)模型ShuffleNetV2的Stage模塊修改為CSP結(jié)構(gòu),增強(qiáng)特征融合能力;將模型的普通卷積替換為動(dòng)態(tài)卷積,壓縮模型參數(shù)量和計(jì)算量。試驗(yàn)以雄安新區(qū)“千年秀林”害蟲(chóng)為研究對(duì)象,構(gòu)建30類常見(jiàn)害蟲(chóng)數(shù)據(jù)集。結(jié)果表明,改進(jìn)后的DCP-ShuffleNetV2模型在自制的Forest30數(shù)據(jù)集上的害蟲(chóng)識(shí)別準(zhǔn)確率是92.43%,模型參數(shù)量、計(jì)算量和內(nèi)存大小分別是0.13 M、24.53 M和9.53 MB,相比于基準(zhǔn)網(wǎng)絡(luò)模型,識(shí)別準(zhǔn)確率提升3.11%,參數(shù)量、計(jì)算量和內(nèi)存大小分別減少62.83%、42.48%和15.13%。與目前常用的分類模型相比,識(shí)別準(zhǔn)確率平均提高5.39%,模型參數(shù)量、計(jì)算量和內(nèi)存大小平均減小14.32 M、1 035.80 M和35.98 MB。
關(guān)鍵詞:害蟲(chóng)識(shí)別;DCP-ShuffleNetV2;注意力機(jī)制;CSP結(jié)構(gòu);特征提取
中圖分類號(hào):S763; TP391.4
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):2095-5553 (2025) 01-0190-08
Identification method of lightweight forest pest based on DCP-ShuffleNetV2
Gao Tianci1, 2, Wang Kejian1, 2, Chen Chen1, 2, Han Xianzhong1, 2, Wang Chao1, 2, Li Huiping2, 3
(1. "College of Information Science and Technology, Hebei Agricultural University, Baoding, 071001, China;
2. Hebei Provincial Innovation Center of Urban Forest Health Technology, Baoding, 071001, China;
3. College of Forestry, Hebei Agricultural University, Baoding, 071001, China)
Abstract:
This paper proposes a pest recognition model based on lightweight DCP-ShuffleNetV2 to solve the problems of high complexity of model, large amount of computation and reference. The model is improved from feature extraction, feature fusion and lightweight. Firstly, to learn context information effectively, the Pyramid Split Attention (PSA) module is introduced to extract multi-scale spatial information and cross-channel dependency. Secondly, to enhance the feature fusion capability, the Stage module of the benchmark network model ShuffleNetV2 is modified to Cross Stage Partial (CSP) structure. Finally, to compress the number of parameters and computation, the regular convolution is replaced by dynamic convolution for the model. In the experiment, a data set of Forest 30 was constructed in the “Millennium Xiulin” of Xiong,an New Area. The experimental results show that the pest identification accuracy of the DCP-ShufflenetV2 model is 92.43%, and the number of parameters, computation amount and memory size of the improved model are 0.13 M, 24.53 M and 9.53 MB, respectively. Compared with the ShufflenetV2 network model, the pest identification accuracy of the improved model increased by 3.11%, and the reference number, computation amount and memory size were reduced by 62.83%, 42.48% and 15.13%, respectively. Compared with the current commonly used classification model, the average recognition accuracy is increased by 5.39%, the number of parameters, computation amount and memory size of the improved model are reduced by 14.32 M, 1 035.80 M and 35.98 MB on average.
Keywords:
pest identification; DCP-ShuffleNetV2; attention mechanism; CSP structure; feature extraction
0"引言
我國(guó)林業(yè)有害生物全年發(fā)生面積達(dá)12 784.5khm2,為近10年發(fā)生面積最大,其中,森林蟲(chóng)害占比61.84%,林業(yè)蟲(chóng)害一旦發(fā)生將嚴(yán)重危害林業(yè)的健康發(fā)展[1]。因此,科學(xué)防治蟲(chóng)害,精準(zhǔn)分類、精準(zhǔn)消殺對(duì)林業(yè)生態(tài)系統(tǒng)十分重要,關(guān)系生態(tài)系統(tǒng)的平衡和穩(wěn)定[2]。
圖像識(shí)別算法可分為傳統(tǒng)的圖像識(shí)別方法[3]和基于深度學(xué)習(xí)的圖像識(shí)別方法[4]。傳統(tǒng)的圖像識(shí)別方法首先將采集到的害蟲(chóng)數(shù)據(jù)進(jìn)行預(yù)處理,然后提取害蟲(chóng)的圖像特征,比如紋理、形狀、大小和顏色等,提取方法包括小波域變換、局部二值模式LBP、顏色共生矩陣CCM和灰度共生矩陣GLCM等,然后將提取的特征送入訓(xùn)練好的機(jī)器學(xué)習(xí)模型進(jìn)行分類識(shí)別[5]。肖志云等[6]提取馬鈴薯害蟲(chóng)的小波域紋理特征和空間域顏色特征以及形狀特征組合成特征向量,使用SVM分類器進(jìn)行分類,相比傳統(tǒng)紋理特征提取方法,在特征計(jì)算量不增加的同時(shí),平均識(shí)別率提高了17個(gè)百分點(diǎn)。鄒修國(guó)等[7]將稻飛虱害蟲(chóng)的圖像進(jìn)行灰度化處理之后,使用數(shù)學(xué)形態(tài)學(xué)濾波,通過(guò)4種不變矩提取特征值后進(jìn)行分類,平均識(shí)別率為91.7%。上述方法在特征提取過(guò)程中過(guò)度依賴算法設(shè)計(jì)者的主觀判斷,手動(dòng)特征的選擇往往依賴于數(shù)據(jù)集,當(dāng)數(shù)據(jù)來(lái)源發(fā)生變化時(shí),特征可能需要重新設(shè)計(jì)[8]。
相比于傳統(tǒng)的機(jī)器學(xué)習(xí)算法,隨著數(shù)據(jù)量的爆炸式增長(zhǎng)和計(jì)算機(jī)性能的提升,深度學(xué)習(xí)算法受到學(xué)者青睞,通過(guò)使用卷積神經(jīng)網(wǎng)絡(luò)CNN自動(dòng)提取圖像底層特征,以端到端的方式自動(dòng)完成學(xué)習(xí),具有更高的魯棒性[9]。孔建磊等[10]提出了一種多流高斯概率融合網(wǎng)絡(luò),挖掘害蟲(chóng)細(xì)粒度特征,對(duì)自制的181種病蟲(chóng)害的平均精度高達(dá)93.81%。Wei等[11]提出了一種基于多尺度特征融合(MFFNet)的農(nóng)作物害蟲(chóng)識(shí)別方法,對(duì)于12種農(nóng)作物害蟲(chóng)的分類準(zhǔn)確率達(dá)到了98.2%。Khanramaki等[12]集成了AlexNet、VGG16、ResNet50,使用遷移學(xué)習(xí)進(jìn)行預(yù)訓(xùn)練,利用集成學(xué)習(xí)投票法得到最終結(jié)果,試驗(yàn)表明,對(duì)于三種常見(jiàn)柑橘害蟲(chóng)的準(zhǔn)確率達(dá)到99.04%,優(yōu)于其他CNN方法。Yang等[13]通過(guò)較小的計(jì)算成本有效地改進(jìn)SqueezeNet模型,在數(shù)據(jù)集IP102上的害蟲(chóng)識(shí)別精度比原始模型提高2.3%,并部署在移動(dòng)端。
盡管上述深度學(xué)習(xí)算法在害蟲(chóng)識(shí)別任務(wù)中有較好的表現(xiàn),但是考慮到林業(yè)害蟲(chóng)識(shí)別的應(yīng)用場(chǎng)景大多對(duì)嵌入式或者移動(dòng)設(shè)備的性能要求比較高,硬件資源受限,但目前大量神經(jīng)網(wǎng)絡(luò)模型參數(shù)量大,計(jì)算量高,因此需要在保障準(zhǔn)確率的情況下盡量壓縮模型的復(fù)雜度[14]。另一方面在自然環(huán)境中多數(shù)害蟲(chóng)的保護(hù)色與背景環(huán)境極其相似,并且類間差異小,模型需要在眾多輸入信息中聚焦關(guān)鍵信息,并降低其他信息的關(guān)注度。因此,如何在保證準(zhǔn)確率的情況下,設(shè)計(jì)輕量化卷積神經(jīng)網(wǎng)絡(luò)模型應(yīng)用到實(shí)際環(huán)境中已經(jīng)成為亟待解決的問(wèn)題。
針對(duì)這些問(wèn)題,本文提出一種基于DCP-ShuffleNetV2的輕量級(jí)害蟲(chóng)識(shí)別方法,能夠在保持較高的識(shí)別準(zhǔn)確率的情況下進(jìn)一步減小模型參數(shù)量和計(jì)算量。
1"試驗(yàn)數(shù)據(jù)獲取與處理
1.1"害蟲(chóng)圖像數(shù)據(jù)集制作
由于缺乏樣本,深度學(xué)習(xí)在林業(yè)害蟲(chóng)識(shí)別中的應(yīng)用受到嚴(yán)重限制,構(gòu)建30類常見(jiàn)林業(yè)害蟲(chóng)數(shù)據(jù)集Forest30。圖像采集地點(diǎn)為雄安新區(qū)“千年秀林”(39.005 156°N,116.047 255°E),在自然光環(huán)境下使用自主開(kāi)發(fā)的APP“雄安新區(qū)千年秀林生物調(diào)查系統(tǒng)”共采集30類害蟲(chóng),各類別約100~150張并自動(dòng)上傳至服務(wù)器,如圖1所示。
數(shù)據(jù)采集人員共分為5組,通過(guò)使用不同型號(hào)移動(dòng)設(shè)備來(lái)提高數(shù)據(jù)集的多樣性。采集時(shí)間包括早晨8:00—10:00、中午12:00—1:00、傍晚5:00—6:00。為使試驗(yàn)樣本豐富,充分利用網(wǎng)絡(luò)資源,從Google、Baidu、Bing等搜索引擎上搜集數(shù)據(jù),對(duì)樣本進(jìn)行補(bǔ)充。在林業(yè)專家的指導(dǎo)下,共采集星天牛、美國(guó)白蛾、黃刺蛾等30類常見(jiàn)林業(yè)害蟲(chóng),并標(biāo)記害蟲(chóng)圖像類別,建立樣本數(shù)據(jù)集。部分林業(yè)害蟲(chóng)圖像如圖2所示。
從圖2可以看出,害蟲(chóng)圖像擁有復(fù)雜的背景,并且同類別害蟲(chóng)形態(tài)差異比較小。其中星天牛、美國(guó)白蛾等大部分害蟲(chóng)圖像的識(shí)別受背景因素干擾較大,并且褐邊綠刺蛾和黃刺蛾以及斑須蝽和麻皮蝽等同種類害蟲(chóng)相似度較高,增大了整體識(shí)別難度。
1.2"圖像預(yù)處理
1.2.1"數(shù)據(jù)擴(kuò)充
在開(kāi)始訓(xùn)練之前,F(xiàn)orest30被分為3組:訓(xùn)練集、驗(yàn)證集和測(cè)試集。首先從采集的圖像中選擇70%作為訓(xùn)練集,在剩下的30%中,選擇70%作為驗(yàn)證集,剩余部分作為測(cè)試集。Thenmozhi等[15]也使用了同樣的劃分方法。在深度學(xué)習(xí)中,卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練需要大量的數(shù)據(jù),并且樣本分布不均勻也會(huì)影響模型識(shí)別的準(zhǔn)確率,因此對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充十分必要[16]。在pytorch框架下結(jié)合openCV完成數(shù)據(jù)的擴(kuò)充,主要采用方式包括平移變換(shift)、旋轉(zhuǎn)(rotation)、噪聲(noise)、水平翻轉(zhuǎn)(horizonal)等數(shù)據(jù)擴(kuò)充方法,進(jìn)而提升網(wǎng)絡(luò)模型的泛化能力。擴(kuò)充后的數(shù)據(jù)訓(xùn)練集為10 540張,驗(yàn)證集為3 133張,測(cè)試集為1 348張。Forest30數(shù)據(jù)集各類別詳細(xì)數(shù)量如表1所示。
1.2.2"圖像增強(qiáng)
由于部分圖片數(shù)據(jù)來(lái)自網(wǎng)絡(luò)資源,導(dǎo)致清晰度低于使用移動(dòng)設(shè)備拍攝的原始圖像,為解決這一問(wèn)題,使用一種多尺度的圖像細(xì)節(jié)提升算法[17],來(lái)改善圖像質(zhì)量,該方法使用3個(gè)不同尺度的高斯模糊對(duì)原圖進(jìn)行濾波,然后在將濾波結(jié)果與原圖做減法,由此獲得不同程度的圖像細(xì)節(jié)信息,然后將這些細(xì)節(jié)信息融合到原圖中,從而提升圖像細(xì)節(jié)。該方法的增強(qiáng)效果如圖3所示,可以看到,害蟲(chóng)背部的紋理、腿部等各細(xì)節(jié)得到明顯增強(qiáng)。
2"輕量級(jí)害蟲(chóng)識(shí)別模型構(gòu)建
2.1"DCP-ShuffleNetV2害蟲(chóng)識(shí)別模型
ShuffleNetV2卷積神經(jīng)網(wǎng)絡(luò)[18]是2018年提出的輕量化模型,提出G1~G4準(zhǔn)則,通過(guò)通道拆分、通道混洗、分組卷積和深度可分離卷積,該網(wǎng)絡(luò)在計(jì)算復(fù)雜度和精度上取得了優(yōu)異的表現(xiàn)。但是在資源受限的林業(yè)害蟲(chóng)具體的識(shí)別任務(wù)中,對(duì)于自然環(huán)境背景相對(duì)復(fù)雜的害蟲(chóng),識(shí)別效果仍然不佳,為兼顧模型復(fù)雜度與識(shí)別精度,選用ShuffleNetV2為基準(zhǔn)網(wǎng)絡(luò)模型,從特征提取、特征融合和輕量化三個(gè)方面進(jìn)行改進(jìn)。在輕量化方面,引入動(dòng)態(tài)卷積(Dynamic Convolution);在特征融合方面,引入CSP(Cross Stage Partial)結(jié)構(gòu);在特征提取方面,引入金字塔分割注意力模塊PSA(Pyramid Split Attention)對(duì)ShuffleNetV2模型進(jìn)一步優(yōu)化改進(jìn)。綜上,將本文模型命名為DCP-ShuffleNetV2網(wǎng)絡(luò)模型,網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
首先輸入圖像,圖像被送到卷積模塊DBR1,該卷積層修改普通卷積為動(dòng)態(tài)卷積DyConv,經(jīng)最大池化MaxPool層之后,進(jìn)入Stage模塊。將該模塊改進(jìn)為DCP-Stage模塊,改進(jìn)后的模塊分為三部分,第一部分是PSA金字塔分割注意力模塊,該模塊同樣使用動(dòng)態(tài)卷積,且擁有4種不同的感受野,卷積核大小分別1×1、3×3、5×5、7×7。第二部分為步長(zhǎng)為2時(shí)下采樣單元Stage_down。第三部分為步長(zhǎng)為1的Stage_CSP單元,該單元將原模型的基本單元修改為CSP結(jié)構(gòu)。最后經(jīng)過(guò)卷積層DBR5、GlobalPool全局平均池化和全連接層FC處理之后,輸出30類害蟲(chóng)的預(yù)測(cè)結(jié)果。
2.2"基于動(dòng)態(tài)卷積的金字塔分割注意力模塊PSA
在傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的卷積操作中,一旦訓(xùn)練結(jié)束,所有的卷積核參數(shù)不再發(fā)生變化,所有的卷積核對(duì)輸入的特征圖進(jìn)行相同處理,因此為提高模型的性能,往往會(huì)增加卷積層的數(shù)量或者卷積層的通道數(shù),導(dǎo)致網(wǎng)絡(luò)模型參數(shù)和計(jì)算量的大幅增長(zhǎng)。為壓縮模型,滿足輕量化、易部署的需求,將ShuffleNetV2中的普通卷積更改為動(dòng)態(tài)卷積。動(dòng)態(tài)卷積[19]的卷積核具有自適應(yīng)能力,主要借鑒注意力機(jī)制的方法,是一種具有注意力機(jī)制的卷積核,會(huì)隨著輸入特征圖變化而動(dòng)態(tài)的發(fā)生變化。
如圖5所示,輸入的特征圖F,通過(guò)注意力attention模塊計(jì)算出k個(gè)卷積核的權(quán)重πi,對(duì)卷積核進(jìn)行加權(quán),其中π1+…+πk=1,通過(guò)非線性的方式疊加多個(gè)卷積核,采用分組卷積的形式,最終形成動(dòng)態(tài)卷積,再經(jīng)過(guò)批量歸一化處理以及激活函數(shù),輸出特征圖F′,減少參數(shù)量和計(jì)算量的同時(shí)帶來(lái)更強(qiáng)的表示能力。
由于害蟲(chóng)識(shí)別的自然場(chǎng)景比較復(fù)雜,林木中大部分害蟲(chóng)存在保護(hù)色,例如大青葉蟬整體呈綠色,與葉片很容易混為一體。并且同類害蟲(chóng)差異也很小,比如松墨天牛、星天牛和桑天牛,基本擁有一樣的形態(tài)特征,不同之處在于身體顏色以及紋理細(xì)節(jié)特征,捕捉這些細(xì)節(jié)紋理相對(duì)比較困難,然而顏色的差異和細(xì)微的紋理變化是區(qū)分不同害蟲(chóng)的關(guān)鍵。針對(duì)此問(wèn)題在ShuffleNetV2的Stage模塊中引入將普通卷積修改為動(dòng)態(tài)卷積的金字塔分割注意力模塊PSA,通過(guò)提取多尺度的空間信息和跨通道依賴關(guān)系,有效地學(xué)習(xí)上下文信息,從而提升模型對(duì)細(xì)粒度的特征信息的學(xué)習(xí)能力。PSA[20]模塊結(jié)構(gòu)如圖6所示。
首先將原始特征圖分為4部分,分別進(jìn)行動(dòng)態(tài)分組卷積,對(duì)于給定的輸入特征圖I∈RC×W×H,通過(guò)分組卷積模塊得到多尺度空間特征圖Fi∈RC×W×H,其中i=1,2,3,4。
Fi=DyConv(I,Kj×Kj,C/4)
(1)
式中:
DyConv()——?jiǎng)討B(tài)分組卷積操作;
Kj×Kj——
卷積核大小,j=1,3,5,7。
對(duì)于不同比例的輸入特征圖Fi,通過(guò)權(quán)重模塊獲取多尺度通道注意力權(quán)重向量
si=SEWeight(Fi)={s1,s2,s3,s4}
(2)
式中:
SEWeight()——SE權(quán)重函數(shù)。
再經(jīng)過(guò)SoftMax函數(shù)進(jìn)行歸一化處理,將結(jié)果映射到[0,1]之間,得到ai={a1,a2,a3,a4}。
ai=SoftMax(si)=exp(si)∑C-1i=0exp (si)
(3)
將多尺度空間特征圖Fi與通道權(quán)重向量ai相乘得到多尺度通道注意權(quán)重的特征圖Yi=Fiai。最終使用拼接操作Concat得到最終的輸出特征圖O=Concat([Y1,Y2,Y3,Y4])。
2.3"基于動(dòng)態(tài)卷積CSP的模型結(jié)構(gòu)優(yōu)化
基準(zhǔn)網(wǎng)絡(luò)模型ShuffleNetV2的Stage模塊具有兩種分支結(jié)構(gòu),當(dāng)卷積操作步長(zhǎng)為1時(shí),分支結(jié)構(gòu)基本單元如圖7(a)所示,保持特征圖輸入輸出尺寸大小不變。當(dāng)卷積操作步長(zhǎng)為2時(shí),分支結(jié)構(gòu)下采樣單元如圖7(b)所示,包含下采樣操作,縮小特征圖尺寸,Stage模塊通過(guò)通道混洗(Channel Shuffle)以及深度可分離卷積(Depthwise Separable Convolution)[21]等操作減少計(jì)算量的同時(shí),完成了通道之間的信息融合,增強(qiáng)了特征信息的表達(dá)能力,然而該操作僅考慮通道之間信息的編碼,沒(méi)有考慮到不同特征層之間信息的融合,在一定程度上影響模型對(duì)林業(yè)害蟲(chóng)的識(shí)別能力。
為進(jìn)一步提升模型準(zhǔn)確率并減小模型參數(shù)量和計(jì)算量,將基本單元結(jié)構(gòu)(Basic uint)改造成CSPNet模型[22]的CSP結(jié)構(gòu),將基準(zhǔn)網(wǎng)絡(luò)模型中的普通卷積替換為卷積核大小可變的動(dòng)態(tài)卷積。如圖8所示,Stage_csp單元將原模型的基本單元結(jié)構(gòu)的輸入,通過(guò)Channel Split操作使得通道數(shù)減半,一部分經(jīng)過(guò)原來(lái)的基本單元路徑,另一部分經(jīng)過(guò)卷積操作,最終通過(guò)Concat方式將兩個(gè)分支重新合并。CSP結(jié)構(gòu)將原始害蟲(chóng)特征與經(jīng)過(guò)原路徑輸出的害蟲(chóng)特征進(jìn)行跨度連接,促進(jìn)原始特征信息進(jìn)行融合,并且通過(guò)跨度連接的方式,增加不同特征層之間的信息流動(dòng),既降低計(jì)算量又豐富梯度信息,進(jìn)一步提高了模型對(duì)害蟲(chóng)紋理、顏色等特征的學(xué)習(xí)能力。
2.4"評(píng)價(jià)指標(biāo)
選用以下評(píng)價(jià)指標(biāo):參數(shù)量、浮點(diǎn)運(yùn)算量、內(nèi)存大小、識(shí)別準(zhǔn)確率Accuracy、平均召回率MRec,平均精確率MPre以及平均F1值MF1。
識(shí)別準(zhǔn)確率是指預(yù)測(cè)正確的樣本量占測(cè)試總樣本量的比例,計(jì)算如式(4)所示。
Accuracy=PPall×100%
(4)
式中:
P——害蟲(chóng)被正確預(yù)測(cè)的樣本數(shù)量;
Pall——測(cè)試集中害蟲(chóng)樣本總量。
計(jì)算每個(gè)類別的召回率,取平均值,如式(5)、式(6)所示。Prec和MPre計(jì)算如式(7)、式(8)所示。
Recc=TPcTPc+FNc
(5)
MRec=∑Nc=1ReccN
(6)
式中:
Recc——第c類的召回率;
TPc——第c類的真陽(yáng)性樣本數(shù)量;
FNc——第c類的假陰性樣本數(shù)量;
N——害蟲(chóng)類別數(shù)量。
Prec=TPcTPc+FPc
(7)
MPre=∑Nc=1PrecN
(8)
式中:
FPc——第c類的假陽(yáng)性樣本數(shù)量。
MF1為MRec和MPre的調(diào)和均值,計(jì)算如式(9)所示。
MF1=2×MPre×MRecMPre+MRec
(9)
3"試驗(yàn)結(jié)果與分析
試驗(yàn)平臺(tái)為矩池云深度學(xué)習(xí)云平臺(tái),基于pytorch 1.8深度學(xué)習(xí)框架,python3.8API訓(xùn)練環(huán)境,在Pycharm軟件上編譯,在顯存大小為11 G的Tesla K80 GPU上訓(xùn)練。超參數(shù)配置如下:初始學(xué)習(xí)率為0.01,損失函數(shù)采用交叉熵?fù)p失函數(shù),選擇Adam作為學(xué)習(xí)率優(yōu)化器,使用ExponentialLR學(xué)習(xí)率衰減策略調(diào)整學(xué)習(xí)率。為避免訓(xùn)練次數(shù)過(guò)多所導(dǎo)致的過(guò)擬合問(wèn)題,試驗(yàn)設(shè)置最大epoch為100,當(dāng)驗(yàn)證集上的分類準(zhǔn)確率在10個(gè)epoch之后依然沒(méi)有提高時(shí),訓(xùn)練階段將停止。
3.1"DCP-ShuffleNetV2模型消融試驗(yàn)
為實(shí)現(xiàn)高性能、輕量化的卷積神經(jīng)網(wǎng)絡(luò)模型,以ShuffleNetV2為基準(zhǔn)網(wǎng)絡(luò)模型,驗(yàn)證DCP-ShuffleNetV2模型的有效性。采用5種消融試驗(yàn)方案,在Forest30數(shù)據(jù)集上進(jìn)行訓(xùn)練和評(píng)估。方案1僅采用原模型ShuffleNetV2進(jìn)行試驗(yàn)。方案2在原模型的基礎(chǔ)上,引入金字塔分割注意力PSA模塊進(jìn)行試驗(yàn)。方案3在原模型基礎(chǔ)上,修改Stage模塊為CSP結(jié)構(gòu)進(jìn)行試驗(yàn)。方案4在原模型基礎(chǔ)上,引入PSA模塊,并修改Stage模塊為CSP結(jié)構(gòu)進(jìn)行試驗(yàn)。方案5在方案4改進(jìn)的基礎(chǔ)上,將普通卷積修改為動(dòng)態(tài)卷積,形成本文的DCP-ShuffleNetV2模型。試驗(yàn)結(jié)果如表2所示。
比較方案1和方案2可知,相比于原模型,在基準(zhǔn)模型中引入PSA模塊后,準(zhǔn)確率提升1.18%,同時(shí)參數(shù)量和計(jì)算量分別增長(zhǎng)17.97%和69.89%。比較方案1和方案3可知,將ShuffleNetV2的Stage模塊,修改為CSP結(jié)構(gòu),相比于原模型,準(zhǔn)確率提高1.56%,參數(shù)量減少16.39%,浮點(diǎn)運(yùn)算量減少19.95%。并且所占內(nèi)存減小1.7MB,說(shuō)明CSP結(jié)構(gòu)可以有效的增強(qiáng)特征融合能力的同時(shí)減小計(jì)算成本。綜合方案2、方案3和方案4的試驗(yàn)結(jié)果可知,方案4結(jié)合PSA模塊和CSP結(jié)構(gòu),在3組試驗(yàn)方案中,達(dá)到最高的識(shí)別準(zhǔn)確率92.23%。相較于單獨(dú)使用兩個(gè)改進(jìn)策略,通過(guò)PSA模塊提取的害蟲(chóng)細(xì)節(jié)特征,再經(jīng)過(guò)CSP結(jié)構(gòu)的跨階段融合后,能夠達(dá)到更好的效果。比較方案4和方案5可知,將普通卷積替換為動(dòng)態(tài)卷積之后,模型的準(zhǔn)確率雖然只增長(zhǎng)0.2%,但是參數(shù)量和浮點(diǎn)運(yùn)算量分別減少63.41%和61.64%。表明動(dòng)態(tài)卷積得益于自適應(yīng)生成的小卷積核尺寸和動(dòng)態(tài)卷積內(nèi)部所使用的分組卷積,使得模型參數(shù)量和計(jì)算量大幅下降。
此外,方案1和方案5的試驗(yàn)結(jié)果表明,相對(duì)于改進(jìn)前的ShuffleNetV2模型,改進(jìn)后的DCP-ShuffleNetV2模型在Forest30數(shù)據(jù)集上的害蟲(chóng)識(shí)別準(zhǔn)確率提升3.11%,參數(shù)量、計(jì)算量和內(nèi)存大小分別減少62.83%、42.48%和15.13%。綜上所述DCP-ShuffleNetV2模型是一種高性能、輕量化的網(wǎng)絡(luò)模型。
3.2"同類卷積神經(jīng)網(wǎng)絡(luò)模型性能對(duì)比試驗(yàn)
為評(píng)估DCP-ShuffleNetV2網(wǎng)絡(luò)對(duì)林業(yè)害蟲(chóng)識(shí)別性能的優(yōu)越性,選取同類優(yōu)秀網(wǎng)絡(luò)模型進(jìn)行比較,包括AlexNet、ResNet-18、ResNet-50以及輕量級(jí)網(wǎng)絡(luò)MobileNetV2、MobileNetV3、GhostNet、ShuffleNetV2。為遵循單一變量原則,排除其他因素的干擾,試驗(yàn)均采用相同的試驗(yàn)參數(shù)配置,保持模型基本架構(gòu)不變的情況下,將最后一個(gè)全連接層的維度修改為30,以適應(yīng)的30個(gè)害蟲(chóng)類別。試驗(yàn)結(jié)果如表3所示。
由表3可知,DCP-ShuffleNetV2模型在所有待比較模型中達(dá)到最好的性能,與目前常用的分類模型相比,識(shí)別準(zhǔn)確率平均提高5.39%,模型參數(shù)量、計(jì)算量和內(nèi)存大小平均減小14.32 M、1 035.80 M和35.98 MB。因此,該模型具有高性能、輕量化的特點(diǎn)。后續(xù)工作可嘗試將其應(yīng)用于嵌入式設(shè)備,以滿足林業(yè)害蟲(chóng)識(shí)別任務(wù)的真實(shí)需求,促進(jìn)智慧林業(yè)的發(fā)展。
3.3"不同注意力機(jī)制性能對(duì)比試驗(yàn)
為驗(yàn)證金字塔分割注意力PSA的性能,將DCP-ShuffleNetV2模型中的PSA模塊替換成通道注意力ECA(Efficient Channel Attention)[23]、坐標(biāo)注意力CA(Coordinate Attention)[24]、通道注意力SE(Squeeze-and-Excitation)[25]進(jìn)行對(duì)比試驗(yàn),試驗(yàn)結(jié)果如表4所示。
比較方案1和3可知,SE和ECA都為通道注意力機(jī)制,ECA性能明顯優(yōu)于SE模塊,這表明在通道注意力機(jī)制中,ECA模塊更有效,ECA將原來(lái)SE模塊的全連接層直接去掉,在經(jīng)過(guò)全局平均池化之后的特征上,通過(guò)一個(gè)1D卷積進(jìn)行學(xué)習(xí),而SE模塊捕獲所有通道的依賴關(guān)系,徒增了參數(shù)量和計(jì)算量,是低效且沒(méi)有必要的。比較方案2、方案3和方案4可知,CA運(yùn)算量最低,但識(shí)別準(zhǔn)確率與PSA相比減少2.1%,ECA參數(shù)量最低,識(shí)別準(zhǔn)確率與PSA相比減少1.78%,而PSA只增長(zhǎng)少量參數(shù)量和計(jì)算量,取得更高的識(shí)別準(zhǔn)確率,滿足提高準(zhǔn)確率的前提下,盡量減少模型參數(shù)量和計(jì)算量的需求。
由于卷積神經(jīng)網(wǎng)絡(luò)具有不可解釋性,為進(jìn)一步探究PSA的有效性,使用激活熱圖(Grad-CAM)[26]對(duì)不同模型進(jìn)行可視化分析比較。從圖9可以看出,對(duì)于輸入的原始害蟲(chóng)圖像,SE、CA和ECA受到背景信息的干擾。而PSA既考慮空間信息,也考慮通道信息,可以更加精確的聚焦到圖像中害蟲(chóng)的重要區(qū)域,并且降低復(fù)雜背景的關(guān)注度。表明PSA模塊可以根據(jù)多尺度的上下文信息有效提取林業(yè)害蟲(chóng)的關(guān)鍵特征,因此具有更強(qiáng)的學(xué)習(xí)能力。
3.4"害蟲(chóng)識(shí)別模型部署
基于DCP-ShuffleNetV2模型,設(shè)計(jì)并實(shí)現(xiàn)30類林業(yè)識(shí)蟲(chóng)小程序(圖10)。首先,用戶通過(guò)相冊(cè)或者攝像頭拍攝上傳一幅害蟲(chóng)圖像,通過(guò)小程序?qū)⒋R(shí)別的害蟲(chóng)圖像發(fā)送給Web應(yīng)用框架Flask搭建的系統(tǒng)后臺(tái),并將圖像分辨率轉(zhuǎn)換為224×224×3進(jìn)行歸一化處理,輸入到部署好的模型中進(jìn)行識(shí)別,最終將識(shí)別結(jié)果返回到小程序展示給用戶。
由圖10可知,DCP-ShuffleNetV2模型在林業(yè)害蟲(chóng)識(shí)別任務(wù)中具有較好的應(yīng)用效果,后續(xù)工作將會(huì)進(jìn)一步采集害蟲(chóng)數(shù)據(jù),擴(kuò)大數(shù)據(jù)集,并考慮在資源受限的嵌入式設(shè)備中開(kāi)展試驗(yàn)與部署工作。
4"結(jié)論
1) "選用輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)ShuffleNetV2為基準(zhǔn)網(wǎng)絡(luò)模型,設(shè)計(jì)并提出基于PSA模塊、CSP結(jié)構(gòu)和動(dòng)態(tài)卷積的DCP-ShuffleNetV2網(wǎng)絡(luò)模型。構(gòu)建包含30類蟲(chóng)害數(shù)據(jù)集Forest30,通過(guò)數(shù)據(jù)擴(kuò)充增強(qiáng)策略,平衡各類別蟲(chóng)害圖像的分布。
2) "針對(duì)林業(yè)害蟲(chóng)復(fù)雜背景以及類間差異小的問(wèn)題,引入金字塔分割注意力PSA模塊,提取多尺度融合的空間信息以及跨通道信息,增強(qiáng)模型的特征提取能力。試驗(yàn)結(jié)果表明,相比于原模型,引入PSA模塊后,準(zhǔn)確率提升1.18%。
3) "將基準(zhǔn)模型的Stage模塊修改為CSP結(jié)構(gòu),將原始害蟲(chóng)特征與經(jīng)過(guò)原路徑輸出的害蟲(chóng)特征進(jìn)行跨度連接,增加不同特征層之間的信息流動(dòng),有效地增強(qiáng)特征融合能力,并且降低計(jì)算量。試驗(yàn)結(jié)果表明,將ShuffleNetV2的Stage模塊,修改為CSP結(jié)構(gòu),相比于原模型,準(zhǔn)確率提高1.56%,參數(shù)量減少16.39%,浮點(diǎn)運(yùn)算量減少19.95%。
4) "為進(jìn)一步壓縮模型參數(shù)量和計(jì)算量,引入動(dòng)態(tài)卷積,形成DCP-ShuffleNetV2林業(yè)害蟲(chóng)識(shí)別模型。該模型參數(shù)量?jī)H為138 458,模型大小僅為9.53 MB,與基準(zhǔn)模型相比,在自制的Forest30數(shù)據(jù)集上的害蟲(chóng)識(shí)別準(zhǔn)確率提升3.11%,參數(shù)量、計(jì)算量和內(nèi)存大小分別減少62.83%、42.48%和15.13%有效的平衡識(shí)別準(zhǔn)確率和模型的復(fù)雜度。
參"考"文"獻(xiàn)
[1]
國(guó)家統(tǒng)計(jì)局. 2021中國(guó)統(tǒng)計(jì)年鑒[M]. 北京: 中國(guó)統(tǒng)計(jì)出版社, 2021.
[2]
翟肇裕, 曹益飛, 徐煥良, 等. 農(nóng)作物病蟲(chóng)害識(shí)別關(guān)鍵技術(shù)研究綜述[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2021, 52(7): 1-18.
Zhai Zhaoyu, Cao Yifei, Xu Huanliang, et al. Review of key techniques for crop disease and pest detection [J]. Transactions of the Chinese Society for Agricultural Machinery, 2021, 52(7): 1-18.
[3]
李文勇, 李明, 陳梅香,等. 基于機(jī)器視覺(jué)的作物多姿態(tài)害蟲(chóng)特征提取與分類方法[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2014, 30(14): 154-162.
Li Wenyong, Li Ming, Chen Meixiang, et al. Feature extraction and classification method of multi-pose pests using machine vision [J]. Transactions of the Chinese Society of Agricultural Engineering, 2014, 30(14): 154-162.
[4]
王美華, 吳振鑫, 周祖光. 基于注意力改進(jìn)CBAM的農(nóng)作物病蟲(chóng)害細(xì)粒度識(shí)別研究[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2021, 52(4): 239-247.
Wang Meihua, Wu Zhenxin, Zhou Zuguang. Fine-grained identification research of crop pests and diseases based on improved CBAM via attention [J]. Transactions of the Chinese Society of Agricultural Machinery, 2021, 52(4): 239-247.
[5]
張永玲, 姜夢(mèng)洲, 俞佩仕, 等. 基于多特征融合和稀疏表示的農(nóng)業(yè)害蟲(chóng)圖像識(shí)別方法[J]. 中國(guó)農(nóng)業(yè)科學(xué), 2018, 51(11): 2084-2093.
Zhang Yongling, Jiang Mengzhou, Yu Peishi, et al. Agricultural pest identification based on multi-feature fusion and sparse representation [J]. Scientia Agricultura Sinica, 2018, 51(11): 2084-2093.
[6]
肖志云, 劉洪. 小波域馬鈴薯典型蟲(chóng)害圖像特征選擇與識(shí)別[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2017, 48(9): 24-31.
Xiao Zhiyun, Liu Hong. Features selection and recognition of potato typical insect pest images in wavelet domain [J]. Transactions of the Chinese Society for Agricultural Machinery, 2017, 48(9): 24-31.
[7]
鄒修國(guó), 丁為民, 劉德?tīng)I(yíng),等. 基于4種不變矩和BP神經(jīng)網(wǎng)絡(luò)的稻飛虱分類[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2013, 29(18): 171-178.
Zou Xiuguo, Ding Weimin, Liu Deying,et al. Classification of rice planthopper based on invariant moments and BP neural network [J]. Transactions of the Chinese Society of Agricultural Engineering, 2013, 29(18): 171-178.
[8]
陳娟, 陳良勇, 王生生,等. 基于改進(jìn)殘差網(wǎng)絡(luò)的園林害蟲(chóng)圖像識(shí)別[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2019, 50(5): 187-195.
Chen Juan, Chen Liangyong, Wang Shengsheng,et al. Pest image recognition of garden based on improved residual network [J]. Transactions of the Chinese Society for Agricultural Machinery, 2019, 50(5): 187-195.
[9]
Deng L, Wang Y, Han Z, et al. Research on insect pest image detection and recognition based on bio-inspired methods [J]. Biosystems Engineering, 2018, 169: 139-148.
[10]
孔建磊, 金學(xué)波, 陶治,等. 基于多流高斯概率融合網(wǎng)絡(luò)的病蟲(chóng)害細(xì)粒度識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2020, 36(13): 148-157.
Kong Jianlei, Jin Xuebo, Tao Zhi,et al. Fine-grained recognition of diseases and pests based on multi-stream Gaussian probability fusion network [J]. Transactions of the Chinese Society of Agricultural Engineering, 2020, 36(13): 148-157.
[11]
Wei D, Chen J, Luo T, et al.Classification of crop pests based on multi-scale feature fusion [J]. Computers and Electronics in Agriculture, 2022, 194: 106736.
[12]
Khanramaki M, Asli-Ardeh E A, Kozegar E. Citrus pests classification using an ensemble of deep learning models [J]. Computers and Electronics in Agriculture, 2021, 186: 106192.
[13]
Yang Z, Yang X, Li M, et al. Automated garden-insect recognition using improved lightweight convolution network [J]. Information Processing in Agriculture, 2021.
[14]
李江昀, 趙義凱, 薛卓爾,等. 深度神經(jīng)網(wǎng)絡(luò)模型壓縮綜述[J]. 工程科學(xué)學(xué)報(bào), 2019, 41(10): 1229-1239.
Li Jiangyun, Zhao Yikai, Xue Zhuoer, et al. A survey of model compression for deep neural networks [J]. Chinese Journal of Engineering, 2019, 41(10): 1229-1239.
[15]
Thenmozhi K, Reddy U S. Crop pest classification based on deep convolutional neural network and transfer learning [J]. Computers and Electronics in Agriculture, 2019, 164: 104906.
[16]
Liu Y, Liu S, Xu J, et al. Forest pest identification based on a new dataset and convolutional neural network model with enhancement strategy [J]. Computers and Electronics in Agriculture, 2022, 192: 106625.
[17]
Kim Y, Koh Y J, Lee C, et al. Dark image enhancement based on pairwise target contrast and multi-scale detail boosting [C]. International Conference on Image Processing (ICIP). IEEE, 2015: 1404-1408.
[18]
Ma N, Zhang X, Zheng H T, et al. ShuffleNetV2: Practical guidelines for efficient CNN architecture design [C]. Proceedings of the European Conference on Computer Vision, 2018: 116-131.
[19]
Chen Y, Dai X, Liu M, et al. Dynamic convolution: Attention over convolution kernels [C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 11030-11039.
[20]
Zhang H, Zu K, Lu J, et al. EPSANet: An efficient pyramid squeeze attention block on convolutional neural network [J]. arXiv preprint arXiv:2105.14447, 2021.
[21]
Sandler M, Howard A, Zhu M, et al. MobileNetV2: Inverted residuals and linear bottlenecks [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 4510-4520.
[22]
Wang C Y, Liao H Y M, Wu Y H, et al. CSPNet: A new backbone that can enhance learning capability of CNN [C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, 2020: 390-391.
[23]
Wang Q, Wu B, Zhu P, et al. ECANet: Efficient channel attention for deep convolutional neural networks [C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 11531-11539.
[24]
Hou Q, Zhou D, Feng J. Coordinate attention for efficient mobile network design [C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021: 13713-13722.
[25]
Hu J, Shen L, Sun G. Squeeze-and-excitation networks [C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 7132-7141.
[26]
Selvaraju R R, Cogswell M, Das A, et al. Grad-CAM: Visual explanations from deep networks via gradient-based localization [C]. Proceedings of the IEEE International Conference on Computer Vision, 2017: 618-626.
中國(guó)農(nóng)機(jī)化學(xué)報(bào)2025年1期