謝森林,王春武,董曉慶,林一帆,王 暢
(韓山師范學(xué)院 物理與電子工程學(xué)院,廣東 潮州 521041)
潮州市是廣東省代表茶區(qū)、中國烏龍茶四大產(chǎn)區(qū)之一、中國工夫茶文化的重要傳承地和發(fā)祥地,也是國內(nèi)特色小眾茶——鳳凰單叢茶的原產(chǎn)地,已建成廣東省級茶葉產(chǎn)業(yè)園、專業(yè)鎮(zhèn)、專業(yè)村100 多個(gè),茶葉種植面積達(dá)23萬畝,年初制茶產(chǎn)值超過64億元,帶動就業(yè)超過50萬人.
潮州地屬亞熱帶海洋性季風(fēng)氣候,具有高溫高濕氣候特點(diǎn),茶樹易滋生細(xì)菌.病害可造成茶葉變色、變形、枯萎、脫落進(jìn)而影響茶樹的生長發(fā)育,且部分病害具有傳播性,嚴(yán)重的可以影響整個(gè)園區(qū),嚴(yán)重影響茶葉產(chǎn)量;病害也影響了茶葉的品質(zhì),造成茶湯渾濁、茶味苦澀,給茶農(nóng)造成嚴(yán)重的經(jīng)濟(jì)損失[1].因此及時(shí)準(zhǔn)確地發(fā)現(xiàn)茶樹病害的類別,精準(zhǔn)防治,對提高茶葉的產(chǎn)量和質(zhì)量有重要意義.
茶葉病蟲害鑒別及防治存在很多難題,諸如茶樹病害種類多、某些病癥相似性高、不同季節(jié)、不同地區(qū)有不同的表現(xiàn)等[2-7].由于大部分茶農(nóng)專業(yè)知識匱乏,易出現(xiàn)誤診,而茶園大多依山而建,面積、海拔跨度大,植保專家難以全面開展現(xiàn)場指導(dǎo).因此,研究有效的茶葉病害自動識別方法具有較大的實(shí)際意義.
農(nóng)作物病害的識別和分類算法,有經(jīng)典的機(jī)器學(xué)習(xí)方法和使用深度學(xué)習(xí)網(wǎng)絡(luò)模型等兩種方法.經(jīng)典的機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)植物病害分類是通過病害的特征提取和專家知識完成的,分類器識別性能的好壞,與病害特征描述是否完整,以及專家知識是否正確有關(guān);此外,與分類器設(shè)計(jì)是否合理、概括性強(qiáng),且先驗(yàn)知識是否有較好區(qū)分度有關(guān).圖像特征通常通過形狀、顏色、紋理特征來描述,經(jīng)典算法有SVM、小波分析、灰度分析、直方圖分析、灰度共生矩陣等.Sun Y 等[8]提出了一種將SLIC(簡單線性迭代聚類)與SVM(支持向量機(jī))相結(jié)合的算法,對261 幅病害圖像進(jìn)行測試,準(zhǔn)確度達(dá)到96.8%.Billah M 等人[9]提出使用小波變換提取彩色茶葉圖像特征,基于自適應(yīng)神經(jīng)模糊推理系統(tǒng)的茶葉病害診斷系統(tǒng),在作者的數(shù)據(jù)庫上僅僅以45 張圖片作為訓(xùn)練集,30 張圖片作為測試集,獲得95.7%的識別正確率.以上兩種以SVM 和小波分析為代表的經(jīng)典機(jī)器學(xué)習(xí)算法,優(yōu)點(diǎn)是模型結(jié)構(gòu)層次較淺、計(jì)算量較小、計(jì)算時(shí)間較短,不需要以大量的圖像為基礎(chǔ),即可完成圖像的識別分析;另一方面,缺點(diǎn)也同樣明顯,無法從原圖像中獲取更高層次的語義特征和深度特征,當(dāng)受到人為以及外界因素的干擾,圖像識別率較低,面對大規(guī)模數(shù)據(jù)集的情況下,若離開人為設(shè)計(jì)即無法獲取圖像特征,算法泛化性差[10].近年來興起的深度學(xué)習(xí)技術(shù),因其可提取更深層次的圖像特征,且圖像特征表達(dá)更豐富,實(shí)用效果較好,應(yīng)用廣泛.如Hu[11]使用GAN 技術(shù)擴(kuò)充僅有120張病害的茶葉數(shù)據(jù)庫,再使用VGG 實(shí)現(xiàn)病害分類,獲得90%的平均識別率,準(zhǔn)確率遠(yuǎn)高出傳統(tǒng)機(jī)器學(xué)習(xí)算法;牟文芊等[12]提出了一種基于SENet和深度可分離卷積膠囊網(wǎng)絡(luò)的茶樹葉部病害圖像識別算法,訓(xùn)練數(shù)據(jù)庫來自山東省泰安市茶溪谷人工采摘的15 000 張茶葉圖片,最終識別準(zhǔn)確率達(dá)到94.20%.Zhang 等[13]使用Efficient Net 訓(xùn)練識別2 816 張黃瓜病蟲害圖片,最高正確率達(dá)96.00%;王春山等[14]使用Multi-scale Res Net識別PlantVillage、AI challenge 數(shù)據(jù)集中三種植物病蟲害19 517 張圖片,最高正確率達(dá)95.95%.上述方法使用深度學(xué)習(xí)網(wǎng)絡(luò)對植物病蟲害分類開展研究,取得了較好的分類準(zhǔn)確率.
深度學(xué)習(xí)在目標(biāo)檢測、分類的應(yīng)用上效果出眾,但需以大量訓(xùn)練數(shù)據(jù)為前提[15].另外,不同種類植物病害特征各異,不同產(chǎn)區(qū)、不同品種茶葉病害也有所不同,并沒有普適性的自動識別方法.如Mohanty等[16]將在PlantVillage數(shù)據(jù)上訓(xùn)練的深度學(xué)習(xí)模型,應(yīng)用于識別另外一個(gè)同類型植物數(shù)據(jù)庫上時(shí),正確率下降到50%以下.目前,較多的研究是在高質(zhì)量的公開數(shù)據(jù)庫上開展的,而基于茶葉病蟲害數(shù)據(jù)庫較少,基于潮州鳳凰單叢茶的數(shù)據(jù)庫到目前為止未有記載.因此,本文借鑒上述成果,探索基于深度學(xué)習(xí)算法的潮州鳳凰單叢茶病害自動識別的可行性,重點(diǎn)研究:
1)以潮州鳳凰單叢茶“鴨屎香”品種為對象,采集自然環(huán)境下的不同季節(jié)、不同光照條件下的茶葉病害照片,聯(lián)合潮州市茶葉科學(xué)研究中心專家對茶葉病害進(jìn)行標(biāo)注,構(gòu)建高質(zhì)量茶葉病害數(shù)據(jù)集.
2)搭建基于深度學(xué)習(xí)算法的茶葉病害識別平臺,選取VGG、ResNet 和Vision Transformer 等三種深度學(xué)習(xí)算法進(jìn)行測試,驗(yàn)證潮州單叢茶病害自動識別方法的可行性.
茶葉病害圖片數(shù)據(jù)集采樣于:饒平縣大崠山茶業(yè)有限公司茶苗培養(yǎng)基地,構(gòu)建數(shù)據(jù)庫以本地典型品種“鴨屎香”為研究對象.為了更好還原光照情況,在不同時(shí)段和不同天氣環(huán)境下,以4 024×3 036像素分辨率現(xiàn)場拍攝茶葉病害圖片.選用本地產(chǎn)見的三種病害,如圖1 所示,分別是云紋葉枯病、炭疽病、赤星病,加上健康茶葉共四類構(gòu)成數(shù)據(jù)庫.數(shù)據(jù)集中包含圖片1 258張,其中健康茶葉166張、赤星病126 張、炭疽病582 張、云紋葉枯病384 張.它們以8∶2 的比例將數(shù)據(jù)集分成訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集.云紋葉枯病的主要特征是:開始是黃綠色或黃褐色,后期變?yōu)楹稚胁詈稚⒒疑嚅g的云紋;炭疽病的主要特征是:先在葉緣或葉尖形成病斑,色澤淡褐色或黃褐色,最后呈灰白色,其上散生黑色小點(diǎn),病斑無輪紋;赤星病的主要特征是:葉片上產(chǎn)生小型圓形病斑,后擴(kuò)展成灰白色中間凹陷的圓形病斑,邊緣具暗褐色或紫褐色隆起線,中央紅褐色,后期病斑中間散生黑色小點(diǎn).

圖1 茶葉典型病害特征圖
實(shí)驗(yàn)平臺操作系統(tǒng)使用Window10,CPU 選擇Intel(R) Core(TM) i7-10700 CPU @ 2.90GHz;GPU 選擇NVIDIA GeForce RTX 3080 10GB;CUDA 版本號是11.6.使用Anaconda 配置模型訓(xùn)練開發(fā)環(huán)境,使用的編程語言是Python3.7,深度學(xué)習(xí)框架是Pytorch1.9.
本實(shí)驗(yàn)選用經(jīng)典的深度學(xué)習(xí)算法:VGG16、Resnet34和Vision Transform.為了更好地對比實(shí)驗(yàn)結(jié)果,三個(gè)實(shí)驗(yàn)?zāi)P途捎孟嗤膮?shù)配置.實(shí)驗(yàn)中采用Adam 網(wǎng)絡(luò)優(yōu)化算法,在訓(xùn)練中的學(xué)習(xí)率設(shè)置為0.000 1.模型訓(xùn)練過程采用批量訓(xùn)練的方法,Batch Size 大小設(shè)置為128,模型處理完全部訓(xùn)練圖片和測試圖片為一次迭代(Epoch),實(shí)驗(yàn)共100個(gè)Epoch.
為了加強(qiáng)數(shù)據(jù)的多樣性、全面性,進(jìn)而提高模型的泛化能力,實(shí)驗(yàn)中將訓(xùn)練圖片進(jìn)行隨機(jī)范圍裁剪、縮放和旋轉(zhuǎn)等操作.為了改善梯度消失和梯度爆炸的問題,使用數(shù)據(jù)標(biāo)準(zhǔn)化處理,權(quán)重初始化,以及通過BN[17](Batch Normalization),達(dá)到加速網(wǎng)絡(luò)的收斂并提升準(zhǔn)確率的目的.
2.3.1 實(shí)驗(yàn)1:使用經(jīng)典深度學(xué)習(xí)算法驗(yàn)證數(shù)據(jù)集可行性
訓(xùn)練結(jié)果如圖2、圖3所示.其中圖2是訓(xùn)練誤差收斂情況,橫坐標(biāo)Epoch 為迭代的代數(shù),縱坐標(biāo)train loss代表訓(xùn)練誤差.經(jīng)過100次迭代訓(xùn)練,Vision Transform 誤差穩(wěn)定在1.04左右,VGG16穩(wěn)定在0.64,Resnet34 穩(wěn)定在0.23,誤差總體較大.圖3 是驗(yàn)證集的識別準(zhǔn)確率,其中Epoch 表示迭代的代數(shù),縱坐標(biāo)表示驗(yàn)證集識別準(zhǔn)確率.經(jīng)過100次迭代訓(xùn)練,Vision Transform 驗(yàn)證準(zhǔn)確率穩(wěn)定在55%左右,VGG16驗(yàn)證準(zhǔn)確率平均值69%,Resnet34驗(yàn)證準(zhǔn)確率平均值77%,準(zhǔn)確率未達(dá)實(shí)用要求.

圖2 無遷移學(xué)習(xí)訓(xùn)練誤差收斂情況

圖3 無遷移學(xué)習(xí)驗(yàn)證集的識別準(zhǔn)確率
實(shí)驗(yàn)結(jié)果表明:1)同樣是使用卷積來提取特征的深度學(xué)習(xí)網(wǎng)絡(luò),Resnet 比VGG 網(wǎng)絡(luò)有更快的收斂速度和更高的驗(yàn)證精度,原因是Resnet網(wǎng)絡(luò)中加入殘差結(jié)構(gòu),使得誤差可以傳播到更深層網(wǎng)絡(luò),一定程度上解決了網(wǎng)絡(luò)退化問題,使得Resnet可以擁有更深的網(wǎng)絡(luò)和更好的訓(xùn)練效果.2)Vision Transformer網(wǎng)絡(luò),在識別率和收斂速度的表現(xiàn)上都不如VGG 和Resnet網(wǎng)絡(luò).原因是Vision Transformer 結(jié)構(gòu)缺少一些CNN 先天的歸納偏置(歸納偏置指的是卷積結(jié)構(gòu)帶來的先驗(yàn)經(jīng)驗(yàn)),比如平移不變性和包含局部關(guān)系,因此在規(guī)模不足的數(shù)據(jù)集上表現(xiàn)沒有那么好[17].
2.3.2 實(shí)驗(yàn)2:加入遷移學(xué)習(xí)的深度學(xué)習(xí)算法驗(yàn)證數(shù)據(jù)集可行性
從訓(xùn)練結(jié)果來看Vision Transformer、VGG 和Resnet 的識別精度分別為:50%、60%、70%左右.從實(shí)驗(yàn)精度看,三種方法的識別率都不高,達(dá)不到應(yīng)用的程度.這可能與數(shù)據(jù)集中圖片的數(shù)量較少有關(guān).Yosinski等人[18]研究深度學(xué)習(xí)中各個(gè)layer特征的可遷移性(或者說通用性),提出:通常情況下第一層與具體的圖像數(shù)據(jù)集關(guān)系不是特別大,而網(wǎng)絡(luò)的最后一層則是與選定的數(shù)據(jù)集及其任務(wù)目標(biāo)緊密相關(guān)的;淺層feature 稱之為一般(general)特征,最后一層稱之為特定(specific)特征,使用遷移學(xué)習(xí)可以有效提高模型的泛化性能.為了解決訓(xùn)練樣本不足的問題,本文引入了遷移學(xué)習(xí).使用在大數(shù)據(jù)庫上訓(xùn)練的模型,淺層參數(shù)全部直接遷移,最后的全連接層刪除后重新訓(xùn)練.
具體步驟:1)下載相同的網(wǎng)絡(luò)結(jié)構(gòu),并該模型已經(jīng)在ImageNet 數(shù)據(jù)庫上完成訓(xùn)練,該數(shù)據(jù)庫的規(guī)模約120萬個(gè)樣本,1 000分類;2)創(chuàng)建一個(gè)新的神經(jīng)網(wǎng)絡(luò)模型,即目標(biāo)模型,然后將預(yù)訓(xùn)練模型的權(quán)重參數(shù)全部加載到目標(biāo)模型中;3)將加載了預(yù)訓(xùn)練模型的目標(biāo)模型1 000分類的輸出層刪除,并重新映射到4分類輸出層;4)為了對比,修改超參數(shù)設(shè)置,與實(shí)驗(yàn)1保持一致.
由于VGG 與Resnet 屬于同類型網(wǎng)絡(luò),且在實(shí)驗(yàn)1 中,VGG 網(wǎng)絡(luò)的訓(xùn)練效果全面落后Resnet 網(wǎng)絡(luò),因此實(shí)驗(yàn)2 只對比Resnet 和Vision Transformer 網(wǎng)絡(luò).為了方便對比,將兩次實(shí)驗(yàn)訓(xùn)練結(jié)果列舉在表1中.

表1 加入遷移學(xué)習(xí)前后實(shí)驗(yàn)效果對比表
在實(shí)驗(yàn)2中加入遷移學(xué)習(xí),訓(xùn)練誤差相比實(shí)驗(yàn)1收斂快,表現(xiàn)在:Resnet在實(shí)驗(yàn)1訓(xùn)練的第100Epoch 時(shí)訓(xùn)練誤差為0.23,而實(shí)驗(yàn)2 如圖4 所示:在第16 個(gè)Epoch 就收斂為0.06;Vision Transformer 網(wǎng)絡(luò)在實(shí)驗(yàn)1 的第100Epoch 時(shí)訓(xùn)練誤差為1.04,實(shí)驗(yàn)2 在第50 個(gè)Epoch 就收斂為0.45.從訓(xùn)練誤差來看,加入遷移學(xué)習(xí)后,訓(xùn)練誤差收斂快,且最終誤差也小.

圖4 帶遷移學(xué)習(xí)訓(xùn)練誤差收斂情況
通過對比圖3無遷移學(xué)習(xí)和圖5帶遷移學(xué)習(xí)驗(yàn)證集的識別準(zhǔn)確率可得,訓(xùn)練精度方面,Resnet在加入遷移學(xué)習(xí)前后,訓(xùn)練精度從77%左右上升到88%;Vision Transformer在加入遷移學(xué)習(xí)前后,訓(xùn)練精度從55%左右上升到86%,因此加入遷移學(xué)習(xí)對訓(xùn)練精度提升較明顯.

圖5 帶遷移學(xué)習(xí)驗(yàn)證集的識別準(zhǔn)確率
實(shí)驗(yàn)結(jié)果表明:使用遷移學(xué)習(xí)之后,兩種網(wǎng)絡(luò)的收斂速度大大加快且精度有較大提升,最高精度達(dá)90%,基本滿足實(shí)用需求.
本文以潮州鳳凰單叢茶典型品種“鴨屎香”為例,建立了茶葉病害數(shù)據(jù)庫,通過遷移學(xué)習(xí),使神經(jīng)網(wǎng)絡(luò)分類模型獲得較好的識別率,為深入研究茶葉病害的自動識別提供了有價(jià)值的參考.但仍有優(yōu)化空間,后續(xù)將從以下幾方面開展研究:
1)擴(kuò)充數(shù)據(jù)庫,將拍攝更多鴨屎香的病害圖片,并嘗試在數(shù)據(jù)中加入其它品種茶葉病害圖片,進(jìn)一步增強(qiáng)數(shù)據(jù)庫的深度、廣度和泛化能力.
2)改進(jìn)網(wǎng)絡(luò)架構(gòu),使其對茶葉病害這個(gè)對象有更加好的識別率;并進(jìn)一步優(yōu)化網(wǎng)絡(luò)架構(gòu),壓縮網(wǎng)絡(luò)規(guī)模,提高識別速度,使其可以移植到邊緣運(yùn)算設(shè)備運(yùn)行.
3)融合多因素進(jìn)行分類.茶葉病害與季節(jié),外部環(huán)境(溫度、濕度、通風(fēng)度)等因素有密切聯(lián)系,后續(xù)將環(huán)境因素融入茶葉病害數(shù)據(jù)庫,輔助茶葉病害識別模型,以提高識別率.