李欣庭,張 峰,馮 潔
云南師范大學(xué)物理與電子信息學(xué)院,云南 昆明 650500
高光譜成像技術(shù)是傳統(tǒng)成像和光譜有效結(jié)合而成的一項(xiàng)新技術(shù),包含圖像信息和光譜信息[1],能夠無損檢測(cè)研究對(duì)象內(nèi)部和外部特性,為農(nóng)作物病害、 品質(zhì)檢測(cè)與分級(jí)提供了新的途徑和方法[2]。 國內(nèi)外的研究者開發(fā)了許多針對(duì)農(nóng)作物的高光譜圖像數(shù)據(jù)機(jī)器學(xué)習(xí)和光譜分析方法,如K-最近鄰算法(KNN)[3]、 BP神經(jīng)網(wǎng)絡(luò)[4]、 支持向量機(jī)(SVM)[5]、 偏最小二乘算法(PLS)[6]、 K-Means聚類算法[7]、 連續(xù)投影算法(SPA)[8]、 競(jìng)爭(zhēng)自適應(yīng)重加權(quán)算法(CARS)[9]、 遺傳-偏最小二乘算法(GA-PLS)[10]、 多元散射校正(MSC)[11]、 一階導(dǎo)數(shù)(D1)[12]、 二階導(dǎo)數(shù)(D2)[13]、 移動(dòng)平均平滑(MA)[14]等來解決數(shù)據(jù)處理問題。 盡管傳統(tǒng)的機(jī)器學(xué)習(xí)方法在農(nóng)業(yè)病害檢測(cè)領(lǐng)域取得了很多的研究成果,但是因?yàn)閭鹘y(tǒng)機(jī)器學(xué)習(xí)方法技術(shù)的局限性,存在診斷檢測(cè)耗時(shí)長(zhǎng)、 精度低、 需要手動(dòng)提取特征等問題[15],卷積神經(jīng)網(wǎng)絡(luò)(CNN)的出現(xiàn),填補(bǔ)了傳統(tǒng)機(jī)器學(xué)習(xí)方法在這些方面的不足。 CNN通過對(duì)模型輸入數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,自動(dòng)提取并不斷優(yōu)化特征,能夠快速處理大量數(shù)據(jù),相比傳統(tǒng)機(jī)器學(xué)習(xí)方法具有更好的分類檢測(cè)能力。 深度學(xué)習(xí)技術(shù)受到農(nóng)業(yè)領(lǐng)域研究學(xué)者的廣泛關(guān)注[16]。 Nzaki等通過數(shù)據(jù)增強(qiáng)、 加強(qiáng)圖像特征激活等方法改善農(nóng)作物病害數(shù)據(jù)集的方式,進(jìn)行CNN優(yōu)化,提高模型的性能、 能夠有效地實(shí)現(xiàn)農(nóng)作物病害診斷[17]。 Vaishnavi等基于CNN通過對(duì)棉花早期葉片病害進(jìn)行識(shí)別,并針對(duì)棉花病害識(shí)別開發(fā)了應(yīng)用程序[18]; Geetharamani等針對(duì)不同類別植物葉片圖像數(shù)據(jù)的病害識(shí)別,通過CNN分類模型進(jìn)行模型訓(xùn)練和分類,實(shí)現(xiàn)了不同類別植物病害的分類[19]; 基于高光譜對(duì)物質(zhì)的分析中,利用CNN自動(dòng)提取農(nóng)作物光譜數(shù)據(jù)特征,已成為農(nóng)作物病害檢測(cè)領(lǐng)域的主流方法。
針對(duì)目前對(duì)農(nóng)作物病害監(jiān)測(cè)領(lǐng)域,檢測(cè)精度低、 效率較差等問題,本研究將基于CNN結(jié)合高光譜成像技術(shù)和光譜分析方法,優(yōu)化植物病害檢測(cè)模型,實(shí)現(xiàn)馬鈴薯病害的快速、 精準(zhǔn)、 無損識(shí)別,進(jìn)一步提高植物病害檢測(cè)領(lǐng)域檢測(cè)方法的便捷、 經(jīng)濟(jì)和實(shí)用性,為現(xiàn)代農(nóng)業(yè)的發(fā)展提供技術(shù)支持。
在云南師范大學(xué)馬鈴薯種植基地選取40棵健康馬鈴薯植株,在每株上部剪取一片健康葉片、 共40片。 獲取光譜數(shù)據(jù)后將樣本葉片接種早疫病病菌,接種部位為葉片背面的葉脈之間,接種量為每個(gè)葉片10 μL,再將葉片置于恒溫恒濕光照培養(yǎng)箱內(nèi)連續(xù)培養(yǎng)6 d,期間每隔24 h采集一次高光譜圖像。 選取不同染病時(shí)期: 健康、 染病2天、 4天、 6天作為樣本數(shù)據(jù)。 對(duì)選取樣本高光譜圖像數(shù)據(jù)中每個(gè)樣本隨機(jī)選取10個(gè)感興趣區(qū)域,分別取其光譜平均反射率。 訓(xùn)練集和測(cè)試集比例為7∶3。 實(shí)驗(yàn)設(shè)備采用四川雙利合譜的Gaia-Sorter高光譜分選儀中的Gaiarield-F-V10E型高光譜相機(jī)。 可采集256個(gè)波段,波段范圍400~1 000 nm,其光譜分辨率為2.8 nm。 為避免實(shí)驗(yàn)環(huán)境和采集設(shè)備對(duì)實(shí)驗(yàn)結(jié)果的影響,在進(jìn)行數(shù)據(jù)采集時(shí),需對(duì)采集設(shè)備進(jìn)行預(yù)熱、 調(diào)參、 定標(biāo)、 黑白校正等操作。
1.2.1 CNN分類模型
CNN分類模型通過卷積層提取特征,在分類任務(wù)中,分類算法得到的是一個(gè)決策面,通過對(duì)比每個(gè)樣本數(shù)據(jù)屬于每一類的概率,判別樣本類別。 以馬鈴薯早疫病不同染病時(shí)期(different infection periods of potato early blight,DPP)光譜數(shù)據(jù)作為輸入,構(gòu)建適用于針對(duì)病害不同染病時(shí)期識(shí)別分類的CNN分類模型。 由于光譜反射率數(shù)據(jù)是一維的,因此本研究通過構(gòu)建一維卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)DPP光譜數(shù)據(jù)的識(shí)別分類。 CNN分類模型如圖1所示,輸入數(shù)據(jù)為DPP光譜數(shù)據(jù),尺寸為256×1(256個(gè)波段、 1個(gè)通道)。 經(jīng)過多次調(diào)參測(cè)試,最后使用6層一維卷積層(Conv1D)來提取特征值,卷積層的卷積核個(gè)數(shù)分別為16、 16、 64、 64、 64和64,卷積核的大小均為1,每?jī)蓪覥onv1D后添加一層全局最大池化層(MaxPooling1D)來保留主要特征,降低過擬合。 將池化尺寸大小設(shè)置為3,輸出矩陣大小為輸入的三分之一,達(dá)到減小計(jì)算量的同時(shí)解決全連接層存在的限制輸入維度大小,參數(shù)過多的問題。 每層卷積層使用雙曲正切函數(shù)tanh(hyperbolic tangent function)來提高神經(jīng)網(wǎng)絡(luò)對(duì)模型的表達(dá)能力。 tanh經(jīng)常被運(yùn)用到多分類任務(wù)中用做激活函數(shù)。 神經(jīng)網(wǎng)絡(luò)不具有可解釋性,將卷積核和全連接的結(jié)點(diǎn)數(shù)取2的指數(shù)次冪。 Flatten()層作為中間層來鏈接卷積層和全連接層。 損失函數(shù)(Softmax loss)能夠捕捉網(wǎng)絡(luò)的特征輸出與給定的期望輸出之間的差異。 4個(gè)輸出結(jié)點(diǎn)為對(duì)應(yīng)4個(gè)類別,Softmax將每個(gè)特征數(shù)據(jù)匹配到概率最大的特征類別。 交叉熵?fù)p失函數(shù)(categorical crossentropy)作為模型訓(xùn)練的損失函數(shù),其刻畫的是當(dāng)前學(xué)習(xí)到的概率分布與實(shí)際概率分布的距離。 損失函數(shù)越小,兩個(gè)概率分布越相似。

圖1 CNN分類模型Fig.1 CNN classification model
為準(zhǔn)確評(píng)估構(gòu)建CNN分類模型的穩(wěn)定性和合理性,將模型對(duì)未預(yù)處理數(shù)據(jù)識(shí)別過程中訓(xùn)練集和驗(yàn)證集的總體分類精度和損失值曲線變化過程可視化如圖2(a,b)所示,其中紅色曲線為訓(xùn)練集結(jié)果,藍(lán)色曲線為驗(yàn)證集結(jié)果。 精度曲線中的毛刺與batch-size大小有關(guān),batch-size越大,毛刺越小,曲線越平滑,表明模型越穩(wěn)定。 在訓(xùn)練和驗(yàn)證過程中精度和損失曲線存在誤差和抖動(dòng)現(xiàn)象,但總體上隨著迭代次數(shù)的增加,精度不斷提高最后趨于平緩。 圖中顯示訓(xùn)練集和驗(yàn)證集的精度在25次迭代以前呈急劇上升趨勢(shì),之后趨于平穩(wěn),損失值前期急劇下降,最后趨于平緩直至接近于0。 當(dāng)?shù)螖?shù)達(dá)到200時(shí),精度達(dá)到86.67%,且損失值接近0可以證明模型收斂,同時(shí)訓(xùn)練集和驗(yàn)證集的精度曲線和損失曲線變化趨勢(shì)相同值相近可知模型不存在過擬合現(xiàn)象,如果繼續(xù)增加迭代次數(shù),網(wǎng)絡(luò)分類精度提高效果不大。

圖2 CNN分類模型精度和損失曲線(a): 精度曲線; (b): 損失曲線Fig.2 CNN classification model accuracy and loss curves(a): Precision curve; (b): Loss curve
1.2.2 CNN定量估算模型
以上構(gòu)建的CNN分類模型,采用了分類思想對(duì)DPP光譜數(shù)據(jù)進(jìn)行有效分類,但無法實(shí)現(xiàn)進(jìn)一步定量診斷。 本研究通過構(gòu)建CNN定量估算模型從而對(duì)DPP 光譜數(shù)據(jù)進(jìn)行定量的診斷。 不同于分類算法得到的決策面,回歸算法得到的是一個(gè)最優(yōu)擬合線,這個(gè)線條可以最好地接近數(shù)據(jù)集中的各個(gè)點(diǎn)。 CNN回歸預(yù)測(cè)模型如圖3所示,輸入數(shù)據(jù)為D1預(yù)處理后DPP光譜數(shù)據(jù)。 經(jīng)過多次調(diào)參測(cè)試,最后使用8層Conv1D來提取特征值,卷積層的卷積核個(gè)數(shù)分別為16、 16、 64、 64、 128、 128、 64和64,卷積核的大小均為3,每?jī)蓪覥onv1D后添加一層MaxPooling1D保留主要特征,降低過擬合。 池化尺寸大小設(shè)置為3。 為了完成回歸任務(wù),神經(jīng)網(wǎng)絡(luò)的輸出層需要被設(shè)置為一個(gè)結(jié)點(diǎn),它表示輸出一條DPP光譜數(shù)據(jù)的預(yù)測(cè)結(jié)果。 研究使用均方根誤差(RMSE)做輸出層的損失函數(shù),RMSE經(jīng)常被用做比較模型預(yù)測(cè)值與真實(shí)值的偏差,在此任務(wù)中,通過不斷減小損失函數(shù)的值,進(jìn)而讓整個(gè)網(wǎng)絡(luò)盡可能地去擬合真實(shí)的DPP光譜數(shù)據(jù)。 每層卷積層使用線性整流函數(shù)ReLU()作為激活函數(shù)。 最后一層深度層輸出DPP光譜數(shù)據(jù)的預(yù)測(cè)值,在RMSE損失函數(shù)的逼近下,DPP光譜數(shù)據(jù)的預(yù)測(cè)值會(huì)愈來愈趨向于真實(shí)值。 從圖3可以看出回歸馬鈴薯早疫病的真實(shí)染病時(shí)期,使用的網(wǎng)絡(luò)層數(shù)明顯比分類時(shí)要更深。
本研究采用決定系數(shù)(R2)和均方根誤差定量分析染病時(shí)期估算結(jié)果的準(zhǔn)確率,對(duì)構(gòu)建的模型進(jìn)行評(píng)估。 決定系數(shù)常常在線性回歸中被用來表征有多少百分比的因變量波動(dòng)被回歸線描述,是度量擬合優(yōu)度的統(tǒng)計(jì)量,取值范圍為(0,1),如果R2=1則表示模型完美地預(yù)測(cè)了目標(biāo)變量,因此R2的值越接近1說明估算的DPP光譜數(shù)據(jù)和實(shí)際值擬合程度越好,反之,擬合程度越差。 均方根誤差不僅避免了正負(fù)誤差不能相加的問題而且對(duì)誤差進(jìn)行了平方,加大了數(shù)值大的誤差在指標(biāo)中的作用,提高了靈敏度,用它來衡量估算的DPP光譜數(shù)據(jù)與真實(shí)值之間的偏差,其取值越小,表明估算準(zhǔn)確率越高。
馬鈴薯樣葉片光譜反射率曲線如圖4(a)所示,DPP樣本光譜大致相同,肉眼區(qū)分難度大。 在540和750 nm附近有明顯的反射峰,680 nm附近具有明顯的吸收峰。 為了利于區(qū)分DPP光譜數(shù)據(jù)的曲線變化規(guī)律,將同一染病天數(shù)的DPP光譜數(shù)據(jù)求取平均值,結(jié)果如圖4(b)所示,當(dāng)病害發(fā)生時(shí)葉片內(nèi)部元素含量將發(fā)生變化、 細(xì)胞組織遭到破壞、 葉綠素含量降低、 水分丟失,而520~580 nm的反射峰與葉綠素含量有關(guān)、 750~1 000 nm與葉片組織細(xì)胞結(jié)構(gòu)、 含水量有關(guān),因此不同染病時(shí)期的光譜反射率在520~580和750~1 000 mm處存在明顯差異。

圖4 (a)原始數(shù)據(jù)光譜圖; (b)每類平均光譜反射率光譜圖Fig.4 (a) Raw data spectrum; (b) Spectral graph of average spectral reflectance of each type
選用的9種預(yù)處理方法根據(jù)預(yù)處理的目的,可以分為基線校正、 散射校正、 平滑處理和尺度縮放四類。 其中一階導(dǎo)數(shù)(D1)、 二階導(dǎo)數(shù)(D2)和趨勢(shì)校正(DT)屬于基線校正,基線校正是為了扣除儀器背景或漂移對(duì)信號(hào)的影響,D1用來扣除斜線和曲線背景; D2可以提高光譜分別率; DT消除原光譜中的基線漂移,基本消除不同采樣部位、 不同樣品和不同批次對(duì)光譜的影響; 多元散射校正(MSC)和標(biāo)準(zhǔn)正態(tài)變量變換(SNV)屬于散射校正,用來消除顆粒分布不均勻及顆粒大小差異產(chǎn)生的散射現(xiàn)象和光程變換對(duì)漫反射的影響以及用來消除基線漂移對(duì)光譜的影響; Savitzky-Golay平滑(SG)和移動(dòng)平均平滑(MA)屬于平滑處理,對(duì)光譜曲線進(jìn)行平滑,消除光譜信號(hào)中的隨機(jī)噪聲,提高樣本信號(hào)的信噪比。 標(biāo)準(zhǔn)化(SS)和均值中心化(CT)屬于尺度縮放,CT可以使光譜之間的差異性增大,SS能有效克服光譜數(shù)據(jù)中存在的噪聲點(diǎn)和異常值,解決尺度差異過大的問題。
圖5(a—i)為DPP采用上文9種預(yù)處理方法處理后的光譜。 采用D1、 D2和DT處理后的光譜消除了基線和背景的干擾能夠提高光譜分辨率; MSC和SNV處理后的光譜,光譜重合度更高,散射現(xiàn)象和基線漂移減弱; SG和MA平滑處理后的光譜,光譜明顯平滑,消除毛刺,噪聲明顯減弱; SS和CT處理后的光譜解決了尺度差異問題。 為驗(yàn)證預(yù)處理對(duì)DPP光譜數(shù)據(jù)判別結(jié)果的影響,使用CNN分類模型對(duì)9種預(yù)處理數(shù)據(jù)和DPP光譜數(shù)據(jù)進(jìn)行分類檢測(cè),結(jié)果如表1所示,從分類結(jié)果可以看出,經(jīng)過DT、 MSC、 D1、 D2、 SS預(yù)處理后的數(shù)據(jù)在CNN分類模型中的總體分類準(zhǔn)確率相比RAW(未進(jìn)行預(yù)處理)實(shí)驗(yàn)結(jié)果有不同程度的提高。 而SG、 MA、 SNV、 CT反而降低,導(dǎo)致這樣的結(jié)果是由于SG、 MA、 SNV、 CT在預(yù)處理的過程中會(huì)存在不同程度上破壞與目標(biāo)信息變量有關(guān)的光譜信息從而導(dǎo)致分類精度降低。

表1 RAW和不同預(yù)處理光譜數(shù)據(jù)在CNN分類模型中識(shí)別精度(Accuracy/%)Table 1 Identification Accuracy of RAW and different preprocessed spectral data in CNN classification model (Accuracy/%)

圖5 光譜預(yù)處理結(jié)果(a): 多元散射校正; (b): Savitzky-Golay平滑; (c): 標(biāo)準(zhǔn)正態(tài)變量變換; (d): 趨勢(shì)校正; (e): 一階導(dǎo)數(shù); (f): 二階導(dǎo)數(shù); (g): 移動(dòng)平均平滑; (h): 標(biāo)準(zhǔn)化; (i): 均值中心化Fig.5 Spectral preprocessing results(a): Multiple scattering correction; (b): Savitzky-Golay smooth; (c): Standard normal variable; (d): Detrend correction; (e): A derivative; (f): The second derivative; (g): Moving average smoothing; (h): Standardized; (i):!Mean centralization
由表1可知SG和MA都導(dǎo)致分類精度降低,所以用剩下的3類預(yù)處理方法基線校正、 散射校正和尺度縮放進(jìn)行數(shù)據(jù)預(yù)處理,預(yù)處理方法按表2所示劃分為3類進(jìn)行排列組合,得到4×2×2=16種預(yù)處理方法,分別是RAW、 MSC、 SS、 D1、 D2、 DT、 MSC-SS、 D1-MSC、 D1-SS、 D2-MSC、 D2-SS、 DT-MSC、 DT-SS、 D1-MSC-SS、 D2-MSC-SS、 DT-MSC-SS。

表2 三類預(yù)處理方法Table 2 Three pretreatment methods
2.3.1 采用連續(xù)投影算法進(jìn)行特征波段提取
連續(xù)投影算法(SPA)從光譜信息中篩選含有最低冗余信息的特征波段組合,使特征波段之間的共線性達(dá)到最小,同時(shí)能夠保留原始數(shù)據(jù)的絕大部分特征。 以SPA對(duì)RAW進(jìn)行特征波段提取為例,圖6(a)中可以看出RMSE從28以后逐漸趨于平緩,其中RMSE=0.1859。 之所以選擇28個(gè)波長(zhǎng)數(shù)量,是因?yàn)镽MSE相對(duì)于后面的RMSE沒有太大的變化,過多的波長(zhǎng)參與建模會(huì)帶來噪聲和模型的復(fù)雜性。 圖6(b)中橫坐標(biāo)表示的是波長(zhǎng),縱坐標(biāo)表示其反射率,其中被紅色方塊標(biāo)記的28個(gè)波段表示SPA提取的特征波段。

圖6 SPA特征提取結(jié)果(a): 不同特征波長(zhǎng)個(gè)數(shù)與RMSE值的關(guān)系; (b): 提取的特征波長(zhǎng)Fig.6 SPA feature extraction results(a): Relation between the number of different characteristic wavelengths and RMSE value; (b): The extracted characteristic wavelength
2.3.2 采用競(jìng)爭(zhēng)自適應(yīng)重加權(quán)算法進(jìn)行特征波段提取
競(jìng)爭(zhēng)自適應(yīng)重加權(quán)(CARS)算法能夠有效地壓縮數(shù)據(jù)篩選出最優(yōu)的波段組合。 圖7為對(duì)RAW使用CARS算法進(jìn)行特征波段提取過程。 由圖7(a)可知,在進(jìn)行特征波段提取的過程中隨著蒙特卡羅采樣次數(shù)增加,提取的特征波段數(shù)量先急劇下降后逐漸趨于平緩。 從圖7(b)看出,當(dāng)?shù)螖?shù)在最佳迭代次數(shù)10之前時(shí),RMSECV的值與迭代次數(shù)呈負(fù)相關(guān),在最佳迭代次數(shù)10時(shí)達(dá)到最小。 當(dāng)?shù)螖?shù)超過最佳迭代次數(shù)后,盡管迭代次數(shù)的增加,能夠緩慢減少提取的波長(zhǎng)數(shù),但是RMSECV的值卻在快速增加,表明在達(dá)到最佳迭代次數(shù)前進(jìn)行的特征提取,有效的淘汰了與馬鈴薯早疫病無關(guān)的光譜變量,隨后RMSECV值隨著迭代次數(shù)的增加卻快速提高,說明在經(jīng)過最佳迭代次數(shù)后增加迭代次數(shù)反而會(huì)淘汰掉與馬鈴薯早疫病病害有關(guān)的光譜信息使得模型的精度下降。 圖7(c)中每條線代表每個(gè)光譜波段的回歸系數(shù)與蒙特卡羅迭代次數(shù)的關(guān)系,其中豎著的紅線表示RMSECV值最小的位置,紅線之后RMSECV值開始增大。 根據(jù)RMSECV值最小的原則,當(dāng)?shù)螖?shù)達(dá)到10次時(shí),RMSECV的值達(dá)到最小,通過CRAS保留了106光譜波段。

圖7 CARS算法的波長(zhǎng)變量篩選過程(a): 篩選波長(zhǎng)數(shù)與迭代次數(shù)的關(guān)系; (b): RMSECV值與迭代次數(shù)的關(guān)系; (c): 回歸系數(shù)與迭代次數(shù)的關(guān)系Fig.7 Wavelength variable screening process of CARS algorithm(a): The relationship between the number of filtering wavelengths and the number of iterations; (b): Relationship between RMSECV value and number of iterations; (c): Relation between regression coefficient and iteration number
2.3.3 采用遺傳偏最小二乘算法進(jìn)行特征波段提取
使用遺傳偏最小二乘(GA-PLS)算法對(duì)馬鈴薯早疫病不同染病時(shí)期光譜數(shù)據(jù)進(jìn)行特征波段篩選之前,必須設(shè)定與其相應(yīng)的參數(shù)數(shù)值。 本研究使用的GA-PLS在運(yùn)算過程中需要對(duì)搜索范圍進(jìn)行約束,登記變量后設(shè)置優(yōu)化函數(shù)并進(jìn)行交叉驗(yàn)證。 因?yàn)镚A-PLS算法速度比較慢,在這里只進(jìn)行10個(gè)世代優(yōu)化,針對(duì)本研究使用的數(shù)據(jù)在訓(xùn)練集上交叉驗(yàn)證的R2基本都在0.98以上。 圖8為使用GA-PLS算法針對(duì)RAW進(jìn)行特征波段提取的結(jié)果圖,提取的特征波段數(shù)為99。

圖8 GA-PLS算法提取特征波段結(jié)果Fig.8 GA-PLS algorithm is used to extract characteristic band results
2.3.4 光譜預(yù)處理算法與特征提取算法結(jié)合
由于光譜數(shù)據(jù)預(yù)處理與特征波段提取算法針對(duì)本研究獲取的高光譜數(shù)據(jù)特點(diǎn)進(jìn)行處理的目的與效果不同,因此本研究將上文擴(kuò)展改進(jìn)的16種光譜預(yù)處理方法與SPA、 CARS和GA-PLS這3種特征波段提取算法進(jìn)行結(jié)合,旨在更加全面地優(yōu)化光譜數(shù)據(jù),提高建模效果,從而得到64種光譜處理方法。 光譜處理方法組合結(jié)果及進(jìn)行特征波段提取后的波段數(shù)如表3所示,從特征波段提取結(jié)果可知,經(jīng)過SPA、 CARS和GA-PLS進(jìn)行特征波段提取將在不同程度上消除冗余,提取有效特征信息。

表3 對(duì)經(jīng)過不同光譜處理方法預(yù)處理后的光譜進(jìn)行特征波段提取得到的特征波段數(shù)Table 3 The number of characteristic bands is obtained by extracting characteristic bands from the spectra pretreated by different spectral processing methods
2.4.1 CNN分類預(yù)測(cè)模型結(jié)果分析
將經(jīng)過本研究方法改進(jìn)擴(kuò)展的64種光譜處理方法處理后的光譜數(shù)據(jù)分別通過構(gòu)建的CNN分類模型,對(duì)馬鈴薯早疫病不同染病時(shí)期(DPP)進(jìn)行分類預(yù)測(cè),其分類預(yù)測(cè)結(jié)果見表4所示。 結(jié)果表明本研究使用的光譜處理方法對(duì)提高CNN分類模型的分類表現(xiàn)有很重要的作用,都能在不同程度上提高模型總體分類精度。 有12種新的光譜處理方法相比于RAW-RAW的CNN的總體分類精度86.67%提高到100%達(dá)到對(duì)DPP的完美預(yù)測(cè)分類,這12種光譜處理方法分別是D1-MSC-CARS、 D1-MSC-GA、 DT-MSC-RAW、 DT-MSC-SPA、 DT-MSC-CARS、 DT-MSC-GA、 DT-MSC-SS-RAW、 DT-MSC-SS-SPA、 DT-MSC-SS-CARS、 DT-MSC-SS-GA、 D1-MSC-SS-RAW、 D2-MSC-SS-RAW。 可知本文提出的光譜處理方法和CNN分類模型是能夠針對(duì)DPP光譜數(shù)據(jù)進(jìn)行有效分類,而且將特征波段提取與光譜預(yù)處理結(jié)合,可以實(shí)現(xiàn)預(yù)處理與特征提取方法的優(yōu)勢(shì)結(jié)合。

表4 不同光譜處理方法建立的CNN分類模型預(yù)測(cè)結(jié)果(總體分類精度/%)Table 4 The prediction results of the CNN classification model established by different spectral processing methods (Overall classification accuracy/%)
總體分類精度雖然可以反映DPP在CNN分類模型上整體的分類效果,但是無法反映馬鈴薯早疫病不同染病天數(shù)之間的相互干擾,因此,本研究通過混淆矩陣來分析基于本文使用的光譜處理方法在CNN分類模型中對(duì)DPP的分類結(jié)果如圖9(a,b)所示,以RAW-RAW、 DT-MSC-SPA兩種光譜處理方法在CNN分類模型中分類結(jié)果的混淆矩陣為例。 在混淆矩陣圖中,顏色越藍(lán)對(duì)應(yīng)的DPP的相似度越低,越紅相識(shí)度越高,矩陣的正確分類集中在矩陣的對(duì)角線上,如果混淆矩陣對(duì)角線相似度越高即對(duì)角線上準(zhǔn)確率越接近于1,則認(rèn)為該模型分類效果較好。 結(jié)果表明基于CNN構(gòu)建的針對(duì)不同DPP分類檢測(cè)模型的不同類別檢測(cè)結(jié)果精度都較高,分類性能也比較穩(wěn)定,四種不同染病時(shí)期馬鈴薯光譜數(shù)據(jù)之間存在相互干擾,但是經(jīng)過光譜處理后的光譜數(shù)據(jù)能夠降低甚至完全消除不同染病時(shí)期馬鈴薯光譜數(shù)據(jù)之間存在的相互干擾,提高CNN分類模型的分類性能。

圖9 CNN分類模型混淆矩陣結(jié)果圖(a): RAW-RAW混淆矩陣; (b): DT-MSC-SPA混淆矩陣Fig.9 Confusion matrix result diagram of CNN classification model(a): RAW-RAW confusion matrix; (b): DT-MSC-SPA confusion matrix
2.4.2 CNN定量估算模型結(jié)果分析
為進(jìn)一步對(duì)馬鈴薯早疫病不同染病時(shí)期(DPP)進(jìn)行定量分析,將經(jīng)過光譜處理方法處理后的光譜數(shù)據(jù)使用構(gòu)建的CNN定量估算模型進(jìn)行DPP光譜數(shù)據(jù)的定量估算,結(jié)果如表5所示。 因?yàn)楣庾V預(yù)處理不僅可以優(yōu)化數(shù)據(jù),也會(huì)損失數(shù)據(jù)中對(duì)目標(biāo)變量有用的光譜信息,從而導(dǎo)致經(jīng)過光譜分析方法處理后的數(shù)據(jù)結(jié)果相對(duì)于未經(jīng)過處理的R2和RMSE存在下降的結(jié)果,其中采用DT-MSC-SS-RAW光譜處理方法的CNN定量估算模型取得了最好的結(jié)果,其R2為1說明估算的DPP和實(shí)際值擬合程度達(dá)到100%擬合,其RMSE僅為0.001 061 849,表明DPP估算值與真實(shí)值之間的偏差接近0,因其值越小,表明估算的準(zhǔn)確率越高,得出DT-MSC-SS-RAW基于CNN定量估算模型非常好地實(shí)現(xiàn)對(duì)DPP的準(zhǔn)確估算。

表5 不同光譜處理方法建立的CNN定量估算模型預(yù)測(cè)結(jié)果Table 5 CNN quantitative estimation model prediction results established by different spectral processing methods
圖10(a,b)分別為測(cè)試集樣本原始光譜數(shù)據(jù)(RAW)、 DT-MSC-SS-RAW在CNN定量估算模型中預(yù)測(cè)值和真實(shí)值的相關(guān)圖。 從圖中可以看出,經(jīng)過DT-MSC-SS-RAW處理后的預(yù)測(cè)值與真實(shí)值完全重合,而RAW的DPP預(yù)測(cè)值與真實(shí)值存在誤差。 可知使用DT-MSC-SS-RAW進(jìn)行光譜處理能夠?qū)崿F(xiàn)對(duì)DPP光譜數(shù)據(jù)存在的相互干擾進(jìn)行優(yōu)化,提高建模效果。

圖10 CNN定量估算模型預(yù)測(cè)數(shù)據(jù)散點(diǎn)相關(guān)圖(a): RAW散點(diǎn)圖; (b): DT-MSC-SS-RAW散點(diǎn)圖Fig.10 CNN quantitative estimation model prediction data scatter plot(a): RAW-RAW scatter plot; (b): DT-MSC-SS-RAW scatter plot
針對(duì)DPP光譜數(shù)據(jù)相互干擾導(dǎo)致預(yù)測(cè)結(jié)果不佳的問題,開展基于CNN對(duì)DPP光譜數(shù)據(jù)特征波段篩選和光譜預(yù)處理的相關(guān)研究。 研究結(jié)果表明,基于CNN分類模型和定量估算模型均取得了較好的建模效果,為進(jìn)一步提高建模效果。 研究將光譜預(yù)處理方法和特征波段提取方法進(jìn)行優(yōu)勢(shì)互補(bǔ),將傳統(tǒng)光譜處理方法通過融合擴(kuò)展到64種,并分別用CNN分類模型、 CNN定量估算模型進(jìn)行預(yù)測(cè),提出的光譜處理方法有12種將CNN分類模型的分類預(yù)測(cè)精度由86.67%提高到100%,其中DT-MSC-SS-RAW使得CNN定量估算模型的R2提高到1,RMSE為0.001 1。 研究結(jié)果表明DT-MSC-SS-RAW融合光譜處理方法和CNN結(jié)合能夠?qū)PP進(jìn)行準(zhǔn)確的病害檢測(cè)和病害預(yù)測(cè),為基于高光譜成像技術(shù)的農(nóng)作物病害檢測(cè)防治提供了一個(gè)新的方向。