王鑫野,馮 潔,李欣庭
(云南師范大學 物理與電子信息學院,云南 昆明 650500)
馬鈴薯是世界性的糧食作物,在各個國家的飲食組成中占據重要地位。晚疫病是馬鈴薯眾多病害中最主要的病害,病情多見于多雨、冷涼的地區,一旦有田塊發病其病株率可達40%~80%,在流行年份可致全田毀滅。該病害不僅限于馬鈴薯植株,還會使薯塊腐爛變質,若用病薯種植則會導致幼苗腐爛致死,同時還會侵染其他茄科作物的健康[1]。目前針對馬鈴薯晚疫病的診斷大都是采用傳統的經驗定性診斷方法,由于會受到多種因素的影響,要進行精確分析還存在一定的困難[2]。高光譜成像技術將圖像和光譜信息結合,能同時反映待測物內部外部光譜信息和空間信息,使該技術在植物檢測方面得到廣泛應用[3]。
利用高光譜成像技術,潘冉冉等基于光譜信息提取特征并建立識別模型對油菜和雜草進行了區分,識別率達100%[4]。程術希等基于可見/近紅外光譜技術對不同水稻稻瘟病染病的葉片進行了分析,全波段建模的識別率達96.7%[5]。梅慧蘭等利用光譜信息對柑橘的黃龍病進行了鑒別和初期預測,識別率達96.4%[6]。 Kumar等基于光譜信息利用高光譜和多光譜技術對柑橘的綠霉病進行了研究,識別率達87%[7]。Bauriegel等利用高光譜的空間信息對小麥的鐮刀菌進行了初期檢測,識別率為87%[8]。Tian等利用高光譜空間信息對黃瓜的霜霉病進行了檢測,識別率接近90%[9]。Baranowski等用高光譜的空間信息對蘋果的初期瘀傷進行了檢測,確定了波段范圍為400~5 000 nm[10]。以上人員通過使用高光譜成像技術,用光譜信息或空間信息對植物的各項指標進行了探究,均達到了不錯的效果,但是采用光譜信息和空間信息對比來研究馬鈴薯晚疫病的方法卻鮮有報道。本文用高光譜相機采集馬鈴薯晚疫病的高光譜數據,從空間信息和光譜信息兩方面分別提取特征波段,再基于特征波段反射率和主成分圖像灰度值結合BP(back propagation)神經網絡、K最近鄰(k-nearest neighbor,KNN)分類算法、決策樹(decision tree,DT)對采集的數據進行對比分類識別。
實驗材料為云南師范大學生命與科學學院馬鈴薯種植基地種植的88馬鈴薯葉片(C-88),生長時間為80 d,共計60片。隨機對其中40片接種晚疫病病菌,其余20片做對照,將60片葉片置于光照培養箱內連續培養6 d,每隔24 h采集一次高光譜圖像,連續采集7 d。
成像系統觀測的幾何條件采用CIE 15:2004推薦的45°/垂直的雙向幾何條件。相機可采集256個波段,波段范圍為400~1 000 nm,高光譜成像系統如圖1所示。

圖1 高光譜成像系統Fig. 1 Hyperspectral imaging system
為避免采集的圖像出現失真,根據光源的照度調整好系統的參數。通過反復測試優化,最終CCD相機的曝光時間確定為5.3 ms,步進電機的速度為0.6 mm/s,相機到載物臺的垂直高度為23 cm。每次只放1個樣本,CCD相機對載物臺上的樣本進行線掃描,平臺在水平方向進行移動。為減少光源產生的顏色失真,對采集的樣本進行黑白校正。圖2為校正后連續7 d測得的高光譜圖像(0 d表示病菌未接種,形成自身對照樣本;1~ 6 d表示感染病菌,形成試驗樣本)。所有高光譜圖像數據的采集均基于Specview軟件平臺,數據處理采用ENVI 5.1、MATLAB R 2016a軟件。

圖2 接種病菌后每天的圖像Fig. 2 Images of each day after inoculation
采用MATLAB軟件繪制出每天的平均光譜反射率曲線,如圖3所示。
從圖3 中可以看到,健康馬鈴薯葉片和病害馬鈴薯葉片的光譜曲線大致相似,在550 nm處存在1個反射峰,680 nm附近存在1個吸收峰,而在680 nm后反射率數值急劇升高,使得近紅外波段的反射率明顯高于可見區域,與孫紅等[11]用高光譜采集馬鈴薯葉片的光譜特征相符。

圖3 健康葉片與病害葉片的反射率曲線Fig. 3 Reflectivity curves of healthy leaves and disease leaves
高光譜信息既包含空間信息又包含光譜信息,特征的提取可以從空間和光譜兩個方面進行。由于6 d的病害特征最為明顯,本文針對6 d的病害葉片進行特征提取。
2.2.1 針對光譜信息提取特征波段
對光譜信息特征波段提取的方法有連續投影算法、最小二乘法、二階導數等。其中二階導數(second derivative, 2nd der)在特征提取方面應用較廣泛,可以大幅降低變量間的相關性,突出光譜曲線中的特征峰值,從而確定和選擇特征波段[12]。采用db小波對光譜曲線進行平滑去噪,之后求取光譜的二階導數曲線,選取曲線的極值作為特征值。經過篩選可得到9個特征波段:529.26 nm、567.52 nm、624.91 nm、672.73 nm、682.29 nm、691.86 nm、710.99 nm、902.28 nm和911.85 nm。通過二階導數特征提取,將256×256數據立方體壓縮到9×9,本文為了進一步得到最優最少數據,再對選取的9個特征波段圖像進行主成分分析(principal component analysis,PCA),分析其權重系數。最終通過二階導數結合主成分分析(2nd der-PCA)將特征波段壓縮為3個,即:672.73 nm、691.86 nm和710.99 nm。
2.2.2 針對空間信息提取特征波段
基于空間信息提取特征波段的方法是采用最具代表性的主成分分析方法。該方法通過線性變換提取數據主要特征信息,最大程度保留了數據原有信息,是一種經典的數據分析方法[13]。顯著特征波段點的選取位置是在權重系數曲線的波峰或者波谷處,區別感興趣特征波段時該位置貢獻最大。將采集的數據進行掩膜處理,以降低背景的影響。針對馬鈴薯晚疫病樣本的高光譜圖像進行主成分分析,通過分析主成分圖像的權重系數,篩選得到了6個特征波段:546.00 nm、663.16 nm、672.73 nm、727.73 nm、624.91 nm和684.69 nm。基于6個特征波段進行第二次主成分分析,將其壓縮為3個特征波段。最終通過PCA-PCA選取的3個特征波段為:624.91 nm、663.16 nm和684.69 nm。
BP人工神經網絡在處理非線性問題及分類方面有良好的效果,適合解決病害診斷的問題。K最近鄰分類算法(KNN)應用簡單,容易實現,不需要估計算法參數和訓練,可快速對病害樣本進行分類識別[14]。決策樹算法(DT)主要推斷數據特征,學習決策規則,創建一個預測目標變量值的模型,是一種簡單的、廣泛應用的非參數分類方法[15]。
利用高光譜成像技術圖譜合一的特點,用空譜選取的特征波段的光譜反射率和主成分圖像灰度值結合BP神經網絡、KNN和DT建立模型,對馬鈴薯葉片的不同病害時期進行識別。相比全波段光譜曲線建立的識別模型,針對特征波段建立的模型能有效地減少數據冗余,降低工作量,且具有更好的識別效果。
0 d和1 d在光譜反射率曲上無明顯差異,且在圖像上也無病害顯現,因此將病害葉片分為3個階段:2 ~3 d為初期,4 d為中期,5 ~6 d為晚期。在這3個階段中,分別隨機抽取45片葉片作為訓練集,病害與健康比例為2 : 1,其余的作為測試集并建立BP神經網絡。之后將所有樣本作為樣本集進行KNN和DT分類。
基于特征波段反射率所建立模型的測試結果如表1所示。由表中數據可知,以特征波段的反射率作為研究對象,識別效果均超過了80%。對于初期病害,識別效果最佳的是基于PCA-PCA結合KNN建立的模型,識別率達85.7%;對于中期病害,識別效果最佳的是基于PCA-PCA結合DT建立的模型,識別率達88.9%;對于晚期病害,識別率最佳的是基于PCA-PCA結合KNN建立的模型,識別率為89.4%。PCA-PCA提取的特征波段結合3種模型的平均識別結果均高于2nd der-PCA提取特征波段結合3種模型的識別結果。

表1 基于特征波段反射率識別結果Tab. 1 Identification results based on characteristic wavelength reflectance
主成分圖像既涵蓋了圖像特征又濾掉了噪聲影響,因此可將主成分圖像的灰度值作為研究對象進行模式識別。基于3個特征波段進行主成分分析,選取病害區域對比度最大的主成分圖像,兩種方法提取的特征波段的最佳主成分圖像均為第二主成分圖像(PC-2),如圖4所示。圖4(a)為基于PCA-PCA提取的特征波段的PC-2,圖4(b)為基于2nd der-PCA提取的特征波段的PC-2。

圖4 第二主成分圖像Fig. 4 Second principal component image
基于特征波段的PC-2圖像的灰度值所建立模型的測試結果如表2所示。由表中數據可知,以主成分圖像的灰度值建立的識別模型,其識別率均高于88%。初期、中期和晚期病害識別效果最佳的均為基于PCA-PCA結合BP神經網絡建立的模型,識別率分別達到94.1%、97.6%和98.0%。以PCA-PCA結合主成分圖像建立的3種模型中BP神經網絡和KNN的識別率較高,分別為96.6%和91.8%,以2nd der-PCA結合主成分圖像建立的DT模型的識別率較高為91.6%。
由表1和表2可知:基于特征波段主成分圖像的灰度值結合3種模型的識別效果優于基于特征波段反射率建立的3種模型;BP神經網絡和KNN模型中,以PCA-PCA所提取特征波段的PC-2圖像的灰度值作為研究對象的識別率最高分別為96.6%和91.8%;DT模型中,以2nd der-PCA所提取特征波段的PC-2圖像的灰度值作為研究對象的識別率最高為91.6%。
基于特征波段反射率建立的模型識別結果未超過90%的原因:個別樣本特征波段對應位置的反射率較為接近或有重疊,會對識別結果產生一定影響;采集數據時,由于培養環境的濕度較大,葉片上殘留的水分也會對識別結果產生影響。

表2 基于主成分圖像灰度值的識別結果Tab. 2 Results of recognition base on gray value of principal component image
本文從空間和光譜兩方面對高光譜數據進行處理均得到了良好的壓縮效果。二次主成分提取的特征波段為624.91 nm、663.16 nm和684.69 nm;二階導數結合主成分提取的特征波段為672.73 nm、691.86 nm和710.99 nm。在建立的識別模型中:基于二階導數結合主成分提取特征波段的PC-2的灰度值建立的DT模型的分類結果最高,為91.6%;基于二次主成分提取特征波段的PC-2的灰度值結合BP神經網絡和KNN模型的識別率最高,分別為96.6%和91.8%。對病害的初期、中期、晚期進行識別,識別率是晚期識別率>中期識別率>初期識別率,且識別率均超過80%。初期、中期和晚期識別率最高均為基于二次主成分提取特征波段的PC-2的灰度值結合BP神經網絡建立的模型,識別率分別為:94.1%、97.6%和98.0%。綜上,主成分圖像的灰度值相比波段反射率所建立的3種模型的精度得到了有效的提升,同時降低了噪聲的影響。由此表明,利用特征波段的主成分圖像的灰度值來檢測馬鈴薯晚疫病病害的方法是可行的。此方法可為檢測馬鈴薯的晚疫病提供參考。