汪佩佩,崔國賢,李 運,曹曉蘭*
(湖南農業大學 a.信息與智能科學技術學院; b.苧麻研究所, 長沙 410128)
苧麻(BoehmeirianiveaL.)是我國的特產,作為一種傳統的纖維作物,我國苧麻種植面積和原料產量占世界的95%以上[1],有著較高的經濟地位。褐斑病是苧麻常見的病種,染病時葉面能形成大小不一的不規則形病斑,并產生大量生孢子進行再侵染,導致病害迅速蔓延,嚴重影響苧麻產量和品質。以往對苧麻褐斑病的監測和診斷主要基于肉眼觀測結合實驗室進行病原分析,過程復雜,而且受各種主客觀因素的影響,時效性差。隨著高光譜技術的發展,以高光譜技術為基礎,以計算機數據分析處理為輔助手段的無損光學檢測和診斷技術使得農作物精準生產成為可能。當前,基于高光譜的作物病害識別在水稻紋枯病和葉瘟病[2,3]、柑橘黃龍病[4,5]、小麥條銹病和赤霉病[6,7]、蘋果Marssonina斑病[8]等上均有研究,其研究內容一般包括作物健康和病害高光譜差異分析、病害敏感光譜區域確定、高光譜數據降維和病害識別模型建立:
1)作物健康和病害高光譜差異分析。葉片對光譜的吸收和反射受色素、水分、細胞結構等因素影響,因此不同生長和健康狀況的作物,其光譜曲線也會不同,特別是在綠色植物高光譜曲線上特有的綠峰、紅谷和紅邊等位置及其反射率上,更容易發生改變。因此很多研究對二者差異的比較主要在這幾個位置:如,劉燕德等[5]發現柑橘黃龍病葉片在綠峰的反射峰高于正常葉片,而在720 nm左右正常葉片反射率高于病害葉;黃旭影等[9]發現在剛竹毒蛾危害下的毛竹葉片原始光譜的綠峰和紅谷逐漸消失,紅邊區域斜率明顯減小,近紅外波段反射率較高;楊興川等[10]發現銀木的健康葉片綠峰比煙煤病葉片要明顯,且煙煤病葉片紅邊有紅移現象。
2)確定病害敏感光譜區域是為了去掉冗余和干擾信息,提高準確性,同時光譜范圍縮小能減少后續計算量。敏感區域確定一般建立在上一步對健康和病害葉片光譜曲線差異分析基礎之上,如王利民等[11]通過分析光譜一階微分特征確定紅邊區域(680~780 nm)是春玉米大斑病敏感區域。但該方式不足之處是主觀性比較強,而有研究則采用了更為客觀的標準,如采用單因素方差分析原始光譜和一階光譜,選擇差異達極顯著水平(P<0.01)的波長為敏感區域[9];或通過相關性分析,取相關系數絕對值較大區域為敏感區域[10]。
3)高光譜數據降維是指利用特定方法,提取特征變量,作為后續建立識別模型的輸入變量,方法有主成分分析(principal components analysis,PCA)、連續投影算法(successive projections algorithm,SPA)、競爭性自適應重加權算法(competitive adaptive reweighted sampling,CARS)等;而建立基于高光譜的作物病害識別模型是利用模式識別方法建立定性模型,常用的模式識別方法有支持向量分類(support vector classification,SVC)、判別分析(discriminant analysis,DA)、誤差反向傳播神經網絡(back propagation neural network,BPNN)、決策樹、極限學習機等。
對于不同作物和病害,確定了病害敏感區域之后,采取何種“降維方法”+“模式識別方法”組合效果最佳需要多次嘗試和比較:李志偉等[2]建立水稻紋枯病識別模型采用基于最小噪聲分離變換算法提取特征信息,分別于DA和BPNN組合,發現BPNN建模效果更佳,預測集正確率達98.4%;Yao等[6]在建立小麥白粉病、條銹病識別模型時,采用PCA-載荷法、連續投影算法和競爭性自適應重加權算法等方法降維,用最小二乘-支持向量機和極限學習機分類,各組合的識別模型準確率均在94.58%以上,其中以PCA-載荷法+極限學習機組合建模型最優,識別率可達100%;梁琨等[7]建立小麥赤霉病識別模型時,分別用SPA和CARS降維,組合SVC和BP神經網絡,發現SPA+SVM效果最優。
本研究在了解苧麻褐斑病葉片和健康葉片高光譜響應特性異同的基礎上,基于離散系數篩選敏感子波段,然后采用PCA方法對各子波段進行數據降維,選擇不同個數的主成分作為特征變量,分別建立各子波段的SVC苧麻褐斑病識別模型,對比各模型的效果,獲得最佳建模方案,為利用高光譜開展苧麻葉片褐斑病診斷探索一種快速高效的新方法。
高光譜數據采集設備選用美國ASD公司生產的FieldSpec3便攜式地物光譜儀和配套的手持葉片夾持器,光譜儀波段范圍為350~2 500 nm,葉夾器具有內置石英鹵化燈,光源穩定。采用的光譜數據分析處理軟件有Excel、Spss Statistics和Umscrambler。
樣本采集于2018年5月和7月苧麻旺長期,在湖南農業大學國家麻類長期定位試驗點(28°10′N,113°4′E)進行,采集樣本時,選擇中等危害程度的褐斑病葉片,健康葉片則選擇同株、位于中層的旺盛葉片。測量葉片高光譜時,避開葉脈,將葉夾器夾緊葉片所測部位,沿主葉脈左右各采集2個點,共4個采樣點,取平均值代表該葉片的高光譜數據,本研究均以葉片光譜數據做為分析對象。同時,為消除光譜數據在采集時首端與末端產生的噪音,選擇420~2 450 nm之間的光譜數據進行分析。
健康葉片和褐斑病葉片高光譜數據各采集了215個,一共430個樣本,每種樣本按2∶1比例隨機分成訓練集和預測集。訓練集用于建立褐斑病識別模型;預測集不參與建模,僅用于評測模型的準確率。
1.3.1 數據降維方法
全波段的高光譜數據雖然信息全面,但維度高,數據量大,其中存在大量無效、冗余和干擾信息,這不僅會增加建模計算量,并且會降低模型的穩定性、可靠性。因此在滿足一定精度要求的前提下,通過特定方法對全波段數據降維,篩選、提取出更有代表性的特征參數建模,不僅可以節約計算成本,還能提高模型的質量。本文對數據的降維分為兩個步驟,先基于離散系數篩選敏感子波段,然后對子波段采用PCA方法提取特征參數。
1.3.1.1 基于離散系數的敏感子波段篩選
離散系數是一組數據的標準差s與其相應的平均數x之比,標準差s的計算公式為:
s=i=1n(xi-x)2n-1
其中,x1,x2,……xn為樣本數據;n為樣本量;x為樣本平均數。
離散系數能夠反映樣本數據的差異,離散系數大的數據,差異程度大,反之則差異程度小。本研究提出一種基于離散系數篩選敏感子波段的方法:先求褐斑病葉片和健康葉片高光譜反射率均值,再計算二者在各波長的離散系數,設置合理閾值,篩選出離散系數較大,即數據差異大的波段,選擇這些波段作為褐斑病敏感子波段進行下一步處理。
1.3.1.2 子波段主成分分析PCA
PCA方法通過線性變換,將原始變量映射到一個新的坐標系統中,使得任何數據投影的最大方差在第一個坐標(第一主成分P1),第二大方差在第二個坐標(第一主成分P2)上,……,依此類推。經轉換得到的新變量相互正交,互不相關,消除了眾多共存信息中相互重疊的部分,同時這些新變量要盡可能多地表達原變量的數據特征而不丟失信息[12]。PCA的主要統計量包括3個:特征值λ,它反映的是原始變量的總方差在各成分上重新分配的結果;各成分的貢獻率,即各成分所包含的信息占總信息的百分比;前k個成分的方差累積貢獻率[13]。由于轉化后得到的主成分保留了原始變量的絕大多數信息,因此可以代替原始變量用于建模,所得結果多半優于利用原始變量直接建模。
主成分個數的選擇標準有幾種:1)取所有特征值λ大于1的成分;2)根據方差累積貢獻率達到的百分比值(如85%)的前l個主成分;3)依據所建模型的結果而定[14]。本文對上一步篩選出來的敏感子波段進行PCA二次降維,選擇合適的主成分個數作為建模的特征變量。
1.3.2 支持向量分類SVC
和很多傳統分類方法相比,SVC能有效降低噪聲、提高學習效率,廣泛應用于模式識別[15],在解決小樣本、非線性和高維的二分類和回歸問題上有許多優勢[16],在高光譜分類上也有比較好的效果。SVC的基本思路是:找到兩個相互平行且間距最大,并能將屬于不同類別的樣本點正確分開的邊界,位于兩邊界中間位置并與之平行的超平面稱為最大邊界超平面,即為最終解。
對于線性不可分的問題,SVC采用映射的方法將其轉化為高維空間中的線性可分問題,并且通過核函數計算出轉換處理后的內積結果來解決從低維空間轉換到高維空間產生的維災難問題。本研究中采用徑向基核函數(radical basic function kernel,RBF)。
1.3.3 定性模型的評價
定性模型的評價以預測集準確率結合建模特征變量個數為主:準確率越高,模型效果越好;參與建模的特征變量個數越少,計算量越小越好,但個數太少,可能會導致失去一部分有效信息,使得建模準確率降低,因此二者需要權衡考慮。
分別對樣本中的褐斑病和健康葉片高光譜反射率取均值,其均值曲線如圖1所示,從圖1中可知褐斑病葉片高光譜反射率整體高于健康葉片;在550 nm左右的綠峰區域差異比較明顯;從紅谷區域陡然上升到高平臺區之后,在700~1 400 nm區域,二者反射率差異較小;但在1 400 nm之后的兩個波峰區域,健康葉片反射率明顯又低于褐斑病葉片。

圖1 褐斑病和健康葉片高光譜波形Fig.1 The hyperspectral waveformsof brown spot leaves and healthy leaves
求二者離散系數,其曲線如圖2所示。由圖2可知,離散系數反映出來的二者差異特性與圖1基本吻合:在550 nm左右的綠峰區域、1 430 nm左右和1 920 nm之后區域離散系數較高;而在在700~1 400 nm區域離散系數較小。表明這幾個區域是敏感波段區域。

圖2 褐斑病和健康葉片高光譜數據離散系數Fig.2 The variation coefficient of the hyperspectral data of both the brown spot leaves and the healthy leaves
根據所求得的離散系數值,以0.1為閾值,選擇離散系數≥0.1的波段作為后續PCA的子波段,共篩選出4個波段,各子波段情況如表1所示。

表1 子波段情況Tab.1 The sub bands
為了對比不同波段對建模結果的影響,分別對全波段、全部子波段(即波段A+B+C+D)、波段A、波段B、波段C和波段D作PCA分析。各波段參與PCA的波長個數分別為2 013個、838個、126個、25個、106個和581個,各波段PCA結果的前10個主成分特征值λi和累積方差貢獻率如表2所示。
根據表2中結果可知,若按照特征值λ>1或累積貢獻率>85%為主成分個數選擇標準,兩個標準得到的主成分個數差別較大。因此,為了確定最佳主成分個數,本研究選擇1~10個主成分作為特征變量,分別建立各個波段的SVC(RBF)模型并進行預測,比較不同主成分個數對模型正確率的影響,再根據模型預測集正確率拐點決定主成分個數。
各波段選擇1~10個主成分,以訓練集數據,分別建立不同主成分個數的SVC(RBF)識別模型,然后將預測集數據代入模型,統計其各模型的預測正確率,正確率曲線如圖3所示,訓練集和預測集詳細正確率如表3所示。

圖3 預測集正確率Fig.3 Predictive set accuracy
從圖3可知,所有波段正確率均是先隨著主成分個數增加而增大,但當個數增至某點時,正確率均會減少,說明該點之后有過擬合的情況,這是需要避免的[14]。因此本研究以預測集正確率的拐點作為最佳主成分個數的選擇標準。由表3可知,全波段、全部子波段、波段A、波段B、波段C和波段D的拐點分別為第2、第4、第3、第4、第5和第5個主成分,其對應的正確率分別為83.8%、91.6%、85.2%、88.0%、93.0%和92.3%。
所有波段拐點的正確率中,以波段C最高(93.0%),全波段最低(83.8%)。而波段C參與PCA的波長個數比較少(106個),僅多于波段B(25個),最佳主成分個數為5個,沒有明顯高于其他波段,因此綜合權衡,本文認為用波段C建模正確率和計算量最佳。

表2 主成分分析結果Tab.2 The result of PCA

表3 訓練集和預測集正確率(%)Tab.3 Accuracy of train set and predictive set(%)
在350~2 500 nm光譜區域內,健康的綠色植物光譜反射率曲線變化特性非常相似,且有明顯的規律[17]:380~780 nm可見光波段,光譜特性主要受各種葉色素的支配,特別是在550 nm左右的綠峰區,是葉綠素的強反射區;而在1 350 nm之后的波段,其反射率與水分、二氧化碳和植物本身的生物學特性有關。
褐斑病葉片顏色偏黃,表明其葉綠素含量低于健康葉片,因此對綠色波長的光吸收較少,在光譜曲線上表現為綠峰的峰值明顯高于健康葉片,相對應的離散系數也較高;1 430 nm左右和1 920 nm之后區域離散系數較高,本文推測也許與褐斑病葉片水分明顯減少導致葉片在該區域對光的吸收減少,反射增加有關,這需要做進一步研究證實。
本文提出的利用離散系數篩選敏感波段的方法,從預測集正確率可知,未經篩選的全波段模型拐點正確率最低(83.8%),而其他各子波段模型(包括全部子波段)拐點的正確率均高于全波段模型,可見,該方法在閾值設置合理的情況下,不僅降維效果十分明顯,而且能準確獲取最具有識別能力的子波段,為敏感波段的篩選提供了一個新的方法。
各子波段中,波段C波長個數為106個,為全波段(2 013個)1/20左右;模型拐點正確率達到93.0%,主成分個數為5個,綜合權衡,波段C為最敏感波段。
PCA主成分個數選擇時,若主因子太少,將會丟失原始光譜較多的有用信息,擬合不充分;但選擇的主成分太多,將測量噪聲過多地包括進來,會出現過擬合現象,所建模型預測誤差會顯著增大[12]。
由表2可知,波段C僅用1個主成分就能代表99.71%的原始數據信息,但由圖3曲線走勢可知,適當增加主成分個數可以較大幅度提高模型正確率,但當主成分個數超過某個值之后,所有正確率曲線均呈現下降或者趨于平緩的走勢,這說明正確率與主成分個數并不完全成正比,這一點與前人研究結果吻合[18,19]。
綜上所述,采用離散系數篩選子波段,各子波段參與PCA的波長個數有較大幅度減少,且子波段模型的正確率明顯高于全波段模型。可見基于離散系數篩選子波段不僅能較大幅度降低PCA計算量,還能有效地減少冗余和噪聲,提高模型準確率。綜合考慮波長個數、正確率和最佳主成分個數等因素,波段C(1 406~1 511 nm)不僅波長個數較少(106個),而且建模效果最佳,主成分個數為5個時,其預測集準確率達到93.0%。因此,應用分波段PCA結合SVC方法建立基于高光譜的苧麻葉片褐斑病識別模型是可行的,選擇1 406~1 511 nm區域進行PCA分析,然后選取5個主成分作為特征變量建立SVC(RBF)的識別模型是最優方案。