高 超 趙 玥 趙燕東
(1.北京林業大學工學院, 北京 100083; 2.城鄉生態環境北京實驗室, 北京 100083;3.林業裝備與自動化國家林業局重點實驗室, 北京 100083)
森林植被中病蟲害的大面積傳播蔓延,將破壞森林生態平衡。因此,及時對植物病蟲害進行診斷具有重大意義,這也成為廣大學者的研究熱點。
目前,植物病蟲害診斷方法主要分為兩類,即基于植物外部表觀特征的診斷方法和基于植物內部生理特征的診斷方法[1-3]。植物一般在感染病蟲害后,其莖、花、葉、果實等部位會殘留病斑或蟲斑,結合機器視覺和相關圖像處理方法即可完成植物病蟲害的診斷。BOISSARD等[4]融合圖像掃描、采樣優化、視覺認知等技術,設計了溫室玫瑰葉粉虱早期診斷系統,該系統能夠準確地識別并統計粉虱,且效率是人工識別計數的5倍。PYDIPATI等[5]在實驗室采用模擬相機獲取正常柑橘葉片和3種染病葉片的圖像,并以顏色指數為特征構建了基于神經網絡的柑橘病害分類系統,該系統的平均識別準確率達到95%。EBRAHIMI等[6]在溫室中采用數字相機獲取草莓冠層圖像,并以圖像區域指數和顏色指數為特征構建了基于支持向量機的草莓寄生蟲分類系統,該系統的平均相對誤差小于2.25%。MOHANTY等[7]借助植物葉片圖像的開源數據庫,訓練了卷積神經網絡,該網絡對14種作物和26種病蟲害的識別準確率達到99.35%。盡管隨著圖像特征提取和分類識別算法的優化和創新,基于植物外部表觀特征的病蟲害識別率逐步上升,但是此時病蟲害已經嚴重危害植物健康,達不到提前預警、防治的目標。
當植物受到病蟲害侵襲時,植物各種組織的新陳代謝活動不穩定,進一步影響植物的生理生化參數,而植物的外部表觀癥狀與其內部生理變化在時間上存在滯后性,因此通過測量植物的生理生化指標可以實現對病蟲害的提前預警[8]。MOSHOU等[9]運用高光譜反射成像和多光譜熒光成像技術對染病前后冬小麥的葉綠素含量進行監測,并通過敏感波段提取和數據融合算法實現了對小麥條銹病的診斷識別,識別準確率達到94.5%。ELLIS等[10]以蘋果樹為試驗對象,發現感染白粉病的蘋果樹葉片的光合速率和呼吸速率都顯著下降,這種抑制作用在幼葉中表現得更為強烈。MOALEMIYAN等[11]以芒果樹為試驗對象,通過判別分析揮發性有機物含量對莖腐病和炭疽病進行診斷,該方法的識別率在33%~88%之間。與此同時,一些學者采用酶聯免疫吸附試驗法和聚合酶鏈式反應法在分子水分上實現了對植物病蟲害的精確診斷[12-14]。盡管通過監測植物的生理生化參數可以實現對病蟲害的早期診斷,但是現階段對植物生理生化指標難以實現野外快速、無損、連續地測量,因此限制了其在農林業生產中的大規模應用。
有學者證實,在病蟲害侵染植物的早期階段,植物體內水分含量有顯著變化,因此可以作為檢測病蟲害的早期指標[15-17]。隨著莖干含水率檢測技術的發展,現階段國內已研發出適用于野外快速、無損、連續測量的莖干含水率傳感器,這使得通過監測植物莖干含水率變化實現病蟲害的早期診斷成為可行[18-20]。本文以紫薇為研究對象,通過長期監測紫薇萌芽期莖干含水率變化,分析不同染病程度紫薇的莖干含水率差異,并以莖干含水率為特征,結合相關機器學習算法實現對紫薇病蟲害等級的早期診斷。
試驗地點位于北京市海淀區東升鎮八家村的三頃園苗圃,其地理位置為116°20′43.6236″ E,40°0′41.9184″N,海拔高度為50 m左右,地勢平坦,占地約31 200 m2,苗圃內培育有紫薇、核桃楸、海棠等多種小型喬木。土壤質地為粘壤土,土壤pH值在7~8之間。四季分明,春秋短促,年均氣溫為12.6℃,年均降水量為620 mm,年均日照時數為2 569 h,屬溫帶季風氣候。
依據歷史的栽培經驗,苗圃內的紫薇每年6月都會被紫薇絨蚧所侵蝕,而其分泌物又極易引發煤污病,在葉面上形成黑色小霉斑,在影響葉片光合作用的同時也降低了紫薇的觀賞價值[21]。并且紫薇絨蚧通常在枝干的裂縫內越冬孵化,難以從表觀上識別,因此試驗中選取樹勢相近的紫薇作為研究對象,分析不同染病程度紫薇的莖干含水率差異。為了獲取不同染病程度的紫薇樣本,將苗圃內紫薇分為3等份并施加不同等級的病蟲害防治措施。對第1等份紫薇在冬春兩季均施加病蟲害防治措施,包括修剪枝條、噴灑石硫合劑等;對第2等份紫薇只在春季發芽前施加病蟲害防治措施;對第3等份紫薇則不施加任何病蟲害防治措施。由于采取了不同等級的防治措施,紫薇在7月長出葉片后呈現出不同的健康狀態,具體的表觀特征如圖1所示。圖1a為第1等份紫薇葉片的典型特征,即幾乎沒有黑斑,可將其標記為健康紫薇;圖1b為第2等份紫薇葉片的典型特征,即黑斑面積小于1/3葉面積,可將其標記為輕微病蟲害紫薇; 圖1c為第3等份紫薇葉片的典型特征,即黑斑面積大于1/3葉面積,可將其標記為嚴重病蟲害紫薇。表1展示了不同健康等級紫薇在各生長周期中的樹勢,從表中可以看出,在落葉休眠期,不同健康等級紫薇在樹勢上無顯著差異,而在復蘇萌芽期、開花期、結果期,不同健康等級紫薇在樹勢上有顯著差異,從好到壞依次為:健康紫薇、輕微病蟲害紫薇、嚴重病蟲害紫薇,因此表明復蘇萌芽期是實現對紫薇病蟲害等級早期診斷的最佳時間周期。
在完成了3種不同健康等級紫薇樣本的制備之后,從每種健康等級紫薇中選取24株作為試驗對象。采用BD-IV型植物莖干含水率傳感器(北京林業大學,0~60%,±1%)測量紫薇莖干體積含水率,傳感器的安裝位置緊鄰于主干第一分叉處,采用自主設計的基于AVR128的多通道數字采集器連接各路莖干含水率傳感器,試驗中的一個監測站如圖2所示。采集器每10 min自動采集并存儲一個數據包,1 d總計采集144個數據包,即對于每株紫薇,采集器每天可以記錄144個莖干含水率。在紫薇整個萌芽過程中,對所有試驗對象均采取相同的栽培管理模式,保證其水分、養分供給等外部環境相近,并記錄紫薇莖干含水率的變化過程。

圖1 不同健康等級的紫薇Fig.1 Lagerstroemia indica with different health levels

紫薇樹勢生長周期落葉休眠期復蘇萌芽期開花期結果期11月—次年3月3—7月7—9月9—11月健康葉片舒展且沒有黑斑花量大且花期長果量大且果實飽滿輕微病蟲害外觀上無顯著差異葉片輕微扭曲且有少量黑斑花量偏少且花期偏短果量偏少且果實輕微干癟嚴重病蟲害葉片嚴重扭曲且有大量黑斑花量少且花期短果量少且果實嚴重干癟

圖2 莖干含水率監測站Fig.2 Monitoring station of stem water content1.數字采集器 2.莖干含水率傳感器
2.1.1基于關鍵參數的特征提取
通過莖干含水率監測站的連續監測,得到紫薇莖干含水率的時間序列數據。基于時間序列的莖干含水率采樣數據具有一定的冗余性,直接用于建模不僅會增加模型的復雜度,而且會降低模型的泛化能力,因此有必要對原始莖干含水率數據進行特征提取[22-23]。圖3展示了3種不同健康等級紫薇的莖干含水率在復蘇萌芽期的變化規律(由于采集器的故障,2017年6月21—26日期間數據缺失)。由圖3可以看出,健康和輕微病蟲害紫薇的莖干含水率在萌芽期呈現出先下降后上升的趨勢,嚴重病蟲害紫薇的莖干含水率則是一直在下降。依據萌芽期莖干含水率的變化規律可以對紫薇健康狀態進行初步評估,但是需要等待到紫薇長出新葉,而此時新葉表面已有病斑,不能達到對病蟲害提前預警的目的。

圖3 2017年復蘇萌芽期不同健康等級紫薇的莖干含水率變化曲線Fig.3 Stem water content changing curves of Lagerstroemia indica with different health levels in bud stage
紫薇莖干含水率呈現出單波峰單波谷的周期性變化規律,周期為1 d,因此以天為單位對莖干含水率時間序列進行特征提取具有可行性,并選取日最小含水率、日最大含水率、日平均含水率、日極差含水率4個關鍵參數作為莖干含水率特征。以萌芽期第I階段數據為基礎,圖4展示了2017年6月1日不同健康等級紫薇莖干含水率4種關鍵參數的均值和方差。由圖4可以看出,不同健康等級紫薇莖干含水率的日最小含水率、日最大含水率、日平均含水率差異較大,與健康狀態正相關,日極差含水率差異較小,與健康狀態負相關。這種現象符合植物的病蟲害生理特性,因為健康植物的莖干儲水能力和調節能力均高于感染病蟲害的植物,所以健康植物的莖干含水率會處在一個較高的水平且波動較小。為了進一步驗證4種關鍵參數在不同健康等級紫薇中差異性,表2展示了關鍵參數的方差分析結果。從表2可以看出,4種關鍵參數的顯著水平P值均小于0.01,表明健康等級對關鍵參數的影響均為極顯著。由于健康等級分為3個水平,還需要分析每2個健康等級間對關鍵參數的影響,表3展示了健康等級間的兩兩比較結果。由表3可以看出,只有健康等級1、2對極差含水率的影響為不顯著,其余兩兩比較的結果均為極顯著。綜合以上的分析結果,表明4種關鍵參數可以作為莖干含水率的特征向量用以診斷紫薇的病蟲害等級。

圖4 萌芽期不同健康等級紫薇莖干含水率的關鍵參數Fig.4 Stem water content key parameters of Lagerstroemia indica with different health levels in bud stage

關鍵參數來源平方和自由度均方FP組間0.95320.476421.562<0.001日最小含水率組內0.078690.001總計1.03171組間0.77820.389368.243<0.001日最大含水率組內0.073690.001總計0.85171組間0.84220.421534.468<0.001日平均含水率組內0.054690.001總計0.89671組間0.00920.00410.350<0.001日極差含水率組內0.02969<0.001總計0.03871
2.1.2基于主成分的特征提取
莖干含水率采樣數據可以被視作時間序列上的高維向量,采用主成分分析可以將高維向量映射成低維向量,在達到特征提取目的的同時,還能保證各特征之間相互獨立[24-26]。同樣以復蘇萌芽期數據為基礎,圖5展示了整個復蘇萌芽期不同健康等級紫薇莖干含水率的主成分貢獻率。在圖3中,不同健康等級紫薇在階段Ⅰ和階段Ⅱ中呈現出不同的變化規律,但在圖5中,不同健康等級紫薇莖干含水率的前4個主成分累計貢獻率均超過99.5%,表明基于主成分的特征提取適用于整個復蘇萌芽期。為了能達到對病蟲害等級提前診斷的目的,應該以階段Ⅰ的數據為基礎進行分析,因為紫薇此時并沒有長出新葉,并且2017年6月1日這天所對應的主成分累計貢獻率最低,如果使用該天數據進行主成分特征提取能夠實現對病蟲害的早期診斷,那么對萌芽期內其它日期數據進行同樣處理也能實現該目的。表4展示了2017年6月1日不同健康等級紫薇莖干含水率時間序列的主成分分析結果,從表中可以看出,莖干含水率時間序列前4個主成分的累計貢獻率達到99.7%,可以完好地表征原始序列所包含的信息,因此可以選取前4個主成分作為莖干含水率的特征向量用以診斷紫薇的病蟲害等級,這樣也統一了關鍵參數特征和主成分特征的維度。

表3 健康等級間的兩兩比較Tab.3 Pairwise comparisons among health levels
注:等級1表示健康,等級2表示輕微病蟲害,等級3表示嚴重病蟲害。

圖5 2017年復蘇萌芽期不同健康等級紫薇莖干含水率的主成分貢獻率Fig.5 Principal component contribution rate of stem water content of Lagerstroemia indica with different health levels in bud stage

主成分特征值累計特征值貢獻率/%累計貢獻率/%第1主成分8721289872128998.4898.48第2主成分6809187893800.7799.25第3主成分2637388157530.3099.55第4主成分1329788290500.1599.70
試驗中模型的輸入為帶有健康等級標簽的紫薇莖干含水率特征,模型的核心為分類器,模型的輸出為對應紫薇的健康等級。紫薇莖干含水率特征有3種,分別為時序特征、關鍵參數特征、主成分特征,其中時序特征為144維,關鍵參數和主成分特征均為4維,分類器有4種,分別為RBF神經網絡、BP神經網絡、支持向量機(Support vector machine,SVM)、K均值聚類。因此依據莖干含水率特征和分類器的不同組合方式可以構建12種紫薇病蟲害等級診斷模型,由前3種分類器構建的模型稱為有監督模型,由K均值聚類構建的模型稱為無監督模型,兩類模型的工作流程圖如圖6所示。在圖6中,樣本預處理包括標簽化、歸一化、亂序化,分類器需要設置網絡層次、網絡初始參數、激活函數、核函數、迭代停止條件等參數,聚類需要設置距離函數,模型評價指標為分類準確率。由于試驗樣本數量較小,因此試驗中對有監督模型采取了3折交叉驗證,以期得到更加穩定可靠的模型。

圖6 模型工作流程圖Fig.6 Flow charts of model operation
試驗中分別測試了3種不同莖干含水率特征在4種分類器下的模型性能,試驗結果如表5所示。從模型的輸入來看,以莖干含水率的時序特征為輸入變量時,4種模型的平均識別率均不小于93%,性能最優;以莖干含水率關鍵參數和主成分特征為輸入變量時,相同模型的平均識別率相近,但是RBF模型的平均識別率低于70%,性能最差,表明RBF模型嚴重依賴于輸入特征,魯棒性較差。從模型的分類器來看,基于BP神經網絡、SVM的有監督模型平均識別率均在94%以上,基于K均值聚類的無監督模型平均識別率低于93%,表明有監督模型的性能優于無監督模型。在有監督模型中,BP和SVM模型性能相近,且對輸入特征均具有較強的魯棒性,但SVM是一個二分類器,文中的紫薇病蟲害等級診斷是一個三分類問題,因此SVM模型至少需要訓練3個分類器才能解決紫薇病蟲害等級診斷問題[27],而BP神經網絡本身就能解決多分類問題,所以相較于SVM,BP神經網絡能夠降低模型的復雜度。對于有監督模型,需要對輸入特征添加健康等級標簽,但是有些時候難以獲取標簽,此時就需要建立無監督模型。盡管K均值模型的性能不如BP和SVM模型,但是其平均識別率也不小于86%,能夠滿足一般的林業生產應用。
因此,在綜合考慮到模型復雜度(包括輸入特征維度和分類器數量)和準確識別率情況下,對于有監督模型來說,以主成分特征為輸入的BP模型的性能最優,平均識別率達到98%,對于無監督模型來說,以主成分特征為輸入的K均值模型最優,平均識別率達到92%。
(1)提出了一種基于莖干含水率的紫薇病蟲害等級早期診斷方法,并針對不同健康等級紫薇的莖干含水率在復蘇萌芽期的變化規律,選取日最小含水率、日最大含水率、日平均含水率、日極差含水率4個關鍵參數作為莖干含水率特征,其中日最小含水率、日最大含水率、日平均含水率與紫薇健康狀態正相關,而日極差含水率與紫薇健康狀態負相關。

表5 病蟲害等級診斷模型的性能分析Tab.5 Performance analysis of health diagnosis models
注:Ⅰ表示時序特征,Ⅱ表示關鍵參數特征,Ⅲ表示主成分特征。
(2)基于主成分分析,對不同健康等級紫薇的莖干含水率進行特征提取,莖干含水率時間序列前4個主成分的累計貢獻率均達到99.7%,可以完好地表征原始序列所包含的信息。
(3)基于3種不同莖干含水率特征和4種分類器,構建了12種紫薇病蟲害等級診斷模型。在綜合考慮模型復雜度和識別準確率情況下,對于有監督模型,以主成分特征為輸入的BP模型性能最優,平均識別率達到98%;對于無監督模型,以主成分特征為輸入的K均值模型最優,平均識別率達到92%。