嚴志雁,王芳東,郭 熙,丁 建
(1.江西省農業科學院農業經濟與信息研究所,江西南昌 330200;2.江西省農業信息化工程技術研究中心,江西南昌 330200;3.江西省農業科學院基地管理中心,江西南昌 330200;4.江西農業大學江西省鄱陽湖流域農業資源與生態重點實驗室,江西南昌 330045)
【研究意義】葉綠素是植被光合作用的重要色素,研究表明便攜式葉綠素儀測定的葉片綠色度(SPAD值)與葉綠素含量正相關,SPAD值能代替實驗室檢測測定葉綠素含量[1?3]。構建基于高光譜技術的水稻葉片SPAD估算模型,可實現對水稻葉片葉綠素含量的實時無損監測。【前人研究進展】已有學者采用不同數據預處理方法及預測模型對水稻葉片SPAD值進行預測。武旭梅等[4]運用水稻葉片波段組合的方式構建了一系列植被指數,篩選最佳植被指數作為自變量,應用普通回歸分析方法和隨機森林算法估算水稻冠層SPAD。于滋洋等[5]對葉片光譜反射率進行去包絡線(CR)處理,采用可見光近紅外波段提取水稻葉片反射光譜特征參數和植被指數,采用隨機森林算法構建不同輸入量的SPAD高光譜估算模型。孫玉婷等[6]采用歸一化法對數據進行預處理,建立以葉色圖像RGB值為輸入參數、葉片SPAD值為輸出參數的支持向量機回歸模型。孫小香等[7]利用主成分分析對原始光譜數據進行降維,將得到的主成分作為輸入變量,分別應用逐步多元線性回歸分析法與支持向量回歸法構建葉片SPAD值的高光譜估算模型。李永梅等[8]對水稻葉片反射光譜及SPAD值與氮素含量進行相關分析,篩選診斷氮素含量的特征光譜并構建氮素估算模型。還有學者用高光譜技術對小麥、油菜、生菜和柑橘等其他作物開展研究[9?12],分別采用基線校正、多元散射校正、標準正態變換、Savitzky?Golay(SG)卷積平滑濾波和一階導數等預處理方法,分析比較線性回歸、偏最小二乘、支持向量機、BP神經網絡、隨機森林等模型預測作物葉片營養元素[13?18]。【本研究切入點】現有對水稻葉片SPAD值高光譜估測模型的研究僅采用一種或少數幾種方法進行數據預處理,采用基線校正、多元散射校正、標準正態變換等數據校正預處理方式及模型選取對水稻葉片SPAD值預測結果精度的影響及原因尚不清楚。【擬解決的關鍵問題】為比較不同預處理方法及模型選取對水稻葉片SPAD值預測模型精度的影響,本文選用7種預處理方法,結合偏最小二乘回歸(partial least squares regression,PLSR)、支持向量機回歸(support vector regression,SVR)以及隨機森林回歸(random forest regressor,RFR)3種回歸建模算法,建立水稻葉片SPAD值的高光譜預測模型,對比篩選預測水稻葉片SPAD值的最佳預處理方法和模型。
為使樣本間葉綠素含量產生明顯差異,本文設計了不同氮肥運籌田間試驗。試驗區位于江西省崇仁縣郭圩鄉,水稻栽培品種為晚稻泰優390,試驗設置8個不同肥料運籌試驗處理:(1)不施肥(對照)、(2)10?0?0?0(基肥?分蘗肥?穗肥?粒肥,下同)、(3)6?4?0?0、(4)4?3?2?1、(5)4?2?2?2、(6)4?1?4?1、(7)3?2?3?2、(8)2?3?4?1,各施肥處理間氮、磷、鉀總量相同(氮肥27.75 kg/hm2、磷肥35.25 kg/hm2、鉀肥21.00 kg/hm2)。每個處理設置3次重復,共24個試驗小區。分別于水稻分蘗期、抽穗期、灌漿期、成熟期等4個關鍵生育時期進行采樣,共獲取葉片光譜和葉片SPAD值96組。
水稻葉片光譜采用ASD FildSpec 4背掛型地物光譜儀和葉片夾進行測定。每個試驗小區取3株植株、每株選取5片劍葉,用葉片夾進行葉片光譜測定,每次測量前及時進行標準白板校正,每片葉片測定按照上、中、下不同位置(避開葉脈)進行采集,取5個光譜反射率平均值作為該點的光譜反射率,取葉片光譜反射率平均值作為該植株樣本的光譜反射率,3株的葉片反射率平均值作為該試驗小區的葉片反射率。共獲取葉片反射率數據96組。
研究表明水稻葉片綠色度(SPAD)值與葉綠素含量具有顯著的相關性[3],本文用SPAD值代表稻葉葉綠素含量,采用SPAD?502型手持式葉綠素儀測定SPAD值。每株水稻取5片稻葉,測定葉片中部的SPAD值,取均值作為該株葉片的SPAD值。每小區取3株水稻的SPAD值的平均值作為該小區的葉片SPAD值。共獲取葉片SPAD值96個。
本文選取基線校正、多元散射校正、標準正態變換、Savitzky?Golay平滑等數據校正算法對光譜進行預處理,方法如表1所示。經多次試驗,選取預測結果最佳的參數作為預處理方法的參數,預處理后樣本的平均光譜圖像如圖1所示。

表1 光譜數據的預處理方法Tab.1 Pre-processing method supplied to the spectral curves
本文選用偏最小二乘回歸(PLSR)、支持向量機回歸(SVR)以及隨機森林回歸(RFR)3種方法進行建模,模型的自變量為350~2 500 nm全波段光譜,因變量為SPAD值,依據決定系數R2、均方根誤差值(root means quare error,RMSE)及相對分析誤差(residual predictive deviation,RPD)來檢驗模型的精度與可靠性,篩選模型。
PLSR、SVR、RFR模型于Python3環境編譯實現,采用train_test_splitt()函數劃分訓練集和驗證集,驗證集數量為樣本數的25%,采用ShuffleSplit()函數進行隨機置換交叉驗證,份數K=10,采用Grid-SearchCV()函數選取最佳超參數[19]。

圖1 預處理后的光譜反射率Fig.1 Spectral reflectance after pre?processing
結合不同預處理方法,采用PLSR模型建立葉片SPAD值估測模型,其建模精度與預測精度如表2所示。建模集所有預處理方法中,最優預處理為BC法,決定系數R2為0.95、RMSE為8.27、RPD為4.67;驗證集所有預處理方法中,最優預處理也為SG+BC法,決定系數R2為0.82、RMSE為14.43、RPD為2.44。采用BC、SG、SG+BC、SG+SNV法均大幅提高了PLSR模型驗證集的決定系數R2,MSC、SNV、SG+MSC降低了驗證集的決定系數R2。圖2為PLSR高光譜模型預測SPAD值最佳結果(R2=0.82)。

表2 偏最小二乘回歸葉片SPAD值預測模型統計Tab.2 Statistics results for spectral models of SPAD value by PLSR
采用SVR模型,結合不同預處理方法建立水稻葉片SPAD值估測模型,其建模精度與預測精度如表3所示。訓練集所有預處理方法中,最優預處理為BC法,決定系數R2為0.98、RMSE為0.10、RPD為388.21;驗證集所有預處理方法中,最優預處理為SG+BC法,決定系數R2為0.86、RMSE為13.12、RPD為2.66。采用SG、SG+BC提高了SVR模型驗證集的決定系數R2。圖3為SVR高光譜模型預測SPAD值最佳結果(R2=0.86)。

圖2 PLSR模型預測SPAD與實測數驗證Fig.2 Result of validation between measured and predicted SPAD by using PLSR model

圖3 SVR模型預測SPAD與實測數驗證Fig.3 Result of validation between measured and predicted SPAD by using SVR model

表3 支持向量機回歸葉片SPAD值預測模型統計Tab.3 Statistics results for spectral models of SPAD value by SVR
采用RFR模型,結合不同預處理方法,建立葉片SPAD值估測模型,其建模精度與預測精度如表4所示。訓練集所有預處理方法建模處理后,預測精度最優的預處理方法為SG法,決定系數R2為0.96、RMSE為7.80、RPD為4.95;驗證集所有預處理方法建模后得到的決定系數R2平均系數為0.69,預測精度最優的預處理方法為SG+BC法,決定系數R2為0.87、RMSE為12.38、RPD為2.82。采用SG、SG+BC、SG+MSC、SG+SNV提高了RFR模型驗證集的決定系數R2。圖4為RFR高光譜模型預測SPAD值的最佳結果(R2=0.87)。

圖4 RFR模型預測SPAD與實測數驗證結果Fig.4 Result of validation between measured and predicted SPAD by using RFR model
與原始光譜數據建模結論相比較,提高了驗證集預測精度的預處理方法為有效預處理方法,有效預處理方法的模型平均預測精度如表5所示。由表2~表5結果可知,PLSR模型中,BC、SG、SG+BC、SG+SNV提高了驗證集模型精度,這4種預處理與原始光譜建模的平均決定系數R2為0.67、平均RMSE為19.24、平均RPD為1.90。SVR模型中,SG、SG+BC提高了驗證集模型精度2種,這2種預處理與原始光譜建模的平均決定系數R2為0.74、平均RMSE為17.28、平均RPD為2.11。RFR模型中,SG、SG+BC、SG+MSC、SG+SNV提高了驗證集模型精度,這4種預處理與原始光譜建模的平均決定系數R2為0.84、平均RMSE為13.70、平均RPD為2.59。RFR模型比SVR和PLSR模型的驗證集預測精度有明顯提高,訓練集的平均決定系數R2提高為0.06~0.15,平均RMSE降低為3.46~7.78,平均RPD提高為0.51~2.24;預測集的平均決定系數R2提高為0.04~0.17,平均RMSE降低為1.36~5.54,平均RPD提高為0.20~0.69。

表4 隨機森林回歸葉片SPAD值預測模型統計Tab.4 Statistics results for spectral models of SPAD value by RFR

表5 有效預處理方法的模型預測精度均值Tab.5 Mean result of SPAD value prediction model by pretreatment methods
本文計算了7種光譜預處理方法結合PLSR、SVR、RFR 3種模型預測水稻葉片SPAD值,目的是針對不同建模模型篩選合適的預處理方法。
在PLSR模型中,所選BC、SG、SG+BC、SG+SNV法預處理后提高了驗證集的模型精度。PLSR實質是基于多項式的線性回歸模型,除自變量和因變量本身的相關性外,其建模精度的影響因素主要是去除噪音或不相關因素的影響[20];BC預處理使得光譜曲線擁有的水平基線同時除光譜信號中的基線干擾信號(低頻噪音)[21?22];SG平滑預處理使光譜曲線更加平滑,消除了光譜曲線上的細小噪聲,在一定程度上可以提高信噪比[23];SNV的作用是將數據標準化,并將數據調整為標準正態分布,其作用主要是消除固體顆粒大小、表面散射以及光程變化對漫反射光譜的影響[[24?25]。單獨采用SNV預處理沒有提高模型預測精度,SG平滑預處理大幅提高了模型精度,所以SG+SNV也提升了模型精度。
在SVR模型中,SG、SG+BC預處理提高了驗證集的模型精度;單獨采用BC的訓練集決定系數R2達到0.95,卻沒有提高模型驗證集精度,說明單獨采用BC使SVR模型過擬合;SG+BC的精度提升,也是由于SG平滑預處理提高了驗證集的模型精度。BC、SG+MSC、SG+SNV預處理提升了訓練集的模型精度,降低了驗證集的精度,說明對于SVR模型,這些預處理可能會使模型出現過擬合現象,使得模型泛化效果不佳。
在RFR模型中,原始光譜的訓練集建模精度較高,驗證集建模精度較低,說明在數據未預處理的情況下,RFR模型會出現過擬合現象。SG及SG符合預處理均提高了RFR模型的驗證集建模精度,說明消除數據細小噪聲能明顯提高RFR模型精度。BC單項預處理提高了訓練集的建模精度但未提高驗證集合的精度,說明BC預處理可能會使RFR模型出現過擬合現象。
在所有預處理中,SG+BC均為最優預處理方法,說明儀器操作等原因導致信號不穩定的噪聲、背景細小噪聲和信號的低頻干擾,對于水稻葉片高光譜反演精度有重大的影響。
由表5可知,RFR模型優于SVR、PLSR模型的精度。PLSR能夠解決多變量和變量之間的多重相關性等問題,但在對數據進行主成分變換后會損失部分有效信息,且PLSR在解決非線性問題時表現能力較弱,本文采用高光譜特征參數作為輸入估算水稻葉片SPAD值,數據多重相關性小,需要采用非線性模型進行建模。RFR、SVR法能解決非線性問題,SVR對通過核函數來把數據從源空間映射到目標空間來處理非線性問題,但建模精度受模型參數設置的影響很大,需要做大量參數的調試;RFR法將性能較弱的多個分類回歸樹經過一定規則組合成一片森林,并通過森林中所有決策樹投票得出預測結果,RFR的參數設置對其建模精度較小,在多分類或回歸問題上,RFR的泛化能力顯著優于支持向量機[26],因此,在估測水稻SPAD值時,RFR有更為明顯的優勢,在實際應用中可為未來精準農業提供精準的運算模型。
本研究采用7種光譜預處理方法集合PLSR、SVR、RFR 3種建模方法預測水稻葉片SPAD值對比發現,采用不同光譜預處理方法和建模方法對建模的精度有如下影響:
(1)對于采用350~2 500 nm光譜數據作為自變量,SPAD值作為因變量,BC、SG、SG+BC、SG+SNV預處理提高PLSR模型驗證集建模精度,平均決定系數R2提高了0.21、平均RMSE降低了6.00,平均RPD提高了0.52;SG、SG+BC預處理提高了SVR模型驗證集建模精度,平均決定系數R2提高了0.10、平均RMSE降低了3.77,平均RPD提高了0.53;SG、SG+BC、SG+MSC、SG+SNV提高RFR模型驗證集建模精度,平均決定系數R2提高了0.23、平均RMSE降低了7.87,平均RPD提高了0.97。
(2)SG+BC預處理能提高PLSR、SVR、RFR模型建模精度,說明消除信號不穩定造成的噪聲、背景細小噪聲和低頻信號干擾對于提高水稻葉片SPAD值的高光譜反演精度有重要的作用。
(3)數據預處理后隨機森林回歸模型RFR模型精度最佳,驗證集的平均決定系數R2為0.84,RMSE為13.70,RPD為2.59,與PLSR與SVR兩種模型建模比較,驗證集R2提高為0.04~0.17,平均RMSE降低為1.36~5.54,平均RPD提高為0.20~0.69。
綜上所述,采用SG及其復合預處理方法處理光譜數據,可使隨機森林回歸模型估測稻葉SPAD值的精度最佳。SG預處理方法與隨機森林回歸模型結合使用,可作為高光譜估測稻葉SPAD值的參考方法。