符欣彤,常慶瑞,張佑銘,張子娟,鄭智康,李 鎧
(1.西北農(nóng)林科技大學資源環(huán)境學院,陜西 楊凌 712100;2.中國農(nóng)業(yè)科學院農(nóng)田灌溉研究所,河南 新鄉(xiāng) 453002)
中國是全球主要的獼猴桃栽培和出口國之一[1]。秦嶺北麓和渭河河谷平原是我國獼猴桃優(yōu)勢產(chǎn)區(qū),獼猴桃產(chǎn)業(yè)為當?shù)亟?jīng)濟發(fā)展做出巨大貢獻。葉綠素作為植物光合作用的必要物質,其含量與植物營養(yǎng)和健康狀態(tài)高度相關,是監(jiān)測植物生長狀況的重要指標[2]。因此,快速獲取獼猴桃葉片葉綠素含量(Leaf chlorophyll content, LCC)對及時調整和優(yōu)化獼猴桃栽培管理具有重要意義。
近年來,高光譜技術以其快速、有效、無損監(jiān)測的優(yōu)勢在植物葉綠素含量估測方面得到廣泛應用[3-5]。目前,國內(nèi)外學者對植物葉綠素含量的高光譜估算研究主要集中在兩個方面:一方面是以原始光譜及各種變換光譜篩選的特征波段作為自變量建立估測模型。如Yamashita等[6]利用不同氮營養(yǎng)條件下的高光譜特征波段建立了高性能綠茶葉綠素含量估算模型;Guo等[7]建立了基于一階微分光譜特征波段的煙草LCC估算模型;郭松等[8]研究了不同變換光譜的特征波段與玉米葉綠素含量之間的相關關系。另一方面是利用光譜指數(shù)進行葉綠素含量估算。何桂芳等[9]發(fā)現(xiàn)利用比值植被指數(shù)建立的模型精度最高,可以實現(xiàn)石楠LCC的準確估算;Cui等[10]發(fā)現(xiàn)紅邊葉綠素吸收指數(shù)/三角植被指數(shù)對小麥葉綠素含量的反演性能最好;彭曉偉等[11]通過分析不同植被指數(shù)與葉綠素含量的相關性,構建了谷子葉綠素含量估測模型。可見基于高光譜反射率信息的作物葉綠素含量估算研究已較為成熟,但研究對象主要集中在小麥[12]、玉米[13]、水稻[14]、棉花[15]等大田作物,針對經(jīng)濟樹木,尤其是獼猴桃樹的研究相對較少。同時,大多數(shù)研究都是基于單一模型,很難全面反映葉綠素含量的變化特點,容易出現(xiàn)估測精度不高、泛化性能不佳等問題[2]。神經(jīng)網(wǎng)絡和決策樹等傳統(tǒng)機器學習模型擬合精度與參數(shù)設置密切相關,往往訓練集效果較好,但測試集表現(xiàn)欠佳[16]。Stacking集成學習策略通過將多個弱學習器集成強學習器來提高模型的準確性和魯棒性[17],在柑橘葉片氮含量估算[18]、夏玉米覆蓋度估測[19]、苜蓿產(chǎn)量估算[20]等研究中表現(xiàn)較好。
本研究以秦嶺北麓國家楊凌農(nóng)業(yè)高新技術產(chǎn)業(yè)示范區(qū)獼猴桃為對象,通過分析獼猴桃葉片葉綠素含量(LCC)與各高光譜參數(shù)間的相關性,篩選模型的輸入特征,集成隨機森林、極限梯度提升樹等5種學習器,構建基于Stacking集成學習的獼猴桃LCC估算模型,并與其他單一模型進行對比,以驗證模型有效性,旨在實現(xiàn)對獼猴桃LCC的準確估算,進而為獼猴桃生長信息的快速獲取和果園精細化管理提供技術支持。
試驗區(qū)位于陜西省楊凌農(nóng)業(yè)高新技術產(chǎn)業(yè)示范區(qū)五泉鎮(zhèn)蔣家寨村(108°01′20″E,34°18′11″N),地處秦嶺北麓渭河河谷平原。該地區(qū)地形平坦,土壤肥沃,海拔高度535~560 m,屬于暖溫帶半濕潤大陸性季風氣候。年平均溫度12.9℃,年均降水量 635.1 mm,年均日照時數(shù)2 163.8 h,具有夏熱多雨、冬寒干燥、春暖多風等明顯的大陸性季風氣候特征,適宜獼猴桃種植。
采樣時間為2021年8月14日,此時正值獼猴桃壯果期。在試驗區(qū)選取栽植年限超過15 a的健康無病害獼猴桃園8個,果樹品種均為‘徐香’。每個獼猴桃園選取10株健康果樹作為樣點,每個樣點分別采集不同方位、不同長勢的5片健康葉片,80個樣點共400片。葉片采集后迅速用密封袋封裝,放置在保鮮箱內(nèi),運回實驗室進行光譜反射率與葉綠素含量測定。
1.2.1 葉片高光譜反射率測定 獼猴桃葉片高光譜反射率采用便攜式非成像地物光譜儀SVC HR-1024i(Spectra Vista公司,美國)測定,光譜探測范圍為350~2 500 nm,其中350~1 000、1 000~1 850、1 850~2 500 nm光譜分辨率分別為3.5、9.5 nm和6.5 nm。為保證試驗的科學性和數(shù)據(jù)的可靠性,光譜測定前進行多次白板校正,直到校正結果穩(wěn)定,并用紙巾將葉片擦拭干凈,不附著泥土、灰塵等雜質。按照編號依次將葉片平整置于葉片夾上,從葉柄至葉尖分段選擇3個部位各測量2次(避開葉脈),每個葉片均可獲得6條高光譜反射率曲線,每個樣本5個葉片共獲得30條高光譜反射率數(shù)據(jù),取其平均值作為該樣點葉片的最終高光譜數(shù)據(jù)。
1.2.2 葉綠素含量測定 采用分光光度計法測定光合色素含量,將光譜采集后的葉片洗凈,避開葉脈,選取中間部分剪成碎條,每個樣本0.2 g加入95%濃度乙醇,置于暗處浸提48 h至葉片發(fā)白,過濾,25 ml定容。用分光光度計分別測定470、649、665 nm波長的吸光度,再依據(jù)公式[21]計算葉綠素含量(mg·g-1)。
1.3.1 光譜數(shù)據(jù)處理 葉片色素對光譜反射率的影響主要集中在可見光范圍,所以本研究以380~1 000 nm范圍的高光譜反射率數(shù)據(jù)為基礎進行獼猴桃LCC估算。首先,利用光譜儀自帶軟件對高光譜數(shù)據(jù)重采樣到1 nm;然后利用SG濾波法(Savitzky golay filter)對重采樣后的高光譜數(shù)據(jù)進行平滑處理,SG濾波與其他光譜平滑方法相比,能更有效地保留光譜的變化信息;最后對平滑后的光譜進行一階導數(shù)變換,得到獼猴桃葉片一階導數(shù)光譜。
1.3.2 光譜參數(shù)選取 為削弱環(huán)境因素的影響,常采用特征波段、三邊參數(shù)和植被指數(shù)等光譜參數(shù)描述作物的光譜響應特征。首先分析獼猴桃葉片原始光譜反射率與LCC之間的相關性,選取相關關系滿足顯著性檢驗(P<0.001)的敏感區(qū)域作為輸入量,LCC作為響應量,以RMSE最小為原則,通過編程實現(xiàn)連續(xù)投影算法(Successive projections algorithm, SPA),從敏感區(qū)域中篩選出特征波段。SPA是一種新興的降維方法,實現(xiàn)光譜大幅度降維的同時能夠保證特征波段之間共線性最小,近年來其在作物高光譜信息的研究中應用廣泛[22]。
不同波段光譜反射率以加、減、乘、除等運算構建的光譜指數(shù)具有降低背景噪聲干擾、突出植物生長特征的優(yōu)點。本研究主要從兩個方面選取光譜指數(shù),一是在前人研究基礎上選取了與LCC相關性較好的傳統(tǒng)光譜指數(shù);二是利用Matlab軟件構建了一階導數(shù)光譜敏感區(qū)域內(nèi)任意兩波段組合的3類優(yōu)化光譜指數(shù),即比值(RSI′)、差值(DSI′)、歸一化(NDSI′)光譜指數(shù),并計算這3類優(yōu)化光譜指數(shù)與獼猴桃LCC間的相關系數(shù)(r),根據(jù)r最大原則,篩選基于各波段組合的優(yōu)化光譜指數(shù)進行研究。本研究所選擇的11類傳統(tǒng)光譜指數(shù)和構建的3類優(yōu)化光譜指數(shù)見表1。

表1 光譜指數(shù)及其計算公式或定義
Stacking是一種通過元模型將多個基模型進行組合的集成算法,本質是一種并行結構的多層學習系統(tǒng),其學習框架有初級學習器和次級學習器兩級,在訓練階段,次級學習器由初級學習器產(chǎn)生[19]。Stacking集成學習對模型的魯棒性和泛化能力有顯著提高,由于Stacking模型最終效果受到基模型的影響,因此基模型應有較好的學習能力,且各基模型間相互獨立。
本研究選擇隨機森林(Random forest, RF)、極限梯度提升樹(Extreme gradient boosting, Xgboost)、K-近鄰(K-nearest neighbor, KNN)、LightGBM算法(Light gradient boosting machine, LightGBM)和嶺回歸(Ridge regression, RR)為基模型,以線性回歸(Linear regression, LR)為元模型構建獼猴桃LCC估算模型。RF是通過集成學習的思路將多棵樹集成的一種算法,基本單元是決策樹,具有高度并行化和泛化能力強的優(yōu)勢。Xgboost是Boosting算法的一種實現(xiàn)方式,適用于回歸和分類,優(yōu)點是支持自定義損失函數(shù),從而減小訓練過程中目標值和真實值之間的偏差。KNN算法的基本思想是找出一個樣本的K個最近鄰居,通過計算其屬性的平均值得到估算結果,該算法有成熟的理論和廣泛的應用。相比于其他Boosting算法,LightGBM增加了梯度單邊采樣(GOSS)和互斥特征綁定(EFB),可以在小樣本情況下獲得高精度預測結果。RR常用于處理多重共線性問題,是對普通最小二乘法的深化,通過改變正則化項系數(shù)來控制減少特征變量系數(shù)的程度,從而避免過擬合。
基于Stacking集成學習的獼猴桃LCC估算模型構建過程如圖1所示,具體步驟如下:
(1)將獼猴桃葉片高光譜特征數(shù)據(jù)集劃分為原始訓練集M和測試集T,按照五折交叉驗證將訓練集樣本隨機分為5個子集(M1、M2、M3、M4、M5)。

圖1 Stacking集成學習算法構建
(2)選擇一種基模型進行訓練,利用M2、M3、M4、M5中樣本建立模型,對M1和T中樣本進行預測,得到M1的預測值x1和T的預測值y1。
(3)利用M1、M3、M4、M5中樣本建立模型,對M2和T中樣本進行預測,得到M2的預測值x2和T的預測值y2。以此類推,得到訓練集樣本M的預測結果X1(由x1、x2、x3、x4、x5合并得到),測試集T的預測結果Y1(由y1、y2、y3、y4、y5取均值得到)。
(4)選擇其他基模型,重復步驟(2)、(3),分別得到M的預測結果X2、X3、X4、X5和T的預測結果Y2、Y3、Y4、Y5。
(5)將第一層得到的結果合并,獲得新的訓練集X={X1,X2,X3,X4,X5}和新的測試集Y={Y1,Y2,Y3,Y4,Y5}。將X和Y作為元模型的輸入特征,進行第二層模型的訓練,最終得到獼猴桃LCC的估測結果,實現(xiàn)對基模型學習能力的綜合。
本研究數(shù)據(jù)處理及建模在Excel 2016、Matlab 2019b和Pyhton 3.7中完成,為緩解小樣本的過擬合問題,采用網(wǎng)格搜索和5折交叉驗證訓練模型,模型網(wǎng)格搜索結果見表2。
分別采用決定系數(shù)(R2)、均方根誤差(RMSE)、平均絕對誤差(MAE)和相對預測偏差(RPD)共4個指標對預測模型進行評價,R2越接近1,RMSE和MAE越小,說明模型擬合程度越優(yōu),模型越準確。RPD能衡量模型估算值和實際值之間的偏差程度,當RPD<1.5時,認為模型不具備預測能力;當1.5≤RPD<2.0時,模型只能對樣本進行粗略估計;當2.0≤RPD<2.5時,模型預測結果較好;當2.5≤RPD<3.0時,模型預測結果很好;當RPD≥3.0時,模型具有極好的預測能力[23]。

2.1.1 獼猴桃LCC特征 采用分層抽樣將2021年獼猴桃壯果期80個樣本按照3∶1劃分為訓練集60個樣本和測試集20個樣本。獼猴桃LCC全部、訓練和測試樣本的基本統(tǒng)計值如表3所示。訓練集獼猴桃LCC最大值為4.12 mg·g-1,最小值為0.33 mg·g-1,平均值為2.14 mg·g-1,變異系數(shù)為47.19%;測試集獼猴桃LCC最大值為3.97 mg·g-1,最小值為0.40 mg·g-1,平均值為2.11 mg·g-1,變異系數(shù)為47.86%。統(tǒng)計結果表明試驗樣本葉綠素含量有較高離散程度,可作為開展葉綠素含量變化及光譜響應研究的素材。

表2 各模型主要參數(shù)網(wǎng)格搜索結果

表3 獼猴桃LCC統(tǒng)計描述
2.1.2 獼猴桃葉片光譜特征 選取樣本中葉綠素含量最小值、最大值和中位數(shù)所對應的獼猴桃葉片高光譜反射率曲線,分析其變化特征(圖2)。由圖2可以看出,不同葉綠素含量的獼猴桃葉片高光譜反射率曲線變化趨勢基本一致,可見光波段光譜反射率較低,紅外波段反射率較高,呈現(xiàn)“一峰兩谷一平臺”的特點。由于葉綠素具有吸收紅藍光、反射綠光的特性,高光譜反射率在綠光波段550 nm附近形成反射峰,在藍光波段440 nm附近和紅光波段660 nm附近出現(xiàn)2個反射谷,與一般綠色植被光譜特征相符。680 nm以后,高光譜反射率迅速攀升,并在近紅外波段(780~1 000 nm)形成高反射區(qū)段,這主要是葉片細胞對近紅外輻射的強烈反射所致。不同葉綠素含量的葉片高光譜反射率存在明顯差異,在可見光波段(380~780 nm),高光譜反射率隨葉綠素含量的增加而降低,葉綠素含量分別為0.33、1.84 mg·g-1和4.12 mg·g-1時,對應的高光譜反射率歸一化均值分別為0.369、0.210、0.158,相較于最小值分別有43.22%和57.24%的降幅。在近紅外波段(780~1 000 nm),高光譜反射率則隨葉綠素含量的增加而升高,3種葉綠素含量對應的高光譜反射率歸一化均值中,較最小值的增幅分別為8.96%和11.93%。
2.2.1 葉片高光譜反射率與LCC相關性 獼猴桃葉片原始光譜(OS)和一階導數(shù)光譜(FD)反射率與LCC的相關性如圖3所示。獼猴桃葉片原始光譜反射率與LCC在380~759 nm波段負相關,其中波段380~745 nm通過0.001相關性檢驗,敏感波段數(shù)量為366個;在708 nm波段相關性最高,相關系數(shù)為-0.869。760~1 000 nm波段,原始光譜反射率與LCC表現(xiàn)為正相關,相關性有所降低,僅有14個波段極顯著(P<0.001),集中分布在969~982 nm波段,相關系數(shù)最高為0.364(976 nm)。總體而言,可見光波段獼猴桃葉片光譜反射率受色素含量影響較大,而近紅外波段受含水量等情況影響,其相關性低于可見光波段。
一階導數(shù)光譜通過相關性檢驗(P<0.001)的敏感波段有519個,除409 nm(相關系數(shù)-0.369)外,其余集中分布在438~553、556~671、674~707、711~931、962~975 nm和978~994 nm波段,最大正、負相關系數(shù)分別為0.914(754 nm)和-0.908(530 nm)。一階導數(shù)光譜的敏感波段數(shù)量和相關系數(shù)絕對值均大于原始光譜,表明一階導數(shù)光譜可突出光譜特征信息,提高數(shù)據(jù)利用率。

圖2 不同葉綠素含量的獼猴桃葉片高光譜反射率曲線
2.2.2 葉片高光譜參數(shù)與LCC相關性 在相關性分析篩選出的敏感區(qū)域內(nèi),利用連續(xù)投影算法提取原始光譜對獼猴桃LCC的特征波段。從380~745 nm和969~982 nm包含的380個波段中,優(yōu)選出5個特征波段,分別為533、565、697、705 nm和715 nm。

圖3 不同類型光譜反射率與葉綠素含量關系


表4 獼猴桃LCC與高光譜參數(shù)的相關性
將選取的高光譜參數(shù)作為RF、Xgboost、KNN、LightGBM和RR的輸入變量,構建基模型。以LR為元模型,將各基模型的估測結果作為輸入特征,構建Stacking集成模型。各模型估測結果見表5。
由表5可知,各模型建模精度均較高,訓練集和測試集R2分別在0.840和0.730以上。在測試集中,Stacking集成模型表現(xiàn)最佳,R2為0.807,MAE和RMSE分別為0.334和0.136;與RF、Xgboost、KNN、LightGBM和RR相比,其R2平均提高約0.036,MAE和RMSE平均降低0.046和0.316。同時,Stacking模型的RPD值最大(7.443),遠高于其他模型,說明該模型具有極好的預測能力。圖4為各模型測試集獼猴桃LCC實測值與估算值的擬合圖,其中虛線為1∶1線,實線為擬合線,擬合方程斜率越接近1,截距越接近0,說明模型效果越好。由圖4可知,各模型均存在不同程度的低值高估、高值低估現(xiàn)象,這可能是由于獼猴桃LCC低值與高值的樣本較少,使得訓練樣本包含的信息不全面所致。其中Stacking模型擬合方程的斜率(0.7563)最接近1,截距(0.4015)最接近0,說明該模型能夠在一定程度上改善模型低值高估和高值低估情況。綜合來看,Stacking模型能夠綜合基模型優(yōu)點,提高模型的魯棒性和泛化能力,是進行獼猴桃LCC估算的最優(yōu)模型。

表5 單一模型與Stacking模型對比

表6 其他模型與Stacking模型對比
此外,為了證明Stacking集成模型的估算效果優(yōu)于其他單一模型,試驗還對支持向量回歸(Support vector regression, SVR)、自適應增強(Adaptive boosting, Adaboost)和決策樹進行訓練。由表6可知,在測試集中,相較于SVR、Adaboost和決策樹模型,Stacking集成模型的R2分別提高了0.006、0.044和0.077,平均提高約0.042;MAE分別降低了0.045、0.034和0.064,平均降低約0.048;RMSE分別降低了0.360、0.370和0.392,平均降低約0.375;RPD分別提高了5.412、5.452和5.534,平均提高約5.465。即相比于其他集成策略模型和常用機器學習模型,Stacking模型的擬合能力和預測精度均有所提升,預測結果較好。
葉綠素是植物光合作用所需的重要物質,其含量直接影響植物的正常生長發(fā)育,因此快速、準確地獲取葉綠素含量具有重要價值[24]。本研究表明,獼猴桃葉片光譜反射率在藍光波段440 nm和紅光波段660 nm附近形成反射谷,這主要是由于葉片需要吸收紅藍光進行光合作用,而紅外線不易產(chǎn)生光合作用,因此在紅外波段出現(xiàn)高反射平臺,與一般綠色植被光譜特征相符[25]。連續(xù)投影算法能夠消除光譜數(shù)據(jù)的共線性,減少信息冗余。本研究在相關分析的基礎上,利用連續(xù)投影算法對原始光譜進行特征波段提取,最終從380~1 000 nm范圍內(nèi)包含的621個波段中篩選出5個特征波段,實現(xiàn)了光譜數(shù)據(jù)大幅度降維,但與前人篩選波段數(shù)量和位置不一致[26],可能是研究對象不同所致。
光譜變換可以削弱光譜的背景噪聲,提高數(shù)據(jù)精度,一階導數(shù)變換是常見光譜變換方法之一。本研究表明,一階導數(shù)光譜較原始光譜與獼猴桃LCC相關性更高,敏感波段數(shù)量更多,說明一階導數(shù)變換能更好地突出光譜特征,這與姚霞等[27]、郭松等[8]和王玉娜等[5]研究結果一致。本研究基于一階導數(shù)光譜敏感波段構建的3類優(yōu)化光譜指數(shù)與獼猴桃LCC的相關系數(shù)均高于0.93,加之前人研究表明基于一階導數(shù)光譜構建的光譜指數(shù)在植物理化參數(shù)估算方面表現(xiàn)較好[28],因此本研究構建的3類優(yōu)化光譜指數(shù)作為模型的輸入特征是可行的。但是,本研究僅進行了一階導數(shù)變換,未能全面捕捉獼猴桃葉片高光譜反射率的特征信息,未來研究可嘗試多種光譜變換方法。
目前,Stacking集成策略已應用于植物生長監(jiān)測領域[18-20],但利用Stacking算法估算獼猴桃LCC的研究尚不多見。本研究集成5種學習器,構建了基于Stacking集成學習的獼猴桃LCC估算模型,結果證明Stacking集成模型的性能優(yōu)于單一模型,這與前人研究結果一致。張宏鳴等[19]基于Stacking集成學習建立了夏玉米覆蓋度估測模型,R2可達0.95;Feng等[20]利用Stacking方法對苜蓿產(chǎn)量進行估算,模型精度在各條件下均有提升;陳志君等[29]研究表明Stacking集成策略在模擬膜下滴灌玉米的蒸散量和作物系數(shù)方面表現(xiàn)較好,R2分別為0.90和0.89。本研究及相關研究均表明Stacking算法能在植物理化參數(shù)估算中提高模型估測精度和泛化能力,但集成效果受基模型學習能力的影響。已有研究表明不同基模型組合的Stacking集成算法預測結果有一定差異[30],因此后續(xù)研究可對更高性能的基模型組合進行探索。
本研究僅反映了秦嶺北麓壯果期獼猴桃情況,今后還需探索該方法對其他生育時期是否具有普適性;同時,冠層尺度高光譜反射率信息和獼猴桃LCC的關系亦有待深入研究。
1)不同葉綠素含量的獼猴桃葉片光譜反射率變化趨勢基本一致,但在可見光波段(380~780 nm),高光譜反射率隨葉綠素含量的增加而降低;在近紅外波段(780~1 000 nm),高光譜反射率則隨葉綠素含量的增加而升高。基于相關性分析和連續(xù)投影算法篩選出的原始光譜特征波段分別為533、565、697、705 nm和715 nm。
2)選取的11個傳統(tǒng)光譜指數(shù)和構建的3類優(yōu)化光譜指數(shù)與獼猴桃LCC均有良好的相關性,除紅邊面積和土壤調節(jié)指數(shù)(P<0.005)外,其余均通過0.001相關性檢驗。3類優(yōu)化光譜指數(shù)與獼猴桃LCC的相關性極好,相關系數(shù)均高于0.930。傳統(tǒng)光譜指數(shù)中與獼猴桃LCC相關性最高的是紅邊位置,相關系數(shù)為0.914。
3)與單一模型相比,Stacking集成模型估測精度更高,相對預測偏差(RPD=7.443)明顯高于其他模型,具有極好的預測能力,可作為估算獼猴桃LCC的新方法。