王耀民,陳皓銳,陳俊英,2,王慧蕓,邢 正,張智韜,2
光譜指數篩選方法與統計回歸算法結合的水稻估產模型對比
王耀民1,陳皓銳3※,陳俊英1,2,王慧蕓1,邢 正1,張智韜1,2
(1. 西北農林科技大學水利與建筑工程學院,楊凌 712100; 2. 西北農林科技大學旱區農業水土工程教育部重點實驗室,楊凌 712100; 3. 中國水利水電科學研究院流域水循環模擬與調控國家重點實驗室,北京 100048)
為了探尋高效的水稻產量估算方法,在獲取2019年黑龍江省三江平原別拉洪河流域內水稻產量數據和MOD09A1遙感數據基礎上,對比不同指數篩選方法和統計回歸算法結合的建模估產效果,以得到其中最佳的產量估算模型。通過相關系數(correlation coefficient,)分析法、變量投影重要性(Variable Importance in Projection,VIP)分析法和袋外數據重要性(Out-Of-Bag data importance,OOB)分析法分析水稻4個生育期(分蘗期、抽穗期、孕穗期和乳熟期)的不同波段和光譜指數對于水稻產量的敏感性,篩選出特征波段和指數,再結合隨機森林(Random Forest,RF)、支持向量機(Support Vector Machine,SVM)和偏最小二乘(Partial Least Squares,PLS)3種統計回歸方法,構建了9種水稻產量估算模型:-RF、-SVM、-PLS、VIP-RF、VIP-SVM、VIP-PLS、OOB-RF、OOB-SVM、OOB-PLS。結果表明:同一指數篩選方法對不同模型的契合程度不同,OOB與RF更為契合,VIP和與PLS更為契合,與SVM更為契合;在3種建模方法中偏最小二乘模型和支持向量機模型有較好的效果,隨機森林模型效果最好,其中OOB-RF模型最優,其模型驗證決定系數為0.742,均方根誤差為206 kg/hm2。研究結果可為水稻產量估算模型研究提供參考,具有一定的理論意義。
遙感;產量;模型;水稻;支持向量機;指數篩選方法
區域農作物產量的準確估測能為農業管理部門的農業生產管理及國家的糧食政策提供有效依據,而水稻作為中國主要的糧食產物之一,其產量信息的大范圍快速、準確估測對糧食生產管理具有重大意義[1]。遙感具有覆蓋范圍大、重復周期短和較容易獲得的優點,在農作物的長勢監測和產量估算中已廣泛使用[2-3]。
現有的遙感估產方法大多是經驗統計模型,其原理是利用一個或者多個光譜參數與作物產量建立回歸關系進行估產[4-5]。早期研究多采用線性回歸方法,程乾[6]用各生育期和復合生育期的水稻歸一化植被指數(Normalized Difference Vegetation Index,NDVI)和增強植被指數(Enhanced Vegetation Index,EVI)與水稻產量構建了一元線性模型和多元線性模型,發現復合生育期的EVI指數與產量構建的估產模型效果較好。Ren等[7]在分析研究區NDVI和冬小麥產量的線性回歸關系的基礎上,利用逐步回歸方法建立了冬小麥的估產模型,模型決定系數達到了0.87,并且在小麥孕穗期就能較好地預測冬小麥產量。
但作物的生長及生物量的積累并不是一個線性的過程,而且線性模型指標單一并不能很好的反映作物的生長狀況[8]。近年來,學者們開始關注非線性的估產模型方法,如神經網絡[9-11]、支持向量機[12-14]、隨機森林[15-18]等。黎銳等[13]利用支持向量機回歸模型結合Landsat多時相遙感數據構建了冬小麥產量估算模型,并與多元回歸模型相比較,發現支持向量機回歸模型優于多元回歸模型。譚昌偉等[19]對比了偏最小二乘回歸算法、線性回歸算法和主成分分析算法建立的小麥估產模型,發現偏最小二乘法模型精度分別比其他兩種高20%和18%。Zeng等[20]運用偏最小二乘算法和人工神經網絡算法結合變量投影重要性分析指數篩選方法估算了葵花籽產量,發現篩選后的模型精度高于未篩選的,且人工神經網絡模型精度高于偏最小二乘模型。岳繼博等[15]利用3種指數篩選方法(相關系數分析法、袋外數據重要性、灰色關聯分析)對遙感指數進行排序,再結合隨機森林算法構建了3種冬小麥生物量估算模型,發現相關性分析法和袋外數據重要性指數篩選方法在使用少量參數時就能使模型達到較好的精度。楊北萍等[16]利用相關性分析、主成分分析和袋外數據變量重要性分析對特征變量進行篩選,結合隨機森林模型建立水稻估產模型,分析發現特征變量篩選后的隨機森林模型水稻估產精度更高,明顯優于多元逐步回歸模型。Shiu等[14]利用相關性分析篩選遙感變量,結合普通最小二乘、支持向量回歸和局部模型地理加權回歸構建了水稻產量估計模型,分析發現通過特征選擇,局部模型地理加權回歸模型的估產性能比普通最小二乘模型和支持向量回歸模型相對穩定。目前,研究學者利用機器學習算法估算作物產量、生物量等參數時,大多是將遙感變量直接作為自變量輸入模型或者只是單純使用變量篩選方法與機器模型結合。遙感估算作物產量,主要的技術思路是利用合適的遙感指標和統計回歸方法來建立模型,而不同的遙感指標和回歸算法建立的模型之間的精度差別較大,在進行建模估算作物產量的時候,需要先通過篩選合適的指標和統計回歸算法及其組合來確定最合適的建模方法。因此對比不同指數篩選方法與統計回歸模型算法的耦合建模效果,有助于提高產量估算模型精度。
本文基于MODIS多時相遙感數據,將相關系數、變量投影重要性(Variable Importance in Projection,VIP)和袋外數據重要性(Out-Of-Bag data importance,OOB)3種指數篩選方法,與偏最小二乘(Partial Least Squares,PLS)、隨機森林(Random Forest,RF)和支持向量機(Support Vector Machine,SVM)3種建模算法進行耦合,構建9種水稻估產模型,分析對比不同指數篩選方法與機器學習算法的契合程度,篩選出其中最優的水稻產量估算模型,以期為水稻及其他作物產量估算研究提供參考。
研究區位于黑龍江省佳木斯市別拉洪河灌區(47.2°~47.6° N,132.6°~133.4° E),地處三江平原,地勢平坦,面積約為105hm2,屬于溫帶濕潤、半濕潤大陸性季風氣候,雨熱同季,夏季溫暖,全年有2 400~2 500 h的日照時間,適合水稻等作物的種植生產(圖1)。

圖1 研究區示意圖及采樣點分布
1.2.1 遙感數據獲取
研究使用的遙感數據為美國NASA提供的MODIS免費數據中的MOD09A1產品,在NASA提供的Earthdata網站中下載(https://earthdata.nasa.gov/)。MOD09A1產品時間分辨率為8 d,空間分辨率為500 m,共包含7個波段的地表反射率。下載研究區(黑龍江三江平原別拉洪河灌區)水稻4個關鍵生育期(分蘗期、孕穗期、抽穗期和乳熟期)的遙感數據,圖像日序數分別為169、193、209、241。使用MRT(MODIS Reprojection Tool)軟件對圖像進行圖像拼接、波段提取、坐標系轉換和文件格式轉換,利用ENVI對圖像進行裁剪和采樣點像元亮度值提取。
本研究基于衛星光譜數據提取紅、綠、藍以及近紅外波段的光譜反射率信息,并計算了EVI、NDVI、SAVI、OSAVI、RVI等光譜指數用于建立水稻估產模型,具體計算公式如表1所示。
1.2.2 水稻產量測量
在研究區選取83個采樣點作為水稻產量測點,考慮到遙感影像的分辨率為500 m,精度偏低以及地面土地利用類型混雜,為提高采樣點的代表性,采樣點盡量在地面大面積純水稻分布處選取。采樣點通過手持式GPS定位儀獲得其經緯度位置。水稻成熟收獲期,在研究區以采樣點為中心的1/15 hm2地為該采樣點的測量單位,在地塊東南西北中5個方位各收割1 m2水稻,對收割的水稻進行脫粒、烘干、質量稱量,取平均數,得到該采樣點水稻單產數據。
衛星遙感監測水稻產量信息,需要對水稻種植結構進行識別。以500 m空間分辨率的MODIS數據為數據源,構建了陸地水分指數(Land Surface Water content Index,LSWI)、EVI、NDVI和RVI時間序列數據集并對其進行降噪處理,建立了水稻種植面積決策樹提取模型,提取了研究區水稻種植面積,得到空間分辨率為500 m、總體分類精度(正確分類像元數/總像元數)為86.4%的水稻空間分布圖。

表1 遙感變量及其計算公式
注:R、NIR、B、G為紅光、近紅外、藍光和綠光波段的光譜發射率值,下標= t、b、h、m,分別代表水稻分蘗期、孕穗期、抽穗期和乳熟期4個生育期;表示植被密度變化的參數,取值為0.5。
Note: WhereR,NIR,B,Gare spectral emissivity of red, near infrared, blue and green light bands, subscript= t, b, h, m represent four growth stages of rice, respectively, tillering stage, booting stage, heading stage and milk ripening stage;represents the parameter of vegetation density change, and its value is 0.5.
將研究區83個采樣點隨機選取2/3(56個)作為模型的建模集,另外1/3(27個)作為模型的驗證集。利用相關性分析法、變量投影重要性分析法和袋外數據重要性分析法篩選的指數作為自變量,以水稻實測產量作為因變量,再分別利用偏最小二乘、支持向量機和隨機森林3種回歸算法對其進行建模分析,從而獲得最佳的估產模型。3種機器學習模型算法均在R 4.0.2軟件中進行。
為減少噪聲數據對模型精度的影響,利用相關性、VIP和OOB分析法篩選出敏感波段指數,并對已篩選的波段指數從大到小排序。利用隨機森林、支持向量機和偏最小二乘模型分別與以上3種指數篩選方法的篩選排序結果建立水稻估產模型。第一次建模僅使用前兩組數據,第二次建模使用前三組數據,以此類推第次建模使用前+1組數據。
1.4.1指數篩選方法
1)相關系數分析
相關系數分析是對兩個以上的變量進行分析,衡量變量間的相關密切程度的方法[24]。元素之間必須要存在一定的聯系或者概率才能進行相關性分析,本研究采用相關性分析來評價水稻產量和遙感參數之間的相關程度,以篩選合適的光譜指數。選用皮爾遜相關系數作為相關性大小的衡量標準,的絕對值越接近1,證明兩個變量元素之間的相關性越大。相關性分析在IBM SPSS statistics 23軟件上完成。
2)變量投影重要性分析
VIP變量篩選法是一種基于偏最小二乘法的變量篩選方法[25]。VIP變量篩選法描述自變量對因變量的重要程度是通過主成分來傳遞的,其中自變量對其相關自變量所提取的主成分作用大,而主成分又對因變量有強的解釋能力,則可以認為該自變量對因變量的解釋能力 強[26-27]。用于評價變量投影重要性的值是VIP值,若是所有自變量對因變量解釋能力相同,則它們的VIP值都等于1,如果自變量VIP值小于1,則認為該自變量對因變量解釋能力不足[28]。本研究中VIP指數篩選分析在SIMCA-P 11.5上完成。
3)袋外數據重要性分析
OOB重要性分析是一種基于隨機森林算法的特征重要性評估方法[29]??梢杂么鈹祿斎胩卣鬟M行重要性評估,其原理是隨機改變某參數輸入,并計算所造成的估算誤差,根據誤差來計算此參數的重要性,重要性值越大表示改參數越重要[30]。本文以均方根誤差增加(increase in Mean Squared Error,IncMSE)來評價特征重要性,通過對每一個預測變量隨機賦值,如果該預測變量更為重要,那么其值被隨機替換后模型預測的誤差會增大,因此,IncMSE越大表示該變量越重要。袋外數據重要性分析在R 4.0.2軟件中完成。
1.4.2 統計回歸方法
1)偏最小二乘模型
偏最小二乘回歸模型是一種多元數據統計分析模型,與傳統多元最小二乘回歸模型相比,PLSR模型可較好地解決自變量之間存在的多重共線性問題,實現數據的降維、信息綜合與篩選,有效提取對系統解釋能力最強的綜合變量,排除無解釋作用的噪聲[31],因此在多光譜遙感模型中得到了廣泛的應用。本研究建模過程中采用留一驗證法(Leave One Out,LOO)從光譜數據中提取最佳主成分個數,獲得最優的模型參數[32]。
2)支持向量機模型
支持向量機回歸模型是根據內核統計學習理論,以結構風險最小化原則為基礎的一種新型機器學習方法,其特點是能夠解決小樣本、非線性和高維數據空間模式識別等問題[33]。在SVM中,核函數類型、懲罰參數、核參量等3個參數對建模精度有很大的影響。本研究中,核函數使用徑向基核函數(radial),用訓練集交叉驗證和網格搜索法(Grid search)進行參數尋優,按照均方差最小原則確定懲罰參數和核參量的值[34]。
3)隨機森林模型
隨機森林模型是一種基于多重決策樹理論的新型機器學習方法,主要針對系統分類、回歸等問題。RF模型可以辨識獨立變量和響應變量之間復雜的非線性關系,從而具有較高的準確率,且RF模型具有很好的抗噪聲能力,很難產生過擬合現象。因此,RF模型已經被證明是一種有效的回歸方法。本研究中,RF模型參數設置為:決策樹的數量(ntree)為500,變量子集(mtry)的大小和最小節點數(nodesize)都為5。
本文通過決定系數2、均方根誤差(Root Mean Squared Error,RMSE)和歸一化均方根誤差(Normalized Root Mean Squared Error,nRMSE)來評價模型的優劣,其中2越接近1,RMSE和nRMSE相對越小,說明估算結果的誤差越小,模型的效果越好。
將基于研究區水稻4個生育期(分蘗期、孕穗期、抽穗期和乳熟期)衛星遙感圖像建立的共36個遙感指標與水稻產量分別進行相關性分析、變量投影重要性分析和袋外數據重要性分析,結果如圖2所示。

注:IncMSE為均方根誤差增加。
Note:IncMSE is increase in mean squared error.
圖2 指數篩選排序圖
Fig.2 Index filter sort diagram
圖2a為水稻產量與各個遙感指數的相關系數絕對值排序圖。從圖中可以看出,抽穗期和乳熟期的遙感變量與產量相關性較高,分蘗期大多數遙感變量與產量的相關性都較低,其中SAVIh的相關性絕對值最高,達到了0.742,t的相關性絕對值最低,只有0.002。對變量的顯著性進行檢驗,顯著性達到0.01的指數有14個,排序從大到小依次為:SAVIh、EVIh、OSAVIh、NIRh、NDVIh、NIRm、SAVIm、EVIm、SAVIb、OSAVIb、EVIb、NIRb、RVIh、OSAVIm。VIP值的大小反應了自變量對因變量解釋作用的大小,從圖2b中可以看出排在前面的指數抽穗期占據較多,其中EVIh最高,達到了2.17,而分蘗期的指數的VIP值都較低。本研究選取VIP數值大于1的變量為特征變量,共有9個,將其從大到小排序,依次為:EVIh、SAVIh、OSAVIh、NIRh、NDVIh、NIRm、OSAVIb、SAVIb、SAVIm。圖2c是袋外數據重要性排序圖,從圖中可以看出,排序靠前的主要是抽穗期和乳熟期的遙感變量,排序靠后的大多為分蘗期和孕穗期的遙感變量,其中IncMSE值最大的是OSAVIh,最小的是SAVIt,本文篩選IncMSE值大于5的變量為OOB法篩選的敏感特征變量,共有9個,從大到小排序依次為OSAVIh、SAVIh、EVIh、NIRh、NDVIh、m、Greenm、RVIh、NIRm。
利用不同的統計回歸算法,分別對相關性分析、變量投影重要性分析和袋外數據重要性分析后得到的光譜指數進行估產回歸建模分析,結果見圖3。
圖3a為PLS模型建模結果。其中相關性分析法耦合偏最小二乘回歸模型共建模13次,VIP和OOB法建模8次。從圖中可以看出,3種變量篩選排序結果下,PLS模型驗證集的2和RMSE隨自變量個數增加的變化情況。其中-PLS模型,隨著相關性分析篩選排序的遙感變量增加,模型的估算精度先增加后減小再趨向穩定,在使用前7個變量(SAVIh、EVIh、OSAVIh、NIRh、NDVIh、NIRm、SAVIm)的時候模型2(0.655)最大、RMSE(256kg/hm2)最小,模型預測效果最好。VIP-PLS模型,隨著VIP法篩選排序的遙感變量的增加,模型估算效果先增大后減小,在使用VIP排序前7個遙感變量(EVIh、SAVIh、OSAVIh、NIRh、NDVIh、NIRm、OSAVIb)時模型2(0.66)最大,RMSE(254 kg/hm2)最小,模型效果達到最佳。OOB-PLS模型,隨著OOB法篩選排序的遙感變量的增加,模型估算效果先增大后趨向穩定,在使用OOB排序前8個遙感變量(OSAVIh、SAVIh、EVIh、NIRh、NDVIh、m、m、RVIh)時模型2(0.648)最大,RMSE(257 kg/hm2)最小,模型效果達到最佳。綜上所述,在3種特征變量篩選排序方法與偏最小二乘算法耦合建立回歸模型中,VIP方法與偏最小二乘算法的耦合效果最好。
圖3b為SVM回歸建模結果。可以看出3種變量篩選排序結果下,SVM模型驗證集的2和RMSE隨自變量個數增加的變化情況。-SVM模型,隨著相關性分析篩選排序的遙感變量增加,模型的估算效果先增加后減小,在使用前10個變量(SAVIh、EVIh、OSAVIh、NIRh、NDVIh、NIRm、SAVIm、EVIm、SAVIb、OSAVIb)時,模型2(0.71)最大,RMSE(214 kg/hm2)最小,模型估算效果最好。VIP-SVM模型,隨著VIP法篩選排序的遙感變量的增加,模型估算效果先增大后趨向穩定,在使用VIP排序前7個遙感變量(EVIh、SAVIh、OSAVIh、NIRh、NDVIh、NIRm、OSAVIb)時模型2(0.7)最大,RMSE(216 kg/hm2)最小,模型效果達到最佳。OOB-SVM模型,隨著OOB法篩選排序的遙感變量的增加,模型估算效果先增大后趨向穩定,在使用OOB排序前7個遙感變量(OSAVIh、SAVIh、EVIh、NIRh、NDVIh、Redm、m)時模型2(0.69)最大,RMSE(220 kg/hm2)最小,模型效果達到最佳。綜上所述,3種特征變量篩選排序方法與支持向量機算法耦合建立回歸模型時,估算精度十分接近,但是-VIP模型,在使用了6個遙感指數時,模型的估算精度已經高于OOB-SVM模型,因此VIP和相關系數分析法與支持向量機的耦合效果較好。
圖3c為RF回歸算法建模結果??梢钥闯觯?種變量篩選排序結果下,RF模型驗證集的2和RMSE隨自變量個數增加的變化情況。-RF模型,隨著相關性分析篩選排序的遙感變量增加,模型的估算效果先增加后趨向穩定,在使用前10個變量(SAVIh、EVIh、OSAVIh、NIRh、NDVIh、NIRm、SAVIm、EVIm、SAVIb、OSAVIb)的時候模型2(0.731)最大,RMSE(211 kg/hm2)最小,模型估算效果最好。VIP-SVM模型,隨著VIP法篩選排序的遙感變量的增加,模型估算效果整體呈先增大后趨向穩定,在使用VIP排序前7個遙感變量(EVIh、SAVIh、OSAVIh、NIRh、NDVIh、NIRm、OSAVIb)時模型2(0.73)最大,RMSE(210 kg/hm2)最小,模型效果達到最佳。OOB-SVM模型,隨著OOB法篩選排序的遙感變量的增加,模型估算效果先增大后減小再趨向穩定,在使用OOB排序前6個遙感變量(OSAVIh、SAVIh、EVIh、NIRh、NDVIh、m)時模型2(0.742)最大,RMSE(206 kg/hm2)最小,模型效果達到最佳。如上所述,3種特征變量篩選排序方法與隨機森林算法耦合建立回歸模型時,預測效果十分接近,決定系數都高于0.73,但是OOB-RF和VIP-RF只用了較少的遙感參數就達到了較好的預測效果,而OOB-RF的模型決定系數高于VIP-RF,因此OOB法與隨機森林的耦合效果最好。
在自變量不斷增加情況下,3種指數篩選方法與3種機器學習回歸算法耦合精度最高的模型如表2所示。

表2 模型綜合評價
注:nRMSE為歸一化均方根誤差。
Note: nRMSE is normalized root mean square error.
對比不同指數篩選模型與機器學習回歸算法耦合建模結果,可以看出隨機森林模型的估算效果最好,其次是支持向量機模型,最后是偏最小二乘模型。從表中可以看出,不同的指數篩選方法與模型的耦合效果不同。偏最小二乘回歸模型中,3種模型的產量估算效果相近。
-PLS和VIP-PLS在使用了7個遙感參數的情況下的估產效果略好于OOB-PLS使用了8個遙感參數的估產效果,可見相關系數分析法和變量投影重要性分析法與偏最小二乘回歸算法耦合建模的效果比袋外數據重要性分析法與偏最小二乘回歸建模好;支持向量機模型中,-SVM和VIP-SVM模型均在使用7個遙感指數的時候模型估算效果幾乎達到最好,可見相關系數分析和VIP法耦合支持向量機回歸算法的建模效果較好;隨機森林回歸模型中,OOB-RF模型的2最高,RMSE最低,且所用參數遙感僅為6個,可知袋外數據重要性分析法耦合隨機森林回歸算法建模較其他兩種篩選排序方法好。
基于OOB-RF模型對研究區水稻產量進行估算,結合研究區水稻空間分布圖繪制了水稻產量空間分布圖,如圖4所示。圖中研究區內白色部分為非水稻種植處,從圖中可以看出水稻產量大多處于6 500~6 700 kg/hm2,與2019年當地整體產量情況相符。其中水稻高產像元在研究區西部較為密集,研究區內空間上水稻產量出現的變化,可能與農戶的不同生產管理制度有關。

圖4 基于OOB-RF模型的水稻產量空間分布圖
本文采用水稻4個關鍵生育期的遙感指數作為自變量,分別使用相關性分析、VIP和OOB方法對指數進行篩選,結果表明對水稻產量敏感的指數主要分布在孕穗期、抽穗期和乳熟期,其中處于抽穗期的最多,主要是因為分蘗期處于生育前期,所得到的作物參數,難以預測水稻生育后期的長勢及生物量的積累,并且農民后期的生產管理也會影響作物最終的產量。從兩種指數篩選排序的結果可以看出,其中排序靠前的為抽穗期的遙感指數,排序靠后的為其他兩個生育期的指數,根據本文建模結果可以看出隨著指數的增加,多生育期指數加入建模,模型的效果有所提高,這說明多時相數據復合建模比單一時相的數據能更好的估算水稻產量,這與程乾[6]的研究一致。
本文利用3種不同的指數篩選方法耦合3種不同的機器學習方法建立-PLS,VIP-PLS,OOB-PLS,-SVM,VIP-SVM,OOB-SVM,-RF,VIP-RF,OOB-RF九種模型對水稻產量進行估算,發現不同的指數篩選方法與不同的統計回歸模型模型耦合建模效果不同,相關性分析指數篩選排序方法比VIP和OOB指數篩選排序方法與支持向量機模型更契合,VIP和相關性分析指數篩選排序方法比OOB指數篩選排序方法與偏最小二乘模型更契合,OOB指數篩選排序方法比相關性分析和VIP指數篩選排序方法更與隨機森林回歸模型更契合。這是因為不同的指數篩選方法其中的算法和模型算法的契合度不一樣,VIP方法與偏最小二乘回歸模型更加契合,是因為VIP法是一種基于偏最小二乘回歸的變量篩選方法,它通過相關自變量綜合的主成分來判斷自變量對應變量的解釋能力[27-28],而偏最小二乘回歸模型是利用自變量的主成分來進行回歸建模,VIP法篩選出的自變量的主成分對應變量解釋能力較強,有利于偏最小二乘回歸模型建模;OOB方法與隨機森林回歸模型契合,是因為OOB方法中對變量重要性判斷依據是根據變量在隨機森林回歸模型中參與建模的貢獻度來判斷的[31],岳繼博等[15]研究也發現OOB法與隨機森林模型耦合建模效果較好;相關系數分析法,作為一種常用的較為基礎的變量篩選分析方法,其具有較好的普適性,在與3種模型的結合中模型的精度都達到了較好的效果。
本研究使用的MODIS數據,空間分辨率為500 m,單個像元的覆蓋面積很大,許多像元中必然覆蓋著其他植被或者裸土,這導致許多像元的光譜反射率不能完全的反映水稻的生長狀態,因此遙感植被指數和光譜發射率與水稻產量相關性會較低。水稻的生長是個復雜的過程,其受生長環境和氣候條件的影響,本文因數據有限并未考慮其中。以上原因都會降低了模型的水稻產量估算精度。精確的作物估產模型應該考慮到作物本身的生長環境及氣象等因素,今后研究將加入這些因素并選擇高分辨率衛星數據以提高模型的估產效果。
本文基于MODIS光譜數據和水稻產量實測數據,利用相關系數、變量投影重要性和袋外數據重要性分析3種指數分析篩選方法分別耦合偏最小二乘算法、隨機森林算法和支持向量機算法構建了9種水稻估產模型,對比了不同指數篩選方法與統計回歸算法建模的耦合效果,得出了研究區水稻產量估算的最佳模型。本研究主要有以下結論:
1)在相關性分析法和變量投影重要性分析法分別耦合隨機森林、支持向量機和偏最小二乘法建立水稻估產模型中,支持向量機和隨機森林回歸模型均取得了良好的建模驗證精度,其中OOB-RF模型精度最高, 其模型驗證決定系數為0.742,均方根誤差為206 kg/hm2,歸一化均方根誤差為3.10%。
2)不同的指數分析篩選方法與回歸統計模型的契合程度不同。本研究中,對于支持向量機回歸算法而言,相關性分析法和變量投影重要性分析法比袋外數據重要性分析法更能提高模型的精度,其中-SVM和VIP-SVM的模型2達到0.7以上,而OOB-SVM的只有0.685,且-SVM和VIP-SVM的RMSE比OOB-SVM低;對于偏最小二乘回歸算法而言,變量投影重要性分析法和相關性分析法比袋外數據重要性分析法對模型精度提高作用大,其中-PLS和VIP-PLS在使用使用較少遙感參數的情況下模型2達到0.65以上,RMSE低于256 kg/hm2,而OOB-RF使用較多的遙感參數2僅為0.645,RMSE為265 kg/hm2;對于隨機森林回歸算法而言,袋外數據重要性分析比其他兩種指數篩選方法更加契合,OOB-RF在使用較少的遙感參數的情況下模型2達到0.742,RMSE為206 kg/hm2,而-RF和VIP-RF使用更多的遙感參數模型2分別為0.730和0.731,且RMSE都為211 kg/hm2,精度較OOB-RF低。
[1] 江東,王乃斌,楊小喚. 我國糧食作物衛星遙感估產的研究[J]. 自然雜志,1999(6):351-355.
Jiang Dong, Wang Naibin, Yang Xiaohuan. Study on forecasting of crop yield using satellite remote sensing in China[J]. Chinese Journal of Nature, 1999(6): 351-355. (in Chinese with English abstract)
[2] Wigneron J P, Combal B, Wegmuller U, et al. Estimation of microwave parameters of crops from radiometric measurements[J]. International Journal of Remote Sensing, 1996, 17(14): 2875-2880.
[3] 錢永蘭,侯英雨,延昊,等. 基于遙感的國外作物長勢監測與產量趨勢估計[J]. 農業工程學報,2012,28(13):166-171.
Qian Yonglan, Hou Yingyu, Yan Hao, et al. Global crop growth condition monitoring and yield trend prediction with remote sensing[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2012, 28(13): 166-171. (in Chinese with English abstract)
[4] 尚松浩,蔣磊,楊雨亭. 基于遙感的農業用水效率評價方法研究進展[J]. 農業機械學報,2015,46(10):81-92.
Shang Songhao, Jiang Lei, Yang Yuting. Review of remote sensing-based assessment method for irrigation and crop water use efficiency[J]. Transactions of the Chinese Society for Agricultural Machinery, 2015, 46(10): 81-92. (in Chinese with English abstract)
[5] 徐新剛,吳炳方,蒙繼華,等. 農作物單產遙感估算模型研究進展[J]. 農業工程學報,2008, 24(2):290-298.
Xu Xingang, Wu Bingfang, Meng Jihua, et al. Research advances in crop yield estimation models based on remote sensing[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2008, 24(2): 290-298. (in Chinese with English abstract)
[6] 程乾. 基于MOD13產品水稻遙感估產模型研究[J]. 農業工程學報,2006,22(3):79-83.
Cheng Qian. Models for rice yield estimation using remote sensing data of MODl3[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2006, 22(3): 79-83. (in Chinese with English abstract)
[7] Ren J, Chen Z, Zhou Q, et al. Regional yield estimation for winter wheat with MODIS-NDVI data in Shandong, China[J]. International Journal of Applied Earth Observation and Geoinformation, 2008, 10(4): 403-413.
[8] 朱再春,陳聯裙,張錦水,等. 基于信息擴散和關鍵期遙感數據的冬小麥估產模型[J]. 農業工程學報,2011,27(2):187-193.
Zhu Zaichun, Chen Lianqun, Zhang Jinshui, et al. Winter wheat yield estimation model based on information diffusion and remote sensing data at major growth stages[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2011, 27(2): 187-193. (in Chinese with English abstract)
[9] Schwalbert R A, Amado T, Corassa G, et al. Satellite-based soybean yield forecast: Integrating machine learning and weather data for improving crop yield prediction in southern Brazil[J]. Agricultural and Forest Meteorology, 2020, 284: 107886.
[10] Ji B, Sun Y, Yang S, et al. Artificial neural networks for rice yield prediction in mountainous regions[J]. The Journal of Agricultural Science, 2007, 145(3): 249-261.
[11] 周亮,慕號偉,馬海姣,等. 基于卷積神經網絡的中國北方冬小麥遙感估產[J]. 農業工程學報,2019, 35(15):119-128.
Zhou Liang, Mu Haowei, Ma Haijiao, et al. Remote sensing estimation on yield of winter wheat in North China based on convolutional neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(15): 119-128. (in Chinese with English abstract)
[12] 曾妍,王迪,趙小娟. 基于支持向量回歸的關中平原冬小麥估產研究[J]. 中國農業信息,2019,31(6):10-20.
Ceng Yan, Wang Di, Zhao Xiaojuan. Study on yield prediction of winter wheat in Guanzhong Plain based on SVR[J]. China Agricultural Informatics, 2019, 31(6): 10-20. (in Chinese with English abstract)
[13] 黎銳,李存軍,徐新剛, 等. 基于支持向量回歸(SVR)和多時相遙感數據的冬小麥估產[J]. 農業工程學報,2009,25(7):114-117.
Li Rui, Li Cunjun, Xu Xingang, et al. Winter wheat yield estimation based on support vector machine regression and multi-temporal remote sensing data[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2009, 25(7): 114-117. (in Chinese with English abstract)
[14] Shiu Y, Chuang Y. Yield estimation of paddy rice based on satellite imagery: Comparison of global and local regression models[J]. Remote Sensing, 2019, 11(2): 111.
[15] 岳繼博,楊貴軍,馮海寬. 基于隨機森林算法的冬小麥生物量遙感估算模型對比[J]. 農業工程學報,2016,32(18)::175-182.
Yue Jibo, Yang Guijun, Feng Haikuan. Comparative of remote sensing estimation models of winter wheat biomass based on random forest algorithm[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2016, 32(18): 175-182. (in Chinese with English abstract)
[16] 楊北萍,陳圣波,于海洋,等. 基于隨機森林回歸方法的水稻產量遙感估算[J]. 中國農業大學學報,2020,25(6):26-34.
Yang Beiping, Chen Shengbo , Yu Haiyang, et al. Remote sensing estimation of rice yield based on random forest regression methone[J]. Journal of China Agricultural University, 2020, 25(6): 26-34. (in Chinese with English abstract)
[17] Hunt M L., Blackburn G A, Carrasco L, et al. High resolution wheat yield mapping using Sentinel-2[J]. Remote Sensing of Environment, 2019, 233: 111410.
[18] Sakamoto T. Incorporating environmental variables into a MODIS-based crop yield estimation method for United States corn and soybeans through the use of a random forest regression algorithm[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2020, 160: 208-228.
[19] 譚昌偉,羅明,楊昕,等. 運用PLS算法由HJ-1A/1B遙感影像估測區域小麥實際單產[J]. 農業工程學報,2015,31(15):161-166.
Tan Changwei, Luo Ming, Yang Xin, et al. Remote sensing estimation of wheat practical yield on regional scale using partial least squares regression algorithm based on HJ-1A/1B images[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2015, 31(15): 161-166. (in Chinese with English abstract)
[20] Zeng W, Xu C, Gang Z, et al. Estimation of sunflower seed yield using partial least squares regression and artificial neural network models[J]. Pedosphere, 2018, 28(5): 764-774.
[21] Huete A R. A soil-adjusted vegetation index (SAVI)[J]. Remote Sensing of Environment, 1988, 25(3): 295-309.
[22] Rondeaux G, Steven M, Baret F. Optimization of soil-adjusted vegetation indices[J]. Remote Sensing of Environment, 1996, 55(2): 95-107.
[23] Priebe S, Huxley P, Knight S, et al. Application and results of the manchester short assessment of quality of life (Mansa)[J]. International Journal of Social Psychiatry, 1999, 45(1): 7-12.
[24] 趙德銀,張菁,王爽,等. 基于相關系數指標篩選法的油田集輸泵機組用能評價體系研究[J]. 數學的實踐與認識,2021,51(2):137-144.
Zhao Deyin, Zhang Jing, Wang Shuang, et al. Study on energy consumption evaluation system of oil field gathering pump unit based on correlation coefficient index screening method[J]. Mathematics in Practice and Theory, 2021, 51(2): 137-144. (in Chinese with English abstract)
[25] de Almeida M R, Correa D N, Rocha W F C, et al. Discrimination between authentic and counterfeit banknotes using Raman spectroscopy and PLS-DA with uncertainty estimation[J]. Microchemical Journal, 2013, 109: 170-177.
[26] Chavana-Bryant C, Malhi Y, Anastasiou A, et al. Leaf age effects on the spectral predictability of leaf traits in Amazonian canopy trees[J]. Science of the Total Environment, 2019, 666: 1301-1315.
[27] 張政,馮國雙. 變量投影重要性分析在自變量篩選中的應用[J]. 現代預防醫學,2012,39(22):5813-5815.
Zhang Zheng, Feng Guoshuang. Application of variable importance for projection in the variables selection[J], Modern Preventive Medicine, 2012, 39(22): 5813-5815. (in Chinese with English abstract)
[28] Xing Z, Chen J, Zhao X, et al. Quantitative estimation of wastewater quality parameters by hyperspectral band screening using GC, VIP and SPA[J]. PeerJ, 2019, 7: e8255.
[29] 方匡南,吳見彬,朱建平,等. 隨機森林方法研究綜述[J]. 統計與信息論壇,2011,26(3):32-38.
Fang Kuangnan, Wu Jianbin, Zhu Jianping, et al. A review of technologies on random forests[J], Statistics & Information Forum, 2011, 26(3): 32-38.(in Chinese with English abstract)
[30] 宋述芳,何入洋. 基于隨機森林的重要性測度指標體系[J]. 國防科技大學學報,2021,43(2):25-32.
Song Shufang, He Ruyang. Importance measure index system based on random forest[J]. Journal of National University of Defense Technology, 2021, 43(2): 25-32. (in Chinese with English abstract)
[31] Wold S, Sj?str?m M, Eriksson L. PLS-regression: A basic tool of chemometrics[J]. Chemometrics and Intelligent Laboratory Systems, 2001, 58(2): 109-130.
[32] 于雷,洪永勝,耿雷, 等. 基于偏最小二乘回歸的土壤有機質含量高光譜估算[J]. 農業工程學報,2015,31(14):103-109.
Yu Lei, Hong Yongsheng, Geng Lei, et al. Hyperspectral estimation of soil organic matter content based on partial least squaresregression[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2015, 31(14): 103-109. (in Chinese with English abstract)
[33] 王海峰. 基于高光譜遙感的土壤水鹽監測模型研究[D].楊凌:西北農林科技大學,2019.
Wang Haifeng. Hyperspectral Remote Sensing Based Models for Soil Moisture and Salinity Prediction[D]. Yangling: Northwest A&F University, 2019. (in Chinese with English abstract)
[34] Xiao Z, Li Y, Feng H. Modeling soil cation concentration and sodium adsorption ratio using observed diffuse reflectance spectra[J]. Canadian Journal of Soil Science, 2016, 96(4): 372-385.
Comparation of rice yield estimation model combining spectral index screening method and statistical regression algorithm
Wang Yaomin1, Chen Haorui3※, Chen Junying1,2, Wang Huiyun1, Xing Zheng1, Zhang Zhitao1,2
(1.712100,; 2.712100; 3.100048)
A crop yield is one of the most important parameters in agricultural production. An accurate estimation of regional crop yield can greatly contribute to agricultural production management and national food policy. However, only a few studies have been focused on the combined effects of different exponential screening and statistical regression at present, even though there are various models of crop yield estimation. In this study, a comparative investigation was performed on the three types of index screening and three regression models, in order to explore the coordinated effect of the estimation model for the rice yield. The influence mechanism was also proposed to achieve an optimal yield estimation model suitable for the local production conditions. An important rice-producing area, the Sanjiang Plain in the Heilongjiang Province of China was taken as the study area. The rice unit yield and MOD09A1 remote sensing data were collected in the Bielahong River basin of the study area in 2019. After preprocessing, a total of 36 remote sensing variables were obtained, where four original bands and five vegetation indices of rice at the four growth stages, including the tillering, booting, heading, and milk ripening stage. Subsequently, the remote sensing variables were screened for the high sensitivity to the rice yield using the correlation coefficient (), Variable Importance in Projection (VPI), and Out-Of-Bag (OOB) data importance analysis. After that, nine estimation models of rice yield were constructed to combine with the Random Forest (RF), Support Vector Machine (SVM), and Partial Least Squares (PLS) regression, such as the-RF,-SVM,-PLS, VIP-RF, VIP-SVM, VIP-PLS, OOB-RF, OOB-SVM, and OOB-PLS. Several experiments were carried out for each model. Thus, the best input data was achieved for the optimal model. The determination coefficient, Root Mean Square Error (RMSE), and normalized Root Mean Square Error (nRMSE) were also used to evaluate the model. The results showed that the same index screening was fitted the different models with different degrees, where the OOB was more suitable for RF, the VIP was more suitable forand PLS, and thewas more suitable for SVM. Specifically, the PLS and SVM model performed better in the three modelings, whereas, the RF model performed the best, among which the combined OOB-RF model was the best, with the model determination coefficient of 0.742, RMSE of 206 kg/hm2, and nRMSE of 3.10%. Therefore, the index screenings varied greatly with the regression, where the OOB-RF model presented the best yield estimation in the study area. This finding can provide a strong theoretical reference to integrate the exponential screening and regression for the rice yield estimation model.
remote sensing; yield; models; rice; support vector machine; exponential screening method
10.11975/j.issn.1002-6819.2021.21.024
S25
A
1002-6819(2021)-21-0208-09
王耀民,陳皓銳,陳俊英,等. 光譜指數篩選方法與統計回歸算法結合的水稻估產模型對比[J]. 農業工程學報,2021,37(21):208-216.doi:10.11975/j.issn.1002-6819.2021.21.024 http://www.tcsae.org
Wang Yaomin, Chen Haorui, Chen Junying, et al. Comparation of rice yield estimation model combining spectral index screening method and statistical regression algorithm[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(21): 208-216. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2021.21.024 http://www.tcsae.org
2021-06-22
2021-10-22
國家重點研發計劃課題(2019YFC0409203);國家自然科學基金(51779273);中國水利水電科學研究院技術創新團隊項目(ID0145B022021)
王耀民,研究方向為農業遙感研究與應用。Email:wangyaomin@nwafu.edu.cn
陳皓銳,博士,正高級工程師,研究方向為灌區水循環模擬與調控。Email:chenhr@iwhr.com