蘇騰飛 劉全明 蘇秀川



摘要:開展了基于多種植被指數(vegetation index,VI)時間序列和機器學習(machine learning,ML)算法的作物遙感分類研究。從Landsat-8 OLI與EO-1 ALI影像中提取了內蒙古五原縣的時間序列數據。2顆衛星的參數類似,且它們聯合提供了更多無云覆蓋的數據。7種常用的VI從時間序列遙感數據中提取出來,以用作ML算法的輸入。對比分析了SVM、RF、DT 3種ML算法對玉米、向日葵和小麥的區分效果。共選取了2 584個樣本,其中1 556個樣本用于算法訓練。得到了127種VI組合作為輸入時3種算法的分類精度。結果表明,SVM的分類效果優于另外2種算法;VI數目并非越多越好,綜合考慮算法的精度和穩定性,3種VI可以取得最佳的效果;SVM+NDI5+NDVI+TVI是平均分類精度最高的組合,平均精度為9197%。
關鍵詞:時間序列;植被指數(VI);機器學習(ML);作物分類;遙感
中圖分類號: S127文獻標志碼:
文章編號:1002-1302(2017)16-0219-06
[HJ14mm]
收稿日期:2016-04-03
基金項目:國家自然科學基金(編號:51569018)。
作者簡介:蘇騰飛(1987—),男,內蒙古呼和浩特人,碩士,實驗師,主要從事遙感影像分析算法的研究。E-mail:stf1987@126com。
通信作者:劉全明,博士,副教授,主要從事遙感測繪方法與應用的研究。E-mail:nndlqm@sinacom。
利用遙感影像開展農作物的識別具有重要意義[1-3]。隨著科學技術的發展,越來越多的遙感衛星可以實時提供大范圍的對地觀測影像,從而極大地減少了大面積農田監測的成本。從遙感影像中可以獲取農作物長勢信息,并用來估算糧食產量,這些信息都可以有效指導農業生產活動。農作物的識別是農業遙感的基礎研究內容。只有在準確獲取農作物種類的前提下,作物長勢、面積估計和產量預測才可以得到更準確的結果。另外,作物識別算法的研究還可以提高農業遙感監測的自動化程度,從而進一步減少農情監測的成本。
目前,世界上大多數發達國家都已經開展了基于遙感的作物識別研究。美國農業部早在20世紀70年代就利用Landsat衛星獲取的時間序列植被指數(vegetation index,VI)開展了全世界范圍的作物種類識別研究[4]。法國、加拿大等國家也都開展了類似的研究[5-6]。利用遙感影像識別作物種類,正向著業務化、智能化和自動化發展,其中包含了2個方面的重要內容:時間序列VI對于提高作物識別精度是非常必要的;采用合適的ML算法及其最優參數的選取是農作物成功識別的關鍵。
VI反映了植被對不同光譜波段的響應特征。對于不同種類的作物,由于其物候特征的差異,其VI時間序列會表現出不一樣的特點。因此,在農業遙感監測中,VI是重要的研究對象。Pea-Barragán等從ASTER時間序列數據中提取了12種VI,并結合紋理特征來構建作物分類算法。Zhong等利用3種VI的時間序列對美國Kansas州農田的玉米和大豆進行了識別[8]。Brown等利用從MODIS時間序列提取的2種VI數據,對巴西地區的棉花、大豆和玉米進行了識別[9]。Ozdogan也利用了2種VI,驗證了非監督分類算法在作物識別中的應用[10]。Sakamoto等開展了玉米和大豆的遙感分類研究,但他們僅利用了1種VI[11]。Yin等對比了AVHRR和SPOT提取的NDVI的差異,研究區域是內蒙古的農田[12]。Conrad等利用SPOT和ASTER提取的NDVI來識別烏茲別克斯坦農業灌區的作物種類。Duro等均采用了NDVI來進行作物識別研究[6,14-18]。在以上研究中,大多算法僅采用1種VI,采用多種VI的研究也很少評價不同VI對作物分類的效果。實際上,選取多種VI,考察不同VI對各類作物的識別效果,對于提高作物分類精度具有重要意義。
ML是業務化農業遙感監測的重要組成部分。近年來,多種ML監督算法被應用到作物分類中,例如最大似然[19]、神經網絡[20]、決策樹(DT)[3,6-7,9,14-15]、隨機森林(RF)[8]、支持向量機(SVM)等。盡管ML算法種類繁多,但其作物識別的一般步驟為:(1)樣本選擇,利用實測數據或其他數據源,與遙感影像進行匹配,得到樣本數據;(2)算法訓練,利用訓練樣本選擇最優參數;(3)算法驗證,利用更多的樣本數據驗證算法的性能。DT是應用較多的算法,Brown等利用DT對巴西地區的多種作物進行了區分[9]。Edlinger等也利用DT較好地識別了冬小麥[15]。Vieira等將DT和圖像分割技術相結合,利用Landsat影像對甘蔗進行了識別和提取[14]。Pea-Barragán等利用DT區分美國加利福尼亞州農田的13種作物。苗翠翠等利用DT開展了江蘇省水稻識別研究[21]。馬麗等開展了DT區分黑龍江地區水稻、大豆和玉米的研究[18]。其他算法在農田遙感分類中也具有較好的效果。Conrad等提出了一種類似DT的基于規則的農田分類算法。Zhong等利用RF和作物的物候特征,得到了較高的分類精度[8]。為了對比基于像素和基于對象圖像分類方法的優劣,Duro等采用了DT、RF、SVM 3種算法對加拿大地區的農田進行了分類。綜上所述,ML算法的輸入選擇是作物遙感分類的關鍵。本研究將不同VI組合作為輸入,對DT、RF、SVM 3種算法進行了作物分類精度評價,以分析不同VI、ML算法對作物識別精度的影響。
本研究利用Landsat-8和EO-1(Earth Observation-1)2種中高分辨率遙感衛星的時間序列數據,開展了內蒙古五原縣河套灌區的作物分類研究。五原縣是中國重要的向日葵產區,該縣向日葵產量占全國向日葵產量的十分之一。另外,五原縣還盛產小麥、玉米等糧食作物,是內蒙古重要的農業基地之一。因此,對該地區進行作物遙感分類研究是十分必要的。
1研究區域與數據
11研究區域
五原縣位于內蒙古河套平原腹地,屬中溫帶大陸性氣候。雖然當地的年均降水量僅有170 mm,但憑借黃河灌溉、日照條件和土壤肥沃的優勢,五原縣已成為內蒙古重要的商品糧基地。玉米、向日葵和小麥是五原縣3種主要的作物。五原縣有“葵花之鄉”的美譽,其向日葵年產量占全國的十分之一。近年來,隨著人們對經濟作物需求的提升,五原縣的向日葵種植面積逐年增大。五原縣的行政區劃如圖1所示,其中,灰色方框是本研究的研究區域,右側的衛星圖像是EO-1于2013年8月26日獲取。
12數據及其預處理
本研究采用的衛星數據由Landsat-8業務化陸地成像儀(operational land imager,OLI)和EO-1改進型陸地成像儀(advanced land imager,ALI)2種中高分辨率的遙感器提供。前者于2013年發射升空,繼續了Landsat系列衛星的對地觀測任務。后者于2000年投入使用,其參數與Landsat系列衛星相似。本研究所采用的所有衛星影像數據(包括2013年4—10月共計11景影像)均在美國地質調查局(USGS)官網免費下載(表1)。OLI和ALI的參數相似,并且具有類似的波段設置(表2)。另外,2種傳感器可以獲取更多無云覆蓋的數據,從而豐富VI時間序列,以提高作物識別的精度。
本研究的數據預處理主要包含3個步驟:輻射校正、全色銳[CM(25]化和地理配準。輻射校正由業務化的遙感數據處理軟件[CM)]
[FK(W13][HT6H][STHZ][WTHZ][JZ]表2ALI與OLI波段對應信息[WTBZ][HTSS][STBZ]
[BG(!][BHDFG3,WK52,WK23W]波段[ZB(][BHDWG12,WK92,WK14W]EO-1 ALILandsat8 OLI
[BHDWG12,WK4,WK52,WK10,WK4W][XXZS-ZSX9]波段名稱波長(nm)[XXZSX2-ZSX132]波段名稱波長(nm)[ZB)W]
[BHDG12,WK52ZQ0,WK4,WK52DW,WK10ZQ0,WK4DWW]可見光14416海岸帶氣溶膠(CA)4430
[BHDW]14848藍色(B)4826
25672綠色(G)5613
36600紅色(R)6546
近紅外(NIR)47900——
48656近紅外(NIR)8646
短波紅外512444——
(SWIR)51 6401短波紅外1(SWIR 1)1 6090
72 2257短波紅外2(SWIR 2)2 2010[HJ][BG)F]
注:“—”表示不存在該波段的數據。
ENV I 50完成,以得到反射率數據。由于OLI和ALI的全色數據分辨率不同(前者為15 m,后者為10 m),OLI數據在全色銳化后,將其重采樣為10 m分辨率,以保持2種數據空間分辨率的一致性。2種傳感器在不同的時間獲取數據時,其軌道信息略有差異,這使得時間序列影像中各個影像的地理位置略有偏差。為了糾正這些偏差,采用人工手動配準的方法選取影像中容易辨識的地物作為控制點,從源數據中截取研究區域的影像。經過目視解譯,所有數據在空間上的差異不超過1個像素。
2研究方法
21選用的VI
本研究共采用了7種常用的VI,其名稱和計算公式如表3所示,公式里R表示反射率,腳標代表波段。本研究共采用
的波段包括:紅外波段(NIR)、紅色波段(R)、綠色波段(G)、短波紅外1波段(SWIR1)。根據各個VI計算所用的波段,本研究將其大致分為3類:可見光-紅外、近紅外-短波紅外、可見光-短波紅外。NDI5與NDSVI都與植被含水量有關。McNairn等利用NDI5來觀測美國玉米田地收獲后植被殘留情況[23]。Qi等利用NDSVI從Landsat影像中提取植被枯萎的信息[24]。
注:RNIR、RR、RG、RSWIR1分別表示近紅外波段、紅色波段、綠色波段、短波紅外1波段的反射率。
NDVI是最常用的一種VI,EVI、GNDVI、RDVI均是在NDVI的基礎上發展的。其中EVI是一種優化的VI,它將更多的植被信號從背景信號中分離出來,并且進一步減少了大氣對反射率的影響[8]。其公式為
[JZ(]EVI=G×[SX(]RNIR-RRRNIR+C1RR-C2RB+L[SX)]。[JZ)][JY](1)
其中,RNIR、RR、RB分別表示近紅外、紅色、藍色波段的反射率;L是植被頂端覆蓋與背景的調節系數;C1和C2是氣溶膠系數;G為增益系數。根據文獻[8],本研究將L、C1、C2、G的值分別設置為1、6、75、25。
TVI可以表示植被吸收的輻射能量與紅色、綠色和近紅外波段反射率的關系[22]。其計算公式如下:
[JZ(]TVI=05[120(RNIR-RG)-200(RR-RG)]。[JZ)][JY](2)
其中,TVI表示三角植被指數;RNIR、RR、RG分別表示近紅外、紅色、綠色波段的反射率。
22樣本選取
在研究區域共選取了2 584個樣本點。用于訓練的樣本共計1 556個,其中玉米、向日葵和小麥各為575、491、490個。用于驗證的樣本為1 028個,玉米、向日葵、小麥分別是380、350、298個。在農田均一致的區域選擇樣本,以減少田間不同植被對分類的不良影響。在選擇樣本時主要參照了Google Earth高分辨率遙感影像的數據,并分析了樣本的NDVI時間序列變化趨勢以進一步提高樣本選擇的準確性。
23ML算法的訓練
本研究所采用的3種ML算法均是結合開源編程軟件OpenCV實現的。OpenCV封裝了豐富的ML算法,并可以與C++編程語言無縫連接,因此,用戶可以靈活地利用OpenCV來完成圖像分析、數據挖掘等工作。下面分別介紹3種算法的參數選取情況。
231SVM參數設置
OpenCV中集成的SVM算法源代碼是由國立臺灣大學的Hsu等編寫的,該模塊既可以用于數據的多類預測,也可以用于回歸和聚類分析[25]。SVM是一種基于核函數的方法,因此,需要首先確定所使用的核函數。文獻[25]指出,徑向基函數(radial base function,RBF)適用于大多數情況。經過本研究多次試驗,RBF的效果最佳。
基于RBF的SVM需要調節2個重要的參數:C和σ。本研究采用了k重交叉驗證的方法來確定不同VI組合作為輸入時的最佳參數設置,k重交叉驗證可以有效避免過擬合。文獻[26]指出k為10對于ML算法的對比研究是足夠的,因此,本研究的k值為10。經過交叉驗證后得到的參數是最優化的。
232RF參數設置
RF分類器是由若干DT組成的,它可以高效地進行高維數據分類。近年來的一些研究表明,RF算法在某些應用中的性能優于DT、神經網絡和最大似然等方法[8]。值得一提的是,該算法不需要交叉驗證的方法來訓練參數,它本身提供了一種out-of-bag(OOB)的參數確定方法,它可以無偏估計出最優參數。
除了OOB確定的參數外,RF需要2個人為調試的參數:DT的數目NDT和預測變量數目mtry。經過多次試驗,本研究將NDT設置為500,更大的數值不僅不會顯著提升算法精度,還會極大地增加算法的計算量。mtry一般設置為[KF(]p[,其中p是輸入向量的維度。
233DT參數設置
DT算法應用廣泛,其優勢是可以得到一個分類器的樹形表現,從而幫助用戶直觀地理解分類器的工作過程。本研究DT分類器的構建采用了10重交叉驗證的訓練方法。DT最重要的參數是樹的最大深度Dmax。其值越大,經過訓練所得的DT越復雜,并且精度也越高,但分類計算所需時間更長。相反,較小的Dmax可以得到更簡單的DT,其精度較低。經過多次試驗,本研究將其設置為25時,效果最佳。
3結果與分析
本節分析了不同VI組合作為輸入時的分類結果。在進行精度評價時,計算了不同情況分類結果的混淆矩陣和總精度。本研究共采用了7種VI,所以采用1種VI時有C71=7種情況,依次類推,本研究共考察了C71+C72+C73+C74+C75+C76+C77=127種VI組合的情況。對于每一種情況,試驗流程都是先利用訓練樣本對ML算法進行訓練,然后再利用驗證樣本得到分類精度。
31單一VI的分類結果
首先考察了7種VI各自作為輸入時的分類精度,以確定作物分類中最佳和最差的VI。由圖2可知,除NDSVI外的其他6種VI,SVM都好于另外2種算法。DT的精度都高于RF。NDSVI的分類精度最低,3種ML算法的精度均低于81%,并且所有結果中RF+NDSVI的精度是最低的(7374%)。SVM+EVI的精度最高(9543%),SVM+NDVI次之(9494%)。EVI、GNDVI、NDVI、RDVI、TVI的精度均較高,且對于不同的算法,其精度存在差異;對于TVI,3種算法的差異最小,且精度都在91%以上,是平均精度最高的VI。
由圖2可知,NDSVI的分類效果最差,盡管最高精度是SVM+EVI獲得的,但TVI的分類效果最佳;對于單一VI輸入的情況,RF的效果最差,SVM的效果最好。
32VI組合的分類結果
本節分析了不同VI組合時的分類效果。按照輸入VI的數目,共分7種情況。圖3至圖5分別展示了SVM、RF、DT在不同VI輸入數目時的分類精度。有趣的是,3種算法的分類結果表現出的規律不一致。
由圖3可知,對于SVM,其最高精度隨著輸入VI數目的增加而下降;平均精度則先略微上升后下降,在VI數目為3時達到最大值;最低精度在VI數目為1時最低,在3時最高。由圖4可知,RF的最高精度在VI數目為4時最高,在7時最低;其平均精度在4時最高;RF的最低精度在VI數目為3時最低,隨后隨著VI數目的增大而升高。由圖5可知,DT的最高精度在VI數目小于7時均高于90%,而在VI數目為7時低于80%;其平均精度隨著VI數目的增大而降低;其最低精度先降低隨后上升,當VI數目為3時最低。3種算法中的最高精度是RF在VI數目為4時得到的(9630%),對應的VI組合是NDI5+NDVI+RDVI+TVI;最低精度也是RF產生的,在VI數目為3時得到(7053%),其VI組合是EVI+NDI5+TVI。
由于VI數目為7的組合只有1種,因此未計算其分類精度標準差。分類精度標準差表示了不同算法在不同VI數目時的穩定性,其值越小,說明算法的穩定性越好。由圖6可知,3種算法在VI數為1時的標準差均大于5%;隨著VI數目的增加,SVM的標準差逐漸減小,DT則先增大后減小,而RF無明顯規律。因此,SVM的穩定性最佳;RF在VI數目大于2時的穩定性優于DT。
由表4至表6可知,除了VI數目為1時,3種算法的最差VI組合均為NDSVI外,其他情況下3種算法各自的最佳和最差VI組合都不一樣。這說明在分類過程中,不同VI組合在3種分類器中的貢獻是存在較大差異的。
綜上所述,VI數目并非越大越好,3種分類器對不同VI組合的分類效果具有較大的差異;綜合考慮分類精度和穩定性,SVM在選用3種VI時的性能相對最佳,其平均分類精度最高(9197%),且標準差小于2%。
33生產者精度與用戶精度
生產者精度(producers accuracy,PA)和用戶精度(users accuracy,UA)都是針對某一類別來計算的。PA可以衡量把某一類別分為其他類別的出錯率,而UA能夠描述把其他類分為某一類的錯誤。PA和UA可以用于分析分類結果中各個類別的分類效果。
由圖7可知,玉米的PA、向日葵的UA均比小麥的低。這說明3種算法均在玉米和向日葵的分類上效果較差,且3種算法都易將玉米錯分為向日葵。對于SVM和DT,玉米的PA和向日葵的UA都隨著VI數目的增加而降低,DT的這個
規律更為明顯,這表明DT更易混淆這2種類別,且隨著VI數目的增加,這種混淆更嚴重。RF也明顯存在著將玉米分為向日葵的錯誤,但它與VI數目關系不大。
玉米和向日葵容易被混淆,與其生長規律有關。在五原縣,小麥的收獲季節一般在夏季7月中下旬,而玉米和向日葵的收獲期都在9月底至10月初。作物的物候特征差異越明顯,基于VI時間序列的分類效果就越好。
綜上所述,SVM對玉米和向日葵的區分效果最好,且VI數目在低于4時,算法的精度最好,玉米的PA和向日葵的UA均高于80%。
4結論
本研究開展了基于VI時間序列和ML算法的作物遙感分類研究。從2013年的Landsat-8 OLI與EO-1 ALI影像中提取了內蒙古五原縣的時間序列數據,2顆衛星保證了更多無云覆蓋的數據可以被用于本研究。7種常用的VI從時間序列遙感數據中提取出來。3種廣泛應用的ML算法:SVM、RF、DT被用于區分玉米、向日葵和小麥。
本研究共考察了127種VI組合作為輸入時3種算法的分類精度。試驗結果表明,SVM的精度要優于另外2種算法;輸入算法的VI數目并非越大越好,綜合考慮算法的精度和穩定性,選用3種VI可以取得最佳的效果;SVM+NDI5+NDVI+TVI是平均分類精度最高的組合。
參考文獻:
田振坤,傅鶯鶯,劉素紅,等 基于無人機低空遙感的農作物快速分類方法[J] 農業工程學報,2013,29(7):109-116
游炯,裴志遠,徐振宇,等 水稻遙感識別偏差修正的地統計學方法[J] 農業工程學報,2013,29(21):126-136
[3]劉曉娜,封志明,姜魯光 基于決策樹分類的橡膠林地遙感識別[J] 農業工程學報,2013,29(24):163-172
[4]Roy D P,Wulder M A,Loveland T R,et al Landsat-8:science and product vision for terrestrial global change research[J] Remote Sensing of Environment,2014,145(4):154-172
[5]Claverie M,Demarez V,Duchemin B,et al Maize and sunflower biomass estimation in southwest France using high spatial and temporal resolution remote sensing data[J] Remote Sensing of Environment,2012,124(9):844-857
[6]Duro D C,Franklin S E,Dubé M G A comparison of pixel-based and object-based image analysis with selected machine learning algorithms for the classification of agricultural landscapes using SPOT-5 HRG imagery[J] Remote Sensing of Environment,2012,118(6):259-272
[7]Pea-Barragán J M,Ngugi M K,Plant R E,et al Object-based crop identification using multiple vegetation indices,textural features and crop phenology[J] Remote Sensing of Environment,2011,115(6):1301-1316
[8]Zhong L H,Gong P,Biging G S Efficient corn and soybean mapping with temporal extendability:a multi-year experiment using Landsat imagery[J] Remote Sensing of Environment,2014,140(1):1-13
[9]Brown J C,Kastens J H,Coutinho A C,et al Classifying multiyear agricultural land use data from Mato Grosso using time-series MODIS vegetation index data[J] Remote Sensing of Environment,2013,130(3):39-50
[10]Ozdogan M The spatial distribution of crop types from MODIS data:temporal unmixing using independent component analysis[J] Remote Sensing of Environment,2010,114(6):1190-1204
[11]Sakamoto T,Wardlow B D,Gitelson A A,et al A Two-step filtering approach for detecting maize and soybean phenology with time-series MODIS data[J] Remote Sensing of Environment,2010,114(10):2146-2159
[12]Yin H,Udelhoven T,Fensholt R,et al How normalized difference vegetation index (NDVI) trends from advanced very high resolution radiometer (AVHRR) and systeme probatoire dobservation de la terre VEGETATION (SPOT VGT) time series differ in agricultural areas:an inner mongolian case study[J] Remote Sensing,2012,4(11):3364-3389
[13]Conrad C,Fritsch S,Zeidler J A,et al Per-Field irrigated crop classification in arid central Asia using SPOT and ASTER data[J] Remote Sensing,2010,2(4):1035-1056
[14]Vieira M A,Formaggio A R,Rennó C D,et al Object based image analysis and data mining applied to a remotely sensed Landsat time-series to map sugarcane over large areas[J] Remote Sensing of Environment,2012,123(8):553-562
[15]Edlinger J,Conrad C,Lamers J P A,et al Reconstructing the spatio-temporal development of irrigation systems in Uzbekistan using Landsat time series[J] Remote Sensing,2012,4(12):3972-3994
[16]姜曉劍,劉小軍,田永超,等 基于遙感影像的作物生長監測系統的設計與實現[J] 農業工程學報,2010,26(3):156-162
[17]范磊,程永政,王來剛,等 基于多尺度分割的面向對象分類方法提取冬小麥種植面積[J] 中國農業資源與區劃,2010,31(6):44-51
[18]馬麗,徐新剛,賈建華,等 利用多時相 TM 影像進行作物分類方法[J] 農業工程學報,2008,24(增刊2):191-195
[19]Gao Y,Masa J F,Maathuis B H P,et al Comparison of pixel-based and object-oriented image classification approaches—a case study in a coal fire area,Wuda,Inner Mongolia,China[J] International Journal of Remote Sensing,2006,27(18):4039-4055
[20]駱成鳳,劉正軍,王長耀,等 基于遺傳算法優化的BP神經網絡遙感數據土地覆蓋分類[J] 農業工程學報,2006,22(12):133-137,后插1
[21]苗翠翠,江南,彭世揆,等 基于NDVI時序數據的水稻種植面積遙感監測分析——以江蘇省為例[J] 地球信息科學學報,2011,13(2):273-280
[22]Broge N H,Leblanc E Comparing prediction power and stability of broadband and hyperspectral vegetation indices for estimation of green leaf area index and canopy chlorophyll density[J] Remote Sensing of Environment,2001,76(2):156-172
[23]Mcnairn H,Protz R Mapping corn residues cover on agricultural fields in Oxford County,Ontario,using thematic mapper[J] Canadian Journal of Remote Sensing,1993,19(2):152-159
[24]Qi J,Marsett R,Heilman P,et al RANGES improves satellite-based information and land cover assessments in southwest United States[J] Eos Transactions of the American Geophysical Union,2002,83(51):601-606
[25]Hsu C,Chang C,Lin C A practical guide to support vector classification[EB/OL] (2010-04-15)[2016-04-02] http://wwwcsientuedutw/-cjlin
[26]Kohavi R A study of cross-validation and bootstrap for accuracy estimation and model selection[EB/OL] (1995-06-15)