劉 杰,劉吉凱,安晶晶,章 超
(1.淮河流域氣象中心,安徽 合肥 230031;2.安徽省氣象臺,安徽 合肥 230031;3.安徽科技學院資源與環境學院,安徽 鳳陽 233100)
作物類別識別是農業遙感應用的重要方向,是農業精細化管理、農情監測的基礎[1-2]。傳統的作物信息獲取主要以行政部門的地面抽樣為主,費時費力,數據獲取量少、分布離散,在國家、州、省等區域尺度推廣應用的時效性差[3-4]。隨著農業遙感技術的深入發展,基于不同分辨率的遙感影像可以快速、無損、實時地獲取全球、區域、局部范圍內的作物信息,對糧食估產、作物監測、作物生長周期模擬等研究具有重要意義[2-7]。
作物類別識別研究中,除原始影像的光譜特征被利用最多外,由影像波段經線性或非線性變換而來的植被指數能有效增加作物信息識別的效率,是農業遙感研究中至關重要的特征參數[2,8,10-11]。此外,研究表明作物的紋理特征作為影像空間特征的局部表示,對于作物類別及耕作方式等較為敏感,在作物精細分類中的應用日益深入[11-14]。
在中等分辨率層面(一般其空間分辨率在10~250m范圍內),作物類別識別常用的方法主要是基于像元的分類方法,如最大似然法、支持向量機和決策樹分類方法,它們簡單易行、高效快捷,且精度有一定的保障,是目前國家級或區域級農情遙感監測業務化平臺中的常見方法[1-5,11-12]。隨著大量遙感衛星的發射,已經組建起完整的農業遙感觀測系統[2,4-5,15],可用于作物類別識別的分類特征呈現出高維、異源、海量等特點,使得傳統分類方法在數據處理效率、多源特征組合、數據深度挖掘等方面日益難以滿足業務化運行的需求[2,8-9,13-15]。最近幾年機器學習算法迅速發展,在處理多維復雜數據時展現出了更好的精度和效率。例如,神經網絡[2,16-17]、決策樹[2,7,10-12,15]、隨機森林[9,13-15,18]、支持向量機[2,8,15-16]等。其中隨機森林(Random Forest, RF)是一種具有優秀性能的集成學習算法,被廣泛應用于復雜遙感數據集的分析處理[9,13-15,18-19]。
本文選擇多時相Landsat 8 OLI數據提取研究區時序光譜特征、紋理特征、植被指數等信息,利用隨機森林算法對分類特征進行降維以節約計算資源,獲取最優參數與特征子集后對研究區農作物實現精細分類。同時評估基于隨機森林多時相多特征類型的分類算法對農田作物的辨別能力,為農業遙感的進一步研究提供依據。
研究區主要位于新疆維吾爾自治區阿克蘇地區溫宿縣西南部(見圖1),屬典型的大陸性氣候。區域內土地肥沃、水源豐富、光照充足、無霜期長,適宜各類農作物生長,是國家重要的商品糧、商品棉基地。

圖1 研究區2015年8月14日Landsat 8 OLI標準假彩色 合成衛星影像(a)及其在新疆阿克蘇地區的地理位置(b) Fig.1 The Landsat 8 OLI false color image of study area on 14 August 2015 (a) and the location of study area in Aksu, Xinjiang (b)
通過對縣域實地調查,研究區內農作物類型多樣,種植復雜,物候期高度重疊。主要種植的農作物有水稻、棉花、春玉米和冬小麥等,主要的林果種類為棗樹、核桃、蘋果、香梨、葡萄等。
研究區屬大陸干旱半干旱性氣候區,在農作物生長周期內(4—11月)的光學影像主要受沙塵影響。本文經篩選后共獲取2014—2015年生長季的7景無云、無沙塵影響的Landsat 8業務化陸地成像儀(operational land imager, OLI)數據,成像時間分別為2015年3月23日、4月24日、5月26日、7月13日、8月14日、9月15日和10月17日,格式為L1T,多光譜空間分辨率為30 m,下載至USGS[20]。對所獲取的多時相多光譜數據使用ENVI5.5軟件分別進行了輻射定標、FLAASH大氣校正、幾何配準(雙線性內插,幾何誤差小于0.5個像元)處理,投影選擇為UTM(44N)/WGS-84。
結合研究區野外實測數據、Google Earth高分辨率影像目視解譯結果,將研究區分為棉花、小麥、玉米、水稻、香梨、核桃、蘋果、葡萄、棗樹、林地、草地、水域、沙地、戈壁和建筑共15個類別。野外實測主要是采用手持GPS儀獲取農作物的解譯樣本標志,人工目視解譯主要在高分Google Earth影像上根據實測解譯標志勾繪研究區內的主要地物類別,利用ENVI5.5軟件將矢量化結果轉換至OLI影像,共選取了667754個像元點,按7∶3隨機分為訓練樣本和驗證樣本。
冉清桓后來說:“但是我活著回來了。說句實話,我掉下去的時候其實沒想到能活著,但是我盡力……如今我仍然不知前途怎么樣,但是我仍然盡力,將來,便可以無怨無悔了。”
植被指數(vegetable indices, VIs),作為地表植被特征的重要表征參數,在植被長勢、生物量、結構信息等應用中具有重要意義[2,8,10-11]。本文在波段反射率基礎上提取16種常用于農作物信息識別的植被指數[21-23]。
紋理特征能夠彌補基于像元光譜分類的不足,可以突出作物細節信息,是作物分類識別的常用特征之一[12-14]。本文對波段影像進行主成分變換,利用變換后的第一主成分(principal component analysis 1, PCA1)替代原始影像基于灰度共生矩陣(gray level co-occurrence matrix, GLCM)的方法進行紋理特征提取。
綜上所述,本文根據研究區內主要農作物的波段反射率、植被指數特征和紋理特征共217個特征(見表1),利用隨機森林方法根據特征重要性選取最佳分類特征子集,并實現最優特征集支持下的農作物精細分類識別。

表1 參與分類的所有特征
2001年,美國科學家Breiman提出了一種稱為隨機森林(RF)的新型分類算法[19]。它由多棵CART決策樹分類器構成,能夠高效處理多維特征的數據集,并具有準確性高、模型穩定等優點[9,13,18]。RF通過k次Bootstrap隨機有放回抽樣,每次隨機抽取約2/3的原始數據建立單棵決策樹,形成k棵樹組成的隨機森林。在每棵樹節點分裂時再從M維的特征向量中隨機選擇m(m≤M)個參與,最終通過所有樹的統計投票,決定最可能的分類結果[18-19]。
1.4.1 隨機森林的關鍵參數 在構建隨機森林時,樹的個數k和節點分裂特征個數m是影響模型精度與運行效率的最重要的兩個參數[13,18-19]。一般來講,隨著決策樹個數k的增加,模型泛化誤差有效降低,但計算效率下降;節點分裂特征個數m決定單棵決策樹分類能力,并影響樹之間的相關性。本文使用Python Scikit-learn庫實現隨機森林的構建,以另外的約1/3未被抽中的袋外數據(out-of-bag)計算OOB誤差(oob_error)和驗證數據計算的誤差(test_error)作為評價依據,綜合考慮模型效率和精度,選擇最優參數k和m獲取分類結果[18-19,21]。
1.4.2 隨機森林的特征重要性 在隨機森林中,特征的有效增加能提高分類精度,但高維度的特征互相之間可能具有相似性,繼而對模型分類能力貢獻少,并影響計算效率。因此,篩選各特征變量對模型的影響非常重要。

本文以歸一化重要性評分作為指標,客觀評價各個分類特征的重要程度,并在試驗中逐步減少輸入特征維度,在保證模型分類性能和效率的基礎上探索最好的特征子集,達到降維目的。
在提取了研究區217個特征后,構建不同k和m參數下的隨機森林模型,利用oob_error和test_error作為評價判斷標準,測試關鍵參數k(值的范圍1~1 000)和m(值的范圍1~30)對模型的影響。如圖2所示,隨著k值的增加,模型精度均有所提高,特別是少于100棵樹,還未形成“森林”時精度提升明顯。但在數目超過100棵后,oob_error和test_error兩種誤差均緩慢收斂并趨于穩定。以m=16的模型為例,當k從1增加到100,oob_error從68.85%下降到6.67%,test_error從15.72%下降到6.35%;k從100增大到1 000,oob_error僅從6.67%下降到6.18%,test_error僅從6.35%下降到6.21%。因此,本文認為樹的數量能有效提高隨機森林分類精度,但在超過100以后,模型對樹的增加變得不那么敏感,分類模型趨于穩定。

圖2 樹的個數k、節點隨機分裂特征數m與oob_error (a)、test_error (b)的關系Fig.2 Relationship between the accuracy of out of bag dataset (a) or test dataset (b) and the number of trees (k) and number of random split variables (m)
節點隨機分裂的特征數m的增加也可以有效降低模型誤差,但是相比參數k影響較小。m在小于5時,模型精度提升相對明顯;在m大于15以后模型精度提升幅度很小,特別是當樹的數量大于100后,m超過10時模型就已基本穩定。
為平衡模型的穩定、精度與效率,需要選取適當的參數k和m。本文選取了k=200、m=10參數下的模型用于進一步的最優特征子集篩選研究。
在獲取217個特征變量重要性評分的基礎上,選擇隨機森林分類模型的最優特征子集,該子集可使模型分類精度的降低最小,以實現降維的目的。圖3展示了隨著信息量最少特征的逐漸去除,分類的Kappa系數與總體精度隨之變化的關系。當所有特征參與建模時,分類的(刪減0%)Kappa系數為0.926、總體精度為0.935。在刪減特征變量不超過30%時,隨機森林模型的分類能力基本維持不變,Kappa

圖3 隨機分類模型精度隨特征刪減比的變化關系Fig.3 The effect of variable reduction on classification accuracies
系數在0.925左右,總體精度在0.935左右。當刪減在30%至70%區間內,隨著特征數的減少,模型的分類精度緩慢下滑。在刪減超過70%以后,分類精度下降的幅度迅速加快,特別是在刪減超過90%后模型的Kappa系數和總體精度均近直線快速下降。當僅保留歸一化重要性評分最高的10個特征時,模型的分類能力仍然令人滿意,Kappa系數和總體精度分別為0.842和0.861。經對比分析,本文選取了161個特征(約刪減26%)作為隨機森林模型的最優特征子集,該子集分類的總體精度為0.935,Kappa系數為0.926。
2.3.1 分類結果的混淆矩陣分析 經2.2節的分析與對比,本文選取由161個特征構成的最優特征子集利用隨機森林實現分類,分類結果如圖4(e)。分類結果的精度評價采用混淆矩陣的方式,利用未參與建模的30%,200326個像元建立精度評價矩陣表(見表2)。對研究區內的9種作物,分類精度最高的是棉花,用戶精度和生產精度分別為0.902和0.925,其次為水稻(用戶精度和生產精度分別為0.932和0.88,下同)、棗樹(0.819和0.906)、蘋果(0.855和0.815)與核桃(0.886和0.786)。香梨、小麥、玉米和葡萄的用戶精度都低于0.7。由表2可知,核桃和蘋果類別易被錯分為香梨,這是由于三者同屬果樹類別,具有高度重疊的物候期。進一步分析發現(圖5):參與分類的特征集中在3月到8月間,此生長期內的小麥與林果物候期重疊,是造成小麥用戶精度低的主要原因。研究區內玉米、葡萄種植分散、地塊較小,將高分辨率的影像上目視解譯的結果疊置在30 m分辨率影像上時,樣本數量(分別為117個和34個)明顯小于其他作物類別,且遠低于分類的特征數,由此計算而來的生產精度和用戶精度不具有代表性[18],本文認為對其精度分析沒有意義。但為了研究的客觀性,其精度值仍被列在混淆矩陣表中,由此說明30 m空間分辨率數據對研究區小地塊少量樣本類別分類的局限性,亦說明隨機森林方法對樣本數量具有一定的依賴性,但該研究在本文中并未深入說明。其他非作物類別的用戶精度和生產精度均較高,除林地外,均超過了0.9。

表2 隨機森林分類模型混淆矩陣

圖4 5種監督分類算法的分類結果圖Fig.4 Classification results produced by Gaussian NB (a) DT (b) SVM (c) K-NN (d) and RF (e)
2.3.2 隨機森林方法與其他監督分類方法的比較分析 除了隨機森林方法外,本文利用Python Scikit-learn模塊實現了樸素貝葉斯高斯模型(Gaussian NB)、支持向量機(Support Vector Machine, SVM)、K-最鄰近算法(K-Nearest Neighbor, K-NN)和決策樹(Decision Tree, DT)4種常用的分類算法在研究區的地物分類,分類結果見圖4(a~d),精度評價見表3。對5種常見監督分類方法的對比分析可知,隨機森林分類模型的效果明顯優于其他算法,其次是K-NN分類模型,其總體精度和Kappa系數也均超過了0.9,樸素貝葉斯高斯模型分類能力較差,Kappa系數僅為0.616。

表3 不同監督分類方法的精度對比
對比分析5種分類算法的分類結果,樸素貝葉斯高斯模型分類結果中存在明顯錯分漏分現象,其中棉花被錯分為玉米,草地錯分為戈壁。在決策樹和支持向量機分類結果中,棉花與棗樹混淆嚴重;在K-NN分類結果中存在棉花與蘋果、棗樹的混淆。但相比于其余4種監督分類模型,隨機森林在特征選取后保持了較好的分類能力,在提取作物信息過程中,精度與效率均表現最好。因此,本文認為隨機森林分類算法在作物的遙感提取中有很好的可用性。
為了評估模型(k=200、m=10)217個特征的重要性,利用歸一化重要性評分量化各個特征對模型的貢獻大小。圖5排列出了模型中重要性排名前20的特征,可知7月13日、8月14日的特征重要性均較高,其次是3月23日。特別是7月13日影像的特征明顯高于其他時相,高排名的特征數量也最多,這是因為在盛夏(7—8月)時,作物生長處于旺盛階段,植被信息較為明顯,有利于作物信息的識別。3月23日影像上的主要綠色作物為小麥和果樹,其他農作物尚未播種,易于區別。
重要性排名靠前的特征主要是紋理特征的均值0713Mean和0814Mean、植被指數的0713LSWI、0713RVI、0713EVI、0713DVI、0814LSWI和0713NDVI等。其中Mean表示的是紋理規則的平均值,是作物在衛星遙感影像上的形態特性反映,與作物種類及其生長狀態相關。LSWI指數表示了作物體內的水分含量,可知不同作物體內水分差異明顯,成為類別識別的重要依據。其他排名靠前的植被指數(RVI、EVI、DVI和NDVI等)均與紅波段和近紅外波段密切相關,是農業信息識別中常用的波段或植被指數。由植被指數可知盡管不同農作物的生育期重疊,但結合其生長所需水分和生長狀態的不同可以實現有效的識別。排名靠前的波段反射率為0323b7和0323b6,這兩個波段均為短波紅外波段,對水分信息敏感,可用于對綠色作物或水分含量差異的類別識別。
遙感時相的選擇是光學遙感農業應用的關鍵環節[2,6-8,10]。即使是處于干旱半干旱氣候類型的研究區也未必每個生長季均能獲取完整的時間序列影像數據,對其他氣候區由于云、霧、雨、沙等因素的存在,僅能獲取作物生長季的關鍵時期數據,因此對不同時相的重要性分析將對于指導影像的選擇具有實用價值,圖6列出了參與分類的不同時相特征的重要性值。由圖6可知7月13日、8月14日和3月23日的特征重要性均較高,與上文3.1節分析相同。其中7—8月為研究區作物生長旺盛季節,3月為作物播種(栽培)或抽枝發芽季節,兩個時期信息差異顯著。由此可知,對研究區所代表的干旱區氣候類型的作物識別,可選擇兩個關鍵時相:生長旺盛期與播種期,這一分析結果與趙良斌[25]與曹衛彬[26]等的研究結果一致。

注:研究中將所有特征按照影像時相加名稱標記,如3月23日第4波段光譜反射率標記為0323b4;7月13日歸一化水體指數(LSWI)標記為0713LSWI,其他類同。Note: Features are named according to the acquisition time of images and feature name. For example, the spectral reflectance of the 4th band from the image on March 23 is named 0323b4; The land surface water index (LSWI) from the image on July 13 is named 0713LSWI. Other features are named similarly.圖5 特征重要性統計Fig.5 Variable importance of the three feature sets

圖6 不同時相的重要性值Fig.6 Spider charts representing the temporal importance
隨機森林方法作為機器學習領域的研究熱點被廣泛應用于地物信息分類識別中。黃雙燕等[9]基于機器學習方法,采用時間序列Sentinel 2A遙感數據提取典型干旱區的農作物分類信息,探討了不同分類特征組合對隨機森林分類精度的影響,結果表明:隨機森林分類器以有效集成光譜和植被指數等多維向量的優勢,將其應用于干旱區典型農作物分類上的精度均在89%以上,總體精度最高可達94.02%。同樣是典型的干旱區作物分類,本文運用隨機森林算法雖然得到了令人滿意的分類結果(總體精度93.5%,Kappa系數0.926),但也發現對不同的作物,RF分類結果的生產與用戶準確度之間存在差異。本文研究結果與黃雙燕等[9]研究結果有所出入,主要原因在于,黃雙燕等的研究對象僅有棉花、春小麥和冬小麥三類作物,所選研究區內作物類型單一,地塊規整,與本文地塊破碎、作物多樣的研究區差異巨大。岳俊等[12]運用多種監督分類方法,結合光譜與紋理特征對南疆盆地4種主栽果樹(核桃、棗樹、香梨和蘋果)進行遙感識別,結果表明棗樹的分類精度遠高于其他3種果樹,而香梨、蘋果、核桃光譜和紋理特征差異較小,分類精度較低。雖然岳俊等[12]在分類方法選擇上沒有利用隨機森林方法,但對于不同林果類別分類精度的結論與本文一致(棗樹分類精度最高,蘋果、核桃和香梨三者易混淆)。蘇騰飛等[27]基于多種植被指數時間序列和機器學習算法研究了內蒙古五原縣的作物遙感分類,結果表明對于隨機森林而言,EVI、、NDVI和NDSVI等組合具有最佳分類精度,與本文特征重要性排名靠前的植被指數一致。
綜合以上分析,可知隨機森林法對農作物的精細分類具有高精度、泛化能力強、高維特征處理等優勢,但對于不同類別樣本量的不平衡性(如本文葡萄和玉米的過小樣本)的適應性差,如何選擇最佳分類樣本數仍需深入研究,以確定隨機森林方法的適用性。
本研究探究了隨機森林算法在干旱地區作物遙感分類的適用性,利用多時相的時間序列Landsat 8 OLI遙感數據提取多種分類特征(波段反射率、植被指數和紋理特征),探尋了高維特征支持下的隨機森林作物精細分類,并分析參與分類的特征重要性,以期為分類最佳時相數據的選擇、最佳分類特征集的選取等關鍵問題提供參考。主要結論如下:(1)隨機森林算法通過GINI系數可以實現分類特征的重要性評價。在作物分類中,表示影像紋理平均規則程度的特征Mean、對作物含水量十分敏感的地表水分指數LSWI及短波紅外光譜反射率均有較高貢獻度。(2)最佳分類時相的選擇可以依據分類特征重要性確定。對研究區所代表的干旱區氣候類型的作物識別而言,可選擇兩個關鍵時相:生長旺盛期與播種期。(3)隨機森林分類精度受分類特征數量的影響。按照重要性評分值從低到高的順序刪除部分特征,當刪除數量低于總特征數的30%時,RF模型的分類精度基本保持不變;當刪除量超過70%時,分類精度下降的幅度加大。(4)隨機森林方法相對于決策樹、支持向量機、樸素貝葉斯、K-近鄰等監督分類算法,無論是分類結果的精度上,還是分類效率上均具有優勢。
本研究的不足之處有:(1)對于參與分類的原始特征選取缺乏目的性,導致選擇很多特征,如多個植被指數間存在信息冗余,可能會限制隨機森林方法的分類敏感性。(2)研究區內作物類別的樣本選擇沒有考慮到影像的分辨能力,導致對葡萄和玉米的分類結果不可靠,因此需要進一步研究隨機森林算法對樣本數量的敏感性。(3)對最佳時相的選擇僅研究了單一時相的分類重要性,缺乏不同時相的組合研究。