龍怡霖 蔡 騁
(西北農林科技大學信息工程學院 陜西 楊凌 712100)
?
基于遙感的隨機森林農田水肥等級分級算法
龍怡霖蔡騁*
(西北農林科技大學信息工程學院陜西 楊凌 712100)
農田水肥診斷對農作物增產與維持生態平衡穩定有重要意義。針對農作物航空遙感圖像,提出用于農田水肥等級分級的隨機森林分類模型,并討論隨機森林分類模型用于農田水肥等級分級的適用性。提出的模型基于隨機森林分類器,通過對遙感圖像進行特征提取與降維,將不同區域的遙感圖像特征和對應的水、肥等級標簽輸入隨機森林,訓練分類模型,得到不同區域的分級結果。實驗結果表明,在植被覆蓋密度較高的區域中,隨機森林分類模型能夠為農作物含水量分級提供較好的分級參考,具有一定的適用性。
遙感圖像特征提取主成分分析隨機森林
精確評估農田肥水含量對增加農作物產量與維持生態穩定與平衡具有重要意義。現階段農作物產量增加主要基于大量施用化肥與改善灌溉條件實現,我國農作物的增產, 30%~50% 依賴于化肥投入的增加,28% 依賴于灌溉[1,2]。日益短缺的水資源現狀要求在農作物生產過程中進行更加有效的作物水分管理,用以獲取較高產量和較高質量的農作物產品[3]。另一方面,化肥投入量的增加,帶來了農作物產量的提升,但同時也造成了水體富營養化、土壤物理和化學屬性惡化、地下水污染等一系列生態問題,并對農作物增產產生負反饋作用[4]。
農作物產量與土壤水含量之間有密切關系,過多或過少的土壤含水量均能影響農作物產量[5]。土壤肥含量對農作物生產同樣起著關鍵作用,如在合適的水分條件下增加鉀肥和磷肥量能夠提升大豆的抗旱能力并增產,而水分過多會對大豆生長產生負作用[6]。因此,需要對指定農作物尋求適用的水肥等級分級模型,用以指導對作物灌水量和施肥量進行合理地控制。
農作物水肥含量的不同會導致葉片顏色、厚度以及形態結構產生區別,進而造成光譜反射特性的差異,基于光譜反射特性差異甄別物體的遙感技術使作物水肥含量的實時監測和快速診斷成為可能[3]。近年來,利用快速發展的航空、航天定量遙感技術可以大面積、無破壞、快速地獲取農作物生長信息,與傳統地農作物水分營養快速診斷方法相比,具有更加快速、成本更低的優點[7]。
通過農田的遙感圖像可捕捉到農作物的葉片光譜信息,進而基于農作物的葉片光譜信息可確定農作物的水肥含量,從而對農作物的生長狀況做出判斷。在已知農作物生長狀況的情況下,可根據這些遙感圖像信息確定農田的水肥等級。
在實際生產中,由于不同區域的氣候、土壤、作物與農作管理存在較大空間差異,因而限制作物水肥診斷模型的適用范圍[4]。對某一較小范圍區域(如鄉鎮)而言,應探尋特定的基于遙感的水肥等級分類模型。
為了實現對楊凌農業高新技術產業示范區轄區內作物水肥含量的快速分級,為精準灌溉與施肥提供參考,將隨機森林RF(Random Forest)算法與對應區域內航空遙感圖像結合,用于水肥等級分級作業中。通過對航空遙感圖像進行特征提取與降維,將降維后的特征新信息作為隨機森林的輸入特征用于分級作業。實驗結果表明,在植被覆蓋密度較大的區域(JL, 巨良)內,隨機森林算法與多光譜遙感圖像相結合,能夠為作物含水量等級分級提供良好的分級效果。
1.1遙感圖像介紹
遙感圖像由楊凌農業高新技術產業示范區提供,于2014年6月在楊凌示范區轄區內的巨良、揉谷、杏林以及果業示范田使用 Tetracam ADC3 多光譜數碼相機航拍及后處理得到,收集到紅、綠和近紅外三個波段的數據,通過正射投影與拼接處理,得到最終的整體遙感圖像[8]。圖1為果業示范田多光譜遙感圖像。

圖1 果業示范田多光譜遙感圖像
在圖1中,果業示范田多光譜遙感圖像分別率為3000×900像素,遙感圖像區域實際面積約為1200 m×360 m,根據遙感圖像與圖像區域實際面積之間的對應關系,圖像區域被劃分為150×45個8 m×8 m的子區域,對應于遙感圖像上20×20像素大小的塊。由專家標記出每個子區域的含水量等級(澇、水量過多、水量適宜、缺水、嚴重缺水)和肥力等級(肥過量、適宜、缺肥)。
1.2特征提取與降維
在分級作業中,使用遙感圖像的RGB三通道的像素值特征作為分級算法的輸入特征。根據1.1節對遙感圖像及其對應區域關系的介紹,將遙感圖像劃分為20×20像素的子塊,對每一個子塊進行RGB三通道特征提取及規范化操作,每個子塊可得到1200維RGB三通道特征。圖2為圖1的子塊劃分對應圖像。

圖2 圖1的對應分塊圖像
RGB三通道特征提取后每個樣本( 像素的圖像塊)得到1200維特征,這1200維特征對隨機森林分類器而言,仍然偏高,會導致分類器訓練速度慢,訓練時間過長。為提高分離器訓練速度和消除噪聲,需要對原始特征進行降維預處理。使用主成分分析法(PCA)進行降維[9]。使用主成分分析法對樣本的原始特征矩陣進行特征值分解,得到原始特征矩陣的能量分布。以果業示范田遙感圖像子塊的特征矩陣為例,原始特征的能量分布與累積能量分布如圖3所示。

圖3 果業示范田遙感圖像子塊特征矩陣能量分布
從圖3中可以看出,85%的能量集中在前50個特征維度中,在實驗中,使用主成分分析法將特征維度從原始的1200維降至200維。
在實驗中,將由巨良、揉谷、杏林以及果業示范田的多光譜遙感圖像進行分塊處理產生的像素大小的圖像塊作為樣本,對應地由專家標記出每個圖像塊的含水量等級(澇、水量過多、水量適宜、缺水、嚴重缺水)和肥力等級(肥過量、適宜、缺肥)作為標簽。對樣本進行特征提取與降維后的特征作為分級模型的輸入特征,樣本的含水量等級和肥力等級作為分級模型的輸入類別,分別訓練含水量等級分級模型和肥力等級分級模型。
針對水肥等級分級作業,設計隨機森林分級模型,用于水肥等級分級。
隨機森林RF是多棵決策樹的集合,基于統計學習理論應用于分類、回歸等方面[10]。針對分類作業,隨機森林通過隨機選擇特征子集和樣本子集,訓練每一棵決策樹,并將每一棵決策樹用于測試樣本的預測,得到每一棵樹對測試樣本的類別分布的概率模型,然后組合森林中所有決策樹對測試樣本類別分布的概率模型,得到最終的類別分布概率輸出,判定具有最大概率的類別為測試樣本的輸出類別。隨機森林用于分類時,有兩個階段,即訓練階段和測試階段,通過“離線”的訓練,得到隨機森林模型,再將模型應用在測試數據上,即“在線”的測試,得到待測樣本的類別歸屬。
隨機森林用于水肥等級分級時,主要有以下參數。
(1) 每棵樹的最大深度D。最大深度D的取值對森林的分類性能有著明顯影響,D取值過小時,容易產生低度擬合,分類準確率會降低;D取值過大時,容易產生過擬合,分類準確率也會降低[11]。
(2) 森林的隨機度ρ及其類型。兩種常見的隨機度類型為:
裝袋[12,13]。森林中每一棵樹使用不同的子集來訓練,這些子集從訓練數據集中隨機抽樣得到。裝袋方法可以避免過擬合并且能夠提高森林的泛化性能,但使用裝袋方法訓練得到的森林中每棵樹沒有使用到全部的訓練樣本,會忽略掉一些有用的信息。
隨機結點最優化RNO(Randomized Node Optimization)[14,15]。使用隨機結點最優化方法訓練的森林中,每棵樹都基于全部的訓練樣本構造,在建樹過程中沒有對訓練樣本的抽樣操作。在建樹過程中,每棵樹的內部結點隨機選擇ρ個特征和離散閾值對Γj={(i1,τρ)},其中j表示單棵決策樹中的第j個結點(內部結點),特征il從全部的d維特征空間中一致抽樣得到,即(il≠im,?1≤l (3) 森林中樹的總數,即森林的規模T。森林的規模T越大,分類準確率越高[16,17]。T的選擇僅僅取決于計算開銷,即時空復雜度。 (4) 分裂函數的選擇。分裂函數在訓練和測試過程中起關鍵作用。分裂函數的參數定義為: 1.1 高溫發酵消毒:在夏季高溫的6~8月間,起出舊床土或其它育苗用土,與圈糞或秸棵、草皮、雜草、粉碎的植物秸稈等,分層堆積,每層厚度約16厘米,堆底直徑3~5米,高度2米左右,呈饅頭型,外面用鍬拍實后抹一層泥,上面留一個口,從口處倒入大糞稀或淘米水使堆內充分濕潤,用泥封口,蓋上塑料,底邊壓嚴,進行高溫發酵。此法簡便易行,不但能殺死床土中的病原菌,還能殺死蟲卵和草籽,而且肥沃、疏松。封凍前過篩備用。 θ=(φ,ψ,τ) (1) 其中φ=φ(v)為特征選擇函數,從全部的特征向量v中選出當前結點計算所使用特征;ψ定義了分裂數據所使用的幾何模型,如坐標對齊的超平面、傾斜超平面和普通表面等;τ包含了二值輸出的不等式測試中所使用的閾值。分裂函數類型主要有線性和非線性兩種[14,18]。線性數據劃分的分裂函數定義為: h(v,θ)=[τ1>φ(v)·ψ>τ2] (2) 其中[·]為示性函數,例如,在二維特征空間中,可選擇φ(v)=(x1,x2,1)T,ψ∈3為同輪坐標系中的線性劃分,如圖4和圖5所示,令ψ=(1,0,ψ3)或ψ=(0,1,ψ3),即可得到基于坐標對齊的線性數據劃分分裂函數。 非線性數據劃分的分裂函數通過使用高自由度表面替換特征超平面得到,如在二維特征空間中,可使用圓錐曲線實現非線性的數據劃分,其分裂函數定義為: h(v,θ)=[τ1>φT(v)ψφ(v)>τ2] (3) 其中ψ∈3×3表示同輪坐標系中的圓錐曲面,如圖6所示。 圖4 基于坐標對齊的線性數據劃分分裂函數示例 圖5 基于一般線性數據劃分分裂函數示例 圖6 基于圓錐曲線非線性劃分的分裂函數示例 (5) 訓練目標函數的選擇。訓練過程中目標函數的選擇對森林的性能有著重要影響,決定著每棵樹的預測與評估準則。熵和信息增益的概念,構建出基本的目標函數模型。 將信息論和信息增益應用于樹中分裂結點的目標函數,可得到以下常用的三種目標函數。 使用信息增益作為目標函數,定義為: (4) 其中S為分裂結點的屬性數據集,將S分為左、右兩個子集,即SL和SR,H為信息熵,|·|表示數據集中的樣本總數。針對類別標簽為離散值的分類問題,即在離散概率分布下,H(S)定義為Shannon信息熵,即: H(S)=-∑c∈Cp(c)log(p(c)) (5) 使用信息增益率作為目標函數,定義為: (6) 其中S、H(S)定義與式(4)中定義相同,v為當前分裂屬性的取值,V為當前分裂屬性的所有可能取值的集合,p(v)表示集合S中的樣本的當前分裂屬性取值為v的概率。信息增益率目標函數選擇具有最大信息增益率的屬性作為分裂屬性。 使用基尼指標度量作為目標函數。基尼指標度量數據劃分的不純凈度,定義為: (7) 其中S定義與式(4)中定義相同,G(S)定義為: G(S)=1-∑c∈C(p(c))2 (8) 其中c、C、p(c)的定義與式(5) 中定義相同。基尼指標目標選擇函數選擇具有最大不純凈度的屬性作為分裂屬性。 (6) 森林中每棵樹對測試樣本預測結果的組合。隨機森林作為多棵決策樹的集合,其預測結果由森林中所有決策樹的預測結果組合決定,組合策略有兩種方式: 平均全部決策樹的預測結果,即: (9) 其中T為森林的規模,pt(c|v)表示第t棵樹對測試樣本v的后驗概率[13]。森林的最終預測結果為p(c|v)的最大取值所對應的類別,即{c|max(pt(c|v)),?t∈(1,…,T)}。 將全部決策樹的預測結果相乘,即: (10) 其中劃分函數Z用以保證概率分布的歸一化,與式(9)類似,森林的最終預測結果為p(c|v)的最大取值所對應的類別。 實驗中,將20×20像素大小遙感圖像塊的樣本特征集及其對應的等級標簽隨機分為訓練集和測試集,訓練集和測試集的樣本比例為8∶2,并通過訓練集和測試集的多次劃分進行十輪交叉驗證。以下實驗結果數據取十輪交叉驗證的均值。 隨機森林模型的訓練過程中,使用基于坐標對齊的分裂函數,使用信息增益率作為目標函數,每棵樹的最大深度為4,森林規模為2000。 表1為含水量等級分級準確率,并將文獻[8]的實驗結果作為對比。 表1 含水量等級分級準確率 表2為肥力等級分級準確率。 表2 肥力等級分級準確率 由表1及表2可以看出,使用隨機森林進行含水量等級分級時,在巨良示范田遙感圖像中取得了最好的分級準確率(83.67%),具有一定的實際參考意義;而在其他區域的分級準確率不夠理想。使用隨機森林進行肥力等級分級時,在果業示范田遙感圖像中取得了最好的分級準確率(68.98%),但分級效果仍不理想。同時,在實驗中發現,十輪交叉驗證下果業示范田遙感圖像的分級準確率的方差較大(15.7397),即分級準確率波動較大,結果不穩定。通過對比四個區域的遙感圖像發現,植被覆蓋密度能夠影響到實驗結果,與果業示范田(主要作物為果樹,果樹之間有較大間隙,這些間隙對應到遙感圖像上,會造成大面積的無效數據,即噪聲)相比,巨良示范田的植被覆蓋密度較大(作物為玉米,作物間的間隙相對較小,產生的噪聲較小),因而取得了較好的分級準確率。 將隨機森林算法用于基于遙感圖像的水肥等級分級作業中,通過對遙感圖像進行分塊與特征提取及降維,使用對應的專家鑒別信息作為特征標簽,討論隨機森林算法用于基于遙感圖像的水肥等級分級作業的適用性。實驗結果表明,在植被覆蓋密度較高的區域中,隨機森林算法能夠對作物含水量等級進行較為有效的分類,具有一定適用性。 在后續工作中,會討論更加有效的特征提取,以降低作物間較大間隙等類型噪聲對分級性能的影響。 [1] Jin J. Strenthening research and technology transfer to improve fertilizer use in China[C]//Proceedings of the IFA Regional conference for Asia and the Pacific. Hong Kong,1998:21. [2] Xie J C, Xing W Y, Zhou J M. Current use of, and requirement for, nutrients for sustainable food production in China[C]//Nutrient management for sustainable crop prodcution in Asia. Wallingford,1998:267-277. [3] 薛利紅, 羅衛紅, 曹衛星,等.作物水分和氮素光譜診斷研究進展 [J].遙感學報,2003,7(1):73-80. [4] 陳健. 基于遙感和作物模型的冬小麥水肥生產力及產量差研究[D]. 北京: 中國農業大學, 2007. [5] 馬強, 宇萬太, 沈善敏,等. 下遼河平原水肥交互作用及對玉米產量的影響 [J].農業工程學報,2007,23(4):29-33. [6] 馬強, 宇萬太, 周樺,等.不同水肥條件對大豆產量的影響 [J].土壤通報,2009,40(6):1311-1315. [7] 王之杰. 冬小麥冠層氮素分布與品質遙感的研究[D]. 北京: 中國農業大學, 2004. [8] 張弘煬, 蔡騁, 李書琴. 基于遙感的PCA-KNN農田蓄水等級分類算法[C]//第17屆全國圖像圖形學學術會議. 珠海, 北京交通大學出版社,2014:616-620. [9] Pearson K. On lines and planes of closest fit to systems of points in space[J].Philosophical Magazine,1901,2(6):559-572. [10] Criminisi A, Shotton J. Decision Forests for Computer Vision and Medical Image Analysis[M].London, U.K.:Springer,2013:10-23. [11] Shotton J, Fitzgibbon A,Cook M, et al. Real-time human pose recognition in parts from single depth images[C]//IEEE conference on computer vision and pattern recognition (CVPR). Providence,2011:1297-1304. [12] Breiman L. Bagging predictors[J].Machine Learning, 1996, 24(2):123-140. [13] Breiman L. Random Forests[J].Machine Learning, 2001,45(1):5-32. [14] Lin Y, Jeon Y. Random Forests and Adaptive Nearest Neighbors[J].Journal of the American Statistical Association, 2006, 101(474):578-590. [15] Ho T. The random subspace method for constructing decision forests[J].IEEE transactions on pattern analysis and machine intelligence (TPAMI), 1998, 20(8):832-844. [16] Shotton J, Johnson M, Cipolla R. Semantic texton forests for image categorization and segmentation[C]//IEEE conference on computer vision and pattern recognition (CVPR). Anchorage,2008:1-8. [17] Pei Y, Criminisi A, Winn J, et al. Tree-based Classifiers for Bilayer Video Segmentation[C]//IEEE conference on computer vision and pattern recognition (CVPR) Minneapolis,2007:1-8. [18] Yao B, Khosla A, Li F F. Combining randomization and discrimination for fine-grained image categorization[C]//IEEE conference on computer vision and pattern recognition (CVPR) Providence,2011:1577-1584. REMOTE SENSING-BASED FARMLAND WATER CONTENT AND FERTILITY GRADING ALGORITHM VIA RANDOM FOREST Long YilinCai Cheng* (CollegeofInformationEngineering,NorthwestA&FUniversity,Yangling712100,Shaanxi,China) Diagnosis of water content and fertility of farmland has great significance on increasing crop yield and maintaining ecological balance. We propose a random forest classification model for grading the water content and fertility of farmland aiming at the aviation remote sensing image of crops, and discuss the applicability of the model in such grading. The proposed model is based on random forest classifier, by carrying out feature extraction and dimension reduction on remote sensing images, it inputs the features of remote sensing images in different regions and the corresponding water content and fertility grading labels into random forest, trains the classification model, and derives grading results for different regions. Experimental results show that in those regions with higher density of vegetation coverage, random forest classification model can offer quite good grading reference for crops water content grading, and has certain applicability. Remote sensing imageFeature extractionPrincipal component analysisRandom forest 2015-03-13。國家自然科學基金項目(61202188)。龍怡霖,碩士生,主研領域:機器視覺與模式識別。蔡騁,副教授。 TP391.4 A 10.3969/j.issn.1000-386x.2016.08.058


3 實驗結果與分析


4 結 語