吳立周,王曉慧, 王志輝, 方 馨, 朱婷瑜, 丁麗霞
(1. 浙江農林大學 環境與資源學院, 浙江 杭州311300; 2. 浙江農林大學 省部共建亞熱帶森林培育國家重點實驗室, 浙江 杭州311300; 3. 浙江遠卓科技有限公司, 浙江 杭州310012)
農作物的精準識別有助于人們及時、 準確地掌握農作物的種植結構及其時空變化信息, 對區域內農作物的空間格局分布、 產量的預測、 農業資源的調查和災害監測等問題具有重要意義[1]。 傳統多光譜遙感受傳感器波段少、 光譜分辨率低、 作物光譜相似性等問題的影響, 無法獲得較高的作物類型識別精度; 而新興的高光譜技術通過獲取連續地物的光譜信息, 能在眾多窄波段范圍內對作物的細微差別進行探測, 進而提高作物識別精度[2]。 近年來國內外學者利用高光譜數據在作物識別與分類方面已開展了大量研究工作[3-6]。 高光譜數據波段多、 數據量大、 信息冗余嚴重, 因此在數據的應用與處理中如何選取有效的光譜數據形式和光譜特征變量是研究的重點。 目前, 該類研究對作物分類識別的精度不斷提升, 但這些方法主要基于傳統統計方法結合主觀判斷選擇波段, 主觀性較大, 且數據處理操作較為繁瑣, 難以高效簡便對作物進行精確分類識別。 本研究以杭州地區常見的8 種作物作為研究對象, 基于實測的葉片光譜反射率數據, 通過不同特征提取與分類方法對作物光譜分析, 探尋識別不同作物的高效方法, 從而為作物高光譜遙感解譯和精準分類提供參考。
研究區浙江省杭州市(29°11′~30°33′N, 118°21′~120°30′E), 地處中國東南沿海、 浙江省北部。 研究區屬亞熱帶季風氣候, 光溫同步, 雨熱同季, 日照和無霜期較長。 研究區西部連山, 東部近海, 地勢西高東低, 地形地貌復雜多樣。 研究區具有豐富的水稻土, 約占土壤總面積的14%, 主要分布在平原地區, 適宜于多種作物生長。 研究區主要農作物有大豆Glycine max、 番茄Lycopersicon esculentum、 茄Solanum melongena、 水稻Oryza sativa、 茶Camellia sinensis、 葡萄Vitis vinifera、 玉米Zea mays、 山核桃Carya cathayensis、 番薯Ipomoea batatas、 花生Arachis hypogaea、 四季豆Phaseolus vulgaris等。
選取杭州市常見的大豆、 玉米、 茄、 四季豆、 花生、 葡萄、 番薯、 水稻共8 種農作物作為光譜測試對象。 光譜測試部位為農作物葉片, 葉片反射光譜采用美國ASD FieldSpec Pro FR 地物光譜儀(光譜范圍350~2 500 nm)進行測量。 測定時間為2018 年7 月上旬, 每天8:00-10:00, 在天空晴朗無云, 無風或微風, 空氣濕度小的情況下, 戶外采集農作物葉片后立即在室內用植被探頭測量8 種作物的葉片反射率。 每種作物選擇5 片葉片, 每片葉片選擇3 處測量點, 以每一測量點連續測量10 次的光譜平均值作為其光譜反射值, 共獲得150 條光譜曲線, 再對每10 條光譜數據取其平均值作為一個樣本數據, 每種作物得到15 個光譜樣本數據。 剔除有明顯異常的波段數據, 以剩余數據的平均值作為該樣點的光譜反射率, 再對光譜曲線進行平滑處理, 消除光譜曲線上存在的噪聲, 最終獲得8 種作物反射光譜曲線數據。
采用隨機森林方法與傳統的高光譜識別與分類方法處理并分析作物高光譜數據, 提取識別不同作物類型的高光譜特征, 對作物進行精準識別與分類, 并對結果分析與比較, 這些傳統方法包括一階微分、二階微分、 倒數的對數等數學變換方法、 去包絡線法等。
①簡單數學變換法: 運用光譜微分方法處理光譜曲線, 能夠部分消除大氣效應、 作物環境背景(陰影、 土壤等)的影響, 以反映作物本身的光譜特征[7]; 對數據進行倒數的對數可以減少因光照等變化引起的乘性因素對光譜數據的影響, 使可見光區范圍內光譜數據差異增大, 從而更容易識別不同的作物[8]。采用一階微分、 二階微分以及倒數的對數變換對原始光譜進行處理, 觀察分析光譜特征及其區分不同作物的能力。 ②去包絡線法: 包絡線(envelope)是指每條光譜曲線的外凸包曲線, 去包絡線(continuum removal)是一種非線性光譜變換方法[9]。 去包絡線法對作物光譜曲線上反射率小、 光譜曲線相近的可見光波段處理有效, 能在很大程度上放大作物間光譜差異性, 有利于作物識別分類[10]。 本研究用MATLAB軟件對原始光譜曲線進行去包絡線處理, 提取作物間光譜差異較大的波段, 再使用歐氏距離法[11]對不同作物識別與分類。 ③隨機森林法(random forest, RF)[12]: 是一種基于分類與回歸決策樹(classification and regression tree, C&RT)的組合算法。 隨機森林算法對參與分類的變量沒有限定, 在處理高維數據分類時,更能體現隨機森林的速度快、 精度高、 穩定性好的優勢[13]。 因此用隨機森林法處理作物高光譜數據時,不用提前做光譜特征提取, 在實施分類的同時, 就可以對高光譜變量進行篩選優化[14], 并分析判斷特征波段的優劣。
圖1 為8 種作物的平均光譜曲線, 在可見光波段, 綠峰波段反射率差異最大; 在近紅外波段, 800~1 300 nm 波段的光譜曲線差異最明顯, 反射率由高到低順序為玉米、 茄、 四季豆、 大豆、 番薯、 花生、葡萄、 水稻, 其中茄與玉米反射率較為接近, 較難區分; 在1 600~1 800 nm 波段內不同作物的光譜曲線差異較為明顯, 除了葡萄與花生、 茄與玉米的光譜差異較小外, 剩余作物之間通過反射率差異可以區分。
從圖2 可觀察到: 8 種作物的一階微分光譜曲線的變化走向基本一致, 在極大或極小值對應的波段, 不同作物的一階微分值差異較為明顯, 其他波段內作物曲線相差不大。 在685~770 nm 波段內可以區分四季豆與其他作物, 但不能明顯區分出其余作物; 在1 350~1 430 nm 波段內不同作物一階微分值有較大差異, 能夠區分出水稻、 玉米與葡萄3 種作物, 其余作物無明顯差別。

圖1 不同作物的平均光譜曲線Figure 1 Average spectral curves of different crops

圖2 不同作物的一階導數光譜曲線Figure 2 First derivative spectral curves of different crops
由圖3 可知: 8 種作物二階導數光譜曲線在650~790、 1 300~1 500 和1 820~1 940 nm 等3 個波段區間差異較大。 表1 統計了8 種作物在這3 個波段內的極大值及其對應波段。 即便在這些差異較大的波段內, 部分作物的二階導數光譜曲線十分接近, 不利于區分不同作物; 比如玉米、 番薯、 大豆、 花生、葡萄在650~790 nm 波段的光譜二階導數值相近, 大豆、 花生、 葡萄在1 300~1 500 nm 波段的光譜二階導數值相近, 番薯、 大豆、 花生、 葡萄在1 820~1 940 nm 波段的光譜二階導數值相近, 這些二階導數值相近的作物彼此難以區分。
從圖4 可知: 與原始光譜曲線相比, 波峰波谷發生了倒置, 出現了 “兩峰一谷”, 峰谷凸凹程度明顯增加[15], 原本相近的部分作物光譜曲線有所拉開, 在800~1 300 nm 波段內, 水稻、 玉米可以明顯區分, 但大豆、 番薯和花生3 種作物間的光譜差別過小, 不易區分。

表1 作物反射光譜二階導數極大值及對應波段Table 1 Maximum value of second derivative of crop reflection spectrum and corresponding band

圖3 不同作物的二階導數光譜曲線Figure 3 Second derivative spectra of different crops

圖4 不同作物光譜倒數的對數曲線Figure 4 Logarithmic curves of the reciprocal spectra of different crops
運用MATLAB 軟件, 對作物反射光譜數據做去包絡線處理。 圖5 可以看出: 作物光譜在藍谷, 紅谷, 綠峰, 1 170~1 190 nm, 1 430~1 450 nm 以及1 910~1 930 nm 等波段上有較明顯的差異。
利用這些差異較大的波段反射率, 基于歐氏距離分類法, 評價分析任意2 種作物間的可分離性。 以綠峰波段為例, 任意2 種作物間的歐氏距離結果見表2。 可以看出, 綠峰波段, 玉米、 茄、 花生等可以較為明顯區分, 其余作物較難區分。 運用相同方法得出其他波段范圍結果: 在藍谷波段, 葡萄、 茄、 大豆、 玉米、 番薯、四季豆可以較明顯區分, 但水稻和花生較難以區分; 紅谷波段, 茄、 玉米、 四季豆3 者較難區分, 其余作物較好區分; 1 170~1 190 nm(水氧吸收波段)波段, 葡萄、大豆、 花生3 種作物較難區分; 1 430~1 450 nm 波段, 葡萄、 大豆、 四季豆3 種作物較難區分; 1 910~1 930 nm 波段, 葡萄、 大豆兩者較難區分。

圖5 作物包絡線去除后的光譜曲線Figure 5 Spectral curve after crops envelope removal
采用IBM SPSS modeler 18.0 軟件構建隨機森林模型數據流, 對農作物反射率數據處理。 在軟件中,使用C&RT 算法構建隨機森林的每棵樹, 決策樹的棵數和候選分割屬性集的大小設置均采用默認值, 即構建500 棵樹, 樣本大小為百分百。 作物在可見光波段(380~780 nm), 近紅外短波(780~1 100 nm), 近紅外長波(1 100~2 500 nm)的反射光譜特征與作物的生理生化特點有緊密聯系。 為了比較可見光、 近紅外波段的光譜對區分不同作物的效果, 將作物光譜樣本數據按3 個不同的波段分成3 組數據, 與全波段(350~2 500 nm)數據構成4 組不同的樣本數據。 樣本數據一半用于隨機森林法建模, 提取區分不同作物的特征波段, 一半用于隨機森林法分類, 驗證所提取波段的重要性。 為了減少數據處理量, 將光譜反射率每10 nm 取平均值用于隨機森林法處理。 依次將4 組樣本數據進行隨機森林法處理, 結果(表3)表明: 4 組數據所建模型均都具有較高的分類準確性。 隨機森林法在建模的同時對參與分類的波段重要性進行了排序, 表4 顯示4 組數據最重要的前10個波段, 每個波段特征對分類精度的貢獻程度不同,重要程度越高的波段對作物分類精度的影響越大。

表2 綠峰波段任意2 種作物間的歐氏距離表Table 2 Significant Euclidean distance table between any two crops

表3 不同波段光譜數據的隨機森林分類結果Table 3 Random forest classification results for spectral data from different bands

表4 參與分類的波段重要性排序Table 4 Sorting the importance of the bands involved in the classification
利用驗證樣本對所建隨機森林法分類模型精度進行檢驗, 結果(表5)顯示: 4 組樣本的作物分類正確率均在84%及以上, 精確度最高的樣本組為350~2 500 nm 全波段數據, 分類精確率達99.17%。

表5 不同作物分類準確率分析表Table 5 Analysis table of classification accuracy of different crops
為了檢驗所篩選的特征波段對區分不同作物的效果, 依據350~2 500 nm 波段樣本數據隨機森林分類輸出的前10 個重要波段, 從驗證樣本數據中選出相應波段數據為變量, 在模型參數設置不變的情況下進行隨機森林分類, 分類準確性達100%, 在完全區分不同作物的同時, 數據量減少達95.34%, 在節省時間的同時保證了較高的準確度。 前10 個波段為550、 2 490、 370、 770、 560、 380、 540、 530、 570和350 nm 波段。 其中350 和2 490 nm 這2 個波段在采集反射率時有噪聲, 雖然經過平滑方法消除了噪聲, 但不能完全排除噪聲對識別區分作物的影響, 因此在選擇使用時要慎重。 重要波段中的350、 370和380 nm 等3 個波段屬于藍光吸收谷; 530、 540、 550、 560 和570 nm 等5 個波段處于綠光反射峰;770 nm 波段處于植被反射光譜陡坡; 2 490 nm 波段處于作物所含水分和二氧化碳的強吸收帶。 不同作物在這些波段的反射率差異均與作物的葉綠素含量、 水分含量、 葉片海綿組織及光合作用強烈相關[16]。由此可得出結論, 隨機森林法篩選出的特征波段不僅區分不同作物效果顯著, 而且能夠反映不同作物生理與生化特性的差異, 從生物本身特性的角度為高光譜區分不同作物提供了印證與依據。
本研究發現隨機森林法對350~2 500 nm 全波段反射率數據處理, 不僅篩選出能夠區分不同作物的特征波段, 而且運用所選擇的波段對作物進行分類識別的效果也是最優的。 不僅如此, 隨機森林法對篩選出的波段進行了優劣排序, 其中對分類貢獻較大的波段集中在藍光、 綠峰、 紅光等波段, 反映了作物生理生化特征差異。 區分8 種作物的特征波段主要有350~380 nm 的藍光波段、 530~570 nm 的綠峰波段、 770 nm 的植被陡坡波段、 2 490 nm 的水、 二氧化碳的吸收波段。 運用隨機森林法能夠克服作物光譜相似性較高、 難分類等問題, 快速高效確定區分不同作物的特征波段, 且分類識別精度高。 而用觀察法分析不同作物的反射光譜及其一階微分、 二階微分、 倒數的對數, 提取同時區分識別8 種作物的波段難度較大; 去包絡線法突出了作物光譜在紅谷、 藍谷、 綠峰區域等特征波段的差異, 但提取的特征波段只能區分部分作物, 不能同時對8 種作物分類。