楊文博,劉春秀
(山東科技大學,山東 青島 266000)
目前的農業灌溉面積提取的主要方法為人工統計和通過遙感技術提取。人工統計灌溉面積雖然可以獲得較為完整的灌溉面積以及農作物信息,且擁有較高的精度。但是,人工統計需要耗費大量人力物力,且獲取信息的時間長,受到外界影響比較大,不利于之后對獲取信息的處理及運用[1]。
遙感技術于20世紀70年代開始在我國各個領域進行應用。80年代獲得了較大的發展,并廣泛應用[2]。在各種環境條件下,遙感成為監測世界許多地方灌溉土地的有效工具。通過遙感技術可以不用接觸目標就能獲取灌溉區的農作物種類及其分布情況,提取灌溉面積并合理的分配不同地區不同農作物種類所需的灌溉量,真正做到科學分配、合理使用水資源[3]。
目前的遙感技術提取灌溉面積的研究中,可分為以下幾種類型:①基于熱紅外遙感的灌溉面積提取。此研究的基礎在于通過熱紅外波段來對地表溫度或者土壤熱慣量進行反演[4]。土壤經過灌溉后,地表溫度以及土壤熱慣量都會降低,通過多時相的影像數據來判斷研究區域是否發生灌溉行為。但是熱紅外衛星遙感分辨率較低,對于較小區域的灌溉面積提取精度較差。②基于可見光-近紅外遙感的灌溉面積提取[5-8]。基于可見光-近紅外遙感的灌溉面積提取一般都是通過各種植被指數的閾值法進行灌溉探測,其中植被供水指數(VSWI)、溫度植被干旱指數(TVDI)、垂直干旱指數(PDI)應用較為廣泛。基于可見光-近紅外遙感的灌溉面積提取受到天氣、地表植被覆蓋、種植作物類型等各種因素的制約。并且單一的遙感指數對土壤水分的敏感性較差,此類方法的不確定性較大。③基于微波遙感的灌溉面積提取[9,10]。微波遙感具有堅實的物理基礎,它不受云層和黑夜的影響,并且對土壤和植被都有一定的穿透作用。此研究在土壤含水量反演中應用較為廣泛。但雷達信號對地表的幾何結構高度敏感,受到地表粗糙程度的影響,并且受到植被的影響[20,21]。近些年在灌溉面積提取研究中還有一種技術就是結合光學遙感和微波遙感來進行灌溉事件的探測[11-16]。但基于多種傳感器的研究方法所受的影響也會增多,所以光學遙感和微波遙感聯合反演對于灌溉面積提取精度的提高有限。并且由于不同衛星的重訪周期不同,衛星數據極難獲取,效率較低,難以進行長時間序列的灌溉面積空間分布信息獲取。所以想要在實際應用中準確高效的獲取灌溉信息,則需要以單傳感器研究方法為主,多傳感器聯合為輔。以單傳感器獲取長時間的灌溉面積和分布,以多傳感器聯合作為檢驗修正手段。在基于單一的傳感器數據研究中,可分為微波遙感和光學遙感兩類,微波遙感受到的地形制約嚴重,不確定性較大[17,18],只使用微波數據無法使用在具體實際應用中。光學遙感雖然受到天氣等因素影響,但在適合的條件下反演精度高。符合遙感技術的高效性和準確性,易實現在實際應用中獲取灌溉面積空間分布信息[19]。
為此,本研究以山東省淄博市桓臺縣為研究區域,探討基于Sentinel-2 提取農田灌溉面積的最佳波段及其組合,主要利用隨機森林模型對Sentinel-2 各個波段的遙感觀測數據以及多個植被指數和土壤含水量指數進行重要性排序,選取重要性較高的數據作為神經網絡模型的輸入層,對研究區內所有作物類型的灌區進行灌溉面積提取。通過對研究區進行植被覆蓋度分級,并針對在不同植被覆蓋度的農田的灌溉面積提取結果進行分析,最后結合實地數據對提取結果進行驗證。
研究區為山東省淄博市桓臺縣,介于北緯36°51′50″-37°06′00″,東經117°50′00″-118°10′40″,位于魯中山區和魯北平原的結合地帶,位于山東省中部偏北,淄博市北部(圖1),屬溫帶大陸性季風性氣候。研究區大部分為農業地區,農業植被面積占可利用面積的93.1%,且農田比較規整,地情簡單,較為適合進行灌溉面積提取研究。該地區的農作物以冬小麥和夏玉米為主。

圖1 桓臺縣 Sentinel -2 RGB合成影像Fig.1 Sentinel-2 RGB composite image of Huantai
Sentinel-2 是高分辨率多光譜成像衛星,搭載一枚多光譜成像儀(MSI),可用于陸地監測,可提供植被、土壤和水覆蓋、內陸水路及海岸區域等圖像,還可用于緊急救援服務。Sentinel-2 分為2A 和2B 兩顆衛星。分別于2015年6月23日、2017年3月7日以“織女星”運載火箭發射升空。單顆衛星重訪周期為10 d,兩顆衛星同時運行可使得重訪周期為5 d。數據于歐空局哥白尼數據中心下載(https://scihub.copernicus.eu/dhus/#/home)。
由于研究中所用的波段分辨率不相同,所以還需要對20 m 分辨率的幾個波段進行重采樣為10 m 分辨率。研究所需波段信息如表1所示。

表1 研究所用波段及其參數Tab.1 Bands used in the study and their parameters
用研究區內樣本田上傳的實際灌溉區域(圖2)作為樣本,共計43 塊樣本田(其中已灌溉樣本田16 塊,未灌溉樣本田27塊)。

圖2 研究區樣本田分布Fig.2 Sample field distribution in the study area
研究中使用的數據為Sentinel-2 衛星2022年3月份數據。3月份為灌溉高峰期,并且3月份具有較多的植被覆蓋度類型,有利于對不同植被覆蓋度下的農田灌溉面積提取結果進行研究分析。本文收集了3月2日和3月5日、3月15日和3月17日、3月27日和4月1日3 組衛星影像作為研究數據。產品級別主要是L1C級以及少部分的L2A級。其中L1C級數據是只經過正射校正和幾何精校正的大氣表觀反射率產品,并沒有進行大氣校正。L2A級數據則為經過大氣校正的大氣底層反射率數據。為保證影像光譜數據的原始性,只對L1C 級數據進行必要的大氣校正。
(1) 歸一化植被指數(NDVI)。歸一化植被指數(Normalized Difference Vegetation Index)是反應農作物長勢以及植被覆蓋情況的重要指標。定義為:
式中:NIR為近紅外波段的反射率;Red為紅光波段反射率。植被的生長中水分不足將影響作物正常生長并進而表現出植被指數的變化。因此,通過植被指數可以間接顯示灌溉情況。
(2)歸一化水指數(NDWI)。歸一化水指數(Normalized Difference Water Index)可以提取灌溉前后明顯的農田的灌溉面積信息。其表達式為:
式中:Green為綠光段反射率。
(3)土壤調整植被指數(MSAVI)。土壤調整植被指數(Modified Soil Adjusted Vegetation Index)可以減少土壤水分對灌溉面積提取的影響,從而更好的反應在研究區域植被狀況對灌溉面積提取的影響。其表達式:
(4)垂直干旱指數(PDI)。垂直干旱指數(Perpendicular Dry ness Index)可以反應土壤中的水分情況,尤其是適用于裸露地表的研究區域。對于植被覆蓋度較小農田的灌溉面積提取具有較大的影響。其模型表達式為:
式中:M為土壤線斜率。
(5)表層水分含量指數(SWCI)。表層水分含量指數(SWCI)是杜曉等發現短波紅外對葉片水含量變化較為敏感,并利用植被冠層和裸地在高光譜區域的反射和吸收光譜特征,提出的一種新的地表含水量指數模型,間接提取灌溉面積。表達式為:
式中:SWIR1、SWIR2是兩個短波紅外的反射率。
本文的灌溉面積提取算法是根據Sentinel-2 衛星分辨率為10 m 和20 m 的10 個波段地表反射率以及多種土壤濕度的指數所構建的。首先利用隨機森林對Sentinel-2 衛星數據的所有波段以及一些與土壤水含量相關的指數進行重要性排序,然后選取重要性排序較高的波段或指數差值作為神經網絡模型輸入層進行神經網絡提取。此外,對研究區域進行植被覆蓋度分級,并分析在不同植被覆蓋度下的灌溉面積提取結果精度變化。
隨機森林模型(Random Forest)[18]是一種比較新的機器學習模型(非線性基于樹的模型)集成學習方法。而隨機森林模型相較于其他模型有一個非常重要的優點,那就是重要性排序。在隨機森林中某個特征X的重要性的計算方法如下:
(1)對于隨機森林中的每一顆決策樹,使用相應的OOB(袋外數據)數據來計算它的袋外數據誤差,記為errOOB1。
(2)隨機地對袋外數據OOB 所有樣本的特征X加入噪聲干擾(就可以隨機的改變樣本在特征X 處的值),再次計算它的袋外數據誤差,記為errOOB2。
(3)假設隨機森林中有Ntree棵樹,那么對于特征X的重要性VIX為:
之所以可以用這個表達式來作為相應特征的重要性的度量值是因為:若給某個特征隨機加入噪聲之后,袋外的準確率大幅度降低,則說明這個特征對于樣本的分類結果影響很大,也就是說它的重要程度比較高。
本研究以10 個波段以及指數為自變量,是否灌溉為因變量,利用隨機森林模型的重要性排序獲取每一個自變量的顯著性。選取排序的較大重要性自變量作為之后神經網絡模型的灌溉面積提取的輸入層,對研究區域進行灌溉面積提取預測。
本文使用了BP 神經網絡模型作為此次研究的訓練模型。BP (Back Propagation) 神經網絡是1986年由Rumelhart 和McClelland 為首的科學家提出的概念,是一種按照誤差逆向傳播算法訓練的多層前饋神經網絡,是應用最廣泛的神經網絡模型之一 。
BP 神經網絡的學習過程由信號的正向傳播和誤差的反向傳播兩個過程組成。正向傳播時,把樣本的特征從輸入層進行輸入,信號經過各個隱藏層的處理后,最后從輸出層傳出。對于網絡的實際的輸出與期望輸出之間的誤差,把誤差信號從最后一層逐層反傳,從而獲得各個層的誤差學習信號,然后再根據誤差學習信號來修正各層神經元的權值。這種信號正向傳播與誤差反向傳播,然后各層調整權值的過程是周而復始地進行的。權值不斷調整的過程,也就是網絡學習訓練的過程。進行此過程直到網絡輸出誤差減小到預先設置的閾值以下,或者超過預先設置的最大訓練次數。
植被覆蓋度(Fraction Vegetation Coverage,FVC)通常被定義為植被(包括葉、莖、枝)在地面的垂直投影面積占統計區總面積的百分比,是刻畫地表植被覆蓋的重要參數,在植被變化、生態環境研究、水土保持、城市宜居等方面問題研究中起到重要作用。植被覆蓋度能夠直觀的反映一個地區綠的程度,是反應植被生長狀態的重要指標。其表達式為:
式中:NDVIsoil為純土壤像元的最小值,理論上接近于0;NDVIveg為純植被像元的最大值,理論上接近于1。實際上由于氣象、環境等各種外界條件的影響,不同影響的NDVIsoil和NDVIveg也會受到一定程度上的影響。
根據不同的植被覆蓋度劃分為5 個級別,分別記為Ⅰ、Ⅱ、Ⅲ、Ⅳ、Ⅴ,依次表示低覆蓋度、較低覆蓋度、中等覆蓋度、較高覆蓋度和高覆蓋度,如表2所示。

表2 植被覆蓋度分級標準Tab.2 Classification standard of vegetation coverage
Sentinel-2 衛星數據可分為分辨率為10、20、60 m 的波段,粗分辨率的遙感數據并不適用在區域性的灌溉面積提取研究中。所有本研究選取了Sentinel-2衛星數據的所有10 m 和20 m 分辨率波段數據作為特征參數。此外,考慮研究區內多種植被覆蓋類型,本研究還選取了一些植被以及土壤指數作為特征參數。選取NDVI、NDWI、MSAVI、PDI、SWCI這些指數較好的涵蓋了大部分的植被覆蓋類型,保證了在不同植被覆蓋度下的灌溉面積提取。通過將16 個特征參數放入隨機森林模型中進行重要性排序,獲得了不同特征參數對灌溉面積提取結果的重要性值。得到對灌溉面積提取影響較大的特征參數,并使用這些特征參數作為后續神經網絡的輸入層進行灌溉面積提取研究。
隨機森林的重要性排序結果圖如圖3所示,其中綠光和紅光波段以及近紅外波段和兩個短波紅外波段對灌溉面積提取影響較大。另外,本研究所選取的土壤濕度及植被含水量指數中,灌溉所用時間較短,短期內植被生長狀況并沒有顯著的變化,NDVI對灌溉面積提取影響很小,重要性低。NDWI對水體較為敏感,多用在淹沒灌溉提取研究,而研究區內灌溉量不能滿足淹沒灌溉,所以其對本研究的影響較小,在隨機森林中的重要性也很低。PDI指數對灌溉事件較為敏感。結合各波段光譜灌溉前后差值(圖4)對比進行驗證,重要性排序結果具有較高的可靠性。最終選取B3、B4、B8、B8a、B11波段以及PDI指數做為本次研究的參數。

圖3 重要性排序Fig.3 Importance order

圖4 各波段灌溉前后光譜變化Fig.4 Spectral changes before and after irrigation in each band
將隨機森林重要性排序選擇出來的影響因子較高的特征參數放入神經網絡模型中進行灌溉面積提取,得到灌溉面積提取的結果圖(見圖5)。

圖5 灌溉面積提取結果圖Fig.5 Extraction result of irrigation area
4.2.1 灌溉面積結果驗證
對神經網絡模型提取的灌溉面積進行統計,結果如表3所示。

表3 灌溉面積精度評估表Tab.3 Irrigation area accuracy evaluation
使用實際調查采集的樣本點數據進行驗證(表3),灌溉地區提取精度為75%,非灌溉地區提取精度為77.8%,總體灌溉精度為76.7%,Kappa系數為0.74。
4.2.2 不同植被覆蓋度灌溉面積提取結果分析
對研究區進行植被覆蓋度分級,分級后的灌溉面積提取結果如圖6所示。

圖6 不同植被覆蓋度的灌溉面積提取結果圖Fig.6 Irrigation area extraction result map of different vegetation coverage
從表4 和表5 可以看出,在中等和較高植被覆蓋度地區的灌溉樣本點共有30 個,正確提取26 個樣本點,準確率達到86.7%,灌溉面積提取點準確率較高,提取效果較好。這是由于研究區大部分地區為農業地區,作物以冬小麥和夏玉米為主,使用數據為3月中下旬衛星影像,此時期研究區大部分地區為中等和較高植被覆蓋度,隨機森林重要性排序選取的波段和指數適合在此植被覆蓋度所得出的結果。所以符合在此地情下進行灌溉面積提取在中等和較高植被覆蓋度地區具有更高精度的結果。

表4 已灌溉樣本點精度評估表Tab.4 Accuracy evaluation table of irrigated sample points

表5 未灌溉樣本點精度評估表Tab.5 Accuracy evaluation table for unirrigated sample points
區域的實際灌溉面積是對水資源合理利用的關鍵指標,灌溉面積監測是農業水資源利用和流域水資源管理等應用的基礎。基于目前光學衛星在區域灌溉探測識別研究中的方法,本文使用光學衛星數據構建了神經網絡模型進行灌溉面積提取研究。利用隨機森林模型對哨兵2 號衛星20 m 分辨率波段以及植被、土壤含水量相關系數進行重要性排序,構建與灌溉面積高相關度的神經網絡模型。并在山東省淄博市桓臺縣灌區進行灌溉面積提取,結合灌溉區域實地調查資料對提取結果進行驗證。本文結論如下:
(1)在基于光學衛星的灌溉面積提取研究中,可見光波段以及近紅外波段對于土壤灌溉事件具有更高的敏感度。使用機器學習的方法可以更加容易方便的得到這些與研究具有較強相關性的因子。
(2)根據灌溉面積結果可以看出,在研究區內的地情下重要性排序所選擇出的波段以及植被指數對較高植被覆蓋地區的灌溉面積提取結果更加準確。
(3)提出一種基于光學遙感衛星數據的神經網絡模型實現提取灌區實際灌溉面積方法,構建與灌溉事件高相關度的神經網絡模型對灌區進行探測。本文所提出的方法具有較好的適用性。依據灌區作物類型和植被覆蓋度選取植被以及土壤指數作為特征參數,對所有選取的特征進行重要性排序,使得此方法在不同地區地情下都可以較好的提取灌溉面積。且此方法只依賴單傳感器衛星,數據的獲取簡單快捷,可以更高效的提取灌區的灌溉面積。為灌區的現代化管理和水資源的合理分配等應用提供了可靠的技術支撐。但此方法依舊是基于光學遙感衛星,受到天氣等因素的干擾,難以獲取長時間序列的灌區灌溉面積信息,且精度稍低于光學和微波衛星聯合的研究方法。要實現大范圍的灌溉面積提取并提高精度,還需要進一步研究。