羅明帆,王冬至*
(1.廣東省國土資源測繪院,廣東 廣州 510500)
稻谷是我國南方最重要的糧食作物。國家一直把糧食安全保障作為頭等大事來抓,近年來又陸續出臺政策建設高標準基本農田、禁止亂占耕地建房等,從各方面提升水田質量,保障人民的糧食安全。我國的主要水稻產地絕大部分分布在以成都平原、長江中下游平原、珠江三角洲平原為代表的平原地區,其中珠江三角洲平原位于廣東省,是全省最重要的水稻供應基地。然而,廣東省屬亞熱帶季風氣候,臺風暴雨等極端氣候頻發,受分辨率、時相、云層等客觀條件的限制,一般的衛星光學影像不易開展遙感監測。
目前國內外已有不少針對水稻種植范圍提取的研究成果,其中閾值法是主流方法之一[1]。隨著大數據和機器學習應用的不斷拓展,隨機森林法逐漸成為提取水稻的重要方法,如雷小雨[2]等利用兩個時相的數據構建差值特征來突出水稻物候變化特點,并與隨機森林法相結合提取了水稻種植面積,完成了湖南省常德市鼎城區的水稻種植面積提取;宋盼盼[3]等提出了一種基于時間序列GF-1號遙感影像的水稻識別方法,驗證了NIR、R、NDVI時間序列曲線擬合的有效性以及擬合曲線目標特征區域設置的合理性;栗云峰[4]等提出了一種融合多時相的GF-1號衛星多光譜影像和Sentinel-1雷達影像的水稻田提取方法,并在南京市江寧區進行了研究。總體而言,受不同地區的水稻生長狀況和季節變化影響,不同的水稻提取方法的效果可能存在差異。由于遙感影像質量和周期等的影響,目前的水稻提取研究主要仍集中在小區域范圍的提取研究實驗上[5-6],大范圍的水稻提取應用對比研究還比較缺乏,因此本文以珠三角地區為研究對象,基于長時間序列的SAR和多光譜遙感影像,利用閾值法和隨機森林法進行水稻提取,并對兩種方法的提取效果進行了比較,以期為廣東省的水稻提取提供思路。
本文選取的研究區為珠江三角洲平原所在的廣東省珠三角地區,涉及廣州、深圳、佛山、東莞、惠州、江門、珠海、中山、肇慶等9個地級市。珠三角地區大部分位于北回歸線以南,南亞熱帶;屬亞熱帶海洋季風氣候,雨量充沛,熱量充足,雨熱同季;年日照為2 000 h,四季分布比較均勻;年平均氣溫為21.4~22.4℃;年平均降雨量為1 600~2 300 mm,受季風氣候影響,降雨量集中在4-9月;冬季盛行偏北風、天氣干燥,夏季盛行西南和東南風、高溫多雨。其中,江門市的水稻種植最多,素有“珠三角的糧倉”之稱。
1.2.1 SAR數據
Sentinel-1衛星為全天時、全天候雷達成像,不受天氣影響。本文采用經過預處理(軌道校正、熱噪聲去除、輻射校正、幾何校正和斑點噪聲抑制)的2019年12個月的珠三角地區的Sentinel-1影像數據,極化方式為VV和VH極化。
1.2.2 多光譜數據
Sentinel-2A衛星攜帶一臺多光譜成像儀,可覆蓋13個光譜波段,從可見光和近紅外到短波紅外,具有不同的空間分辨率。該衛星數據在紅邊范圍含有3個波段,有利于監測植被健康信息。廣東省水稻種植類型多為雙季稻,第一季稻在上半年種植,光譜信息易被云層遮擋;第二季稻在下半年種植,一般為農歷7月中旬到7月底種植,農歷10月中旬成熟。因此,本文主要采用7月、9月、11月(對應水稻種植初期、水稻種植后期和水稻收割后)的Sentinel-2A遙感影像數據,并根據去云算法對云覆蓋區域進行掩膜。將每個月份的多張影像進行云掩膜處理后取中值,最終采用一張影像代表一個月的數據,作為實驗的分類數據。
1.2.3 樣本選取
本文選取的樣本主要包括水稻、旱地、林地和其他(水體和城市用地)等,通過目視解譯Sentinel-2A影像選取水體和城市用地樣本;通過目視解譯Sentinel-2A影像并結合廣東省當年的高分辨率影像數據選取林地樣本;通過目視解譯Sentinel-2A影像和高分辨率影像數據,并結合12個月的改進的歸一化水體指數(MNDWI)選取水稻和旱地樣本(水稻3月和8月的MNDWI值明顯大于0.1,而旱地全年的MNDWI值均小于0)。選取的樣本類型、定義和數量如表1所示。將選取的樣本進行隨機抽樣,按照“訓練數據∶驗證數據=3∶1”的比例進行后續訓練與驗證。

表1 樣本類型、定義和數量
1)閾值法。閾值法是目前較成熟的水稻識別方法,通過對選取的水稻樣本2019年12個月的NDVI和MNDWI的平均值進行統計,可得到研究區的樣本特征值區別于旱地、林地和其他地物的水體和植被特征的實際情況,再根據不同時間的NDVI和MNDWI設置閾值提取水稻。本文將6月和10月的NDVI均值大于0.4,且3月和7月的MNDWI均值大于0.1作為判斷水稻的依據。
2)隨機森林法。隨機森林法是一種基于分類樹的算法[7],可在進行回歸或分類時評估變量的重要性[8],在運算量沒有顯著提高的前提下提高預測精度。本文利用隨機森林法,基于Sentinel-1數據和Sentinel-2A數據,采用不同的特征組合進行水稻提取和檢測,并分析各特征和組合特征的重要性,以發現對于提取水稻比較好的特征與特征組合,從而得到較高精度的水稻分類結果。
本文利用2019年7月、9月、11月的Sentinel-2A數據以及2019年12個月的Sentinel-1數據獲得光譜特征、多種植被指數、水體指數、紋理特征以及預處理后的VV、VH極化特征。其中,植被指數包括NDVI、增強型植被指數(EVI)[9]、兩波段增強型植被指數(EVI2)、歸一化紅外指數(NDII)[10];水體指數包括MNDWI和對葉片水分和土壤水分敏感的地面水指數(LSWI)[9]。
根據水稻的水體屬性和植被屬性,對每幅Sentinel-2A影像的紅邊、近紅外、短波紅外波段(本文選擇Sentinel-2A的B6、B8、B11和B12,其中B6為紅邊波段,B8為近紅外波段、B11和B12為短波紅外波段)進行基于3×3窗口的紋理濾波計算。紋理參數包括均值、方差、對比度、相關性,因此每個月的影像有共計4×4=16種紋理特征。
Sentinel-1的VV和VH極化都能在不同程度上體現地物特征[11],因此本文提取了2019年12個月的Sentinel-1的VV、VH極化特征,并納入特征集。選取的各種特征如表2所示。

表2 選取特征匯總表
本文首先利用2019年3月、6月、7月、10月的Sentinel-2A影像提取2019年6月、10月的NDVI數據以及3月、7月的MNDWI數據;再根據閾值法得到珠三角地區水稻分類結果,并進行精度驗證;然后利用2019年7月、9月、11月的 Sentinel-2A影像進行光譜特征、多種植被指數、水體指數和紋理特征的提取,根據2019年12個月的Sentinel-1數據得到12個月的VV、VH波段數據,并對光譜特征、多種植被指數、水體指數、紋理特征和VV、VH數據進行特征組合得到隨機森林分類結果,計算精度驗證結果;最后將閾值法與隨機森林法得到的結果進行對比綜合,得到精度較好的珠三角地區水稻提取結果,如圖1所示。

圖1 研究思路圖
閾值法的分類結果如圖2所示,隨機森林法的分類結果如圖3所示,可以看出,利用閾值法提取的水稻分布情況與利用SAR特征隨機森林分類提取的水稻分布情況相似(藍色線區域),但后者提取的水稻明顯更多一些;利用光譜特征隨機森林分類提取的水稻分布情況與利用植被指數和水體指數提取的植被分布情況相似(紅色線區域);利用紋理特征隨機森林分類提取的水稻較少,相對于其他的分類結果少了很多細碎的點。

圖2 閾值法(NDVI+MNDWI提取)的分類結果

圖3 隨機森林法的分類結果
通過選取的驗證樣本對分類結果進行精度驗證,結果如表3所示,可以看出,閾值法提取的水稻總體精度(OA)、Kappa系數、查全率(Recall)、F1score都是最低的,但查準率(Precision)卻是最高的;光譜特征隨機森林分類得到的各項精度指標均優于其他特征隨機森林分類結果。通過比較發現,大范圍內不同地區的水稻灌溉時間差異較大,閾值法所采用的模型相對簡單,不能很好地判斷這種差異與其他地物的區別;而隨機森林法使用的模型更復雜,能較好地避開水稻灌溉時間差異對識別的影響。

表3 選取樣本的精度驗證的結果
光譜特征和植被指數+水體指數的分類結果的Kappa系數均在0.95之上,SAR特征和紋理特征的分類結果的Kappa系數在0.85~0.9之間。根據SAR特征、光譜特征和植被指數+水體指數的水稻分類結果的面積相差不大,而利用閾值法和紋理特征隨機森林分類得到的水稻提取面積明顯低于其他3種分類結果。
本文將不同的特征組合作為輸入特征進行隨機森林分類,特征組合包括:①光譜特征+植被指數+水體指數;②光譜特征+紋理特征;③光譜特征+SAR特征。3種特征組合進行隨機森林分類得到的水稻分布情況相似,進一步驗證精度,得到的結果如表4所示。當光譜特征與植被指數+水體指數進行組合時,分類精度相較于只采用光譜特征的精度提升至0.99左右;當光譜特征與植被指數+SAR特征進行組合時,分類精度相較于只采用光譜特征的精度由0.98降至0.95左右。

表4 組合特征精度驗證結果
本文分別利用閾值法和隨機森林法進行水稻種植面積提取,結果表明,閾值法提取的水稻數量的Kappa系數、OA、F1score、Recall等指標均明顯低于隨機森林法的提取結果,但閾值法提取的水稻的Precision非常高。在僅采用單類特征進行隨機森林分類的情況下,光譜特征的分類效果最好,其次是植被指數+水體指數,兩種分類結果的Kappa系數均在0.95之上;而SAR特征和紋理特征的分類結果的Kappa系數在0.85~0.9之間。將光譜特征與其他特征進行組合發現,當光譜特征與植被指數+水體指數進行組合時,分類精度相較于只采用光譜特征的精度提升至0.99左右;當光譜特征與植被指數+SAR特征進行組合時,分類精度相較于只采用光譜特征的精度明顯下降,從0.98降至0.95左右。今后需要改進的方向為:
1)樣本數量。本文選取的樣本較少,但保證了樣本的均勻分布和可靠性,并對結果的有效性進行了驗證,今后可選取更多的樣本進行訓練,以提高識別精度。
2)樣本類型。本文得到的分類器可以很好地區分水稻和旱地,但與水稻易混淆的地物還有其他水生農作物(如蓮藕)。由于僅靠目視解譯難以選出其他水生農作物的樣本,因此本文選取的樣本主要為旱地作物的樣本。雖然水生農作物的面積相對于水稻面積來說只有很少一部分,但若有一些樣本可以用來訓練的話,得到的水稻提取效果將更好,且分類時,紋理特征作用也將更明顯。
3)面積對比。由于未在統計年鑒上找到珠三角地區各市關于稻田面積的統計,因此本文未能將分類結果得到的面積與實際稻田面積進行對比,查看分類面積情況。
4)特征組合。本文對一些特征組合進行分類發現,光譜特征與植被指數+水體指數進行組合時的分類效果最好,今后可進行更加細致的特征組合,得到更加優化的特征組合結果。