李亞妮,曹建君,楊樹文,李 霞,劉尚欽
(1.蘭州交通大學測繪與地理信息學院,甘肅蘭州730070;2.地理國情監測技術應用國家地方聯合工程研究中心,甘肅蘭州730070;3.甘肅省地理國情監測工程實驗室,甘肅蘭州730070;4.甘肅省自然資源技能鑒定指導中心,甘肅蘭州730070;5.甘肅省基礎地理信息中心,甘肅蘭州730070)
隨著城鎮化的快速發展和中國人口數量的不斷增加,糧食安全已經成為人們最關注的問題。目前,中國的糧食安全存在區域結構矛盾突出、生產收益低、質量安全隱患多等問題[1]。及時準確獲取作物的種植面積信息是掌握區域作物生產狀況、調整作物種植結構以及優化農業資源配置的基礎,對宏觀經濟、糧食安全、農業決策、環境保護等方面具有重要意義[2]。
獲取作物種植面積信息主要有2種方式:一是通過問卷調查,并按行政單元逐層上報,該方式不僅耗時耗力、存在人為干擾,而且無法獲取精確的空間分布信息[3],不宜廣泛推廣使用。二是利用遙感影像監測農作物種植面積,該方式具有空間宏觀性高、數據易獲取、光譜信息豐富、時間密度較高和成本相對較低等特點,已被廣泛應用[4]。
由于中分辨率成像光譜儀(Moderate-resolution imaging spectroradiometer,MODIS)具有重訪周期短的特點,可對作物生長過程進行高頻次動態變化監測。目前研究中利用MODIS數據通過多時相或者時間序列分析方法提取時序特征可實現大尺度作物分類。如賈博中等[5]基于MODIS數據構建了2019年4-9月的時間序列數據,對內蒙古沿黃平原6種主要農作物(小麥、葵花、玉米、苜蓿、西葫蘆和番茄)的空間分布信息進行識別,最后作物總體分類精度達到78.29%,Kappa系數為0.747。王凱等[6]基于MODIS數據對2008-2013年湖北省油菜種植分布信息進行提取。楊歡等[7]利用MODIS數據構建了2009-2010年時序曲線對江漢平原冬小麥和油菜的種植信息進行識別,最終冬小麥和油菜作物總體分類精度分別為87.1%和93.7%。但由于MODIS數據空間分辨率較低且存在混合像元,難以滿足復雜地形的動態監測要求。隨著高空間分辨率衛星的迅速發展,中國高分系列衛星數據可反映地物精細的空間結構。近年來,一些學者利用高分系列衛星數據通過面向對象等方法可實現小區域作物精細制圖。如王梓銘[8]利用GF-2數據構建了基于面向對象的農作物分類模型,對長春市雙陽區玉米和水稻進行分類識別。單治彬等[9]使用GF-1數據構建了面向對象的支持向量機SVM分類方法對寧夏回族自治區特色農作物硒砂瓜、枸杞、大棗空間分布進行識別,最終總體分類精度達到94.94%,Kappa系數為0.917 4。張飛飛等[10]利用GF-2數據使用規則集的面向對象的方法對安徽省六安市蘇埠鎮大麻地塊進行提取,平均分類精度可達91.09%。但是由于中國高分系列衛星數據光譜波段有限,易導致光譜信息相似的易混淆作物錯分[11]。而Sentinel-2數據由歐洲航天局(European Space Agency,ESA)提供,具有重訪周期短、空間分辨率高、波段數量多、完全開源等優勢,可以大幅度推進復雜地形易混淆作物的常規全球監測進程。如何昭欣等[12]利用Sentinel-2數據對江蘇省冬小麥和冬油菜的空間分布信息進行提取,在小麥拔節期,油菜正處于開花期,此時兩者的光譜信息相差很大,是區分小麥和油菜的最佳時間階段。陶莉等[13]以長江中下游丘陵地帶為研究區,利用Sentinel-2數據識別復雜農作物的種植結構。
近年來學者對農作物分類的研究區域主要集中于小區域或者地勢平坦的平原,多是鑒于小區域節省財力物力、平原地塊形態規整、作物種植類型單一,是作物分類的理想場所。而與小區域、平原地區不同,大尺度復雜地形區域的作物分類研究較少,因為大尺度地形復雜區域的研究存在許多困難。以中國甘肅省為例,主要的挑戰在于:甘肅省地域遼闊,地形復雜,多為山地和高原;地塊零散分布,大多細小破碎。小麥和油菜是甘肅省的主要夏收作物,由于其光譜信息相似,分類時易混淆,且一年多熟,存在間作套種現象,導致小麥和油菜種植面積和空間分布信息獲取艱難。因此,開展大區域復雜地形夏收作物分類提取研究對農業可持續發展具有重要意義。很多研究結果表明,由于作物分布復雜、數據量大,簡單應用長時間序列光譜特征很難提取大面積作物類型[14],因此在特定時間將目標作物的光譜指標和獨特物候信號結合起來,是大尺度、高分辨率作物制圖所必需的先決條件[15]。面向對象方法可完成小區域作物分類優化,但由于其對大尺度區域地形的識別計算量大,速度慢,并且對地塊細節識別不好,導致該方法不適合大尺度復雜區域作物分類。而決策樹方法規則簡單易懂,計算速度快,能夠處理不同尺度的數據[16]。
本研究以大尺度、地貌復雜的甘肅省為研究區,利用時序Sentinel-2數據分別計算NDVI和黃度值,采用決策樹方法對研究區的易混淆主要夏收作物小麥和油菜的面積進行提取,并繪制2021年甘肅省小麥和油菜的空間分布圖,結合樣本點的驗證結果來對比分析甘肅省不同區域作物提取精度,以探討Sentinel-2數據采用決策樹方法應用于大尺度復雜區域作物分類研究的可行性,為大尺度復雜區域作物空間分布信息提取提供技術支撐和理論依據。
甘肅省位于中國西北部(32°11′N~42°57′N,92°13′E~108°46′E),地處青藏高原、內蒙古高原與黃土高原的交界處,總面積4.559×105km2。境內地形呈狹長狀,地貌復雜多樣,山地、高原、平原、戈壁和沙漠等縱橫交錯,山地、高原占總面積的70.00%以上,西北部沙漠和戈壁約占總面積的14.99%,海拔自西南向東北遞減(圖 1)。由于其獨特的地理位置和地形,大部分地區氣候相對干燥,早晚溫差大,日照充足。而降水受季風影響顯著,主要集中在6-8月,降雨量大致自東南-西北遞減。

該圖基于自然資源部標準地圖服務網站審圖號為GS(2019)3333號的標準地圖制作,底圖無修改。
甘肅省主要作物有小麥、玉米、油菜、馬鈴薯和棉花等[17]。其中,主要夏收作物小麥和油菜的物候期相似且存在混雜種植現象(表1),在遙感識別中容易造成混淆。此外,冬小麥主要種植區域為平涼、慶陽、天水、隴南等地,春小麥主要種植區域為河西地區、中部沿黃灌溉區、甘南等地[18];冬油菜主要種植在隴東南等地,春油菜主要種植在祁連山、甘南高原、河西走廊等地[19]。

表1 甘肅省小麥和油菜物候期
1.2.1 Sentinel-2影像及預處理 以ESA數據共享網站(https://scihub.copernicus.eu/)提供的Sentinel-2影像作為主要數據源。Sentinel-2衛星攜帶著一臺多光譜成像儀(Multiple spectral instrument,MSI),由2A和2B 2顆衛星組成,其空間分辨率高達10 m,雙星互補,重訪周期達到5 d。Sentinel-2數據有13個光譜波段,涵蓋可見光、近紅外和短波紅外波譜范圍,可以有效地監測植被信息。為確保研究區影像質量,所選影像云量均小于10%。為了充分覆蓋整個研究區域和小麥、油菜的關鍵物候期,獲取成像時間為2021年5月6日至2021年7月28日,共209景影像。由于甘肅省幅員遼闊,地域跨度大,不同區域的農作物物候期差異較大,為減少物候差異對數據及提取精度的影響,在實際提取中采用分市(州)方式進行影像處理與作物提取。所選影像利用Sen2cor插件進行大氣校正,使用SNAP軟件重采樣為10 m分辨率,并保存為ENVI格式,完成影像波段合成、鑲嵌和裁剪步驟后,最終得到研究區范圍的待分類影像。
1.2.2 輔助數據 使用的輔助數據包括甘肅省行政邊界矢量數據、甘肅省耕地矢量數據和數字高程模型DEM數據。行政邊界矢量數據和耕地矢量數據均由甘肅省自然資源廳提供。耕地矢量數據主要用于剔除分類結果中的非耕地區域,以確保作物提取結果準確。DEM數據在地理空間數據云(https://www.gscloud.cn/)獲取,空間分辨率為90 m,主要用于作物分布地形分析。
1.2.3 樣本數據 樣本數據由野外實地調查點和Google Earth高分辨率影像采集點的數據組成。2021年5月24日至2021年6月12日在甘肅省各市(州)分別選擇一個縣進行野外實地調查,利用手持GPS采集樣本點坐標。由于研究區面積過大,均勻采集實地測量點數據難以實現,因此在2021年5月至7月的高清Google Earth影像上遵循空間分布均勻原則選擇樣本點作為補充。共獲取5 670個樣本點,其中小麥2 860個,油菜1 348個,其他地物1 462個。按照7∶3的比例將樣本劃分為訓練樣本(3 969個)和驗證樣本(1 701個)。
基于像素分類思想,提取甘肅省小麥和油菜的光譜特征,選取決策樹模型進行分類,以探討Sentinel-2數據的光譜特征應用于復雜地形作物分類研究的可行性。具體方法流程:(1)對整個甘肅省采用分市(州)的方式獲取作物的最佳時相遙感影像并進行預處理。(2)提取小麥和油菜的光譜特征(NDVI指數和黃度值)。(3)利用光譜特征使用決策樹方法提取小麥和油菜分布信息,得到2021年甘肅省小麥和油菜分布圖,并對其空間分布進行分析。(4)利用樣本點驗證甘肅省各市(州)提取精度,分析影響各市(州)提取精度的因素。技術流程圖如圖2所示。

圖2 甘肅省小麥和油菜遙感提取流程圖
1.3.1 計算光譜特征 選取2021年5月至2021年7月的Sentinel-2影像,通過組合波段4(紅)、組合波段3(綠)、組合波段2(藍)從真彩色影像中提取小麥和油菜信息。小麥處于抽穗期,影像上呈綠色;油菜處于開花期,影像上呈黃色;小麥和油菜均收割,影像上呈裸地狀態。因此,利用開花期油菜影像的黃度值比小麥的大這一關鍵特征[20]對小麥和油菜進行提取。黃度值Y的計算公式如公式(1)所示:
Y=DNG-DNB
(1)
式中,DNG為綠光波段的光譜值,DNB為藍光波段的光譜值。
NDVI可用于作物監測,其數值的變化大小和作物生長過程相對應[ 21]。NDVI的計算公式如式(2)所示:
(2)
式中,ρNIR為近紅外波段的反射率值,ρR為紅光波段的反射率值。
1.3.2 分類方法 決策樹分類是一種圖像分類方法,即對一組訓練數據特征進行歸納推理,建立樹形結構,對圖像各類信息進行比較,得到新的分支當作新的節點更新規則,繼續分類直到最終得到滿意的分類結果[22]。
針對每個市(州),標記訓練樣本,計算特定物候期的光譜值,比較小麥和油菜的光譜特征差異。以5月NDVI值為第1波段,以7月NDVI為第2波段,以黃度值為第3波段,獲取波段特征圖,尋找小麥和油菜的最佳波段與閾值。5月的小麥和油菜處于生長期,對應地塊NDVI值較高;7月的小麥和油菜已收割,對應地塊NDVI值大幅降低;5月油菜的黃度值比小麥的黃度值高(圖3)。不同的市(州),小麥和油菜的物候期不同,構建的決策樹也有所不同。不同的市(州)通過不斷調整光譜指標的閾值達到最優的分類效果,從而獲得適合整個甘肅省夏收作物分類的閾值范圍。

圖3 甘肅省夏收作物分類的決策樹模型
1.3.3 精度驗證方法 利用驗證樣本數據,構建混淆矩陣,通過計算生產者精度(PA)、用戶精度(UA)、總體精度(OA)和Kappa系數(Kappa)進行精度驗證[23]。
(3)
(4)
(5)
(6)
上述式(3~6)中,Xii表示第i行i列的值,Xi+表示第i行的總和,X+i表示第i列的總和,M、n分別表示驗證樣本總數和分類類別總數。
由于甘肅省幅員遼闊、影像數據多,因此選擇小麥和油菜分布較多且地形屬于黃土高原溝壑的慶陽市作為參考區,分別采用基于支持向量機的監督分類、基于尺度分割的閾值分類和基于時序影像特征的決策樹分類3種方法獲取小麥和油菜種植分布信息(圖4)。其中,基于支持向量機的監督分類使用徑向基函數(RBF)作為核函數,核函數參數為0.01,懲罰因子為100。基于尺度分割的閾值分類中,分割尺度為80,合并尺度為10,紋理核大小為3,分類規則為5月NDVI>0.42,7月NDVI<0.3,黃度值>620,將小麥和油菜的面積信息提取出來。從圖4中可以看出基于尺度分割的閾值分類法圖(4b)和基于時序影像特征的決策樹分類法圖(4c)的分類結果較為接近,但基于支持向量機的監督分類法圖(4a)存在將其他作物錯分為油菜的現象。對比不同方法分類精度(表2)可知,基于時序影像特征的決策樹分類法總體精度為82.6%,Kappa系數為0.81,運行時間為3 min,與基于尺度分割的閾值分類法相比精度差異微小,但節省運行時間65 min,與基于支持向量機的監督分類法相比精度提高了9.1個百分點,節省運行時間136 min。因此,選用基于時序影像特征的決策樹分類法對整個甘肅省的小麥和油菜進行分類。

圖4 慶陽市小麥和油菜不同方法提取結果對比

表2 慶陽市不同分類結果精度的對比
甘肅省小麥和油菜種植區域主要位于東南部地區,河西地區種植面積較少,均零散分布,總體上呈現由北向南遞增的趨勢(圖5)。甘肅省各市(州)小麥和油菜提取面積如表3所示。2021年甘肅省遙感提取的小麥和油菜種植面積共2.461 65×105hm2,其中小麥種植總面積為2.084 99×105hm2,油菜種植總面積為3.766 6×104hm2,小麥的種植面積約為油菜種植面積的5.5倍。

表3 甘肅省各市(州)遙感提取的小麥和油菜面積

該圖基于自然資源部標準地圖服務網站審圖號為GS(2019)3333號的標準地圖制作,底圖無修改。
河西地區的酒泉市和嘉峪關市小麥總面積為6.676×103hm2,占全省小麥種植總面積的3.2%;中部的張掖市、武威市、蘭州市、白銀市、臨夏回族自治州等小麥種植面積分別占全省小麥種植總面積的7.6%、10.2%、1.6%、8.1%、4.0%,其中張掖市的民樂縣和山丹縣、武威市的涼州區和古浪縣、白銀市的會寧縣,以及臨夏回族自治州的臨夏縣和康樂縣等是小麥種植區較為集中的縣區。東南部地區的天水市小麥種植面積為3.917 7×104hm2,占全省小麥種植總面積的18.8%,主要分布于天水市的清水縣、秦安縣以及甘谷縣。慶陽市小麥種植面積為3.573 8×104hm2,占全省小麥種植總面積的17.1%,其中慶城縣、環縣、寧縣、鎮原縣是慶陽市小麥面積較多的縣區。平涼市和隴南市小麥種植面積分別為3.056 5×104hm2、1.569 2×104hm2,占全省小麥種植總面積的14.7%、7.5%。油菜主要分布于甘肅省的東南部地區,包括天水市、隴南市、平涼市、慶陽市等,油菜種植面積共為2.074 2×104hm2,占全省油菜種植總面積的55.1%,而甘肅省中部、河西地區油菜的種植面積較少。
為了檢驗研究區小麥和油菜的分類精度,利用驗證樣本,構建混淆矩陣,分別計算甘肅省14個市(州)小麥和油菜面積信息提取總體精度和Kappa系數(表4)。甘肅省小麥和油菜提取平均總體精度為87.4%,結果表明甘肅省小麥和油菜的提取效果好,與野外實地調查點、谷歌地圖影像樣本點高度一致。

表4 甘肅省各市(州)小麥和油菜的分類精度
總的來看,甘肅省中部地區白銀市、蘭州市、臨夏回族自治州小麥和油菜提取平均總體精度為92.4%,分類精度較好。河西地區酒泉市、張掖市、嘉峪關市、武威市、金昌市小麥和油菜平均總體精度為87.7%,低于中部地區4.7%,分類精度有微小誤差,主要由于這里種植的藥材(甘草)、豌豆和正值抽穗期的玉米光譜信息與油菜相似,因此解譯結果有誤差。東南部地區天水市、平涼市、慶陽市、隴南市、定西市以及甘南藏族自治州等小麥和油菜提取平均總體精度為82.0%,低于中部地區(10.4%),也存在一些分類精度誤差,主要由于這里地勢復雜,山地居多,造成耕地破碎度較高,形狀不規則,而所用的Sentinel-2影像分辨率相對較低,存在大量混合像元,因此給作物分類帶來了困難。
本研究使用時序Sentinel-2數據,計算NDVI指數和黃度值,利用決策樹方法進行甘肅省小麥和油菜面積提取,其分類的平均總體精度為87.4%,其中,甘肅省中部地區平均總體精度為92.4%,河西地區平均總體精度為87.7%,東南部地區平均總體精度為82.0%。結果表明,基于Sentinel-2衛星影像采用決策樹方法進行大尺度復雜區域、高分辨率作物制圖是可行的,可為當地農業部門開展農情調查、長勢評估等工作提供依據。
雖然本研究精確提取了甘肅省小麥和油菜的空間分布信息,但是仍存在一些影響提取精度的因素。(1)云量:對于云與云影覆蓋的地區無法提取,因此部分作物區域存在空缺。在未來研究中,為了不受天氣影響,可以結合Sentinel-1數據進行作物制圖。(2)混合像元:由于甘肅省東南部耕地以梯田與坡耕地為主,地塊多呈狹長帶狀分布,面積較小,而Sentinel-2圖像空間分辨率為10 m,因此存在混合像元使分類結果產生誤差。在未來的研究中,可以基于更高空間分辨率的影像,采用深度學習的方法,來提高大尺度復雜區域作物的提取精度和速度。(3)不同地區影響:由于氣候差異,不同地區的小麥和油菜物候期不同。雖然本研究分市(州)進行作物提取,但是作物物候期還是存在微小差異。此外,探討不同區域地理環境對提取精度的影響,也是未來大尺度復雜地區作物制圖研究的趨勢。