鄧繼忠,劉其得,王長委 ,江秀明,朱 圣,袁梓文 ,金 鑫,朱紫陽
(1.華南農業大學工程學院,廣東 廣州 510642;2.國家精準農業航空施藥技術國際聯合研究中心,廣東 廣州 510642;3.華南農業大學資源環境學院/廣東省土地利用與整治重點實驗室,廣東 廣州 510642;4.廣東省國土資源測繪院,廣東 廣州 510642)
【研究意義】獲取地表覆蓋情況,明晰主要農作物種植分布及范圍,不僅有利于農業部門制定政策與發展規劃,而且對農業企業經營管理、農戶生產選擇及資源的有效規劃具有重要作用[1-5]。【前人研究進展】李慶等[6]采用隨機森林的方法對7期landsat影像進行分類,總體精度達到88.9027%,Kappa系數達到0.8529,均優于單景數據的分類結果;呂紅梅等[7]結合多時相歸一化植被指數和地表水分指數,利用決策樹分類方法提取早稻種植區域,早稻的用戶精度達到87.50%,制圖精度達到85.71%;魏鵬飛等[8]結合 NDVI、EVI和 WDRVI時序變化特征,利用6景GF-1/WFV衛星遙感影像數據采用決策樹分層分類方法成功提取了研究區玉米、水稻、大豆和甘薯4種主要作物種植空間分布情況,總體精度達到90.90%,Kappa系數為0.8950;李振等[9]基于多時相的Landsat-8數據,采用面向對象的決策樹分類方法,研究森林類型的自動識別,總體分類精度達到了87.50%;申懷飛[10]提出了基于穩定權重加權投票的多訓練樣本集、多時相影像、多分類器三重融合算法模式,對Landsat數據進行分類,總體精度達到83.09%;Marais等[11]的研究結果表明分類的質量往往隨著所用圖像波段的增加而增加;Deepa等[12]綜合了粗糙集、模糊集和軟集的方法,建立了一個多類分類模型,采用雙目標軟集方法,對5種農作物進行分類,驗證數據集的準確率達到92%;白燕英等[13]基于Landsat8影像時間序列歸一化植被指數(NDVI),采用決策樹分類方法提取作物種植結構,作物分類總體精度達到82.69%;邱鵬勛等[14]利用 GF-1 WFV時間序列數據集計算NDVI,基于時間加權的動態時間彎曲(TWDTW)方法開展農作物分類識別研究,分類精度相比于決策樹法略有提高;解毅等[15]研究結果表明,基于融合NDVI的分類精度明顯高于基于Landsat NDVI的分類精度,由于融合后的時序NDVI具有更高的時間分辨率,能夠更加突出不同作物的物候特征,顯著提高作物分類精度。綜上所述,相比單景數據多時相數據能夠顯著提高分類效果,構建遙感指數對于分類具有重要貢獻。【本研究切入點】對于生育期相近的農作物,遙感指數在時間序列上的變化特征相近,單獨采用個別指數難以區分這部分地物。此外,同一農作物受長勢影響,指數值域跨度大,容易與其他農作物混淆,人為閾值與自動閾值都不能很好的區分不同農作物?!緮M解決的關鍵問題】本研究以石河子市北泉鎮為研究區域,采用2018年的Sentinel-2衛星多時相數據,結合地面調查數據,分析單一農作物提取的最佳時相,探究多時相數據對分類精度的貢獻及時相最佳組合方式,比較不同分類方法的分類精度,探究一種可靠有效的分類方法。
研究區位于石河子市北泉鎮,地處天山北麓中段,準噶爾盆地南緣(圖1)。區劃東至瑪納斯河,西臨沙灣縣,南接石河子市,北瀕蘑菇湖,面積475.7 km2。研究區地勢平坦,平均海拔450.8 m,屬典型的溫帶大陸性氣候,冬季長而嚴寒,夏季短而炎熱,日照充沛,年日照時數為2 721~2 818 h,可以獲取云量覆蓋較少的長時間序列衛星數據。目前研究區主要作物有棉花、玉米、小麥、辣椒、葡萄等。

圖1 研究區域位置Fig.1 Location map of study area
Sentinel-2衛星搭載的有效荷載為多光譜成像儀,光譜范圍為0.4~2.4 μm,覆蓋可見光、近紅外、短波紅外,共13個光譜波段,B02、B03、B04、B08為10 m空間分辨率,B05-B8A、B11、B12為20 m空間分辨率,B01、B09、B10為60 m空間分辨率,幅寬290 km,每10 d更新1次全球陸地表面成像數據,雙星可達到5 d更新1次,因而能夠獲得實驗區內較高頻次的數據覆蓋,更好地反映農作物生長過程,為進一步挖掘作物識別的時相特征提供支持。Sentinel-2光學遙感衛星具有較高的時空分辨率,適合多時相分類研究[16-17]。本研究采用Sentnel-2衛星數據,選取時相為2018年3月23日、4月12日、5月12日、6月6日、7月11日、8月15日、9月14日、10月14日、11月5日,獲取研究區域2018年3—11月各1景數據,云覆蓋率皆低于1%,影像清晰。
部分數據是實地調查記錄地物信息及GPS位置信息,部分較明顯的地物則直接在衛星影像上標出,共標記水域、非植被區域、棉花、小麥、早玉米、晚玉米、辣椒、葫蘆瓜、葡萄、樹10種地物。將樣本分為訓練樣本和驗證樣本,具體分布見圖2、圖3,樣本數見表1。

圖2 訓練樣本分布Fig.2 Distribution diagram of training samples

圖3 驗證樣本分布Fig.3 Distribution diagram of verification samples

表1 樣本數Table 1 Sample size
遙感指數作為遙感信息的一種有效描述,在對大氣、海洋、土壤和植被等進行定性、定量評估時具有重要意義[18]。目前,農作物分類的特征選擇主要是采用歸一化植被指數,而其他特征量的應用還相對較少[19]。研究發現NDVI、改進的歸一化差異水指數(MNDWI)、顏色指數(CI)和樣本分類的相關性比較高,因此本研究采用這3種指數進行研究區多時項農作物的分類。
NDVI是一種測定光合作用活性的方法,與植被的密度和活力密切相關。正態化減少了地形和大氣的影響,并使大范圍的同時監測成為可能。NDVI計算可以將多波段數據變換成一個單獨的圖像波段,用于顯示植被分布,較高的NDVI值預示著包含較多的綠色植被。其計算公式如下:

式中,NIR為近紅外波段的反射率,Red為紅波段的反射率。
MNDWI是由徐涵秋[20]在2005年提出的,可以增強開闊水域的特征,同時有效地抑制甚至消除建成區噪聲以及植被和土壤噪聲。水的增強程度越高,對開闊水域的特征提取就越準確,因為建成區、土壤和植被的所有負值都被明顯地抑制甚至去除。其計算公式如下:

式中,Green為綠波段的反射率,MIR為中紅外波段的反射率。
Pouget等[21]在1990年提出了顏色指數(CI)算法來區分田間土壤,低值的CI已被證明與高濃度的碳酸鹽或硫酸鹽的存在有關,而高值則與干旱地區的結殼土壤和沙子有關。在大多數情況下,CI提供與NDVI互補的信息,用于歷時分析,有助于更好地理解土壤表面的演變。其計算公式如下:

式中,Red為紅波段的反射率,Green為綠波段的反射率。
遙感圖像通過亮度值或像元值的高低差異及空間變化來表示不同地物的差異,這是區分不同圖像農作物的物理基礎[22]。識別動態變化的地表覆蓋通常需要應用多時相數據[23-27],地物在時間序列上的變化差異可以用于區分地物[28],一般的分類方法主要有監督分類與非監督分類兩種。常用的監督分類方法包括最大似然[29]、神經網絡(N N)[30-31]、支持向量機(SVM)[32-33];常用的非監督分類方法包括ISODATA(一種重復自組織數據分析技術)、K-均值、模糊c-均值(FCM)[34-35]和比例空間技術。由于研究區獲得的地面數據、影像數量和類型、作物類型的不同,不同地物分類方法的應用各不相同,沒有一致的分類模式。SVM、決策樹自動閾值和隨機森林3種分類方法。
SVM是由Vapnik等[36]于1995年提出,該方法是一種建立在統計學習理論基礎上的機器學習算法。支持向量機算法在于尋找一個超平面,該超平面可以將訓練集中的數據分開,且與類域邊界的邊沿垂直于該超平面方向的距離最大,從而達到最大的泛化能力。決策樹自動閾值分類方法是基于回歸樹(CART)模型來實現分類。CART算法提供了一種非參數判別多數據層之間的統計關系,以產生一個二進制的決策樹。對ROI樣本進行分析,生成ENVI決策樹工程文件。隨機森林分類方法最早由Leo Breiman和Adele Cutler提出。隨機森林是通過集成學習的思想將多棵樹集成的一種算法,其基本單元為決策樹,隨機森林集成了所有的分類投票結果,將投票次數最多的類別指定為最終的輸出。
精度檢驗采用的是建立混淆矩陣,計算制圖精度、用戶精度、總體精度及Kappa系數,用于比較分類結果,本研究使用地表真實感興趣區計算混淆矩陣。
總體分類精度等于被正確分類的像元總和除以總像元數,制圖精度是分類器將影像正確分為某一類的像元數與該類真實參考像元總數的比,用戶精度是正確分到某一類的像元總數與分類器將影像的像元分為該類的像元總數的比[22]。
本研究選取3—11月的Sentinel-2衛星數據,經過輻射定標及大氣校正之后重采樣為ENVI格式數據并計算每景數據的3種遙感指數NDVI、MNDWI、CI,根據地面調查數據建立感興趣區,將感興趣區分為訓練區與驗證區。采用SVM的分類方法對不同月份的單景數據及時相數據的不同組合進行分類;融合NDVI、MNDWI、CI 3種遙感指數,采用SVM、決策樹自動閾值、隨機森林的分類方法進行分類;最后進行精度評價與結果分析。技術路線圖見圖4。

圖4 技術路線圖Fig.4 Technology roadmap

圖5 MNDWI變化折線Fig.5 Line chart of MNDWI change

圖6 CI變化折線Fig.6 Line chart of CI change

圖7 NDVI變化折線Fig.7 Line chart of NDVI change
分別對3—11月的Sentinel-2衛星數據構建MNDWI、CI、NDVI 3種遙感指數,構建不同農作物在時相上的遙感指數變化曲線,結果見圖5、圖6、圖7。由圖5可知,水域的MNDWI指數在全時間段大于0,而其他地物的值基本上均小于0,在MNDWI指數上,水域與其他地物差別明顯,因此,可以利用MNDWI值有效的區分出水域。由圖6可知,非植被區域在全時間段的CI變化較小,在全時序基本呈現一條直線,葡萄地存在不變的裸土,因此與非植被區域特征差別較小,其他地物在時序上變化明顯,小麥在4月份的CI明顯小于-0.018;辣椒與棉花在8月份的CI明顯小于-0.12。由圖7可知,水域的NDVI值是所有地物里最小的,與其他地物差別明顯;春小麥在3—4月播種,7月份左右收割,從3月份春小麥的NDVI值不斷增長與春小麥的生長方式符合,到7月份春小麥的NDVI值急速下降,這是由于7月份是春小麥成熟及收獲時期,因此可以根據這個特征區分出春小麥;由于新疆種植的玉米品種較多,本研究只區分在8月份左右收割的早玉米和10月份左右收割的晚玉米,對于早玉米在7—8月間NDVI值急速下降,可以由該特征區分出早玉米;樹的NDVI值在全時相的變化較平緩,總體上是先增長再下降的趨勢;棉花、晚玉米、葫蘆瓜、辣椒的生育期較相近,NDVI值的區別也較小,但從NDVI、MNDWI來看還是存在一定區別。
采用SVM的分類方法分別對3—11月的Sentinel-2衛星數據進行分類,分類精度見表2,由制圖精度來看,晚玉米、辣椒、葡萄在10月份的分類精度最高,非植被在6月份的分類精度最高,早玉米在8月份的分類精度最高,葫蘆瓜在7月份的分類精度最高,小麥和樹在4月份的分類精度最高,棉花在9月份的分類精度最高,水域在3月份的分類精度最高。由用戶精度來看,辣椒在9月份的分類精度最高,葡萄在5月份的分類精度最高,早玉米、非植被在8月份的分類精度最高,晚玉米、葫蘆瓜、樹、棉花在7月份的分類精度最高,小麥在4月份的分類精度最高,水域在9月份的分類精度最高。由總體精度及Kappa系數來看,7月份的分類效果最好,總體精度達到91.05%,Kappa系數達到0.8518。總體來說,作物在生長豐富的月份分類效果相對較好,在生長前期特征較不明顯,分類效果相對較差。

表2 不同時相分類結果精度評價Table 2 Accuracy evaluation of different phase classification results(%)
對3—11月的Sentinel-2衛星數據進行不同形式的組合之后采用SVM的分類方法進行分類,分類精度見表3。分析數據不同疊加方式之后的分類效果,3月份加8月份的疊加分類效果明顯,比3月份加4月份的疊加分類效果要好,總體精度要高13.3%。這是由于農作物物候生長期的影響,3、4月份大部分農作物仍未生長,地塊處于撂荒狀態,差異較小,而7、8月份是農作物生長豐富的月份,與3、4月份形成鮮明的差異,不同農作物物候期的差別,數據疊加之后會形成變化差異,有利于區分不同農作物。而對于3景、4景、9景數據的疊加并不能提高分類精度,這是由于相近月份農作物生長變化不明顯,特征變化較小,多余信息并不能較好的提高分類效果,相反會帶來更多的噪音影響分類的準確性。
由表3可知,3月份以及8月份單景NDVI數據的分類效果都較差,這是由于同種農作物長勢不同,NDVI的值有高有低,物候期相近的農作物NDVI值的范圍交叉嚴重,單景NDVI數據的分類錯分嚴重,逐景增加NDVI數據,總體精度逐步提高,當增加到10月份NDVI數據時,總體精度達到最高為92.25%,Kappa系數達到0.8736,繼續增加11月得NDVI數據,總體精度有所降低,這是由于11月份大部分農作物已經收割,地塊差異不明顯,增加11月份數據并不能提高分類效果。

表3 分類精度比較Table 3 Comparison of classification accuracy
融合3—11月的MNDWI與NDVI數據之后,分別采用SVM分類方法、隨機森林分類方法、決策樹自動閾值分類方法進行分類,對比3種不同分類方法,SVM的分類結果分類精度最高,總體精度達到94.19%,Kappa系數達到0.9024,總體精度比隨機森林分類方法提高3.36%,比決策樹自動閾值分類方法提高4.32%(表4)。

表4 不同分類方法分類精度比較Table 4 Comparison of classification accuracy among different classification methods
由于水位的變化,水域范圍也存在變化,因此采用單景數據提取水域范圍。由遙感指數分析所得,本研究采用3月份CI小于-0.012且MNDWI大于0.15利用決策樹提取水域范圍;由于田埂范圍較窄,容易與地物誤分,因此在支持向量機分類之后繼續采用遙感指數結合決策樹的分類方法將田埂剔除,對于小麥地,采用4月份的CI小于-0.018將田埂剔除;對于辣椒地及棉花地,采用8月份CI小于-0.12,將田埂剔除。最終分類結果的分類精度達到94.49%,Kappa系數達到0.9077,最終分類結果見圖8。

圖8 分類結果Fig.8 Classification results
由表5可知,辣椒的制圖精度達到92.08%,但用戶精度較低,有部分棉花被錯分為辣椒;葡萄的用戶精度達到99.68%,但制圖精度較低,有部分葡萄被錯分為非植被與棉花;非植被的制圖精度到達100%,用戶精度為89.76%,有部分葡萄與棉花被錯分為非植被;早玉米的制圖精度達到97.61%,用戶精度為74.89%,有部分葫蘆瓜被錯分為早玉米;晚玉米制圖精度為59.93%,用戶精度為71.72%,有部分晚玉米被錯分為棉花,有部分棉花和樹被錯分為晚玉米;葫蘆瓜的分類精度較低,一方面原因是地面真實調查數據較少,另一方面是與棉花和玉米較難區分;小麥的分類較低較高,主要是小麥與其他農作物物候期差異較大,易于區分;樹的制圖精度為68.15%,用戶精度為82.3%,有部分樹被分為棉花與晚玉米,棉花的制圖精度為97.66%,用戶精度為96.82%;水域的分類效果較好。
針對單一農作物在不同時相的分類精度不同,這是由于農作物物候期的差異,當某種地物在某個時期與其他農作物差異較大時,相應的分類精度就有所提高,這是提取該農作物的較為重要時期,有利于單一農作物提取的研究。時相數據的組合方式不同,分類精度有所差異,對于原始波段的疊加,時相的增加能夠提高分類精度,這與李慶等[6]的研究結果一致,然而原始波段不經選擇的疊加會造成數據的相似,產生數據冗余并造成更多的噪音,從而降低分類精度,因此,多時相分類應注意關鍵信息的提取。白燕英等[13]的研究結果表明時間序列的NDVI具有較高的時間分辨率,能夠突出不同作物的物候特征及其變化,從而提高作物分類精度。然而,僅使用NDVI進行分類并不能完全區分所有地物,這也是單一遙感指數在分類上的局限性。針對特定的地物提取可以研究特定的波段組合計算指數進行分類,因此,對于地表覆蓋的分類最好結合多種遙感指數,魏鵬飛等[8]結合3種遙感指數NDVI、EVI和WDRVI進行作物分類,呂紅梅等[7]結合歸一化植被指數和地表水分指數進行作物分類,都取得了較好的分類結果。李慶等[6]采用隨機森林進行影像方法,呂紅梅等[7]利用決策樹分類方法提取早稻種植區,李振[9]采用面向對象的決策樹分類方法研究森林類型的自動識別,魏鵬飛等[8]采用決策樹分層分類方法成功提取作物種植空間分布,然而,對于決策樹閾值分類,不管是人為判斷閾值還是自動閾值分類或者隨機森林分類,都無法準確的界定區分農作物之間的閾值,這是閾值分類固有的缺陷,本研究結合NDVI、MNDWI、CI 3種遙感指數進行分類有效提取了研究區主要農作物的種植分布情況。

表5 分類結果混淆矩陣Table 5 Confusion matrix of classification results
通過對不同時相分類精度比較可知,在研究區域內,7月份是區分農作物最佳時相;通過時相數據的不同組合的分類精度比較,多時相分類精度明顯高于單景數據分類,采用3—10月的NDVI數據疊加之后分類效果較好,總體精度達到92.25%,Kappa系數達到0.8736,相對于僅使用3月份NDVI數據分類的分類精度,總體精度提高了20.75%;結合NDVI、MNDWI、CI 3種遙感指數之后采用SVM的分類方法可以有效區分研究區的農作物。