田 鑫,何 海,金雙彥,吳志勇
(1.河海大學水文水資源學院,南京 210098;2.黃河水文水資源科學研究院,鄭州 450004)
作物種植結構信息是農業灌溉用水預測、農業產量估算、農業補貼定損和區域水資源分配的重要參考指標[1-3]。基于傳統調查方式獲取作物種植結構的方法由于時效性和范圍性問題在實際應用中受到限制[4]。基于遙感影像的作物種植結構提取方法,因其范圍廣、時效性強的特點在實踐應用中越來越重要[5-8]。在基于遙感影像的作物種植結構提取中,合適的分類特征和樣本數量在提高作物種植結構提取精度方面起著關鍵的作用。
現階段在遙感影像識別的分類特征研究中,已有研究包括基于光譜特征采用分層決策樹方法提取作物種植結構[9],或基于時序NDVI 特征利用閾值法進行作物提?。?0],或基于特征指數采用隨機森林方法進行作物提?。?1]等方面,上述分類特征與監督分類方法結合進行作物提取的研究較少,而已有關于遙感影像提取分類方法研究表明,監督分類方法通常具有更好的精度[7,12]。在樣本數量的研究中,Wei H 等[13]通過生成對抗網絡的方法采集數量合適的訓練樣本,但該方法僅適用于卷積神經網絡分類;樊東東等[14]通過改善訓練樣本質量提高了分類精度,但缺少對樣本數量的討論;Lin Chuang 等[15]和Jingxiong等[16]僅關注訓練樣本空間和時間準確性對分類精度的影響。但已有研究較少關注樣本數量對作物提取精度的影響。
監督分類是以概率統計理論為基礎,利用采集到的各類地物訓練樣本,對判決函數進行訓練,然后用訓練好的判決函數去對其他像元進行分類[17,18]。在監督分類方法中,按分類器的不同又可細分為最小距離、最大似然、支持向量機和神經網絡。監督分類中的分類器各有側重,但支持向量機方法因提取精度較高和應用范圍較廣更受關注,例如張亞新等[7]和徐存東等[12]的研究中表明監督分類方法中的支持向量機提取精度更優;L Su 等[19]利用支持向量機方法進行草原干旱與半干旱研究。因此,本文主要采用監督分類中的支持向量機,作為本研究作物種植結構提取的分類方法。
甘肅張掖灌區為中度缺水地區,農業灌溉以引黑河水為主,隨著當地經濟的不斷發展,水資源供需矛盾已成為制約當地經濟發展的主要因素[20]。及時、準確的作物種植結構信息為當地農業灌溉用水預測提供數據基礎,同時也為當地水資源精細化管理提供數據支撐。
基于上述分析,為探討不同分類特征和樣本數量對作物種植結構提取精度的影響,以黑河流域張掖灌區為研究區,采用監督分類中的支持向量機方法,比較分析了光譜特征和時序NDVI 特征在十組不同樣本數量條件下作物種植結構提取精度的差異,得到了研究區最優的分類特征和參考樣本數量。
張掖灌區位于甘肅省西北部,包括板橋灌區、上三灌區和盈科灌區,總面積為1 174 km2。張掖灌區地處99°51′E~100°30′E、38°57′N~39°42′N 之間,海拔1 370~2 200 m,具有日照時間長、積溫高、晝夜溫差大、降雨稀少、蒸發強烈等特點,年降水量110~130 mm,年蒸發量高達1 400 mm,屬中度缺水地區。研究區是重要的灌溉農業經濟區,種植作物主要有玉米和蔬菜瓜果,其中玉米種植面積占作物總種植面積的80%,研究區位置見圖1。

圖1 研究區位置Fig.1 Location of study area
遙感影像主要為2020年全年11 景分辨率為30 m 的Landsat8遙感影像(http://www.gscloud.cn/home)和2020年6月3景分辨率為2 m 的高分一號遙感影像(http://www.cresda.com/CN/)。研究區作物種植面積信息,主要來自實地勘察、板橋灌區、盈科灌區和上三灌區水利管理所的統計資料。
Landsat8 遙感影像預處理包括輻射定標、大氣校正和影像裁剪;高分一號主要用于采集訓練樣本和驗證樣本,因此只需進行正射校正。本研究重點關注分類特征和樣本數量對作物種植結構提取精度的影響問題,為保證樣本精度,在樣本采集中使用了厘米級國產地圖作為輔助。
基于光譜特征的遙感分類,是利用亮度值或像元值的高低差異(反映地物的光譜信息)進行地物分類提取[17]。本文對遙感影像所進行的預處理中,輻射定標可以將衛星傳感器記錄的數字量化值轉化為輻射亮度;大氣校正可以消除大氣分子、氣溶膠散射的影響,得到真實的地表反射率數據。
研究區主要作物為蔬菜瓜果和玉米,根據當地作物物候期,兩種作物分別在7月和9月成熟,其中蔬菜瓜果在7月開始收獲,利于識別作物收獲前后的差異。本文選擇8月9日的影像進行提取,如圖2(a)中光譜特征曲線所示,各地物在不同波段下具有一定差異;尤其在波段b4 至b7 之間,玉米和蔬菜瓜果之間差異顯著。
遙感分類的本質是尋找不同地物間的差異[21],根據地物間差異選擇不同分類方法進行地物提取,而通過特征指數可以凸顯地物間差異。本文選取常用的特征指數:歸一化差異植被指數NDVI(Normalized Difference Vegetation Index),該指數通過近紅外(植被強烈反射)波段與紅光(植被吸收)波段間的運算來區別植被,公式如下:

式中:ρnir為近紅外波段反射率;ρred為紅光波段反射率。
NDVI 取值范圍為(-1,1),由于遙感影像中可能存在一些異常區域,使計算的NDVI 值產生異常,需要對計算后的NDVI值進一步修正,小于-1 異常值賦予0,大于1 異常值賦予0.8,修改后的NDVI 特征曲線能夠更加準確地反映地物真實情況,公式如下。

有研究指出時序NDVI 有助于提高作物種植結構的提取精度[22],本文通過2020年全年11 景Landsat8 影像構建時序NDVI特征指數,玉米和蔬菜瓜果在8月至10月區分度很高,同時作物的NDVI 變化符合研究區作物8月至10月收獲的情況,且其他地物在8月至10月也易于區分[見圖2中(b)]。

圖2 研究區不同地物的反射率和NDVI特征曲線Fig.2 Reflectance and NDVI characteristic curves of different ground features in the study area
樣本是遙感地物分類的基礎[13],在監督分類中,只有在對樣本類別屬性有先驗知識的前提下,才可以進一步分析不同地物特征并進行分類。
因此本研究基于2 m 分辨率的高分一號采集樣本,選擇支持向量機分類方法,比較光譜特征和時序NDVI 特征在十組不同樣本數量條件下的提取精度,分析兩種分類特征條件下樣本數量對作物種植結構提取精度的影響程度。
根據收集的研究區下墊面資料,將地物分為六類:玉米、蔬菜瓜果、水體、建筑、林地和裸地。在樣本采集中,主要側重于作物信息。本文共采集10 組訓練樣本,其中每組樣本均包含3個灌區的數據,總個數從72~720 個不等。此外,本文以第五組條件下采集的檢驗樣本為各組的驗證樣本,保證每組驗證時的樣本相同。樣本詳情見表1,其總體空間分布見圖3。

圖3 樣本空間分布Fig.3 Spatial distribution of samples

表1 10組訓練樣本數量及檢驗樣本數量 個Tab.1 Number of training samples in ten groups and verification samples
本研究采用面積驗證和混淆矩陣驗證兩種方法對分類結果進行精度評價。
面積驗證是比較研究區實際地物面積與提取地物面積,在本研究中主要關注玉米和蔬菜瓜果兩種地物。
混淆矩陣是通過驗證樣本像元位置與分類圖像中相應位置的比較計算得到的。主要評價指標為總體分類精度(Overall Accuracy)和Kappa系數,計算公式如下:


式中:POA為總體分類精度;xi為n類地物中被正確分類的像元總和;ai為n類地物的真實樣本像元數;bi為樣本中被歸為n類地物的像元數;n為分類結果總類別數;N為樣本像元總數。
總體分類精度表征樣本的地物類型與分類結果中地物類型的相似情況。Kappa 系數用于衡量分類結果和樣本的一致性,取值范圍為(0,1),大于0.75表示高度的一致性[18]。
根據現場收集的研究區下墊面信息,板橋灌區北部主要為裸土,南部主要為作物種植區且有河流經過;上三灌區與板橋灌區相似;盈科灌區北部為城市群,但蔬菜瓜果主要集中于該灌區。
基于光譜特征支持向量機提取的作物種植結構空間分布如圖4所示,其中圖4(a)到圖4(j)為板橋灌區在10組不同樣本數量條件下的提取結果。通過與收集的下墊面信息比較發現,隨著訓練樣本數量的增加,圖4(a)到圖4(j)識別的空間分布逐漸穩定。相比其他地物,玉米整體空間分布更加準確;圖4(a)和圖4(b)中識別建筑空間分布有誤。圖4(k)到圖4(t)為上三灌區和盈科灌區的結果,總體上玉米識別的空間分布更加準確,但蔬菜瓜果的識別變化較大。具體來看,圖4(m)到圖4(q)蔬菜瓜果識別的空間分布更為準確,圖4(k)、圖4(l)和圖4(r)到圖4(t)中有將蔬菜瓜果錯誤識別為其他地物現象。

圖4 基于光譜特征支持向量機在10組不同樣本數量下的分類結果Fig.4 Classification results of support vector machine based on spectral features under ten groups of different samples
基于時序NDVI 特征支持向量機提取的作物種植結構空間分布如圖5所示,其中圖5(a)到圖5(j)為板橋灌區的提取結果,通過與收集的下墊面信息比較發現,圖5(f)和圖5(g)中玉米識別的空間分布相比其他組更為準確,圖5(b)到圖5(e)中林地識別的空間分布更穩定,其中圖5(e)識別的建筑空間分布比基于光譜特征識別結果更為準確。圖5(k)到圖5(t)為盈科灌區和上三灌區,玉米整體識別的空間分布較為準確;但蔬菜瓜果識別的空間分布有所變化,從圖5(k)到圖5(q)可以明顯看到蔬菜瓜果識別從開始的零星區域逐漸擴大,在圖5(p)和圖5(q)達到穩定狀態,同時,水體周邊的裸地識別準確性要優于基于光譜特征的識別結果。

圖5 基于時序NDVI特征支持向量機在10組不同樣本數量下的分類結果Fig.5 Classification results of support vector machine based on temporal NDVI features under ten groups of different samples
分析上述兩種分類特征的識別結果,發現不同樣本數量條件下的識別結果整體上有一個清晰的變化趨勢,即隨著樣本數量的增加,識別的作物種植結構空間分布準確性也在逐漸增加直至穩定狀態。但是也能清晰看到不同分類特征提取結果的差異,在基于時序NDVI 特征的提取中,玉米、蔬菜瓜果和林地識別的空間準確性優于基于光譜特征的識別結果。
根據收集的研究區下墊面作物種植面積資料,與兩種分類特征提取下的作物種植面積進行比較。表2為基于光譜特征下的作物面積提取結果,可以看到玉米的識別面積整體大于實測面積,識別的誤差有先降低后增大的趨勢,其平均誤差為23.63%,第三組誤差最小,為19.99%;相比玉米,蔬菜瓜果識別面積誤差較大,誤差并沒有隨著訓練樣本數量的增加而減小,其平均誤差為74.18%;各組當中,第二組至第四組誤差相對較小,第二組最小,為53.73%。

表2 基于光譜特征支持向量機作物面積識別結果Tab.2 Crop area recognition results based on spectral feature support vector machine
基于時序NDVI特征下的作物面積提取結果見表3所示,總體來看,玉米和蔬菜瓜果的各組相對誤差并無顯著區別;但與基于光譜特征的識別結果相似,玉米的識別精度明顯更高。平均誤差僅為3%,第二組、第三組和第六組表現最佳,其中第三組識別誤差僅為0.17%。而蔬菜瓜果面積識別的平均誤差為32.19%,較上一方法更為準確,其第五組至第七組誤差最小,第六組誤差僅為12.95%。

表3 基于時序NDVI特征支持向量機作物面積識別結果Tab.3 Crop area recognition results based on temporal NDVI feature support vector machine
為了更直觀的比較兩種分類特征下作物提取的面積結果,圖6 展示了不同組間的折線圖。玉米和蔬菜瓜果提取的面積中,基于時序NDVI 特征的提取結果均表現較優,因此可以認為,在作物種植結構提取的面積驗證中,基于時序NDVI 所提取作物結果優于光譜特征提取作物結果。

圖6 兩種分類特征下作物面積識別結果Fig.6 Area of the crops extracted through different features
基于光譜特征條件下不同樣本數量的混淆矩陣驗證結果見表4,總體分類精度與Kappa 系數變化趨勢相同,都是先增高后降低,平均總體分類精度為78.9%,平均Kappa 系數為0.73,其中第七組分別達到最大值80.4%和0.75。
基于時序NDVI特征下混淆矩陣的結果見表4,該特征分類結果變化較大,平均總體分類精度為84.8%,平均Kappa 系數為0.81,其中總體分類精度從第一組先增加,至第三組達到最大值87.6%,然后開始降低至第七組,第八組和第九組再增大,至第十組又開始降低;Kappa系數則是從第一組開始增至第三組,達到最大值0.84,第四組降低后又再次達到最大值,然后降低至第七組,第八組和第九組再增大,至第十組降低。

表4 基于光譜特征和時序NDVI特征的支持向量機混淆矩陣驗證Tab.4 Confusion matrix verification of support vector machine based on spectral features and temporal NDVI features
圖7 展示了兩種分類特征下混淆矩陣驗證結果,除第一組外,基于時序NDVI特征的混淆矩陣評價指標均高于光譜特征的評價指標,同時,基于時序NDVI特征的總體精度最高達87.6%,表示樣本地物類型與識別結果中地物類型相似性高,Kappa 系數從第二組開始均大于0.75,表示識別結果與樣本的具有高度的一致性。

圖7 兩種分類特征下混淆矩陣比較Fig.7 Comparison of confusion matrices through different features
在對基于光譜特征和時序NDVI特征提取結果的精度評價分析中,基于時序NDVI特征提取結果整體精度優于光譜特征提取結果。但基于光譜特征的提取方法相對更加簡潔、迅速,只需針對作物光譜特征差異顯著的一景遙感影像即可完成。若對提取精度要求不高,則該方法也能滿足一些作物提取工作。基于時序NDVI特征的提取則要求作物關鍵物候期影像或全年的遙感影像,但該方法提取的精度要明顯優于光譜特征提取精度?;跁r序NDVI特征相較于光譜特征的總體分類精度平均提高5.9%,Kappa系數平均提高0.08。
在作物種植結構的提取中,對分類規則的要求更高,不僅要識別地物是否是耕地,還需要識別耕地中具體是哪種作物,因此需要更加凸顯作物差異的特征進行提取,時序NDVI特征正是加強了作物間的差異,提取結果才更優。
在對不同樣本數量提取結果的精度評價分析中,樣本數量對提取精度具有一定影響。基于光譜特征中樣本數量在第七組(樣本總數504個)表現最佳,基于時序NDVI特征中樣本數量在第三組(樣本總數216 個)及第五組(樣本總數360 個)表現最佳,綜合兩種特征,樣本數量在第五組(樣本總數360個)至第七組(樣本總數504個)表現較佳。
不同樣本數量的提取結果,在精度驗證中表現出先升高后降低的變化趨勢。樣本數量超過閾值后不僅不會提高分類器的訓練效果,還會產生一定的干擾。本文是在30 m 分辨率的Landsat8 影像上進行識別的,而Landsat8 的獲取則受到衛星傳感器、天氣、輻射等因素影響,雖然本文進行一些處理盡量消除這些因素的影響,但是局部依然存在一定干擾[23],這些干擾會影響到采集樣本的訓練,無法使分類器得到更加精準的分類規則。
本研究通過分類特征與樣本數量對作物種植結構提取精度的影響分析,基于監督分類的支持向量機方法,比較了張掖灌區光譜特征和時序NDVI 特征下不同樣本數量的提取結果,得到如下結論:
(1)在十組不同樣本數量下提取的作物分布圖中,隨著樣本數量的增加,識別作物的空間分布準確性也在逐漸增加直至穩定狀態。
(2)基于時序NDVI 特征提取的作物種植結構精度優于光譜特征提取的精度,時序NDVI 提取的玉米面積平均誤差為2.82%,平均總體分類精度為84.8%,平均Kappa 系數為0.81,其中面積誤差最小僅為0.17%,總體分類精度最高達到87.6%,此時Kappa系數也達到最高0.84。
(3)結合兩種精度驗證結果及研究區面積信息,可以得出研究區每10 km2的樣本數量為3~4 個時,樣本能夠保持最佳的訓練效果,即S = 0.3A~0.4A,其中S 為樣本總數,A 為研究區面積,單位為km2。
監督分類因其更加高效而受學者青睞,而監督分類中的支持向量機方法因提取精度較高和應用范圍較廣更受關注,本文對影響支持向量機提取精度的因素分析,可為監督分類提取精度的進一步優化提供參考。