















doi:10.15889/j.issn.1002-1302.2024.20.012
摘要:為快速、準確、高效地獲取棉花種植空間分布信息,提高棉花信息提取精度,基于機器學習的遙感圖像識別方法,是有效解決問題的途徑。以新疆維吾爾自治區烏蘇市為研究區,利用哨兵2號遙感數據,選取6種常用植被指數、3種紅邊植被指數,基于遙感植被指數變化曲線進行棉花特征時段選擇,并分別采用梯度提升決策樹、隨機森林、支持向量機算法,通過RF特征優選,進行棉花種植區空間分布信息提取,并對提取結果精度驗證。結果表明,機器學習方法(GBDT、RF、SVM)的總體分類精度分別為0.92、0.91、0.88,Kappa系數分別為0.91、0.89、0.85;經RF特征優選后的機器學習算法(RF-GBDT、RF-RF、RF-SVM)的總體分類精度分別為0.94、0.94、0.91,Kappa系數分別為0.93、0.92、0.88;經RF特征優選后的3種機器學習算法(RF-GBDT、RF-RF、RF-SVM)的總體精度分別比RF特征優選前(GBDT、RF、SVM)的總體精度分別提高了0.02、0.03、0.03,Kappa系數分別提高了0.02、0.03、0.03。GBDT作為一種集成的機器學習算法,在地物分類與棉花提取方面有著較好的應用效果,且經過特征優選的RF-GBDT算法精度更高。這表明在進行機器學習分類前,通過算法對輸入特征進行重要性篩選,可有效避免因特征冗余造成的分類精度下降,可實現更高精度的棉花種植區域提取。
關鍵詞:棉花提取;哨兵2號;機器學習;特征優選;遙感;GBDT
中圖分類號:S127;TP79" 文獻標志碼:A
文章編號:1002-1302(2024)20-0092-12
收稿日期:2024-01-10
基金項目:北京空間機電研究所航天進入減速與著陸技術實驗室開放基金(編號:EDL19092304)。
作者簡介:白淑英(1973—),女,內蒙古寧城人,博士,教授,從事遙感與地理信息系統在生態環境中的應用研究。E-mail:001462@nuist.edu.cn。
棉花作為全球重要的經濟作物,其種植區域的空間分布信息對于棉花產量估算和農業經濟產值預測具有至關重要的影響。在這一背景下,遙感技術憑借其廣泛的覆蓋范圍、強大的時效性和短周期的特點,成為了快速識別棉花種植區域的有效工具,有效地彌補了傳統統計數據的滯后性。機器學習方法,由于其操作便捷和高精度的特性,在提取棉花種植區空間分布信息方面展現出了巨大的潛力。結合遙感數據,這些方法能夠迅速、準確、高效地捕獲棉花生產管理、面積統計與產量估算等關鍵信息。
目前,遙感植被指數法是提取棉花種植信息的常用方法。該方法主要利用時間序列植被指數數據,通過分析棉花在盛鈴期的植被指數和光譜特征的獨特性,實現與其他地物的有效區分。在這一領域,已有眾多學者取得了顯著的研究成果。如呂紹倫等運用遙感云計算平臺和哨兵2號影像,利用光譜和不同物候周期作物的植被指數變化構建了高精度的棉花提取模型[1]。魏瑞琪等使用TIMESAT進行棉花像元的時間序列數據分析,獲得了棉花生長曲線,并提取了種植區域[2]。王文靜等利用多時相的哨兵2號數據、NDVI(歸一化植被指數)、反射率及紋理等,經特征優選后,對石河子市的棉花種植區域進行了提取研究[3]。劉傳跡等以MODISEVI數據為基礎,應用Double-Logistic濾波對棉花生長曲線進行重構,得到棉花生長閾值,由此提取了棉花種植區域[4]。Ren等基于GEE和Sentinel-2(哨兵2號)數據,結合興趣面積指數、S-G濾波等,建立時間序列表型分析方法,篩選棉花提取關鍵時相數據,將面向對象的信息提取方法與光譜特征和紋理特征相結合,對棉花分布信息進行提取[5]。此外,有學者自行提出或選用了其它的提取指標。如Wang等基于棉花開鈴期獨特的冠層特征,提出了一種新的白鈴指數(WBI)進行棉花種植區域提取研究[6]。He等基于Sentinel-2,利用MERRA-2的逐時氣象數據、棉花初級生產總值(GPP)和葉面積指數(LAI)等提取了棉花信息,并估算了棉花產量[7]。
由于機器學習在處理地理大數據和復雜特征分類方面具有明顯的優勢,因此使用機器學習算法對遙感影像進行土地利用分類及作物信息提取,已成為研究熱點。機器學習法主要包括決策樹、隨機森林(RF)、支持向量機(SVM)、k平均算法(k-means)等,其中在棉花提取方面用得較多的是決策樹、隨機森林2種方法。Li等利用CBERS01和HJ1B衛星圖像,使用決策樹算法計算棉花種植區域面積,并分析了棉花種植區域的時空變化規律[8]。田野等采用支持向量機和專家知識決策樹分類法,基于不同時期的衛星數據提取了棉花種植面積等信息[9]。荀蘭提出了基于多光譜和合成孔徑雷達影像的集成學習算法,通過各種分類器和特征,成功識別了棉花種植區域[10]。Fei等提出了基于光譜、植被指數、紋理等多特征選擇的隨機森林特征選擇算法和基于不同分類器的縣尺度棉花提取方法,評價了分類時間、特征重要性和分類器對棉花提取精度的影響[11]。王匯涵等采用隨機森林(RF)、支持向量機(SVM)、決策樹(CART)進行棉花種植區域提取,利用順序向前選擇(SFS)和偏最小二乘算法(PLSR)成功預測了棉花產量[12]。美合日阿依·莫一丁等利用哨兵2號數據,構建NDVI和紅邊歸一化植被指數(RENDVI783)時序數據,采用S-G濾波法與袋外誤差法對物候特征進行特征優選;并利用RF進行分類和棉花提取[13]。Rodriguez-Sanchez等通過使用從正交圖中提取的單個地塊圖像,訓練具有4個選定特征的SVM分類器來識別每個地塊圖像中的棉花像素,對分類后的棉花像素進行形態學圖像處理,并進行聚類及預測[14]。Hong等基于Sentinel-2,利用光譜特征、植被指數特征和紋理特征創建了7種分類并生成SVM分類器,實現了高精度的棉花提取[15]。王利民等基于5 m空間分辨率的Rapideye影像,采用紅邊、近紅外波段反射率之和構建了棉花提取指數(CEI),結合同期水體、裸地(含城鎮建筑)掩模處理,分別采用最大似然分類方法和隨機森林分類方法對影像進行分類和精度驗證,實現了棉花類型的識別[16]。
在使用機器學習算法時,須確保所選模型具備良好的泛化能力,這關乎模型在不同數據環境下的穩定性和準確性。為防止模型過度擬合,選擇合適的樣本數據集并進行適當的參數調整是十分必要的。基于此,本研究首先運用遙感植被指數法來獲取棉花最佳研究時期的遙感影像數據。接著,選取樣本點,并以植被指數、紅邊植被指數、地形等作為輸入因子。然后采用梯度提升決策樹(GBDT)、隨機森林(RF)和支持向量機(SVM)3種算法,通過RF算法進行特征選擇,并進行因子相關性分析,旨在篩選出與棉花提取最為相關的因子,以期實現更高精度的棉花種植區域提取。
1" 數據源及數據預處理
1.1" 研究區概況
研究區在新疆維吾爾自治區塔城地區烏蘇市,位于新疆維吾爾自治區西北部(如圖1所示),地處43°34′~45°17′N、83°24′~85°06′E,全市總面積2.07萬km2。烏蘇市地處北溫帶干旱地區,年均氣溫7.3 ℃,實際日照時數可達2 600~2 800 h,年均降水量為158 mm。烏蘇市年溫差較大,光照時間長,降水量小,適宜棉花的生長。由于特殊的氣候環境,烏蘇市不僅是全國優質棉生產基地、還是重要的糧食和水果產地。
1.2" 數據源
本研究使用的遙感數據是哨兵2號(Sentinel-2)高分辨率多光譜成像衛星的L2A級數據,地面分辨率有10、20、60 m。選用12個波段作為棉花提取的特征因子,輸入機器學習算法中進行棉花信息提取(表1)。
本研究使用谷歌地球引擎(GEE),獲取研究區3—10月可用的哨兵2號遙感影像共14幅(表2),分別計算不同生長時期棉花的NDVI與近紅外(NIR)等植被指數。發現當棉花處于盛鈴期(7—9月)時,NDVI、NIR的像元亮度(DN)值高于其他地物,易與其他地類進行區分,此時是提取棉花信息的最佳時期。
1.3" 數據預處理
GEE是由Google云基建提供的云平臺,用于獲取和處理遙感數據。它可以處理大規模的地球科學數據集,特別是遙感影像數據,而且支持全球尺度的在線處理、分析和可視化[17]。GEE提供了Python API和JavaScript API 2種語言接口[18]。與傳統的遙感數據處理工具相比, GEE在遙感數據處理方面具有許多優勢。
首先利用GEE平臺進行遙感影像的下載、鑲嵌、樣本點的選取等,然后上傳研究區范圍矢量數據,利用maskS2clouds函數進行去云。選擇哨兵2號數據集“COPERNICUS/S2_SR”,篩選日期與云量,并利用研究區感興趣區域(ROI)進行裁剪操作,即可得到相應時間的遙感影像。
2" 訓練樣本及特征選取
2.1" 訓練樣本選取
模型訓練所用的數據集也稱為訓練樣本,是整個分類算法的基礎。訓練樣本的質量直接決定了分類的結果與精度。通過遙感影像目視解譯,結合研究區的實際情況,利用GEE平臺選擇了6類訓練樣本,包括水體、建筑、裸地、棉花、林地和耕地(圖2),各類訓練樣本的數量見表3。
為了量化各類樣本間的可分離性,本研究采用了轉換分離性和JM距離作為關鍵指標。轉換分離性是基于馬氏距離概念的統計度量,用于評估多變量分布之間的差異,特別適用于模式識別和圖像處理領域。而JM距離是用于度量2個概率分布之間差異的統計量,廣泛應用于模式識別和遙感影像分類。這2個參數的值在0~2之間[19],大于1.9則樣本之間的可分離性較好;小于1.8則可分離性較差,需重新選取。在本研究中,所選訓練樣本的可分離性見表4。經分析,各樣本類別間的JM距離均大于1.8,這表明所選樣本在特征空間中具有較好的區分度。這一結果為后續的遙感影像分類提供了堅實的基礎,確保了分類過程的有效性和準確性。
2.2" 特征因子選取
特征因子中,植被指數包括:歸一化植被指數(NDVI)、比值植被指數(RVI)、差值植被指數(DVI)、增強型植被指數(EVI)、歸一化水體指數(NDWI)、土壤調節植被指數(SAVI)6種。Sentinel-2的優勢在于其擁有3個紅邊波段,使其在識別植被信息方面非常有效,因此,本研究選取了紅邊植被指數(REP)、地面葉綠素指數(MTCI)、歸一化差值紅邊指數(NDRE1)3種紅邊植被指數。
紋理特征包括7類:均值、協同性、對比度、相異性、熵、角二階距和相關性。采用灰度共生矩陣(GLCM)方法提取紋理特征,它通過描述像元對之間的空間結構特征及其相關性來定量描述遙感影像[20],是應用最廣泛的一種紋理特征提取方法。通過主成分分析方法,選取前2個主分量的7種紋理特征(共14個)作為紋理因子。選取了坡度、坡向、海拔3個地形因子。
本研究共選取了哨兵2號的12個波段、6種植被指數、3種紅邊植被指數、前2個主成分的7個紋理因子,以及3個地形因子,共38個特征因子作為機器學習算法的輸入參數(表5)。
3" 研究方法
3.1" 技術路線
由圖3可知,首先,從GEE平臺獲取哨兵2號遙感數據,選取訓練樣本點和特征因子;其次,根據棉花夏季在NDVI、NIR上的特殊光譜曲線特征,進行棉花特征時段選擇;隨后,將所有特征因子輸入,分別利用GBDT、RF、SVM 機器學習算法,進行棉花信息提取;然后,利用RF進行特征優選,并將經優選的所有特征因子,再次輸入3種機器學習算法,進行棉花提取;最后,比較幾種方法的提取結果和精度,評價RF特征優選對于棉花提取效果和分類精度的影響。
3.2" 棉花信息提取方法
3.2.1" 基于遙感植被指數變化曲線的棉花特征時段選擇
由圖4可知,棉花的生長周期主要包括5個階段,分別是出苗期、苗期、蕾期、盛鈴期和吐絮期。當棉花處于盛鈴期時,NIR的DN值會大幅上升,此時棉花NIR的DN值會明顯高于其他農作物與森林、灌木等植被。所以,NIR可有效地將棉花與各類作物、植被進行區分。因此,可通過NDVI與NIR結合設定光譜閾值的方法,獲取棉花的特征時段。
3.2.2" 基于梯度提升決策樹的棉花信息提取方法
1999年Freiman提出了梯度提升決策樹(GBDT),該算法是一種迭代的決策樹算法,主要是由多棵CART樹組成[21]。GBDT的主要思想是,每次建立的新模型均以上一個模型損失函數的負梯度為基礎,通過多個弱學習器合成為強學習器[22]。GBDT屬于Boosting算法家族,核心在于迭代地訓練決策樹,以便每一棵樹都能修正前一棵樹的錯誤,從而逐漸減少模型在訓練集上的損失,GBDT不僅可用于分類,還可用于回歸[23]。GBDT算法的流程如下。
對弱分類器進行初始化:
f0(x)=argminγ∑Ni=1L(yi,γ)。
式中:L表示損失函數;γ表示使損失函數最小化的值,為常數。
對每次迭代m=1,2,…,M。計算第i個樣本第m輪的殘差:
γim=-L[yi,f(xi)]f(xi)f(x)=fm-1(x)。
利用(xi,rim),對CART回歸樹進行擬合,其葉子節點將空間劃分為獨立區域。該回歸樹的葉子區域為Rjm,j=1,2,…,J(節點個數)。
對于j=1,2,…,J。計算最佳擬合值:
γjm=argminm∑x∈RjmL[yi-fm-1(x)+γ]。
持續更新強學習器:
fm(x)=fm-1+∑Jj=1γjmI。
根據上述流程得最終的強分類器為
f(x)=f0+∑Mm=1∑Jj=1γjmI。
式中:j表示葉子區域;J為葉子節點個數;若公式為真則I是1,為假則I為0。
3.2.3" 基于隨機森林的棉花信息提取方法
隨機森林(RF)是由Breiman提出的一種基于決策樹組合的方法,是一種在樣本空間、特征空間同時進行的集成學習算法。RF中的每棵決策樹都依賴于由訓練確定的參數組成的隨機向量,每棵樹在特征集中選擇部分特征,進行決策樹的構造并貢獻一票,隨后通過Bagging算法形成獨立分布的訓練樣本集進行訓練,通過投票的方式獲得最終的分類或預測結果[24]。RF分類的原理見圖5。
RF是一種非參數化的機器學習算法,它具有精確度高、不需要降維、訓練速度快、無需剪枝、較少出現過擬合現象、能容忍一定的干擾和異常值,且能處理具有高維特性的輸入樣本的優點[25]。因此,隨機森林可用于各種數據類型的分類,并在性能上超越了傳統統計方法及許多機器學習算法[26]。
3.2.4" 基于支持向量機的棉花信息提取方法
支持向量機(SVM)是Vapnik團隊基于統計學VC維理論和結構風險最小化原理,開發的一種基于統計學習理論的機器學習算法[27]。SVM的特點是同時最小化經驗誤差和最大化分類間隔,其具有強大的非線性和高維數據處理能力,特別適用于小樣本、非線性和高維模式識別問題[28],同時也有效解決了“維數災難”和“過度學習”等問題。
SVM常采用的核函數有3種:線性核函數、多項式核函數以及徑向基核函數,其表達式見表6。本研究選用線性核函數作為SVM的核函數。
表6" 3種核函數的表達式
核函數名稱表達式
線性核函數K(xi,xj)=xTi xj
多項式核函數K(xi,xj)=(gxTixj+γ)2,ggt;0
徑向基核函數K(xi,xj)=e-‖xi-xj ‖2σ2
式中:xi,xj表示輸入空間的向量;g表示常數;e為自然常數;σ為函數的寬度參數,控制了函數的徑向作用范圍。
此外,SVM中可以設置懲罰系數C,其默認值為1。C的取值影響了對分錯樣本的懲罰程度,較大的C值會導致在訓練樣本中獲得更高的準確率,但可能會降低對測試數據的分類準確率,泛化能力較低。相反,減小C允許訓練樣本中存在一些誤分類的樣本,但可以提高模型的泛化能力。
3.2.5" 基于RF特征優選的棉花信息提取方法
一般情況下,一份數據集有幾十上百種特征,由于各特征的重要性不同,所以為了保證訓練模型的精確度,應盡量降低復雜程度,篩選出最優特征以進行進一步研究。常見的特征優選方法有主成分分析、LASSO、RF等。
隨機森林(RF)用袋外數據(OOB)做預測。在訓練過程中,約1/3的樣本不被抽取,在每次重抽樣建立決策樹時,都會有一些樣本未被選中,則可用這些樣本進行交叉驗證,這也是用RF進行特征優選的優點之一[29]。這些袋外數據可用于計算特征重要性指標,進而進行特征選擇。該方法無需做交叉驗證,直接用oob score對模型性能進行評估。其基本原理為:
(1)每棵決策樹的袋外數據誤差,記為errOOB1;
(2)然后隨機對OOB所有樣本的特征i加入噪聲干擾,再次計算袋外數據誤差,記為errOOB2;
(3)特征i的重要性為 SUM(errOOB2-errOOB1)N(N為樹的棵數);若加入隨機噪聲后,袋外數據準確率大幅下降,則說明這個特征對預測結果有很大的影響,進而說明其重要程度比較高。
本研究將所有特征(38個)輸入GBDT、RF、SVM算法后,使用RF進行特征重要性的排序選擇,再將經特征優選后的特征再次輸入3種機器學習算法中,以探究RF特征優選前后,3種機器學習算法的分類結果及精度變化。
3.3" 精度評價方法
遙感影像分類結果的精度評價至關重要,本研究將70%的樣本作為訓練集,30%的樣本作為測試集,并采用混淆矩陣進行精度評估;混淆矩陣的列為參考數據,行為遙感數據的分類結果[30]。評估分類效果的指標包括用戶精度(UA)和生產者精度(PA),評價分類效果的指標包括總體分類精度(OA)和Kappa系數[31]。這些精度指標從不同角度反映了分類的準確性。
4" 提取結果與分析
4.1" 烏蘇市棉花特征時段提取結果
在GEE平臺中,通過選取適量各類典型地物的樣本點進行NDVI、NIR時序分析,并結合棉花生長時序,可得到在棉花生長期內(3月17日至10月13日)各類典型地物的NDVI、NIR時序光譜曲線圖。如圖6、圖7所示,在5月中旬(出苗期),棉花的NDVI值從0.1大幅上升,且NIR值也開始逐漸上升;在7月中旬至9月中旬(盛鈴期),棉花的NDVI、NIR值均在0.6左右,遠高于其他地物。這也說明,7月中旬至9月中旬的盛鈴期,是觀測棉花生長、獲取棉田信息的最佳時期,也是進行棉花種植區域提取的最佳時期。
4.2" 特征重要性排序結果
將38個特征因子,通過RF算法進行特征排序后發現,當特征數量達到12時,分類精度達到最高,大于12后呈下降趨勢。因此,選擇排名前12個特征構建訓練模型的輸入因子。這12個特征的重要性排名見圖8,B8、B12、NDVI位列前三。
4.3" GBDT、RF、SVM 3種方法及特征優選分類結果比較
將特征優選前的38個因子,以及特征優選后的12個因子(圖8),分別利用3類機器學習算法,對棉花種植區域進行提取,即可得到各方法的棉花種植區域提取結果(圖9),以及各分類方法的精度(表7、表8)。
由表7、表8可知,上述幾種機器學習算法中,盡管部分地類的分類精度略低,但棉花的UA、PA始終在0.90以上,上述機器學習方法的棉花提取精度均達到優良水平。
RF-GBDT和RF-RF方法的棉花提取精度較高,總體精度達到了0.94。GBDT的優勢在于它通過每一次的殘差計算增加了分錯樣本的權重,從而提高了泛化性能。然而,GBDT對異常值較為敏感,而且由于分類器之間存在依賴關系,難以實現并行計算。但總體而言,GBDT算法通常在一些方面優于RF算法。
使用RF分類器需要設置訓練棵數。RF特征優選前,棵數為80~90時(圖10),精度最高。隨著棵數的不斷增加,總體精度出現波動,當棵數為100時精度開始保持穩定。RF特征優選后,棵數為50時,精度達到最大。隨著棵數的不斷增加,總體精度也出現波動,且總體呈下降趨勢,當棵數為140時
精度開始保持穩定。由圖10可知,經RF特征優選的提取精度始終高于未經RF特征優選的提取精度。
此外,使用SVM設置懲罰參數C。RF特征優選前,C為20時精度最高。隨著C的不斷增加,總體精度總體呈下降趨勢,并最終穩定在0.8左右。RF特征優選后,C為15時,精度最高,隨后總體精度總體呈下降趨勢,并最終也穩定在0.8左右(圖11)。
在經過特征優選之后,3種機器學習算法(GBDT、RF、SVM)的分類精度均得到了提升,且在提取棉花種植區域方面表現出更高的準確性,極少出現漏提取現象。然而,在使用相同的遙感影像和訓練樣本的情況下,RF-SVM方法在某些情況下將田間道路誤識別為棉田,同時在部分區域出現了較為明顯的“椒鹽現象”(圖12),這導致其分類精度
相較于其他2種算法略有下降。
RF特征優化的主要目標是剔除冗余或不相關的特征,這不僅有效減少了特征的數量,而且提高了模型的精確度。特別是在處理如細窄田間道路等復雜地物特征時,結合RF特征優選和GBDT算法能夠有效減少將道路誤識別為棉田的情況。這不僅提高了分類精度,也增強了模型在處理復雜地表特征時的魯棒性。
在使用RF進行特征分析及通過特征重要性排序篩選和模型優化之后,分類精度提高了2~3百分點。RF特征優化的主要目的是剔除多余或不相關的特征,這不僅減少了特征數量,而且還提升了模型的精確度。盡管特征優選能夠在一定程度上減少像素級別的分類錯誤,從而視覺上緩解了“椒鹽現象”,但這并不代表可完全消除“椒鹽現象”(圖13)。影響分類結果的因素不僅局限于特征選擇,還包括模型參數的配置、訓練樣本的選擇,以及影像數據本身的質量和特性等,這些因素共同作用,最終決定了分類結果的準確性和可靠性。
5" 結論與討論
本研究將遙感和機器學習方法相結合,基于哨兵2號影像,利用GEE、python、ENVI、ArcGIS等軟件平臺,對研究區的棉花種植區域進行了提取研究,并將幾種方法的分類結果進行了對比。結果表明,RF-GBDT、RF-RF在烏蘇市的棉花信息提取中取得了較好的效果,GBDT、RF次之,RF-SVM與SVM的精度較低。研究結果表明:(1)根據研究區內典型地物的遙感植被指數變化曲線可知,7—8月棉花的NDVI、NIR值遠高于其他地物,此時是提取棉花信息的最佳時期。(2)通過算法發現,B8、B12、NDVI等波段與棉花的相關性最高,說明這些波段特征對于棉花提取、估產等有重要意義。(3)經RF特征優選后的3種機器學習算法(RF-GBDT、RF-RF、RF-SVM)的總體精度分別比RF特征優選前(GBDT、RF、SVM)的總體精度分別提高了0.02、0.03、0.03,Kappa系數分別提高了0.02、0.03、0.03。由此可見,在進行機器學習分類前,通過算法對輸入特征進行重要性篩選,可有效避免因特征冗余造成的分類精度下降,可實現更高精度的棉花種植區域提取。(4)使用多種機器學習方法對棉花種植區域進行提取,均取得了較好的分類效果。其中,RF-GBDT算法的分類精度最高,其Kappa系數比RF-RF方法還提高了0.01;由此可見,GBDT算法作為一種集成的機器學習算法,在地物分類與棉花提取方面有著較好的應用效果。
本研究選取新疆烏蘇市作為研究區域,運用RF算法對各類特征進行重要性排序,并最終篩選出前12個關鍵特征,輸入至3種機器學習算法中,以提高分類精度并減少特征冗余。此外,本研究首次嘗試將GBDT算法應用于棉花種植區域的提取,并取得了顯著的成效。GBDT在分類精度上高于RF和SVM的主要原因,在于其采用了增強學習策略,通過迭代構建決策樹并逐步減少殘差,從而提升模型的準確性。相較之下,RF采用多個決策樹的平均或多數投票機制進行預測,而SVM則在特征空間中尋找最優分割面以區分不同類別。GBDT專注于每輪迭代中減少分類誤差,因此在某些情況下能夠提供更精確的分類結果。然而,GBDT的逐步優化策略也可能導致其在處理大規模數據或高維特征時出現過擬合的風險。
盡管本研究在提取精度上取得了一定成果,但仍存在提升空間。主要原因包括:(1)遙感圖像獲取條件的復雜性,包括光照變化、大氣條件和傳感器角度等,這些都將影響遙感影像的質量,從而影響分類結果;(2)訓練樣本選取中混合像元的存在,導致建筑、水體、裸地等區域與棉花種植區域無法完全分離,影響分類精度;(3)盡管機器學習算法在遙感圖像分類中表現出色,但它們在處理大規模數據或高維特征時,無法避免地會存在過擬合或泛化能力不足的問題。此外,本研究方法的選取部分基于前人在其他研究區的成果和文獻經驗,與前人所選訓練樣本的差異可能導致試驗結果的誤差。后續研究將致力于提高訓練樣本的準確性,結合遙感和野外實地考察選取棉花樣本,避免因樣本選取誤差導致的精度下降,并嘗試應用更多機器學習算法及神經網絡(如U-Net)算法,以進一步優化提取結果,提升精度。
本研究表明,通過使用GEE平臺獲取高分辨率遙感影像,選取訓練樣本,并應用機器學習方法提取棉花種植區域,能夠有效提升提取精度。這為棉花種植區域的提取提供了新的解決方案和技術路徑,為棉花面積估算研究提供了重要參考。
參考文獻:
[1]呂紹倫,趙" 陽,陳萬基,等. 基于遙感云計算的阿拉爾市棉花種植面積提取[J]. 棉花科學,2022,44(4):19-25.
[2]魏瑞琪,李林峰,仙" 巍,等. 利用TIMESAT軟件和時間序列衛星影像提取新疆石河子棉花種植區域[J]. 湖北農業科學,2018,57(4):105-112.
[3]王文靜,張" 霞,趙銀娣,等. 綜合多特征的Landsat 8時序遙感圖像棉花分類方法[J]. 遙感學報,2017,21(1):115-124.
[4]劉傳跡,金曉斌,徐偉義,等. 2000—2020年南疆地區棉花種植空間格局及其變化特征分析[J]. 農業工程學報,2021,37(16):223-232.
[5]Ren B Y,Zhou H Z,Shen H,et al. Research on cotton information extraction based on Sentinel-2 time series analysis[C]//2019 8th International Conference on Agro-Geoinformatics (Agro-Geoinformatics).Turkey:IEEE,2019:1-6.
[6]Wang N,Zhai Y G,Zhang L F.Automatic cotton mapping using time series of Sentinel-2 images[J]. Remote Sensing,2021,13(7):1355.
[7]He L M,Mostovoy G. Cotton yield estimate using Sentinel-2 data and an ecosystem model over the southern US[J]. Remote Sensing,2019,11(17):2000.
[8]Li M,Zhao G X,Qin Y W. Extraction and monitoring of cotton area and growth information using remote sensing at small scale:a case study in dingzhuang town of Guangrao County,China[C]//2011 International Conference on Computer Distributed Control and Intelligent Environmental Monitoring.Changsha:IEEE,2011:816-823.
[9]田" 野,張" 清,李希燦,等. 基于多時相影像的棉花種植信息提取方法研究[J]. 干旱區研究,2017,34(2):423-430.
[10]荀" 蘭. 基于Sentinel-1/2衛星影像的棉花種植區識別方法研究[D]. 北京:中國科學院大學(中國科學院空天信息創新研究院),2022.
[11]Fei H,Fan Z H,Wang C K,et al. Cotton classification method at the county scale based on multi-features and random forest feature selection algorithm and classifier[J]. Remote Sensing,2022,14(4):829.
[12]王匯涵,張" 澤,康孝巖,等. 基于Sentinel-2A的棉花種植面積提取及產量預測[J]. 農業工程學報,2022,38(9):205-214.
[13]美合日阿依·莫一丁,買買提·沙吾提,李金朝. 基于Sentinel-2時間序列數據及物候特征的棉花種植區提取[J]. 干旱區地理,2022,45(6):1847-1859.
[14]Rodriguez-Sanchez J,Li C Y,Paterson A H. Cotton yield estimation from aerial imagery using machine learning approaches[J]. Frontiers in Plant Science,2022,13:870181.
[15]Hong Y,Li D R,Wang M,et al. Cotton cultivated area extraction based on multi-feature combination and CSSDI under spatial constraint[J]. Remote Sensing,2022,14(6):1392.
[16]王利民,劉" 佳,姚保民,等. 基于Rapideye數據的棉花特征光譜指數構建及類型識別[J]. 中國農業信息,2019,31(5):25-37.
[17]Gorelick N,Hancher M,Dixon M,et al. Google Earth Engine:Planetary-scale geospatial analysis for everyone[J]. Remote Sensing of Environment,2017,202:18-27.
[18]郝斌飛,韓旭軍,馬明國,等. Google Earth Engine在地球科學與環境科學中的應用研究進展[J]. 遙感技術與應用,2018,33(4):600-611.
[19]Bruzzone L,Roli F,Serpico S B. An extension of the Jeffreys-Matusita distance to multiclass cases for feature selection[J]. IEEE Transactions on Geoscience and Remote Sensing,1995,33(6):1318-1321.
[20]Iqbal N,Mumtaz R,Shafi U,et al. Gray level co-occurrence matrix (GLCM) texture based crop classification using low altitude remote sensing platforms[J]. PeerJ Computer Science,2021,7:e536.
[21]Friedman J H.Stochastic gradient boosting[J]. Computational Statistics amp; Data Analysis,2002,38(4):367-378.
[22]張海洋,張" 瑤,田澤眾,等. 基于GBDT和Google Earth Engine的冬小麥種植結構提取[J]. 光譜學與光譜分析,2023,43(2):597-607.
[23]卓" 越,嚴海軍. 基于梯度提升樹算法的玉米施肥模型構建[J]. 水資源與水工程學報,2020,31(4):223-228,237.
[24]林志堅,姚俊萌,蘇校平,等. 基于MODIS指數和隨機森林的江西省早稻種植信息提取[J]. 農業工程學報,2022,38(11):197-205.
[25]李旭青,劉世盟,李" 龍,等. 基于RF算法優選多時相特征的冬小麥空間分布自動解譯[J]. 農業機械學報,2019,50(6):218-225.
[26]Belgiu M,Draˇgu L. Random forest in remote sensing:a review of applications and future directions[J]. ISPRS Journal of Photogrammetry and Remote Sensing,2016,114:24-31.
[27]肖博林. 基于支持向量機的高光譜遙感影像分類[J]. 科技創新與應用,2020,10(4):22-24.
[28]費" 浩. 綜合多特征的縣域尺度棉花種植面積遙感提取方法[D]. 阿拉爾:塔里木大學,2021:29-30.
[29]劉浩然,劉秀清,王春樂. 基于隨機森林和超像素的極化SAR圖像分類[J]. 國外電子測量技術,2021,40(9):29-35.
[30]黃鵬程,張明明,王新宇,等. 基于Landsat-8 OLI的西安市土地利用類型遙感分類研究[J]. 測繪與空間地理信息,2020,43(1):85-88,92.
[31]張" 群. 基于高分遙感的黑方臺滑坡識別[D]. 西安:長安大學,2017:28-30.