劉 舒 姜琦剛 馬 玥 肖 艷 李遠華 崔 璨
(1.吉林大學地球探測科學與技術學院, 長春 130026; 2.大連海事大學航海學院, 大連 116000)
基于多目標遺傳隨機森林特征選擇的面向對象濕地分類
劉 舒1姜琦剛1馬 玥1肖 艷1李遠華1崔 璨2
(1.吉林大學地球探測科學與技術學院, 長春 130026; 2.大連海事大學航海學院, 大連 116000)
以多時相Landsat8影像和SRTM DEM為數據源,對南甕河流域進行了面向對象濕地分類。為削弱高維特征集對分類精度的影響,提出一種多目標遺傳隨機森林組合式特征選擇算法(MOGARF)進行特征集優化。利用Relief F算法對完整特征集進行特征初選,再以基于隨機森林的封裝式多目標遺傳算法進一步提取優化特征集。將所得特征集結合隨機森林分類法提取濕地信息。并將結果分別與基于完整特征集和僅采用Relief F算法及Boruta算法提取的優化特征集的3種隨機森林分類結果對比。試驗結果表明,采用MOGARF算法特征選擇后,特征維度降低至原來的10%,且分類精度最高,總體精度為92.61%,比其他分類方案提高0.35%~1.94%,Kappa系數為0.907 5,袋外誤差為7.77%,比其他分類方案降低0.91%~1.48%。利用MOGARF特征選擇的隨機森林分類法是濕地分類的有效方法。
濕地分類; 多光譜遙感影像; 面向對象; 多目標遺傳隨機森林算法; 特征選擇
利用多光譜遙感影像對濕地進行基于植物類型的準確分類,是濕地碳循環過程監測的有效手段[1]。目前研究者常引入多源數據采取面向對象分類方式,以削弱多光譜影像分類的弊端[2-4]。但面向對象方法增大了特征維度,在使用常規方法分類時需要先進行特征選擇[4-7]。隨機森林(Random forest,RF)被認為是能夠直接處理高維數據的高效分類算法[8-10],廣泛應用于多個領域,近年來也被引入到濕地分類研究中,并獲得較高精度的結果[2,5,10-12]。但當特征維度過高時,特征集中次要特征仍會降低分類精度,在分類前也需要優化特征空間[13]。優化的特征空間應具有較低維度,特征應具有類內聚合性和類間可分性,特征間相關度低,能得到較高的分類精度[14]。
目前與RF算法結合的特征選擇算法主要分為過濾式(Filter)和封裝式(Wrapper)。也有學者構造Filter-Wrapper組合特征選擇法,發揮兩種算法優勢,兼顧多個特征空間評價因素,尋求精度和效率的平衡[4,15]。
Relief F算法是一種過濾式多類別特征選擇算法,通過計算特征權重,判斷特征重要性。
目前基于RF模型的面向對象濕地分類研究較少,將組合式特征選擇算法應用于面向對象分類的研究也相對較少[4]。本文將Relief F Filter(Relief F)算法和基于隨機森林的多目標遺傳Wrapper算法結合,提出多目標遺傳隨機森林Filter-Wrapper組合式特征選擇算法提取優化特征集,并應用于南甕河流域,實現基于RF的面向對象濕地分類。將分類結果與基于完整特征集(No_FS)和分別利用Relief F算法、Boruta算法提取的優化特征集的RF面向對象濕地分類對比,驗證該方法的有效性。
1.1 研究區概況
南甕河流域位于大興安嶺地區東部,地理坐標為北緯50°56′12″~51°39′40″,東經124°24′54″~126°13′15″(圖1)。研究區內植被豐富,喬木主要有興安落葉松、柞樹等;灌木有興安杜鵑、叢樺等;草本植物主要為杜香、大葉章等。該區為寒溫帶大陸性季風氣候,寒冷季節較長,植物生長周期約為110 d。研究區濕地資源豐富,主要包括森林濕地、灌叢濕地、草本濕地、島狀林濕地、湖泊濕地和河流濕地,人工濕地為采礦后產生的積水地帶。其內包含我國唯一以寒溫帶森林濕地生態系統為保護對象的國家級自然保護區[7],也是我國最大的森林濕地分布區之一[7,16]。

圖1 研究區位置圖Fig.1 Location map of study area
1.2 數據源與預處理
本文以春、夏和秋季30 m空間分辨率的Landsat8(OLI)影像和90 m空間分辨率的SRTM DEM影像為數據源,提取南甕河流域光譜、形狀、紋理和地形特征,并計算指數特征。春季OLI影像選用LC81200242014098LGN00,夏季影像選用LC81200242015197LGN00,秋季影像選用LC81200242015293LGN00。夏季影像分布有1%的薄云,經大氣校正后不影響光譜特征的提取。由于選取的OLI影像拍攝時間接近,且南甕河流域大部分區域較少人為活動干預,本文假定不同時相影像同一位置像素間沒有土地覆被類型轉換,不影響像素類別劃分過程。
將3個時相Landsat8影像在ENVI5.1中輻射定標和大氣校正,SRTM DEM重采樣為30 m,并統一兩種影像投影參數。將每個時相Landsat8影像的第1、2、3、4、5、7波段,連同高程信息合成具有19個波段的影像分類基礎數據。利用Ecognition多尺度分割模塊分割該基礎數據,分割時令所有波段權重為1,形狀因子為0.1,緊湊度因子為0.3,分割尺度確定為15。
2.1 濕地分類體系建立與濕地特點分析
根據《濕地公約》和《東北地區國土遙感綜合調查》項目建立的分類體系,南甕河流域濕地類型以天然濕地為主,具體分為河流濕地、湖泊濕地和沼澤草甸濕地。區內的人工濕地主要為采礦積水區,由于面積較小,在本研究中不單獨列為一類。參照2000年和2007年對該區濕地的解譯結果和相關文獻,區內河流濕地主要為永久性河流,湖泊濕地主要為季節性湖泊和坑塘,沼澤草甸濕地主要為草本濕地、森林濕地和灌叢濕地。結合研究區實際情況,建立濕地分類體系如表1所示[7]。
本研究的目的在于提取濕地信息,因此將區內其他土地覆被類型作為背景地類。背景地類參考2007年《土地利用現狀分類》國家標準劃分至一級類,分別為:林地、草地、耕地、交通運輸用地。其中耕地以旱地為主,交通運輸用地以道路為主,在此簡稱為道路。林地特指不包括森林濕地的一般有林區域。
表1 研究區濕地分類體系
Tab.1 Classification system for wetlands in study area

一級二級三級劃分依據天然濕地河流濕地永久性河流常年有水的河流,僅包括河床部分湖泊濕地季節性湖泊季節性積水的漫灘湖泊或淺灘,以水面為主草本濕地草本植物為主,植被蓋度不低于30%,有泥炭層沼澤草甸濕地灌叢濕地灌木植物為主,植被蓋度不低于30%,無泥炭累積森林濕地落葉喬木為主,植被郁閉度不低于0.2,有泥炭層
研究區內的喬木主要為落葉喬木。處于植被繁茂的有葉時期時,林地與森林濕地的植被群落組成和冠層反射率相似,直接利用光學遙感影像分離森林濕地較為困難。但二者地表水文特征有顯著差異,在早春或晚秋的落葉期對二者林下水文信息的提取是區分林地和森林濕地的關鍵。季節性積水的特點也要求森林濕地多處于坡度較小的區域。本研究區存在島狀林濕地,在影像上表現為被草本濕地包圍的林地小斑塊,易于辨識[7,10]。
濕地與旱地的水文特征差異還影響上層植被的長勢和生長期分布,進行野外驗證時發現,與季節性干涸的草本濕地相比,水分充足的草本濕地中植被更晚枯萎。研究區內草本濕地和草地的植被生長周期不同,在春季和秋季的影像上二者區別明顯[7]。草本濕地和森林濕地的植被類型差異較大,可直接通過植被指數進行區分。
灌叢濕地屬于森林濕地和草本濕地之間的過渡階段,雖與草本濕地、森林濕地之間的界限不明顯,但它不同于森林濕地和草木濕地,表層土壤無泥炭累積,且植被類型以灌木為主,落葉時期的土壤指數和有葉時期植被指數為灌叢濕地識別的關鍵。
對于永久性河流和季節性湖泊而言,當處于豐水期時,二者在影像上均表現為深藍色水面,當枯水期時,二者區別明顯。
2.2 樣本提取與精度驗證
樣本質量直接關系到濕地分類的精度,應選擇具有典型性、代表性的純凈對象作為樣本。常用的樣本選取方式有:簡單隨機抽樣、聚點抽樣、等距抽樣和分層隨機抽樣[17]。由于RF算法分類精度受各類別樣本數量和空間分布的影響[9,18],因此采取分層隨機抽樣的方式,使各類別樣本點數量大致與該類別的總面積成比例。為保證比例較小的類別也有一定數量樣本,設各類別最小樣本數為100。
依據Google Earth高分辨率影像解譯研究區的島狀林濕地和沿河的灌叢濕地,并將解譯結果作為森林濕地和灌叢濕地典型樣區;利用收集到的2007年濕地解譯數據確定草本濕地、永久性河流和季節性湖泊典型樣區;結合部分2016年東北地區自然資源解譯數據確定森林、草地、耕地和道路樣區。在高清影像中島狀林斑塊和灌叢濕地特征明顯,邊界清晰;選用的已有參考解譯數據都已經驗證過,是樣本選取和精度評價的可靠基礎數據。
查閱相關統計數據,設定覆被類型面積比例。提取落在各樣區內相對純凈的分割對象組成樣本空間,按照設定比例在每類地物樣本空間中隨機抽取樣本。其中2/3作為訓練樣本,用于特征選擇和RF建模,剩余作為測試樣本,利用模型將其分類,并與樣本實際類別對比,計算混淆矩陣和相關精度指標,評價RF分類精度。各類樣本數量如表2所示。
表2 各類型樣本數量分布
Tab.2 Numbers of samples for each class

類別林地森林濕地灌叢濕地草本濕地草地耕地道路永久性河流季節性湖泊訓練集5008010050020010010010080測試集250305025010050505040
2.3 對象特征提取
依據不同濕地類型特點建立完整對象特征集,共提取與水體、土壤和植被狀態有關的473個特征用于濕地分類。主要包括以下類別:
(1)光譜特征:提取各對象3個時相Landsat8影像1、2、3、4、5、7波段的均值(Mean)、標準差(Std)、最大像素值(Max.)、最小像素值(Min.)、偏斜度(Skewness)、波段最大差異(Max. diff)、總體亮度值(Brightness)[6]。
(2)指數特征:提取歸一化植被指數NDVI,差值植被指數DVI,比值植被指數RVI, 土壤調節植被指數SAVI,優化土壤調節植被指數OSAVI,修正土壤調節植被指數MSAVI,垂直植被指數PVI,增強植被指數EVI[19],結構不敏感色素指數SIPI[20],修正差值植被指數RDVI,改進葉綠素溶解綠指數MCARI2[21],綠度植被指數GVI[22],抗大氣植被指數ARVI[23],歸一化濕度指數NDMI,穗帽變換綠度指數TCG,濕度指數TCW,亮度指數TCB,歸一化建筑指數NDBI[24],修正歸一化水體指數RNDWI,改進歸一化水體指數MNDWI,新型水體指數NWI,增強水體指數EWI[25],全球植被水分指數GVMI[26],可見光短波紅外干旱指數VSDI,地表水指數LSWI,水分脅迫指數MSI,地表水容量指數SWCI[27],葉面積指數LAI[28],葉綠素含量指數CVI,表征綠量VQ[29]。
(3)紋理特征:提取對象全方位灰度共生矩陣均值(GLCM Mean),熵(GLCM Ent),同質度(GLCM Homo),標準差(GLCM Std),非相似性(GLCM Dissim),對比度(GLCM Contrast),角二階矩(GLCM Ang. 2ndMoment)和相關性(GLCM Corr);全方位(all dir.)歸一化灰度矢量(GLDV)的均值(GLDV Mean),熵(GLDV Ent),反差(GLDV Contrast),角二階矩(GLDV Ang. 2ndMoment)來描述對象紋理特征。
(4)地形特征:從SRTM影像中提取高程(Elev)、坡向(Aspect)、坡度(Slope)和山體陰影(Hillshade)等地形信息。
(5)形狀特征:提取對象的形狀特征,包括對象的邊界長度、長度、寬度、圓度、緊湊度、不對稱性、密度、包含像素數、面積、形狀指數等[6]。
2.4 多目標遺傳隨機森林(MOGARF)特征選擇方案
2.4.1 Relief F算法原理
Relief F算法是目前廣泛應用的一種過濾式(Filter)多類別特征選擇算法,通過計算特征權重判斷特征重要性。該算法不受數據類型的限制,不受噪聲干擾,實施簡單,運算效率高。具體過程為:在某類樣本中抽取一個體R,分別在同類和異類樣本中尋找k個最鄰近樣本,構成同類臨近樣本集H和異類臨近樣本集T。再以R與H和T中樣本各特征平均差異的差值定義特征權重W。對于任意特征m,完成n次抽樣的特征權重Wm計算式為
(1)
式中c——異類樣本的樣本類別R[m]——個體R特征m的值Hj[m]——第j個最鄰近同類樣本特征m的值
p(c)——異類樣本類別為c的概率
class(R)——個體R的類別
p(class(R))——樣本類別與R相同的概率
T(c)j[m]——第j個最鄰近c類樣本特征m的值
特征權重越大,說明該特征使得樣本的類間距離大,類內距離小,對類別識別作用大[4,30]。
2.4.2 隨機森林算法原理
隨機森林分類器(Random forest classifier)是根據隨機抽取的樣本信息,通過建立多棵獨立決策樹分別預測目標類別的無參數分類器。假定生成決策樹的棵數為N,樣本的全部特征數為M,模型的每棵決策樹都是在所有訓練樣本中依據bootstrap抽樣方式提取子訓練集后,再從參與建模的全部特征中隨機選擇指定數目的特征建立的,并利用不屬于子訓練集的樣本計算該決策樹的分類內部誤差。為新數據分類時,綜合所有決策樹的獨立預測結果,通過投票方式決定待分類目標的最可能類別,得出綜合袋外誤差(Out-of-bag error,OOB)。OOB誤差越小,說明基于RF的分類錯誤率越小,分類精度越高。
OOB誤差除體現分類精度外,也可用于計算特征重要性評分(VIM)。在每棵決策樹得到OOB誤差(Bo)后,對于每一個參與決策樹運算的特征變量,保持其他特征取值不變,將該特征變量袋外數據取值隨機打亂,重新計算決策樹的OOB誤差(Bn)。所有決策樹兩類OOB誤差的差值和的百分比即為被打亂特征的VIM。對于任意特征MA,決策樹編號為t,特征重要性評分V(MA)可以表示為
(2)


V越大,特征越重要[8,9,31]。

圖2 MOGARF特征選擇流程圖Fig.2 Flow chart of MOGARF feature selection method
特征選擇過程中,RF算法主要用于評價各特征組合分類精度和組合內特征的重要程度。獲得最優特征集后,還將利用RF算法提取研究區濕地信息。
RF模型基于R語言的Random Forest語言包建立。運行時需為兩個參數賦值:生成決策樹的數目ntree和節點分裂時輸入的特征變量個數mtry。軟件默認mtry為sqrt(M),ntree為500[3]。當特征數目較多時,使用默認值得到的模型OOB誤差可能偏高,因此本文在每次利用RF算法分類前,都分別對兩個參數取值進行試驗,提取使OOB誤差最小參數組合并以此建立RF模型。具體方法為:首先固定ntree為2 000,對mtry取遍1~M的所有整數分別建立RF模型,計算OOB誤差,最佳mtry取值為使OOB誤差最小的mtry0;再令mtry=mtry0,使ntree取遍1~2 000的所有整數,比較相應的OOB誤差,確定使OOB誤差最小的最佳ntree取值。
2.4.3 MOGARF特征選擇方案構建
做某種決策時常需要同時綜合考慮多項限制條件,有時這些約束條件甚至是相互矛盾的,這就需要借助多目標優化思想來解決問題。NSGAII多目標遺傳算法是對傳統遺傳算法的改進,目前已成為解決多目標優化問題的基準算法之一。NSGAII的步驟主要有編碼、初始化種群、設計目標函數、非支配排序和計算擁擠距離,通過對擁擠距離的評估進行選擇、交叉和變異產生新種群[14]。
本文提出的MOGARF算法是基于NSGAII的特征選擇算法,首先利用Relief F算法對參與分類的特征進行初選,剔除類間距離小于類內距離的特征;再根據特征優化的4個因素確定算法目標,建立非支配集,計算擁擠距離;在生成初始化種群時,由RF算法得到VIM基于Gama分布產生每個保留特征入選的概率,確保重要的特征入選的幾率更大[13]。
設遺傳代數為G,種群中個體數為S,選擇率為ps,交叉率為pc,變異率為pm,由包含全部特征的No_FS特征集得到的最佳RF建模參數為mtry0和ntree0,MOGARF算法具體實現流程如圖2所示[13]。
對于第G代種群中的個體,直接選取其中擁擠距離最大的個體作為最優解,該個體包含的特征構成本試驗最優特征集。
MOGARF選擇和濕地RF分類過程借助Matlab和R語言軟件平臺交互實現。對選出的最優特征集進行RF模型參數選擇試驗,選出最佳參數組合ntreen和mtryn,并對最優特征集建立RF模型,提取南甕河流域濕地信息。
3.1 MOGARF模型選取特征集
對No_FS特征集,當mtry取94時OOB誤差取最小值13.37%,ntree超過1 000時模型OOB誤差趨于穩定,故將最佳參數組合確定為mtry0=94,ntree0=1 000。此參數組合也作為初始RF建模參數提取滿足Gama分布的特征入選概率。利用Matlab和R語言軟件交互實現MOGARF特征選擇過程,得到了具有45個特征的最優特征集,如表3所示。表中指數特征以“特征類型 季節縮寫”的形式命名,其他特征以“特征類型 波段 季節”命名。
在最優特征集中,包含除形狀特征外的其余4種特征類別,說明想要達到理想的分類效果,需要綜合利用多源信息,整合不同類別的特征,共同用于分類過程。入選光譜特征和指數特征數量最多,說明在本研究中光譜特征和指數特征是重要特征類別。紋理特征和地形特征種類較少,且沒有形態特征入選,可能由以下原因造成:對于中等分辨率的影像而言,由于存在混合像元,且在影像分割后以對象邊界為窗口提取對象的紋理特征,削弱了紋理特征取值的區別,使紋理特征在分類過程中起到作用較小。本文采用統一尺度分割影像,對象的形狀特征相似,削弱了形狀特征的作用。
表3 最優特征集
Tab.3 Optimal feature set

特征類別特征命名數量光譜特征MeanNIRspr、MeanNIRsum、MeanSWIR2sum、MeanRedaut、MeanSWIR1aut、SkewnessSWIR1aut、SkewnessSWIR2aut、SkewnessSWIR2spr、Min.pixelBluespr、Min.pixelElev、Min.pixelGreensum、Min.pixelSWIR1sum、Max.pixelBluesum、Max.pixelSlope14紋理特征GLCMAng.2ndmoment(alldir.)、GLCMMeanBluespr、GLCMMeanGreensum、GLCMMeanRedspr、GLCMMeanElev、GLCMMeanSlope、GLDVEntNIRaut7指數特征MCARI2aut、EWIspr、LAIspr、SAVIspr、OSAVIsum、DVIspr、DVIaut、EVIspr、EVIsum、EVIaut、ARVIspr、GVIspr、GVIsum、NDBIspr、NDBIaut、CVIspr、CVIaut、MNDWIaut、LSWIspr、NDMIsum、NDMIaut、SWCIspr、SWCIaut23地形特征MeanElev1
3.2 MOGARF_RF分類方案結果與精度分析

圖3 MOGARF_RF方案分類結果Fig.3 Result maps of MOGARF_RF classification strategy
令OOB誤差最小的參數組合為mtry0MOGARF=6,ntree=1 000。建立RF模型對研究區進行分類,濕地分布情況如圖3a所示。研究區內各類濕地總面積為1 661.698 km2,占總面積的30%,多分布于平緩低洼地帶。其中森林濕地約為274.576 km2,主要集中在研究區東南,占濕地總面積的16.52%;灌叢濕地面積36.60 km2,多分布于河岸兩側,占濕地總面積的0.02%;草本濕地面積1 340.120 km2,面積最大,遍布整個研究區,占濕地總面積的80.65%。與圖3b對比可知,本文得到的濕地面積和分布情況基本符合研究區實際情況。
計算混淆矩陣,獲取的精度評定指標如表4所示。混淆矩陣中的元素以百分比形式表示。由表4可知,MOGARF_RF分類方案的總體精度為92.61%,Kappa系數為0.907 5,森林濕地、灌叢濕地、草本濕地、永久性湖泊和季節性河流的用戶精度分別為87.5%、82.0%、97.6%、88.0%和79.5%。這5類濕地的制圖精度分別為94.7%、93.3%、86.3%、86.8%和97.0%。該方案分類精度較高,是研究區內濕地信息提取的可行方案。由于樣本具有代表性,不同類別濕地間的混淆較少。不同地類的混淆主要發生在草本濕地和其他地類之間,灌叢濕地和永久性河流之間,以及季節性湖泊和永久性河流之間。部分混淆是由地類間光譜特征的相似性造成。季節性湖泊和永久性河流在一定時段內都存在特征相似的水面,草地和草本濕地在一定時段內水文、植被特征相似,在草相對茂盛的區域,即使草下水文狀態不同,也可能由于Landsat影像的弱穿透能力而導致誤分錯分現象。其余混淆主要是由于相鄰兩種地類間邊界較模糊,且存在一定的混合像元造成的。一般情況下,濕地通常從森林濕地經由灌叢濕地和草本濕地過渡至泥炭沼澤濕地。相鄰濕地類型?;焐植?,之間沒有明確的界限,在中等分辨率的影像中常以混合像元形式存在,從而導致濕地類型的誤判斷。由于島狀林的特殊性,研究區中部分森林濕地與草本濕地直接相連,二者也存在一定量的混合像元[7];本研究選取的灌叢濕地樣本分布在永久性河流河岸處,灌叢濕地和永久性河流也存在混合像元。
表4 MOGARF_RF分類方案混淆矩陣
Tab.4 Confusion matrix of MOGARF_RF classification scheme

林地森林濕地灌叢濕地草本濕地草地耕地道路永久性河流季節性湖泊林地100000000森林濕地00.9000.0800000.03灌叢濕地000.840.040000.120草本濕地0000.980.010000草地00.0200.130.830.02000耕地0000.080.020.880.0200道路0.04000.200.0400.7200永久性河流000.040.040000.920季節性湖泊0000.13000.030.030.82制圖精度/%99.294.793.386.393.395.692.386.897.0用戶精度/%10087.582.097.683.086.064.088.079.5總體精度/%92.61Kappa系數0.9075
3.3 不同方案分類精度指標比較
為比較MOGARF算法的特征選擇效果,將其分別與利用No_FS特征集、Relief F優化特征集和Boruta優化特征集的RF分類對比,令Relief F優化特征集和Boruta優化特征集的特征數也為45。RF模型的ntree取1 000,mtry0No_FS=5,mtry0MOGARF=6, mtry0ReliefF=9, mtry0Boruta=5。由4種分類方案的混淆矩陣分析總體精度、Kappa系數、OOB誤差、漏分和錯分誤差等指標,量化不同方案的分類精度。各分類方案精度評定指標如圖4所示。
從圖4a~4c中可以看出,在4種分類方式中,利用MOGARF優化特征集,總體精度達到92.61%,OOB誤差為7.77%;利用Boruta優化特征集的RF分類,總體精度達到90.67%,OOB誤差為9.25%;而考慮類間可分性的Relief F優化特征集分類精度為92.26%。分類結果的Kappa系數都在0.8以上,分類結果具有較高可信度。在建立RF模型時都采用了每種分類方式各自的最優參數組合,保證所有分類結果都為對應方案中的相對最優解。比較可知,MOGARF進行面向對象的RF分類精度最高,總體精度比其他分類方案提高0.35%~1.94%,OOB誤差比其他分類方案降低0.91%~1.48%。
從圖4d、4e可以看出,采用MOGARF特征選擇算法對所有濕地類別的錯分誤差總體上小于其他方法,錯分主要集中在森林濕地、灌叢濕地和季節性湖泊中。原因可能在于這3類濕地覆蓋面積小,而在選取樣本時為保證類別具有足夠樣本,實際采集的樣本數所占比例大于實際地類區內所占比例,從而增大了其他類別個體被誤判為這幾類的可能性。永久性河流和草本濕地的漏分現象嚴重,道路與其他類別的錯分也由相似原因導致。此外,道路在影像圖中較為細小,易與其他類別形成混合像元,在一定程度上影響了分類精度。

圖4 不同特征選擇方案分類誤差對比圖Fig.4 Comparisons of classification errors with different feature selection strategies
從上述的研究過程與結果中可以看出,在采用RF算法進行濕地分類前,先利用MOGARF特征選擇算法提取優化的特征集,能夠在一定程度上提高RF分類精度。相比于Boruta和Relief F特征選擇方案,MOGARF特征選擇算法能夠獨立確定特征集維數,并平衡分類精度、數據冗余度、數據維度等多項特征集評價指標。此外,利用MOGARF算法選取最優特征集,能夠大幅度降低數據維度,降維后的數
據通過RF算法進行分類,在保證高分類精度的前提下,減少研究人員在數據準備過程中的工作量,節約存儲空間,提高運算效率。因此,基于MOGARF特征選擇的面向對象分類方法是濕地分類研究可靠的實施方案,更適用于對濕地主要類別的提取。
1 毛德華.定量評價人類活動對東北地區沼澤濕地植被NPP的影響[D].長春:中國科學院東北地理與農業生態研究所,2014. MAO Dehua. Quantitative assessment in the impacts of human activities on net primary productivity of wetlands in the northeast China[D].Changchun: Northeast Institute of Geography and Agro ecology, Chinese Academy of Sciences,2014. (in Chinese)
2 DRONOVA I. Object-based image analysis in wetland research: a review[J].Remote Sensing, 2015,7(5):6380-6413.
3 NA Xiaodong, ZANG Shuying, WU Changshan, et al. Mapping forested wetlands in the Great Zhan River Basin through integrating optical, radar, and topographical data classification techniques[J]. Environmental Monitoring and Assessment, 2015, 187(11): 1-17.
4 肖艷,姜琦剛,王斌,等.Relief F和PSO混合特征選擇的面向對象土地利用分類[J].農業工程學報,2016,32(4):211-216. XIAO Yan, JIANG Qigang, WANG Bin, et al. Object based land-use classification based on hybrid feature selection method of combining Relief F and PSO[J]. Transactions of the CSAE, 2016, 32(4):211-216. (in Chinese)
5 SHRUTHI R B, KERLE N, JETTEN V, et al. Object-based gully system prediction from medium resolution imagery using random forests[J]. Geomorphology, 2014,216: 283-294.
6 謝靜.基于多季相遙感信息的三江平原濕地信息提取[D].長春:中國科學院研究生院東北地理與農業生態研究所,2013. XIE Jing. Classification of wetlands using object-oriented method and multi-season remote sensing images in Sanjiang Plain[D]. Changchun: Northeast Institute of Geography and Agro ecology, Chinese Academy of Sciences, 2013. (in Chinese)
7 孫俊杰,馬大喜,任春穎,等.基于多時相環境衛星數據的南甕河流域濕地信息提取方法研究[J].濕地科學,2013,11(1):60-67. SUN Junjie, MA Daxi, REN Chunying, et al. Method of extraction of wetlands’ information in Nanweng River Basin based on multi-temporal environment satellite images[J]. Wetland Science, 2013, 11(1):60-67. (in Chinese)
8 BREIMAN L. Random forest[J].Machine Learning,2001,45(1):5-32.
10 嚴婷婷,邊紅楓,廖桂項,等.森林濕地遙感信息提取方法研究現狀[J].國土資源遙感,2014,26(2):11-18. YAN Tingting, BIAN Hongfeng, LIAO Guixiang, et al. Research status of methods for mapping forested wetlands based on remote sensing[J]. Remote Sensing for Land & Resources, 2014, 26(2):11-18. (in Chinese)
11 王書玉,張羽威,于振華.基于隨機森林的洪河濕地遙感影像分類研究[J].測繪與空間地理信息,2014,37(4):83-85,93. WANG Shuyu, ZHANG Yuwei, YU Zhenhua. Classification of Honghe wetland remote sensing image based on random forests[J]. Geomatics & Spatial Information Technology, 2014, 37(4):83-85,93. (in Chinese)
12 ZHANG Caiyun, XIE Zhixiao. Object-based vegetation mapping in the Kissimmee River Watershed using HyMap data and machine learning techniques[J]. Wetlands, 2013, 33(2): 233-244.
13 趙發林,張濤,李康. 基于遺傳算法的隨機森林模型(GARF)用于特征基因篩選[C]∥2011年中國衛生統計學年會會議論文集,2011:7.
14 宋羚.基于多目標遺傳算法和SVM的特征選擇方法[D].武漢:華中科技大學,2007. SONG Ling. A feature selection method based on multi-objective genetic algorithm and support vector machines[D]. Wuhan: Huazhong University of Science and Technology,2007. (in Chinese)
15 裘國永,王娜,汪萬紫.基于互信息和遺傳算法的兩階段特征選擇方法[J] .計算機應用研究, 2012, 29(8): 2903-2905. QIU Guoyong, WANG Na, WANG Wanzi. Two-stage feature selection algorithm based on mutual information and genetic algorithm[J]. Application Research of Computers, 2012,29(8): 2903-2905. (in Chinese)
16 劉航宏.黑龍江南甕河國家級自然保護區大型真菌多樣性研究[D].長春:吉林農業大學,2013. LIU Hanghong. Study on diversity of macrofungi in Nanwenghe national nature reserve[D]. Changchun: Jilin Agricultural University, 2013. (in Chinese)
17 裴亞軍.滇東南石漠化多尺度遙感監測的精度評價研究[D].昆明:昆明理工大學,2014.
18 MILLARD K, RICHARDSON M. On the importance of training data sample selection in random forest image classification: a case study in Peatland ecosystem mapping[J]. Remote Sensing, 2015, 7(7):8489-8515.
19 劉金鋒.基于多源遙感數據的青海湖流域植被指數研究[D].西寧:青海師范大學,2014. LIU Jinfeng. Vegetation indices based on multi-source remote sensing data of the Qinghai Lake basin[D]. Xining: Qinghai Normal University, 2014. (in Chinese)
20 朱旭珍.三種不同方法估算森林葉面積指數的比較研究[D].臨安:浙江農林大學,2014. ZHU Xuzhen. A comparative study of three different methods for estimating forest leaf area index[D]. Lin’an: Zhejiang A&F University, 2014. (in Chinese)
21 李子揚,錢永剛,申慶豐,等.基于高光譜數據的葉面積指數遙感反演[J].紅外與激光工程,2014,43(3):944-949. LI Ziyang, QIAN Yonggang, SHEN Qingfeng, et al. Leaf area index retrieval from remotely sensed hyperspectral data[J]. Infrared and Laser Engineering, 2014, 43(3):944-949. (in Chinese)
22 朱緒超,袁國富,易小波,等.基于Landsat 8 OLI影像的塔里木河下游河岸林葉面積指數反演[J].干旱區地理,2014,37(6):1248-1256. ZHU Xuchao, YUAN Guofu, YI Xiaobo, et al. Leaf area index inversion of riparian forest in the lower basin of Tarim River based on Landsat 8 OLI images[J]. Arid Land Geography, 2014, 37(6):1248-1256. (in Chinese)
23 任安才.基于TM影像的川西北理塘草地生物量與植被指數關系研究[D].雅安:四川農業大學,2008. REN Ancai. Grassland biomass on north-western Plateau of Sichuan and vegetation indexes relation using Landsat TM image[D]. Ya’an: Sichuan Agricultural University, 2008. (in Chinese)
24 樊輝.基于Landsat TM的城市熱島效應與地表特征參數穩健關系模型[J] .國土資源遙感,2008,19(3):45-51. FAN Hui. The robust linear regression model between satellite-derived urban heat island and underlying surface parameters[J]. Remote Sensing for Land & Resources, 2008, 19(3):45-51. (in Chinese)
25 羅崇亮.基于水體指數的艾比湖湖水面積提取對比研究[J].科技創新導報,2015(24):34-35.
26 李夢云.基于VSDI指數的土壤濕度遙感降尺度研究[D].長春:東北師范大學,2014. LI Mengyun. Downscaling of passive microwave soil moisture using visible and shortwave infrared drought index: a case study of the western Jilin province[D]. Changchun: Northeast Normal University,2014. (in Chinese)
27 ZHANG Ning, YANG Hong, QIN Qiming, et al. Evaluation of the visible and shortwave infrared drought index in China[J]. International Journal of Disaster Risk Science, 2013, 4(2):68-76.
28 邢麗瑋,李小娟,李昂晟.等. 基于高光譜與多光譜植被指數的洪河沼澤植被葉面積指數估算模型對比研究[J].濕地科學,2013,11(3):313-319. XING Liwei, LI Xiaojuan, LI Angsheng, et al. A comparative study on estimation model for leaf area index of vegetation in marshes in Honghe National Nature Reserve based on hyperspectral and multispectral vegetation indices[J]. Wetland Science, 2013, 11(3):313-319. (in Chinese)
29 康峰峰.北京西南山地森林綠量遙感反演的研究[D].北京:北京林業大學,2011. KANG Fengfeng. Study on remote sensing retrieval of forest vegetation quantity in mountainous area south-western Beijing China[D]. Beijing: Beijing Forestry University,2011. (in Chinese)
30 李曉嵐.基于Relief特征選擇算法的研究與應用[D].大連:大連理工大學,2013. LI Xiaolan. The study and application of feature selection algorithms based on Relief[D]. Dalian: Dalian University of Technology,2013. (in Chinese)
31 馬玥,姜琦剛,孟治國,等.基于隨機森林算法的農耕區土地利用分類研究[J/OL].農業機械學報,2016,47(1):297-303.http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?file_no=20160140&flag=1. DOI:10.6041/j.issn.1000-1298.2016.01.040. MA Yue, JIANG Qigang, MENG Zhiguo, et al. Random forest classification of land use in farming area[J/OL]. Transactions of the Chinese Society for Agricultural Machinery, 2016, 47(1):297-303. (in Chinese)
Object-oriented Wetland Classification Based on Hybrid Feature Selection Method Combining with Relief F, Multi-objective Genetic Algorithm and Random Forest
LIU Shu1JIANG Qigang1MA Yue1XIAO Yan1LI Yuanhua1CUI Can2
(1.CollegeofGeo-explorationScienceandTechnology,JilinUniversity,Changchun130026,China2.NavigationCollege,DalianMaritimeUniversity,Dalian116000,China)
Recently, researchers adopted object-oriented method to extract wetland distributions. Multi-temporal and multi-sources of data can facilitate the extraction process but meanwhile it enlarges the amount of features. It needs a large quantity of experiment based on the expert knowledge to determine the optimal feature sets and the threshold values. In order to improve the classification accuracy and relief the researchers from large amount of work, a filter-wrapper hybrid feature selection method combining relief F, multi-objective genetic algorithm and random forest was proposed, which was a two-step method. In the first step, relief F algorithm was adopted to select features with class separability. In the second step, multi-objective genetic algorithm based on random forest (MOGARF) was built. Four measures such as out-of-bag (OOB) error of random forest algorithm, dimension of the feature space, correlations among features and the variable weight of relief F algorithm were acted as four objectives of MOGA. The probability whether the feature was expressed was determined by the variable importance measures from random forest algorithm. The crowded distance of each feature collection was calculated and the feature collection with the least crowded distance was the optimal feature set. Nanweng river basin was taken as the study site. Object-oriented classification using random forest classifier was conducted based on the optimal feature set. Then the result was compared with three other random forest classification schemes by using the entire feature set or the feature set selected by relief F algorithm or the Boruta algorithm. The classification scheme with MOGARF had the best performance and the feature dimension was reduced to 10% of the entire one. The overall accuracy reached 92.61% which was 0.35%~1.94% higher than those of the other three schemes with Kappa coefficient of 0.930 6. The OOB error of MOGARF was 7.77% which was 0.91%~1.48% lower than those of the other schemes. All these indicated that the MOGARF feature selection method was an effective feature selection method when it was combined with random forest classifier.
wetland classification; multi-spectral remote sensed imagery; object-oriented; multi-objective genetic and random forest algorithm; feature selection
10.6041/j.issn.1000-1298.2017.01.016
2016-09-02
2016-11-04
東北地區國土資源遙感綜合調查項目(85015B01009)
劉舒(1988—),女,博士生,主要從事遙感地學和環境遙感研究,E-mail: liushu8877@126.com
姜琦剛(1964—),男,教授,博士生導師,主要從事GIS與遙感地學環境研究,E-mail: jiangqigang@jlu.edu.cn
TP79
A
1000-1298(2017)01-0119-09