薛章鷹, 劉興權
(中南大學 地球科學與信息物理學院, 湖南 長沙 410083)
?
結合ReliefF、GA和SVM的面向對象建筑物目標識別特征選擇方法
薛章鷹, 劉興權
(中南大學 地球科學與信息物理學院, 湖南 長沙 410083)
提出結合ReliefF算法、遺傳算法(Genetic algorithm, GA)和支持向量機(Support Vector Machine, SVM)的高分辨率遙感影像建筑物目標識別特征選擇算法。首先使用ReliefF算法進行初步的特征篩選,然后將SVM參數和特征子集編碼到GA染色體中,以SVM識別精度構建適應度函數,同時優化特征子集和SVM參數。實驗結果表明,將文中算法應用于建筑物目標識別,能以較小的特征子集和較短的優化時間達到較高的識別精度。
ReliefF;遺傳算法;支持向量機;特征選擇
面向對象目標識別將影像分割成大小不一、包含多個像素的同質區域(對象),以對象取代像元作為識別的基本單元,它綜合考慮影像對象的光譜、幾何、紋理和拓撲關系等特征,可以得到較高精度的識別結果,是當前高分辨率遙感影像目標識別技術的發展趨勢。然而,由于“維數災難”的存在,如果將所有的特征都輸入分類器,不僅會使運算變得復雜,處理速度大大下降;而且在有限樣本的情況下,過多的特征可能會導致分類精度降低。
目前,常用的高分辨率遙感影像面向對象目標識別特征選擇方法主要有經驗分析法[1-2]、分離閾值法[3-4]、基于互信息的最大相關性最小冗余度方法[5-6]和結合GA與SVM的特征選擇方法[7]等。其中,結合GA與SVM的特征選擇方法根據SVM識別精度構建GA適應度函數,以識別精度引導優化過程,通常可以得到較高的識別精度。但是該算法沒有考慮同時優化特征子集和SVM參數,而且所得到的特征子集較大,優化時間較長。因此,本文提出了一種結合ReliefF算法、GA和SVM的特征選擇算法,該算法首先使用ReliefF算法進行初步的特征篩選,然后將SVM參數和特征子集編碼到GA染色體中,使用GA同時優化特征子集和SVM參數,利用該算法所得到的特征子集和SVM參數對高分辨率遙感影像中的建筑物目標進行識別。
1.1 相關理論
Relief算法是基于兩類問題的特征選擇算法,主要思想是根據特征區分相鄰樣本的能力來決定特征權重[8]。ReliefF算法是對Relief算法的擴展,它可以解決多類問題以及回歸問題,并提供了對不完整數據的處理方法[9]。遺傳算法是Holland于1975年提出的一種基于生物自然選擇和遺傳機理的隨機搜索算法,它與問題的領域無關,具有較強的魯棒性,常用于解決復雜的優化問題[10]。支持向量機是在統計學習理論的基礎上發展起來的新一代學習算法[11]。其主要思想是:將輸入空間通過非線性變換映射到高維空間中,使原輸入空間中線性不可分的問題映射到高維空間后變為線性可分,并在保證不同類別樣本正確分開的同時最大化類別之間的分類間隔[12]。
1.2 基本思想
本文提出的結合ReliefF、GA和SVM的特征選擇算法首先使用ReliefF算法計算出各個特征的權重,依據權重對特征進行排序,排序靠后的特征將被直接排除,不再參與到GA的優化過程中,從而縮短GA染色體的長度,減少優化時間。在使用SVM時,兩個關鍵的問題是:如何選擇最優的輸入特征子集以及如何設置最優的核函數參數。輸入特征子集的改變會影響對應的最優核函數參數,核函數參數的改變也會影響對應的最優輸入特征子集。因此,為了達到最優的目標識別精度,本文算法將核函數參數和特征子集一起編碼到GA染色體中,在優化特征子集的同時優化核函數的參數,最后使用優化得到的特征子集和核函數參數來識別影像中的建筑物目標,算法流程如圖1所示。

圖1 結合ReliefF、GA和SVM的特征選擇算法
1.3 染色體編碼


圖2 由參數C,γ和特征子集組成的染色體
1.4 種群初始化
本文算法使用ReliefF算法來減少輸入到GA進行優化的特征子集的特征個數,并且依據特征權重為GA提供一個好的初始種群,從而為GA提供一批好的搜索起點。種群初始化的具體步驟如下:
1)使用ReliefF算法算出各個特征的權重,依據特征權重對特征進行排序,選擇排序結果最靠前的nf個特征參與到GA的優化過程中,直接淘汰其他權重過低的特征。
2)在SVM參數二進制編碼部分,隨機設置某個二進制位為0或者1;在特征子集二進制編碼部分,將保留下來前nf個特征的權重歸一化,以歸一化后的結果作為該特征的被選概率,如果該特征被選中,則對應位設為1,未被選中則設為0。
重復步驟2),直到產生的個體數目達到初始種群大小。
1.5 適應度函數設置
適應度是遺傳算法中個體進化的驅動力,是進行自然選擇的依據,個體質量的優劣由適應度來評價[13]。本文算法在設計適應度函數時主要考慮如下3個因素:目標識別精度、所選特征子集的特征個數以及所選特征子集的特征成本。具有最高的目標識別精度、最少的特征個數以及最低的特征成本的個體將具有最高的適應度函數值。為了同時考慮這3個因素,本文設計了如下適應度函數:
(1)
其中:ωA為目標識別精度的權重,ωF為特征個數和特征成本的權重,ωA+ωF=1,Accuracy為目標的識別精度,Ci為獲取特征i所需成本,Fi為1,則表示特征i被選擇;Fi為0,則表示特征i未被選擇。目標的識別精度Accuracy通過對測試樣本集的識別結果構建混淆矩陣來計算,計算公式如下:
(2)
其中:FP表示把負例識別為正例的數量(本文中正例為建筑物,負例為非建筑物),FN表示把正例識別為負例的數量,TP表示正確識別的正例的數量,TN表示正確識別的負例的數量。
為了驗證本文提出的結合ReliefF、GA和SVM的特征選擇算法在高分辨率遙感影像面向對象建筑物目標識別中的優勢,本文選取了3組實驗數據進行了實驗。將實驗結果與其他幾種方法進行對比,包括GA-SVM(C,γ)方法、使用經驗特征的SVM方法和使用全部特征的SVM方法。其中,GA-SVM(C,γ)方法僅優化特征子集,不同時優化SVM參數,也不使用ReliefF算法;使用經驗特征的SVM方法所選用的特征有亮度、各波段均值、各波段標準差、面積、長度、長/寬、主方向、緊致度和矩形度。
由于GA的優化結果具有不確定性,本文對每組數據進行10次實驗,以10次實驗結果的平均值作為評價算法的依據。
2.1 實驗數據和實驗環境
實驗數據1為QuickBird影像,獲取于ENVI示例數據,大小為682×634;實驗數據2為美國加州地區Google影像,獲取于Google Earth,大小為681×643;實驗數據3為印度Sundarbans地區QuickBird影像,獲取于GLCF網站,大小為400×400。Quickbird影像包含藍、綠、紅和近紅外4個波段,Google影像包含藍、綠和紅3個波段。
本文實驗環境操作系統為Win7,處理器為AMD Athlon主頻2.71 GHz,內存為4 G。算法在MATLAB中實現,SVM使用的是臺灣大學林智仁教授等[14]開發的Libsvm。
2.2 影像分割和特征提取
本文使用分形網絡演化算法(FNEA)算法[15]對影像進行多尺度分割,分割在eCognition軟件中完成,3組實驗數據的分割尺度、光譜異質性權重和緊致度權重分別設為(45,0.5,0.9)、(35,0.4,0.9)和(25,0.5,0.9)。
從分割后影像對象中提取的特征包含光譜特征、幾何特征和紋理特征[16]3類,從實驗數據1和實驗數據3中提取的特征均為82個,從實驗數據2中提取的特征為67個。
2.3 實驗樣本和參數說明
本文的實驗樣本分為訓練樣本集和測試樣本集,樣本分為建筑物、植被和其他地面三類地物,樣本類別和個數如表1所示。

表1 樣本類別和個數
ReliefF算法參數設定如下:最近鄰樣本個數設為40,迭代次數設為輸入樣本的總個數,從該算法的計算結果中保留下來進入GA優化過程的特征個數設為30。
GA的參數設定如下:種群大小設為100,直接進入下一代的優良個體數設為10,GA的停止條件設為遺傳代數達到100或者連續進化10代適應度
函數值的變化小于0.001。在適應度函數參數的設置方面,由于本文以提高目標識別精度作為主要目標,將目標識別精度的權重設為0.9,將特征個數和特征成本的權重設為0.1。在特征成本的設置方面,將具有較高計算代價的紋理特征的成本設為2,將光譜特征和幾何特征的成本設為1。
對于不使用GA優化SVM參數的方法,參數C和γ通過交叉驗證方法[17]得到。
2.4 實驗結果與分析比較
本文算法的實驗數據原圖和建筑物識別結果見圖3。實驗數據1達到最優建筑物識別精度時,所選特征子集中包含的特征有建筑物指數、近紅外波段GLCM均值、近紅外均值、近紅外波段GLCM同質性、密度;實驗數據2達到最優建筑物識別精度時,所選特征子集中包含的特征有綠光波段貢獻率、最大差分、紅光波段均值、紅光波段GLCM均值、植被指數、亮度、綠光波段均值、綠光波段GLCM熵、面積、體積、藍光波段GLCM同質性、紅光波段GLDV熵;實驗數據3達到最優建筑物識別精度時,所選特征子集中包含的特征有歸一化植被指數、比值植被指數、土壤調節植被指數、藍光波段均值、紅光波段均值、最大差分、長度和綠光波段GLCM均值。

(a)數據1原圖

(c)數據3原圖

(d)數據1識別結果

(e)數據2識別結果

(f)數據3識別結果
本文選取了建筑物識別精度、總精度、Kappa系數、優化時間和優化后特征子集的特征個數5項指標,用于將本文算法與其他算法進行比較(見表2,使用GA的特征選擇算法的統計量均為10次實驗的平均值)。可以發現,使用全部特征的SVM方法雖然可以達到80%以上的識別精度,但是其使用的特征個數過多,帶來了巨大的計算成本,同時其精度低于使用GA的特征選擇算法;使用經驗特征的SVM方法在某些時候可以達到與使用全部特征的SVM方法相當的識別精度,但是該方法對人的經驗要求較高,當影像場景變化時,利用已有的特征選擇經驗難以達到較高的識別精度;GA-SVM(C,γ)方法具有較高的識別精度和一致性,但是由于其沒有同時優化特征子集和SVM參數,識別精度依然低于本文算法,且存在所選特征子集特征個數較多的問題。
將本文算法實驗結果與GA-SVM(C,γ)方法進行比較可以發現,本文算法較大幅度地縮短了優化時間,減少了優化得到的特征子集的特征個數,同時達到了較高的建筑物識別精度、總精度和Kappa系數。

表2 本文算法與其他特征選擇算法比較
現有的基于GA的面向對象目標識別特征選擇算法通常只將特征子集編碼到染色體中進行優化,而沒有考慮同時優化SVM參數,并且在構建GA適應度函數時沒有考慮到特征成本因素,因而存在目標識別精度不高、優化得到的特征子集較大等問題。本文提出了結合ReliefF、GA和SVM的高分辨率遙感影像面向對象目標識別特征選擇算法,在使用ReliefF算法進行初步特征選擇的基礎上,把特征子集和SVM參數編碼到染色體中,同時優化特征子集和SVM參數。在構建GA適應度函數時,同時考慮到識別精度、特征子集大小和特征成本3個因素。
將本文算法應用到建筑物目標識別中,并將識別結果與其他特征選擇算法進行比較,實驗結果表明,本文算法可以有效地縮短優化時間、減少優化得到的特征子集的特征個數,并且達到較高的建筑物目標識別精度,具有較大的實用價值。樣本的質量對特征選擇結果和目標識別精度具有直接的影響,如何獲取更優質量的樣本,為特征選擇提供更科學的依據,將是后續的研究方向。
[1] 甘甜,李金平,李小強,等. 面向對象的高分辨率遙感影像建筑物震害信息提取[J]. 測繪工程,2015,24(4):11-15.
[2] 譚衢霖,高姣姣. 面向對象分類提取高分辨率多光譜影像建筑物[J].測繪工程,2010,19(4):30-33.
[3] 王賀,陳勁松,余曉敏. 面向對象分類特征優化選取方法及其應用[J].遙感學報,2013,17(4):816-829.
[4] 鄭毅,武法東,劉艷芳. 一種面向對象分類的特征分析方法[J].地理與地理信息科學,2010,26(2):19-23.
[5] PENG Hanchuan,LONG Fuhui,DING C. Feature selection based on mutual information: criteria of max-dependency,max-relevance,and min-redundancy[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(8):1226-1238.
[6] 吳波,朱勤東,高海燕,等. 面向對象影像分類中基于最大化互信息的特征選擇[J]. 國土資源遙感,2009,81(3):29-34.
[7] 孫寧,陳秋曉,駱劍承,等. 面向遙感目標識別耦合GA 與SVM 的特征優選方法[J]. 遙感學報,2010,14(5): 928-943.
[8] 黃莉莉,湯進,孫登第,等. 基于多標簽ReliefF的特征選擇算法[J]. 計算機應用,2012,32(10):2888-2890.
[9] JIA J,YANG N,ZHANG C,et al. Object-oriented feature selection of high spatial resolution images using an improved Relief algorithm[J]. Mathematical & Computer Modelling,2013,58(3-4):619-626.
[10] 馬永杰,云文霞. 遺傳算法研究進展[J]. 計算機應用研究,2012,29(4):1201-1206.
[11] 臧淑英,張策,張麗娟,等. 遺傳算法優化的支持向量機濕地遙感分類——以洪河國家級自然保護區為例[J]. 地理科學,2012,32(4):434-440.
[12] 張學工. 關于統計學習理論與支持向量機[J]. 自動化學報,2000,26(1):32-42.
[13] 金芬,孫春華,鐘鳴. 遺傳算法中適應度函數的改進[J]. 機械設計與制造,2010(3):218-219.
[14] CHANG Chih-Chung,LIN Chih-Jen. LIBSVM: a library for support vector machines[J]. Acm Transactions on Intelligent Systems & Technology,2001,2(3):389-396.
[15] 呂志勇,張新利,高利鵬,等. 基于高分辨率遙感影像數據的FNEA分割算法研究與應用分析[J]. 測繪與空間地理信息,2012,35(10):13-16.
[16] 李智峰,朱谷昌,董泰鋒. 基于灰度共生矩陣的圖像紋理特征地物分類應用[J]. 地質與勘探,2011,47(3):456-461.
[17] 王興玲,李占斌. 基于網格搜索的支持向量機核函數參數的確定[J]. 中國海洋大學學報,2005,35(5):859-862.
[責任編輯:劉文霞]
Feature selection method for object-oriented building targetsrecognition based on ReliefF, GA and SVM
XUE Zhangying, LIU Xingquan
(School of Geosciences and Info-Physics, Central South University, Changsha 410083, China)
This paper proposes a feature selection algorithm for building targets recognition from high resolution remote sensing images, which combines ReliefF algorithm, Genetic algorithm(GA) and Support Vector Machine(SVM). Firstly the algorithm uses ReliefF algorithm for preliminarily feature selection, then the parameters of SVM and feature subset are encoded to GA chromosome, finally the fitness function is constructed with recognition precision, white the feature subset and parameters of SVM are optimized simultaneously. The experiment demonstrates that the proposed algorithm can achieve higher recognition accuray with smaller feature subset and less optimizing time, thus it has great practical value in recognizing building targets.
ReliefF;genetic algorithm;support vector machine;feature selection;target recognition
10.19349/j.cnki.issn1006-7949.2017.02.012
2015-11-18
國家自然科學基金資助項目(41472302)
薛章鷹(1990-), 男, 碩士研究生.
TP75
A
1006-7949(2017)02-0052-05
引用著錄:薛章鷹, 劉興權.結合ReliefF、GA和SVM的面向對象建筑物目標識別特征選擇方法[J].測繪工程,2017,26(2):52-56,61.