王 耀,楊化超,王光輝,黃 杰,王 更,劉 笑
(1. 中國礦業大學,江蘇 徐州 221116; 2. 國家測繪地理信息局衛星測繪應用中心, 北京 100830)
利用多分類器自適應級聯模型的高分二號影像分類
王 耀1,2,楊化超1,王光輝1,2,黃 杰1,2,王 更1,2,劉 笑1,2
(1. 中國礦業大學,江蘇 徐州 221116; 2. 國家測繪地理信息局衛星測繪應用中心, 北京 100830)
針對傳統單一分類器分類效果不夠理想,存在各自的不足,以及已有的多分類器級聯模型不能根據待識別樣本特征進行動態調整優化等問題,提出了一種基于多分類器自適應級聯模型的遙感影像分類方法。該模型選取各類別最優分類器進行級聯組合,以待識別樣本在整體性能最優分類器的表現對類別最優分類器作出自適應調整,對高分辨率影像分割后的像斑對象輸出類別信息。以杭州區域高分二號遙感影像進行分類試驗,結果表明,本文方法相比于單一分類器及已有的級聯模型具有更高的分類精度。
多分類器;影像分類;自適應模型;高分二號
對遙感影像提取類別信息,是遙感數據在各個領域得到廣泛應用的基礎環節,是遙感數據轉換為可用地理數據的技術核心[1-2]。隨著高分辨率遙感影像的快速發展,地物細節信息變得更加豐富與精細,但“同物異譜”現象的出現會對分類質量帶來不良影響。傳統單一分類器利用了影像某方面的特征和規則而忽略了其他方面的有用信息,存在一定的局限性與各自的不足,導致最終的輸出類別精度無法滿足實際應用的需要,因此,能夠綜合利用各種分類器的優勢的多分類器集成方法成為學者研究的熱點[3-5]。
多分類器集成對不同分類器之間的互補信息加以利用,可以構造優于單個分類器的融合器,從而顯著提高分類精度。近年來,多分類器組合的方法逐漸應用在遙感影像分類領域中并取得了良好的效果。柏延臣等[6]分別給出了抽象級上相同訓練特征多分類器組合、抽象級上不同訓練特征多分類器組合和測量級上貝葉斯平均法多分類器組合,完成了Landsat TM多光譜影像土地覆被分類;韓建峰等[7]將組合分類方法引入到高光譜影像的分類過程中,針對影像特點,提出了級聯與并聯混合的組合策略;王惠英等[8]提出最近距離法和基于知識規則的模糊分類法相結合的混合分類法,使總體分類精度得到了提高;彭正林等[9]自定義規則對簡單投票法、最大概率類別法及模糊積分法進行組合完成航攝數字正射影像的分類。這些方法在分類前選取了固定的參數進行多分類器集成,對任何測試樣本均采用相同的分類器子集,系統結構固定,缺乏一定的靈活性。本文充分考慮分類器級聯組合方式的嚴密性及已有級聯方法的缺陷,提出一種多分類器自適應級聯模型指導遙感影像分類。多分類器自適應級聯模型能夠利用不同分類器模型之間的互補信息,并根據測試樣本自適應調整每一類別最優分類器的級聯順序,有較高的泛化能力與識別精度。
級聯方式組合結構主要有類集合減少方法和重新判定方法[10]。多分類器自適應級聯模型采用重新判定方法,即當待識樣本輸入分類器后,按照某個“規則”對其類別作出判斷,如滿足一定的條件,則對其類別作出判斷,并終止后續分類器對該樣本的判斷。如不滿足該條件,則該分類器對其拒識,將其輸入下一級分類器,進行相應判斷操作。這里采用的“規則”指的是,當輸入樣本通過某類別專家,若分類后結果為該類別,并且按照某個置信度進行判斷,在該閾值范圍內,則認為此樣本屬于該類;否則,若不滿足上述兩個條件中的任意一個,則該分類器對其拒識,交給下一級分類器處理。若所有級聯模型分類器都拒識,則最終交給整體性能最優分類器去完成樣本識別。算法原理如圖1所示。

圖1 自適應級聯模型算法原理
在子分類器集成中,只有當子分類器之間所產生的錯誤表現出一定的差異性,其錯誤才能被其他分類器補償。大量文獻表明[11],不同算法的分類器之間會存在較大差異性。目前常用的遙感影像分類器包括最近鄰分類器、貝葉斯分類器、支持向量機分類器、神經網絡分類器、光譜角分類器、馬氏距離分類器等,在試驗中具有較高的分類精度。一般情況下,度量層次輸出的分類器包含信息豐富,因此,本文將這些常用的具有度量層次輸出的分類器作為候選子分類器集來構造多分類器動態模型。
為了測試候選分類器精度,在開發和優化數據挖掘模型的過程中需要將含有類別真值標簽的訓練樣本分為兩部分,一部分用作訓練分類模型,另一部分用作檢核精度。研究中使用四折交叉驗證的方法。方法的基本思路是:將含有標簽的樣本集分成4份,輪流將其中3份作為訓練數據,剩余一份作為測試數據進行試驗,每次試驗都會得到分類模型的正確率,以4次結果的正確率平均值作為該分類模型的精度指標。四折交叉驗證技術能夠有效地計算分類模型的精度,對分類器模型有一個良好的評估。
利用四折交叉驗證方法,根據各候選分類器在訓練樣本中識別的精度對比,選取每個類別的最優分類器[12-13]。類別最優分類器選取的是對特定類有最高的識別準確率的專家分類器,即在樣本被分為某一類的先決條件下,該樣本確實屬于這一類的概率最大。類別最優分類器定義為

(1)
(2)

將每個類別最優分類器組合成級聯模型,由于類別最優分類器對各自類有最高的識別準確率,若類別j最優分類器將待測樣本識別為類別j,則該樣本屬于類別j的概率非常高,因此可以將此作為級聯模型的一個輸出條件。
樣本識別為某一類的判定概率不同,不同的分類器模型有不同的決策空間,除了類別最優分類器輸出為該類別這一級聯輸出條件以外,還增加了類別識別概率滿足在特定置信范圍這個條件。如不滿足該閾值范圍,模型依舊將待測樣本拒識并傳入下一級分類器。

tj=[max(f(l)j)+min(f(l)j)]/2
(3)
式中,tj為類別j最優分類器對j的識別閾值;l=1,2,…,njj,njj表示在訓練樣本中類別真值為j且類別j最優分類器也將其識別為j的樣本集。函數值f具有不同的物理意義,如最小距離分類器,該函數值為樣本點與類別中心的距離,而對于SVM支持向量機分類器,該函數值為樣本點的預測概率。因此,對于不同的基分類器模型,都應根據實際情況求出輸出類別的閾值。
設樣本有M個類別,則級聯部分包括M個類別最優分類器。由于不同的級聯順序會對分類精度產生一定的影響,因此如何對M個專家分類器進行排序是個值得研究的問題。考慮到樣本空間的差異,對于類別為j的輸入樣本,更希望類別j的最優分類器首先對其進行分類,因為這樣拒識的概率會很小,很大概率直接輸出該類別信息,若存在非類別j的專家分類器優于類別j專家分類器順序進行分類判斷,則只要順序在類別j專家分類器之前的任一專家錯分,都會導致分類結果與實際不符。因此,尋找一個分類函數能夠對樣本獲得排序級或度量級的分類輸出是自適應連接的關鍵。
根據訓練樣本中各分類器交叉驗證精度可以選取一個整體性能最優分類器,能夠對樣本有最高的識別精度與較強的泛化能力。分類混淆矩陣常用于圖像分類評價,包含了分類器在樣本集上的全部分類結果和實際測得值,其表達為
(4)


(5)
式中,nsum表示樣本總個數。整體性能最優分類器定義為
Expert*=argmaxk{CAk|k=1,2,…,K}
(6)
式中,Expert*表示整體性能最優分類器;CAk表示分類器k的總分類精度。
根據待測樣本在整體性能最優分類器的分類情況,能夠有一個預測類別排序,由此排序自適應地調整分類器級聯順序,能夠有效地提高樣本最終分類精度。自適應級聯過程如圖2所示,y1,y2,…,yn為樣本降序排列的預測類別。

圖2 自適應級聯過程
試驗數據為浙江省杭州市西湖區2015年8月高分二號PMS多光譜遙感影像。研究區域大小為5030×3300像素,包含4個波段。對預處理后的影像利用文獻[14]方法進行分割獲取分割矢量,考慮到尺度越小像斑數越多,分割尺度取120,形狀因子取0.3,緊致度因子取0.5,分割后獲取像斑數目為7452個。研究區域321波段合成的真彩色影像與局部影像分割結果如圖3所示。對像斑進行特征提取,選取常見的光譜特征有分割像斑對象的各波段光譜均值、標準差、最大值、最小值等;常見的紋理特征有各波段灰度共生矩陣的特征,如二階距、熵、相關度等;常見的形狀特征有面積、長度比、緊致度等;常見的指數特征有歸一化植被指數NDVI、歸一化水指數NDWI等。再隨機均勻選取共400個像斑作為訓練樣本集,類別標簽包括:水域、裸地、道路、建筑區、草地、林地。
候選子分類器集選擇具有度量級輸出的最近鄰分類器(KNN)、樸素貝葉斯分類器(Naive-Bayes)、高斯徑向基核的支持向量機分類器(RBF-SVM)、BP神經網絡分類器(BP-ANN)、光譜角填圖分類器(SAM)、馬氏距離分類器(Markov-d)這6種分類器。在訓練集上運用四折交叉驗證后計算得到的類別準確率如圖4所示,總體分類精度和Kappa系數如圖5所示。

圖5 訓練集不同子分類器總體分類精度和Kappa系數
從圖4和圖5中可以選取各類別最優分類器與整體最優分類器,得出水域和荒裸地的最優分類器為Native-Bayes,道路的最優分類器為SAM,建筑區和耕地的最優分類器為BP-ANN,林地的最優分類器為RBF-SVM,整體最優分類器為BP-ANN。將子分類器根據提出的自適應級聯模型輸出最終分類結果。
基于自適應級聯結構的高分二號遙感影像分類結果如圖6所示。本文方法對每種地物的分類精度見表1。

圖6 自適應級聯模型分類結果

表1 自適應級聯模型分類精度 (%)
通過表1可以看出,本文的多分類器混聯模型對各類地物具有較高的精度。為了驗證本文分類方法的有效性與優越性,將子分類器分類結果、文獻[15]采用的級聯模型加入對比試驗,來驗證本文方法的有效性。
不同方法的總分類精度與Kappa系數見表2。

表2 不同分類方法精度對比
通過表2可以看出:
(1) 多分類器混聯模型相比于單一子分類器具有更高的分類精度。子分類器中,BP-ANN總分類精度最高,本文方法總分類精度比BP-ANN高出2.52%,Kappa系數高出0.04,這是因為多分類器組合能夠綜合利用子分類器各自的優點,在本文中表現為對特定地物識別準確率最高的類別分類器,并且對于類別最優分類器拒識的待測樣本,會最終傳遞到整體性能最優分類器中,因此,本文方法的分類精度會高于子分類器的分類精度,這體現了多分類器組合方法在遙感分類應用的優勢。
(2) 本文自適應級聯方法相比于文獻[15]級聯方法總分類精度高出1.75%,Kappa系數高出0.03,分類精度有所提高,這是由于文獻[15]提出了一種多分類器組合的靜態方法,沒有將獲取的專家分類器進行動態組合,缺乏靈活性,而自適應級聯模型能夠隨識別目標根據特征空間自適應地調整組合模型,讓某類別樣本優先進入該類別專家進行判斷輸出,因此正確率更高。
本文針對傳統單一分類器分類效果不夠理想及已有的級聯模型無法根據樣本特征動態調整的問題,提出了一種基于多分類器自適應模型的遙感影像分類方法。該方法利用不同分類器模型之間的互補信息,并且能夠根據樣本在整體最優分類器上的輸出概率自適應動態調整選取的每一類別最優分類器的級聯順序,以高分二號影像為例對多種分類方法進行對比,驗證了本文方法具有更好的分類性能。
[1] 黃鴻, 鄭新磊. 高光譜影像空-譜協同嵌入的地物分類算法[J]. 測繪學報, 2016,45(8):964-972.
[2] 劉小平, 黎夏, 何晉強, 等. 基于蟻群智能的遙感影像分類新方法[J]. 遙感學報, 2008,12(2):253-262.
[3] 楊海波, 王宗敏, 張濤. 基于混合多分類器結合算法的遙感分類[J]. 計算機工程, 2010,36(11):173-175.
[4] 鮑蕊. 光譜和空間特征聯合的高光譜遙感影像多分類器集成方法[D]. 南京:南京大學, 2016.
[5] 郭云開, 曾繁. 融合增強型模糊聚類遺傳算法與ISODATA算法的遙感影像分類[J]. 測繪通報, 2015(12):23-26.
[6] 柏延臣, 王勁峰. 結合多分類器的遙感數據專題分類方法研究[J]. 遙感學報, 2005,9(5):555-563.
[7] 韓建峰, 楊哲海. 組合分類器及其在高光譜影像分類中的應用[J]. 測繪科學技術學報, 2007,24(3):231-234.
[8] 王惠英, 蘇偉, 周軍其. 基于多分類器組合面向對象遙感影像信息提取方法[J]. 測繪工程, 2009,18(5):22-26.
[9] 彭正林, 毛先成, 劉文毅, 等. 基于多分類器組合的遙感影像分類方法研究[J]. 國土資源遙感, 2011(2):19-25.
[10] 唐春生, 金以慧. 基于全信息矩陣的多分類器集成方法[J]. 軟件學報, 2003,14(6):1103-1109.
[11] 竇鵬. 基于投票法的多分類器集成遙感影像分類技術[D]. 蘭州:蘭州交通大學, 2014.
[12] 陳紹杰, 李光麗, 張偉,等. 基于多分類器集成的煤礦區土地利用遙感分類[J]. 中國礦業大學學報, 2011, 40(2):273-278.
[13] 薛梅, 鄭全弟. 基于差異性度量的多分類器集成系統設計[J]. 計算機工程與設計, 2010, 31(23):5104-5107.
[14] 王更, 王光輝, 楊化超. 融合顏色-紋理模型的均值漂移分割算法[J]. 測繪科學, 2015,40(8):108-112.
[15] SUN J, LI H. Financial Distress Prediction Based on Serial Combination of Multiple Classifiers[J]. Expert Systems with Applications, 2009,36(4):8659-8666.
ClassificationofGF-2ImageUsedbyMultipleClassifiersSelf-adaptionCascadeModel
WANG Yao1,2,YANG Huachao1,WANG Guanghui1,2,HUANG Jie1,2,WANG Geng1,2,LIU Xiao1,2
(1. China University of Mining and Technology, Xuzhou 221116, China; 2. Satellite Surveying and Mapping Application Center, NASG, Beijing 100830, China)
Aiming at the shortcomings of traditional single classifier and the lacking that the existing multiple classifiers cannot adjust itself dynamically according to the characteristics of unknown sample, the classification method of high resolution remote sensing image based on the self-adaption cascade model of multiple classifiers is proposed. In this model, the optimal classifier and the whole optimal classifier are selected to dynamically assemble, making an self-adaption adjustment by performance of the sample which will be classified in this classifier, and the model can produce output category information. By GF-2 image on Hangzhou area classification test, the results show that the multiple classifiers self-adaption cascade model method has a higher classification accuracy compared to a single classifier.
multiple classifiers; image classification; self-adaption model; GF-2
王耀,楊化超,王光輝,等.利用多分類器自適應級聯模型的高分二號影像分類[J].測繪通報,2017(11):32-36.
10.13474/j.cnki.11-2246.2017.0343.
P237
A
0494-0911(2017)11-0032-05
2017-04-04;
2017-06-15
國家自然科學基金(41371438)
王 耀(1992—),男,碩士,研究方向為遙感信息提取。E-mail:xz_wangyao@163.com