999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于樣本優(yōu)選改進的隨機森林遙感影像分類研究

2017-09-03 11:01:01趙海強
城市勘測 2017年4期
關鍵詞:分類方法

趙海強

(廣州市增城區(qū)城鄉(xiāng)規(guī)劃與測繪地理信息研究院,廣東 廣州 511300)

基于樣本優(yōu)選改進的隨機森林遙感影像分類研究

趙海強*

(廣州市增城區(qū)城鄉(xiāng)規(guī)劃與測繪地理信息研究院,廣東 廣州 511300)

在遙感影像分類的隨機森林(Random Forests,RF)算法中,樣本的質量是分類的基礎和重要環(huán)節(jié),構建優(yōu)質的樣本數(shù)據(jù)集是一項重要工作,本文對此進行研究,并提出以計算樣本間的相似度的方法作為度量標準,來優(yōu)化樣本數(shù)據(jù)集。結果表明:①由計算相似度方法優(yōu)化后的樣本數(shù)據(jù)精確度得到提升,對各類別的數(shù)據(jù)判讀更加明確;②在文中實驗條件下,改進的隨機森林法的分類結果優(yōu)于傳統(tǒng)方法,且精度優(yōu)于CART決策樹和SVM方法。

影像分類;隨機森林;決策樹;樣本優(yōu)化;精度

1 引 言

遙感影像分類是通過對遙感影像中各類地物的光譜、空間、幾何、紋理等信息的分析,選擇特征,利用一定的手段對影像中的每個像素或者分割對象進行歸類,分類依據(jù)是各樣本內(nèi)在的相似性[1]。由于不同類型的遙感影像各具特點[2],比如航片、衛(wèi)片,不同分辨率的影像,其光譜信息、紋理信息各不相同,不同的分類器也各具優(yōu)缺點,其任一方法很難同時適應各種復雜條件,當分類數(shù)據(jù)維度較大時,在分類精確度,效率等方面很難有最優(yōu)方法。多分類器的集成學習能夠綜合不同的分類方法以期得到較好的分類效果,在理論上集成分類器的效果要優(yōu)于單分類器[3]。隨機森林(Random Forests,RF)方法是由Leo Breiman將Bagging集成學習理論[4]與隨機子空間方法[5]相結合,于2001年提出的一種非常有效的及其學習算法[6]。在經(jīng)濟、生物及地球科學等領域的數(shù)據(jù)挖掘、數(shù)據(jù)篩選與分類方面有廣泛應用,其在遙感影像分類方面也有很高的精確度和穩(wěn)定性[7~9]。隨機森林方法需要樣本訓練數(shù)據(jù)來構建優(yōu)秀的分類器,而樣本數(shù)據(jù)的選擇往往是一件煩瑣過程,以一定規(guī)則實現(xiàn)的自動化樣本選擇方案效率提高,但得到的樣本可靠性難以保證,錯誤樣本和弱樣本影響分類器的準確性,而人工選擇樣本工作量大,耗時較長,且目前對樣本數(shù)據(jù)方面的研究較少。在實際生產(chǎn)中,好的分類方法對影像上地物的準確判別具有重要作用,因此研究影像分類方法及獲取優(yōu)秀的樣本數(shù)據(jù)集是一項重要的工作。

本文旨在研究用隨機森林算法對遙感影像進行分類,介紹隨機森林方法和原理,并提出以計算樣本間相似度篩選樣本的方法,以此為基礎改進隨機森林方法,以航片影像數(shù)據(jù)進行實驗分析,以期在高分辨率遙感影像下,對較高維度數(shù)據(jù)集進行分類,并得到優(yōu)質的樣本數(shù)據(jù)集。

2 分類方法與原理

2.1 隨機森林方法原理

隨機森林是基于無參數(shù)回歸算法的集成學習策略[4],是由一組決策樹分類器{h(X,θk),k=1,2…,K}組成的集成分類器,其中{θk}是服從獨立同分布的隨機向量,K表示隨機森林中決策樹的個數(shù),在給定了自變量X下,每個決策樹分類器通過投票來決定最優(yōu)的分類結果。可以認為每個決策樹是某一方面的專家,隨機森林就是將所有專家聚集,將專家投票結果進行綜合,得到最終分類結果。

在構建森林的過程中,每一棵決策樹的生長,需要注意采樣與完全分裂。包含兩個隨機過程,首先對于樣本集S(s1,s2…sn)中n個數(shù)據(jù)集,每構建一棵決策樹時,從S中隨機選擇同樣數(shù)量的數(shù)據(jù)構成該決策樹的樣本訓練集,即采用bootstrap方法有放回的隨機抽取自助樣本集,隨機的選擇樣本降低分類樹之間的相關性;對于每棵決策樹的分類節(jié)點,需要從原始數(shù)據(jù)的特征集(個數(shù)M)中隨機的抽取特征子集(個數(shù)m≤M),然后以一定規(guī)則選擇最優(yōu)特征作為該節(jié)點分裂的依據(jù)。以上兩個隨機性防止了決策樹構建和訓練樣本集的過度擬合,從而不需要對決策樹再進行剪枝處理。

隨機森林的建立過程:

(1)從N個原始樣本集中,按照bootstrap抽樣方法隨機有放回的選擇N個樣本,作為決策樹根節(jié)點數(shù)據(jù),本次未被選中的樣本為袋外數(shù)據(jù)(Out-of-bag,OOB,由概率統(tǒng)計原理:大約有1/3的原始數(shù)據(jù)未被選中),由OOB數(shù)據(jù)對分類誤差進行估計;

(2)原始數(shù)據(jù)集中包含M個特征,每棵樹的每個節(jié)點分裂時,隨機從M屬性中抽取m(m≤M)個特征,并按照一定策略(如信息增益),選擇最優(yōu)分裂能力的特征進行節(jié)點分裂;

(3)每棵樹的生長都按2過程分裂,直到達到最大分裂限度,并不需對樹剪枝。

(4)由以上三個步驟建立設定數(shù)量的大量決策樹,構成隨機森林的原型。

隨機森林算法創(chuàng)建多個類型的決策樹,每棵樹對待分類數(shù)據(jù)進行分類,隨機森林按照多數(shù)投票法將結果進行綜合,最終得到隨機森林的分類結果。算法流程圖如圖1所示。

圖1 隨機森林算法圖

2.2 基于樣本優(yōu)選策略的改進

本文提出的樣本優(yōu)選策略是通過樣本間的相似度作為度量標準,其思想為:不同類別的樣本相似度極低;同一類別的樣本,識別度低的樣本與識別度高的樣本相似性不足某一閾值,通過閾值剔除識別度低的樣本,最終得到優(yōu)選樣本。相似性計算[12]是隨機森林方法中的一個重要分析工具之一,它表征了樣本數(shù)據(jù)之間的相似性關系,其求取過程是在每棵樹(tree-i,i=1,2…n)生長完,形成森林后,對原始數(shù)據(jù)集(S)進行整理,將兩個樣本(sm,sn)放到每棵樹內(nèi)進行分類,如果兩個樣本出現(xiàn)在同一個葉子節(jié)點,則將這兩個數(shù)據(jù)歸為一類,認為這棵樹對兩個樣本分類結果一致,將所有的樹進行分類,對結果計數(shù),并除以樹的總數(shù)作歸一化,就可以得到某一個樣本與其他所有樣本的相似性結果,相似性計算是一種聚類分析的策略。

對構建好的隨機森林RF,包含n棵樹,一對樣本數(shù)據(jù)為(sm,sn),同時遍歷森林中每棵樹(tree-i),記錄該對樣本數(shù)據(jù)在每棵樹的分類結果,記為{Zmi,Zni,i為第i棵樹},則相似性計算式為:

(1)

式中I(…)為測試度計數(shù)函數(shù),用以判斷兩個變量值是否相等,相等計數(shù)為1,否則計數(shù)為0。改進的隨機森林方法流程圖如圖2所示。

圖2 改進的隨機森林方法流程圖

3 實驗與分析

實驗數(shù)據(jù)為某地2011年的航空影像數(shù)據(jù)(空間分辨率為 0.3 m,圖3(a)),影像包含有城市街區(qū)以及周邊郊區(qū),該范圍內(nèi)的地物類型主要分為:水體、道路、廠房、居民區(qū)、農(nóng)田及植被。由面向對象分類的思路,將原始影像先進行多尺度分割,選擇了部分數(shù)據(jù)作為樣本(圖3(b)),樣本類別如圖3(c):A(廠房),B(道路),C(居民區(qū)),D(農(nóng)田),E(水體),F(xiàn)(植被)。

實驗中隨機森林算法和樣本優(yōu)選方法是基于C++和opencv計算機視覺庫為平臺實現(xiàn),CART樹和SVM采用eCognition軟件實現(xiàn),eCognition提供了面向對象分類的各種方法,在面向對象的遙感影像分割分類方面具有不可取代的優(yōu)勢。

圖3 原始影像及樣本數(shù)據(jù)

為研究大數(shù)據(jù)量以及大量特征信息下的影像分類效果,本實驗分別提取了影像分割對象的均值(Mean),標準差(Standard deviation),紋理信息包含:同質性(Homogeneity),角二階矩陣(Ang. 2nd moment),熵(Entropy)等六種紋理信息,及形狀因子(Shape index),亮度(Brightness),歸一化植被指數(shù)(NDVI),歸一化水指數(shù)(NDWI)等26種特征信息,本實驗樣本對象數(shù):1 632個,待分類的數(shù)據(jù)對象:23 251個。

樣本優(yōu)選的原始數(shù)據(jù)是構建的特定規(guī)則下在eCognition軟件中自動獲取的 2 000個樣本數(shù)據(jù)集,優(yōu)選策略是:計算每個類別的某個樣本與其他所有樣本在隨機森林下的相似度,按照相似度在20%(20%是由數(shù)據(jù)統(tǒng)計得到的)以上的樣本進行計數(shù),遍歷所有樣本,將計數(shù)結果進行統(tǒng)計,如果某個樣本的計數(shù)結果在10個以上,認為是較好樣本進行保存,反之認為樣本較差。

將原始2 000樣本數(shù)據(jù)進行隨機森林的訓練,形成訓練器,通過計算統(tǒng)計OOB誤差結果,得到?jīng)]有優(yōu)化的OOB誤差。然后再由以上樣本優(yōu)選的策略進行優(yōu)化,篩選掉了208個樣本數(shù)據(jù),得到優(yōu)化后的OOB誤差統(tǒng)計。

OOB誤差個數(shù)跟樹的數(shù)目相同,這里統(tǒng)計了前10個OOB結果:

OOB誤差統(tǒng)計結果 表1

將原始數(shù)據(jù)和優(yōu)選后的樣本數(shù)據(jù)分別構建隨機森林分類器,并將訓練器進行數(shù)據(jù)檢驗,將兩次分類的結果與正確值(已經(jīng)在實驗前統(tǒng)計好)進行比較,統(tǒng)計正確率,得到的統(tǒng)計結果如表2所示:

分類結果統(tǒng)計表 表2

分析表1和表2 可以得到,經(jīng)過相似性策略得到的樣本優(yōu)選結果的OOB誤差低于原始樣本數(shù)據(jù),在分類正確率方面可以看出,經(jīng)過相似性策略的樣本分類正確率得到提升,錯誤分類數(shù)量減少,表明該方法進行樣本的優(yōu)選策略具有一定的可靠性。

實驗中隨機森林的參數(shù)選擇:樹最大深度:25,最小樣本數(shù):10,樹的數(shù)目:100,以樹的構建數(shù)目和正確率作為分裂終止條件。并在同樣的樣本集和分割結果下,采用CRAT決策樹和SVM方法進行相同的分類,結果如下:

圖4 分類結果

局部結果分析:

圖5 分類結果局部對比

圖4中(a)、(b)、(c)、(d)分別為采用不同方法對整個區(qū)域的分類結果,整體來看,三種方法的分類結果符合一致性。圖5的a—e為城市地區(qū)局部對比圖,分析可得,在特征較為明顯容易區(qū)分的城市建筑群,RF算法,CART樹算法和SVM三種方法都能較正確地進行分類,分類結果沒有明顯差別,但是在四幅圖中圓圈框內(nèi)的城市植被類別區(qū)域,對比了原始圖像的特征,可以看出RF方法的分類結果好于CART樹和SVM,而改進的RF方法比傳統(tǒng)RF法結果更準確些,剔除了一些細節(jié),使整體結果更加準確,反而SVM方法出現(xiàn)了過分類現(xiàn)象。圖5的(f)~(j)為郊區(qū)沿海的農(nóng)田區(qū)域,從農(nóng)田區(qū)域的分類效果來看,RF方法相對于CART樹和SVM方法將田地之間的分界線也能較為精細的分出來,在方形框內(nèi)顯示了改進的RF方法比傳統(tǒng)RF方法的分類要好,且都好于另外兩種方法。

4 結 語

本文主要討論使用隨機森林算法對遙感影像的分類,并提出基于樣本優(yōu)化的隨機森林改進方法,從理論原理分析和實驗相結合,并與其他分類方法CART決策樹和SVM分類方法的結果進行比較,實驗結果表明在本文實驗中隨機森林方法在分類的精細度和準確率方面優(yōu)于CART決策樹和SVM分類方法,改進的隨機森林方法優(yōu)于傳統(tǒng)隨機森林方法,在高分辨率的航片影像上隨機森林算法得到了良好的效果,但從隨機森林分類的結果上也可以看到,由于其分類的精細化,可能導致在某些地區(qū)的分類效果不能得到提升。隨機森林訓練器的形成是建立在良好的樣本基礎上,如果樣本數(shù)據(jù)噪聲過大,會影響分類器的性能,而本文提出基于相似度策略的樣本優(yōu)選方案,由實驗可以得到經(jīng)過相似度優(yōu)選的樣本建立的隨機森林OOB誤差減小,且在分類的正確率方面得到了提升,表明了該方法具有一定的可用性。

下一步的工作是進一步研究隨機森林算法在衛(wèi)片,和不同尺度影像的適用性以及樣本優(yōu)選策略中,如何選擇合適的測試度以適應不同的樣本數(shù)據(jù)。

[1] 杜鳳蘭,田慶久,夏學齊. 遙感圖像分類方法評析與展望[J]. 遙感技術與應用,2004(6):521~525.

[2] 劉毅,杜培軍,鄭輝等. 基于隨機森林的國產(chǎn)小衛(wèi)星遙感影像分類研究[J]. 測繪科學,2012(4):194~196.

[3] Giacinto G,F(xiàn)abio R. Approach to the Automatic Design of Multiple Classifier Systems[J]. Pattern Recognition Letters,2001,22(1):25~33.

[4] Breiman,L. Bagging predictors[J].Machine learning,1996,24(2):123~140.

[5] Ho T. The random subspace method for constructing decision forests[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(8):832~844.

[6] Breiman,L.Random forests[J]. Machine learning,2001,45(1):5~32.

[7] Rodríguez V F,Abarca F,Ghimire B. Incorporating Spa-tial Variability Measures in Land-cover Classification u-sing Random Forest[J]. Procedia Environmental Sciences. 2011,3(1):44~49.

[8] Pall O G,Jon A B,Johannes R S.Random Forests for land cover classification. Pattern Recognition Letters. 2006,27(4):294~300.

[9] Verikas A,Gelzin A,Bacauskiene M.Mining data with random forests:A survey and results of new tests[J]. Pattern Recognition. 2011,44(2):330~349.

[10] 齊樂,岳彩榮. 基于CART決策樹方法的遙感影像分類[J]. 林業(yè)調查規(guī)劃,2011(2):62~66.

[11] Cortes C,Vapnik V. Support-Vector Networks[J]. Machine Learning,1995,20(3):273~297.

[12] Qi YanJun,Kelein-Seetharaman Judith,Bar-Joseph Ziv.Random Forest Similarity for Protein-Protein Interaction Prediction from Multiple Sources[C]. Pacfic Symposium on Biocomputing 10,2005:531~542.

The Research of Improved Random Forest Remote Sensing Image Classification Based on Sample Optimization

Zhao Haiqiang

(Zengcheng Surveying and Mapping Institute of Urban and Rural Planning,Guangzhou 511300,China)

The quality of the samples is the basic and important segment in the random forest(R.F.) algorithm of remote sensing image classification,building high quality sample data sets is an important work,This article is based on this problem,and proposed a metric to optimize the sample data set based on calculating the similarity between samples,The results show that:①The sample data accuracy has improved by calculating the similarity method,and more clear to all kinds of other data interpretation;②The classification result of improved RF is more precise,the accuracy is superior to the CART decision tree and the SVM method at the conditions of this paper.

image classification;random forests;decision tree;sample optimization;precision

1672-8262(2017)04-79-05

TP753

A

2017—02—17

趙海強(1988—),男,碩士,助理工程師,主要從事攝影測量與遙感生產(chǎn)應用研究的相關工作。

住房和城鄉(xiāng)建設部2013年科學技術項目——科技示范工程項目(2013-S5-30)

猜你喜歡
分類方法
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
學習方法
分類討論求坐標
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
給塑料分分類吧
主站蜘蛛池模板: 老司机午夜精品视频你懂的| 亚洲福利视频网址| 国产福利不卡视频| 58av国产精品| 69av在线| 国产在线自乱拍播放| 亚洲永久免费网站| 亚洲日产2021三区在线| 91视频区| 91美女视频在线观看| 免费无码AV片在线观看国产| 极品私人尤物在线精品首页| 国产波多野结衣中文在线播放| 亚洲欧美日韩成人高清在线一区| 国产女人在线视频| 熟妇丰满人妻| 4虎影视国产在线观看精品| 亚洲人成网18禁| 国产乱人伦精品一区二区| 天天爽免费视频| 激情無極限的亚洲一区免费| 五月激情综合网| 国产微拍精品| 亚洲国产中文精品va在线播放 | 福利在线不卡一区| 色婷婷狠狠干| 国产 在线视频无码| 日日拍夜夜嗷嗷叫国产| 国国产a国产片免费麻豆| 成人在线视频一区| 亚洲欧美精品在线| 国产成人AV男人的天堂| 五月婷婷亚洲综合| 99ri精品视频在线观看播放| 91无码人妻精品一区二区蜜桃| 欧美日韩在线观看一区二区三区| 亚洲欧美另类久久久精品播放的| 日韩精品亚洲人旧成在线| 国产经典在线观看一区| 亚洲AV无码久久天堂| 亚洲色图另类| 成人在线观看不卡| 成人第一页| 精品视频在线观看你懂的一区| 51国产偷自视频区视频手机观看| 婷婷综合在线观看丁香| 国产精品区视频中文字幕 | 中文字幕欧美成人免费| 免费欧美一级| 国产区91| 亚洲国产成人无码AV在线影院L| 97国产成人无码精品久久久| 国产欧美日韩专区发布| 欧美国产菊爆免费观看 | 欧美日本不卡| 国产日韩丝袜一二三区| 久久国产精品影院| 亚洲欧洲综合| 四虎永久免费地址在线网站| 国产精品久久久精品三级| 久久久久久久蜜桃| 久久精品国产精品一区二区| 欧美日韩综合网| 国产www网站| 91香蕉国产亚洲一二三区| 精品视频第一页| 全部毛片免费看| 久久亚洲中文字幕精品一区| 91国内视频在线观看| 91麻豆国产视频| 性激烈欧美三级在线播放| 99热这里都是国产精品| 国产色婷婷视频在线观看| 国产黄色片在线看| 97国产精品视频人人做人人爱| 97精品伊人久久大香线蕉| 波多野一区| 国产永久在线视频| 久久毛片网| 日韩视频免费| www.狠狠| 色呦呦手机在线精品|