劉偉++趙慶展++汪傳建++陳洪++李沛婷



摘要:針對SVM容易出現過學習、泛化能力下降的問題,利用LSSVM在求解線性方程組時的自身優勢,對高分辨率無人機多光譜影像進行地物分類識別。采用固定翼無人機搭載Micro MCA12 Snap多光譜相機,獲取研究區域瑪納斯河畔的多光譜影像,首先利用最佳波段指數法與光譜信息、紋理信息結合得到最佳特征波段組合,從而降低數據維度,進而利用粒子群優化和網格搜索算法分別進行參數尋優并交叉驗證方法對影像進行SVM和LSSVM對比試驗。結果表明,Micro MCA12 Snap 多光譜傳感器所選擇的1、6、11波段組合及NDVI、NDWI、Mean特征信息組合,粒子群優化LSSVM分類的總體精度較網格搜索LSSVM高0.092%,Kappa系數高0.006;粒子群優化LSSVM分類的總體精度較粒子群優化SVM分類高2.021%,Kappa系數高0.008。試驗方法改善了各種地物特別是裸地與沙石的區分,是對該相機及特征組合進行分類的有效手段。
關鍵詞:最小二乘支持向量機;粒子群優化;網格搜索;交叉驗證;無人機遙感
中圖分類號: TP751;S127文獻標志碼: A
文章編號:1002-1302(2017)09-0187-05
隨著無人機技術[1]的成熟,輕量型的多光譜傳感器被廣泛搭載并獲取數據[2-3],在國土資源[4-5]、環境災害[6-7]、農情監測[8-12]等眾多領域得到廣泛應用。針對多波段影像數據的分類處理[13]也一直是各行業應用所面對的首要問題,已經成為研究熱點之一。
支持向量機(support vector machine,SVM)是由Vapnik提出的基于統計學習理論和結構風險最小化原理的模式識別方法[14]。近年來因其具有高維空間超平面分割和局部最優解的特征,被廣泛用于多光譜遙感影像的分類。陳波等基于Landsat7 ETM遙感影像構建了結合紋理的SVM分類模型并有效提高了分類精度[15]。張磊等提出一種結合改進的最佳指數法和SVM進行高光譜遙感影像分類新方法,取得比傳統監督分類更高的分類精度[13]。但是標準SVM在影像分類時支持向量的數量會隨著訓練樣本數量的增加而線性增加,從而導致分類效率降低,而且標準SVM對參數的選擇依賴性大,容易出現過學習、泛化能力下降的問題。最小二乘支持向量機(least square support vector machine,LSSVM)最早由Suykens等提出[16],是標準SVM的一種擴展,其優化問題的目標函數中利用等式約束條件代替SVM標準算法中的不等式約束條件,降低算法復雜度,提高收斂速度,使得運算時間較短。高恒振等提出一種基于波段子集最大噪聲分量特征提取的LSSVM的高光譜圖像分類算法并通過試驗證明了算法的優越性[17]。楊佳佳等提取了遙感圖像中與巖性相關的紋理、形狀、光譜信息,利用LSSVM在非線性預測中的優勢,對研究區地質巖性進行識別且表現良好[18]。
本試驗首先結合最佳波段指數和光譜、紋理特征來確定地物分類最佳特征組合,然后利用粒子群優化[19]及網格搜索尋找最優參數并交叉驗證(cross validation,CV)[20],最后建立分類模型,將最佳波段組合作為輸入變量,分別進行SVM和LSSVM分類,判斷LSSVM對分類精度的影響。
1理論基礎與研究思路
1.1支持向量機分類
SVM分類是一種新的機器學習方法,以結構風險最小化原則為理論基礎,適當選擇函數子集及該子集中的判別函數,使學習的實際風險達到最小。根據具體的分類過程尋找最優分類超平面:線性可分情況下,在原空間尋找2類樣本的最優分類超平面;線性不可分的情況下,加入松弛變量進行分析,通過使用非線性映射將低維輸入空間的樣本映射到高維屬性空間使其變為線性情況,從而使得在高維屬性空間采用線性算法對樣本的非線性進行分析,并在該特征空間中尋找最優分類超平面。同時由核函數(kernel function)將線性SVM推廣到非線性的情況,常用核函數K(xi·x)包括線性核、多項式核、徑向基核和Sigmod核,最終SVM的判別函數為:
式中:sgn{}為符號函數;ai為拉格朗日乘子;b為分類的域值;x、y為樣本向量;K(xi·x)為滿足Mercer條件的核函數。ai不為零的樣本點就稱為支持向量。a*i、b*分別表示ai、b的最優解。
1.2最小二乘支持向量機分類
雖然SVM用于圖像分類有很多優點,但其求解是一個解凸二次規劃問題的過程,計算過程比較復雜,當樣本點較多時,時間復雜度也較高。LSSVM在其優化問題的目標函數中利用等式約束條件代替標準SVM中的不等式約束條件,最終通過求解一組線性方程得到最優解,大大降低計算復雜度,并且提高運算速度。求解最優超平面問題等價于求解如下方程:
式中:ω為權向量;b為待確定的參數;T表示矩陣的轉置,在此表示為矩陣ω的轉置;φ(xi)表示的是將xi從低維空間非線性映射到高維空間;γ為模型泛化能力和精度的一個折中參數且γ>0;ξ為松弛變量且ξ≥0。引入拉格朗日函數并推導可得到LSSVM的判別函數:
式中:拉格朗日乘子ai為支持向量,而K(xi·x)是滿足 Mercer 條件的核函數。
1.3研究思路
高空間分辨率及光譜分辨率的遙感數據在分類時會面臨大量的冗余數據,從而增加數據處理的計算復雜度及時間復雜度,因此在進行特征變量輸入之前一般須對影像進行特征信息選擇來降低信息維度。特征信息的選擇應滿足3個基本條件:波段信息量最大、波段間相關性最小、地物對所選擇的波段信息具有較大的光譜差異。本試驗以原始波段信息為主,結合光譜信息、紋理信息[21]對研究區域進行SVM及 LSSVM 對比分類。
根據原始波段信息的選擇,本試驗使用的是最佳波段指數法(optimum index factor,OIF),它是基于波段信息量標準差及波段間相關性且能反映出波段組合信息質量的方法。同時選擇計算研究區對植被及水體敏感的相關指數作為光譜信息輸入變量。提取紋理信息的方法很多,目前主要有基于統計方法、基于小波變換方法和基于地統計學等方法。試驗先采用協方差矩陣作為變換矩陣進行主成分變換(principal component analysis,PCA)獲得第一主成分后再得到影像的灰度共生矩陣(gray level co-occurrence matrix,GLCM)的相關主要參量并選擇信息量最大的特征值作為紋理信息輸入變量。
針對SVM和LSSVM,本試驗在Matlab R2014a環境下分別以臺灣大學林智仁教授設計的開源庫LibSVM及LSSVM Toolbox為基礎進行算法開發與驗證,過程中利用群體智能優化的粒子群優化算法和網格搜索進行參數尋優并交叉驗證模型參數,達到對地物進行準確劃分的目的(圖1)。
2研究區域及數據預處理
2.1研究區域及數據
研究區位于新疆沙灣縣瑪納斯河畔,范圍為86°7′58″~ 86°8′26″E,44°13′38″~ 44°14′6″N。區域內主要包含植被、水體、建筑物、裸地、沙石、陰影等地物類型。本試驗使用的高分辨率遙感影像數據來自于搭載在遠征-6型油動固定翼無人機上的多光譜相機Micro MCA12 Snap,該相機可同時獲取12個波段(470、515、550、610、656、710、760、800、830、860、900、950 nm)的數據。其中1~5個波段位于可見光區域,波段6、7位于植被反射波譜曲線的紅邊區域,8~12波段位于近紅外區域。波段8、5、3、1分別近似TM影像的4、3、2、1波段,可進行相關指數的計算。數據采集時間為2015年8月22日,相對航高500 m,巡航速度為130 km/h,地面采樣距離GSD為22.6 cm/pixel。
2.2數據預處理
無人機影像原始數據使用Pix4D Mapper進行影像拼接。坐標系統采用WGS84,投影方式為UTM,經ENVI進行幾何校正進行后續試驗。
最佳波段指數選擇的目的是選取像元灰度標準差高且波段間相關系數低的波段組合。計算公式為:
式中:Si為第i波段灰度值標準差;Rij為第i和第j波段間相關性系數。本試驗選擇3個波段組合并計算OIF值,通過 C++ 編程共產生220個波段組合,OIF值排序前10的波段組合見表1,故選擇1、6、11波段作為原始波段組合。
光譜特征信息和紋理特征信息主要是通過統計方法進行選擇。本試驗計算了對植被及水體敏感的幾種光譜指數:歸一化植被指數(NDVI)、紅邊歸一化植被指數(NDVI710)、比值植被指數(RVI)以及歸一化差分水體指數(NDWI)、水波段[CM(25]指數(WBI),具體標準差計算結果依次為0.387、0.233、 0037、0.348、0.006。針對紋理特征信息,通過主成分變換和生成灰度共生矩陣方法得到主要參量:均值、方差、同源性、對比度、相異度、熵、二階距和相關性,具體標準差統計結果依次為8.689、3.014、0.227、4.945、0.893、0.554、0.224、0.410。根據統計結果,選擇NDVI、NDWI為光譜特征信息以及均值(Mean)參量為紋理特征信息。
綜合以上對原始波段信息、光譜特征信息及紋理特征信息的選擇,得到以波段1、6、11及特征信息NDVI、NDWI、Mean組成的最佳分類組合。圖2為1、6、11(470、710、900 nm)波段的研究區域假彩色合成圖。
3試驗及結果分析
為獲得較好的分類器,SVM與LSSVM均須要對樣本及模型參數進行一定的選擇。對于樣本的選擇,主要是選擇合適分布和數量的樣本點以進行模型訓練及測試。試驗采用徑向基核函數(radial basis function,RBF)作為分類核函數。對于模型參數的選擇,SVM分類時須要確定的參數有懲罰系數C和核函數參數g,而LSSVM須要確定的參數有正則化參數γ和核函數寬度δ2。采用粒子群優化算法和網格搜索方式對訓練樣本進行參數選擇,并以多折交叉驗證誤差評價參數的優劣。
3.1樣本選取及分類模型的建立
為保證樣本的選取具有代表性,在完整研究區域內隨機均[CM(25]勻采集6種地物類型(水體、沙石、裸地、植被、陰影、建筑物)的樣本點,樣本的可分性可用J-M(jeffries-matusita)距離及轉換分離度(transformed divergence)作為評價標準。這2個度量值在0~2.0之間,大于1.9說明樣本之間可分離性好,屬于合格樣本;小于1.8,須要重新選擇樣本;小于1.0,考慮將2類樣本合成1類樣本。對比發現,加入光譜、紋理特征信息之后J-M距離及轉換分離度都達到了較高的水平,明顯增加了樣本的可分離性(表2)。圖3為樣本的N維空間可視化顯示圖,可以看出選擇的6類樣本可以很好地分離。
粒子群優化算法是基于群體智能的新型優化算法,該算法在對鳥群行為觀察的基礎上,利用個體信息的共享使得整個群體在問題求解空間中產生從無序到有序的變化過程,最終得到最優解。優化參數設置為c1=2,c2=2,最大進化數為200。K-CV方法中,6個波段的樣本特征子集被隨機分成k個[CM(25]子集,K-CV在每個子集上進行k次驗證,每次取1個子集作為測試集,其余k-1個子集作為訓練集,最后將分類準確率的平均值作為樣本的分類結果(本試驗k取值為10)。
3.2分類結果及分析
研究區域的不同分類結果如圖4 所示,其中a、b分別為粒子群優化SVM分類和網格搜索SVM分類,c、d分別為粒子群優化LSSVM分類和網格搜索LSSVM分類。表3給出試驗樣本集各個類別的用戶精度(user accuracy,UA)和生產者精度(producer accuracy,PA)。各分類方法的訓練時間、測試時間、總體精度、Kappa系數如表4所示。
針對不同分類方法,結合表3、表4和圖4可知沙石和裸地的生產者精度和用戶精度相對較低,但對于粒子群優化過程,沙石的UA從SVM分類的89.95%上升到LSSVM分類的96.57%,PA從SVM分類的92.20%上升到LSSVM分類的97.89%,裸地表現出了同樣的趨勢。粒子群優化算法中,SVM、LSSVM的MSE分別為0.008 6、0.007 8,總體精度由SVM的97.833%提高到LSSVM的99.854%,Kappa系數由SVM的0.974提高到LSSVM的0.982;網格搜索過程中,SVM、LSSVM的MSE分別為0.024 6、0.012 4,總體精度由SVM的96.574%提高到LSSVM的99.762%,Kappa系數由SVM的0.969提高到LSSVM的0.976。
針對不同參數尋優方法,對比SVM及LSSVM的2種分類結果,其中,除了裸地的SVM粒子群優化后用戶精度、生產者精度稍低于SVM網格搜索后的用戶精度、生產者精度,植被的LSSVM粒子群優化后生產者精度稍低于LSSVM網格搜索后的生產者精度之外,其他地物的粒子群優化結果均高于網格搜索生產者精度和用戶精度,甚至達到了100%。SVM分類時,網格搜索和粒子群優化的MSE分別為0.024 6、0.008 6,且粒子群優化下的訓練時間、測試時間均縮短,總體精度由網格搜索的96.574%提高到粒子群優化的97.833%,Kappa系數由網格搜索的0.969提高到粒子群優化的0.974;LSSVM分類時,網格搜索和粒子群優化的MSE分別為 0.012 4、0.007 8,同樣粒子群優化的訓練時間、測試時間也較網格搜索短,總體精度由網格搜索的99.762%提高到粒子群優化的99.854%,Kappa系數由網格搜索的0.976提高到粒子群優化的0.982。
4結論
本試驗利用無人機搭載Micro MCA12 Snap多光譜相機獲得地面高分辨率多光譜影像,將最佳波段指數法與光譜信息、紋理信息結合得到最佳波段組合以降低數據維度,然后分別利用粒子群優化算法和網格搜索對最佳波段組合進行SVM和LSSVM分類并以交叉驗證作為參數評價標準。試驗結果顯示,網格搜索最優參數時,LSSVM分類較SVM分類總體精度高3.188%,Kappa系數高0.007;粒子群優化算法參數尋優時,LSSVM分類較SVM分類總體精度高2.021%,Kappa系數高0.008;粒子群優化LSSVM分類較網格搜索LSSVM分類總體精度高0.092%,Kappa系數高0.006。試驗結果表明,LSSVM對Micro MCA12 Snap多光譜影像的各分類精度均有提高,是有效的分類手段,具有一定的應用價值。
參考文獻:
[1]楊進生,郭穎平,蓋利亞,等. 無人直升機遙感在華北平原地裂縫監測中的應用[J]. 遙感信息,2015,30(1):66-70.
[2]汪沛,羅錫文,周志艷,等. 基于微小型無人機的遙感信息獲取關鍵技術綜述[J]. 農業工程學報,2014,30(18):1-12.
[3]田振坤,傅鶯鶯,劉素紅,等. 基于無人機低空遙感的農作物快速分類方法[J]. 農業工程學報,2013,29(7):109-116,295.
[4]張園,陶萍,梁世祥,等. 無人機遙感在森林資源調查中的應用[J]. 西南林業大學學報,2011,31(3):49-53.
[5]王利民,劉佳,楊玲波,等. 基于無人機影像的農情遙感監測應用[J]. 農業工程學報,2013,29(18):136-145.
[6]韓文權,任幼蓉,趙少華. 無人機遙感在應對地質災害中的主要應用[J]. 地理空間信息,2011,9(5):6-8,163.
[7]雷添杰,李長春,何孝瑩. 無人機航空遙感系統在災害應急救援中的應用[J]. 自然災害學報,2011,20(1):178-183.
[8]馮家莉,劉凱,朱遠輝,等. 無人機遙感在紅樹林資源調查中的應用[J]. 熱帶地理,2015,35(1):35-42.
[9]李冰,劉镕源,劉素紅,等. 基于低空無人機遙感的冬小麥覆蓋度變化監測[J]. 農業工程學報,2012,28(13):160-165.
[10]Herwitz S R,Johnson L F,Dunagan S E,et al. Imaging from an unmanned aerial vehicle:agricultural surveillance and decision support[J]. Computers and Electronics in Agriculture,2004,44(1):49-61.
[11]Rango A,Laliberte A,Herrick J E,et al. Unmanned aerial vehicle-based remote sensing for rangeland assessment,monitoring,and management[J]. Chinese Hydraulics & Pneumatics,2009,3(1):11-15.
[12]Laliberte A S,Goforth M A,Steele C M,et al. Multispectral remote sensing from unmanned aircraft:image processing workflows and applications for rangeland environments[J]. Remote Sensing,2011,3(11):2529-2551.
[13]張磊,邵振峰. 改進的OIF和SVM結合的高光譜遙感影像分類[J]. 測繪科學,2014,39(11):114-117,66.
[14]Vapnik V N. The nature of statistical learning theory[M]. New York:Springer-Verlag,1995.
[15]陳波,張友靜,陳亮. 結合紋理的SVM遙感影像分類研究[J]. 測繪工程,2007,16(5):23-27.
[16]Suykens J A K,Vandewalle J. Least squaressupport vector machine classfiers[J]. Neural Processing Letter,1999,9:293-300.
[17]高恒振,萬建偉,朱珍珍,等. 基于波段子集特征提取的最小二乘支持向量機高光譜圖像分類技術[J]. 光譜學與光譜分析,2011,31(5):1314-1317.
[18]楊佳佳,姜琦剛,陳永良,等. 基于最小二乘支持向量機和高分辨率遙感影像的大尺度區域巖性劃分[J]. 中國石油大學學報(自然科學版),2012,36(1):60-67.
[19]丁勝,袁修孝,陳黎. 粒子群優化算法用于高光譜遙感影像分類的自動波段選擇[J]. 測繪學報,2010,39(3):257-263.
[20]任哲,陳懷亮,王連喜,等. 利用交叉驗證的小麥LAI反演模型研究[J]. 國土資源遙感,2015,27(4):34-40.
[21]趙慶展,劉偉,尹小君,等. 基于無人機多光譜影像特征的最佳波段組合研究[J]. 農業機械學報,2016,47(3):242-248,291.