張 穎,余代俊,楊曉霞,戴曉愛
(1.成都理工大學 地球科學學院,四川 成都 610059)
基于改進的樣本預選取的高光譜影像半監督分類
張 穎1,余代俊1,楊曉霞1,戴曉愛1
(1.成都理工大學 地球科學學院,四川 成都 610059)

針對高光譜影像中無標記樣本對分類精度的影響問題,運用一種改進的KFCM聚類算法先對未標記樣本聚類;然后根據聚類結果進行未標記樣本選取,挑選出的未標記樣本位于聚類邊界上可能屬于支持向量;最后使用已有的標記樣本和挑選的未標記樣本對支持向量機(SVM)進行訓練,直到其分類精度到達預期效果。實驗結果表明,將聚類和半監督SVM分類相結合并進行未標記選取,比省略此過程直接使用SVM進行高光譜影像分類的精度高,且該方法穩定、可靠。
高光譜影像;未標記樣本預選??;KFCM聚類算法;SVM;半監督分類
高光譜遙感因其波段多、光譜分辨率高、能夠獲取豐富的地表光譜信息,廣泛地應用于地物的精細分類中[1-2]。在高光譜影像分類時,若采用監督分類,由于高光譜影像具有高維的特征空間,需要大量的標記樣本,但獲取標記樣本較為困難[3];若采用非監督分類,無需使用帶標記的訓練樣本,分類過程較簡單,但其分類難以控制,結果精度較低[4]。因此將監督分類和非監督分類結合起來的半監督分類成為新的研究熱點[5-7]。目前常用的高光譜影像半監督分類算法有:基于圖模型[8-9]、主動學習[10]、判別學習[11]、半監督SVM[12-16]等。半監督SVM是高光譜影像分類中應用較多的一種算法[17-19],當前對其研究主要集中在利用一些約束函數將未標記樣本的信息加入到優化過程中,但這種模擬都存在不同程度的對噪聲過于敏感和本身算法的優化問題[20]。本文將一種改進的KFCM聚類算法和半監督SVM算法相結合進行高光譜影像分類。首先運用改進的KFCM算法對相鄰樣本點加權,并利用計算出的空間關系降低算法對噪聲的敏感度,改善聚類結果,從而選出有用的未標記樣本;然后將選擇的未標記樣本加入半監督SVM算法進行分類。該方法比直接在半監督SVM算法中使用未標記樣本進行分類更加準確。
KFCM算法是一種通過非線性映射,將低維特征空間的數據映射到高維特征空間,再通過迭代來優化目標函數,對數據進行模糊聚類的算法[21]。
原KFCM算法[22]中引入了一種空間函數將樣本點的空間關系利用起來,但其并沒有考慮相鄰樣本點間的權重關系,為了更好地進行聚類,對原KFCM算法進行改進,將其相鄰的樣本點按權重關系引入,此空間函數定義為:

式中,Dk為以xk為中心的8個樣本點鄰域;I為鄰域Dk的非中心樣本點;e為在中心樣本點四周的4個點;f為在中心樣本點對角線上的4個點;uie為樣本點四周4個樣本點對第 i類聚類中心的隸屬度;uif為對角線上4個樣本點對第i類聚類中心的隸屬度。Rik為由鄰域樣本點決定的xk屬于第i類聚類中心的可能性,假設xk所有的鄰域樣本點都屬于第i類,這時Rik應取最大值;否則應取最小值。
在同類區域里,該加權空間函數僅加強了原有的隸屬度函數,聚類結果不會變化;但對于不同類的噪聲區域,該加權空間函數能夠大大減少噪聲點的權重,使噪聲點得以抑制,糾正影像的錯誤分類,提高聚類的精度。
運用改進的KFCM算法聚類后,再對聚類結果進行預選取。計算每個樣本到本類中心的距離,假設聚類類別按二維陣列排列,則每個聚類周圍存在8個相鄰聚類,第i個聚類Cluster i進行樣本篩選的過程如下:
1)計算Cluster i所有樣本到本聚類中心的距離,并從大到小進行排序,記為序列A。
2)計算Cluster i的每個樣本到相鄰聚類中心的距離,并從小到大進行排序,記為序列B。
3)設閾值為d,選擇同時存在于A和B中的前d 個序列的樣本作為選擇的未標記樣本。這些樣本距離本聚類中心最遠且離另一類聚類中心最近,說明這些樣本點位于聚類Cluster i的邊界附近,可能屬于支持向量的樣本。
4)若所有相鄰聚類計算完畢,則算法結束;否則,重復步驟1)~3),計算Cluster i中樣本到下一個相鄰聚類中心的距離,確定選擇的無標記樣本。
實驗利用Hypex 1024成像光譜儀進行高光譜數據采集,采集數據包含108個波段。圖1為原始數據真彩色影像。本文通過水泥路(Class1)、水體(Class2)、大理石(Class3)、樹木(Class4)和草地(Class5)5類地物進行算法驗證。

圖1 真彩色影像圖
在運用改進的KFCM樣本預選取方法對高光譜影像進行半監督分類時,參數設置為:聚類類別數c=5,模糊加權指數m=2,ε=0.1,最大迭代次數T=100,p=3,q=6,d=2;核函數采用高斯核函數,懲罰系數為σ=0.5。為了更好地證明該方法的分類精度,本文進行了4組對比實驗,分類精度見表1,分類結果見圖2。

表1 分類精度表
運用改進的KFCM算法聚類,得到新的隸屬度矩陣以及每個樣本的聚類特征。其中,初始聚類中心從實測的地面數據中獲得,根據加權的相鄰樣本間的空間關系,得到更加精確的聚類結果。每個樣本的聚類類別根據隸屬度矩陣中最大的類別進行初始化,再根據聚類結果選取有用的未標記樣本,加入SVM中進行半監督分類,其分類結果見圖2d。直接對原始數據進行SVM半監督分類得到的結果見圖2c,總體分類精度為86.68%,Kappa系數為0.843 2,雖然比使用MNF+SVM和PCA+SVM方法精度高,但是效果并不明顯。

圖2 分類結果
為了驗證所選取的未標記樣本對算法精度的影響和本文算法對標記樣本數量的敏感性,分別進行兩組實驗對比。第一組實驗均選取60個標記樣本,而未標記樣本則分別為聚類后直接選取的20、40、60個未標記樣本,和經過選取后的3、6、9個樣本,得到的分類精度見表2。由表2可知,雖然未經選取的未標記樣本數量逐漸增加,但總體分類精度比經過選取后最少的3個樣本的精度還低,且隨著選取樣本數量的增加,其精度逐漸增加,但當選取的未標記樣本增加到一定程度時,其精度也基本穩定。

表2 未選取未標記樣本與選取未標記樣本分類精度比較/%
第二組實驗選取6個未標記樣本和15、30、45、60、75、90個標記樣本,得到的分類精度見圖3。由圖3可知,隨著標記樣本的增加,分類精度逐漸提高,但是當標記樣本增加到一定程度,精度基本穩定。標記樣本數量為60時,本文方法的總體分類精度已達到88.96%,已超過了半監督SVM的最高分類精度(86.68%)和MNF+SVM的最高分類精度(83.33%)。
由表2和圖3可知,本文算法不僅可以有效進行未標記樣本的選取,同時也能利用較少的標記樣本達到最佳分類精度。該算法將聚類和半監督分類相結合,既避免了單獨使用聚類算法進行分類造成誤分率過大的問題,又解決了半監督分類中未標記樣本對精度的影響問題,通過實驗證明其分類精度比直接使用SVM進行高光譜影像半監督分類的精度高。

圖3 不同標記樣本數目下各方法的分類精度
針對KFCM算法聚類和未標記樣本的選取問題,本文將一種改進的KFCM聚類算法與SVM算法相結合進行高光譜影像半監督分類。該算法引入了加權的空間函數,能更好地利用相鄰未標記樣本的信息,聚類效果更好。從聚類結果中選取有用的X個未標記樣本,將其和L個標記樣本一起加入分類器中進行分類,這樣訓練出的分類器具有較好的推廣性能。為證明該方法分類結果的精度,對成像光譜儀采集的數據進行對比實驗。實驗結果表明,運用改進的KFCM算法預選取樣本后再使用SVM對高光譜影像進行半監督分類能夠取得較好的分類結果。
[1] 高恒振.高光譜遙感圖像分類技術研究[D].長沙∶國防科技大學,2011
[2] 潘佩芬,楊武年,戴曉愛,等.不同森林植被的高光譜特征分析[J].遙感技術與應用,2013,28(6)∶1 000-1 005
[3] 李二珠.半監督支持向量機高光譜遙感影像分類[D].徐州∶中國礦業大學,2014
[4] Alajlan N, Bazi Y, Melgani F, et al. Fusion of Supervised and Unsupervised Learning for Improved Classification of Hyperspectral Images[J]. Information Sciences, 2012,217(24)∶39-55
[5] 鐘清流,蔡自興.基于支持向量機的漸近式半監督式學習算法[J].計算機工程與應用,2006,42(25)∶19-21
[6] Carlson A, Betteridge J, WANG R C, et al. Coupled Semisupervised Learning for Information Extraction[C].Proceedings of the Third ACM International Conference on Web Search and Data Mining,ACM,2010∶101-110
[7] 陳榮,曹永峰,孫洪.基于主動學習和半監督學習的多類圖像分類[J].自動化學報,2011,37(8)∶954-962
[8] Campus-Valls G, Bandos Marsheva T, ZHOU D Y. Semisupervised Graph-based Hyperspectral Image Classification [J].IEEE Transaction on Geoscience and Remote Sensing, 2007,45(10)∶3 044-3 054
[9] Bandos T V, ZHOU D Y, Campus-Valls G. Semi-supervised Hyperspectral Image Classification with Graphs[C].Proceedings of IEEE International Conference on Geoscience and Remote Sensing Symposium,IEEE,2006∶3 883-3 886
[10] Rajan S, Ghosh J, Crawford M M. An Active Learning Approach to Hyperspectral Data Classification[J].IEEE Transactions on Geoscience and Remote Sensing,2008,46(4)∶1 231-1 242
[11] LI J, Bioucas-Dias J M ,Plaza A. Semi-supervised Hyperspectral Image Classification and Segmentation with Discriminative Learning[C].SPIE Europe Remote Sensing,Berlin,2009∶74-77
[12] Tuia D, Volpi M, Copa L, et al. A Survey of Active Learning Algorithms for Supervised Remote Sensing Image Classification[J].IEEE Journal of Selected Topics in Signal Processing,2011,5(3)∶606-617
[13] 趙瑩.半監督支持向量機學習算法研究[D].哈爾濱∶哈爾濱工程大學,2010
[14] Cortes C,Vanpik V. Support Vector Networks[J].Machine Learning,1995(20)∶273-297
[15]丁勝鋒,孫勁光,陳東莉,等.基于模糊雙支持向量機的遙感圖像分類研究[J].遙感技術與應用,2012,27(3)∶353-358
[16] Fung G,Mangasarian O. Semi-supervised Support Vector Machines for Unlabeled Data Classification[J].Optimization Methods & Software,2001,15(1)∶29-44
[17] 李建民,張鈸,林福宗.支持向量機的訓練算法[J].清華大學學報(自然科學版),2003,43(1)∶120-124
[18] 張磊,邵振峰,周熙然,等.聚類特征和SVM組合的高光譜影像半監督協同分類[J].測繪學報,2014,43(8)∶855-861
[19] Bennett K P,Demiriz A.Semi-supervised Support Vector Machines[J].Advances in Neural Information Processing Systems,2001,9(2)∶368-374
[20] 曹盼東.基于圖模型的半監督SVM分類算法研究與應用[D].哈爾濱∶哈爾濱工程大學,2012
[21] ZHANG D,CHEN S.Clustering Incomplete Data Using Kernel-based Fuzzy C-means Algorithm[J].Neural Processing Letters,2003,18(3)∶155-162
[22] 吳一全,沈毅,陶飛翔.基于局部空間信息KFCM的遙感圖像聚類算法[J].地球信息科學學報,2014(5)∶769-775
P237
B
1672-4623(2016)09-0065-03
10.3969/j.issn.1672-4623.2016.09.021
張穎,碩士研究生,主要從事高光譜影像分類方面的研究。
2015-06-17。
項目來源:國家自然科學基金資助項目(41201440);四川省教育廳科研資助項目(15ZA0078)。