袁軍民 王良民 馮艷順
(河南省地質礦產勘查開發局測繪地理信息院,河南 鄭州 450006)
高光譜特征提取方法根據分類特性,可劃分為無監督、監督和半監督等三種。一般而言,常用的高光譜遙感圖像樣本提取特征提取方法包括主成分分析(PCA)法[1]、線性判別分析(LDA)[2]、核判別分析(KDA)法[1]、最大邊緣投影(MMP)法[3]、非參數加權特征提取(NWFE)[4]、有理函數曲線擬合(RFCF)[5]法等。
由于高光譜遙感圖像的分辨率較高,具有的空間維度也較高,使得傳統的特征提取方法不得不面臨以下幾個問題:(1)較大的數據量,對計算要求較高;(2)很強的波段相關性,需要處理大量的冗余數據;(3)數據的維數災難,維度增加到一定程度后,分類提取精度會逐漸降低;(4)相對高昂的分類代價,由于需要處理大量的高維度數據,增加了分類提取時間,大大降低了處理的效率;(5)線性不可分問題,不同時段、不同環境下的高光譜影像的光譜曲線不同,使得特征空間中的圖像數據難以區分。基于上述問題,傳統的特征提取方法往往難以滿足多波段、高維度、高空間分辨率圖像特征提取的分類精度要求,同時在小樣本數據中計算分類效率也有待提升[6-11]。
本文在特征空間判別分析方法(FSDA)基礎上,提出一種基于幾何均值特征空間判斷的高光譜特征提取方法,以便能為高光譜遙感圖像特征提取精度提供借鑒。
當高光譜遙感圖像數據中存在較多的噪聲污染或者奇異值時,就會導致特征提取方法不能進行很好的曲線擬合,從而無法完成對圖像固有幾何特征結構的有效提取。因此,Imani 等提出了一種特征空間判別分析方法(FSDA),該方法主要通過樣本均值向量將高光譜遙感影像數據的冗余信息進行剔除,但是這種方法也存在一個弊端,即在原始樣本較少或者原始樣本數據非理想時,很難通過樣本均值來表示物體的幾何特征,相比傳統特征提取法,在后續分類中也表現不出絕對的優勢,因此,本文提出一種基于幾何均值特征空間判斷的高光譜特征提取方法(文中簡稱Gm-FSDA 法)。

式中,xG表示幾何均值。
假設該樣本數據一共包含c 種類別,而每一類中又包含ni 個數據,且這些數據對應的幾何均值為mi,原始特征向量為d×1 維,如果要從原始向量中提取得到p 個特征,那么就需要通過一個變換矩陣來實現,定義這個變化矩陣為p×d 維的投影矩陣,那么可以得到公式(2):

在Gm-FSDA 特征提取法中,需要首先計算光譜間的幾何散步矩陣如公式(3)所示:

一般而言,類內幾何散步矩陣在高維小樣本數據集上表現為奇異,因此,得不到該矩陣的正常解,那么就需要采取正則化技巧來對其進行處理,如公式(6)所示:

對公式(7)進行極大化處理,可以得到投影矩陣A,從而提取多于r 個特征。
選擇某高分辨率遙感圖像數據集為例,該數據集共包含220 個光譜反射波段、波長范圍為400mm~2500mm,像素大小為145×145,光譜分辨率大小為10nm,空間分辨率大小為20m,由于噪聲和水域吸收現象的影響,在后續處理過程中剔除20 個波段,僅保留2000 個光譜波段。該數據集共包含苜蓿、玉米免耕、玉米收割機、玉米、干草堆、草/樹、割草/牧場、草地/牧場、燕麥、大豆免耕、黃豆、大豆清篩機、小麥、木材、建造草坪樹車道、石質鋼塔等16 類地物。其中,苜蓿為46 像素數目、玉米免耕為1428 像素數目、玉米收割機為830像素數目、玉米為237 像素數目、干草堆為483 像素數目、草/樹為730 像素數目、割草/牧場為28 像素數目、草地/牧場為478 像素數目、燕麥為20 像素數目、大豆免耕為972 像素數目、黃豆為2455 像素數目、大豆清篩機為593 像素數目、小麥為205 像素數目、木材為1265 像素數目、建造草坪樹車道為386 像素數目、石質鋼塔為93 像素數目。該數據集地物覆蓋分布示意圖(如圖1 所示):

圖1 地物覆蓋分布示意
為了驗證Gm-FSDA 方法的有效性,從每一類樣本中隨機選取19 個樣本作為訓練樣本,分別采用PCA、LDA、KDA、MMP、NWFE、RFCF 以及FSDA 等七種方法與其進行特征提取效果的對比分析。
試驗得到的不同提取方法下平均分類精度、平均分類效力、總體分類精度以及Kappa 指標隨特征數目的變化特征(如圖2 所示)。從圖2 中可以看到:隨著特征數目的增加,不同提取方法的平均分類精度、平均分類效力、總體分類精度以及Kappa 指標均隨特征數目的增大而呈現“增大后減小”的變化特征;其中,PCA、LDA、KDA、MMP、NWFE、RFCF、FSDA 以及Gm-FSDA 法的最大平均分類精度分別為68%、69%、72.5%、63.5%、59.2%、65.5%、68.7%以及72%,對應的特征數目分別為6、6、6、6、8、10、6 和8,KDA 提取方法的平均分類精度最高,之后為Gm-FSDA 法,最小的為NWFE 法。PCA、LDA、KDA、MMP、NWFE、RFCF、FSDA 以 及Gm-FSDA法的最大平均分類效力分別為55.5%、57.2%、60.2%、52.5%、53.5%、52%、57%以及61.5%,對應的特征數目分別為6、10、10、6、10、10、6 和8,Gm-FSDA 提取法的平均分類效率最大,其次為KDA 法,最小的為RFCF 法。PCA、LDA、KDA、MMP、NWFE、RFCF、FSDA 以及Gm-FSDA 法的總體分類精度分別為54.7%、54.5%、58.6%、51.5%、50.5%、52.5%、57%以 及62%,對應的特征數目分別為8、10、8、8、6、10、6 和8,Gm-FSDA 提取法的總體分類精度最大,其次為FSDA 法,最小的為RFCF 法。PCA、LDA、KDA、MMP、NWFE、RFCF、FSDA 以及Gm-FSDA 法的總體分類精度分別為50.4%、47%、54%、45.1%、44.4%、46.5%、50%以及56.2%,對應的特征數目分別為6、6、8、8、6、10、6 和8,Gm-FSDA 提取法的Kappa 統計指標最大,其次為KDA 法,最小的為NWFE 法。
綜上分析可知:在訓練樣本較小時,由于光譜響應數據的相似性并不是十分顯著,因此造成不同提取方法之間的提取效果相差較大;在小訓練樣本下,KDA 提取法的平均分類精度表現最佳,Gm-FSDA 提取法的平均分類效力、總體分類精度以及Kappa 指標表現最佳,從不同參數的綜合表現效果來講,本文提出的Gm-FSDA 提取法具有一定的優勢,且從分析中可以看到:當特征數目為6-10 個時,所有特征提取法均能達到較好的分類效果。


圖2 提取參數隨特征數目變化特征
從上文分析可知,當特征數目為6-10 個時,不同提取方法可得到較好的分類提取效果,本文取平均值8 作為分析,對訓練樣本為19 個,特征數目為8 個下的不同提取方法的生產和使用者平均精度進行了對比分析(如圖3 所示)。從圖3 中可以看到:PCA、LDA、KDA、MMP、NWFE、RFCF、FSDA 以及Gm-FSDA 提取法的平均生產者精度為56.02%、54.56%、53.49%、49.95%、52.16%、57.96%、56.95%和61.73%,Gm-FSDA 提取法的平均生產者精度最大,其次為RFCF 法,最小的 為NWFE 法;PCA、LDA、KDA、MMP、NWFE、RFCF、FSDA以及Gm-FSDA 提取法的平均使用者精度為68.48%、64.49%、66.91%、63.23%、67.63%、73.35%、68.06%和74.93%,Gm-FSDA 提取法的平均使用者精度最大,其次為KDA 法,最小的為NWFE 法。因此,在小訓練樣本和8 特征數目下,本文提出的Gm-FSDA 提取法的提取分類效果最好,能夠提取到的有效信息更多,相比其他方法具有一定的優勢。

圖3 生產及使用者平均精度對比
試驗得到的不同特征提取法得到的分類映射視覺效果(如圖4 所示)。在19 個訓練樣本以及8 個特征數目下,Gm-FSDA 方法的整體提取效果要優于其他提取方法。所有方法中,對割草/牧場和黃豆兩類的提取效果最好,對燕麥、大豆免耕等的提取效果最差,但是這兩類又是16 類地物中面積占比較大的種類,因此導致整體的視覺分類效果不是很好;從不同提取方法對這兩類地物的提取效果來講,Gm-FSDA法放入提取效果最佳,其視覺效果最接近于真實地貌,其次為RFCF 提取法,但是Gm-FSDA 法對小麥的提取效果不如其他方法,這可能與訓練樣本數據所具有的曲線擬合性有關,造成Gm-FSDA 法在提取小麥時的魯棒性較差。


圖4 不同提取方法下的分類映射視覺效果
基于特征空間判別分析方法,提出基于幾何均值特征空間判斷的高光譜特征提取方法,并將其應用于小訓練樣本高光譜圖像數據的提取分析當中,結果表明:
(1)在平均分類精度、平均分類效力、總體分類精度以及Kappa 指標四個分類參數當中,Gm-FSDA 提取法在平均分類效力、總體分類精度以及Kappa 指標中的表現最佳,在平均分配精度中也僅略次于KDA 法,相比其他方法,Gm-FSDA 提取法綜合分類效果最佳。
(2)從生產者精度和使用者精度對不同提取方法進行了對比,結果表明Gm-FSDA 提取法表現最好,生產者精度和使用者精度分別可達61.73%和74.93%。
(3)Gm-FSDA 提取法得到的分類映射視覺效果最接近于真實地貌,表明其在小訓練樣本高光譜遙感圖像特征提取分類中效果較好。