王姍姍 劉德山 閆德勤 佟瑞璇(遼寧師范大學(xué)計算機與信息技術(shù)學(xué)院 遼寧 大連 116081)
高光譜圖像(Hyperspectral Images,HSI)廣泛應(yīng)用于礦物識別、環(huán)境監(jiān)測、軍事監(jiān)測等領(lǐng)域。在高光譜圖像應(yīng)用中,最重要的是對圖像進行分類[1-2]。分類主要有兩種,有監(jiān)督分類和無監(jiān)督分類。有監(jiān)督分類包含SAM[3]、最大似然法[4]、SVM[5]、神經(jīng)網(wǎng)絡(luò)[6]等方法。分類精度隨著方法的發(fā)展而提高。有監(jiān)督分類方法的使用必須以樣本擁有標(biāo)簽信息為前提,但實際上獲取的高光譜圖像是沒有標(biāo)記信息的,這就需要使用無監(jiān)督方法。聚類是無監(jiān)督學(xué)習(xí)的典型算法,不需要標(biāo)記結(jié)果。高光譜圖像聚類是將像素分類成相應(yīng)的集合的過程,按照內(nèi)在相似性將像素劃分為多個類別使得類內(nèi)相似性大,類間相似性小。常用的無監(jiān)督聚類方法有K-means算法[7-8]、均值漂移算法(mean-shift)[9]、迭代自組織數(shù)據(jù)分析算法(ISODATA)[10]等,這幾種方法都比較典型且聚類效果相對較好。
對于高光譜圖像來說,高光譜圖像存在較大的光譜可變性和復(fù)雜的空間結(jié)構(gòu),既有光譜信息又有空間信息,這使得在聚類時通常會忽略空間信息,僅使用光譜信息獲得的聚類精度是不準(zhǔn)確的。所以在聚類時充分利用空間信息是非常重要的,文獻[11]中提出了一種新的基于超像素和角度的高光譜圖像聚類方法(SuperPixel and Angle-based HyperSpectral Image Clustering,SPAHSIC)。它首先提取局部光譜和空間信息,然后對基于子空間主角度的相似性矩陣進行譜聚類,獲得較好的聚類準(zhǔn)確率。文獻[12]提出了一種用于空間譜HSI分類的貝葉斯分類方法。該方法可以利用HSI的空間光譜信息,在HSI的無監(jiān)督分類中達到較高的準(zhǔn)確性。文獻[13]提出了一種利用空間正則化隨機游走對高光譜圖像數(shù)據(jù)進行聚類的無監(jiān)督學(xué)習(xí)算法。該算法不僅利用了高維光譜空間中的低維幾何,而且還利用了高維空間中的低維幾何。文獻[14]提出了一種新的基于上下文感知的無監(jiān)督判別極限學(xué)習(xí)機方法(Context-aware UDELM,C-UDELM)。該方法是在無監(jiān)督判別極限學(xué)習(xí)機算法的基礎(chǔ)上,通過傳播過濾過程有效利用了HSI的空間上下文信息,獲得較好的聚類效果。
極限學(xué)習(xí)機(Extreme Learning Machine,ELM)[15]解決了高光譜圖像處理時計算時間長、計算復(fù)雜度高、計算量大、準(zhǔn)確率低的問題,在近幾年引起很大關(guān)注[16-18]。關(guān)于ELM的改進算法中,絕大部分都是有監(jiān)督地對數(shù)據(jù)進行學(xué)習(xí),這使得ELM對于未標(biāo)記數(shù)據(jù)的學(xué)習(xí)受到了限制。有學(xué)者在多元正則化基礎(chǔ)上提出了半監(jiān)督ELM(Semi-Supervised ELM,SSELM)和無監(jiān)督ELM(Unsupervised ELM,USELM)[19]。USELM在計算和準(zhǔn)確性方面與幾種最先進的無監(jiān)督算法進行比較時,在聚類方面表現(xiàn)出優(yōu)異的性能。但是USELM算法更注重數(shù)據(jù)的局部結(jié)構(gòu)。進而又提出了新的無監(jiān)督判別ELM(Unsupervised Discriminative ELM,UDELM)[20]模型。UDELM是利用局部流形和全局判別學(xué)習(xí)數(shù)據(jù)進入ELM,并且在ELM隱藏層中進行聚類,這比在原始數(shù)據(jù)空間中聚類產(chǎn)生更好的結(jié)果。
然而面對高光譜圖像復(fù)雜的結(jié)構(gòu),UDELM算法忽略空間信息,僅使用光譜信息對高光譜數(shù)據(jù)進行聚類,會造成聚類準(zhǔn)確率較低的問題。所以本文針對上述問題提出一種基于深度譜空網(wǎng)絡(luò)(Spectral-Spatial Network,SSN)[21]的無監(jiān)督判別極限學(xué)習(xí)算法的高光譜圖像聚類算法(SSUDELM)。在UDELM算法的基礎(chǔ)上,加入的SSN是一種用于提取譜空特征的分層深度網(wǎng)絡(luò),對高光譜數(shù)據(jù)進行光譜特征和空間特征的分層交叉學(xué)習(xí),獲得深度譜空特征,將提取的特征輸入到UDELM中,經(jīng)過局部學(xué)習(xí)和全局判別學(xué)習(xí)進行聚類。從而提高算法對高光譜圖像的聚類準(zhǔn)確率。
為了評估和驗證本文方法,實驗采用了三個高光譜遙感圖像數(shù)據(jù):Salinas,University of Pavia,Indian Pines。本文方法與LE、LRSC、USELM、UDELM和C-UDELM進行比較,實驗結(jié)果表明該方法優(yōu)于其他基于ELM的方法和其他無監(jiān)督方法。
給定高光譜圖像像素X0∈RD×W×L,其中:D是光譜帶的個數(shù);W和L是圖像的寬和長。擴展的高光譜數(shù)據(jù)矩陣為X=[X1,X2,…,XN]∈RN×D(N=W×L)。X中每一個高光譜像素可以用一個向量xi∈RD來表示,yi∈RC是聚類指示向量,表示像素屬于哪一類,其中C為類的數(shù)量。對于高光譜圖像,將每個像素視為一個點,其局部結(jié)構(gòu)圖S定義為:
(1)
式中:σ是比例參數(shù);Nk(xi)是xi的k個近鄰點。

s.t. (HTA)T(HTA)=IC
(2)

在USELM中,拉普拉斯矩陣L僅依賴于局部近鄰的輸入數(shù)據(jù)的結(jié)構(gòu),這可能導(dǎo)致過度擬合從而影響聚類的性能。所以UDELM在USELM基礎(chǔ)上引入全局判別信息作為一種新的正則化項,以同時最大化類間散射Sm和最小化總散射St為目標(biāo)。
(3)
根據(jù)判別分析的原則,最大限度地發(fā)揮下列目標(biāo)函數(shù)是合理的:
(4)
式中:ID為指標(biāo)矩陣。
然后式(4)中的優(yōu)化問題可以被重寫為:
(5)
s.t. (HTA)T(HTA)=IC
(6)
式中:β是正則化參數(shù)。
本文提出的SSUDELM算法,將高光譜數(shù)據(jù)輸入到SSN中,以分層的方式學(xué)習(xí)光譜信息和空間信息,提取譜空特征,然后在UDELM中對特征進行聚類。下面具體介紹怎樣獲得高光譜圖像深層次特征。
譜空學(xué)習(xí)網(wǎng)絡(luò)SSN由光譜特征學(xué)習(xí)和空間特征學(xué)習(xí)組成。光譜特征學(xué)習(xí)部分由線性判別分析(Linear Discriminant Analysis,LDA)[22]實現(xiàn),LDA算法能夠?qū)崿F(xiàn)最小化類內(nèi)散度和最大化類間散度。使用LDA,可以將高光譜圖像在光譜維度上進行降維,同時保證類間的最大區(qū)分性。
數(shù)據(jù)集X=[X1,X2,…,XN]∈RN×D,Xj∈RD(j=1,2,…,N),數(shù)據(jù)一共分C類,根據(jù)LDA算法,假設(shè)過濾器數(shù)量為Kspe,則Wspe∈RD×Kspe,對于第c類樣本來說,第c類樣本均值為:
(7)

(8)
式中:pc=Nc/N。然后求高光譜總的像素均值:
(9)
類間散度Sb計算為:
(10)
LDA使用一系列過濾器使類間散度和類內(nèi)散度的比例最大化:
(11)
選擇Kspe個最大的特征向量:
SbWspe=λSwWspe
(12)
通過上述方法對HSI圖像像素進行過濾,獲得過濾后的HSI像素為Kspe層。
空間特征學(xué)習(xí)是使用多個不同尺度的自適應(yīng)空間濾波對光譜特征學(xué)習(xí)部分處理的結(jié)果進行過濾,可以獲得圖像中同一區(qū)域的不同尺度表示。對于光譜特征學(xué)習(xí)的輸出,利用自適應(yīng)加權(quán)濾波器(Adaptive Weighting Filter,AWF)對空間信息進行挖掘。AWF是塊區(qū)域內(nèi)的一種空間濾波器,主要是平滑像素點,因為通常情況下HSI中局部區(qū)域的像素表示相同的材料,經(jīng)過濾波后的同一類像素會更加相似。自適應(yīng)權(quán)值可定義為:
(13)
式中:m×m是像素鄰域窗口的大小。中心像素與鄰域內(nèi)點的距離為:
(14)
式中:p0表示中心像素點;pi,j表示鄰域內(nèi)像素點;std(·)為標(biāo)準(zhǔn)差函數(shù)。
通過式(13)獲得了濾波后的新的像素。
經(jīng)過光譜特征學(xué)習(xí)和空間特征學(xué)習(xí)后獲得Kspe×Kspa大小的高光譜深層次特征。然后將獲得的特征作為新的HSI數(shù)據(jù)輸入到UDELM中進行聚類。那么現(xiàn)在新的高光譜數(shù)據(jù)定義為X*∈RKspe×Kspa,分別計算L和Q,然后啟動具有M個隱層神經(jīng)元的ELM神經(jīng)網(wǎng)絡(luò)計算隱藏層輸出矩陣H,計算輸出權(quán)值A(chǔ)。對式(6)廣義特征值分解[23],式(6)的拉格朗日函數(shù)為:
L(A)=Tr[AT(IM+H(λL+βQ)HT)A]-
Tr[Γ(ATHHTA-I)T]
(15)
式中:IM為指標(biāo)矩陣。求L(A)的導(dǎo)數(shù)并令導(dǎo)數(shù)為0:
(16)
進而推出:
[IM+H(λL+βQ)HT]A=HHTAΓ
(17)
當(dāng)M≤N時:
[IM+H(λL+βQ)HT]vi=γHHTvi
(18)
式中:γ為最小特征值,γi是第i個最小特征值,對應(yīng)于對角矩陣Γ中的第i個元素;vi是對應(yīng)的特征向量。由于式(18)中第一個特征向量在嵌入時總是導(dǎo)致很小的變化,所以去除第一個特征向量v1,取前C個最小特征值對應(yīng)的特征向量。則輸出權(quán)值A(chǔ)為:
A=[v2,v3,…,vC+1]
(19)

當(dāng)M>N時:
[IM+(λL+βQ)HTH]ui=γHTHui
(20)
式中:ui是第i個最小特征值的廣義特征向量。則輸出權(quán)值A(chǔ)為:
A=H[u2,u3,…,uC+1]
(21)

輸入:高光譜圖像X=[X1,X2,…,XN]∈RN×D,參數(shù)λ、β、μ。
輸出:聚類標(biāo)簽y。
1) 數(shù)據(jù)標(biāo)準(zhǔn)化。
2) 將標(biāo)準(zhǔn)化后的數(shù)據(jù)X輸入SSN,進行光譜特征學(xué)習(xí)和空間特征學(xué)習(xí),獲得數(shù)據(jù)深層次特征X*。
3) 將獲得的深層次特征作為新的數(shù)據(jù)送入UDELM中,計算L和Q。
4) 在具有M個隱層神經(jīng)元的ELM神經(jīng)網(wǎng)絡(luò)中計算隱藏層輸出矩陣H。
5) 根據(jù)式(19)和式(21)計算輸出權(quán)值A(chǔ)。
6) 計算HTA,并作為新的像素使用K-means聚類。
為了驗證本文方法的有效性,使用Salinas、University of Pavia和Indian Pines三個高光譜遙感圖像數(shù)據(jù)集進行實驗。
實驗中使用的第一組數(shù)據(jù)為Salinas圖像數(shù)據(jù)。圖像的大小為86×83,204個波段數(shù)據(jù),由于大氣的影響,20個波段被丟棄。數(shù)據(jù)集中共有6個類別和7 138個樣本。地面實況圖如圖1所示。

圖1 Salinas的地面實況圖
實驗中使用的第二組數(shù)據(jù)是2002年7月在意大利北部帕維亞舉行的航空運動期間由ROSIS傳感器收集的University of Pavia圖像數(shù)據(jù)。該圖像的大小為610×340(覆蓋波長范圍為0.4~0.9 μm)。實驗中使用了9個地面實況類;刪除了12個噪聲較大的波段,最后使用了115個波段中的103個;選取其中200×100的圖像作為數(shù)據(jù)集,地面實況圖如圖2所示,數(shù)據(jù)集共有7個類別,共20 000個數(shù)據(jù)。
實驗中使用的第三組數(shù)據(jù)是1992年由AVIRIS傳感器獲得的Indian Pines圖像數(shù)據(jù)。圖像的大小為145×145,220個波段數(shù)據(jù),約三分之二的農(nóng)業(yè)和三分之一的森林或其他天然多年生植被,由于大氣的影響,20個波段被丟棄。數(shù)據(jù)的空間分辨率為每像素20 m。數(shù)據(jù)集中共有16個類別和21 025樣本。地面實況圖如圖3所示。

圖3 Indian的地面實況圖
為了鑒定本文算法,使用三種數(shù)據(jù)集做SSUDELM與LE、LRSC、USELM、UDELM、C-UDELM算法的對比實驗。算法的性能通過聚類準(zhǔn)確率、整體精度(OA)、平均精度(AA)及Kappa系數(shù)進行評估。OA代表總體分類準(zhǔn)確度,AA代表每個類的分類準(zhǔn)確度,Kappa系數(shù)來衡量分類協(xié)議的程度。
比較不同數(shù)據(jù)集上SSUDELM算法與LE、LRSC、USELM、UDELM和C-UDELM的聚類準(zhǔn)確率。如表1所示,對于Salinas數(shù)據(jù)集,C-UDELM的聚類準(zhǔn)確率是78.35%,SSUDELM的聚類準(zhǔn)確率是86.54%,SSUDELM的聚類準(zhǔn)確率比C-UDELM高出8.19百分點;對于PaviaU數(shù)據(jù)集,C-UDELM的聚類準(zhǔn)確率是74.82%,SSUDELM的聚類準(zhǔn)確率是80.71%,SSUDELM的聚類準(zhǔn)確率比C-UDELM高出5.89百分點;對于Indian數(shù)據(jù)集,C-UDELM的聚類準(zhǔn)確率是43.08%,SSUDELM的聚類準(zhǔn)確率是65.87%,SSUDELM的聚類準(zhǔn)確率比C-UDELM高出22.79百分點??傮w上,對于三個不同的高光譜圖像數(shù)據(jù),SSUDELM算法的聚類準(zhǔn)確率有明顯提高,說明從空間光譜信息中提取出要聚類的像素點可以很好地避免數(shù)據(jù)量大、聚類效果差的缺點。由圖4柱形圖可以明顯看到,SSUDELM是最高的并且比其他顏色高很多,SSUDELM聚類準(zhǔn)確率在三種高光譜圖像數(shù)據(jù)上明顯提高。
表2分別給出了三個真實高光譜數(shù)據(jù)集聚類的總體準(zhǔn)確度(OA)、平均準(zhǔn)確度(AA)和Kappa統(tǒng)計量度的結(jié)果。針對不同的高光譜數(shù)據(jù)集Salinas、University of Pavia和Indian Pines,分別比較LE、LRSC、USELM、UDELM、C-UDELM和SSUDELM的OA值、AA值和Kappa系數(shù)。對Salinas數(shù)據(jù),C-UDELM相比于LE、LRSC、USELM和UDELM方法各項值是最高的,C-UDELM的OA值是78.27%,AA值是76.68%,Kappa系數(shù)是71.29%。SSUDELM算法的OA值是86.38%,比C-UDELM提高8.11百分點,AA值是85.89%,比C-UDELM提高9.21百分點,Kappa系數(shù)是79.74%,比C-UDELM提高8.45百分點;對于PaviaU數(shù)據(jù),SSUDELM的OA值比C-UDELM提高6.79百分點,AA值比C-UDELM提高8.38百分點,Kappa系數(shù)比C-UDELM提高5.58百分點;對于Indian數(shù)據(jù),SSUDELM的OA值比C-UDELM提高21.24百分點,AA值比C-UDELM提高23.18百分點,Kappa系數(shù)比C-UDELM提高18.72百分點。綜上,SSUDELM方法在所有比較方法中始終給出最佳結(jié)果,在OA、AA和Kappa系數(shù)上都優(yōu)于其他五種算法。這些實驗進一步證明了本文方法的有效性。
圖5給出了SSUDELM、LE、LRSC、USELM、UDELM、C-UDELM算法在Salinas數(shù)據(jù)上的遙感圖像結(jié)果對比。對于Salinas數(shù)據(jù),可以發(fā)現(xiàn)SSUDELM比LE、LRSC、USELM、UDELM和C-UDELM算法的聚類效果更好,LE、LRCS、USELM、UDELM、C-UDELM都有很明顯的聚類錯誤,雖然C-UDELM在聚類方面比其他三種方法取得較好的效果,但與C-UDELM相比,SSUDELN聚類準(zhǔn)確率更高。

(e) UDELM(f) C-UDELM(g) SSUDELM圖5 不同算法在Salinas數(shù)據(jù)上的實驗對比
圖6給出了SSUDELM、LE、LRSC、USELM、UDELM、C-UDELM算法在PaviaU數(shù)據(jù)上的遙感圖像結(jié)果對比。對于PaviaU數(shù)據(jù),根據(jù)真實數(shù)據(jù)圖像,進行圖像對比,LE、LRSC、USELM、UDELM、C-UDELM的遙感圖像中很明顯出現(xiàn)很多錯誤點,像素點分布雜亂。除分布雜亂區(qū)域,LE、LRSC和USELM的其他區(qū)域也出現(xiàn)很多錯誤的聚類,相對來說,C-UDELM算法結(jié)果比較好,而SSUDELM算法的遙感圖像結(jié)果顯示雖然區(qū)域內(nèi)還是有部分錯誤聚類,但是大部分結(jié)果是比較好的,其他區(qū)域也很明顯是正確的。

(e) UDELM (f) C-UDELM (g) SSUDELM圖6 不同算法在PaviaU數(shù)據(jù)上的實驗對比
對SSUDELM、LE、LRSC、USELM、UDELM、C-UDELM算法分別在Salinas、Indian Pines和University of Pavia三個數(shù)據(jù)集上的運行時間進行分析。表3給出了5種不同算法的運行時間。對三種數(shù)據(jù)集,可以看出SSUDELM的運行時間與LE、USELM、UDELM相比增加了很多,但與LRSC、C-UDELM算法相比是高效的。對比來說,LRSC算法的運行時間是最長的,USELM的運行時間是最短,然后依次增長的是UDELM、LE和C-UDELM算法,SSUDELM在UDELM算法基礎(chǔ)上加入分層的譜空網(wǎng)絡(luò)導(dǎo)致計算時間延長,但是與LRSC、C-UDELM算法相比,實驗時間較短,說明SSUDELM算法是非常高效的。

表3 不同方法實驗時間對比 單位:s
本文提出一種基于深度譜空網(wǎng)絡(luò)的無監(jiān)督判別極限學(xué)習(xí)算法的高光譜圖像聚類算法。考慮到由于高光譜圖像比較復(fù)雜和多樣,僅使用光譜信息進行聚類時會產(chǎn)生準(zhǔn)確率較低、聚類效果差的問題,在UDELM中加入SSN,提取高光譜圖像中的光譜特征與空間特征,然后將提取的特征進行無監(jiān)督聚類。實驗證明了SSUDELM確實比LE、LRSC、USELM、UDELM、C-UDELM算法有更好的聚類效果。