楊 晨,董麗芳,趙海士,常志勇
(1.吉林大學地球科學學院,長春 130061;2.吉林大學計算機科學與技術學院,長春 130021 3.吉林大學生物與農業工程學院,工程仿生教育部重點實驗室,長春 130022; 4.吉林大學油頁巖地下原位轉化與鉆采技術國家地方聯合工程實驗室,長春 130021)
高光譜遙感是20 世紀80 年代興起的一種新型對地觀測技術,它能夠獲取上百個非常窄的連續譜段信息,得到“圖譜合一”的曲線,提供豐富的光譜信息來增強對地物的區分能力[1-2]。成像光譜儀是高光譜遙感技術的核心,分為機載成像光譜儀和星載成像光譜儀2種。1983年,美國研制出第一個航空成像光譜儀AIS-1。之后,國內外學者相繼研制成像光譜儀應用到不同領域[3-4]。機載可見光/紅外成像光譜儀(airborne visible infrared imaging spectrometer,AVIRIS)作為應用最為廣泛的機載成像光譜儀,在農作物分類[5-7]方面有著廣泛應用。但是,由于高光譜遙感影像的典型特征,即高維性與波段間相關性強的特點,在分類過程中易引起所謂的“Hughes 現象”(維數災難)[8],降低分類精度,影響作物長勢監測、作物估產[9]及作物種植[10-11]。
應用高光譜遙感影像進行作物分類之前,在不損失有用信息的前提下,利用數據降維技術將高維影像壓縮到低維空間是很有必要的。高光譜影像常用的數 據降維技術包括特征選擇與特征提取。特征選擇方法從原始特征集中選擇出適合于分類的特征子集,從而改善分類性能。張衛正等[12]運用連續投影算法對甘蔗高光譜影像進行特征選擇,尋找含有最低限度冗余的甘蔗莖節波段,用于高光譜遙感甘蔗莖節識別分類。但是,現有多數特征選擇算法通常具有次優化性;另外,選擇合適的特征及特征數目非常耗時、耗力,最優特征子集的選擇往往無法保證。特征提取通過映射或變換,將原始處于高維空間的數據轉換到低維特征空間,減輕高光譜數據的復雜相關性和冗余度。常用的高光譜影像特征提取方法有主成分分析(principal component analysis, PCA)[13]、最大噪聲分離(maximum noise fraction, MNF)等。本文主要針對高光譜遙感影像作物特征提取方法進行研究。
隨著高光譜遙感空間分辨率的提高,同類地物內光譜差異增大,類間差異性減小,決定了高光譜遙感影像中存在著光譜變異性[14]。傳統基于單一光譜特征方法,無法考慮高光譜遙感影像光譜變異性問題。近年來,國內外學者研究將光譜信息和空間特征相結合,已成為當前研究熱點。楊思睿等[15]針對高光譜影像無法區分物質組分相同的對象問題,融合LiDAR 數據,利用主成分分析與形態學屬性剖面進行光譜特征和紋理特征提取,用于農業區精細作物分類。然而,高光 譜遙感影像地物覆蓋本質上具有區域相似性和同質性,即高空間相關性。采用形態學空-譜結合方式,無法同時考慮光譜變異性和高空間相關性。近年來,一種新的機器學習方法——調節學習(adjustment learning)[16]逐漸受到關注。調節學習引入了全新的先驗知識形式,即塊(chunklet)。基于調節學習的度量學習方法相繼提出,如相關成分分析[17]、判別成分分析(discriminative component analysis,DCA)[18]、核判別成分分析。本人利用正約束和負約束結合調節學習,提出了基于特征度量[19]和判別特征度量[17]的高光譜遙感影像波段選擇方法;將核判別成分分析引入高光譜特征提取[20],通過構建判別約束同時解決光譜變異性和高空間相關性問題。
同時,不同地物光譜存在的固有不確定性與作物類型的復雜性,決定了作物混合像元的存在和混合光譜引起的相鄰像元之間自相關現象,產生光譜混淆,嚴重影響了作物的分類精度[21-24]。隨著高光譜遙感圖像處理研究的深入,其不確定性問題也越來越得到重視。由于遙感影像集中體現了地表現象在某個瞬間的波段特性,成像過程受多方面隨機變化因素的影響,導致獲得的影像數據具有一定隨機性,也即具有統計性。一些研究者將模糊集理論與統計分析方法相結合,提出了模糊統計學[25]。模糊統計學在處理灰度空間不確定性和和變異性方面已顯示出優勢[26-27]。
面對高光譜遙感影像的高維性、光譜變異性、不確定性,本文基于調節學習與模糊統計學相關理論,提出模糊判別成分分析(fuzzy-statistics-based DCA, FS-DCA)用于作物特征提取。通過定義模糊統計數字特征解決光譜變異性和高空間相關性與抑制噪聲像元造成的不確定性,使得學習的特征空間具有更好的類間分離性和類內緊湊性,以期為作物分類提供可分性更強的空-譜特征空間,有效提高作物分類精度。
針對高光譜遙感影像數據,首先由正約束關系生成若干個作物像元塊與非作物像元塊,并通過負約束關系形成每個像元塊的判別集合。然后,引入模糊統計學相關理論,定義兩兩像元塊之間的總方差和每個像元塊內部的總方差,從而構建模糊判別特征子空間。
令 X = {x1, x2, …, xL} ?L×N為一個高光譜遙感數據集,L 為光譜波段的數目,N 為每個波段的像元數目,xi= {xi1, xi2, …, xiL}表示第i 個光譜向量,如圖1 所示。在高光譜遙感影像集中,如果2 個像元屬于同一作物或非作物類別(無類別標記),將它們定義為正約束關系,如圖1 中標注C1和C2像元塊為大豆幼苗;如果2 個作物或非作物像元不屬于同一類別,則為負約束關系,如圖1 中標注C3像元塊的為干草,C4像元塊為森林。令P 與N 分別表示正與負約束信息:

像元塊集合C、相關集合R 與判別集合D 定義如下:

根據給定的約束,一組具有正約束的像元可以聚集在一起組成塊集合,具有負約束的像元形成一個描述塊的判別集合。 令作物與非作物像元塊為第k 個塊為第k 個塊中的第i 個像元,nk為第k 個塊中所包含像元點的數目。判別塊集合中的元素表示K 個塊之間的正與負約束關系。判別塊定義為2 個塊中至少有1 個負約束關系。特征表示的目的是尋找一個特征子空間Y=ATX∈l×N(l < 圖1 高光譜影像數據集 Fig.1 Hyperspectral image data set 基于模糊統計學定義高光譜影像統計特征,包括模糊集、模糊均值和模糊散布矩陣。 在定義的模糊集中,作物與非作物像元塊中像元是由像元對應的向量x 和隸屬度μ 共同描述。像元塊內像元的模糊均值定義如下: 對于給定的高光譜遙感數據集X,像元塊集合C和判別集合D,模糊散布矩陣定義如下: 式(6)~(7)中,FMk與FMp分別為第k 與第p 個作物或非作物像元塊的模糊均值,為判別集合D 各個像元塊中作物或非作物像元個數,為第p 個像元塊的第i 個像元。式(6)表示判別集合中不同作物之間及與非作物的模糊總方差,即模糊判別像元塊散布矩陣,用于描述判別集合分散度;式(7)為模糊像元散布矩陣,用于描述同一作物與非作物塊的緊湊度。 通過學習最優轉換矩陣,使得學習的特征空間最大化模糊判別像元塊散布矩陣,最小化模糊像元塊散布矩陣,即: 利用學習的最優轉換矩陣,獲得模糊最優農作物特征子空間如下: 基于模糊統計學的高光譜遙感影像作物特征提取方法具體步驟如下: 1)初始化參數。根據已知正約束信息P 和負約束信息N,定義作物與非作物像元塊集合C,判別集合D。 2)計算模糊散布矩陣。根據式(6)與式(7),計算模糊判別像元塊散布矩陣和模糊像元散布矩陣。 4)根據公式(9)構建基于模糊統計學的高光譜遙感影像作物特征空間。 由模糊判別成分構建的作物特征空間FS 被用于后續作物分類。 本文采用廣泛使用的Indian Pines 92AV3C[28]高光譜數據集。該數據由機載可見光/紅外成像光譜儀(AVIRIS)獲取,圖像大小為145×145,光譜覆蓋范圍為400~2 500 nm,光譜分辨率為10 nm,共224 個波段,空間分辨率為20 m,獲取時間為1992 年6 月,拍攝地點為美國印第安納州西北部。該數據集地物種類較為復雜,混合了種植作物、林地、草地等。地物種類分布不均勻,存在樣本稀少類別。原始影像包含16 類地物。考慮到統計驗證的可靠性[29],試驗中保留9 個類別,舍棄樣本稀少的7 個類別。保留的9 類地物中主要包含不同類型玉米與大豆及植被覆蓋區。由于該區域農作物尚處于生長階段,裸露的土壤與農作物殘渣增加了作物提取與分類的難度。鑒于以上特點,本文選取Indian Pines 92AV3C 高光譜數據集進行作物信息提取與分類。圖2 為AVIRIS 影像假彩色合成圖與真實地物圖。通過去除低信號噪聲(signal-to-noise, SN)波段(104~108、150~163 和220 nm),選取其中的200 個波段為測試集。試驗中,隨機選取13 個作物像元塊與6 個非作物像元塊,每個像元塊中包含210 個像元(見表1)。 為了評估本文提出的FS-DCA方法在作物分類方面的性能,分別選取經典特征提取方法PCA和DCA,以及原始AVIRIS高光譜影像全部波段進行對比。采用峰值信噪比(peak signal-to-noise ratio,PSNR)來評估所提取特征圖像質量。利用支持向量機(support vector machine, SVM)分類方法進行驗證[30]。AVIRIS數據集包含9,345個樣本,其中訓練樣本按照每類5%選取,共500個,測試樣本共有8 845個。為了更客觀地驗證算法有效性,試驗中訓練和測試樣本隨機選取3次,每次無重復。選取生產者精度(producer’s accuracy,PA)、用戶精度(user’s accuracy,UA)、總體分類精度(overall accuracy,OA)、平均總體分類精度(average overall accuracy,AOA)、標準偏差(standard deviation,SD)作為評價準則。 圖2 AVIRIS影像假彩色合成圖與真實地物圖 Fig.2 False color composite image and available ground truth map of the AVIRIS image 表1 AVIRIS數據集正約束/塊、負約束及總樣本數目 Table 1 Number of positive/chunklets and negative constraints and total samples for AVIRIS data set 圖3 為應用PCA、DCA 和FS-DCA 分別提取的主 成分、判別成分與模糊判別成分,表2 為主成分、判別成分以及模糊判別成分的峰值信噪比(peak signal-to-noise ratio,PSNR)。結合圖3 和表2 可以看出,第六、第七主成分和第七判別成分的峰值信噪比分別是16.87、12.97 和15.51,所含信息量較少,地物區分性不好;第一、二、六和七模糊判別成分的峰值信噪比(25.41、21.21、20.50、17.59)均大于對應的主成分與判別成分。可見,模糊判別成分分析為后續作物分類提供了區分性更好的特征圖像。 運用Matlab 在PC 工作站(Intel(R) Core(TM) i7-3720QM CPU 2.60 GHz, 2.60 GHz 16 GB,RAM)上運行PCA、DCA 和FS-DCA,所用計算時間分別為1.26、1.35 和224.37 s,FS-DCA 耗時高于PCA 與DCA。這是由于在FS-DCA 中,需要通過迭代方法不斷修正隸屬度,以獲得最優模糊均值。 圖3 基于主成分分析、判別成分分析和模糊判別成分分析的AVIRIS高光譜遙感影像特征表示 Fig.3 AVIRIS hyperspectral imagery features representation based on PCA, DCA and FS-DCA 為了驗證提取特征的有效性,將PCA、DCA、FS-DCA 所提取的7 個特征和原始200 個波段分別應用于AVIRIS Indian Pines 92AV3C 高光譜遙感影像中進行作物分類。影像分類精度(OA、AOA 和SD)結果如表3。最佳分類結果如圖4 所示。 表2 主成分、判別成分和模糊判別成分的峰值信噪比 Table 2 Peak signal-to-noise ratio (PSNR) of PC(principal component), DC(discriminative component) and FDC(fuzzy discriminative component) 表3 PCA、DCA 和FS-DCA 的分類精度 Table 3 Classification accuracy of PCA, DCA and FS-DCA 圖4 運用全部原始波段、主成分、判別成分和模糊判別成分的AVIRIS高光譜遙感影像分類圖 Fig.4 AVIRIS hyperspectral imagery classification map of all channels, PC, DC and FDC 從表3 可以看出,應用PCA、DCA 和FS-DCA 選取的7 個特征獲取的平均總體分類精度分別高于原始200 個波段3.6、6.38、6.88 個百分點。對于不同特征提取方法,基于FS-DCA 提取的特征獲得的平均總體分類精度高于PCA 和DCA 3.28 和0.5 個百分點。同時,所提出的FS-DCA 展現出了最低的標準偏差,證明了 FS-DCA 具有更好的穩定性。 結合表3 與圖4 可以看出,原始200 個波段的分類圖中各類之間界線模糊,隨機選取3 次訓練和測試樣本的總體分類精度為65.03%,各類間均有混淆現象,且標準偏差為0.77,隨機選取3 次訓練和測試樣本的分類結果相近。已整理大豆地的生產者精度和用戶精度分別為36.06%和33.93%,其對應的漏分誤差和錯分誤差較大,分別為63.94%和66.07%。 從運用主成分獲得的分類圖中可以看出,各類之間界線較運用200 個波段清晰,但存在很多錯分情況。隨機選取3 次訓練和測試樣本的總體分類精度為71.19%,標準偏差為1.97,未耕玉米地的用戶精度為51.52%,對應的錯分誤差為48.48%,在未耕玉米地中有被錯分的略耕玉米地和收割后大豆。略耕玉米地的生產者精度為39.29%,用戶精度為57.89%,略耕玉米地與未耕玉米地出現了錯分情況。略耕大豆地的生產者精度為67.5%,用戶精度為65.99%,未耕玉米地被錯分為略耕大豆地。 在運用DCA 分類圖中,各類之間展現了很好的區分度。但仍存在大量錯分現象,收割后大豆的生產者精度和用戶精度分別為50.00%和43.88%,收割后大豆中出現了被錯分的略耕玉米地。略耕大豆地的生產者精度和用戶精度分別為73.72%和65.87%,其中出現了略耕玉米地和略耕大豆地的錯分情況。 從基于FS-DCA 分類圖中可以看出,類別之間錯分情況較PCA 與DCA 少。略耕大豆地的生產者精度和用戶精度分別為71.89%和67.36%,其中只有少量的略耕玉米地錯分情況。未耕大豆地的生產者精度和用戶精度分別為64.71%和76.26%,同樣只有少量的未耕玉米地錯分情況。收割后大豆的生產者精度和用戶精度分別為68.47%和50.84%;與DCA 相比,基于FS-DCA 分類圖中收割后大豆的分類效果更好,未耕大豆地和略耕大豆地等類別展現出了更好的區分。總體上看,種植作物的生產者精度與用戶精度比PCA 與DCA 提高1.37~18.47 個百分點。 同時,從圖4 可以看出,雖然基于FS-DCA 分類圖中空間相鄰作物間出現的混淆錯分現象比PCA、DCA 與運用原始200 個波段明顯減少。但是,3 種方法中,一些面積較小的相鄰作物混淆不同地物類別現象相對嚴重。 現有高光譜遙感影像特征提取方法在固有特性方面與作物光譜變異性方面考慮不充分,直接影響后續作物分類效果。本文針對此問題,將模糊統計學理論與判別成分分析相結合,提出模糊判別成分分析(FS-DCA),通過模糊統計特征及變換,擴大特征空間不同作物及非作物間分離性和相同作物的類內緊湊性;由判別變換獲取特征子空間,保留作物可分光譜與空間信息;有效地降低波譜數目。試驗結果表明,利用SVM基于FS-DCA對AVIRIS Indian Pines 92AV3C高光譜遙感影像9種種植作物進行分類的平均總體精度比采用全部波段、PCA和DCA分別高出6.88、3.28、0.5個百分點,種植作物的生產者精度與用戶精度比傳統方法提高1.37~18.47個百分點。與傳統方法相比,基于模糊統計學建立的高光譜影像特征提取方法,大大減少后續分類維度的同時,為作物分類提供了可分性更強的特征空間。 今后對高光譜作物分類進行研究中可將超像素技術引入到光譜維特征提取,以進一步研究提高作物(特別是相鄰作物)分類精度的有效方法。




2 試驗設計
2.1 試驗數據
2.2 對比方法與評價指標


3 結果與分析
3.1 高光譜影像特征提取結果

3.2 作物分類精度評價



4 結 論