姜亞楠,張 欣,張春雷,仲誠誠,趙俊芳
(1.中國地質大學(北京)數理學院,北京 100083;2.北京師范大學統計學院,北京 100875;3.北京中地潤德石油科技有限公司,北京 100083)
在地球觀測技術的不斷發展下,地球空間信息的獲取已經進入了高分辨率的時期,描述地球空間信息的遙感影像數據已經成為人類認識世界、理解世界的重要信息來源[1]。高分辨率遙感圖像中具有光譜特征信息和精細的多尺度空間結構特征,因此如何有效地從遙感圖像中提取表征以及融合這些信息就成為了限制高分辨率遙感圖像信息應用深入發展的關鍵。
按照圖像特征反映信息的程度可以將其分為底層視覺特征、中層視覺特征和高層視覺特征3類,采用由簡到繁逐步變化的處理方法,首先是直接提取圖像光譜、紋理、結構信息的底層視覺特征;其次是對提取的底層場景特征進行編碼,再進一步提取更具判別能力信息的中層視覺特征;最后是利用深度網絡模型提取圖像抽象信息的高層視覺特征[2]。
早期傳統的遙感圖像場景分類方法主要是基于底層和中層特征的人工提取技術,通過考慮圖像的局部或全局的各種特征,根據其光譜、紋理、形狀和空間結構等信息來進行特征提取,且獲取的特征具有可解釋性強的優點,其中具有代表性的特征提取方法包括尺度不變特征變換(scale-invariant feature transform,SIFT)、局部二進制模式(local binary pattern,LBP)、Gabor濾波器、灰度共生矩陣(gray-level co-occurrence matrix,GLCM)和方向梯度直方圖(histogram of oriented gradient,HOG)等,常將其應用于圖像場景分類[3-6]。近年來深度學習神經網絡逐漸被更多地應用到了遙感圖像的分析中,尤其是在語義分割,場景分類等方面,深度學習通過利用不同尺度感受野能夠學習感知不同尺度圖像特征的優勢,取得了較好的效果[7-8],但對于圖像的分辨率保持以及結果的可解釋性仍存在一定的缺陷。
研究者分析發現,深度學習過程中得到的不同尺度特征圖均對圖像有著較強的表征能力。在利用深度學習進行遙感圖像場景分類時,通常需要大量數據來支撐,否則就會因數據量過少而導致分類精度不高,因此就有文獻提出采用遙感圖像的多尺度特征對其進行分類來解決這一問題。Hu等[9]利用多尺度方式從最后一個卷積層提取出密集特征,再通過常用的特征編碼方法將密集特征編碼為全局圖像特征并進行分類;許夙暉等[10]提出利用非下采樣Contourlet變換對遙感圖像進行多尺度分解,利用深度卷積網絡訓練得到不同尺度的圖像特征,再采用多核支持向量機進行圖像場景分類;Li等[11]將卷積模型作為特征提取器提取特征,同時利用多尺度改進的Fisher核編碼方法構建了卷積深度特征的中層特征表示,然后利用主成分分析(principal component analysis,PCA)和譜回歸核判別分析方法將卷積層提取的中層特征與全連接層的特征融合再進行分類;Wang等[12]提出用局部聚合描述符向量分別對底層和中層的卷積特征進行編碼,再通過PCA進行約簡,得到層次全局特征,同時對全連通特征進行平均池化、歸一化,形成新的全局特征,最后連接所有特征進行分類。然而在上述方法中,由于深度學習的池化操作會使得圖像的細節信息在特征提取和傳遞過程中逐漸被模糊平滑,難以保持圖像的分辨率,圖像本身在局部會具有多尺度結構的細節特征。
針對上述問題,本文將圖像的局部區域特征考慮在內,提出了一種基于多尺度灰度和紋理結構特征融合的遙感圖像分類方法模型(multi-scale gray and texture structure feature fusion,Ms_GTSFF),將圖像局部區域所蘊含的多尺度灰度信息和紋理結構特征同時考慮在內,獲取到全面且有效描述圖像區域特征的信息,大幅提升高分辨率遙感影像的分類識別性能。
紋理是圖像中普遍存在而又難以描述的特征,可看作是一種反映圖像像素空間分布特征的屬性,常表現為在局部不規則而宏觀上又有一定規律。圖像的紋理反映了圖像中物體的結構特征,具有尺度性、異向性、韻律性等特點,傳統的紋理特征提取尺度較為單一,獲取的圖像信息有限,因此需要從多個尺度上表征圖像內部紋理基元的排列、組合方式及其在多尺度上的變化,以更好地捕捉圖像全面的結構特征及其細節信息,展現不同尺度感受野下圖像的獨有特性,使圖像的多尺度紋理特征提取成為圖像分類識別的重要方法之一。
1.1.1 旋轉不變模式LBP
圖像紋理特征提取的方法有很多,有統計法、結構法、信號處理法等,能夠很好地用于簡單紋理分類,但是難以解決多變的光照和觀測條件下圖像的紋理表征與識別問題。因此近年來提出了許多提取圖像局部紋理基元并通過直方圖統計其分布的方法,其中LBP算法是目前比較熱門的一種紋理特征提取算法,它是用來描述圖像局部紋理結構的特征描述符,反映了每個像素與其周圍像素的關系,具有灰度和旋轉不變性的顯著優點。
LBP是由Ojala等[13]在2002年提出的,一經提出就由于其計算復雜度較低且能夠對圖像的局部細節特征進行編碼的特點而迅速風靡。其算法原理如圖1所示,LBP描述符定義為在3×3的鄰域內,以鄰域中心的像素Ic為閾值,將半徑為R的圓形鄰域的8個像素的灰度值與中心像素進行比較,若周圍像素值大于等于中心像素值,則該像素點的位置被標記為1,否則為0。這樣,3×3鄰域中的8個點經過比較可以產生8位二進制數,再將其轉化為十進制得到該中心像素點的3×3鄰域LBP值,用這個編碼值來反映該中心像素與鄰域區域的紋理結構信息。計算公式如下:

圖1 局部二進制模式特征提取原理圖Fig.1 Local Binary Pattern feature extraction schematic

(1)

(2)
式中:R為鄰域的半徑;N為所取鄰域內的像素點的數量;Ic為鄰域的中心像素,In為周圍鄰域像素,如圖1所示。LBPN,R對應的鄰域集合中的N個像素可以形成2N個不同的二進制模式。當R=1,N=8時,LBP8,1描述符也就有256種(即28)不同的輸出結果。
然而采取原始LBP8,1得到的特征維度過大,且特征信息中存在過多的冗余信息,使得計算量和數據量急劇增加,不利于圖像紋理特征表達的實際應用。Ojala等[13]經過大量的實驗后統計發現,對圖像進行原始LBP后得到的二進制序列中,會出現一些頻率比較高的LBP編碼值,反映圖像的大部分紋理特征,把這些模式稱為“等價模式”,表示編碼中“0”?“1”變化的次數≤2時的情況,得到58維均勻模式編碼,但此法不能解決圖像的旋轉問題。因此又提出了旋轉不變等價LBP算子,將特征維度從256維降到了9維,使用9種編碼模式來表述圖像特征,但降低維數過大導致圖像大量有效信息丟失。
綜合上述因素,本文選擇旋轉不變局部二進制模式(rotation invariant local binary pattern,Ri-LBP)旋轉不變LBP模式來處理圖像,將特征維度從256維降到了36維,對應36種旋轉不變LBP模式,既消除了一些冗余編碼信息,同時還考慮了圖像的旋轉不變性,在降低特征維度的同時很大程度地保留了圖像信息,其計算公式為:

(3)

1.1.2 多尺度旋轉不變模式LBP
在利用LBP獲取圖像的多尺度信息時,采用了多尺度局部二進制模式(Multi-scale LBP)的提取方法[14],能夠更好地捕捉圖像多尺度的結構信息,表現出大尺度感受野下圖像的獨特表征。


(3)

(4)

(5)


圖2 多尺度局部二進制模式特征提取原理圖Fig.2 Multi-scale LBP feature extraction method
圖像經原始的LBP8,1后得到的256維編碼為等概率分布,但經旋轉不變模式LBP對圖像進行處理后得到的36維特征則變為以一定的條件概率出現,從而導致改進的特征編碼面臨先驗概率影響的問題。如表1所示,對于Ri-LBP8,1有固定的二進制編碼,且其值是由LBP8,1編碼經旋轉不變轉換得到的,因此使得部分Ri-LBP8,1編碼值對應于原始LBP8,1的多個編碼值。在后續對Ri-LBP8,1進行直方圖標準化時就會由于先驗概率的影響而導致直方圖特征間存在相關性無法處理,對此本文采用全概率公式來解決,公式為:

表1 旋轉不變LBP編碼與原始LBP編碼對應表Tab.1 Rotation invariant LBP coding and original LBP coding correspondence table

(6)
式中:B為經旋轉不變改進后的特征編碼;Ai為經原始LBP得到的等概率出現的特征編碼,編碼值范圍為0~255。
圖像的灰度屬性特征可以從總體特征、局部特征以及LBP模式尺度特征3個維度進行表征。
圖像總體灰度分布統計特征,即從灰度圖像中獲取其灰度值的整體分布情況,灰度圖像中像素取值為0~255的灰度級,描述了圖像顯著的灰度屬性特征,不同類圖像的灰度分布各有其特點,因此對各類圖像分別統計其灰度特征,就能夠獲取到不同類別圖像各自蘊含的灰度屬性信息,對圖像的分類識別起到一定的作用。在進行計算圖像的灰度分布特征時,通過統計圖像每類中各灰度級出現的概率,從而得到每類圖像對應的灰度概率分布直方圖。
描述圖像灰度特征的指標有很多,包括均值(mean)、方差(variance)、偏度(skewness)、峰態(variance)、能量(energy)、熵(entropy)等[15]。本文選取其中的灰度均值(mean)、灰度方差(variance)來計算遙感圖像原始灰度圖中的各類地物在不同尺度上的局部灰度分布,就可以得到圖像中每類地物局部區域內的灰度分布信息以及在此區域中各點像素與其均值的離散狀況等,得到關于圖像的本征屬性特征。
本文提出了Ms_GTSFF方法模型對圖像進行特征提取,實現了對遙感圖像各類場景灰度和紋理結構特征提取能力的改善,更全面地描述了圖像的本征特征,利用所提出的模型可以獲取蘊含圖像紋理空間結構和灰度特征的綜合圖像特征,增強了所提取特征對圖像的表征能力,進一步提升了遙感圖像分類識別的效果。模型的結構流程如圖3所示,其基本思想是先對原始圖像進行PCA處理選取前20個主成分;對PCA20數據提取不同尺度上的多尺度LBP特征(MsLBP)和多尺度灰度特征(MsG);將2種多尺度特征進行融合,形成圖像的最終特征,最后連接分類器進行分類識別。Ms_GTSFF方法模型的具體算法流程如下:①對原始遙感圖像進行PCA處理,消除圖像不同波段間的相關性,選擇其中前20個能夠解釋數據大部分信息的主成分;②對步驟①選取的數據進行尺度大小為d×d,d=3,5,7,9,...,19的MsG特征提取,得到9個尺度下的多尺度灰度和方差的特征圖,接著獲得各尺度下特征的統計直方圖,得到多尺度特征,再將不同尺度的直方圖特征進行串聯融合;③對步驟①選取的數據同樣進行尺度大小為d×d,d=3,5,7,9,...,19的MsLBP特征提取,得到9個尺度下的MsLBP特征圖,同樣統計其多尺度直方圖特征,再將各尺度特征進行串聯融合;④在步驟③中得到的MsLBP直方圖特征的基礎上,統計其每個直方圖編碼所對應圖像中的灰度特征,計算每種編碼在9種尺度下對應的灰度均值和方差,得到多尺度LBP編碼對應的灰度特征,同樣將各尺度特征進行串聯融合;⑤將步驟②—④獲取的多尺度特征進行串聯融合,得到圖像的多尺度綜合特征;⑥對步驟⑤得到的多尺度綜合特征采用不同的機器學習分類器進行識別,得到最后的圖像分類識別結果。

圖3 Ms_GTSFF方法模型Fig.3 Model of Ms_GTSFF method
測試數據采用的是雄安新區(馬蹄灣村)航空高光譜遙感影像數據集[16],其光譜范圍為400~1 000 nm,波段數為256個,影像大小為1 580像元×3 750像元,空間分辨率為0.5 m,數據集中包括復葉槭、柳樹、榆樹、水稻、國槐、白蠟、欒樹、水域、裸地、水稻茬、刺槐、玉米、梨樹等20種不同地物,不同地物所占總數據的比例不同。在具體測試過程中,首先對原始所有波段的數據集DA進行了PCA預處理,從PCA結果中選取能解釋圖像大部分特征的前20個主成分分量為數據集D20;接著再從D20的20種地物圖像中,每類選取1 000個點,以采樣點位置為中心,提取相鄰9個尺度大小為d×d,d=3,5,7,9,...,19的鄰域均值,構成3×3的LBP模式網格數據集D1并進行特征提取。如圖4為實驗選取的測試數據集示意圖。

圖4 數據集示意圖Fig.4 Diagram of the dataset


圖5 梨樹類區域經特征提取直方圖Fig.5 Histogram of the area of pear

(a)灰度圖(b)直方圖


(a)梨樹灰度特征圖(b)梨樹多尺度LBP直方圖
綜上,對于不同類別的圖像在不同尺度下的灰度特征和紋理結構信息均有所區別,對不同類圖像即使具有類似的灰度特征也會由于其自身紋理結構的不同而區分開,而對同類圖像采用不同大小的尺度進行特征提取時所獲得的紋理結構信息也各不相同。通常圖像的單尺度特征僅能描述圖像在當前尺度上像素分布的紋理結構而具有一定的局限性,無法全面反映圖像的特征信息,容易導致圖像特征相似而難以區分的現象;綜合考慮圖像的多尺度信息才能較為全面地表達圖像在紋理結構和灰度上的尺度性特點,使得對圖像本征信息的描述更加完備,有效提升高分辨率遙感影像的分類識別性能。
通過對原始的所有波段的數據集DA和經PCA后選出的測試數據集D1進行了不同分類器的效果對比,另外還在測試數據集DA和D1上分別運用一些常見的深度學習網絡:LeNet5,GoogLeNet與傳統的LBP方法和MS_GTSFF方法模型進行了對比測試,結果如表2。表中Original代表原始光譜,PCA20代表原始光譜經PCA后取前20個主成分分量。
根據表2中Original和PCA20的對比測試結果,發現對Original數據進行處理得到的結果均較差,最低為Bayes分類器得到的精度為29.16%,最高為采用BP分類器得到的精度75.83%;而對于PCA20的數據進行測試得到的結果均比Original數據對應分類器得到的結果高,在SVM分類器上精度提高了28.8個百分點,最高是在BP分類器上得到的分類精度為81.81%。對比測試表明對數據集DA經過PCA預處理后選取的前20個主成分分量在保留能解釋數據大部分信息的基礎上消除了一些噪聲影響,進而提升了分類識別效果。

表2 不同分類器精度對比Tab.2 Comparison of accuracy of classifiers (%)
此外,表2還對比了在PCA20的數據集D1運用傳統LBP方法和本文方法在不同分類器上的測試結果,可以看出利用LBP方法對圖像進行特征提取與分類的精度均達到了90%以上,但此種方法未將圖像的多尺度灰度特征信息考慮在內。而利用Ms_GTSFF方法進行特征提取,既保留了LBP方法得到的結構特征還把圖像的多尺度灰度屬性特征融合在內,得到了最高的分類精度為99.44%,提升最高達到了7.5個百分點。與深度學習方法得到的分類結果相比,本文方法得到的精度更高且方法更加簡潔有可解釋性。實驗對比結果充分說明了Ms_GTSFF方法的有效性,通過將圖像的紋理結構特征與灰度特征融合起來,獲得了圖像更加全面有效的特征信息,使遙感圖像分類效果顯著提升,也為后續遙感圖像信息的進一步分析與應用提供強有力的支撐。
對測試數據集采用不同方法提取特征在BP分類器上得到的預測結果如圖8所示,圖8(a)表示圖像真實類別圖;圖8(b)表示對PCA20數據直接進行分類的預測結果圖,可以看出對數據直接進行分類由于未考慮各點的鄰域結構分布而導致每類地物中的預測結果會出現“椒鹽”現象的識別錯誤點;圖8(c)表示對PCA20數據采用多尺度LBP方法后得到的最優預測結果圖,該方法通過LBP提取出圖像的局部紋理結構特征使識別結果有所提高,但由于類別邊緣存在混合地物而難以識別;圖8(d)表示對PCA20數據采用Ms_GTSFF方法提取圖像特征的最優預測結果圖,通過提取圖像的多尺度灰度和紋理結構特征信息,提高了對混合地物區域所提取特征的有效性,使獲取的圖像特征更加全面,進而分類識別精度大幅提高。

(a)真實類別圖 (b)PCA20預測結果-BP

1)采用多尺度旋轉不變局部二進制模式(Multi-scale Ri-LBP)的特征提取方法,能夠以更多的感受野獲取圖像特征,將圖像多尺度LBP直方圖特征及其編碼對應的圖像灰度屬性信息融合,通過充分考慮圖像局部結構信息,有效解決了深度學習中的分辨率保持和可解釋性問題。
2)在雄安新區(馬蹄灣村)航空高光譜遙感影像數據集的測試數據集上進行對比實驗,結果表明與傳統的逐像素方法提取圖像特征的方式相比,本文方法使得高分辨率遙感圖像的分類精度有了明顯提升,獲得的最高分類精度為99.44%,比LBP方法提升了7.5個百分點。另外還與深度學習不同網絡進行了對比,結果顯示采用Ms_GTSFF模型的圖像分類精度更高,進一步說明本文方法在遙感圖像分類特征提取過程中的有效性。
3)有效改進傳統方法在特征提取時只考慮圖像的紋理特征而忽略其本征灰度屬性特征的缺陷,同時從多尺度鄰域出發有效獲取了圖像不同尺度下的紋理結構,克服了單尺度局部鄰域提取圖像信息的缺陷,最后采用多特征融合,顯著提升了高分辨率遙感影像的分類識別性能,為未來進一步分析和應用遙感圖像信息打下基礎。