李 璐 杜 蘭 何浩男 李 晨 鄧 盛
(西安電子科技大學雷達信號處理國家級重點實驗室 西安 710071)
作為一種主動微波成像系統,合成孔徑雷達(Synthetic Aperture Radar, SAR)具有全天時、全天候的遙感成像能力,在國民經濟和國防軍事等領域的應用中具有獨特的優勢[1,2]。隨著近現代雷達技術的發展,SAR圖像的數量越來越多,其分辨率也越來越高。21世紀的SAR促進了自動目標識別(Automatic Target Recognition, ATR)的研究與應用[3]。SAR ATR作為SAR圖像智能解譯領域最重要的應用之一,其典型的系統主要包括目標檢測[4–6]、目標鑒別[7,8]、目標識別[9–12]3個階段。在這3個階段中,目標識別旨在對檢測到的目標進行類別的判定,引起了相關學者的廣泛關注。
在通常的SAR目標識別領域的研究中,選擇有效的特征是非常重要的步驟。經過學者多年的研究,發展并提出了許多應用于SAR圖像的特征提取方法來描述SAR目標,例如圖像幅度特征[10]、尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)特征[13]、方向梯度直方圖(Histogram of Oriented Gradient, HOG)特征[14]、密集SIFT(Dense-SIFT)特征[15]等。然而,在實際應用中,僅僅依靠單一種類的特征很難對SAR目標特性進行充分的描述和表征,進而難以獲得較高的識別性能。
因此,旨在挖掘并聯合應用多種從不同角度表征目標特性的特征融合技術已成為重要的研究熱點。特征融合不僅可以提高描述目標的信息量來幫助實現完整穩健的分析,而且可以有效地整合不同特征間的優勢來降低訓練的復雜性、提升算法的普適性。對于特征融合技術而言,挖掘互補的目標描述信息是首要問題,其次,融合方法的選擇和使用也是重點關注的方面。
然而,大多數傳統的融合方法是基于簡單的淺層結構,其不能進一步挖掘更抽象的特征表達。而隨著近些年深度學習的蓬勃發展,可以從原始特征中發掘更深層次信息的深度模型已經成為諸多領域的熱門研究要點。事實上,當前幾乎所有的深度學習及其應用都建立在深度神經網絡模型上并取得了巨大的性能提升。值得注意的是,深度神經網絡帶來的巨大性能提升需要大量的具有標記信息的訓練樣本。然而,在SAR目標識別任務中,缺少大量的具有標記的訓練樣本[16–18]。另外,深度神經網絡的性能受到超參數設置的影響較大,不同的超參數設置可能帶來巨大的性能差異。
考慮到深度模型的3個重要成功因素,即逐層處理、特征變換和足夠的模型復雜度,文獻[19]提出了深度森林模型。深度森林是一種新的決策樹集成模型,通過堆疊結構逐層進行表征學習,挖掘深層的特征表達。并且,其性能對超參數設置具有一定的魯棒性。因此,相比于深度神經網絡,深度森林模型更適合于數據體量小的SAR目標識別任務。
受到上述研究的啟發,本文提出一種基于深度森林的多級特征融合SAR目標識別方法。本方法挖掘幅度特征和結構特征兩種互補的目標特征表征,較為完整地從不同角度對目標進行描述;同時,分別對幅度特征和結構特征挖掘其多級特征,實現從局部到全局的目標表征。隨后,為了更完整、充分地反映SAR目標信息,借鑒深度森林的思想,對多級幅度特征和多級結構特征進行聯合利用。一方面通過堆疊的方式不斷將多級幅度特征和多級結構特征進行融合,另一方面通過逐層的特征變換挖掘深層抽象的信息。通過對兩種不同表征的特征的充分融合、挖掘深層信息,提高SAR目標識別的性能。綜上所述,本文的貢獻如下:
(1) 挖掘SAR圖像中體現了目標反射強度的幅度特征和體現結構信息的Dense-SIFT特征,聯合利用兩種特征使得SAR目標信息得到更完整、充分的反映。
(2) 在幅度特征和結構特征的基礎上,分別提取多級的幅度特征和多級的結構特征,進一步反映從局部到全局的目標特性表征。
(3) 借鑒深度森林模型的思想,對多級幅度特征和多級Dense-SIFT特征進行特征融合。通過逐層的特征變換和堆疊結構實現兩種特征多層次的融合,挖掘出深層融合特征,對目標進行識別。
圖1展示了本文所提基于深度森林的多級特征融合SAR目標識別的流程圖。從圖1可以看出,本文所提方法首先對SAR圖像從兩個不同的角度提取多級的特征,分別為多級幅度特征和多級結構特征;然后引入深度森林模型的思想,在堆疊的結構中對多級幅度特征和多級結構特征進行多層次融合,同時通過逐層的特征變換挖掘提取深層特征信息;最后利用深度融合后的特征進行目標識別。
大多數傳統的SAR目標識別方法僅僅使用SAR圖像域的幅度信息作為目標表征。盡管幅度特征是極其重要的目標特性,但是在斑點噪聲的影響下,圖像上像素點的強度會產生浮動,限制了目標識別的性能[5]。因此,僅僅使用圖像的幅度特征是不夠的。本文在圖像幅度特征的基礎上,引入了描述梯度結構信息的Dense-SIFT特征。Dense-SIFT特征是通過對輸入圖像分塊提取SIFT特征獲得相對稠密的特征點,相比于傳統的SIFT特征,Dense-SIFT特征更適合于目標識別任務。通過幅度特征和Dense-SIFT結構特征的聯合使用較為完整充分地描述目標。進一步,在幅度特征和Dense-SIFT結構特征的基礎上,本文分別對兩種特征提取其多級特征,即多級幅度特征和多級Dense-SIFT結構特征,進一步反映從局部到全局的目標特性表征。

圖1 基于深度森林的多級特征融合SAR目標識別流程圖
對于多級幅度特征的提取,本文選擇多個不同尺寸的池化窗口,池化窗口的寬和高由公式W ={(w1×w1),(w2×w2),···,(wM×wM)}確定,其中,M表示池化窗口的個數,W ,H分別表示樣本圖像的寬和高。利用 M個不同尺寸的池化窗口分別對SAR樣本圖像進行多級池化,由此得到每個樣本對應的 M 個池化后的圖像。將 M個池化后的圖像中所有像素點的幅度值拉伸成列向量后首尾拼接,即可得到每個樣本的多級幅度特征。
Dense-SIFT特征的關鍵點提取是通過使用窗口滑動的方式對圖像中的網格點進行密集采樣而得到的,提取示意圖如圖2所示。用窗口尺寸 l×l的切片窗口從圖像左上角的初始位置以滑動步長s 開始滑動,之后按此方法掃描直到窗口到達圖像右下角位置,對每個小窗口的中心點計算一個SIFT特征,所有窗口的SIFT特征組合起來,即構成了該圖像的密集SIFT特征。提取Dense-SIFT特征的具體流程如表1所示。
對于多級Dense-SIFT結構特征的提取,選擇多個不同尺寸的切片窗口,切片窗口的寬和高由公式L={(l1×l1),(l2×l2),···,(lN×lN)}確定,其中,N表示切片窗口的個數。利用 N個不同尺寸的切片窗口,分別對每個歸一化后的樣本,提取N 個Dense-SIFT特征向量。將所有Dense-SIFT特征向量首尾拼接,即可得到每個樣本的多級Dense-SIFT結構特 征。
基于多級幅度特征和多級Dense-SIFT結構特征,本文引入深度森林模型的思想,利用堆疊的結構對特征進行多次融合,同時通過逐層的特征變換中挖掘深層信息;最后利用深層融合后的特征對目標進行識別。

圖2 Dense-SIFT特征提取示意圖
深度森林模型應用了堆疊的結構,在堆疊結構中,每一層是由兩個完全隨機森林和兩個隨機森林組成的集合。其中,采用不同類型的隨機森林是為了增加集成學習中的差異性。堆疊層中的每個森林以特征和前一層的類別向量為輸入,經過每個森林得到的預測輸出拼成類別向量和另一特征作為下一層的輸入。
如圖1所示,本文引入了深度森林的思想,將其應用到深層特征融合中。其具體的融合算法如表2所示。
在提出的基于深度森林的融合方法中,每一層通過隨機森林和完全隨機森林,將輸入特征映射到更加抽象的類別空間,挖掘了深層的信息。而在堆疊的結構中,多級幅度特征和多級Dense-SIFT特征間隔地輸入每一層中,與上一層的輸出特征進行拼接作為當前層的輸入特征。隨著逐層訓練,兩種特征得以不斷進行融合。

表1 提取Dense-SIFT特征的流程

表2 基于深度森林的特征融合算法的流程
本文實驗在運動和靜止目標獲取與識別(Moving and Stationary Target Acquisition and Recognition, MSTAR)數據集上驗證。MSTAR數據集是由美國高等研究規劃局和空軍實驗室聯合發布的。MSTAR數據集作為實測SAR數據,現已廣泛用于SAR目標識別任務。該數據集中包括許多不同方位角和俯仰角下的地面軍事車輛目標的SAR圖像,圖像分辨率為0 .3 m ×0 .3 m,圖像的尺寸為64×64。地面軍事車輛目標共有10類,分別為:步兵戰車BMP2、裝甲車BTR70、主戰坦克T72、自行榴彈炮2S1、裝甲偵察車BRDM、裝甲車BTR60、軍用推土機D7、主戰坦克T62、軍用卡車ZIL131和自行防空火炮ZSU23/4。圖3和圖4分別給出了各目標的光學圖像和SAR圖像示例。
在進行目標識別研究時,該數據集推薦使用俯仰角為17°的目標樣本作為訓練數據,俯仰角為15°的目標樣本作為測試數據。參考現有文獻[20],本文主要針對兩種實驗場景進行研究:3類目標識別實驗和10類目標識別實驗。在3類目標識別實驗中,主要針對BMP2,BTR70和T72進行識別。其中B M P 2 有3 種變體,分別為B M P S N 9 5 6 3,BMPSN9566和BMPSNC21, T72也有3種變體,分別為T72SN132, T72SN812, T72SNS7。表3給出了3類目標識別場景中訓練集和測試集的具體劃分情況。除了3類目標識別中的3類目標及其變體,10類目標識別實驗中還包含另外7種地面車輛目標,即BTR60, 2S1, BRDM, D7, T62, ZIL131和ZSU23/4。表4給出了10類目標識別場景中訓練集和測試集的具體劃分情況。
在多級幅度特征的提取中,多個不同尺寸的池化窗口 W ={(1×1), (3×3), (5×5)};在多級Dense-SIFT結構特征的提取中,多個不同尺寸的切片窗口 L={(16×16), (32×32), (64×64)},滑窗步長 s=6;深度森林模型中,每個森林中樹分類器的個數在3類MSTAR數據實驗中設為1000,在10類MSTAR數據實驗中設為2500;閾值 T設為0.0001。本文方法及對比方法分別基于Python,MATLAB和Caffe實現。

圖3 MSTAR數據集10類目標光學圖像示例

圖4 MSTAR數據集10類目標SAR圖像示例

表3 MSTAR數據集3類目標識別場景訓練集、測試集劃分

表4 MSTAR數據集10類目標識別場景訓練集、測試集劃分
3.3.1 3類MSTAR數據的識別實驗
本節基于3類7型MSTAR數據驗證本文提出方法以及對比方法的識別性能。為了定量評估方法性能,利用式(1),計算實驗中每種方法的測試樣本的識別正確率

其中,A cc 表示測試樣本的識別正確率, Tr表示識別正確的測試樣本個數, Q表示測試樣本的總個數。A cc值越大,說明識別性能越好。
本文方法和對比方法的性能如表5所示,同時在圖5中給出更直觀的識別性能比較。在表5和圖5的對比方法中,“幅度特征”表示將圖像像素點的幅度值作為特征,然后利用線性支持向量機(Support Vector Machine, SVM)進行識別的方法;“PCA”表示對圖像的幅度特征利用主成分分析(Principle Component Analysis, PCA)方法進行降維,將經過降維處理得到的特征利用SVM進行識別的方法;“模板匹配”方法利用訓練數據的特征向量構成模板,用測試數據的特征向量與各模板進行比較,依據特征向量之間的相似程度判定測試數據所屬類別;“SRC”代表稀疏表示分類的方法;“Dense-SIFT”表示對SAR圖像提取Dense-SIFT結構特征,然后利用SVM進行識別的方法;“拼接融合”是將圖像幅度特征和Dense-SIFT特征進行拼接融合,然后用SVM進行識別的方法;“AE”表示基于自編碼網絡的識別方法;“Eu-AE”指的是在自編碼網絡中引入歐氏距離約束項的方法[11],利用歐氏距離約束充分利用有限的數據;“VGG”表示將Gao等人[17]提出的深度網絡結構VGG用于目標識別的方法;“LTCNN”為文獻[21]中提出的輕量級的雙流卷積神經網絡(Lightweight Twostream Convolutional Neural Network, LTCNN)SAR目標識別方法;“MFCNN”為文獻[22]提出的基于多特征的卷積神經網絡(Multiple Feature Convolutional Neural Network, MFCNN) SAR目標識別方法;“CF-DF”表示將本文所提特征級聯后再利用深度森林進行分類的識別方法。

表5 不同識別方法對應的3類7型MSTAR數據測試樣本識別正確率

圖5 3類7型MSTAR數據測試樣本的識別性能
由表5及圖5可以看出,對于實驗所用的3類7型MSTAR數據,本文算法的測試樣本識別率能達到0.9663。使用幅度特征和SVM分類器的方法具有0.8491的識別正確率,而使用Dense-SIFT特征和SVM分類器的方法達到了0.9209的識別正確率。相比于這兩種方法,本文所提深度特征融合方法分別提升了大約11%和4%。將兩種特征進行拼接融合的方法實現了0.9318的識別正確率。相比于單獨使用兩種特征的方法,融合拼接的方法具有更高的識別率,說明挖掘目標的多種具有互補性的特征進行融合對于目標識別是有利的。雖然拼接融合的識別方法相比于單獨使用特征的識別方法具有一定的性能提升,但是利用拼接操作來進行融合的方式較簡單,沒有深入挖掘特征的深層表征。本文的方法相比于拼接融合的識別方法具有大約3.5%的性能提升。同時,相比于其他的傳統識別方法,即PCA特征結合SVM的方法,模板匹配方法,稀疏表示方法3種對比方法,本文算法至少提升了3.5%的識別精度。相比AE和Eu-AE兩種自編碼方法,本方法具有至少2.5%的識別性能提升。相比于3種卷積神經網絡,即VGG, LTCNN和MFCNN,本文方法也有至少3%的識別性能提升。與CF-DF方法的識別性能對比后發現本文方法具有較好的性能,說明本文提出的交替融合方法更有效。
3.3.2 10類MSTAR數據的識別實驗
在MSTAR10類14型數據上,表6給出了本文方法和幅度特征結合SVM的方法、PCA特征結合SVM的方法、模板匹配方法、SRC、Dense-SIFT特征結合SVM的方法、特征拼接融合的方法6種傳統目標識別方法進行識別正確率的比較。同時,表6中還呈現了AE, Eu-AE, VGG, LTCNN, MFCNN 5種神經網絡方法以及CF-DF方法的識別正確率。圖6中給出更直觀的識別性能比較。

表6 不同識別方法對應的10類14型MSTAR數據測試樣本識別正確率
由表6及圖6可以看出,對于實驗所用的10類14型MSTAR數據,本文方法的測試樣本識別率能達到0.9276。與幅度特征結合SVM方法相比,本文提升了大約15%的識別正確率;與Dense-SIFT特征結合SVM方法相比,本文方法提升了大約2.5%的識別正確率;與拼接融合的識別方法相比,本文方法的識別正確率提升了大約1.3%。同時,相比于其他傳統的目標識別方法,即PCA特征結合SVM的方法、模板匹配方法、稀疏表示3種對比方法,本文方法至少提升了5%的識別精度。而相比AE, Eu-AE, VGG, LTCNN, MFCNN 5種神經網絡方法,本文方法至少存在1%的性能提升。此外,與3類數據的實驗結果相似,本文方法比CF-DF方法具有更好的識別性能。
3.3.3 深度森林中超參數對識別性能的實驗
在深度森林中,每個森林所包含的樹的個數是影響識別性能的超參數。因此,本節通過設置不同樹的數目對應得到的3類7型MSTAR數據平均識別正確率來分析超參數對識別性能的影響。
從圖7中可以看出,當樹的數目取很小的值(100)時,本文提出的方法在3類MSTAR數據上的平均正確率為0.9582。雖然此時的性能不是最優,但是相比于3.3.1節中對比方法的識別性能,本文提出的方法的識別性能仍然較好。當樹的數目為500和1000時,本文提出的方法達到最高的平均識別正確率0.9663。而當樹的數目增加到1500,2000時,其模型參數量也隨之增多,本文提出的方法的性能略微有所下降,但仍然具有高于0.96的識別正確率。在樹分類器個數不同的情況下,分類識別的正確率雖然具有差異但是其變化浮動不明顯,即使在樹分類器個數較少的時候,也能取得較好的識別效果,說明深度森林分類器對樹分類器個數這個超參數不敏感,能夠避免因為超參數的不合適設置而大幅度影響識別的性能的問題。

圖6 10類14型MSTAR數據測試樣本的識別性能

圖7 本文方法在不同的樹數目下對應的3類7型MSTAR數據測試樣本的識別性能
本文提出一種基于深度森林的多級特征融合SAR目標識別方法。該方法分別對幅度特征和Dense-SIFT結構特征挖掘其多級特征,得到從局部到全局的特征表征;并考慮到兩種特征的互補性,利用深度森林模型對兩種特征進行融合,同時在深度森林逐層的特征變換中挖掘深層信息,進行目標識別。本文實驗從3類7型MSTAR數據和10類14型MSTAR數據中驗證了本文提出的方法相比于傳統的SAR目標識別方法和其他基于深度模型的SAR目標識別方法具有更高的識別正確率。而且本文方法的性能對超參數的設置不敏感。隨著雷達技術的發展,其獲取的數據量越來越多,但是對所有數據進行人工標記需要耗費大量的人力物力,因此基于少量標記樣本的半監督目標識別是重要的研究方向。后續工作將進一步研究探討結合本文方法思想的半監督目標識別方法。