陳 禾, 張心怡, 李 燦, 莊 胤
(1. 北京理工大學信息與電子學院雷達技術研究所, 北京 100081; 2. 嵌入式實時信息處理技術北京市重點實驗室, 北京 100081)
合成孔徑雷達(Synthetic Aperture Radar,SAR)是一種基于多平臺的主動式對地觀測系統,不受光照和氣候條件的制約,具有全天時、全天候、高分辨、大幅寬等多種特點[1-2]。經歷60多年的發展,合成孔徑雷達成像技術已經逐漸成熟,高分辨SAR圖像的數據獲取能力得到了顯著的提高,為SAR圖像的智能化應用奠定了基礎。上世紀80年代,林肯實驗室提出了SAR自動目標識別(SAR ATR)系統的一般流程,將其分為了檢測、鑒別和識別三個階段。識別是SAR ATR的最后一個階段,SAR圖像經過檢測與鑒別后,大部分的雜波虛警已被濾除,剩下的主要工作就是對目標切片進行分類識別。本文主要圍繞SAR圖像目標識別這一環節展開研究,實現對SAR遙感圖像的高精度智能化判讀。
目標識別往往是在特征空間中進行分類,因此能否提取到圖像的有效特征是決定識別結果好壞的關鍵因素。近年來國內外的學者開展了大量研究,根據其提取特征的方法可分為兩大類:1)基于人工特征描述的方法;2)基于深度學習卷積神經網絡的方法。
基于人工特征描述的方法需要人工設計并選取具有判別性的特征。丁柏圓[3]等人提取了SAR圖像和模板的屬性散射中心,綜合考慮不同散射中心對于匹配度的貢獻及其虛警和漏警對最終匹配度的影響,設計了一種度量散射中心匹配度方法。康妙[4]等人提取了SAR圖像的25種基線特征和局部紋理特征,將其串聯輸入棧式自編碼器網絡進行融合,最后利用softmax進行分類。張楚笛[5]等人采用二維變分模態分解技術將SAR圖像分解為多個子模態分量,分別用于表示全局信息和邊緣信息,進一步提取二維雙向主成分分析特征,最后聯合原始圖像和各子模態的特征完成分類。李璐[6]等人提取了多級幅度特征和多級密集尺度不變特征變換(Dense-SIFT)特征。并借鑒深度森林的思想對二者進行聯合利用,將得到的深層融合特征對目標進行識別任務。然而,人工特征描述十分依賴專業的經驗與知識,且對復雜目標的特征表達能力有限,難以達到更好的識別性能。2006年,Hinton等人提出了深度學習[7],這是一種基于人工神經網絡的機器學習算法,通過深層神經網絡從低到高逐層提取數據的特征,獲取更豐富的特征表示。近年來,基于卷積神經網絡的深度學習模型在自然圖像分類范疇取得了出色的成果,很多研究者開始嘗試利用卷積神經網絡來處理SAR圖像目標識別問題。Wang[8]等人設計了稀疏數據特征提取模塊(SDFE),并在此基礎上提出了一種新的卷積神經網絡SSF-Net,網絡具有較好的魯棒性。倉明杰[9]等人提出一種基于改進的卷積神經網絡(ICNN)和改進的生成對抗網絡(IGAN)的SAR目標識別方法,用無監督預訓練好的IGAN鑒別器參數初始化ICNN,再用訓練樣本對ICNN微調,使網絡具有更高的準確率和更強的抗噪聲能力。陳禾[10]等人提出了一種結合高階特征表示的多尺度特征提取殘差結構,有效提升了深度卷積網絡對于SAR圖像細粒度型號識別任務的特征提取及泛化能力。REN[11]等人提出了一種擴展卷積膠囊網絡的SAR ATR方法,其在編碼器網絡中利用不同膨脹率的多次卷積運算提取多尺度特征,然后嵌入了特征細化模塊,以增強顯著特征,抑制無用特征。高飛[12]等人提出基于度量學習的SAR圖像識別方法,使用LSTM網絡保留樣本間相似特征,并通過距離度量函數將各類別樣本進行關聯,最后引入注意力機制提取出與測試圖像特征更相似的訓練圖像。Pei[13]等人提出了一種基于深度特征提取與融合網絡(FEF-Net)的多視點SAR ATR方法。FEF-Net具有多輸入拓撲結構,包括可變形卷積和SE等特定模塊,具有學習多視點SAR圖像有用分類信息的能力。綜上所述,卷積神經網絡可以自動從數據中學習特征,完成端到端的高精度目標識別,是SAR遙感圖像目標識別的研究熱點。
然而SAR圖像與光學圖像不同,SAR圖像上的信息主要是地物目標對雷達波束的后向散射形成的。雷達的工作參數如入射角、工作波長、極化方式等,以及地表的粗糙度等目標特性都會對成像產生影響。目標的散射特征往往存在于多個尺度當中,此外,SAR圖像中存在固有的噪聲斑,提取到的特征可能含有冗余信息,對SAR圖像的目標識別也會產生負面影響。因此,本文提出一種結合多尺度特征提取和注意力機制的卷積神經網絡 —— 多尺度注意力卷積神經網絡。針對提取不同尺度的目標散射特征的問題,設計了多尺度殘差特征提取模塊,針對區分關鍵信息和冗余信息的問題,設計了注意力模塊。最后將它們進行組合和有層次的堆疊構成了多尺度注意力卷積神經網絡。將所設計網絡在MSTAR(Moving and Stationary Target Acquisition and Recognition)數據集上,針對10種軍事目標型號開展了圖像分類實驗,并取得了99.84%的總體精度,驗證了本文提出方法的性能。進一步,在測試集中加入4種型號的變體進行擴展驗證實驗,取得了99.28%的總體精度,驗證了本文方法在復雜情況下的有效性。
本文所提出的多尺度注意力卷積神經網絡模型如圖1所示,整體架構基于ResNet34[14]網絡,將原始BasicBlock替換為所設計的多尺度注意力模塊,進行有層次的堆疊所構成。其中多尺度注意力模塊由多尺度殘差特征提取模塊(包括多尺度特征提取與殘差連接shortcut)和注意力模塊組成,實現了多尺度特征提取和注意力機制的功能。以下將詳細介紹多尺度殘差特征提取模塊、注意力模塊以及網絡的詳細結構。

圖1 本文網絡總體架構圖
由于SAR遙感成像對于同一目標的散射信息會隨成像條件的變化而改變,這對SAR圖像目標識別帶來了很大的挑戰,故需要對目標提取不變性散射特征。然而,這些不變性散射特征往往隱藏在多個尺度的散射點分布中:大尺度中存在全局散射特征,小尺度中存在局部散射特征,僅使用單一尺度的特征提取架構難以得到有效特征描述。因此,多尺度特征提取及融合是SAR遙感圖像目標識別的關鍵所在。
對于多尺度特征提取,本模塊在ResNet的BasicBlock基礎上采用了GoogLeNet[15]中Inception模塊的多尺度特征提取思想,多分支的網絡拓撲結構可以進行多尺度的特征提取和融合,增加了網絡的寬度和對多尺度信息的處理能力。進一步,借鑒VGGNet[16]用連續的小卷積核代替大卷積核的方法,在保持相同感受野的情況下進一步加深網絡。
本文提出的多尺度殘差特征提取模塊有兩種:Block-A和Block-B。Block-A如圖2(a)所示,采用4個并行分支,分別是卷積核大小為1×1、3×3、5×5、7×7的卷積層,進行不同尺度的特征提取,然后將特征融合。同時加入殘差模塊的快捷連接(shortcut),將輸入層加到輸出層。其中除了第一個分支中的1×1卷積用來進行特征提取,其他的1×1卷積用來降維,以減少參數量;Block-B如圖2(b)所示,在上述基礎上將5×5卷積核分解為2個串聯的3×3卷積核、7×7卷積核分解為3個串聯的3×3卷積核,以進一步加深網絡。對于多尺度特征融合,考慮采用兩種特征融合方式:拼接(concatenate)和對應元素相加(element-wise summation),具體使用方式與選用的注意力模塊有關,將在下一節補充說明。

(a) Block-A

(b) Block-B圖2 多尺度殘差特征提取模塊
雖然上述多尺度殘差特征提取模塊可以用多個尺寸的卷積核來提取不同尺度的SAR目標散射特征,然而,得到的多尺度散射特征若被無差別使用,則會造成信息冗余,毫無側重。因此,本文進一步引入注意力機制來指導網絡分配權重,使網絡能夠關注各個尺度散射特征中更具判別性的信息,達到更精確的SAR圖像目標識別性能。具體地,在多尺度殘差特征提取模塊后加入注意力模塊,分別考慮使用SENet[17]中的Squeeze and Excitation block(SE模塊)和SKNet[18]中的Selective Kernel block(SK模塊)。下面將詳細介紹這兩種注意力模塊在本章提出的模型上的應用。
1) SE模塊:其結構如圖3(a)所示。SE模塊關注的是所有通道間的權重分配,所以將四路卷積輸出的特征圖按特征通道維度拼接在一起,將多尺度特征以特征拼接(concatenate)方式融合。之后的具體操作可分為以下三個步驟:

(1)


(c) 權重作用(Scale):使用Excitation 得到的結果作為權重,分別乘到特征圖對應的通道上(element-wise product),進行特征重標定,得到輸出特征圖。
將SE模塊與上節提出的多尺度殘差特征提取模塊結合,可使網絡從通道的角度進行側重,關注更具判別信息的特征通道。
2) SK模塊:其結構如圖3(b)所示。SK模塊關注的是不同尺度卷積支路之間的權重分配,從而達到調整神經元感受野大小的目的。故參考SKNet[17]中的特征融合方式,將上一步的多尺度特征以特征圖對應元素相加(element-wise summation)的方式融合,這要求每個尺度的卷積核輸出的特征圖維度是完全相同的。之后操作可以分為以下兩個步驟:
(a) 壓縮和激活(Squeeze and Excitation):相當于SE模塊中Squeeze和Excitation,區別在于此處要對Squeeze結果分別作4個分支的非線性變換,以對應四路卷積。
(b) 權重作用(Select):把Squeeze and Excita-tion的輸出通過softmax函數轉化為縱向通道之間的權重,然后把權重信息乘(element-wise pro-duct)到對應的U1、U2、U3和U4上。最后再把權重作用后的四路的特征圖進行對應相加(element-wise summation)得到輸出特征圖M。
SK模塊中的Select操作使用softmax加權與SE模塊中最后把權重分別乘到輸入特征圖上的操作很相似,區別在于SE模塊考慮的是通道之間的權重,而SK模塊不僅考慮了通道之間的權重,還考慮了多路卷積的權重。也就是說,SE模塊是對通道執行注意力機制,而SK模塊則是對卷積核執行注意力機制,即讓網絡自己選擇合適的卷積核。

(a) SE模塊

(b) SK模塊圖3 注意力模塊
將上述的兩種多尺度殘差特征提取模塊和兩種注意力模塊兩兩組合在一起,構成4種多尺度注意力卷積神經網絡。Block-A與SE模塊組合構成的網絡命名為:多尺度-se34,Block-A與SK模塊組合構成的網絡命名為:多尺度-sk34,“34”表示它們將構成34層的卷積神經網絡;Block-B與SE模塊組合構成的網絡命名為:多尺度-se66,Block-B和SK模塊組合構成的網絡命名為:多尺度-sk66,“66”表示它們將構成66層的卷積神經網絡。
本文采用MSTAR數據集進行SAR圖像目標分類實驗。該數據集采用美國國防高等研究計劃署(DARPA)支持的MSTAR計劃所公布的實測SAR地面靜止目標數據,是通過工作在X波段、HH極化方式的高分辨率的聚束式合成孔徑雷達采集得到,雷達空間分辨率為0.3 m×0.3 m。采集的數據共有10種前蘇聯軍事目標車輛,包括坦克、裝甲車等。其中SOC工作條件下10類MSTAR數據集中圖像的俯仰角分別是 17°和 15°,圖4分別展示了10類目標車輛的光學圖像和對應的 SAR 圖像。本文選用在俯仰角為17°和 15°的圖像分別作為訓練集和測試集。具體類別和圖像數量見表2。
本文所有實驗基于Ubuntu16.04.6 LTS操作系統,所用開發環境是python 3.7及其第三方庫,以及深度框架Pytorch1.2.0。GPU的處理環境為CUDA9和cuDNN7。輸入圖像尺寸需統一裁剪為224×224以適應網絡,batchsize設置為32,使用SGD優化器進行訓練,初始學習率為0.001,每經過50個Epoch學習率減半。實驗采用總體精度OA(Overall Accuracy)和混淆矩陣CM(Confusion Matrix)作為模型分類性能的評價指標。

圖4 數據集中10類目標的光學圖像和SAR圖像對照

表2 MATAR數據集SOC工作條件下10類目標訓練與測試樣本數
混淆矩陣:如圖5所示,為一個二分類混淆矩陣的示例。TP(True Positive)表示實際標簽是P,被正確預測為P的數量;FN(False Negative)表示實際標簽是P,但被錯誤預測為N的數量; TN(True Negative)表示實際標簽是N,被正確預測為N的數量;FP(False Positive)表示實際標簽是N,但被錯誤預測為P的數量。可以將其拓展到多分類的情況下。若數據集有M個類別,那么混淆矩陣可以用一個M行M列的矩陣形式來表示。正如混淆矩陣的名字,它的作用是體現出多個類別之間是否有混淆,可以直觀地體現每一類的分類準確率和錯分的類別。

圖5 混淆矩陣示意圖
總體準確率OA:其計算方法為所有分類正確的圖像數除以圖像總數,在混淆矩陣表示下如式(2)。該指標能夠對數據集整體的預測情況進行評價。
(2)
為進一步驗證本文提出網絡的性能,將本文模型的實驗結果與其他算法以及一些經典的神經網絡模型進行了比較,如表3所示。文獻[4]和文獻[5]是基于傳統人工特征描述的方法,文獻[11]和文獻[12]是基于卷積神經網絡特征提取的方法。可以看出傳統算法的分類精度普遍不高,而基于卷積神經網絡的分類方法有著明顯的優越性。本文提出的多尺度-sk66網絡OA達到99.84%的最高準確率,體現了本文提出的多尺度注意力網絡的優越性能。

表3 本文方法與其他方法結果比較
為了分析本文設計模型中兩種多尺度殘差特征提取模塊和兩種注意力模塊對性能的影響,開展了一系列的對比試驗。實驗結果如表4所示。

表4 各模型分類精度
1) 多尺度殘差特征提取模塊:對比ResNet34與去注意力-多尺度-se34的精度,如圖6(a)所示,可以證明本文設計的多尺度殘差特征提取模塊的有效性。ResNet34網絡單一尺度的特征提取導致獲得的特征不夠有效,而多尺度殘差特征提取模塊可以很好地提取并融合多尺度的特征,擁有更強大的特征提取能力,有效提升模型的收斂速度和分類精度。
2) 注意力模塊:對比有無注意力的多尺度網絡分類精度可以證明本文設計的注意力模塊的有效性。如圖6(a)所示,可以看出加入注意力模塊之后,網絡收斂速度有所提升。觀察表4的2至5行與6至9行可以看出,相較于層數較淺的34層多尺度網絡,注意力模塊對于66層的深層多尺度網絡的最終精度提升效果更加明顯。深層網絡的參數量更大,提取到的特征數量更多更復雜,存在冗余信息的可能性也就越大。這說明SE模塊和SK模塊都可以在大量信息中區分關鍵信息和冗余信息,有側重地利用信息,從而有效提升網絡性能。同時,觀察表4以及圖6(a)中多尺度-se34和多尺度-sk34的曲線可以看出,SK模塊相較于SE模塊對多尺度網絡有著更好的提升效果。這可能是因為SK模塊不僅考慮了通道之間的權重,還考慮了多路卷積的權重,更加適合多尺度網絡的特點。

(a)

(b)圖6 部分模型在測試集上的精度變化曲線
3) 網絡深度:本文在第一節中設計了兩種多尺度殘差特征提取模塊,分別對應了34層和使用連續小卷積核替換大尺寸卷積核得到的66層的網絡結構。對比不同層數的多尺度注意力網絡性能,如圖6(b)所示,繪制了多尺度-sk34和多尺度-sk66的精度變化曲線圖。可以看出,增加網絡深度可以有效提升網絡精度,但在前期的訓練過程中可能會存在一定的波動。
表5是本文實驗中最優模型多尺度-sk66的混淆矩陣。

表5 多尺度sk-66混淆矩陣
同一大類軍事目標中還會存在不同型號的變體,它們的軍事配置不同,例如同類坦克上有無機關槍、油箱,以及天線是否展開等[19]。這些外觀上的變化也會影響SAR目標識別。因此,為驗證本文方法在復雜情況下的有效性,不改變訓練集,向測試集中補充了BMP2的兩種變體:SN9566、SNC21,以及T72的兩種變體:SN812、SNS7。表6為所加入變體數據的具體類別型號和圖像數量。

表6 加入變體的類別型號和圖像數量
選擇在3.1節實驗中性能最好的多尺度-sk66模型對補充變體后的MSTAR數據集10類目標進行識別,并與其他方法[6,19-20]進行對比。實驗結果如表7所示,多尺度-sk66的混淆矩陣如表8所示。可見,在測試集中加入變體之后,算法的整體性能稍有下降,但也優于其他算法。這說明本文提出模型有較強的泛化能力,在復雜情況下仍能保持較高精度,進一步驗證了該方法的有效性。

表7 本文方法與其他方法在補充變體數據集上的結果比較

表8 多尺度sk-66在補充變體數據集上的混淆矩陣
本文以SAR遙感圖像目標識別為背景,提出了多尺度注意力卷積神經網絡。針對SAR圖像的多尺度散射特征,設計了多尺度殘差特征提取模塊,能夠提取并融合多尺度特征。同時引入了注意力機制來區分關鍵信息和冗余信息。通過在MSTAR數據集上進行10類目標識別的實驗,驗證了本文算法的有效性,總體準確率達到了99.84%,明顯優于其他算法。另外,向測試集中補充4種型號的變體,進行擴展驗證,總體準確率達到了99.28%,驗證了本文算法在復雜情況下的有效性。
然而,本文實驗選用的MSTAR數據集類別較少,圖片樣本有限,對模型的泛化能力有待進一步驗證。此外,所設計的多尺度注意力網絡模型參數量較大。因此,如何構建更好的多尺度特征融合方法和注意力機制從而進一步提升網絡性能,是今后有待繼續研究的內容。