林志龍,王長龍,胡永江
(陸軍工程大學無人機工程系,石家莊 050003)
合成孔徑雷達(Synthetic Aperture Radar,SAR)可以提供全天候對地觀測的高分辨率的圖像,廣泛用于環境監測、地球資源測繪和軍事系統。隨著SAR 圖像數據源的增加,人工解譯無法滿足實時性的要求[1]。并且SAR 圖像會因為目標姿態、俯仰角度、周圍環境的微小變化而發生較大的變化,人工解譯的準確率無法保證。所以,迫切需要發展SAR圖像的自動目標檢測。
對于SAR 圖像目標檢測,已經發展了許多針對SAR 圖像特點的目標檢測方法,主要可以分為以下3 類:第1,基于統計模型的恒虛警率(Constant False-Alarm Rate,CFAR)目標檢測算法[2-5],這類算法簡單快速、實時性較強,但是要求已知背景雜波模型的分布。第2,基于圖像特征的目標檢測算法,圖像特征可以是人為設計的特征,如擴展分形特征[6]、SIFT[7-8]等,也可以是通過算法學習得到,如神經網絡[9-10]、稀疏表示[11-12]等。第3,基于相干性的目標檢測法[13],這類算法利用SAR 相干成像系統的特點,但是相干圖的獲取較為復雜。目前SAR 圖像目標檢測亟待解決的問題主要有兩個:第1,檢測算法的虛警率和漏警率都比較高。第2,只能對單一的目標進行檢測,無法進一步區分目標的類別。
近幾年來,基于深度學習的目標檢測算法在光學圖像和視頻的檢測領域中表現出了優異的性能。基于深度學習的目標檢測算法主要分為兩類,一類是以Faster-RCNN[14]為代表的區域建議的目標檢測框架;另一類是以SSD[15]為代表的將目標檢測問題轉化為回歸問題的目標檢測框架。將基于深度學習的目標檢測框架用于SAR 圖像的目標檢測對于提高SAR 圖像目標檢測的精度和實現多種目標檢測具有重要的意義。
本文首先比較了基于區域建議的目標檢測框架Faster-RCNN 和無需區域建議的目標檢測框架SSD 對SAR 圖像的目標檢測精度和速度;然后通過實驗說明預訓練模型對于目標檢測框架的影響;最后研究了零均值規整化目標提升檢測性能。
為了進一步提高目標檢測算法的速度和精度,Ren Shaoqing 等在R-CNN 和Fast RCNN 的基礎上提出了Faster-RCNN 目標檢測框架,將基于區域建議的目標檢測的4 個基本步驟(候選區域生成、特征提取、分類和Bounding Box 回歸)統一到一個深度網絡框架之內。相較于Fast R-CNN,Faster-RCNN的準確率略有提高,但是檢測速度卻提高了10 倍。Faster-RCNN 目標檢測網絡結構如圖1 所示。
Faster-RCNN 候選區域的生成使用了區域生成網絡(Region Proposal Network,RPN) 代替了之前Fast R-CNN 的選擇性搜索(Selective Search,SS)。創造性地采用RPN 產生建議區域,并且和目標檢測網絡共享卷積網絡,使得Faster-RCNN 的候選區域由Fast R-CNN 的2 000 個減少至300 個,并且候選區域的質量也有著本質的提高。其具體算法流程如下:
步驟1 輸入圖像通過共享卷積層,得到共享的特征圖。
步驟2 將共享特征圖分別輸入到RPN 網絡和特有卷積層。
步驟3 共享特征圖通過RPN 網絡產生區域位置和該區域分屬于前景和背景的概率,并且對概率采用非極大值抑制,將概率最高的300 個區域位置建議給RoI 池化層。
步驟4 共享卷積層通過特有卷積層得到更高維的特征圖后輸入RoI 池化層。
步驟5 RoI 池化層結合步驟3 生成的建議區域和步驟4 生成的高維特征圖,提取對應建議區域的高維特征。
步驟6 將提取的高維特征送入全連接層,最后輸出該區域的目標分類以及回歸后的邊界框位置。

圖1 Faster-RCNN 框架示意圖
無需區域建議的深度學習目標檢測框架主要代表有YOLO[16]和SSD,這些方法將目標分類和邊界框回歸合二為一,所以檢測速度得到了較大的提升。為了克服YOLO 精度低的問題,Liu Wei 提出Single Shot Detector(SSD)目標檢測框架,實現了實時的目標檢測。相較于Faster-RCNN,精度相當,而速度提升了約6 倍。SSD 的網絡結構如圖2 所示。

圖2 SSD 框架示意圖
SSD 由兩部分組成,一部分是基礎網絡,用來提取輸入圖像的特征圖;另一部分是附加網絡,在對基礎網絡所提取的特征圖進行卷積提取更高級的特征的同時在不同尺度的特征圖上進行目標的分類和邊界框位置的回歸。不同尺度的特征圖上的感受也不同,有利于不同大小目標的檢測。不同尺度特征圖所體現目標特征不同,有利于目標的精確分類。SSD 目標檢測框架的算法流程如下:
步驟1 首先使用常用的卷積神經網絡結構,如VGG-16 作為基礎網絡來提取輸入圖像的特征圖。
步驟2 在基礎網絡所提取特征圖的基礎上通過附加網絡得到不同尺度的特征圖。
步驟3 在不同尺度的特征圖上逐個像素使用不同長寬比的方框進行目標位置和特征的提取。
步驟4 對所有不同尺度特征圖的的每個像素位置所提取的位置信息和目標特征分別通過卷積神經網絡進行邊界框的回歸和目標的分類。
在機器學習領域,遷移學習是指將從一個環境中學到的知識用來幫助新環境中的學習任務,也就是將已經訓練好的模型參數遷移到新的數據集。目前多數的基于深度學習的目標檢測框架都是用遷移學習確保網絡訓練的收斂或避免數據量過小而引起的過擬合。Faster-RCNN 和SSD 目標檢測框架都使用在ImageNet 數據庫上訓練好的模型參數來初始化新的數據集上的模型參數。
但使用預訓練模型也帶來了一定的局限性:第1,模型的結構設計不靈活,模型結構必須要與預訓練模型結構一致;第2,預訓練模型是進行分類任務訓練得到的模型,分類和目標檢測有著不同的目標函數,這會導致與最佳檢測的結果有所偏差;第3,運用領域的局限性,由于預訓練模型是在光學圖像上訓練得到的,將其運用到SAR 圖像或者醫學圖像無法取得理想的結果。
圖像的像素值位于0~255 之間,但是神經網絡權重的初始化策略都是隨機的,最常見的神經元表示為

式中,ReLU 表示的是整流線性單元(Rectified Linear Units,ReLU)激活函數,W 為權重參數,b 為偏置。
該神經元的操作是對的兩側的數據采取不同的操作方式。在二維的情況下Wx+b 簡化為直線y=ax+b,高維情況下表現為超平面。假設在二維的情況下,圖像只表示在第1 象限,而隨機初始化的ax+b不對圖像進行分割的情況下就沒有意義,需要多次迭代調整才能對圖像進行有效的分割。維數越高,不進行零均值規整化的圖像數據所占據的數據空間區域越小,隨機初始化的Wx+b 對圖像數據分割的概率越小。
針對SAR 圖像的特點,在MSTAR 數據庫的訓練集上求取了像素的均值,輸入圖像進行減去均值的操作后,再進行框架的訓練或檢測。實驗結果表明減去圖像均值的預處理操作有助于框架提高收斂速度和精度。
3.1.1 實驗平臺參數
計算機配置: 處理器為英特爾 Xeon E5-2620v3,主頻2.4 GHz,顯卡為NVIDIA GeForce GTX1080Ti,顯存為12 GB,系統為Ubuntu 16.04。
3.1.2 數據集的制作
實驗采用美國國防研究規劃局和空軍研究實驗室聯合資助的運動和靜止目標獲取與識別數據庫進行實驗,SAR 圖片大小為128×128 像素點,圖像的分辨率為0.3 m×0.3 m。選取在15°和17°俯仰角下10 類目標的SAR 圖像數據,共5 652 張,包含了2S1、BMP2、BRDM2、BTR60、BTR70、D7、T62、T72、ZIL131 和ZSU234。
對每張目標切片內的目標進行位置和類別的標注,隨機抽取2 826 張作為訓練集,其余的圖像作為測試集。
3.1.3 評價指標
目標檢測的評價指標主要是評價目標檢測框架的檢測速度和精度。檢測速度由每秒可以檢測的圖片數來衡量目標檢測框架的實時性。檢測精度由平均準確率(Average Precision,AP)來衡量,平均準確率的計算公式如下。

式中,AP 就是平均準確率,P(R)是目標檢測框架對某個目標的準確率-召回率曲線,P 表示準確率,R代表召回率。
3.1.4 實驗過程
首先,在VGG-16 網絡結構預訓練模型的基礎上分別使用Faster-RCNN 框架和SSD 框架,在SAR圖像數據集上進行訓練,對比訓練的結果。其次,舍棄預訓練模型,對比Faster-RCNN 框架和SSD 框架在SAR 圖像數據集上進行訓練結果。最后,在不使用預訓練模型的基礎上,研究零均值規整化對于SAR 圖像目標檢測結果的影響。
3.2.1 Faster-RCNN 框架與SSD 框架的比較
在使用預訓練模型的情況下,Faster-RCNN 和SSD 目標檢測框架在MSTAR 數據庫所制作的數據集上訓練后的檢測結果如表1 所示。

表1 Faster-RCNN 和SSD 檢測精度對比
實驗結果顯示,Faster-RCNN 目標檢測的精度要高于SSD。但是Faster-RCNN 的檢測速度為16 張/s,而SSD 的檢測速度為31 張/s,約為Faster-RCNN目標檢測框架速度的兩倍。但兩者的檢測精度相較于其在光學目標的檢測精度都有待提高。檢測效果圖如圖3、圖4 所示。

圖3 Faster-RCNN 目標檢測效果圖
3.2.2 預訓練模型對于目標檢測框架的影響
由于在光學圖像上訓練得到的預訓練模型會限制SAR 圖像目標檢測的精度。在不使用預訓練模型進行框架的訓練時,實驗結果表明基于區域建議的Faster-RCNN 目標檢測框架無法收斂,SSD 目標檢測框架使用預訓練模型前后的檢測精度見表2。
由實驗可得,不使用預訓練模型時,Faster-RCNN 因為RoI 池化層阻礙了梯度的反向傳播而導致參數無法有效地更新,所以無法收斂。對于SSD,舍棄預訓練模型可以少量提高SAR 圖像目標檢測的精度。舍棄預訓練模型更重要的意義在于沒有預訓練模型的約束,擴展了目標檢測框架運用領域的同時,也使得網絡結構更具靈活性。

圖4 SSD 目標檢測效果圖

表2 預訓練模型對SSD 檢測精度的影響
3.2.3 零均值規整化對于目標檢測框架的影響
在不使用預訓練模型的條件下,零均值規整化對于SAR 圖像目標檢測精度和速度的影響如下頁表3 和圖5 所示。
圖5 的橫坐標是迭代次數,縱坐標為目標檢測框架在訓練集上的損失函數的值,紅色曲線表示的是零均值規整化后的損失曲線,藍色表示的是沒有零均值規整化操作的損失曲線。零均值規整化操作前后,SSD 目標檢測框架都能快速收斂,通過將迭代次數0~300 次的過程放大后可以發現進行零均值規整化操作可以提高收斂速度和檢測的精度。

表3 零均值規整化對于目標檢測框架的影響

圖5 零均值規整化
本文對Faster RCNN 和SSD 目標檢測框架在SAR 圖像目標檢測方面的應用進行了實驗研究。并通過結合SAR 圖像自身的特點對目標檢測框架進行改進研究,進行了相關的對比實驗。主要得到以下結論:
1)在使用預訓練的模型情況下,Faster-RCNN的SAR 圖像目標檢測的精度要高于SSD,但SSD 的檢測速度高于Faster-RCNN。
2)不使用預訓練模型可以提高SAR 圖像目標檢測的精度,使得網絡結構可以多樣化。但是基于區域建議的Faster RCNN 目標檢測框架無法收斂。
3)在不使用預訓練模型的情況下,針對SAR圖像的零均值規整化操作可以提高SSD 目標框檢測架的收斂速度和精度。
4)基于深度學習的目標檢測框架在SAR 圖像目標檢測方面有著良好的表現,針對SAR 圖像特點的優化可以進一步提高檢測性能,可有效運用于SAR 圖像的多目標檢測。