,
( 1.航天工程大學研究生院, 北京 101416; 2.航天工程大學光電裝備系, 北京 101416)
近年來,合成孔徑雷達(Synthetic Aperture Radar,SAR)在軍事和民用領域的應用越來越廣泛,需要處理的SAR的數據量也越來越多,這使得對SAR圖像處理與解譯技術的需求更加迫切。SAR圖像解譯的一個主要應用是圍繞如何從含有背景雜波的圖像中檢測地面機動目標[1-2],如坦克、車輛、飛機等。
當前深度卷積神經網絡(Deep Convolutional Neural Network,DCNN)在圖像處理領域取得了較好的結果,借鑒光學圖像的成功應用,深度卷積網絡在SAR目標分類開展了一些研究并取得了不錯的成果[3-4],但在SAR目標檢測中才處于起步階段,尤其是當訓練樣本數量有限情況下對復雜場景多目標檢測還存在一定的難度。首先,DCNN往往需要大數據來驅動,利用大量已標注的圖像樣本進行有監督的訓練,目前雖然存在如Imagenet[5],Pascal VOC[6]等大型通用圖像數據集,但對于一些特定領域的圖像數據集,樣本數量仍然不足以驅動DCNN的訓練與學習;其次,由于DCNN需要訓練的參數數量十分龐大,即便使用GPU加速也會花費較長的訓練時間,同時網絡的訓練技巧與方法需要依靠經驗和大量的調試。針對上述兩個問題,學者提出了遷移學習的方法[5-8],通過把在大型通用數據集上預訓練得到的網絡和參數遷移并應用到新的領域,有效解決了DCNN在小樣本條件下的訓練樣本不足問題,同時大幅度減少網絡的訓練開銷,使得DCNN的應用領域更加廣泛。Zeiler等[7]利用ImageNet預訓練后的網絡在Caltech-101進行遷移訓練和測試,使得圖像分類精度提高了40%。Kang等[8]利用CIFAR-10預訓練的網絡提高了該網絡在TerraSAR數據集上的分類精度。除了遷移學習的直接應用,Yosinski等[9]還對卷積神經網絡不同層次特征的遷移學習效果進行了探索。Zhou等[10]提出不同領域的相關性對卷積神經網絡的遷移學習具有一定的影響。
上述遷移學習方法在各自領域獲得了成功應用,但對于不同的源域和目標域之間,遷移的方式和技巧會有所差異,尤其是圖像特點之間的差異較大時。借鑒上述遷移學習的經驗,本文針對SAR目標檢測網絡訓練樣本不足的問題,利用遷移學習方法將Pascal VOC數據集上預訓練的網絡和權重參數輔助檢測網絡的訓練。考慮到領域的相關性,本文逐層對每個卷積塊的權重進行遷移與分析,并通過不同的訓練方式使得源域任務更好地擬合目標域任務。同時根據SAR目標檢測任務的需求,對遷移網絡進行改進,降低網絡的訓練時間和網絡參數數量。
近年來,遷移學習引起了廣泛的關注和研究,在維基百科中的定義是:遷移學習是運用已存有的知識對不同但相關領域問題進行求解的一種新的機器學習方法。在卷積神經網絡中其訓練所獲得的知識體現于網絡的權重參數中,而卷積神經網絡體系結構的一個優勢是經過預訓練的網絡模型可以實現網絡結構與網絡權重的分離,并分別以配置文件的方式進行保存,只要遷移的網絡結構不改變,就可以利用在大型數據集上訓練好的權重參數初始化目標網絡,這一特點極大地提高了網絡模型和權重(知識)遷移的可操作性。
在遷移學習中,有兩個概念:域(Domains)和任務(Task)。一個域D可以表示為D=X,PX,其中X是特征空間,PX是基于X的邊緣概率分布,X={X1,X2,…,Xn}∈X。一般來說,兩個不同的域的特征空間或概率分布是不一樣的。給定一個域D=X,PX,任務可以表示為T={Y,f(·)},其中Y是標簽空間,f(·)是預測函數,可以通過訓練集{xi,yi}學習而來,xi∈X,yi∈Y。從概率論的角度來看,fx相當于Py|x,即輸入x被預測為各類的概率。遷移學習一般涉及兩個域:源域(Source Domain)DS和目標域(Target Domain)DT,因而遷移學習可以定義為:給定一個源域DS和學習任務DT,一個目標域DT和學習任務TT,遷移學習的目的是使用DS和TS中的已有知識,其中DS≠DT和TS≠TT,幫助提高目標域DT中目標預測函數f(·)的學習,即完成目標域任務TT。
作為一種新的機器學習方法,遷移學習與傳統的機器學習方法相比,主要存在3個方面的優勢[11]:一是不要求訓練數據與測試數據滿足獨立同分布的條件;二是不需要足夠的訓練樣本就能學習到一個好的分類模型;三是不需要對每個任務分別建模,可以重用之前任務的模型。
1.2.1 網絡模型遷移
本文中SAR目標檢測網絡采用基于VGGNet網絡模型的FCN-8[12],該網絡在Pascal VOC數據集中實現對20類不同目標的像素分類,檢測出的目標具有較好的區域整體性和邊緣輪廓性,因此本文對其網絡進行遷移用于SAR圖像的二值檢測,遷移學習過程如圖1所示。由于源域任務TS中涉及的像素類別有21類,目標任務TT中SAR圖像像素類別只有2類,因而對遷移的網絡模型的輸出端進行修改,分類器只需對像素是否為目標進行判別。

圖1 遷移學習過程示意圖
1.2.2 網絡權重遷移與訓練
網絡權重遷移要求源域DS的網絡結構和目標域DT一致時才能進行遷移,對于修改部分的網絡權重采用隨機初始化;同時根據源域任務與目標任務之間的差異,可以只對網絡前端的部分層權重進行遷移,具體遷移多少層的權重最符合目標任務的需求需要通過實驗來驗證。
遷移權重對網絡參數進行初始化后,網絡對遷移權重訓練時有微調和凍結[9]兩種方式。微調時反向傳播經過所有層,會對所有層的權重進行調整;而凍結時不進行反向傳播,遷移層權重始終保持不變,只對未遷移的層進行訓練;同樣可以根據目標任務的特點將兩種方式進行結合。具體訓練方式如圖2所示。具體使用哪一個方式需要考慮學習任務之間的相關性,當遷移領域比較接近的情況,為了避免網絡的過擬合,往往采用凍結權重訓練的方式;當遷移領域差異較大時,微調訓練方式能使源域知識更好擬合目標任務的需求。

圖2 遷移權重再訓練方式示意圖
深度卷積網絡通過增加網絡層數能有效地提高分類器的精度,同時也增加了網絡訓練的開銷。文獻[13]指出網絡訓練時間主要消耗在卷積層,全連接層和池化層計算時間占總時間的5%~10%,其中卷積操作的時間復雜度表示如下:
式中,d為網絡卷積層的總層數,nl為本層特征圖個數,nl-1為上一層特征圖個數,也可以稱作nl層的輸入通道數,sl為filter的尺寸,ml為輸出特征圖的尺寸。上述時間復雜度只是理論上的,真實的計算時間和部署方式、硬件有一定的關系。
考慮學習任務之間的相關性,SAR目標檢測網絡的像素類別只有2類,對分類器進行訓練時所需要的特征組合不需要光學圖像那么多,因此本文對conv6和conv7替換,替換為conv_new,具體修改如圖3所示。可以看出,conv_new首先將conv6的特征圖的數量減少了一半,其次由于conv7卷積操作未改變特征圖的大小,直接將其刪除,修改后的網絡減少了網絡訓練和測試的時間,提高了檢測的時效性,其次也大大減少了網絡需要存儲的參數數量,降低了對硬件的要求。

圖3 檢測網絡的改進
本文數據集來自MSTAR數據庫,目前國內外對SAR圖像地面目標進行的研究也大多以該數據集作為實驗數據。該數據集包含大量地面目標切片和少量大場景雜波圖像。
制作標簽樣本時,需要對目標像素進行標記,不同于光學圖像的標記,SAR圖像受相干斑噪聲等成像機制的影響,目標、陰影與背景區域之間的過渡區域很難分離,對其進行手工標注具有很大的主觀性和隨機性。本文利用MSTAR目標的3D模型進行成像仿真[14],利用真實目標切片獲取的俯仰角和方位角信息對目標模型進行仿真,生成三維目標對應的二維圖像,得到目標所在區域,從圖4展示的BMP2(裝甲車)目標切片的仿真標注結果來看,仿真結果能較好地與實測數據擬合,因而采用仿真結果作為實測目標切片的標簽數據。

圖4 SAR目標標簽仿真過程
根據實驗需求,在網絡的訓練階段設置兩個數據集,分別對應不同的實驗,其中數據集二只在復雜場景多目標檢測實驗中采用,各數據集具體說明如下:
數據集一:采用MSTAR數據集中目標切片樣本,其中訓練集包含有1 285張BMP2目標在15°和17°俯仰角下采集的圖像,驗證集為495張BTR70目標在15°和17°俯仰角下采集的圖像,圖像大小都為128×128像素。
數據集二:在數據集一的基礎上進行擴充,對MSTAR數據集中復雜場景(1 487×1 784大小)隨機裁剪與目標切片大小一致的背景切片作為負樣本,共400張,如圖5所示,分別在數據集一的訓練集和驗證集中加入360張和40張。

圖5 MSTAR復雜場景切片圖
在實驗訓練與驗證階段,評價指標采用FCN中的候選區域重和度 (mean_IU),用正確分類的候選區域(R)與實際區域(R′)的交集除以候選區域像素面積與實際區域面積之和得到的交并比:

實驗中每次訓練統一迭代5 000次,每迭代500次對驗證集進行一次驗證。實驗使用的硬件平臺為CPU:Intel i7-7700 K@4.x20 GHz,GPU:GTX TITAN X。此處的GPU主要強調圖形加速器功能,用于網絡訓練過程中并行化處理,CPU和GPU之間并不沖突和矛盾。
2.2.1 遷移網絡與訓練方式實驗結果與分析
在對檢測網絡進行訓練時,本實驗對遷移的權重分別采取凍結、微調、凍結與微調結合三種訓練方式進行實驗。具體實現說明如下:
1) 凍結:依次對conv1~conv6-7權重進行遷移,訓練時保持遷移權重固定不變;
2) 微調:依次對conv1~conv6-7權重進行遷移,訓練時采用反向傳播算法對遷移權重進行微調;
3) 凍結與微調結合:首先將conv1~conv6-7全部權重進行遷移,然后依次從conv1~conv6-7凍結權重,未凍結的層采用反向傳播進行微調。
分別利用以上3種方式對網絡進行訓練,其訓練時的驗證結果如圖6所示。采用訓練結束后的權重對驗證集進行5次驗證,并取5次結果的平均值,其結果如圖7所示。根據實驗結果可以得出以下結論:
1) 卷積網絡從各層提取到的圖像特征的表示能力逐步加強,conv1和conv2提取的淺層特征更具一般性與通用性,遷移的權重對目標任務的實現沒有幫助;conv3~conv5提取的為深層特征,遷移的權重有利于目標任務的完成,其中conv4和conv5提取的高級特征能捕獲更復雜的模式,這些模式一般只對訓練集有效,對其他數據集并不具有泛化能力,對目標任務的貢獻更加明顯;對于conv6-7的遷移,在微調訓練中反而使得精度下降了。
2) 由于目標數據集(SAR圖像)與源域數據集(光學圖像)的差異較大,而且像素分類類別也不一樣,微調方式比凍結方式能更好地擬合目標域數據集的特點,而且微調方式得到的權重參數在驗證集上的5次結果波動更小,更有利網絡測試的穩定性。

(a) 凍結權重訓練

(b) 微調權重訓練

(c) 凍結與微調結合權重訓練圖6 不同遷移方式訓練結果對比

圖7 5次驗證結果及其平均值
2.2.2 改進的檢測網絡實驗結果與分析

根據對網絡訓練方式的實驗結果的分析,利用圖3改進的網絡進行訓練時,凍結conv1和conv2的權重,微調conv3~conv5的權重,隨機初始化conv_new的權重。同時對未改進的網絡進行對比實驗,其中凍結conv1和conv2的權重,微調conv3~conv5的權重,隨機初始化conv6-7。為進一步驗證改進網絡的有效性,對2.2.1節中不同訓練方式的最佳結果進行對比,實驗結果如表1所示,檢測結果如圖8所示。結果表明,改進的網絡在保證檢測準確度的同時,減少了網絡的訓練時間和網絡參數,提高了檢測的時效性。目標檢測能較準確獲得目標區域,沒有檢測出孤立點,避免了后續的形態學處理,簡化了檢測的流程。

圖8 檢測結果對比
2.2.3 復雜場景多目標檢測實驗結果與分析
在MSTAR數據集包含的復雜大場景圖像中,由于背景雜波對目標檢測的干擾,采用數據集二對改進的檢測網絡重新進行訓練,訓練過程采用遷移學習中最佳的訓練方式,其他實驗條件保持不變。利用訓練得到的檢測網絡對3幅不同場景圖像進行二值檢測,對檢測的結果剔除面積小于25個像素點的區域,然后利用Matlab中rectangle函數定位到目標位置以及設置區域大小為80×80像素,檢測結果如圖9所示。

(a) 場景一 (b) 場景二 (c) 場景三圖9 復雜場景多目標檢測結果

檢測方法總目標個數檢測到的目標個數虛警目標個數本文方法373713雙參數CFAR3737117

(a) 場景一 (b) 場景二 (c) 場景三圖10 雙參數CFAR檢測結果
本文引入遷移學習的方法解決了深度卷積神經網絡在SAR目標檢測網絡訓練數據集樣本不足的問題,利用對比實驗確定目標域遷移權重的訓練方式,針對SAR目標檢測的時效性對網絡進行了改進,在單個簡單背景目標檢測的基礎上,在訓練集中引入復雜背景雜波切片,使得檢測網絡有效學習到背景雜波的先驗信息,從而在多目標檢測中有效避免了雜波的干擾。與CFAR方法相比,降低虛警率的基礎上避免了人工參數的設置與后續形態學處理,簡化了檢測的流程,為下一步利用檢測到的目標進行識別打下基礎。