姚群力,胡 顯,雷 宏
1. 中國科學院電子學研究所航天微波遙感系統部,北京 100190; 2. 中國科學院大學電子電氣與通信工程學院,北京 100049
飛機目標自動檢測技術是遙感圖像智能解譯領域的重要研究方向之一,飛機作為一類重要的軍事和民用地物目標,在目標判讀、交通安全和應急救援等方面具有重要的應用價值。目前,飛機目標檢測算法通常可以劃分為傳統的多階段檢測算法和基于卷積神經網絡的端到端檢測算法兩類。傳統多階段飛機檢測算法[1-8]首先通過滑窗獲得目標候選區域,然后提取特征訓練分類器,最后通過分類器對候選框中的目標進行判決。事實上,多階段飛機檢測算法實現流程復雜,并且候選框的提取存在較大冗余性,在目標檢測的精度和效率方面,均難以滿足大范圍自動化檢測的需求。
近年來,基于端到端的目標檢測研究取得了快速進展,研究人員提出了大量兼顧檢測精度與速度的深度卷積神經網絡(deep convolutional neural networks,DNNs)目標檢測框架[9-13],(1)https:∥arxiv.org/abs/1701.06659.(2)https:∥arxiv.org/abs/1712.00960v1.。為提高遙感目標檢測精度,文獻[14]提出了R-P-Faster R-CNN,該方法將RPN添加到Faster R-CNN體系結構中,從而獲得了比其他基于DNNs模型更高的檢測精度。文獻[15]基于難樣本挖掘和權重平衡策略構造了HEM-CNN框架,提高了復雜環境下的飛機目標檢測精度。文獻[16]提出一種多尺度共享基礎網絡來增強多尺度目標的檢測性能。然而,由于預測特征的感受野尺度相對固定,該類方法制約了小尺度目標的檢測性能。文獻[17]提出了一種基于多尺度形變特征卷積網絡的目標檢測方法,利用可形變卷積網絡對具有尺度和方向變化的遙感圖像目標進行特征提取。文獻[18]則在SSD網絡的基礎上提出了一種輸入圖像尺度可變的方法,該方法對輸入圖像進行分塊,提高了飛機檢測精度。然而,由于來自低層的卷積特征的語義信息較弱,該方法對多尺度目標的檢測能力仍待提高。FPN[13]和TDM(3)https:∥arxiv.org/abs/ 1612.06851.則利用top-down結構[19]解決多尺度目標檢測的問題。然而,由于特征金字塔的逐級特征融合方式極大地增加了計算成本,限制了目標檢測的速度,給實時檢測應用造成了困難。
受上述研究啟發,并針對復雜場景區域或飛機密集區域內的小尺度目標檢測精度較低的問題,本文提出了一種基于多尺度融合特征的輕量級飛機檢測框架MultDet。全文主要工作內容如下:
(1) 設計了一種反卷積特征融合模塊,通過跳躍連接將高層語義特征融合到細節信息豐富低層特征中,得到具有豐富結構信息的融合預測特征,并研究特征融合模塊對飛機檢測的影響。
(2) 以SSD目標檢測框架為基礎,提出一種輕量級多尺度飛機目標檢測框架MultDet。設計一系列不同縱橫比的候選框以適應多尺度飛機目標檢測,利用新的融合特征進行多尺度遙感圖像飛機目標檢測,MultDet顯著提升復雜背景下小尺度飛機目標的檢測精度。
對于多尺度目標檢測,特別是小尺度目標的檢測更加依賴低層特征信息,然而低層特征缺乏足夠的語義信息,從而導致網絡對小尺度目標特征的表征能力不足。因此,僅采用卷積神經網絡固有的多尺度特征進行目標檢測是不夠的。文獻[19—21]提出基于多尺度特征融合的目標檢測方法,為小尺度目標檢測提供更多必要的語義特征,提升了多尺度目標的檢測精度。RON[21]通過反向連接增強了前向特征的語義信息;ION[21]使用跳躍連接提取多尺度特征,以及使用空間遞歸網絡集成感興趣區域外部的語義信息;DSOD[19]則引入密集層次連接的方式構造多尺度融合特征來強化多尺度目標的檢測能力。此外,本文采用UCAS-AOD[22]多尺度數據集,以分析檢測框架對于多尺度目標的檢測性能。該數據集中目標實例的尺度和縱橫比統計信息如圖1所示,從圖1中可以看出,數據集中目標實例的尺度分布于20~220像素,縱橫比分布于0.7~1.6。數據統計表明,目標實例呈現出尺度差異明顯、形態變化多樣的統計特性,能夠滿足多尺度目標檢測試驗分析。
為了豐富特征的結構信息,文獻[13,23]考慮到特征間的關系,利用多尺度特征提高網絡的檢測性能注1,注2。DSSD注1采用了SSD+ResNet-101的方式,使用反卷積融合模塊引入了上下文信息,提升了小尺度目標的檢測精度。FSSD注2將淺層的細節特征和高層的語義特征結合起來,重構了一組金字塔特征,使網絡的檢測精度得到提升。FPN[13]則采用top-down結構進行充分的信息融合,增強了網絡的特征表達能力。FCN[23]則使用對稱結構和跳越連接來關聯低層特征和高層特征。

圖1 飛機數據分布信息統計Fig.1 The distribution of aircraft regions on training data
所提檢測框架MultDet的網絡整體結構如圖2所示。所提算法采用輕量級的VGG16作為基礎網絡提取多尺度特征信息。為充分利用低層特征信息的細節表達能力以提高網絡對小尺度目標的檢測精度,設定融合運算保持conv4_3和conv7層不變,將conv9_2和conv10_2分別反卷積添加到conv4_3和conv7層,新的融合特征層定義為M_1和M_2,并以此代替SSD的conv4_3和conv7進行目標檢測。

圖2 MultDet飛機目標檢測框架Fig.2 The architecture of aircraft detection MultDet
MultDet通過特征融合構成了2層新的特征M_1和M_2。以MultDet300為例,M_1對應的特征融合模塊結構如圖3所示,對于M_2模塊同理。對于conv9_2,首先以步長為2進行3次反卷積運算,卷積核設定為2×2×256和3×3×256維張量;反卷積層后緊鄰卷積層,采用L2規范化以及ReLU激活函數;conv4_3經3×3×256的卷積后,進行L2規范化,然后將兩路特征進行逐元素求和,直至得到新的融合特征;最后添加3×3×256的卷積層以增強融合特征的分辨力,再經過ReLU激活函數后,即得到了M_1特征融合模塊。2個特征融合模塊的維度分別為512和1024。

圖3 反卷積融合模塊Fig.3 Deconvolution fusion block
假設取m個特征層用于目標檢測,則第k層特征的候選框尺度系數設定為
(1)

本文設計了多任務聯合損失函數,用于對目標分類和邊框回歸兩個任務進行聯合訓練。該損失函數如式(2)所示
(2)
式中,N是匹配的候選框數目;α是平衡回歸損失和分類損失的超參數,α通??稍O置為1;損失函數的第1項Lconf(x,c)是分類損失,通常采用Softmax函數,該損失函數可表示為
(3)

(4)

本文在UCAS-AOD[23]公開數據集上評估了所有試驗。該數據集包含飛機圖像1000景,共標注了7482個飛機目標,本文采用1000景飛機數據作為試驗數據。訓練過程中,隨機分配其中的60%為訓練集,余下的40%為測試集,數據集的統計信息如表1所示。

表1 數據集信息統計
本文采用翻轉以及旋轉等方式將訓練集進行數據擴充。擴充后訓練集樣本總量為3600景。本文訓練和測試采用硬件平臺為NVIDIA Titan Xp GPUs,并采用Pytorch深度學習框架完成試驗的構建。本文采用與SSD相同的端到端訓練方式,初始學習率設置為0.001,優化方法為隨機梯度下降,動量設置為0.9,正則化系數設置為0.000 5,批處理大小設置為1。
本文采用平均檢測精度(average precision,AP)和PR曲線(precision-recall curve,PRC)作為飛機目標檢測結果的評價指標。其中,正確檢測將定義為檢測邊框與真值邊框的某一交并比(intersection over union,IoU)閾值,本文將在2種IoU閾值(0.5和0.75)下評估相應的多尺度目標檢測精度。
為了驗證本文所提方法的有效性,本文將在UCAS-AOD數據集上訓練好的飛機檢測模型遷移到國產高分辨率光學影像數據的檢測中。該部分試驗采用的數據為4景分辨率為1 m,幅面為3000×3000像素的光學遙感圖像。
本文在UCAS-AOD數據集上對不同的目標檢測方法進行訓練和測試,檢測結果如表2所示。從表2的檢測結果可以看出:①Faster R-CNN在IoU閾值為0.5時取得了86.3%的平均檢測精度,然而,當IoU閾值為0.75時,平均檢測精度僅為43.5%,其原因是Faster R-CNN僅利用固定尺度的末端特征圖生成預測,使得網絡難以準確回歸多尺度目標的位置信息;②R-FCN相較于Faster R-CNN的檢測性能有了明顯改善,這是由于R-FCN采用了ResNet-101網絡,提升了檢測器對目標特征的學習能力;此外,R-FCN提出了位置敏感得分圖,增強了對多尺度目標的定位能力;③SSD300在IoU閾值為0.75時取得了73.3%的平均檢測精度,相較于Faster R-CNN以及文獻[24]所提的方法有明顯的提高,原因在于SSD網絡引入了多尺度檢測思想,提升了檢測精度;④FSSD相較于SSD網絡進一步引入了多尺度特征融合模塊,提升了多尺度目標的檢測精度;⑤DSSD方法采用了反卷積特征融合策略,提高了對多尺度目標特征的表達能力;⑥相較于其他典型的目標檢測方法,本文所提方法MultDet512在不同的IoU閾值下均取得了最優的平均檢測精度,所提方法表現出了對于多尺度目標檢測的優越性。

表2 不同飛機目標檢測方法結果對比
注1:https:∥arxiv.org/abs/1701.06659.
注2:https:∥arxiv.org/abs/1712.00960v1.
不同檢測方法對應的飛機目標檢測結果的PR曲線如圖4所示,本文所提MultDet檢測框架在精度和召回率兩個性能指標均優于其他方法。如圖5所示,分別給出SSD512(如圖5(a),圖5(d))、FSSD512(如圖5(b),圖5(e))以及MultDet512(如圖5(c),圖5(f))的飛機目標檢測結果示例,方框代表檢測到的飛機目標。從圖5中可以看出,相較于SSD512和FSSD512目標檢測框架,基于VGG16的MultDet網絡顯著提升了小尺度密集飛機目標的檢測能力。此外,在不同場景下,MultDet網絡的部分檢測結果示例如圖6所示,在密集飛機??繀^域(圖6(a)、(d))、復雜背景區域(圖6(b)、(e))以及小尺度飛機目標區域(圖6(c)、(f)),MultDet均可以精確檢測出其中的飛機目標,試驗結果證明了MultDet目標檢測框架可以有效提高復雜場景區域及密集小尺度飛機目標的檢測能力。

圖4 不同檢測算法在UCAS-AOD數據集上的PR曲線Fig.4 Precision-recall curves of the diverse methods on the UCAS-AOD dataset

圖5 不同框架的檢測結果對比圖Fig.5 Aircraft detection results of different detection methods

圖6 MultDet512飛機檢測結果示例Fig.6 Aircraft detection results of MultDet512
3.4.1 融合構型分析
如表3所示,本文設計了3組多尺度特征融合構型分析對比試驗,同時評估了相應模型的檢測精度。以第1組試驗為例,如表3第3~5行所示,當輸入尺度為300×300時,即設定(conv4_3、conv8_2)為基本融合層時,對比了在不同融合組(conv7、conv9_2)以及(conv7、conv10_2)下的檢測性能,其平均檢測精度分別為85.6%和84.7%。試驗結果表明,MeticDet300按所設計的不同融合構型,其平均檢測精度由85.9%遞減到83.7%。
表3 融合策略對飛機檢測性能的影響
Tab.3 The influence of fusion strategy on aircraft detection performance

基礎特征層SSD層conv4_3conv7conv8_2conv9_2conv10_2AP0.5/(%)85.684.784.885.984.683.7
3.4.2 融合組件分析
表4的對比試驗分析了融合模塊對飛機目標檢測結果的影響,從試驗結果可以看出,MultDet300在含有M_1、M_2特征融合模塊時,飛機目標檢測結果較僅含M_1融合模塊時提高了1.6%;MultDet512檢測結果較僅含M_1融合模塊時提高了1.3%。試驗結果表明,多尺度特征融合組件可以合理挖掘多尺度特征信息,增強多尺度目標的特征學習能力,從而提高了多尺度飛機目標檢測性能。
表4 融合模塊對飛機檢測的影響分析
Tab.4 The impact of fusion module on aircraft detection framework

項目MultDet-300MultDet-512M_1M_2AP/(%)85.984.381.794.893.587.1時間/(s/img)0.04770.03560.02470.05000.03870.0362
3.4.3 候選框設計

本文評估了MultDet300/512框架的飛機目標檢測速度,并與幾種代表性多尺度飛機檢測框架進行了對比,結果如表2第5列所示,MultDet300在單張Titan Xp GPU上的檢測速度為0.047 7 s/img;由于所提算法在SSD網絡上附加了融合特征層,導致額外消耗了推斷時間,但是相比于DSSD網絡仍具明顯的速度優勢。本文所提方法相較于其他目標檢測算法實現了具有競爭力的檢測速度,同時實現了檢測精度與檢測速度的良好權衡。

表5 候選框縱橫比設計分析
為了驗證本文所提方法的有效性,以及對于小而密集的飛機目標的檢測效果,本文將在上述UCAS-AOD數據集上訓練好的飛機檢測模型,直接用于國產高分辨率光學遙感衛星影像數據的飛機目標檢測。
如圖7所示,本文給出了4景國產高分辨率光學遙感影像的檢測結果實例。從中可以看出,MultDet對于小尺度密集分布的飛機目標檢測效果比較理想,證明了本文方法對于檢測尺度密集分布飛機目標的有效性。此外,訓練集所采用的主要是民航客機樣本,而測試圖像中飛機形態與訓練集數據的差異性較大,本文所提方法仍然能對其進行有效檢測,證明了本文方法所學習到的檢測模型具有一定的遷移性和通用性。

圖7 遷移試驗檢測結果Fig.7 The migration test results
本文提出一種基于深度卷積神經網絡的端到端飛機目標檢測框架MultDet。采用輕量級的特征提取網絡作為基礎網絡,設計多尺度特征融合模塊,通過跳躍連接將高層語義特征與低層細節特征進行信息融合,增強了特征的結構信息以提高模型對多尺度目標特征的表征能力。本文根據數據集尺度分布特征,設計了相應尺度與縱橫比的候選框,使檢測器更好地適應多尺度飛機目標檢測。試驗結果表明,本文所提方法在保持較小的運算速度損失前提下,有效地解決了深層特征維度過低,特別是對小尺度目標表征能力不足的問題,實現了對復雜場景多尺度飛機目標的最優檢測性能。