廖育榮,王海寧,林存寶,李陽,方宇強,倪淑燕
(1.航天工程大學電子與光學工程系,北京 101416;2.航天工程大學研究生院,北京 101416)
光學遙感圖像目標檢測的主要任務是在光學遙感圖像中對感興趣目標進行定位和分類[1],在情報偵察、目標監視、災害救援、工業應用及日常生活等領域都發揮著重要作用,同時也是后續目標跟蹤、場景分類、圖像理解等工作的基礎。遙感圖像目標檢測關注的對象通常包括港口、橋梁、飛機、艦船、車輛等多類型目標,由于遙感目標自身存在任意方向旋轉、小目標、多尺度、密集分布等情形,疊加不同成像條件及環境因素等對遙感圖像的影響,導致針對多場景遙感圖像目標的檢測具有很大挑戰。
傳統的遙感圖像目標檢測算法一般可以分為基于模板匹配的算法和基于人工特征建模的算法。具體地,基于模板匹配的算法計算輸入圖像中特定區域的特征向量與模板特征向量的匹配度,如結構相似性測量[2]與Hausdorff 距離匹配[3],根據匹配度大小來檢測目標。基于人工特征建模的算法基于專家先驗規則以選取候選區域,進而建立目標的特征表示,如視覺顯著性檢測[4]、尺度不變特征變換[5]、定向梯度直方圖[6]和稀疏多模態學習[7]等,再通過分類器實現對目標的檢測。傳統遙感目標檢測算法雖然理論完備,但其難以對多種復雜任務場景及目標進行充分特征表示,且滑動窗口式等操作限制了算法效率,導致其目標檢測的精度和速度難以滿足實際需求,針對不同類型的檢測對象泛化能力仍需提高。
隨著人工智能技術的發展以及數據樣本不斷擴充,研究人員開始致力于使用深度學習技術來解決遙感圖像目標檢測問題[8-9],目前仍呈增加之勢。當前基于深度學習的遙感圖像目標檢測算法可以分為兩大類:基于候選區域[10-12]和基于回歸分析[13-14]的算法,二者有時又被稱為雙階段與單階段算法。雖然基于深度學習的目標檢測算法可解釋性仍需進一步研究,但其在多個公開數據集上的目標檢測效果已遠超傳統算法,特別是經過近10 年的迅速發展已形成一批優秀成果。文獻[15-17]針對遙感圖像目標檢測相關問題進行綜述,重點圍繞代表性方法、數據集、遙感圖像所存在的特殊問題、特定目標類型等進行歸納總結。正是因為遙感圖像智能目標檢測算法的飛速發展,珍貴的遙感圖像數據才得以被充分解譯,這也促進了遙感技術服務于當今社會發展的潛力。因此,總結該領域中的深度學習目標檢測算法研究進展具有重要的意義。
本文在充分參考相關研究及綜述工作的基礎上,首先,對遙感圖像目標檢測領域基于候選區域與回歸分析的兩大類算法進行了歸納綜述;其次,針對最常見的遙感圖像目標檢測特定任務場景算法改進進行了總結;再次,介紹了遙感圖像目標檢測常用數據集,并對典型算法的測試結果進行了對比分析;最后,對未來遙感圖像目標檢測研究值得關注的問題進行了展望。
光學遙感圖像在成像視角、空間分辨率、下視背景、目標屬性等方面相對常規圖像具有明顯差異,因此對其目標檢測需結合任務特點進行算法設計。基于候選區域的目標檢測算法將問題分為2 個階段:第一階段用于生成一系列可能包含目標的候選區域;第二階段則對這些候選區域進行目標或背景分類及邊界框回歸。基于候選區域的光學遙感目標檢測算法流程如圖1 所示,其中最具代表性的算法為區域卷積神經網絡(R-CNN,region convolutional neural network)及其改進系列算法。

圖1 基于候選區域的光學遙感目標檢測算法流程
文獻[18]于2014 年提出R-CNN 算法,其首先通過選擇性搜索算法生成2 000 個候選區域,然后對每個候選區域進行尺度歸一化,并送入CNN 進行特征提取,最后基于所提取特征進行支持向量機分類和邊界框回歸。2015 年,文獻[19]提出Fast R-CNN 算法,使用感興趣區域池化(ROI Pooling,region of interest pooling)層進行區域特征選擇。2017 年,Ren 等[20]提出了Faster R-CNN 算法,將候選區域生成融入整體網絡中,實現了端到端的深度學習目標檢測框架,極大地提高了算法檢測速度和精度。基于Faster R-CNN 的優異性能,研究人員將其廣泛拓展到遙感圖像檢測領域,以期實現對遙感目標的有效檢測。現有工作主要聚焦于提高目標特征表示的有效性、感興趣區域定位的準確性,以及預測位置回歸的準確性這3 個方面。
1.1.1 增強目標特征表示的改進研究
特征表示是將目標信息映射到特征向量的過程,其直接影響后續分類的精度。Faster R-CNN 算法的淺層網絡中雖含有較多目標特征信息,但語義信息不夠豐富,容易造成目標定位與分類誤差。其深層網絡中語義信息相對豐富,但計算量較大,難以滿足遙感圖像目標檢測速度要求。為了提高Faster R-CNN 算法對遙感圖像目標的特征表示能力,通常采用特征融合策略進行特征增強[21-25],同時,也可以通過改進卷積層結構或處理策略以增強目標特征表示,如使用層次選擇濾波層[26]、非局部特征增強卷積層[27]等。此外,Cheng 等[28]在淺層卷積特征提取時使用旋轉不變正則化器和Fisher 判別正則化器,消除了目標特征旋轉與類間相似性對目標特征提取的影響。Han 等[29]通過將生成候選區域與檢測網絡這2 個階段的特征進行共享集成,增強了檢測網絡的目標特征表示能力。
1.1.2 優化感興趣區域生成與處理的改進研究
候選區域生成網絡(RPN,region proposal network)與RoI Pooling 層的引入是Faster R-CNN 相比原有R-CNN 系列算法的重大改進,對提高目標檢測性能至關重要。針對遙感目標多方向、多尺度、多成像條件等特點,研究人員主要聚焦從候選RPN與ROI Pooling 層2 個方面進行改進,以提高算法對遙感目標的檢測效果。一方面,RPN 用于為ROI 提供有效的候選框集合,其準確性將直接影響后續目標定位與分類精度,因此對RPN 的改進是優化ROI 最直接有效的方式[30-33]。另一方面,ROI Pooling 層在RPN 的基礎上篩選訓練樣本,并且由不同大小的候選區域生成相同尺度的特征圖,使遙感圖像的ROI更好地保留或融合空間位置信息[34-40]。
1.1.3 提高目標定位精度的改進研究
遙感圖像中普遍存在目標方向各異、密集排列的情況,導致準確確定目標位置具有較大難度,并且目標與目標之間可能出現區域重疊,干擾預測位置回歸的準確性。一方面,交并比(IoU,intersection over union)值作為衡量錨點框定位精度的優化目標,其無法區分2 個重疊對象在不同方向上有相同交叉的情況。因此對IoU 的改進重點在于增強其自適應能力,如文獻[38]設計的自適應IoU 計算,文獻[41]提出的旋轉框IoU 計算,文獻[42]提出的聯合交集IoU 計算等方法,有效緩解了因閾值設置帶來的檢測結果敏感性問題。另一方面,由于目標定位精度依賴于非極大值抑制(NMS,non-maximum suppression)算法篩除冗余預選框,因而針對傳統NMS 的改進也是提高遙感目標定位精度的一個重要途徑[43-44]。基于候選區域的遙感目標檢測算法相關信息如表1 所示。
推掃型和凝視型成像遙感衛星生成的可見光遙感圖像通常具有較高的像元數量,而對于遙感衛星典型應用,通常具有較高的目標檢測時效要求。基于回歸分析的目標檢測算法不需要單獨候選區域生成,而是從輸入圖像的多個位置直接回歸分析出目標的邊界框與類別,具有比基于候選區域算法更快的處理速度,因此在遙感圖像目標檢測領域獲得了廣泛關注。基于回歸分析的光學遙感圖像目標檢測主要包含基于YOLO(you only look once)[45]和SSD(single shot multibox detector)[46]框架的兩類算法,其基本流程如圖2 所示。

表1 基于候選區域的遙感目標檢測算法相關信息

圖2 基于回歸分析的光學遙感目標檢測基本流程
1.2.1 YOLO 系列遙感目標檢測算法
遙感目標檢測的實時性是性能評價的關鍵因素,因此更快速的YOLO 系列目標檢測算法得到了廣泛關注。Redmon 等[45]提出了YOLOv1 算法,通過端到端的單階段網絡同時實現對目標的分類與定位,在兼顧檢測精度的同時大幅提高了檢測速度。YOLO 算法在發展過程中不斷被改進[47-49],逐步向高效率檢測方向發展。Jocher 等[50]針對實時目標檢測提出了YOLOv5 算法,通過采用模型剪裁等技術進一步壓縮了模型大小,提高了檢測速度。Ge等[51]提出了YOLOX 算法,通過數據增強、無錨點檢測以及標簽分類等巧妙的集成方案,實現了算法精度與速度的進一步提升。
YOLO 系列目標檢測算法因其便于輕量化部署的優勢,在高像素、高實時,特別是資源受限的在軌處理等遙感領域具有較大潛力。研究人員基于改進的YOLO 系列算法,已成功探索其在地震房屋受損檢測[52]、深海石油探測[53]、特殊農作物種植檢測[54]等遙感領域應用。當前提升YOLO 算法對遙感目標的檢測精度一方面可以從特征提取角度展開,能夠更加有效地使網絡進行特征迭代[55-58];另一方面,使用注意力機制可以突出遙感目標的資源分配權重[59-60],或采用密集連接網絡以增強層級之間的信息傳輸[61],從而達到基于YOLO 網絡進行遙感圖像目標檢測任務更深入、更準確的訓練。此外,由于不同的遙感場景中目標的形態特點各式各樣、方向排序千差萬別,因此YOLO 檢測算法衍生出多種專項組合網絡,分別用于小目標[62-63]、多尺度[64-65]、多模態變化[66]等具有挑戰性的遙感檢測場景,并取得了比原網絡更優的檢測效果。
1.2.2 SSD 框架在遙感檢測中的應用
Faster R-CNN 的錨點框機制和YOLO 算法的回歸思想在遙感目標檢測中有各自的優勢。基于兩者的優勢,2016 年Liu 等[46]提出了SSD 算法,將Faster R-CNN 中錨點框改為先驗框,并且直接使用回歸分析過程,有效提升了遙感目標檢測的速度。此外,SSD 算法從多尺度特征圖中生成預測,克服了光學遙感圖像常出現的目標尺寸不同的問題。
基于SSD 算法在目標檢測速度和精度上的均衡優勢,研究人員分別從網絡結構[67-69]、回歸策略[70],以及特定場景適應性[71-75]等角度出發,進行算法改進研究,以此抑制光學遙感圖像中噪聲對目標檢測的影響,提高檢測精度。表2 總結了基于回歸分析的遙感目標檢測算法相關信息。盡管當前針對上述問題設計出多種改進方案,但遙感目標檢測仍是一項開放的、具有挑戰性的創新型工作。
遙感圖像中非規則排列的目標因呈現方向多樣性特點,被稱作旋轉目標。常規深度學習目標檢測網絡由于并未針對旋轉目標進行針對性設計,因此通常對該類目標特征提取能力相對較弱,進而影響對該類目標的檢測效果。為了解決這一問題,一種解決思路是通過旋轉變換來擴充訓練樣本[27,76],該方法依舊使用水平框標記檢測到的目標,雖然能夠在一定程度上增強模型對旋轉目標的穩健性,但也容易造成水平框與旋轉目標實際尺寸不符的結果。另一種解決思路是采用回歸旋轉目標的角度信息,在目標周圍生成合適的傾斜框,從而提高對旋轉目標的特征表示能力。目前常用旋轉框參數表示方法包括以90°或180°為周期的五參數表示法和有序四邊形表示法[77-78],如圖3 所示。其中,五參數表示法使用目標中心點坐標、框寬高、x 軸與框邊夾角來表示旋轉框的位置;有序四邊形表示法采用4 個頂點坐標對水平框與衍生旋轉框做逆時針排列。
現階段大多數研究工作使用上述表示法進行旋轉角度回歸,生成準確的預測邊界框。文獻[79-80]將旋轉錨定采樣與多層特征相結合,構造了針對旋轉目標的特征提取與融合結構,然而在角度預測過程中會產生較大的損失值,形成難以消除的邊界誤差。文獻[81-83]較好地平衡了旋轉角度分類所帶來的理論誤差問題。除了角度回歸方法以外,研究人員還提出了自適應感受野[84]、中線預測[85-86]、掩模分支預測[87]等技術,文獻[88]則提出在損失函數中添加正則化項來約束旋轉前后的特征映射關系,從而實現對旋轉目標的有效檢測。

圖3 常用旋轉框參數表示方法
遙感圖像中通常會包含一些僅有幾十甚至十幾個像素的小目標。小目標給遙感目標檢測帶來了一定挑戰:一方面小目標特征相對較少,傳統CNN的降采樣處理會減小特征圖的尺度,因此小目標容易在降采樣的特征圖中消失,導致算法難以有效進行特征提取;另一方面當小目標與背景顏色接近時,易出現目標與背景難以區分,導致對小目標定位不準的問題。當前改進算法主要通過增大小目標特征圖尺度和設計有效的特征融合提取模塊的方式來提高檢測能力。
關于增大特征圖尺度,常用的方法是增強淺層網絡的特征信息,或者在深層特征中進行上采樣操作[35,64,75,89-90]。文獻[44]提出了一種小目標檢測增強架構,通過上采樣操作增大深層特征圖尺度。值得注意的是,在保證深層特征中始終存在小目標時上采樣才有意義,否則需要重新優化淺層網絡。關于設計小目標特征融合提取模塊,其目的是豐富特征圖中的小目標信息,并在后續傳遞過程中減少信息損失。文獻[80]提出了級聯特征的融合策略,通過整合淺層位置信息和深層語義信息,達到融合各層特征并增強級聯效果的目的。文獻[68]利用擴展卷積設計了一種高效特征融合網絡,增強了深層特征的有效感受野。由于真實遙感圖像中的小目標尺度可能不同,特征融合模塊難以在深層特征中拼接,因此僅使用特征融合模塊的方式可能會成為檢測的瓶頸,而現有工作已驗證注意力機制與特征融合模塊相結合在小目標檢測的有效性[67]。此外,特征嵌入[26]、特征遷移[33]等技術也被應用于遙感小目標檢測特征融合方法中。在實際檢測中,根據任務需要將特征圖尺度調節與特征融合策略相結合,使2 種思路實現優勢互補,能夠緩解目標尺度過小對檢測帶來的影響。

表2 基于回歸分析的遙感目標檢測算法相關信息
在卷積神經網絡中,目標的語義結構信息可能出現在任何卷積層,各層特征的分布與目標的尺度大小有關。在遙感場景中,經常會出現不同類別尺度的目標或者同一類別不同大小的目標在同一視野的情況。這些目標的尺度差距較大,使不同目標的特征難以同步傳遞至深層網絡,導致以特征圖表征作為預測基礎的深度卷積網絡不能有效獲取多尺度目標的特征,進而影響多尺度目標的檢測精度。因此尺度變化范圍大的遙感圖像目標檢測仍是一項具有挑戰性的問題。
當前遙感多尺度目標檢測主要圍繞多尺度信息融合模塊進行改進[22,91-93]。一種較具代表性的算法是利用特征金字塔結構來充分獲取多尺度目標的特征信息,使不同尺度的特征得以保留[94-96]。多尺度目標中通常同時包含小目標,利用金字塔結構等特征提取融合模塊能夠有效兼顧淺層與深層特征,在對多尺度目標進行有效檢測的同時也兼顧了對小目標的高精度檢測[97]。此外,Transformer 模型[98]所引入的注意力機制被證明在多尺度目標檢測中具有良好效果,文獻[99]利用Transformer 模型改進YOLOv5 的預測網絡,結合自注意力機制實現了對多尺度目標的有效檢測。
光學遙感圖像密集目標檢測的難點在于各個目標位置相距較近導致易出現位置預測不準確和邊界框重疊的情況。同時,當采用水平邊界框進行目標位置預測時,由于水平邊界框包圍面積一般大于目標實際面積,使在對密集目標檢測時會加劇邊界框重疊問題,特別是當目標密集斜向排列時。為提高對遙感密集目標檢測效果,當前主要從特征增強和精確定位2 個方向對算法進行改進。
在特征增強方面,文獻[79]通過采用監督式空間注意力和通道注意力組合機制,在增強密集目標特征的同時削弱了背景特征,使密集目標之間的界限更清晰。文獻[56]設計了特征精細化模塊來進行特征重建,使特征與目標對齊,同時采用了微調旋轉錨點框以適應密集目標檢測任務場景。文獻[100]通過采用多尺度檢測算法來增強對密集目標的特征提取能力,結合圓形平滑標簽(CSL,circular smooth label)技術來改進損失函數,以此降低對密集目標重復檢測的概率。在精確定位方面,文獻[31]提出了基于無監督的邊界框回歸算法,并利用非極大值抑制方式優化密集目標的邊界框,從而實現對密集目標的準確定位。此外,密集標簽編碼[82]、特征選擇與動態優化[84]等方式從特征匹配角度出發,也為密集遙感目標檢測提供了新的研究思路。以上算法的相關信息如表3 所示。
綜上,遙感圖像目標檢測中的復雜任務場景激發了多類算法改進。需要注意的是,雖然上述總結分析是對四類特定任務場景進行闡述,但實際中一幅遙感圖像可能同時包含其中的多類情形,針對某一任務場景的改進有時也會有利于其他任務場景。因此,在光學遙感圖像目標檢測領域,面向各類問題的多任務優化目標可以協同解決。
光學遙感圖像數據集在遙感目標檢測任務中發揮著至關重要的作用,它能夠為模型訓練提供珍貴標準的遙感數據,同時也為不同網絡及算法對比提供客觀統一的基準。近年來隨著衛星遙感技術的發展,一些高質量的光學遙感圖像目標檢測數據集流行起來,本文選取具有代表性的15 個數據集進行介紹,各數據集樣例的統計信息如表4 所示,包括發布者及內容描述、數據集所含目標類別數與圖像數。正是這些公開的光學遙感圖像數據集,使基于深度學習的遙感目標檢測技術快速發展。
當前評價光學遙感圖像目標檢測算法常用的性能指標是精確度(Precision)、召回率(Recall)、平均精度均值(mAP,mean average precision)以及幀率(FPS,frame per second)。精確度反映了檢測結果中的真實正樣本占比。召回率反映了在所有待檢測正樣本中被正確檢測到的正樣本占比,精確度和召回率存在權衡組合的關系。其中,將精確度作為縱坐標,召回率作為橫坐標作圖,可得到精度-召回率曲線(PR,precision-recall curve);曲線下的面積表示某類別目標的平均精確度(AP,average precision);多個類別的AP 均值即平均精度均值mAP,表示算法在數據集上的整體性能。幀率是每秒可以處理的圖片數量,用于評估算法的檢測速度。

表3 面向特定任務場景的遙感目標檢測算法相關信息

表4 常用的光學遙感圖像目標檢測數據集概述
各算法性能評價大多采用NWPU VHR-10 與DOTA 數據集,典型光學遙感圖像目標檢測算法性能對比如表5 所示。結合前述對各類型算法原理特點的闡述分析,以及表5 中典型算法在相同數據集上的性能對比,可以得出以下結論。

表5 典型光學遙感圖像目標檢測算法性能對比
1) 由于不同遙感圖像數據集在空間分辨率、背景復雜性、目標多樣性、成像質量上存在差異,同一算法在場景復雜與簡單的數據集的mAP 值差異明顯,如CAD-Net[25]算法。這表明復雜任務場景下的目標檢測依然是當前一個具有挑戰性的問題。
2) 由于算法結構本身的約束使選取不同的主干網絡會得出不同的結果,因此要在實驗中匹配合適的主干網絡層數,使模型的性能整體上得到提升。從表5 中可以看出,高性能網絡模型逐漸成為主干網絡的首選。此外,從不同層數ResNet 主干網絡對應算法性能來看,主干網絡層數也并非越深越好,需要與算法框架進行匹配設計。主干網絡層的非線性擬合能力與算法的匹配結合問題,也是當前進行深度學習解釋性研究工作的難點。
3) 算法針對確切場景問題從而做出的改進是有效的。例如GWD[83]專門用以解決目標方向旋轉的問題,HyNet[97]專門用以解決目標多尺度變化的問題。此外,由FMSSD[75]和HSF-Net[26]等的性能對比可以看到,針對小目標檢測所改進的增強網絡特征提取能力,在一定程度上也會提升對密集目標的檢測效果。因此,針對某一任務場景的改進有時也會有利于其他任務場景,面向各類問題的多任務優化目標可以協同解決。
近年來,基于深度學習的遙感圖像目標檢測研究迅速發展。從遙感圖像目標檢測技術未來能夠廣泛應用于民用領域來看,提高各類復雜任務場景的檢測精度和速度,進而提高算法整體性能依然是遙感圖像目標檢測的主要發展方向。與此同時,伴隨著航天、載荷等技術的發展,遙感圖像目標檢測未來在以下4 個方面值得進一步研究。
1) 遙感小樣本無監督學習目標檢測。盡管近年來搭載有光學載荷的成像衛星頻繁發射,公開遙感圖像數據集也接連發布,但受限于衛星總體數量、特定遙感數據的敏感性,以及對目標類別型號檢測的更高要求,依然缺乏稀有目標或偶發事件的足夠訓練數據,通常需要在小樣本或仿真數據下進行模型訓練和驗證,文獻[114-115]已開展相關研究。由于部分遙感數據存在無標注或標注不明確情況,因此還需要采用無監督學習來解決問題。
2) 遙感視頻影像動態目標檢測。高分辨率視頻影像在提供更加豐富信息的同時,也對遙感影像目標檢測及后續處理提出了新的需求。遙感視頻影像具有目標微小、干擾復雜的特點,因此基于深度學習的遙感視頻目標檢測仍面臨巨大的挑戰[116]。當前遙感目標檢測主要針對單幀影像,探索基于視頻影像的高效目標檢測策略和算法,包括構建遙感視頻影像目標檢測數據集及評價準則,將會是未來計算機與遙感通信交叉領域的一項重要研究內容。
3) 多源數據融合目標檢測。當前遙感目標檢測主要基于可見光圖像,限制了其在情報偵察、災害救援等涉及夜間、微光、云霧、偽裝等條件下的應用。伴隨著多光譜、紅外、合成孔徑雷達(SAR,synthetic aperture radar)載荷先后發射升空,未來天基遙感數據將包含多源異構數據。遙感圖像目標檢測算法也將在主要處理可見光圖像的基礎上,進一步拓展到對多光譜、紅外、SAR 圖像的處理,以及對多源異構遙感數據的融合目標檢測[117]。
4) 遙感在軌實時處理檢測。在航天情報偵察與目標跟蹤等應用領域,往往對情報信息的準確性和時效性有著嚴格要求。當前,一方面受限于算法性能,另一方面受限于衛星硬件算力及資源消耗,遙感目標檢測算法主要針對衛星下傳數據進行離線處理和人機結合應用。從航天技術未來發展來看,在軌實時目標檢測將成為遙感領域的必然發展方向之一,也必將促進適用于衛星在軌處理的目標檢測硬件加速技術的發展[118]。
隨著衛星技術的迅速發展與遙感數據集規模的日益擴增,基于深度學習的光學遙感圖像目標檢測技術已經證明其在特征表征、訓練表達等方面的優越性。本文首先對當前基于候選區域與回歸分析的兩大類光學遙感圖像目標檢測算法進行了歸納,在此基礎上針對四類常見特定任務場景目標檢測改進算法進行了綜述;然后結合常用遙感目標數據集對不同算法的性能進行了對比分析;最后對未來遙感圖像目標檢測值得關注的問題進行了展望,進一步說明了該領域面臨的挑戰與巨大應用前景。