楊玉春,王騰軍,任會濤,楊 耘
(長安大學 地質工程與測繪學院,西安 710054)
遙感技術是20世紀60年代出現的一種空間信息探測技術,能夠在距離被探測目標十分遙遠的位置,通過影像傳感器收集目標輻射和反射的電磁波信息,根據物體的物理光譜特性對收集的電磁波信息進行分析和解譯,由此實現對目標地物的遠距離探測。隨著航空航天技術、圖像傳感器技術和計算機技術的發展,遙感影像的空間分辨率越來越高,高分辨率遙感影像包含著更為豐富、更為細致的地物信息,推動了遙感影像處理技術的發展和進步。作為遙感影像處理領域的一個基本問題,遙感影像目標檢測是識別給定的航空或衛星影像是否包含一個或多個感興趣類別的目標,并確定目標在影像中的位置的過程,其在環境監測、地理信息系統更新、精準農業和城市規劃等應用中發揮著重要作用。近年來,隨著遙感技術的迅猛發展,高分專項工程的實施和商業化衛星遙感服務的興起,影像數量呈現爆炸式的增長趨勢,快速增長的影像數量對目標檢測方法提出了更高的要求。
傳統的遙感影像目標檢測多采用特征工程和分類器訓練相結合的檢測策略。例如姚遠等通過提取影像的Haar和HOG特征并結合AdaBoost和SVM進行分類實現了飛機目標的檢測。黎經元等將海陸分割與艦船目標檢測相結合,通過分析港口中艦船的分布規律和紋理特點,提出了一種結合邊緣線梯度定位和聚合通道特征的艦船檢測方法。此類方法的檢測效果十分依賴先驗的特征設計,且設計的特征通常只適用于特定目標,當需要檢測多類目標時,效果往往較差。

圖1 PARF-FCOS網絡結構圖
深度學習特別是深度卷積神經網絡(DCNN, deep convolutional neural network)憑借其優秀的特征提取能力,目前已被廣泛地應用于遙感影像目標檢測中。當前基于DCNN的目標檢測算法主要被分為兩類,以R-CNN為代表的雙階檢測算法和以YOLO、SSD為代表的單階檢測算法。文獻[9]等通過在Faster R-CNN的基礎上引入STN結構,引導網絡自主學習旋轉不變特征,解決了目標旋轉角度過大的問題。文獻[10]在Faster-RCNN模型中引入注意力機制,使用SE模塊校準特征通道權重,以較低的計算成本獲得了顯著的性能提升。文獻[11]通過在SSD的基礎上添加注意力分支,有效的提升了網絡獲取目標位置信息的能力。文獻[12]設計了一種基于Faster R-CNN的Radar目標檢測模型,顯著的降低了目標的虛警率。以上算法均是基于錨框的檢測算法,通過人工預設的錨框來預測目標的位置,依據待檢測目標的形狀、大小、密集程度等信息在圖像上生成大量的錨框,再通過這些錨框來進行目標邊界框回歸。然而預設的錨框會占用大量的存儲和運算資源,導致模型復雜度高,計算量大。此外,錨框引入的額外超參數需要手動設置,大幅降低了網絡的訓練效率。
針對基于錨框目標檢測算法的缺陷,許多無錨框的目標檢測方法被提出。文獻[13]提出了ConerNet,該方法將目標檢測問題轉化關鍵點檢測問題,通過預測目標邊界的左上角點和右下角點實現目標的檢測。文獻[14]提出了一種全卷積一階(FCOS, fully convolutional one-stage)目標檢測算法,采用逐像素預測的方法對目標進行分類和回歸,并使用中心度預測分支來抑制低質量檢測邊框,在COCO數據集上取得了不錯的檢測效果。與自然場景圖像相比,遙感影像中目標所處的背景信息復雜多變,且更易受到環境噪聲的干擾。此外,遙感影像中小尺度目標居多,更容易導致誤檢和漏檢的發生。針對遙感影像目標檢測中存在的難點,本文以無錨框的FCOS檢測網絡為基礎網絡,提出了一種結合位置注意力和感受野增強特征的目標檢測算法。該算法首先設計了一種注意力模塊,并將其插入特征提取網絡,提升網絡的特征提取能力;其次,使用感受野模塊處理淺層特征圖以增大感受野,獲取目標上下文信息,提升小尺度目標的檢測精度;此外,在訓練過程中引入DIoU loss,使邊框回歸過程更加平穩和準確。本文將該算法簡稱為PARF-FCOS。
PARF-FCOS目標檢測算法的網絡結構如圖1所示,主要包括特征提取模塊、特征融合模塊和檢測模塊3個部分。特征提取模塊采用融合位置注意力(PA, position attention)的殘差網絡(ResNet)作為骨架網絡,用于提取影像的多尺度特征信息,其中PA模塊引導網絡關注有用特征,抑制無用特征,從而提升特征圖的表達能力。骨架網絡生成特征圖C1~C5,大小分別為原圖的1/2、1/4、1/8、1/16和1/32。特征融合模塊僅處理特征圖C3、C4和C5,它先采用RFB結構處理淺層特征圖C3,用來擴充淺層特征的感受野大小,增強網絡獲取目標上下文信息的能力。然后進行特征融合,使用1×1卷積對特征圖C5進行降維處理得到特征圖P5,經過2倍上采樣再與特征圖C4相加,得到特征圖P4,同理特征圖P4經過2倍上采樣再與特征圖C3相加,得到特征圖P3。此外,模型還在特征圖P5的基礎上通過兩個步長為2的3×3卷積得到兩個深層特征圖P6、P7,大小為原圖的1/64和1/128。將特征圖P3、P4、P5、P6、P7輸入檢測模塊進行預測,預測信息包括目標類別得分、中心度預測值和邊框回歸參數。最后利用非極大值抑制算法濾除得分較低的預測框,得到最終檢測結果。


圖2 位置注意力模塊結構圖

(1)

(2)

S
=σ
(F
(δ
(F
(Z
))))(3)
S
=σ
(F
(δ
(F
(Z
))))(4)
式中,F
、F
表示1×1卷積,δ
為非線性函數,σ
為Sigmoid函數。最后S
和S
之間相互協作,調整特征權重,計算公式為:
(5)
FCOS使用ResNet50作為特征提取網絡,ResNet50由多個殘差結構單元堆疊而成,通過卷積融合局部感受野內的空間和通道信息來提取圖像特征,并且默認所有特征的權重相等。然而在特征提取的過程中,網絡應當“重視”有用特征,“忽視”無用特征和作用小的特征。因此,本文在殘差結構中添加PA模塊來重標定特征權重,提升網絡的表達能力,使模型判斷更加準確。添加PA模塊后的殘差結構如圖3所示,其中前3個卷積層用來提取特征信息,PA模塊用來調整特征權重,短路連接用來傳遞跨層信息。

圖3 帶有位置注意力的殘差結構
基于上述的注意力殘差結構,構造了位置注意力網絡PA-Net。ResNet50和PA-Net的結構參數如表1所示。

表1 特征提取網絡參數
r
=3),連續的1×1、3×3、3×3和3×3(r
=5),對應的感受野大小分別為3×3,9×9,15×15。將各卷積分支的輸出特征進行拼接,利用1×1卷積進行特征融合,最后使用殘差連接與原始特征進行相加。
圖4 RFB結構圖
為了優化邊界框的回歸過程,引入距離交并比損失(DIoU loss)作為邊界框回歸的損失函數,DIoU loss的計算公式為:

(6)
式中,B
為目標真實框,B
為目標預測框,b
為預測框坐標中心點,b
為真實框坐標中心點,ρ
為兩框中心點之間的歐式距離。c
為能同時覆蓋預測框和真實框的最小外接矩形的對角線長度。與原網絡使用的IOU loss相比,DIOU loss額外考慮了真實框與預測框之間的距離,使邊框回歸更加準確,同時還避免了兩框之間距離過遠而導致的梯度消失的問題。為了驗證PARF-FCOS目標檢測算法的性能,本文在大型遙感影像目標檢測數據集DIOR上進行了實驗。DIOR數據集由西北工業大學于2020年發布,包含來自Google Earth的23 463幅光學遙感影像,影像尺寸大小統一至800像素×800像素,空間分辨率范圍從0.5 m到30 m。數據集共包含192 472個實例對象,每個實例對象均采用水平邊框進行標注,覆蓋飛機、棒球場、汽車、大壩、立交橋、港口等20個目標類別。數據集隨機地選取了11 725幅影像作為訓練集,11 738幅影像作為測試集,各占數據集總量的50%。
使用平均精確度(AP
)、平均精確度均值(mAP
)和每秒幀率(FPS
)來評估網絡的性能。AP
用于評價單類目標的檢測精度,由精確率(P
)和召回率(R
)計算得到。P
表示預測正確的正樣本數占預測為正樣本總數的比率,R
表示預測正確的正樣本數正樣本總數的比率,是目標檢測領域內的重要精度指標,計算公式如下:
(7)

(8)
其中:N
表示正樣本被正確識別為正樣本的數量,N
表示負樣本被錯誤識別為正樣本的數量,N
表示正樣本被錯誤識別為負樣本的數量。AP
值為P
隨R
的變化曲線即P
-R
曲線與坐標軸圍成的面積,計算公式為:
(9)
mAP
用來評價模型的整體檢測精度,由各類目標的AP
值取平均得到:
(10)
其中:n
為數據集中目標類別數。本文網絡的訓練和測試均在深度學習服務器上進行,服務器的處理器(CPU)為Intel(R)Xeon(R)Gold 6248,顯卡(GPU)為Tesla V100,操作系統為CentOS7.5,使用Python3.7編程語言和Pytorch1.6深度學習框架搭建網絡,并結合CUDA10.0和CUDNN7.6工具包進行加速,具體的配置信息如表2所示。

表2 實驗配置
訓練PARF-FCOS目標檢測算法的損失函數由分類損失函數、邊界框回歸損失函數和邊框中心度損失函數三部分組成,計算公式如下:



(11)

本文在DIOR數據集上對PARF-FCOS進行訓練,訓練步驟如下:
1)使用Pytorch深度學習框架搭建網絡模型;
2)選擇隨機梯度下降法(SGD, stochastic gradient descent)作為網絡的優化器,其中動量和權重衰減系數分別設置為0.9和0.000 5;
3)初始學習率設置為0.005,并且在訓練過程中使用余弦學習率策略將學習率降低至原來的1/10,保證網絡在訓練過程中能夠更快地收斂;
4)每批次送入8張影像進行正向傳播,計算網絡的損失值;
5)依據損失值反向計算參數的梯度,并跟據梯度調整網絡參數;
6)重復步驟4)~5)直到網絡收斂或者達到最大迭代次數。
在訓練了90個epoch,迭代了125 000多次后,模型的損失趨于穩定,總損失大致穩定在0.7左右,損失變化情況如圖5所示。

圖5 損失變化情況
為了驗證本文算法在遙感影像目標檢測任務上的有效性與可靠性,將其與當前一些典型檢測算法在DIOR數據集上進行精度對比。實驗結果如表3所示。可以看出,各網絡模型在DIOR數據集上均取得了一定的檢測效果。從單類別的AP值來看,PARF-FCOS在籃球場、橋梁、煙囪等8個類別上取得了最高檢測精度,與基準網絡FCOS相比,PARF-FCOS對火車站、高爾夫球場和機場的提升效果明顯,分別提升了9.5%、8.4%和7.1%,同時對于汽車、艦船和飛機這些小尺度目標也有提升,分別提升了6.3%、5.4%和5.3%;從整體檢測精度mAP來看,PARF-FCOS領先于其它對比檢測模型,其中,與Faster R-CNN相比提升了16.3%,與采用了特征金字塔網絡的Faster R-CNN相比提升了7.3%,與YOLOv3相比提升了13.3%,與CornerNet相比提升了5.5%,與FCOS相比提升了4.3%,同時本文網絡也超過了高性能的YOLOv5檢測模型。充分地證明了PARF-FCOS目標檢測模型的有效性和可靠性。

表3 不同算法的檢測結果
為了分析PARF-FCOS中各個改進模塊對于模型的影響,本文在FCOS模型的基礎上依次對PA-Net、RFB和DIoU loss的有效性進行了實驗驗證。經過實驗發現,以上方法均能提升網絡性能,實驗結果如表4所示。從檢測精度上看,原始FCOS算法在DIOR數據集上取得了66.1%的mAP值,而采用PA-Net提取特征后,取得了69.3%的mAP值,提升了3.2%,這說明添加PA模塊有效的提升了網絡的特征提取能力,這是因為在PA模塊的作用下,特征中的背景噪音等無用信息得到抑制,更有利于網絡提取目標的有用信息,提高目標信息的利用率。在加入RFB后,網絡取得了69.9%的mAP值,提升了0.6%,說明RFB能夠增強淺層特征的目標響應,其原因是RFB的多分支結構具有更大的感受野,能夠提取更加全面和豐富的上下文信息,彌補了淺層特征在感受野上的不足。在引入DIoU loss訓練網絡后,mAP值提升0.5%達到了70.4%,驗證了DIoU loss能使邊界框的回歸過程更加準確,有效地提升了邊界框坐標的預測精度。從檢測速度上看,PA模塊和RFB在一定程度上增加了模型的計算量,檢測速度分別下降了4.6FPS和0.9FPS,而引入DIoU loss訓練并不會影響檢測速度,最終網絡的檢測速度達到23.2FPS,仍然能滿足實時檢測的要求。

表4 各模塊有效性驗證結果
為了進一步驗證PA-Net的優勢,將其與經典注意力網絡SE-Net和CBAM-Net進行了對比,其中SE-Net和CBAM-Net表示將PA-Net中的PA模塊替換成相應的注意力模塊,其余網絡參數均保持一致,實驗結果如表5所示。原始網絡取得了66.1%的mAP值和28.7 FPS,采用SE-Net、CBAM-Net和PA-Net后分別取得了67.9%、68.4%和69.3%的mAP值,分別提升了1.8%、2.3%和3.2%,相應的檢測速度分別為27.6 FPS、21.7 FPS和24.1 FPS。與SE-Net相比,采用PA-Net的mAP提高了1.4%,檢測速度下降了3.5 FPS,說明空間位置信息有利于目標檢測精度的提升,PA模塊通過雙注意力分支結構有效的利用了空間位置信息,增強了網絡的性能,但是PA模塊的計算量較SE模塊有所增加,導致檢測速度有所降低。與CBAM-Net相比,采用PA-Net后的mAP提高了0.9%,檢測速度提高了2.4 FPS,可以看出,相較于CBAM使用卷積獲得的局部空間位置關系,PA模塊通過一維平均池化能夠捕獲到更具代表性的全局位置信息,更有利于網絡性能的提升,并且PA模塊的計算量更少,檢測速度更快。

表5 注意力網絡對比結果
為了直觀地展示本文算法的檢測效果,本文對多類場景下的多種目標的檢測結果進行了可視化,如圖6所示,其中6(a)為FCOS的可視化結果,6(b)為改進模型PARF-FCOS的可視化結果。從圖中可以看出,PARF-FCOS的檢測結果較FCOS的檢測結果更為準確,有效地改善了漏檢、錯檢等現象,如第1行對比圖所示,FCOS漏檢了影像中的小目標“汽車”和“立交橋”等目標(圓圈標出),而PARF-FCOS能有效的檢測出來;在第2行對比圖中,FCOS產生了低質量的冗余框,而PARF-FCOS的邊框更加準確;在第3行結果圖中,FCOS將影像中的“立交橋”識別為“橋梁”,將“飛機”識別為“風力機”(圓圈標出),而PARF-FCOS均能正確的識別出這些目標的類別。可以看出,本文方法的通用性更強,對于不同的場景下的多種結構、尺度差異較大的目標依然能取得優秀的檢測效果。

圖6 檢測結果對比圖
針對當前遙感影像背景復雜、小目標等情況導致的檢測效果不佳的問題,提出了一種基于FCOS改進的目標檢測模型PARF-FCOS。通過構造位置注意力模塊,差異化的調整特征圖各像元的通道權值,突出目標特征,抑制背景特征;使用RFB處理淺層特征圖以增大感受野,獲取目標上下文信息,提升小尺度目標的檢測精度;訓練時采用DIoU loss作為邊框回歸損失函數,使邊框回歸過程更加平穩和準確。通過DIOR數據集上的實驗分析表明,本文算法有效的提高了目標的檢測精度,在多類目標上取得了較高的檢測精度,算法對于小目標檢測精度也有明顯的提升,驗證了本文算法的有效性和魯棒性。本文提出的網絡模型雖然提高了檢測精度,但PA模塊和RFB給網絡增加了時間代價。今后,將從網絡推理速度出發,嘗試利用卷積通道裁剪、網絡剪枝等輕量化技術進一步優化模型。