多源末制導彈載融合圖像目標檢測研究進展

2021-07-30 02:56:56錢立志楊傳棟

彈箭與制導學報 2021年3期

薛松，錢立志，張航，楊傳棟

(1 陸軍炮兵防空兵學院兵器工程系，合肥 230031；2 陸軍炮兵防空兵學院高過載彈藥制導控制與信息感知實驗室，合肥 230031；3 陸軍炮兵防空兵學院研究生隊，合肥 230031)

0 引言

圖像末制導是現代精確制導技術的重要組成部分，不僅能夠提高武器系統的命中精度，提升作戰效能，而且可以提高戰場感知和毀傷效果評估的智能化水平。

目前圖像末制導技術經歷了單模制導和多模復合制導兩個階段[1]。單模制導普遍采用的制導方式有電視制導、紅外成像制導和雷達成像制導等[2]。電視制導為可見光圖像，分辨率高，但易受天氣條件影響；紅外成像由于靠溫度差探測，因而適合在夜間工作，并且能夠識別一定條件下的偽裝目標，但紅外圖像對比度低，視覺效果較差；雷達成像制導主要有微波、毫米波和激光雷達制導[3]，毫米波的大氣衰減小，穿透性好，受天氣影響較小，具有全天候工作能力[4]，但是毫米波波束窄，不適于大范圍搜索。因此利用可見光、紅外、毫米波等單模制導的各自特點，將其兩兩或三者結合，充分發揮各自優勢，取長補短，形成多源圖像末制導，獲取多源末制導彈載圖像，提高對目標的打擊能力，具有較大的研究價值與應用前景。

目前大量的研究主要集中在編碼壓縮[5]、增強、校正[6]、消旋[7]及拼接[8]等方面[9]，或是僅研究多源圖像融合方法或單一類型圖像的目標檢測技術，如文獻[10]提出了一種高性能彈載圖像融合導引系統并進行了相關研究；文獻[11]提出了彈載可見光與紅外圖像融合算法；文獻[12]提出了一種YOLO3改進的彈載圖像目標檢測算法；文獻[13]提出了一種基于CNN的彈載圖像目標檢測方法；文獻[14]提出了針對運動目標的紅外圖像末制導跟蹤算法；文獻[15]提出了針對電視制導圖像的局部特征檢測與匹配算法。而針對多源末制導融合圖像的目標檢測類問題研究較少。

文中依托項目課題，根據多源末制導彈載融合圖像目標檢測中需要的關鍵技術，對圖像融合技術和目標檢測技術進行綜述，重點介紹相關網絡框架和優缺點并對未來可能的發展方向進行展望。

1 末制導彈載圖像

末制導彈載圖像與一般成像平臺獲取的圖像有很大不同，彈丸在飛行過程中姿態變化較大。當彈丸命中精度距目標中心圓概率誤差達到一定范圍內時，圖像導引頭開始工作并將目標區域內圖像通過彈載圖像發生機和發射天線發送回地面站。當彈體高度距離地面一定距離時，彈體進入末制導階段，導引頭對場景目標自動檢測識別輔助地面操作手進行目標捕獲，從而引導控制彈丸最終命中目標，如圖1所示為末制導成像工作過程。在成像過程中，導引頭易受外部條件的干擾，獲得的圖像背景變化快，存在尺度變化以及各種噪聲干擾，易發生各種偶然性降質等因素，會極大影響成像結果，如圖2(a)、圖2(c)所示，且在雨雪煙塵等低能見度條件下往往會影響其成像效果。這些干擾因素在影響成像效果的同時也為后續場景目標檢測帶來困難。此外戰場目標類型多樣，如圖2(b)所示，針對重點目標和目標重點部位檢測也是急需解決的困難。因此需要設計適合多源末制導彈載圖像的圖像融合算法以及針對融合圖像的目標檢測算法。

圖1 末制導成像工作過程

圖2 末制導彈載圖像

目前大多數圖像融合和目標檢測算法針對的目標場景多為自然圖像或民用領域，涉及到末制導彈載圖像及軍用領域研究較少。為此文中首先概述經典的多源圖像融合法方法和目標檢測算法，并進行對比分析，然后對已有研究的彈載圖像算法進行綜述。

2 多源圖像融合方法

多源圖像融合是指采用不同類型圖像傳感器獲得同一場景圖像，通過圖像處理等方法獲得信息較為完整，易于后處理的圖像。多源圖像融合始于20世紀80年代的基于金字塔變換方法[16]，此后多國學者的大量研究提出的多源圖像融合方法大致可分為3類：基于變換域的圖像融合方法、基于空域的圖像融合方法和基于深度學習的圖像融合方法。

2.1 基于變換域的圖像融合方法

由于小波變換能獲得較好的融合效果，因此研究者對其進行了大量研究，提出了基于多小波變換[17]、復小波變換[18]等一系列基于小波變換的圖像融合方法。此外，研究者們還利用獨立主成分分析[19]、高階奇異值分解[20]、魯棒性主成分分析[21]、稀疏表示[22]等方法提升融合后的圖像效果，新思想新方法的提出促進了圖像融合的發展。

2.2 基于空域的圖像融合方法

基于空域的圖像融合方法直接在空域上對圖像進行融合處理。文獻[23]借助分塊理論提出的方法獲得了較好的融合效果。此后研究者們利用其他方法也較好解決了圖像融合問題，如文獻[24]和文獻[25]提出多聚焦的圖像融合方法；文獻[26]提出的基于旋轉引導的圖像融合方法。

2.3 基于深度學習的圖像融合方法

卷積神經網絡(convolutional neutral networks，CNN)的快速發展和良好應用使得研究者們考慮利用CNN解決多源圖像融合的方法。如文獻[27]利用深度卷積神經網絡解決了多聚焦圖像融合問題。文獻[28-29]借助深度學習理論解決了紅外與可見光圖像融合問題；文獻[30]研究了高光譜圖像融合問題。以上方法均不是端到端的模型。文獻[31]研究了一種端到端的基于卷積網絡的無監督模型，取得了較好的融合效果。

3 目標檢測方法

目標檢測即找出圖像中所有感興趣的物體并框選物體的類別和位置。傳統的目標檢測算法對選取的區域進行特征提取并回歸，這些方法計算時間長、運行效率低，逐漸被基于深度學習的目標檢測算法取代。目前主流的基于深度學習目標檢測算法根據是否需要生成候選框可分為兩類：雙階段目標檢測算法和單階段目標檢測算法。

3.1 雙階段目標檢測算法

雙階段目標檢測算法由候選區域獲取和目標識別定位兩個步驟組成。該類算法的代表有：R-CNN，SPP-Net，Fast R-CNN，Faster R-CNN等。這些算法檢測精度普遍較高，但網絡結構復雜，計算任務量大，檢測效率低下，難以滿足檢測實時性需求。

3.1.1 R-CNN

R-CNN(regions with convolutional neural network features)模型由Girshick等[32]于2014年提出，該模型雖然首先將卷積神經網絡應用于目標檢測，但并非純粹神經網絡方法，而是用卷積神經網絡代替手工提取特征，模型結構如圖3所示。R-CNN主要分為3個階段：首先利用選擇性搜索算法在圖像中提取2 000個左右的候選區域，并將每個候選區域縮放成統一的227×227像素，其次利用AlexNet對候選區域提取特征向量并入到SVM進行分類，最后對目標候選區域進行優化和輸出。

圖3 R-CNN網絡結構圖

R-CNN的提出使得目標檢測取得巨大突破，并開啟了基于深度學習目標檢測的熱潮，但仍然存在不少弊端，R-CNN流程的第一步中對原始圖片通過選擇搜索提取的候選框多達2 000個左右，而這2 000個候選框每個框都需要進行CNN提取特征及SVM分類，計算量很大，導致R-CNN檢測速度很慢。

3.1.2 SPP-Net

針對R-CNN網絡全連接層輸入的固定尺度問題，2014年He等[33]提出了SPP-Net(spatial pyramid pooling convolutional networks)網絡，該網絡不局限于圖像的尺寸，而是對任意輸入以固定尺寸進行輸出。網絡將空間金字塔池化層放在最后一個卷積后，并對特征進行池化，并以固定長度供給全連接層。網絡結構如圖4所示。

圖4 空間金字塔池化層結構圖

雖然SPP-Net網絡通過簡化操作使檢測速度得到了很大提升，但該網絡的訓練仍然分為多個階段，并存在生成候選區域，步驟繁瑣。

3.1.3 Fast R-CNN

Fast R-CNN[34](fast region-based convolutional neural network)將SPP層簡化為RoI(region of interest)Pooling層，該層是一個只有一層的金字塔池化層，并僅需要下采樣到一個7×7的特征圖，可實現特征的重復利用。此外，Fast R-CNN在分類任務上采用softmax和Smooth L1替代SVM，統一了算法框架，使整個訓練過程是端到端的。Fast R-CNN目標檢測的過程如圖5所示。

圖5 Fast R-CNN網絡結構圖

Fast R-CNN在檢測精度和檢測速度上都有所提升，這一算法的成功提出使得研究者們考慮選擇搜索+CNN框架，在保證準確率的同時提升處理速度，也為后來的Faster R-CNN鋪墊。

3.1.4 Faster R-CNN

針對R-CNN，SPP-Net，Fast R-CNN網絡均需使用選擇搜索算法選取候選區域而造成算法運行速度較慢問題，Ren等[35]2016年提出了Faster R-CNN網絡(faster region-based convolutional neural network)，創新性的使用了區域生成網絡(region proposal networks，RPN)代替了選擇搜索算法，實現了卷積神經網絡端到端的處理過程，同時引入錨框作為初始候選區域應對目標形狀的變化問題。整個模型可以分為區域生成網絡和Fast R-CNN檢測網絡兩大模塊，如圖6所示，其中區域生成網絡的工作原理如圖6(a)所示。

圖6 Faster R-CNN網絡結構圖

RPN的使用使得Faster R-CNN網絡提高了算法的精度和速度，但網絡依然使用了RoI Pooling層，計算繁瑣。由于使用了不同尺度的錨點，在映射到原圖時可能會造成目標尺寸改變，對小目標檢測效果不好。

表1對上述R-CNN，Fast R-CNN，Faster R-CNN三種框架進行了總結，表2給出了雙階段目標檢測算法的速度對比，其中mAP(mean average precision)為平均精度均值。

表1 雙階段目標檢測框架總結

表2 雙階段目標檢測框架速度對比

綜上所述，隨著R-CNN，SPP-Net，Fast R-CNN，Faster R-CNN等算法的不斷發展，基于深度學習目標檢測算法的檢測精度和運算速度都有所提升。因此基于R-CNN的框架仍然是當前主流目標檢測算法的重要組成部分。

3.2 單階段目標檢測算法

與雙階段目標檢測算法不同，單階段目標檢測算法利用了回歸的思想，直接將整張圖作為網絡的輸入，在圖像的多個位置上進行均勻抽樣并利用卷積神經網絡提取特征后直接參與分類與回歸，確定目標所屬的類別。由于采樣導致的樣本不均衡造成該類算法的精度下降，典型算法有：YOLO系列、SSD等。

3.2.1 YOLO

2016年Redmon等[36]深入分析了雙階段算法存在的候選區域網絡造成目標檢測算法實時性差的原因，提出一種新的目標檢測算法YOLO(you only look once)。YOLO算法省略候選區域網絡，利用整張圖作為網絡的輸入直接進行預測，具體實現過程為：

1)將一幅圖像分成S×S個網格(grid cell)，每個網格對應特征圖中的一個點，負責檢測中心點落在該網格內的目標。

2)每個網格要預測B個邊界框，每個邊界框除了要回歸自身的位置之外，還要附帶預測置信度值。因此每個邊界框包含(x,y,w,h)和置信度共5個值。此外每個網格還要預測目標的類別信息，記為C，表示包含此類目標的概率。

3)將每個網格預測的類信息和邊界框預測的置信度信息相乘，就得到每個邊界框的預測結果。

4)設置閾值，對保留后的預測結果進行非極大值抑制優化處理，最終輸出檢測結果。

圖7 YOLO網絡結構圖

YOLO算法未使用錨框先驗知識，算法過程簡單，大大提升了網絡的檢測速度。然而算法對相互靠得很近的物體、小目標檢測以及特殊尺寸物體檢測效果不好。

3.2.2 YOLO v2

Redmon和Farhadi[37]針對YOLO檢測精度較低的問題提出了YOLO v2(YOLO 9000)的改進模型。有兩大改進：一是采用了多種策略在保持YOLO原有速度的優勢之下，提升準確率和召回率；二是提出了一種目標分類與檢測的聯合訓練方法，使得YOLO v2可以同時在COCO和ImageNet數據集中進行訓練，實現多達9 000種物體的實時檢測。具體如下：

YOLO v2算法在每個卷積層后增加批歸一化、多尺度訓練等操作來提高模型的檢測精度，去掉了dropout層，mAP提升2%。

算法借鑒了Faster R-CNN中RPN的錨框策略，提升了網絡的召回率，但mAP有一定程度下降，mAP由69.5下降到69.2，召回率由81%提升至88%。

算法采用了K-means聚類，使得模型復雜度和召回率之間達到折中。并且使用聚類的中心代替錨點，最后使用歐式距離進行邊界框優先權的衡量高。在K為5的條件下，Avg IOU從60.9提升到了61.0。在K為9的的條件下，Avg IOU提升至67.2。

此外引入了轉移層，使得特征圖的數目提高了4倍，有利用小目標物的檢測。

3.2.3 YOLO v3

YOLO v3[38]通過多種先進方法的融合，將YOLO系列的短板(速度很快，不擅長檢測小物體等)進行優化。達到了良好的檢測速度。YOLO v3在YOLO v2的基礎上，提出了3類改進：一是多標簽預測分類，在YOLOv3的訓練過程中，使用二元交叉熵損失來進行類別預測。二是改變網絡結構，使用全新設計的Darknet 53殘差網絡，兼顧了網絡的性能和效率，并且去除了池化和全連接層，前向傳播中通過改變卷積核的步長實現尺寸的改變。三是跨尺度預測，算法結合特征金字塔網絡進行上采樣多尺度融合預測，提升了小目標的檢測效果，獲得了較高檢測精度，但由于其模型的復雜度使得檢測速度并沒有明顯的提升。

3.2.4 SSD

SSD[39](single shot multibox detector)網絡是一種端到端的卷積神經網絡模型，具體過程如下：

1)輸入一幅圖片(300×300)，將其輸入到預訓練好的分類網絡(改進的傳統的VGG16網絡)中來獲得不同大小的特征映射；

2)抽取Conv4_3，Conv7，Conv8_2，Conv9_2，Conv10_2，Conv11_2層的特征圖，在這些特征圖層上面的每一個點構造6個不同尺度大小的先驗框,然后分別進行檢測和分類，生成多個初步符合條件的先驗框；

3)將不同特征圖獲得的先驗框結合起來，經過NMS方法獲得符合條件的先驗框集合，即檢測結果。

SSD的結構如圖8所示。

圖8 SSD網絡結構圖

SSD運行速度超過YOLO，在一定條件下檢測精度甚至超過Faster R-CNN，但需要人工設置先驗框的初始尺度和長寬比的值，且調試過程非常依賴經驗。算法使用低級特征去檢測小目標，由于低級特征卷積層數少，特征提取不夠充分，對小目標識別較差。

3.2.5 YOLO v4

2020年，Bochkovskiy等[40]提出了YOLO v4。該網絡參考YOLO v3，在數據增強、模型結構和訓練方法等方面進行了大量改進，實現了檢測精度和檢測速度的最優平衡。為了實現YOLO v4在輸入網絡分辨率、卷積層數、參數和層輸出數量間達到最佳平衡，使用了SPP附加模塊的CSPDarknet53作為骨干網絡，結合PANet路徑聚集和YOLO v3作為YOLO v4的網絡架構。此外，對backbone和detector使用的BoF(bag of freebies)和BoS(bag of specials)進行了大量改進，提升了網絡的檢測性能。另外，為了使網絡能夠在單個GPU上訓練，引入了自我對抗訓練數據增強方法，修改了空間注意模塊、路徑聚合網絡和交叉小批量歸一化。

3.2.6 YOLO v5

2020年6月9日，Ultralytics公司開源了新的目標檢測網絡框架并命名為YOLO v5。網絡框架基于PyTorch，對之前網絡框架性能有了大幅提升。檢測速度更快，對每個圖像的推理時間最快為7 ms，即140幀/s，而YOLO v4在轉換為相同的Ultralytics PyTroch后只有50幀；mAP約為0.895，與YOLO v4相當；體積小，但權重文件為27 MB，YOLO v4為244 MB，YOLO v5比YOLO v4小了近90%，可輕松部署到嵌入式設備中。

3.3 目標檢測算法對比

3.3.1 圖像數據集

目標檢測算法數據集通常用于算法測試或是各種目標檢測競賽等。測試用數據集通常包括PASCAL VOC，ImageNet，MS COCO，如表3所示。

表3 目標檢測常用數據集

PASCAL VOC數據集源于2005年開始的PASCAL VOC挑戰賽，該數據集為目標檢測中公認的基準數據集，圖像共有20個類，由訓練集、驗證集和測試集3部分組成。

ImageNet是一種WordNet結構的圖像數據集。該數據集包含14 197 122張圖片和21 841個類別，每張圖片都進行了嚴格的標記并每年對錯誤的數據進行修改與維護。

MS COCO(microsoft common objects in context)，是微軟贊助的一個新的目標檢測、分割、場景理解等任務于一體的大型數據集。該數據集從復雜的日常場景中截取，圖像中的目標通過精確的分割進行位置的標定。圖像包括91類目標，超過250萬個目標標注，目標尺寸變化更大，對檢測算法性能更具挑戰性。

3.3.2 對比測試分析

目標檢測算法常用的指標為mAP，該指標與兩個參數有關，一是精確率(p)，表示檢測出的物體的準確程度，二是召回率(r)，表示數據集中檢出物體所占的比例，計算如下：

(1)

其中：TP表示模型作出正樣本判定且判定是正確的；FP表示模型作出正樣本判定且判定是錯誤的；FN表示模型作出錯誤的負樣本判定。通過p和r構成的曲線稱為PR曲線，曲線以下的面積表示平均精度(average precision，AP)，用來衡量某一個類檢測的好壞。在多類多目標檢測中，計算出每個類別的AP后，再除以類別總數，即所有類別AP的平均值，計算過程如公式(2)所示。

(2)

算法的對比結果如表4所示。

表4 算法對比測試

從表4可以看出，在主流的目標檢測算法中，雙階段目標檢測算法檢測精度整體較高，而在單階段檢測算法中，通過對網絡框架的不斷改進，算法的檢測精度也有了較大提升，如YOLO v3在PASCAL VOC 2007和2012上達到了79.6%和80.1%。

4 彈載圖像融合和目標檢測方法

前文綜述了圖像融合算法和經典的目標檢測方法及測試數據集，并給出了對比分析。由于彈載圖像的特殊性，通用的圖像融合算法和目標檢測方法并不能很好的適用。當前針對彈載圖像的融合算法和目標檢測方法研究較少，下文針對已有研究展開綜述。

4.1 彈載圖像融合方法

文獻[11]提出了一種基于信息融合的戰場態勢顯示技術，實現彈載傳感信息的融合結算及效果顯示。在信息融合部分分為數據融合和圖像融合兩個方面。采用加權平均法完成仿真數據的融合：

(3)

式中,w1,w2,…,wn為各自對應的權值；采用二維小波分解法進行圖像融合,分解方法為：

(4)

則圖像重構算法為：

(5)

融合后的效果如圖9所示。

圖9 彈載紅外與可見光融合

4.2 彈載圖像目標檢測方法

文獻[12]提出了一種YOLO3改進的彈載圖像目標檢測算法，該算法針對彈載圖像尺度變化快、定位精度高、實時性要求強的特點，對YOLO v3方法進行改進，對多尺度預測分支特征圖上的先驗框尺寸進行K-means維度聚類，增強了尺度適應性；對位置損失函數進行改進，提高了位置定位能力；使用快速NMS算法加速預測過程，提高了網絡實時性。具體步驟如下：

1)設置先驗框。輸入目標訓練數據真值框寬高，并設置K=9得到9個初始聚類中心，按照中心重合的方式，計算每個真值框和每個聚類中心(先驗框)的IOUji，計算真值框與聚類中心的距離dji=1-IOUji，重新計算聚類中心W′i=∑wim/Ni，H′i=∑him/Ni，重復以上計算并輸出，其中m∈{1,2,…,Ni}。

2)改進損失函數。使用GIOU距離作為邊界框的損失評價標準：

(6)

經過改進后的算法能夠較好的應對不同尺寸目標，對多種類型武器裝備能夠正確識別，如圖10所示。

圖10 文獻[12]測試結果

5 總結與展望

圖像融合和目標檢測作為計算機視覺領域中重要且具有挑戰性的問題，受到了廣泛關注，隨著研究的不斷深入，圖像融合和目標檢測領域己經發生了巨大的變化，針對彈載圖像這一特殊類圖像在算法處理和實際應用上都有了一定發展，但由于實際成像環境的復雜性，針對彈載圖像的處理方法還不夠完善，仍然存在一些急需解決的問題。

1)融合圖像的準確性與實時性問題。一方面，彈載圖像在實際成像過程中環境變化快、影響成像因素復雜，獲取的彈載圖像質量未知性較強，增加了圖像融合的難度；另一方面，現有方法在提高圖像融合視覺效果的同時也增加了融合特征的復雜度，導致計算較為復雜。因此在彈載圖像融合算法過程中，考慮人眼視覺效果的同時也要兼顧算法的實時處理能力。

2)融合圖像的準確性與適用性問題。通過融合算法對多傳感器采集的圖像進行融合，在提升人眼視覺效果的同時提升了目標辨析能力，但可能會導致算法過于復雜，而降低視覺效果會帶來算法的簡化，但也可能存在目標辨識度降低的問題，因此對于彈載圖像融合問題，應當從實際應用角度出發，兼顧融合結果的視覺效果和應用需求。

3)特殊場景和特殊目標檢測需求。由于彈載成像的復雜性使得成像結果具有尺度變化快的特點，并伴有各種噪聲的干擾。這類特殊的場景和因素為專門設計適用于彈載目標檢測算法提出新的挑戰。

此外彈載圖像目標檢測的目標針對性也是后續研究熱點，具體體現在以下兩個方面：一是小目標作為一類特殊的研究對象，由于其分辨率低、像素少，可利用的信息量也較少，小目標檢測一直是一類具有挑戰性的問題；二是對重點目標、重點部位的檢測問題，為后續毀傷效果評估提供支撐。