江波,屈若錕,李彥冬,李誠龍
中國民用航空飛行學院,廣漢 618307
無人機具有成本低、靈活性高、操作簡單、體積小等優點,可以彌補衛星和載人航空遙感技術的不足,催生了更加多元化的應用場景。無人機影像的智能化分析處理不僅可以快速高效地提取地物信息,還能拓展無人機的場景理解能力。目標檢測技術能夠自動化識別和定位圖像中目標,這種技術可以增強弱人機交互下無人機的感知功能[1],為其自主探測和飛行提供基礎的技術支持。
無人機航拍由于成像視角不同于自然場景圖像,一般有以下特點:
1) 背景復雜。無人機的拍攝視角和更大的幅寬可以獲取到更豐富的地物信息,但這種無法突顯目標的拍攝方式也給檢測任務帶來了噪聲干擾。同時,由于無人機的飛行高度相對較低,空域環境較為復雜,因此遮擋現象在無人機航拍影像中較為常見,導致無人機對目標的觀測往往具有不連續性和不完整性。
2) 小目標。無人機圖像中的目標尺度變化大,且小目標的比例遠高于自然場景圖像。
3) 大視場。大幅寬下的影像往往包含著稀疏不均的目標分布,搜索目標需要花費更高的成本。
4) 旋轉。目標的朝向是任意的,同一類別目標的朝向角度也不相同。
目前的目標檢測任務主要面向自然場景圖像,在相應的應用問題,如人臉識別、行人檢測等領域已經相對成熟[2]。但由于成像視角不同且缺乏有效樣本的訓練,直接將現有算法應用于無人機領域效果較差。因此,研究適用于無人機的目標檢測算法對其應用有著重大意義[3]。
近年來,基于深度學習的無人機目標檢測方法的研究在學術界備受關注,相關文獻逐漸增多但對整體研究現狀總結的綜述性文獻較少。本文第1節闡述了基于深度學習的目標檢測算法研究進展;2.1節介紹了現有的航空影像數據集,2.2節討論了遷移學習的主要方式及其效果,2.3節從無人機影像的特點出發,分析了相關的改進算法;第3節總結了現有無人機目標檢測算法的不足,并對未來的發展方向進行了展望。
卷積神經網絡(Convolutional Neural Networks,CNN)是最具代表的深度學習算法之一,它的網絡為權值共享結構,與輸入圖像的契合度高,可以更好地完成圖像特征的提取和分類工作[4]。
卷積神經網絡通常由輸入層、卷積層、池化層、全連接層和輸出層組成,如圖1所示。

圖1 卷積神經網絡的典型結構Fig.1 Typical structure of convolutional neural network
卷積神經網絡的訓練目的是損失函數(Loss Function)的最小化,即預測值與真實標記值的誤差最小[5]。對于分類問題和回歸問題,交叉熵(Cross Entropy Error,CEE)和均方差(Mean Squared Error,MSE)是常見的損失函數,其表達式為
式中:Y為網絡模型的預測值;T為目標的真實標記值。
預測值與真實標記值間的誤差通過反向傳播逐層更新網絡的各層的參數。對于第i個卷積層,其權值矩陣W和偏移向量b的梯度為
式中:Xi為第i個卷積層的輸出;Wi為第i個卷積層的權值矩陣;bi為第i個卷積層的偏移向量。
早期的目標檢測利用人工幾何特征來實現特征表達,如SIFT[6]、HOG[7]等。1998年,Lecun和Bottou[8]提出相對簡單的卷積神經網絡模型LeNet-5,利用神經網絡提取的到的特征替代人工提取的特征。AlexNet[9]在網絡規模上變得更寬更深,使用了ImageNet[10]提供的大規模數據集和多GPU來訓練。
Network In Network[11]和ZFNet[12]在AlexNet的架構基礎上分別增加和改進了網絡結構,提高了網絡性能,證明了對卷積神經網絡結構的改動是可以大膽嘗試的。隨著研究的深入,網絡結構得到了進一步的完善和發展,表1列出了一些卷積神經網絡的模型參數。

表1 典型卷積神經網絡的模型參數對比Table 1 Comparison of model parameters of typical convolutional neural networks
基于兩階段方法的目標檢測又被稱為基于候選區域(Region Proposal)的方法。圖2給出了常見的兩階段目標檢測算法結構。

圖2 兩階段目標檢測算法結構圖Fig.2 Structure of two-stage object detection algorithm
2014年Girshick等[18]嘗試在AlexNet的基礎上將Region Proposal和CNN結合起來,提出了檢測性能有著大幅提升的R-CNN算法。He等[19]在卷積神經網絡中使用了空間金字塔池化(Spatial Pyramid Pooling,SPP)模塊,解決了輸入固定大小圖片的限制且避免了重復提取圖像特征。2015年,Grishick[20]在R-CNN和SPP-Net算法結構的基礎上的提出了使用興趣區域(Region of Interest,ROI)池化的Fast R-CNN,實現了端到端的檢測。Ren等[21]提出了Faster R-CNN改進了候選區域的生成方法,使用候選區域生成網絡(Region Proposal Network,RPN) 代替了Selective Search算法,實現了整個網絡共享卷積特征,進一步提高了檢測速度。
單階段方法只需對圖片處理一次就能獲得目標的分類和位置信息,運行速度較快,可以應用于對實時性要求較高的場景。
2015年Redmon等[22]提出YOLO(You Only Look Once)算法,使用一個單獨的神經網絡,完成從圖片輸入到目標位置和類別信息的輸出。2016年Liu等[23]提出了SSD(Single Shot MultiBox Detector)算法,進行多尺度特征的提取。圖3為YOLO和SSD算法結構對比。

圖3 YOLO和SSD算法結構對比Fig.3 Comparison between YOLO and SSD algorithm structure
無人機航拍因成像幅寬大、不受地理條件約束等優點,在工業巡檢、交通管理、應急救援、安防等領域發揮著重要的作用。目標檢測作為計算機視覺中的一項重要技術,正不斷提高無人機感知能力和圖像數據分析能力,促進無人機航拍在民用和軍事領域轉化出更多的應用。近年來基于深度學習的目標檢測方法在無人機領域也取得了一些重要的研究進展。
無人機航拍圖像自身有著顯著的特點,使用自然場景圖像數據集(如MSCOCO[24]和VOC[25])來完成前者目標檢測的訓練任務難以取得令人滿意的效果。
一些研究針對這一問題提出了航空影像數據集,相關圖像數據集對比如表2所示。

表2 不同航空圖像數據集對比Table 2 Comparison of different aerial image datasets
UC Merced Land-Use[26]是一個用于土地利用研究的可見光遙感圖像數據集,圖片取自 USGS National Map Urban Area Imagery系列。NWPU VHR-10[27]數據集有10個類別的對象,這些圖像是從Google Earth和Vaihingen數據集裁剪而來的,并且由專家進行了類別標注。VEDAI[28](Vehicle Detection in Aerial Imagery)數據集用于多種類車輛檢測任務,該數據集的航空圖像取自猶他州AGRC。UCAS-AOD[29]數據集用于航空圖像下車輛和飛機的目標檢測,圖像采集于Google Earth,車輛數據集共210張圖片,飛機數據集共600張圖片。DOTA[30]數據集是一個用于航空圖像中目標檢測的大型數據集,圖像的采集來自不同的傳感器和平臺,包含了不同比例、方向和形狀的目標對象。
使用無人機作為拍攝平臺而制作的數據集出現較晚。Stanford Drone Dataset[31]在2016年被提出,由無人機拍攝而制作的圖像/視頻數據集,為了提高挑戰性,影像采集于校園中目標較為擁擠的場景。Okutama Action Dataset[32]同樣使用無人機拍攝,是一個用于檢測人體動作的視頻數據集。CARPK[33]是一個停車場數據集,包含近9×104輛車,用于無人機對車輛的檢測和計數任務。VisDrone[34]數據集包含了不同天氣和光照條件下的288個視頻和104余張圖像,用于無人機圖像目標檢測、視頻目標檢測、單目標跟蹤和多目標跟蹤4種任務挑戰。DroneVehicle[35]是一個面向車輛檢測和車輛計數任務的數據集,包含了RGB圖像和紅外圖像,采集還涵蓋了晝夜時段以及目標的遮擋和尺度變化。
數據集對于深度學習來說有著至關重要的作用,然而對于無人機影像的目標檢測任務,目前缺少ImageNet、MSCOCO和VOC這些類型的數據集。現有的航空影像數據集類別數量和標注的目標數量較少,大多數數據集關注的類別為車輛、飛機、船舶和建筑,與ImageNet多達200個目標類別以及近9×105萬個標注數量相比,這些難以反映真實世界的復雜程度;此外,同一目標的尺度變化和旋轉特性不夠豐富,相比于衛星和傳統航空遙感平臺,無人機有著較高的靈活性,目標較為豐富的變化才能貼近無人機的實際航拍場景。因此,在采集和制作無人機影像數據集時應作如下考慮:
1) 數據集具有較大的規模。目標類別、目標標注在數量上要足以支撐基于深度學習的方法,類別的選擇除了滿足實際應用還要平衡正負樣本的比率,從而進一步提高無人機影像目標檢測的技術水平。
2) 數據集應具有較好的泛化性,淡化數據集本身的特征[36]。使用不同傳感器進行航拍,保證相同類別目標具有不同的分辨率;拍攝時段和天氣應多樣化,從而確保影像信息之間具有偏差更加貼合實際。
3) 數據集應充分表征無人機影像的特點。背景信息足夠豐富,不能刻意排除模糊、有遮擋或難以分辨的目標;采集數據時應注意同類目標的多樣性和相似性,包括尺度和形狀的變化、旋轉特性等。
使用遷移學習從較為成熟的大規模數據集進行相似性學習后應用于新領域是另一種解決問題的有效方案。
按照文獻[37]對遷移學習的定義,可以將自然場景圖像的數據集定義為源域數據,無人機影像數據集定義為目標域數據,其對應的學習任務分別為源域任務和目標域任務。遷移學習可分為如表3所示的3種類型。自然圖像上訓練好的模型應用于無人機影像主要的任務為不同領域之間知識的遷移,其源域和目標域數據有相關性,學習的任務相同。

表3 遷移學習的類型Table 3 Types of transfer learning
對于深度學習而言,遷移學習的過程為利用相關領域的知識通過深度神經網絡進行目標域中模型的訓練。按照學習的方法不同可將深度遷移學習分為3類:基于實例的遷移學習、基于特征的遷移學習和基于模型的遷移學習。
基于實例的遷移學習通過調整權重來增加目標域有用樣本的權重,以此補充目標域訓練數據,這種方法目前使用較少;基于特征的遷移學習通過挖掘源域數據中可以覆蓋目標域數據的部分,實現不同特征空間之間的知識遷移,在目標檢測任務比較常見的是特征提取器的遷移;基于模型的遷移學習需要找到源域和目標域模型之間可以共享的參數或知識。
遷移學習在目標檢測領域取得了一些不錯的成果。Pan等[38]提出了一種基于遷移學習和幾何特征約束的級聯CNN網絡模型,在較少的遙感圖像樣本下實現了高精度的檢測;Yuan等[39]在大中小3種規模的數據集之間使用兩次遷移學習,實現了較高精度的夜間航拍車輛檢測;Wang等[40]使用深度遷移學習的方法成功地將在規模的仿真SAR圖像數據集上學習到的知識遷移到實測SAR圖像上,提高了數據稀缺下目標識別的準確率。但遷移學習的順利進行是有條件限制的,需要保證源域和目標域之間具有共同點,具有一定的相似性和關聯性[41-42]。
計算機視覺領域中基于深度學習的目標檢測方法在自然場景領域取得了巨大的成功,這對于無人機目標檢測任務是值得借鑒和參考的,很多國內外研究提出了效果顯著的改進算法。本文從無人機影像的4個特點出發,分析比較了一些具有代表性的方法,表4給出了部分算法在DOTA數據集上的實驗結果,表5為不同算法的優缺點對比。

表4 不同無人機目標檢測算法在DOTA-v1.0 數據集上的有向目標檢測結果對比Table 4 Results comparison of OBB task on DOTA-v1.0 dataset of different UAV object detection algorithms

表5 不同無人機目標檢測算法的優缺點對比Table 5 Comparison of advantages and disadvantages of different UAV object detection algorithms
2.3.1 無人機影像中的復雜背景問題
無人機影像中目標密集區域往往存在著大量形似物體,從而導致檢測中的漏檢或誤報增加。此外,無人機影像背景中大量噪聲信息,還會使目標被弱化或遮擋,難以被連續和完整地檢測。
近年來,國內外提出了一些效果顯著的改進算法來抑制影響背景中的噪聲信息。Audebert等[43]在航拍圖像中利用深度全卷積網絡對車輛精確分割,通過連通分量的提取實現車輛檢測,證明了航拍圖像中語義分割和目標檢測的結合,可以提高檢測性能,尤其是在目標邊界信息的提取上。Mask R-CNN[44]、MaskLab[45]、HTC[46]等算法兼顧了分割和目標檢測,并在2個任務上都取得了很好的效果。受此啟發,Li等[47]構建了一個語義分割指導下的RPN(semantic segmentation-guided RPN,sRPN)模塊來抑制航拍圖像中的背景雜波。這個模塊將多層金字塔特征集成為一個新的特征后,進行空洞空間金字塔池化 (Atrous Spatial Pyramid Pooling,ASPP[48])和卷積運算,得到掩膜和語義特征,它們分別可以幫助指導RPN和得到更精準的回歸結果。sRPN對檢測精度有一定的提升作用,但獲取的特征在尺度上較為稀疏,上下文信息聯系不夠緊密,容易造成信息丟失。文獻[49]使用改進的多尺度空洞卷積來提取特征,擴大了對特征的感受野,提高了復雜背景下和有遮擋的目標檢測效果。
受人類感知機制的啟發,注意力機制被應用于深度學習中,其目的是聚焦并選擇對任務有用的信息。注意力機制可以使檢測器對目標進行“有區別”地檢測,提升網絡模型運行的效率。Yang等[50]將注意力機制引入目標檢測中,提出了SCRDet。使用一個有監督的多維注意力網絡(Multi-Dimensional Attention Leaner,MDA-NET)來突出目標特征,弱化背景特征。該網絡由像素注意力和通道注意力網絡兩部分組成,像素注意力網絡將初始的特征圖進行卷積得到帶有前景和背景分數的顯著圖;通道注意力網絡使用SENet為各特征通道的重要性賦權。圖4為sRPN和MDA-NET算法結構。

圖4 sRPN和MDA-NET算法結構Fig.4 Structure of sRPN and MDA-NET algorithms
在解決無人機影像中的復雜背景問題時,上下文信息可以幫助模型對目標與背景的理解,從而從提取更好的目標特征,但上下文信息需要進行篩選,通常只有部分信息是對模型有用的;空洞卷積在增加感受野的同時保留細節信息,為了適應無人機影像中的目標分布和遮擋情況,多尺度空洞卷積中提取的特征大小和數量顯得尤為重要;注意力機制可以有效過濾背景中的無用信息,不過在無人機目標檢測這種特定的場景下需要合理地分配權重,避免小目標的漏檢或誤報。
復雜背景中目標的精細檢測算法在交通檢測和城市規劃中有著廣泛的應用前景[43],隨著交通量的日益增長和城市規模的不斷擴大,航拍影像中非目標噪聲也越來越多,同時由于航拍中難以避免的遮擋問題也會導致目標信息不完整,因此,如何在復雜的環境中提取目標特征的研究具有重要的應用意義。
2.3.2 無人機影像中的小目標問題
無人機影像中目標的尺度范圍大,建筑與行人、山川與動物經常出現在同一圖片中。小目標在圖片中占比極小,提供的分辨率有限,從而造成檢測困難。
較早的一些研究中,Sevo和Avramovic[51]證明了卷積神經網絡可以有效地融入到航空圖像的目標檢測算法中。Sommer等[52]將Fast R-CNN和Faster R-CNN 用于航空圖像中的車輛檢測,通過調整錨定框的大小和特征圖的分辨率,來適應小目標檢測。雖然卷積神經網絡具有一定的泛化能力,但網絡中的卷積和池化操作使特征圖細節信息丟失過多,這對小目標檢測來說是十分不利的。
為了實現不同尺度的特征提取,提升小目標檢測的性能,Lin等[53]設計了一個特征金字塔網絡(Feature Pyramid Networks,FPN),實現了細節較多的底層特征和語義信息豐富的頂層特征的融合。FPN算法使用內網特征金字塔來代替特征化圖像金字塔,大幅減少了運算量,解決了訓練與測試時間不一致問題,圖5列舉了計算機視覺中的一些金字塔結構。Azimi等[54]提出了一種圖像級聯網絡(Image Cascade Network,ICN),使圖像金字塔模型和FPN的結合成為可能。此外,為了克服固定卷積核對幾何變換建模的局限性,使用DIN(Deformable Inception Network[14,55])代替在FPN中使特征輸出減少的1x1卷積核,來增強對小目標的定位能力。在DOTA數據集上的實驗表明,使用ICN和DIN后mAP均有著明顯提升。基于FPN的方法是高效的,無人機影像的特點決定了對其檢測需要更多的細節特征。Yang等[56]將DenseNet中的密集連接用于FPN算法,在自上而下的網絡中通過橫向連接和密集連接來獲取更高的分辨率特征;Wang等[57]使用改進的Inception模塊代替FPN中的橫向連接來加強特征傳播。這些算法在一定程度上提升了小目標檢測的效果,但新的模塊的加入增加了計算成本,算法的速度難以得到保證,實驗條件下的高性能算法如何應用到實時性較強的場景中值得進一步研究。文獻[58]提出了一個輕量化的深度殘差網絡模型(LResnet)將底層特征信息融合到高層中,檢測速度較FPN有明顯提升。

圖5 計算機視覺中的金字塔結構Fig.5 Pyramid structure in computer vision
He[59]和Zhu[60]等對深度學習中的訓練問題進行了研究:自然場景圖像數據集下預訓練好的模型對無人機影像的目標檢測幫助有限,但從頭開始的訓練又增加了時間成本。Wang等[61]將預訓練的模型與隨機初始化訓練的輔助網絡結合,兼顧了訓練時間成本和定位的精確性。輔助網絡為標準的預訓練網絡提供包含準確輪廓邊緣信息的低層、中層特征,補償在預訓練中準確輪廓邊緣信息的丟失,使定位更準確。該算法在UAVDT數據集上的檢測效果較好,提高了精度的同時保證了速度。在網絡架構中增強預訓練模型的泛化能力是直接有效的方法,并且可以保持原有網絡模型的特性,但輔助網絡本身也需要訓練增加了運行和時間成本。Yu等[62]將研究重點放在了預訓練數據集和任務數據集的關系處理上,提出了尺度匹配方法,為遠距離、大背景下小目標的目標檢測帶來性能提升。預先訓練的數據集足夠大時能在一定程度上提升檢測效果,但預訓練數據集與指定任務數據集差別很大時,得到的預訓練模型幫助并不大。尺度匹配是一種尺度變換方法,使用于預訓練的數據集和檢測器學習的數據集之間的特征分布保持一致。實驗以Faster R-CNN-FPN為基準并在MS COCO中進行預訓練,結果表明該算法可以顯著提升檢測器性能。
在解決無人機影像中的小目標問題時,特征融合的方法可以結合多層特征來進行預測,提高對多尺度目標尤其是小目標的檢測效果。根據不同場景下無人機目標檢測任務的需求,具有相應特性的CNN模型或模塊與FPN結合都取得了較好的檢測效果,但卻增加了時間成本。輕量化的網絡模型是一種解決方法,另一種思路則從訓練深度學習模型的角度出發,在已有數據集的情況下改進訓練質量,具有很高的實際工程適用性。
小目標檢測算法在小人臉檢測、軍事偵察、交通標志檢測、安防等領域有著廣泛應用需求[63]。在無人機的自主飛行中,應對突發緊急情況時主要依賴自身的傳感器和控制器來完成對起落點的感知和緊急著陸,在較高的飛行高度完成對地面起落點的識別和空間定位對小目標檢測的精度也有著很高的要求。
2.3.3 無人機影像中的大視場問題
無人機的探測范圍較廣,且不受地理因素等限制,因此得到的圖像視場往往很大。大視場下的目標檢測面臨著目標分布不均、目標稀疏等問題,如車輛總是在道路上密集存在、草原上的羊群也經常聚集在某一處、城市里的廣場人群很密集而旁邊的道路上的行人卻相對稀疏。
直接將卷積檢測器應用于這些圖像所帶來的處理成本很高,滑動窗口法雖然可以裁剪圖片,但效率較低,因此很多算法通過減少搜索區域來提高效率。LaLonde等[64]在研究廣域運動圖像(Wide Area Motion Imagery,WAMI)下的目標檢測時,提出了一個兩階段的卷積神經網絡,第一階段改進了Faster R-CNN中的RPN,使之可以覆蓋更多的潛在對象;第二階段設計了一個基于神經元有效感受域的算法進行目標檢測,只對高于設定閾值的一階段輸出進行高分辨率分析。實驗使用WPAFB 2009數據集并與其他13種檢測方法進行了對比,該算法的檢測效果更好。Yang等[65]針對航拍圖像下目標分布不均勻的問題提出了一個面向聚集區域的目標檢測算法。首先,將一個改進的RPN模塊放置在特征提取網絡的頂部來獲取更大的感受野。第二步對提取的目標聚集區域進行尺度估計,對于偏移量過大的區域進行填充或分區操作,處理后的提取區域需要分別進行目標檢測任務。最后,對所有檢測結果通過NMS(Non Maximum Suppression)操作融合到全局圖片上。在VisDrone、UAVDT和DOTA數據集上的實驗表明,該算法檢測性能和效率均有著顯著提升。
針對候選區域生成算法的缺點,一些研究將強化學習用于大視場圖片的目標搜索中,如圖6所示。Gao等[66]將強化學習和卷積神經網絡結合,用于大圖像中小目標的檢測。卷積神經網絡對圖片進行精細和粗略檢測,所得的結果與真實值求差值來計算精度收益,經過回歸生成精度收益圖,指示不同區域的潛在放大精度增益。強化學習的任務是找到使獎勵最大的動作,即更加高效地找到圖像中的小目標。該算法在一些行人數據集上進行了實驗,并未在無人機影像數據集上實驗。Uzkent等[67]的研究與前者類似,但面向的是視場較大的可見光遙感圖像。該算法分別對圖片進行粗略和精細搜索。兩種搜索都是強化學習與卷積深度網絡結合的級聯算法。在粗略搜索中,先將低分辨率圖片分割為相同大小的子圖片,計算它們各自放大后的收益。在精細搜索中,對粗略搜索模塊選擇的子圖片進行進一步的搜索空間優化,以最終決定要放大哪些子圖片。在xView數據集上的實驗表明,該方法提高了運行效率2.2倍,同時減少了對高分辨率圖像的依賴性約70%。

圖6 強化學習在目標檢測中的應用Fig.6 Application of reinforcement learning in object detection
在解決無人機影像中的大視場問題時,首先要考慮的是減少目標搜索的成本,常見的方法為區域特征編碼方法的優化,如增加ROI輸出的數量或增加ROI生成模塊感受野;對子圖片進行檢測時,目標尺度的估計對檢測精度有著較大影響。減少搜索區域的方法本質上還是兩階段的目標檢測方法,需要遍歷整張圖片,效率較低。強化學習與CNN的結合實現了大視場影像中的自適應搜索,增加效率的同時保證了子圖片檢測的精度。
無人機在很多領域中的應用需要對較大的地理空間或場景進行監測和數據采集,如行人檢測、遙感測繪、農業監測等。在大視場影像中進行快速準確的目標搜索和檢測不僅可以減少運算時間、降低對硬件的要求,還有著重要的現實意義,克羅地亞搜救隊在2019年提出了一種基于無人機航拍影像的搜索方法,用以尋找荒野中的失蹤人員或有用的痕跡信息[68]。
2.3.4 無人機影像中的旋轉問題
無人機影像中的物體可能在任意位置和方向上出現,同一類物體的角度變化也不盡相同。無人機目標檢測任務因此變得困難,旋轉的物體使位置回歸變得困難,因而大量的目標被漏檢。文本檢測也有著同樣的特點,一些改進的目標檢測的研究是在文本檢測的啟發下進行的,近年來有很多創新性的算法來解決目標的旋轉問題。
常見的檢測方法按照候選區域和包圍盒的形式,可分為水平檢測和旋轉檢測,如圖7所示。

圖7 水平檢測和旋轉檢測Fig.7 Rotated and horizontal object detection
Jiang等[69]改進了Faster R-CNN算法,用于檢測任意方向的文本內容:使用兩點坐標和盒高來描述包圍盒,通過多尺度的ROI池化來更好的提取水平和豎直方向的特征。該方法提出的包圍盒較好地適應了文字檢測,但無人機影像中的目標存在分布密集的情況且旋轉角度是任意的,需要新的包圍盒形式來對其定位。Xu等[70]使用Faster R-CNN算法的分類結果,對于回歸預測,引入旋轉因子和水平包圍盒頂點偏移量參數來對得到的水平包圍盒進行偏移改進,用四邊形來回歸定位。該算法在DOTA數據集上取得了73.39% mAP的結果,但由于仍是基于水平候選區域下的檢測,位置回歸的過程存在一些與真實值不匹配的情況。
Ma等[71]提出了使用旋轉的候選區域來進行文本檢測。在Faster R-CNN算法中引入角度參數,生成帶有角度信息的錨定框,進而得到任意方向的候選區域,并將此稱為RRPN(Rotation Region Proposal Networks),相應的RROI(the Rotation Region of Interest)池化過程是將旋轉的候選區域與特征圖關聯后再進行的池化操作。該方法提升了包圍盒回歸的精度,但由于產生更多的旋轉錨定框,計算量較大。為了避免增加錨點數量,Ding等[72]使用水平的錨定框,在RPN階段通過全連接學習得到旋轉ROI。具體來說,在有向包圍盒(Oriented Bounding Box,OBB)注釋的監督下,對RoI進行空間變換并學習變換參數(ROI-Transformer,RT)。之后,從旋轉ROI中提取旋轉不變特征,用于后續的分類和定位。由于避免了大量旋轉錨定框的生成,該算法減少了計算量,在DOTA和HRSC數據集上的檢測性能也有顯著提升。
Zhou等[73]提出了CenterNet,使用無錨點(Anchor-Free)的回歸方法。用包圍盒的中心點來表示目標,目標的大小尺寸則直接從中心點位置進行回歸。Pan等[74]在CenterNet的基礎上增加了旋轉角度預測,提出DRN(Dynamic Refinement Network):根據物體的形狀和旋轉方向來自適應調整感受野,同時對目標的分類和回歸進行動態修正。
同類物體的旋轉同時會對目標檢測中的分類任務造成困擾,Cheng等[75]提出的算法用以解決旋轉后帶來的檢測困難。通過在全連接層或ROI池化層加上正則約束項來優化一個新的目標函數,將訓練樣本在旋轉前后的特征表示緊密地映射在一起,以確保旋轉前后相似特征的分享,從而實現旋轉不變性。實驗表明該算法在航拍車輛檢測和遙感圖像分類任務上都有著性能提升。
在解決無人機影像中的旋轉問題時,較為直接而簡便的方法為保持水平的ROI不變,自定義包圍盒的形狀來適應目標旋轉特性;使用旋轉的RROI生成的區域特征與目標旋轉特性較為匹配,可以有效避免大量的回歸錯位,但旋轉的錨定框的生成增加了計算量;通過默認的水平錨定框轉換得到RROI,避免了計算量的增加,且仍有著較高的回歸精度。而無錨點的回歸擺脫了錨定框對包圍盒的限制,增強了模型的實時性和精度,不過回歸的穩定性需要進一步研究。
旋轉問題是無人機航拍目標檢測中的一大瓶頸問題,高精度的旋轉檢測的實現極大地拓展了無人機的應用場景,特別是航拍影像中密集區域中目標的定位,如停車場的車輛、港口中停泊的艦船、航空港中的航空器以及由此衍生的計數任務[33]。
目前,無人機目標檢測算法的受關注程度與日俱增,現有的算法也取得了不錯的檢測效果,但還有很大的改進空間。復雜背景給目標檢測任務帶來的干擾得到了有效抑制,但現有的算法仍存在虛警和漏檢問題,如果目標處于過于密集或大量形似物的環境中,檢測效果不太理想;基于兩階段方法的目標檢測算法在分類和回歸的精度上有優勢,大部分小目標檢測方法都是基于此來進行改進,加之新模塊和網絡的引入,使得檢測速度仍然較慢;多數算法都是基于現有算法的改進,很多適用于自然場景下目標檢測方法和思想被保留下來,增加了檢測的局限性,如錨定框的保留限制了目標位置的確定,需要有新的方法來提高定位精度。
針對上述問題和近幾年的研究趨勢,本文對無人機目標檢測未來研究的方向做出如下討論:
1) 在增大感受野的同時,密集地生成不同尺度的特征。無人機影像的分辨率較高,ASPP可以在保證特征分辨率的同時,增大感受野,但隨著擴張率的增長,空洞卷積會失效。與CNN一樣,空洞卷積的網絡結構是可以進一步優化的,從而可以在合理的擴張率內獲得與無人機影像相匹配的感受野和尺度分布[76]。
2) 自適應地融合特征和生成ROI。無人機因應用場景的不同而獲取不同特性的影像,為了避免有用信息的丟失,在特征融合和生成ROI時可以給不同的特征層賦權,通過加權融合得到相應的上下文特征和高質量的ROI,進而提高目標檢測模型的泛化性[77]。
3) 深度學習方法與其他方法的結合。深度學習方法在目標檢測領域有著顯著的優勢,也取得了極大的成功,其他算法的加入將會彌補單一方法的局限性:① 數據預處理算法。深度學習方法的效果依賴于輸入數據的質量又無法篩選數據,可以從數據增強和減少數據中的冗余特征兩方面出發,來提高深度學習模型的計算效率。② 模 型的優化算法。深度學習通過調節學習率可以實現自適應優化,但數據或樣本規模較大,或對收斂性有較高要求時,可以選擇合適的算法來優化網絡的結構和參數,提高檢測效果。③ 功能性算法。作為數據驅動的方法,深度學習并不是解決某些特定問題的最佳方案,可以選擇針對性較強的算法并合理分配權重,靈活高效完成任務。
4) 減少進行位置回歸時的限制。基于錨點的回歸中錨定框的設置需要與待檢測的目標形狀相吻合,但在無人機影像中,目標的形狀和朝向多變,預設的錨定框限制了位置回歸。無錨點的方法通過預測目標關鍵點來獲得包圍盒,不預設目標形狀,以一種靈活的方式進行位置回歸,更適合無人機航拍目標檢測任務。對于關鍵點重合而導致的檢測結果不穩定問題,可以對關鍵點進行二次預測和匹配來提高檢測的精確性[78]。
本文總結了深度學習在目標檢測領域的研究成果,分析了相關算法的優缺點。對航空影像數據集和遷移學習進行了詳細介紹,重點從無人機影像的特點出發,對該領域的目標檢測取得的進展進行了分析,指出了存在的問題和發展的方向。目前,無人機技術正處于快速發展時期,無人機目標檢測具有廣闊的研究前景。