劉孫相與 李貴濤 詹亞鋒 高 鵬
“低慢小”(飛行高度低、飛行速度慢、目標小)目標以其難以被探測、便于隱藏、適用場景廣泛的特點,一直以來都是軍事以及科研領域中的研究重點[1-4],其中 “低慢小”目標的探測識別更是相關課題中的核心和基礎問題.近年來,四旋翼無人機為代表的新興 “低慢小”飛行器因其成本低廉、操縱簡單、難以被發現的特點,在航拍、探測、檢測等多個領域被廣泛應用.但隨之而來也帶來諸多安全隱患,如成都機場無人機 “黑飛”逼??蜋C、默克爾總理競選會無人機潛入、敘利亞自制 “武裝無人機”自殺式襲擊等.這些已有公共安全事件說明無序飛行的 “低慢小”無人機已經嚴重威脅到社會秩序和公共安全.
近年來,人工智能和計算機視覺的發展,使得基于圖像/視頻的小目標檢測與識別方法的性能有了較大的提升,成為研究此類問題的新手段[5-8].相比于以往基于聲譜特征[3-4]、光譜特征[5-6]、射頻和雷達[1,9-10]等方法,基于機器視覺的方法具備系統簡單、硬件體積小、場景普適性強、探測距離遠、識別粒度細等優點.基于機器視覺的 “低慢小”目標識別方法主要包括表觀特征方法[11-26]、運動特征方法[27-35]以及混合方法[15,36-45].
基于表觀特征的方法,如部件模型(Discriminatively-trained part model)[11]、Faster RCNN 神經網絡[12]、SSD(Single shot multibox detector)神經網絡[26]、積分通道(Integral channel)[13]等在許多常見目標以及一些小目標識別任務中顯著提升了識別精度.Zahangir 等[24]改進循環卷積神經網絡,融合Inception-V4 和殘差網絡結構,形成IRRCNN識別網絡完成對輸入圖像的目標識別,在多個數據集上,如 CIFAR-10、CIFAR-100、TinyImageNet-200 以及CU3D-100,達到最佳識別精度.對于無人機目標來說,Schumann 等[17-18]提出了采用Faster RCNN網絡進行識別的方法,并在其建立的數據集上進行訓練,識別鳥類和無人機兩類目標,在AVSS2017[23]測試集上取得了最高精度;Saqib 等[25]測試了不同結構的卷積神經,得出采用VGG16結構的Fasster-RCNN 神經網絡具備最高識別精度;Aker 等[14]提出了將鳥類和無人機在不同背景下合成的數據集生成方法,用以訓練無人機識別神經網絡;Wu 等[28]提出通過將顯著性方法引入至卡爾曼濾波器,完成對運動小目標的跟蹤和定位,該方法對于四旋翼無人機的跟蹤也具有較高精度.Carrio 等[20-21]在深度圖中采用神經網絡方法完成四旋翼無人機的識別,并在Airsim 飛行仿真軟件中建立深度圖數據集,用以訓練識別方法,得到了其數據集上的最優識別精度.但該方法對目標的表觀和運動特征均未直接使用,對于常見的識別場景適用性較差、識別精度相對較低.
基于運動特征的方法,主要分為兩類,一類是基于背景減除;另一類是基于流方法.背景減除類方法的前提是假設相機不動或者僅有很小移動.通過對背景進行建模,從而達到僅在圖像中留下前景目標的目的,此類方法[27,30-31]計算復雜度低、適用場景廣泛,但僅能在背景簡單下具備足夠精度;流方法[6,32-34]依賴于流向量的計算,其適用于多目標場景、在復雜場景中也具備較高召回率,但對于識別任務來說,針對小目標或者復雜場景計算精度不足,計算復雜度和虛景率也較高.基于深度網絡的光流提取方法提高了光流向量的計算精度,Dosovitskiy 等[33-34]提出FlowNet、FlowNet2.0 等結構,采用U-Net 架構,并融合多種網絡結構,取得了目前最優光流提取性能.
融合運動以及表觀特征的方法,目前多以深度網絡 (Deep neural network,DNN)為基礎框架,主要包括卷積神經網絡 (Convolutional neural network,CNN)[37-41]和循環神經網絡(Recurrent neural network,RNN)[42-43,46].T-CNN (Tublet CNN)[37]借用Faster RCNN 中RPN (Region proposal network)的高效結構,提出Tubelet 結構關聯上下文特征,即通過光流法得到的在連續多幀中同一目標識別矩形框,并采用LSTM (Long short-term memory)[46]網絡作為分類器完成分類.此方法能夠抑制虛景目標,提升正樣本的識別概率,但對于小目標召回率較低.DFF (Deep feature flow)[38]使用基于深度網絡框架的FlowNet[33]方法提取光流特征,通過目標運動過程聯系上下幀并篩選關鍵幀,節省了對非關鍵幀特征提取和識別的計算過程.Zhu 等[39]在像素級 (Pixel-level)融合通過FlowNet計算得到的光流區域的特征圖,融合相鄰多個特征圖并輸入到最終的判別網絡中.與以上兩個工作類似,本文方法也采用了光流法提取上下幀目標的運動過程,但并非綜合運動過程中變化的外觀特征,而是重建目標運動過程中的運動學參數.Bertasius 等[40]引入可變尺寸卷積 (Deformable convolution)對上下幀中目標運動引入的額外特征進行融合,而非采用光流聯系上下幀.Luo 等[41]融合區域級特征(Proposal-level)而非像素級,其考慮候選區域內的語義特征,并綜合相鄰兩幀語義特征、位置特征以及時間特征完成識別,取得了ImageNet VID[47]數據集中的最優性能.以上方法主要以Faster RCNN或RPN 為主要框架,近年來,以RNN 為框架的方法[41-44]在計算效率以及精度上也達到了較高水平,Xiao 等[42]利用ConvGRU結構融合時空特征,在ImageNet VID 數據集上,曾取得最優性能.Chen等[43]提出的基于ConvLSTM[44]和SSD (Single shot multibox detector)[26]網絡結構,并融合注意力機制的方法,綜合了多尺度的特征 (像素級和目標級),是目前綜合計算速度與精度的高性能方法.本文方法也采用了基于RNN 結構的GRU (Gated recurrent unit)網絡[43-44]作為分類器,但其輸入為運動參量,而非圖像.
特別地,對于 “低慢小”目標的混合識別方法,Lv 等[29]通過融合時空兩種特征,完成了對弱小飛行器目標的探測;Shi 等[36]提出采用改進粒子濾波的方法探測低速飛行小目標,對于海面背景的飛行器目標來說,其相較與分型方法 (Fractal-based)和三特征方法 (Tri-feature-based)性能更佳.對于無人機目標來說,Farhadi 等[23]提出將前景檢測結合目標形狀進行識別的方法,在綜合指標上,取得了AVSS2017[14,16,23]方法中第二高精度的性能.Sapkota 等[19]提出利用級聯檢測的思路,識別無人機后利用混合高斯概率假設密度濾波器跟蹤無人機飛行軌跡,實現了兩架無人機的實時跟蹤.Rozantsev等[15]融合了表觀特征以及運動特征,利用目標運動補償來提高識別精度,即通過決策樹和卷積神經網絡估計目標在像平面的運動,進而采用卷積神經網絡識別獲得的圖像立方體中的目標.該方法在其提供的測試集中取得了目前最優結果.但該方法未考慮多干擾目標和多類別的識別,難以應用在實際場景中.
相較于以往工作,與文獻[15]相似,本文方法也基于融合表觀和運動特征的思想,采用了文獻[6,32-36]中所涉及到的光流法進行運動特征提取,并利用文獻[42-43,46]等工作中提及的GRU 網絡完成目標判別.但不同的是本文從運動學角度直接提取目標的運動特征,而非僅采用運動特征輔助串聯前后幀表觀特征的提取.并且本文采取決策融合的方式而非特征融合,這樣能針對性地充分考慮運動和表觀兩個不同維度的特征.從算法適用條件及精度來說,以往工作都在一定程度上實現了無人機的跟蹤和目標的識別,但基本都要求單一純凈背景下的單目標作為前提條件.而對于低空干擾目標較多、背景較復雜這一現實約束,這些方法均無法做到高精度識別.此外,以往工作均采用對常見物體識別使用的通用框架,并未意識到無人機 “低慢小”的特殊之處,也未對此特點加以利用.在構建相關實驗數據集時,也未考慮無人機的特征,涵蓋的飛行場景較少.
本文以典型四旋翼無人機探測為目標,綜合其表觀和運動特征,提出了一種基于目標多階運動參量的識別方法 (Multi-order kinematic parameters based detection method,MoKiP).本文中,多階運動參量是指一個運動參數的集合,包括零階運動參量(表觀特征),一階運動參量(速度、角速度),二階運動參量(加速度、角加速度),以及更高階的運動參量.
如圖1 所示,該方法的核心思想如下:首先提取并跟蹤運動候選區域,并估計候選區域的深度信息,然后計算出相應的非零階運動參量,之后,采用梯度提升決策樹以及記憶神經網絡完成基于運動特征的短期和長期識別.同步地,采用Faster RCNN[12]深度網絡對零階運動參量(表觀特征)進行識別.最后,將零階和非零階兩部分識別結果,按照識別概率加權平均融合,得到最終的判別結果和類別概率.

圖1 本方法整體流程圖Fig.1 The overall flowchart of our method
實驗證明,在目標像素較少、背景復雜以及干擾目標較多的情況下,相比于以往方法,本文提出的方法具有更高的識別精度.此外,通過靈敏度分析,本文進一步定量分析了各階運動參量對識別精度的貢獻程度,并發現二階參量、重力方向參量是識別過程中影響較大的重要特征.
本文的主要貢獻如下:
1)提出基于多階運動參量的 “低慢小”識別方法.較好地處理了低空、復雜背景以及多目標場景下的識別問題.
2)發現了二階運動參量以及沿重力方向的運動參量最能反映無人機與其他干擾目標在運動特征上的差異.
3)建立了多尺度無人機數據集.包含四旋翼無人機以及行人、車輛、鳥類等干擾目標的相關數據.并為其它干擾目標進行了數據采集和標定.
本文在充分挖掘無人機運動信息的基礎上,提出了一種基于多階運動參量判別融合的無人機識別方法.其輸入為場景的視頻片段,輸出為目標的識別矩形框和所屬類別概率.該方法的流程如圖1 所示:首先,利用ViBe+(Visual background extractor)[30]法,提取候選運動區域.然后,分別提取無人機的表觀特征和運動特征,并分別根據這兩類特征識別目標類別.最后,融合兩個識別結果,給出最終識別的概率.
本文中定義物體的表觀特征為零階運動參量.其處理流程如圖1 下半分支所示.利用Faster RCNN 深度神經網絡,根據輸入視頻獲得目標圖像特征的識別矩形框和類別概率.圖1 上半分支根據目標運動特征,即非零階運動參量進行識別.該方法首先利用ViBe+法提取運動區域,其次,通過單目估計或物理測量等方法獲得運動目標區域深度值.之后,根據深度圖,估計運動區域內目標的零階以上運動參量.然后,訓練得到基于運動參量的GBDT決策樹 (Gradient boosting decision tree)[48]和GRU (Gated recurrent unit)[46]記憶網絡,分別實現對無人機的短時和長期的識別,并得出識別矩形框和所屬類別概率.最后,將零階和非零階兩部分識別結果,按照識別概率進行加權平均融合,得到最終結果和類別概率.
零階運動參量代表了目標 “不動”時所傳遞的信息,也就是其表觀特征.以往工作中已經有了很多成熟有效的算法[11-13,26,46,49]進行表觀特征提取,本文采用了以提取區域候選網絡 (Region proposal network,RPN)為前端的兩階段Faster RCNN[12]神經網絡.其在Pascal VOC[11]、ImageNet[47]等公開數據集中,均取得了最優性能 (State-of-the-art,SOTA).本文使用基于Resnet101[49]框架的Faster RCNN 網絡,以獲得目標識別的矩形框,以及5 類目標的識別概率.所采用的Resnet101 結構在ImageNet 數據集中預訓練,并在本文多尺度無人機數據集 (Multi-scale UAV dataset,MUD)中參數細調 (Fine-tune).對于RPN 網絡的訓練,尺度參數設置為5 (2,4,8,16,32),3 個矩形框比例分別設為(0.5,1,2),總共15 個錨 (Anchors).在訓練時,使正負樣本數比例達到1:1.
在使用本文融合方法進行識別時,采用按訓練識別概率加權[50]的方法,融合基于零階與下文非零階的識別結果,得到最終判別結果.具體來說,對于某一候選區域、某一類別的識別概率為分別采用零階、非零階運動參量方法識別得到的概率按測試集(在調參時按訓練集)準確率加權求和的結果.若某一區域僅被零階或非零階中的一種方法所識別,則另一方法識別概率按零計算.
圖2 給出了基于非零階運動參量識別的詳細流程,其輸入為運動區域的圖像流,輸出為識別得到的識別矩形框與類別概率.以下各小結將根據運動特征識別的流程,依次闡述識別過程中的各個環節.主要包括目標運動區域提取、運動參數辨識、候選目標姿態測量、目標類別與運動參量的條件概率密度函數估計等.其中,參數辨識過程包括了相機運動的識別與補償、水平面估計、深度估計等.對于條件概率密度函數的估計,本文利用梯度提升樹完成相鄰幾幀的短時識別;利用GRU 記憶網絡完成長時識別.在描述每一步處理的過程中,本文也將分析每個環節對最終識別效果的影響.

圖2 基于多階運動參量的目標識別方法流程圖(MoKiP)Fig.2 Flowchart of multi-order kinematic parameters based detection method (MoKiP)
1.3.1 運動目標區域提取
疑似目標區域提取是本文所述識別方法的第1 步.在無人機識別問題中,目標所處的環境復雜多樣,反映到圖像,則會導致目標圖像具有背景變化劇烈、多目標的特點.所以本文采用目前在多數常見場景都具備高召回率的ViBe 改進算法ViBe+[30]提取運動區域.其主要流程為:
1)背景初始化建模
給每一個像素點建立像素樣本集.一般為從該點鄰域以及過去時刻鄰域像素中隨機選取20 個點.鄰域點即與該像素點相鄰的8 個像素點.
2)前景檢測
設置閃爍閾值以及更新因子.對于本時刻某點鄰域內,若鄰域點中像素值大于閃爍閾值的點的個數超過更新因子,則將該點設為前景點.
3)背景模型更新
某像素點只有被分為背景樣本時,才能被包含在背景模型中,而前景點不能被用于構成背景模型.更新過程遵循時間和空間的隨機性.空間隨機性是更新的像素隨機替代樣本中任意像素,時間隨機性是指當一個像素點被判定為背景時,它有 1/rate的概率更新背景模型.rate為更新因子,根據更新需要設置為1、5 或者16 等值,由于本文所涉及的場景背景有較快速變化,此處設置rate=5;如果某個像素點連續N次被檢測為前景,則將其更新為背景點,一個像素點在本時刻不被更新的概率為(N-1)/N,在本文設置N=15.
另外,加入關于Ghost 區域的消除、除去不完整目標、自適應閾值等改進,其余參數詳見文獻[30].通過Vibe+方法提取的運動區域如圖3 示意.
Movi表示提取出的運動區域(目標包絡線以內);如圖3 所示,采用一個能夠包含此區域的最小矩形包圍框,作為待檢測目標區域候選矩形框.則候選窗口可以用式(1)表示:

圖3 運動區域提取示意圖Fig.3 An illustration of the extracted motion ROI(Region of interest)

其中,Rec(t,Movi)表示在t時刻包括運動區域i的最小矩形框;Rm為最小矩形框所形成的二值掩碼矩陣.
1.3.2 運動參量辨識
快速且精確的運動參量辨識過程是本文提出方法的核心.如不加特殊說明,本文中所有運動參量均以地面坐標系為基準(X軸與圖像平面坐標系中u軸方向保持一致,Z軸鉛垂向上,Y與X和Z軸構成的平面垂直,構成右手坐標系),并根據其相機坐標系下的測量分量,通過水平面估計矩陣轉換至地面坐標系下對應的分量.本節所述的一階和二階運動參量包括三軸平動速度、三軸角速度,以及對應的加速度、角加速度.三階及三階以上的參量較為特殊,將在第3.6 節中單獨闡述.
本文假設相機始終保持靜止.對于場景中的運動目標,首先獲取目標運動區域內的深度值;然后,進行水平面的矯正;最后,采用差分估計提取得到目標的運動參量.
1)運動區域深度圖
目標在圖像平面內的運動和其對應的深度值共同決定了目標在三維空間內的真實運動規律.因此需要首先獲取目標的深度信息.
目前獲得深度圖的手段有激光測距、立體視覺、圖像估計等方法.根據不同識別場景的需求,應選取不同方法獲得深度圖,在獲得的深度圖中,每個像素代表該圖像位置的深度值,此外還可能包含深度測量的置信度或誤差等信息.對于常見的識別場景,從圖像中直接估計深度信息的方法具備更強的適用性,所以本文選擇采用目前單目深度估計方法中具備最佳精度的DORN (Deep ordinal regression network)[51]方法.
2)水平面方向估計
考慮到相機仍存在旋轉,為了更加準確的估計運動參量,需要補償相機旋轉對參量估計的影響,修正深度方向至與相機所在世界坐標系保持一致.本文采用改進隱馬爾科夫[52]方法進行估計,獲得水平面旋轉修正矩陣.該方法能夠在多種場景下魯棒地估計水平面方向,并具有相比于以往文獻較高的精度.對于本文的識別問題,當探測場景為低空場景時,直接采用此方法進行水平面修正.而當探測場景為對空場景時,場景中無地平線作為參考,因此無法獲取估計所需的特征.此情況下,可近似認為深度方向即為海拔高度方向.
3)一階和二階運動參量提取
根據以上章節獲得的候選區域逐點深度信息,及其在像平面內的軌跡,本節將從這些信息中提取運動區域內目標的特征點,然后計算其一階和二階運動參量.
首先,本方法采用具有快速和魯棒特性的ORB (Oriented fast and rotated brief)[53]算法提取Movi內的目標特征點.設當前第t幀中運動區域Movi內提取的第i個特征點 (ORB 算法具備足夠檢出速度和特征點魯棒性) 在圖像坐標系下為深度為, 其在t-1 幀,對應的匹配點為其深度為其在t+1幀對應的匹配點為深度為相機焦距為f,幀率為F,總共特征點個數為N,根據相機幾何,則此時刻第i個目標特征點在三維空間中的坐標為,相機坐標系下坐標為.
運動區域Movi內待提取的運動參數ρ=(v,a,ω,α),分別代表目標運動的平動速度,平動加速度,角速度,角加速度矢量,即目標作為剛體運動時的運動學參數.為估計這些運動參量,第1 步是獲得目標的位移向量以及旋轉矩陣

若運動區域內相鄰幀匹配特征點N≥4 時,采用EPnP (Efficient perspective n point)[54]方法,則空間中點其圖像中匹配點為ui=(xi,yi), 四個控制點的坐標為cj,j=1,···,4,世界坐標系下的任意三維點可表示為

通過齊次質心坐標αij,將上式可以寫成齊次坐標形式


則對于任意匹配的空間三維點Pi,相機投影模型可重寫為如下形式

根據相機投影模型(5),在不考慮外參數矩陣[R|T]的情況下,求解控制點在相機坐標系下的坐標,消去式(5)中最后一行.

其中除相機內參數fx、fy、cx、cy,以及已知匹配點坐標ui=(xi,yi) 外,4 個控制點共計12 個未知參數.根據中間變量法以及近似線性化的約束,將所有N個特征點作為輸入,可以解得P0,得到質心坐標.于是,問題就簡化為點匹配的ICP (Iterative closest point)問題,即將質心偏移矩陣SVD 分解,得到本時刻的旋轉和平移矩陣 [Rt|T t],詳細計算過程參見文獻[54].
根據所獲得的平移和旋轉矩陣,則本運動區域在當前時刻的速度vt,沿第1.3.2 節約定的X、Y、Z軸三方向的分量分別為則

對于已得到的速度向量,根據中心差分,設at三方向分量為則

由式(2)~(8),本文獲得了候選目標的平動參數.
對于轉動參量,由羅德里格斯變換,相鄰兩幀的旋轉角度φ為

其中, tr(Rt)為矩陣Rt的跡.則根據式(9),轉軸u=(ux,uy,uz)(單位向量)的反對稱矩陣 [u]x為

其中,RT為R的轉置.則角速度ωt可表示為

基于此,采用中心差分,角加速度可表示為

至此就得到了目標所有的一階與二階運動參量.
1.3.3 運動參量決策樹
至此,用于描述物體運動特征的一階與二階運動參量都已獲得.在本節中,本文將基于運動參量建立無人機識別模型.由于參量數量較多且相互關系復雜,直接估計每一類別關于運動參量的后驗概率較為困難(其中,參數分別為目標的速度、加速度、角速度以及角加速度).因此,本文方法將識別過程分解為短期和長期兩個步驟.短期預測以快速檢測為目的,對于輸入視頻完成實時處理,適用于實時性要求較高的場景.長期識別以高精度檢測為目的,當在視頻時長足夠的情況下,確保算法具備較高的識別精度.
其中,梯度提升樹(Gradient boosting decision tree,GBDT)完成短時識別并篩選關鍵運動參量.而具有更高識別精度的LSTM 網絡則被用來完成長期識別.該方式能夠根據需求選擇不同的針對性方法,在實時性和高精度之間保持較好的平衡.
當前幀以及相鄰前兩幀的所有運動學參數共計36 個,以這些參數作為分量建立描述這些參數的GBDT 分類樹.選擇CART 樹作為弱分類器,采用交叉熵作為損失函數

其中,Xk={0,1}表示是否屬于第k類,1 表示是,0表示否,k=1,2,···,K為總共類別數(本文類別包含四旋翼無人機、行人、車輛、鳥類、以及其他,共5 類,則K=5 ),ρ=(v,a,ω,α) 為所采用的運動參數.pk(ρ) 為該樣本屬于每個類別的概率

對于輸入的訓練T={(ρ1,X1),···,(ρN,XN)}的每個樣本i=1,2,···,N,其偽殘差為

利用 (ρi,rk,i)(i=1,2,···,N) 擬合一棵分類CART (Classification and regression tree)樹[48],得到第m=1,2,···,M棵樹共J個葉子節點權值的最佳負梯度擬合值為

則更新強分類器為

其中Fk,m(ρ)為更新得到的強分類器,1(ρ∈Rm,k,j)表示當前參數節點是否屬于本次迭代殘差構建的CART 樹的葉節點.
當殘差滿足一定數值或達到迭代次數時,決策樹構建完成.第2.5 節將分析設置不同參數對識別性能的影響.
本文所提出的多階運動參量識別方法(Multiorder kinematic parameters based detection method,MoKiP)需要目標存在足夠長的運動行程以提取運動學參數,并要求輸入視頻盡可能達到較高的幀率.因此,本文采集補充了以往數據集中缺失的若干常見場景數據,共同形成無人機多階運動參量數據集 (Multi-scale UAV dataset,MUD).本文將在該數據集上分析MoKi 算法的有效性并從識別精度上與以往方法進行對比,得出本文方法的優缺點.
本文實驗所使用數據包括兩部分:1)公開數據集;2)本文采集的近地UAV 數據集.本文將獲得的視頻以是否包含地面分為兩大類,一類是近地場景,一類是對空場景.近地場景的視頻中包含部分地面以及地面物體,如建筑、植物等;對空場景的視頻中,背景完全為天空,不涉及地面部分.
公開數據集包括AVSS2017 無人機識別挑戰數據集 (Drone-bird dataset,DBD)[23]以及運動相機飛行器探測數據集(UAV-aircraft dataset,UAD)[15].其中,DBD 包含6 段對空無人機飛行的視頻,共2 130幀,背景簡單,干擾目標為鳥類;UAD 包含20 段無人機和飛行器近地飛行的視頻,共4 000 幀,背景相對復雜,但無干擾運動目標.
以上數據集中考慮了四旋翼無人機外觀和光照的多樣性.但對于無人機常見飛行場景來說,其他影響識別的重要因素,如多種干擾目標、目標尺度多樣性、不同遮擋程度、不同背景復雜程度等都未得到體現,因此不能充分反映無人機在日常場景中的飛行特性.
所以,在此基礎上,本文以目標尺度為依據,補充了室內場景、城市場景以及部分野外場景的無人機飛行視頻.新加入的數據集不僅包含目標類別和矩形框等簡單標注,而且還標記了目標的深度信息、飛行高度、相機拍攝角度以及運動參數等,形成多尺度無人機數據集 (Multi-scale UAV dataset,MUD).
干擾目標的數據來自于KITTI 車輛檢測數據集[55]、RGB-D Pedestrian 行人檢測數據集[56]、MoveBank[57]和NABirds 鳥類飛行探測數據集[58].表1 對比了本文采集的數據、標注情況,以及常見數據集.本文所采集數據的部分圖片如圖4(c)所示,所涉及的主要采集設備以及參數如表2 所示.

表2 MUD 數據集采集設備說明Table 2 Main equipment for acquisition of multi-scale UAV dataset (MUD)

圖4 本文實驗所用數據集示意圖Fig.4 Illustration of parts of MUD used in our work

表1 本文所采集數據與其他運動目標數據集的對比Table 1 Comparison of different datasets for moving objects
本文所采集數據集相比于以往無人機和常見數據集,增加了姿態、深度、視角、遮擋以及誤差的標注信息,其中誤差信息為采集設備的誤差.本文所涉及的目標以及干擾目標為無人機、行人、車輛、鳥類.此外,為了更好的使用這些數據,本文以是否包含地面為標準,將這些視頻重新組織為兩大類,一類稱為近地場景,即圖像中包含部分地面以及地面物體,如建筑、植物等;一類是對空場景,背景完全為天空,基本不包含可識別的地平線特征.
作為本文方法流程的第1 步,根據第1.3.1 節的方法,采用運動目標提取Vibe+[30]法中設置參數前景孔洞最小尺寸為5 像素,每像素樣本量為10,其余參數與文獻[30]中保持一致.得到提取運動目標區域以及相機運動補償結果如圖5.
圖5 為室外/室內兩個場景下運動區域提取結果.其中標出的矩形窗口為獲得的待識別目標的區域.由于目標為獲得更高的召回率,或在召回率相近的情況下,提取出的運動區域更少.所以,為對比不同運動提取方法,所有采集視頻被劃分為固定長度片段,并以召回率、矩形框數量以及單位數量區域下的目標召回率(單位召回率)為指標,對比不同方法得到下表3.

表3 運動目標區域提取算法性能對比Table 3 Comparison between performance of different motion ROIs

圖5 運動目標區域提取結果圖Fig.5 Extraction result of motion ROIs
從3 個指標來看,Vibe+法具有更高的召回率.幀差法和光流法雖召回率也較高,但召回的假目標較多,單位召回率較低;混合高斯法召回率較低.所以對于隨后的處理和識別,本文采用Vibe+法作為待識別區域提取的方法,并采用高斯混合概率假設密度濾波算法 (Gaussian mixture-probability hypothesis density,GM-PHD)方法對其進行跟蹤,算法實施過程中目標檢測概率、目標生存概率、平均雜波數、高斯元門限值等參數與文獻[62]中保持一致.
按第1.3.2 節所述,利用DORN 方法估計場景深度.對MUD 數據集中街道場景中某幀計算得到的深度圖如圖6 所示.其中深度真值為數據集中的標注值或通過激光測距的測量值.
圖6 中,(a)為輸入圖像,(b)為深度估計結果,(c)為目標區域深度真值.其中白色區域為深度超過100 米的位置,可以認為無窮遠背景,不予計算;對比估計結果與真值圖可以看出,對于遠處行人以及空中無人機,深度的估計結果與真值相符,以下將具體給出該算法以及其他算法的估計誤差.

圖6 深度估計結果圖Fig.6 Result of depth estimation
表4 以不同估計誤差參數對比了目前不同深度估計方法在本文所采用數據中的估計精度,其中誤差參數定義如文獻[51].其中誤差項參數越小精度越高,涉及δ的誤差項越大精度越高.從表中可以看出,相比于激光測距的精度,深度估計的算法誤差隨對探測距離的增加而明顯增大.多目視覺方法在近距離的深度測量中具備較高精度以及較低的時間復雜度,但隨深度的增加深度測量精度嚴重下降,更適合于在室內場景中使用.DORN 方法具有當前方法中最佳的精度和魯棒性.

表4 不同深度估計方法誤差對比Table 4 Error of different depth estimation methods
深度估計的方法亦可根據場景和需求選擇其他方法.
根據以上小節所得到的運動區域深度值,利用第1.3.2 節中的估計方法,可以提取出運動區域中的運動參數ρ=(v,a,ω,α),對于各個運動參量的定義和坐標設定與第2.3 節中保持一致.運動參數以及姿態真值由無人機自帶的實時動態差分系統(Real-time kinematic,RTK)以及運動捕捉系統(Motion capture system,MCS)給出.其測量精度為:當GPS 正常工作時,垂直方向定位精度為±0.5 m, 水平方向定位誤差為±1.5 m;若視覺定位也正常工作,則垂直方向定位精度為±0.3 m,水平方向定位誤差為±0.5 m.
從圖像中提取的參數,其與標定值誤差如圖7所示.表5 中為圖7 各參數的說明.圖7 中分別為目標速度、加速度、角速度、角加速度的三方向分量的估計誤差以及空間定位誤差,其中紅色標點為典型異常值,右表為圖中各符號說明.圖中,采用本文方法估計得到的速度、加速度、角速度、角加速度的最小誤差、最大誤差以及平均誤差百分數分別為:0.0,12.7,3.4 (速度參量);0.1,20.1,6.9 (加速度參量);0.0,21.2,8.3 (角速度參量);2.1,27.8,12.1 (角加速度參量).從整體來看,平動參量(速度、角速度)估計誤差低于轉動參量(角速度、角加速度),估計精度更高;一階參量(速度、角速度參量)的X、Y、Z三方向分量估計精度相比于相應的二階參量具有更高的精度.運動參量在X、Y軸方向分量的估計精度相比于Z軸相應參量分量的精度更高,估計誤差的標準差也更小,所有參量中,速度參量的X、Y軸分量的估計精度最高,誤差在5%以下;角加速度參量的Z軸分量誤差最大,約為20%.

表5 圖7 中參數對照表Table 5 Illustrations of parameters in Fig.7

圖7 運動參量估計誤差箱圖Fig.7 Boxplot for motion parameter error estimation
由于平動為無人機運動的主要方式,反映在圖像中,目標的特征點在幀間產生明顯的位移,定位的偏差相對于目標的位移相對較小,所以估計誤差相對較小.而因轉動產生的特征點位移較小,對特征點定位精度敏感,定位誤差產生的轉動參量估計的偏差會更大.
另外,二階參量估計是在一階參量基礎上完成的,所以一階參量的估計誤差會累積到二階參量的估計中,導致二階參量的估計誤差更高.
2.5.1 基于運動參量的梯度提升樹模型的識別結果
本文采用決策樹模型,利用運動學參數進行目標識別.根據文獻中常用參數搭配[48]通過網格搜索法(Grid search)選擇較優的參數組合,設置不同的決策樹深度D、決策樹數量M(弱學習器最大數量)、葉子結點數量J,獲得訓練集上識別精度最高的參數組合.在不同參數取值下得到無人機分類器判決接收者操作特征曲線 (Receiver operating characteristic curve,ROC) 如下.其橫坐標為假陽率(False positive rate),縱坐標為真陽率 (True positive rate),用于評價模型的判決能力.ROC 曲線下面積 (Area under curve,AUC)值在 0~1 之間.越大其分類正確率越高.
如圖8(a)、(b) 為設置不同的D、M、J參數時,梯度提升樹訓練后的ROC 曲線.圖8(a)中為按訓練后分類器的性能得到若干典型參數組合;圖8(b)中為獲得固定D、M、J參數中的兩個時,另外一個單一變量對ROC 曲線的影響,用以篩選出最優參數.在圖8(b)中,當固定M、J參數時,隨D(決策樹深度)的增大,ROC 曲線上移,說明分類器的準確率上升,但當增加到D=20后,再增大D,ROC 曲線不再上移,說明該分類器接近性能上限;當固定D、J參數時,隨M(決策樹數量)的增大,ROC 曲線持續上移,曲線下面積(Area under curve,AUC)從0.580 上升至0.825,但上升的幅度越來越小,M=80至M=100 相比于之前相鄰曲線面積增加的0.134,下降至0.065,增長率從16.2%下降至6.7%;當固定M、D增加J(葉子節點數量)時,ROC 曲線仍上移,但當增至J=128 時,增長率相比于之前增長率下降至7.1%.總結圖8(a)、(b)中各參數組合的ROC 曲線,為盡量保證訓練時分類器具備較高精度,并防止過擬合現象,最終梯度提升樹的參數值為D=20,M=80,J=64 (其曲線下面積AUC 值為0.812).學習率設置為0.6,子采樣系數設置為0.8,損失函數為對數損失.以下是在該參數組合下,不同場景目標的識別結果.

圖8 不同參數組合的ROC 曲線單參數變化時的ROC 曲線(左中右分別為 D、M、J 單獨變化)Fig.8 ROC curves of different GBDT parameter combinations (The subplots from left to right are corresponding to D、M、J respectivly)
圖9 為室內、對空、以及低空野外3 個不同場景下的識別結果示意.場景中除目標外,同時還包括本文所涉及的主要干擾目標,包括鳥類、行人、車輛和其他干擾目標.不同目標以不同顏色予以標識,并給出識別結果以及類別概率.從后兩段識別結果來看,即使外觀特征不顯著的情況下,本方法也能夠在運動過程中動態辨識目標,類別概率會隨著目標的運動而變化.當出現典型的運動方式時,符合該運動方式的目標類別概率會明顯上升,錯誤的類別概率就會逐漸下降,當類別概率超過50%時,則框出該目標為此類別.為消除系統累積誤差,本方法將在每20 秒初始化1 次.

圖9 基于運動參量決策樹的無人機識別結果Fig.9 Results of MoKiP by using GBDT
訓練得到的包括無人機、鳥類、行人、車輛以及其他類別的多分類器,其混淆矩陣如表6 所示.其中數字表示預測正確的樣本所占該類樣本總數的比例.從表中可以看出,無人機、行人、車輛的識別精度較高;鳥類的識別精度最低,混淆率較高,更容易與無人機以及其他物體飛行物體所混淆.相比于鳥類,無人機的識別精度更高,不易被其他飛行物體所干擾,但其主要干擾目標仍為鳥類.行人和車輛識別精度最高,主要由于其運動復雜度低、運動變化少,運動特性明確.總的來說,根據運動參量決策樹對本文涉及的類別識別正確率(對角線數值)均能達到0.55 以上.

表6 運動參量的決策樹模型識別結果混淆矩陣Table 6 Confusion matrix of MokiP by using GDBT
2.5.2 與以往方法對比分析
為對比本方法與以往不同方法的識別性能,本節以PR 曲線 (Precision-recall curve)和識別精度AP (Average precision)值為指標[11-17],給出本方法與目前幾種主要 “低慢小”運動目標識別方法的性能對比,如圖10 所示.
在圖10 繪出了包括本文方法在內的多種目前具備較優性能的 “低慢小”識別方法在所述MUD數據集上的識別PR 曲線,所涉及方法為:基于深度光流特征的FlowNet 2.0[34]運動特征方法、Xiao等[42]采用ConvGRU(RNN)結構融合時空特征的混合方法、Schumann 等[17-18]基于Faster RCNN[12]并根據四旋翼無人機訓練的改進表觀特征方法、Luo等[41]引入語義信息關聯相鄰幀目標框的時空特征混合方法(ImageNet VID 數據集中目標的最優方法SOTA)、Rozantsev 等[15]引入相機補償的改進Faster RCNN 方法(四旋翼無人機目標識別的最優方法SOTA)以及本文MoKiP 方法采用GBDT、GRU 神經網絡的兩種實現和融合方法.圖中每條PR 曲線繪出隨某算法召回率上升時,準確率的變化情況.每條曲線頭部保持平直,準確率基本保持不變,保持在高準確率;當到達轉折點時開始下降,尾部為下降過程.
圖10 中曲線頭部為識別方法能夠達到的最高準確率.對于本文所研究的目標和數據集,以往基于運動特征的最優方法FlowNet2.0[34]的最高準確率為0.68,基于表觀特征的最優方法Luo[41]的最高準確率為0.83,混合方法中的最優方法,即目前最優方法Rozantsev[15]的最高準確率為0.88.本文基于運動特征的方法(非零階運動參量)最高準確率為0.76,混合方法最高為0.92.通過對運動特征的充分提取和細化,相比與以往基于運動和混合方法,本文方法在最高準確率(曲線頭部部分)分別有0.06和0.04 的提升.但是基于非零階運動參量的方法相對于以往表觀識別方法[18,41],曲線頭部準確率有0.06 左右的下降.這是由于,在低召回率的情況下,最先被召回的目標主要是像素量高、細節豐富的目標,直接利用深度網絡的表觀識別方法精度更高,

圖10 不同識別方法的性能對比圖Fig.10 Comparison of performance for different detection methods
圖10 表示出本文多階運動參量融合識別方法PR 曲線在準確率下降到95%時的轉折點位置.結合表7,根據95%轉折點位置可以看出,以往方法最大值位置為Recall=0.57 (方法[42]),本文基于非零階和多階運動參量的95%轉折點分別為Recall=0.73和Recall=0.82.以往方法的PR 曲線(方法[15,18,34,41-42])都位于本文方法PR 曲線的左側,說明本文方法隨召回率升高仍能保持較高的準確率,魯棒性強.在高召回率時主要為以往方法難以識別的困難目標,其主要表現為微像素量(目標總像素量少于150)、外觀呈現形式多樣、遮擋部分多,往往出現在多目標干擾的復雜背景中.但這些在表觀特征中的識別困難,在本文通過運動參量形成的運動特征空間中,不同目標的運動模式差距較大,而同類目標即使外觀的千差萬別,卻具備相似的特征運動模式.

表7 不同識別方法性能指標對比表Table 7 Comparison of performance indexes for different detection method
PR 曲線95%轉折點后下降部分為其尾部.本文采用尾部下降梯度參數衡量識別方法退化速度,即由95%轉折點下降至準確率為0.1 位置連線的斜率,見表7.以往工作中具備較高精度的神經網絡方法,包括文獻[15,18,24],尾部下降梯度大于10,當在網絡中加入語義以及時空約束后,方法[41]尾部梯度為7.70,相比于直接采用神經網絡方法梯度下降較小.以運動特征為基礎的方法[34]以及以RNN 為基礎框架的方法[42],尾部梯度分別為2.87和2.34,具備最緩的下降速度,魯棒性強.本文基于非零階運動參量的方法和多階運動參量方法尾部梯度分別為5.34 和6.54,為文獻中最優方法[15](尾部梯度為14.10)的40%左右,下降速度更慢.這說明隨著目標識別困難的增加,本文識別方法退化速度慢,魯棒性強.
以下,本文從具體指標上,對比了不同 “低慢小”識別方法,如表7 所示.
表7 比較了本文與以往文獻方法在AP 精度(AP50、AP90)、95%轉折點、尾部梯度等參數上的性能差異,AP 精度數值皆為百分數.其中,文獻[34]為基于運動特征的識別方法;方法[18,24,41]是以深度卷積網絡為框架的基于表觀特征的識別方法,文獻[42]為以RNN 為框架的混合識別方法;文獻[15]為融合運動與表觀特征混合的最高精度方法.從表中可以看出,本文根據四旋翼無人機非零階運動參量(運動特征)的識別方法相比于當前最優運動特征方法[34]、最優表觀特征方法[41]和最優混合方法[15]分別提升33.4 (103%)、8.4 (14%)和3.5 (5%).本文融合表觀特征和運動特征的多階運動參量方法在AP 識別精度上達到78.5,相比于當前具備最高精度的混合方法[15],提升了16.4 (26%).進一步從AP50、AP90 精度來看,即當IoU 閾值分別設為50%和90%得到的識別AP 精度值,當前最優方法[15]僅在AP50 指標上具備較高精度,其余指標皆為本文方法更優.總的來說,從各項精度指標來看,本文提出的多階運動參量識別方法(MoKiP)對于四旋翼無人機目標相比于以往方法具備更高識別精度.
為進一步分析不同運動參量對識別精度的影響,本節對上文所獲得決策樹中的不同運動參量進行統計,并分別使用不同的參量組合對目標進行識別,最終得到不同運動參量對識別的敏感度分析.
圖11 是根據第1.3.3 節所述過程以及第2.5.1節參數訓練得到的一棵決策樹,紅色和藍色分別是根據一階和二階運動參量的預測分支.

圖11 訓練得到的梯度提升樹示意圖Fig.11 A single tree from the trained GDBT
每個節點包括本分支的樣本總量、各類別樣本數量、基尼系數以及判別條件.
對訓練得到的所有決策樹,按照運動參量的階數以及性質進行統計,通過基尼系數衡量每一類運動參數對識別的重要程度,則參量貢獻度D被定義為:

Giniρ為在所有訓練得到的決策樹中采用某類參量ρ為切分變量的節點的基尼系數.按參量不同性質,得到參量貢獻度占比表,見表8、表9 所示.

表8 運動參量的性質對無人機識別的影響表Table 8 Impact of the parameter properties on UAV detection

表9 運動參量的方向對無人機識別的影響表Table 9 Impact of the parameter direction on UAV detection
表8 中所涉及的一階參量包括速度、角速度,二階參量包括加速度、角加速度;平動參量包括速度和加速度,旋轉參量包括角速度和角加速度.其中一階平動參量和旋轉參量分別占7.2%和20.1%的貢獻度;二階平動參參量和旋轉參量分別占34.1%和38.6%的貢獻度.在表中所涉及的參量中,一階平動參量貢獻度最低,二階旋轉參量貢獻度最高,相同階數的旋轉參量比平動參量貢獻度更高.從總和來說,二階運動參量對本文提出模型的貢獻度最大,達到72.7%;一階參數貢獻度為27.3%,僅為二階參量的38%,說明在識別過程中二階運動參量起了更重要的作用.從運動方式來說,旋轉參量相對于平移參量,能更大程度上反映出目標的特征.綜上,二階參量是無人機識別過程中的重要參量,精確估計二階旋轉參量是本文識別方法的基礎.
表9 顯示了運動參量的方向性對識別的影響,其中所述沿X、Y、Z軸方向參量與第1.3.2 節保持一致.表中沿X軸方向平動參量貢獻度最小為8.3%,沿Z軸(即重力方向)方向的平移參量貢獻度最大為24.2%.沿X軸和Y軸的運動參量在各貢獻度數據上都相近,并均低于相應Z軸方向運動參量,其中平移參量在數值上低15.4%,旋轉參量低3.4%.從總貢獻度來看,Z軸方向參量總貢獻度比Y軸總貢獻度高68.1%.這說明Z軸方向運動參量為識別過程中的主要參量,沿Z軸方向的運動是無人機區別于其他目標的主要運動方式.
進一步,本節通過剝離實驗,采用不同的運動參量組合對四旋翼無人機進行識別,獲得以下識別結果.
圖12 中,圖12(a)、(b)為采用本文所涉及的一、二階運動參量組合進行識別的結果;圖12(c)、(d)為采用二階以上高階運動參量識別結果.圖中X、Y、Z軸方向與第1.3.2 節中保持一致.圖12(a)為單獨采用單一運動參量(分量)進行識別的結果,其中藍綠黃色分別代表沿運動參量X、Y、Z軸分量結果.其中單獨使用速度參量Y軸分量識別的精度最低,為0.07;單獨使用加速度Z軸分量識別的精度最高,為0.22.單獨使用二階參量均高于單獨使用一階參量的識別精度;單獨使用Z軸方向分量的識別精度高于相應參量在X、Y軸分量的精度.這也從另一側面印證了表7、8 的結論,即二階運動參量以及運動參量的Z軸分量是無人機識別過程中的重要參量.

圖12 不同參量組合的識別結果圖Fig.12 Detection results of different parameter combinations
圖12(b)為采用本文所涉及的運動參量不同組合進行識別的精度對比.其中,基礎運動參量為一階、二階、平動、旋轉等參量組合,再將不同的其他參量加入到基礎運動參量中后,得到不同參量組合的識別結果.兩參量組合的基礎運動參量結果體現出與表7 一致的結論,使用二階參量(0.48)相比于一階參量(0.31)識別精度更高,在識別中的貢獻度更大,為更重要的運動參量;旋轉參量(0.47)稍高于平動參量(0.41)的識別精度.在三參量組合中,組合識別精度最高為0.60,高單精度最低為0.51.在基本參量中,相比于加入速度和角速度參量的最大提升0.10 (24.3%),加入加速度、角加速度參量的提升更大,最小提升為0.13 (27.6%).進一步說明二階參量在識別過程中為更重要的參量、更顯著地影響識別效果.
圖12(c)、(d)繪出了使用不同階運動參量識別的結果.圖12(c)為單獨使用某一階運動參量識別的精度結果;圖12(d)為使用前若干階運動參量識別的精度結果.由于在運動學中描述物體運動均采用一階和二階運動參量,所以本文也主要使用二階及以下運動參量進行識別.但從參數辨識和運動特征提取的角度來說,由于采集得到的均是離散的數據,想要盡可能精確地估計得到運動參量或者恢復目標整個運動過程,只能基于近似的方法.根據泰勒展開,任意運動軌跡上的一點的位置均可由其在選定點多階導數形成的多項式進行逼近,而所涉及的多階導數,即為本文所涉及的一階、二階以及高階運動參量.同樣,對于整個轉動過程也需要利用多階旋轉參量進行逼近.另一方面,越高階的運動參量越能夠反映目標在更長一段時間內運動的整體特征.所以,在識別過程中使用高階運動參量是有必要的.
從圖12(c)中看出,單獨使用一階運動參量精度為0.311,單獨使用二階運動參量精度為0.480,單獨使用三階參量精度下降至0.059,四階參量精度下降69.5% 至0.018,到六階的識別精度僅為0.003,說明三階以上運動參量識別貢獻度顯著降低.再結合圖12(d)前若干階參量總識別精度來看,使用一、二階參量識別精度為0.656,三階參量引入后識別精度上升至0.681,增幅3.8%;四階參量引入后,增幅僅為1.3%;至六階參量引入,總識別精度為0.697,增長為0.2%.總的來說,三階以上總識別精度未有顯著增長,一、二階運動參量能較完整的包含目標的全部運動特征.
本文提出了一種基于運動參量建模的 “低慢小”目標識別方法.相比于以往方法,本方法進一步完善了運動特征的描述,并在所涉及的數據集上,相比于以往文獻中的方法,顯著地提升了四旋翼無人機的識別精度.在實驗中本文也發現,二階參量、旋轉參量、以及重力方向的運動參量是四旋翼無人機識別過程中的重要參量,反映出目標在運動模式上的差異.