(1.南華大學,衡陽,421001;2.軍事醫學研究院軍事認知與腦科學研究所,北京,100850)
隨著無人機相關技術的快速發展,民用小型無人機已經被應用于生產和生活中的方方面面,為人類社會帶來極大便利.然而由于無人機有靈活度高、隱蔽性強、成本低廉等特點,無人機或被不法分子用于恐怖襲擊、偷拍隱私等活動,因此無人機預警探測在公共安全領域具有重要現實意義.
當前,目標檢測領域分為靜態目標檢測和視頻目標檢測兩個方向.靜態目標檢測算法通常分為雙階段和單階段兩種類型.雙階段類型的經典方法有R-CNN[1],Fast R-CNN[2],Faster R-CNN[3].相較于傳統手工特征提取方法,例如尺度不變特征變換[4](Scale-invariant feature transform, SIFT)、方向梯度直方圖[5](Histogram of oriented gradient, HOG),基于深度學習的特征提取方法更加準確和有效.與雙階段檢測模型相比,單階段算法檢測速度快但精度偏低,主流方法有YOLO(You Only Look Once)[6-8]系列和SSD(Single Shot MultiBox Detector,SSD)[9].相較于靜態目標檢測,視頻目標檢測在訓練過程中能利用某段時間內相鄰幀間的時空信息避免大量無效的特征提取,減少重復信息的同時充分保留和利用有效信息是視頻目標檢測的一個主要方向.代表性方法包括Han等[10]提出的Seq-NMS算法,根據連續幀之間的檢測框的重合度建立時空圖;Zhu等[11]提出的基于光流的特征聚合算法FGFA,該算法通過利用視頻幀間的時空信息達到視頻檢測的效果;Kang等[12]在靜態圖像檢測的基礎上利用上下文信息抑制和動態信息傳播等機制提出T-CNN模型,從而實現視頻目標檢測效果;而STSN[13],STMN[14]在不使用光流算法的情況下,直接學習對齊和聚合特征;Wang等[15]提出的MANet則是利用FlowNet預測的光流在相鄰幀之間傳播特征;Luo等[16]提出的STCA檢測算法,該算法通過對上下文時空信息進行增強、自動學習特征增強策略來彌補Seq-NMS的缺陷;Deng等[17]提出的RDN則是學習局部范圍內不同幀之間候選框的相關性來增強特征;Chen等[18]提出的MEGA算法是通過局部和全局的特征聚合達到較高的檢測性能.
近年來,以深度學習為代表的智能視覺感知算法已經可以實現標準場景下的無人機檢測.例如,崔艷鵬等[19]在YOLO-v3的基礎上,通過改進模型網絡結構提出一種實時的無人機檢測算法,但該算法在準確率和召回率與其對比算法還存在較大差距.Sun等[20]提出一種基于TIB-Net的無人機檢測算法,通過在迭代骨干網絡中引入循環通路機制獲取低層特征信息,在有效提取小目標特征的同時縮小模型結構,但是該算法在檢測速度方面尚難以達到實時性.梁棟等[21]提出一種將檢測與跟蹤相結合的無人機檢測算法,引入KCF(Kernel Correlation Filter, KCF)跟蹤算法抑制檢測的漏檢率.Fernandes等[22]通過融合跟蹤機制和殘差網絡,提出一種在檢測模塊前通過一個跟蹤模塊判斷是否存在無人機的目標檢測網絡.另外馬旗等[23]通過利用殘差結構和多尺度預測網絡提出Dual-YOLO-v3算法,但該算法嚴重受到采集系統的約束,在復雜背景下的圖像配準變得十分困難.王靖宇等[24]通過提取無人機在多尺度層次上的視覺特征來檢測遠距離小型無人機.Rozantsev等[25]利用運動補償機制來彌補視頻中小目標的位置偏移問題.還有余科鋒[26]通過利用動態閾值的CFAR圖像分割提取特征的方法,用來檢測紅外視頻中的無人機.
以深度學習為核心的智能算法能夠在簡單環境下實現目標檢測效果,但由于這些算法特征提取單一,當無人機在建筑物遮擋、形變等復雜背景下,外觀信息受到背景的嚴重干擾,這些算法檢測效果遠不及生物視覺系統對于環境變化的適應性和精確性,在復雜環境下,生物視覺系統可以有效應對環境變換從而快速捕捉目標位置.80年代初,Underleider等[27]通過對猴腦的損傷研究,認為大腦視皮層中存在兩條視覺通路:腹部流(ventral stream)和背部流(Dorsal stream),其中腹部流主要負責物體識別,而背部流主要處理物體的空間位置信息.Poggio等[28]根據腹部流視覺信息處理過程提出HMAX模型,該模型模擬一個層級的前饋結構實現了前饋信息的傳遞.Serre等[29]在HMAX模型上根據生物結構和實驗數據構造了一個標準模型,首次將生物視覺和計算機視覺進行聯系.Mutch等[30]通過添加圖像層來改進Serre的模型,在1998年,Rybak等[31]提出Rybak模型,該模型主要針對于物體識別和場景感知,以及之后對Serre理論延申和發展的一些科學成果相繼發表[32-35].2010年,Benoit等[36]利用人類視網膜的信息傳導機制建立視網膜模型,并將該模型應用到圖像處理和計算機視覺領域,取得了顯著的效果.受人類視網膜信息處理機制啟發,通過細胞間的時空濾波變換提取無人機在復雜背景下的運動信息.該類腦算法不僅能高效地提取視頻中目標的運動特征,而且相較于深度學習模型運算量更小.
本文通過引入仿視網膜算法,在此基礎上進行模擬和改進,借助大細胞通路模型提取時空運動信息,并將其與YOLO-v3輸出的目標置信度圖進行融合,從而得到融合視網膜時空運動信息的無人機目標檢測算法——Rtn-YOLO,并基于Anti-UAV2020數據集對Rtn-YOLO和業內主流的YOLO-v3方法進行了性能評估和對比.
本文的組織結構如下:第1部分是基于YOLO算法和視網膜算法的模型加工,第2部分是Rtn-YOLO算法的詳細介紹,第3部分是實驗結果和算法評估,第4部分是對于論文的討論和總結.
YOLO-v3是由YOLO算法改進后以Darknet-53為骨干網絡的單階段目標檢測算法,通過將圖片分為等分的S×S個網格用于目標位置的定位,再借助K-Means算法對MC COCO數據集進行聚類,獲得9個長寬不一的先驗框,利用卷積神經網絡讓網格對每個物體類別預測一個條件概率值同時生成B個先驗框,每個先驗框預測5個值(其中前4個值表示先驗框的位置,第5個表示這個先驗框含有物體的概率),然后得到3個大小不同的特征圖以及對其分配先驗框,最后使用先驗框后處理以及非極大抑制(Non-Maximum Suppression,NMS)得到預測框.
視網膜是將光信號轉換為神經系統中的電信號的重要部分.視網膜生物結構主要由外叢狀層(Outer Plexiform layer)和內叢狀層(Inner Plexiform layer)兩部分組成,細胞層上主要包含光感受器細胞(Photoreceptor cells,Fph)、水平細胞(Horizontal cells, Fh)、雙極細胞(Bipolar cells, BipON/BipOFF)、無長突細胞(Amacrine cells, A)和神經節細胞(Ganglion cells)五種類型的神經細胞.
在外叢狀中,光感受器細胞可作為一個亮度調節器的功能(Cph)的功能,同時將其感受到的光信號傳遞給水平細胞和雙極細胞,構成一個突觸三聯(The ynaptic triad)[37],水平細胞之間的縫隙連接(Gap junctions)是一個低通時空濾波器.根據Benoit[36]等人的觀點,外叢狀層的細胞相互作用可以看作是光感受器網絡和水平細胞網絡兩個低通時空濾波器之差,該時空不分離的濾波器在低時間頻率時有空間帶通效果,低空間頻率時有時間帶通效果.
內叢狀層中的信息傳遞有兩條通路:大細胞通路(Magnocellular pathway)和小細胞通路(Parvocellular pathway),在無長突細胞的介導下,雙極細胞將其信號傳遞給軸突形成視神經的神經節細胞.
圖1展示了基于視網膜小細胞通路模型的算法結構示意圖,小細胞通路的小型神經節細胞(Midget ganglion cells)直接與雙極細胞相連,接收來自外叢狀層的兩極輸出的輪廓信息,同時作為一個局部增強器(CgP)用來增強輪廓數據和外觀紋理等信息的提取.

圖1 視網膜小細胞通路算法結構示意圖
大細胞通路主要負責提取物體的運動信息,算法結構圖如圖2所示,其中無長突細胞看作是一個高通時間濾波器.在無長突細胞的介導下,小型和大型陽傘神經節細胞收集多個彌漫性雙極細胞的信號,此類神經節細胞既可以作為像小細胞通路中的局部增強器(CgM),也可以作為一個空間低通濾波器(FgM).

圖2 視網膜大細胞通路算法結構示意圖
圖3展示了Rtn-YOLO算法結構框架.該算法對輸入的視頻流分別通過兩支流特征提取器提取外觀和運動等特征.YOLO-v3算法以深度神經網絡為核心,該算法對輸入圖像的尺寸大小要求不固定(32的整數倍),若以416×416為例,圖像經過網絡的3次(8倍,16倍,32倍)下采樣之后,形成的特征圖分別為(52,52),(26,26),(13,13),將3個特征圖進行特征合并之后進行先驗框后處理,提取物體的靜態信息特征.視網膜大細胞通路對物體的外觀信息敏感,視頻中的物體在相鄰幀有相對運動時,圖像經過視網膜中光感受器細胞、水平細胞、雙極細胞、無長突細胞和神經節細胞的信息處理后,能夠快速清晰地捕捉到運動物體的軌跡特征的同時抑制靜態背景,然后其與YOLO-v3算法模型中的網絡結構提取出的外觀信息相結合,通過融合圖像與YOLO-v3預處理的結果進行篩選匹配后,獲取最終無人機視頻目標檢測結果.

圖3 面向無人機檢測的Rtn-YOLO算法結構流程圖
現有其他算法在凈空等簡單背景下的無人機檢測精確度較高,Rtn-YOLO算法著重解決在復雜背景下的無人機視頻目標檢測面臨的問題,依據視網膜大細胞通路的對運動信息提取的優勢,采用大細胞通路與YOLO-v3模型融合的方式,解決現有算法對無人機在遮擋、形變、瞬移等情況下失效的問題.Rtn-YOLO算法利用人類視網膜對運動信息的敏感性提取視頻上下文信息,通過大細胞通路提取物體的運動特征抑制靜態背景噪聲.為了充分利用大細胞通路提取的運動信息,降低算法的漏檢率和虛警率,首先降低先驗框置信分的交并比(Intersection over Union,IoU)閾值,使YOLO-v3盡可能多地獲得圖像中潛在無人機的先驗框,然后保留置信分較高的先驗框,再篩選出圖像像素最大的先驗框,最后選取置信分最高的的檢測框.算法流程圖見表1.

表1 無人機檢測的Rtn-YOLO算法流程圖
實驗所采用的計算機操作系統版本是Ubuntu 16.04.1;Linux內核版本是Linux amax 4.4.0-31-generic;代碼運行平臺是:Python3.6,Tensorflow1.14.0,GPU:Tesla K80×16.
Rtn-YOLO算法性能評估采用Anti-UAV2020數據集,圖4為所用數據集的紅外無人機視頻縮略圖.

圖4 紅外無人機視頻縮略圖
該賽程主要針對基于多模態視頻流數據的復雜環境下無人機目標的檢測、跟蹤、識別等視覺感知與處理任務.該大賽舉辦的同時公開了160段紅外視頻序列(https://anti-uav.github.io/submission/),視頻中包含多個不同的場景和多種類型的無人機,在每段視頻中都含有部分復雜背景,包括云霧、樓宇、快速運動、懸停、遮擋等情況,但數據集中復雜背景圖片數量占比較小.在賽程里提供的160段視頻,其中有標注信息的100段視頻用來對模型進行訓練和驗證,尚未標注的60段視頻用于測試.本算法采用其中的100段已標注好的紅外視頻,共93247張圖片,選取其中的70段視頻(65100張圖片)用于模型的訓練和驗證,剩余的30段視頻用于模型的測試.訓練20次且最終使得模型達到收斂.
圖5展示了Rtn-YOLO算法與YOLO-v3算法在復雜背景下的無人機檢測效果對比.a,b,c,d代表四個不同的樣例,其中第一行是原始圖片,圖片中的紅色框代表無人機的真實位置;第二行是YOLO-v3的檢測效果,從圖中可以看到,一旦當無人機飛行在樓宇、吊塔等紅外復雜背景下,YOLO-v3無法檢測到無人機的位置或者誤檢到其他目標當作是無人機;第三行是Rtn-YOLO算法的檢測效果,能正確的檢測到在紅外環境下的無人機.

圖5 Rtn-YOLO算法與YOLO-v3算法在復雜背景下的無人機檢測效果對比
算法評估結果如表2所示,YOLO-v3算法在測試集上的檢測平均精確率為82.04%,Rtn-YOLO算法檢測平均精確率達到86.90%,比基準算法YOLO-v3提升了4.86%.當在YOLO-v3模型中加入視網膜小細胞通路提取的特征時,由于靜態背景的噪聲對小細胞通路提取的特征影響較大,故而精度降低.

表2 Rtn-YOLO與YOLO-v3檢測對比
通過數據分析發現,在Anti-UAV2020數據集中,數據集中無人機處于凈空背景下的簡單場景圖片數居多.由于其復雜背景的圖像幀在所有數據集中的占比較小,無人機在遮擋、樓宇中的圖片量偏低,為了測試單個視頻中的表現情況,從30個測試集中隨機抽取10個視頻,測試結果如表3所示.在10個復雜背景下的紅外無人機視頻中,其中6個視頻的平均精確率有大幅提升,4個場景較簡單視頻的略低,表明Rtn-YOLO算法整體比YOLO-v3算法更加穩定,在簡單的環境下能夠保持與基準算法有同等的平均精確率,對于在復雜背景下時能夠彌補其缺陷.

表3 Rtn-YOLO算法在10段紅外無人機視頻檢測結果對比
已有文獻表明,信息融合的方式多種多樣,最常用有效的方式是將兩支信息流取交集[38].本文在YOLO-v3提取的外觀信息和大細胞通路提取的運動信息基礎上,對在兩支信息流的輸出結果對應像素取交,該方式不僅能將提取到的雙支流信息進行有效的融合,而且能抑制靜態背景產生的巨大噪聲.為了驗證該融合方式在Rtn-YOLO算法上檢測結果,通過與其他融合方式進行對比,在將大細胞通路提取的運動信息和YOLO-v3提取的紋理信息整合的過程中,由于信息融合的方式不同導致的檢測效果也存在較大差異,從左至右分別是將大細胞通路的輸出結果和YOLO-v3的輸出分別取和(a),取積(b),取并(c)和取交(d)的結果.從圖6數據集的測試結果看,其中取和與取并后的融合圖效果存在較大的噪聲,不能正確檢測到樓宇中無人機的位置,取積與取交后的融合圖更加干凈,但取積之后的檢測效果不如取交的效果好.

圖6 Rtn-YOLO算法信息融合方式對比
針對傳統無人機檢測算法無法檢測復雜背景下運動目標的問題,本文通過引入大細胞通路模型提取時空運動信息,并將其與YOLO-v3輸出的目標置信度圖進行融合,從而提出了融合視網膜時空運動信息的無人機目標檢測算法——Rtn-YOLO算法.實驗結果表明,算法提高了無人機在復雜背景下的檢測的精確率.相比傳統YOLO-v3目標檢測算法,Rtn-YOLO算法通過人類視網膜機制提取運動信息減少靜態背景噪聲造成的干擾,該類腦算法是通過對視網膜視覺通路中的細胞進行數學建模,有效提取視頻中目標的時空特征,將生物視覺與計算機視覺相互融合,進一步完善深度神經網絡在圖像特征提取過程中的信息丟失的問題.但該算法仍然存在提升,由于Rtn-YOLO算法檢測框對置信分的降低,使得部分檢測框的掩碼相互重疊,以至于圖像中某些檢測框包含的像素值并不是它自身,導致結果存在一定偏差,此類問題將在下一步工作中進行優化和解決.