彭瑋航,王 軻,劉少鵬,丁祝順
(北京航天控制儀器研究所,北京100039)
基于區域的卷積神經網絡在空對地車輛檢測中的應用
彭瑋航,王 軻,劉少鵬,丁祝順
(北京航天控制儀器研究所,北京100039)
針對傳統空對地車輛檢測算法在光照變換、場景變化時檢測效果不佳的問題,提出了基于區域卷積神經網絡Faster RCNN模型的空對地車輛檢測方法,介紹了Faster RCNN模型以及模型訓練過程。實驗結果表明,基于Faster RCNN的空對地車輛檢測方法是可行的,對不同光照和場景下的車輛檢測可以取得較好的效果。
空對地圖像;車輛檢測;卷積神經網絡;Faster RCNN
Abstract:Considering the deficiency of traditional airborne vehicle detection algorithms in illumination changing and scene variation,the airborne vehicle detection method based on region?convolutional neural network(Faster RCNN)is pro?posed.The faster RCNN model and its training procedure are described in this paper.The experiment results show that the airborne detection method based on Faster RCNN is feasible,good results can be achieved in different illumination and scene condition.
Key words:airborne images;vehicle detection;convolutional neural network;Faster RCNN
空對地目標檢測技術最初應用于軍事領域,是飛行器在空中執行偵察、打擊等軍事任務的核心技術,高精度、高時效以及智能化一直是目標檢測技術發展的核心需求。空對地車輛檢測技術作為空對地目標檢測技術的子課題,車輛檢測可以用于跟蹤特定車輛,在區域監控、安防等軍事領域有著重要的作用;在民用方面,空對地車輛檢測技術可以提供車流量信息,在智能交通等領域有著重大的應用價值。因此,空對地車輛檢測技術的研究有著重要的意義。
在計算機視覺領域,空對地車輛檢測是一項極具挑戰性的研究課題。一方面,飛機、衛星獲取的地面圖像分辨率相對較低;另一方面,圖像中車輛目標通常很小,視角的改變容易導致車輛目標的長寬比發生變化,而且環境中的矩形物體還容易造虛警。文獻[1]提出了一種層次化的三維車輛檢測模型,利用車輛的幾何形狀特征和顏色信息,通過模板匹配的方式實現空對地車輛檢測。文獻[2]將車輛顏色統計信息、結構對稱性以及多尺度HOG特征結合在一起,形成高維特征向量,利用偏最小二乘法進行特征降維,實現車輛檢測。由于航拍圖像中光照和背景變化很大,基于形狀、顏色的方法對于圖像中的車輛檢測效果不佳。對于數據較少的情況下,基于特定圖像特征的方法能取得較好的效果,但是面對不同場景、大量圖像的情況下,則會出現對目標描述能力不足的缺陷,難以在實際場景中應用。
近年來在目標檢測領域,基于深度學習的方法在檢測效果上遠超過了傳統的基于特定圖像特征的研究方法。作為深度學習的重要分支,基于區域的卷積神經網絡(Region based Convolutional Neural Networks,RCNN)在通用目標檢測中已經獲得了比較好的效果。但是,傳統的區域生成策略非常耗時,限制了RCNN方法的工程應用,而其改進模型Faster RCNN在檢測結果和檢測速度上均有良好表現。因此,本文提出了基于區域的卷積神經網絡Faster RCNN模型的空對地車輛檢測方法,在大量航拍數據的基礎上訓練網絡模型,通過實驗效果分析Faster RCNN在空對地車輛檢測應用中的可行性。
卷積神經網絡是一種前饋神經網絡[3?4],網絡中的神經元接受上一層的輸入,并賦以不同的權重計算。同一般的神經網絡不同,CNN中的神經元只同輸入區域中的一小部分區域連接,這一小部分區域被稱作感受野(Receptive Field),而且網絡中每一層中的神經元有3個維度:寬度、高度以及深度。CNN的這種設計結構主要是對空間信息進行編碼,因此更適用于與圖像相關的任務。典型的CNN主要由卷積層、池化層以及全連接層這3種層組成,結構如圖1所示。卷積層主要進行特征提取;池化層調整特征大小,降低計算復雜度;全連接層是一種多層感知器,全連接層中的所有神經元全部連接到上一層的所有神經元,主要用于分類任務。

圖1 一種CNN結構圖Fig.1 Structure of CNN
經典的目標檢測算法使用滑動窗口的辦法依次在圖像中判斷物體可能存在的區域,而基于RCNN的檢測方法則是預先提取出物體可能存在的候選區域,然后在候選區域內利用神經網絡自動自取圖像特征,這種方式大大提高了檢測速度[5]。2014年,Girshick提出基于區域的卷積神經網絡模型RCNN[6],利用 Selective Search生成候選區域,在候選區域中利用卷積神經網絡提取特征,奠定了利用候選區域生成和卷積神經網絡進行物體檢測的模型基礎。其改進模型Fast RCNN[7]提出了Region of Interest Pooling層,克服了RCNN對于輸入圖片尺寸的限制,進一步提高了檢測精度,在不考慮區域生成部分計算時間下,達到了接近實時的效果。上述模型中,提取候選區域的部分依然是利用手工設計的特征,如 selective search、EgdeBox等,而且都是在CPU上實現的,這使得計算候選區域成為了整個模型的時間瓶頸[8]。
針對以上RCNN模型的不足,在Fast RCNN基礎上,Ren等設計了Faster RCNN模型[9],生成候選區域的網絡和用于檢測的Fast RCNN共享卷積網絡,使得候選區域生成在GPU上實現,大大降低了生成候選區域的檢測時間,在提升檢測準確率的同時,達到了接近實時的效果。本文用于空對地車輛檢測的卷積神經網絡模型為Faster RC?NN,模型由區域生成網絡(RegionProposal Network,RPN)以及檢測網絡 Fast RCNN構成,RPN產生目標可能存在的區域;Fast RCNN實現對區域的分類,并且對目標的包圍框進行微調。RPN和Fast RCNN共享卷積網絡的方法解決了目標候選區域提取效率低的問題,模型結構如圖2所示。

圖2 Faster RCNN模型結構圖Fig.2 Structure of Faster RCNN
RPN的作用是生成感興趣區域。輸入圖像經過共享卷積層生成卷積特征圖,然后用一個3×3的窗口以滑動方式對卷積特征圖進行計算,這樣對于滑動的每一個位置可以得到256維的特征向量。為了實現目標不同尺度和比例的檢測,引入anchor的概念,對于滑動的每一個位置,用3種尺度(80×80,160×160,320×320)和 3種不同比例(1∶1,1∶2,2∶1)組合的共9個 anchor對目標可能存在的包圍框位置進行預測。經過非線性處理后,得到的特征向量作為兩個全連接層(分類層和邊界框回歸層)的輸入,滑動窗的處理方式保證了分類層和邊界框回歸層彼此關聯特征空間。由分類層判斷特征向量代表物體或是背景,由邊界框回歸層給出生成區域的坐標。用于訓練分類層和邊界框回歸層的多任務損失函數定義如式(1)所示。

式中,i為一個小特征圖塊中anchor的下標,pi是第i個anchor為目標的概率。是分類標簽,當anchor代表正樣本時,;若anchor為負樣本,。ti為預測包圍框的參數化坐標;為正樣本的真實邊界框坐標。Ncls代表最小圖像塊的數量,Nreg代表anchor位置的數量,兩者用于歸一化處理,并且由參數λ平衡。分類損失和邊界框回歸損失如式(2)、式(3)所示,R為魯棒的損失函數,定義如式(4)所示。


Fast RCNN的輸入來自于輸入圖像和RPN產生的一系列候選區域。對于每一個感興趣區域框,由ROI池化層從共享卷積層生成的特征圖中提取固定長度的特征向量。特征向量經過全連接層的處理后,輸入到softmax分類層和邊界框回歸層。共享卷積層的選取通常有兩種——ZFnet[10]和VGG16[11]。在本次研究中,選擇網絡結構相對簡單的ZFnet,它包含5個卷積層。
在網絡訓練部分,基于隨機梯度下降原理,并采取RPN同Fast RCNN交替訓練的方法,即先訓練RPN,再用得到的區域訓練Fast RCNN。首先進行RPN的訓練,利用Imagenet圖像分類預訓練的模型初始化網絡參數,利用反向傳播算法對RPN進行優化。
在訓練過程中,所有的anchor被分為正樣本、負樣本兩類。分類準則是根據交除重疊比(Intersection over Union,IoU),同標注框IoU值最大或者與標注框IoU大于0.7的anchor被分為正樣本;同所有標注框IoU值小于0.3的anchor被分為負樣本。對前3/4的小批量采樣圖像,學習率設定為0.001;再對剩下的小批量采樣圖像以0.0001的學習率訓練;動量和權重衰減設定為0.005。
在上一步得到候選區域框的基礎上對Fast RCNN進行訓練。對于網絡參數的初始化,同樣采用Imagenet圖像分類預訓練的模型初始化網絡參數。然后利用得到的網絡初始化RPN,同時保持卷積層參數不變,微調RPN剩下的部分;同樣保持卷積層參數不變,利用RPN的結果對全連接層進行微調。
針對目前公開的空對地車輛檢測數據集相對較少的現狀,建立了空對地車輛數據集,并劃分成訓練集和測試集兩部分,分別用于Faster RCNN模型的訓練以及檢測效果的驗證。其中,訓練集包含正樣本4572例,均為小型汽車,部分車輛樣本如圖3所示。通過手動標定車輛正樣本,并且參照PASCAL數據集的格式對車輛目標在圖像中的位置進行記錄。

圖3 數據集樣例Fig.3 Samples in the dataset
為了驗證基于Faster RCNN的空對地車輛檢測算法的有效性,在Linux環境下對自建測試集中車輛目標進行檢測。實驗采用的PC系統為Ubuntu 16.04?64位,GPU為基于Maxwell架構的NVIDIA Geforce GTX 960M,顯存為2G,CUDA處理器核心數為640;基于CAFFE框架搭建Faster RCNN模型,編程語言為Python。
將測試集中的圖像分為兩種,一種是在道路場景下,背景相對簡單;一種是在城市場景下,環境相對復雜,檢測效果如圖4所示。包圍框給出了檢測結果,包圍框上方給出了檢測結果所屬的類別及得分。從實驗結果可以看出,在兩種場景下都取得了比較好的檢測效果。對于圖4(b)中典型的城市場景,即使存在較多外形同車輛目標相似的矩形區域,如屋頂空調外機等設施,本文模型誤檢率很低。這是因為Faster RCNN模型具有良好的端到端自動學習能力,避免了傳統方法過于依賴車輛目標外形先驗信息的缺陷。

圖4 檢測效果圖Fig.4 Detection results
需要指出的是,在圖5(b)中存在少量深色車輛的漏檢以及包圍框位置不夠精準的問題。這主要是因為深色車輛環境區分度相對低一些,特別是在圖像分辨率不足的條件下,深色車輛的特征描述更為困難。為了檢測模型在更為困難的環境條件下的效果,對車輛目標在陰影以及目標被部分遮擋的情況進行了檢測實驗。從圖5(a)可以看出,車輛目標在陰影條件下依然能夠被檢出,說明卷積神經網絡自動提取的特征具有良好的光照不變性;而圖5(b)車輛目標存在部分遮擋的條件下,沒有很好地被檢測出來,說明模型在目標部分遮擋時效果有待提高。

圖5 遮擋和陰影條件下的檢測結果Fig.5 Detection results under occlusion and shadow conditions
為了衡量算法的檢測效果,定義檢測質量因子為:

式(5)中,TP為正確檢測出的車輛目標個數,FP為虛警目標個數,NP為漏檢車輛目標個數。表1給出了本文方法對5幅航拍圖像的檢測統計結果,可以看出,基于Faster RCNN的空對地車輛檢測方法具有較好的檢測性能。

表1 精度評價Table 1 Accuracy assessment
本文研究了基于區域的卷積神經網絡在空對地目標識別任務中的應用,對Faster RCNN模型設計和訓練進行了介紹,通過建立空對地車輛數據集,完成了模型的訓練和效果的驗證。實驗結果表明,基于區域的卷積神經網絡模型Faster RCNN在空對地車輛檢測方法能夠取得較好的檢測效果,而且能克服傳統方法受光照影響較大的缺點。由于訓練樣本數量的限制,本文僅測試了模型對于小客車車型的效果,后續研究重點將是更復雜的網絡結構對于檢測精度的影響以及對于其他種類的小目標的檢測效果。
[1]Hinz S.Detection and counting of cars in aerial images[C].International Conference on Image Processing,2003:997?1000.
[2]Kembhavi A,Harwood D,Davis L S.Vehicle detection using partial least squares[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(6):1250?1265.
[3]盧宏濤,張秦川.深度卷積神經網絡在計算機視覺中的應用研究綜述[J].數據采集與處理,2016,31(1):1?17.LU Hong?tao,ZHANG Qin?chuan.Applications of deep convolutional neural network in computer vision[J].Journal of Data Acquisition and Processing,2016,31(1):1?17.
[4]劉江玉,李天劍.基于深度學習的倉儲托盤檢測算法研究[J].北京信息科技大學學報(自然科學版),2017,32(2):78?84.LIU Jiang?yu,LI Tian?jian.Research of warehouse pallet detection algorithm based on deep learning[J].Journal of Beijing Information Science&Technology University,2017,32(2):78?84.
[5]Jiang H,Learned?Miller E.Face detection with the faster R?CNN[C].12thIEEE International Conference on Auto?matic Face & Gesture Recognition,2017:650?657.
[6]Girshick R,Donahue J,Darrell T,et al.Rich feature hier?archies for accurate object detection and semantic segmen?tation [C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2014:580?587.
[7]Girshick R.Fast R?CNN[C].Proceedings of the IEEE In?ternational Conference on Computer Vision,2015:1440?1448.
[8]任少卿.基于特征共享的高效物體檢測[D].中國科學技術大學,2016.REN Shao?qing.Efficient object detection with feature sha?ring[D].University ofScience and Technology ofChina,2016.
[9]Ren S Q,He K M,Girshick R,et al.Faster R?CNN:to?wards real?time object detection with region proposal net?works[J].IEEE Transactions on Pattern Analysis & Ma?chine Intelligence,2017,39(6):1137?1149.
[10]Zeiler M D,Fergus R.Visualizing and understanding con?volutional networks[EB/OL].http: //ftp.cs.nyu.edu/~fergus/papers/zeilerECCV2014.pdf.
[11]Simonyan K,Zisserman A.Very deep convolutional net?works for large?scale image recognition[J].Computer Sci?ence,2014.
Application of Region Based Convolutional Neural Network in Airborne Vehicle Detection
PENG Wei?hang,WANG Ke,LIU Shao?peng,DING Zhu?shun
(Beijing Institute of Aerospace Control Devices,Beijing 100039)
TP391.41
A
1674?5558(2017)01?01451
10.3969/j.issn.1674?5558.2017.05.007
2017?08?03
彭瑋航,男,碩士,儀器科學與技術專業,研究方向為圖像處理及目標識別。