楊志恒 桂林電子科技大學
行人檢測是目標檢測的一個子類,主要利用計算機視覺技術判斷圖像或者視頻序列中行人存在與否并給予精確定位,即行人識別和標定。隨著自主駕駛技術的飛速發展,快速高效的行人檢測算法成為一項越來越重要的任務。由于行人不是剛性的物體,具有姿勢多樣性和外觀多樣性,以及多變的背景環境,這都增加了行人的檢測難度。基于前人的研究基礎,本文通過對現有的檢測算法分析對比,將深度學習單通道神經網絡應用于行人檢測,達到車載檢測的實時性和準確性要求。
行人檢測對于人類而言,通過對視覺范圍內的不同顏色模塊的感知很容易定位并分類出其中行人,但對于計算機而言,面對的是RGB像素矩陣,很難從視覺圖像中直接得到行人的抽象概念并定位其位置。現有行人檢測算法大致分為兩種:基于圖像處理的傳統行人檢測和基于深度學習的行人檢測。
傳統的行人檢測一般使用滑動窗口的框架,主要包括三個步驟:提案候選區域;提取候選區域相關的視覺特征;利用分類器進行識別。梯度方向直方圖算子和VJ輪廓特征在麻省理工學院行人數據庫和INRIA數據庫取得很好的檢測結果,但是這些方法容易受到光線和目標遮擋影響。多尺度形變部件模型(DPM)把物體看成多個組成部件(比如人的手、腿等),用部件間關系來描述物體可以很好的表達的非剛體特征,在人臉檢測、行人檢測等任務上取得了不錯的效果,但是DPM相對復雜,檢測速度也較慢。
基于深度學習的行人檢測大致也可分為兩種:
(1)基于區域提案的神經網絡是一種將區域建議和卷積神經網絡相結合的目標檢測算法,比如RCNN, SPP-net, Fast RCNN, Faster RCNN, RFCN等,通常采用區域選擇或者區域提案網絡獲取感興區域,然后在每個提案區域上使用卷積神經網路做分類得到分類類別和置信度。這種提案方法大大提升了行人檢測精度,但是檢測速度有待提升,較難滿足車輛行駛中的檢測要求。
(2)端到端的深度學習行人檢測采用使用單通道網絡架構,比如YOLO,SSD,YOLOv2[3]等,將行人定位和行人識別統一,一次性輸出行人的位置信息和行人的置信度,這樣大大提升的網絡的執行效率,但是檢精度較低有待提升。
本文對基于深度學習的單通道架構的卷積神經網絡進行優化算法。向卷積神經網絡輸入任意大小的圖片,使用基于VGG的深度學習的骨干網絡進行特征提取,其中卷積層采用類似于GoogleNet網絡結構,在卷積層之間嵌入1*1的卷積核壓縮特征。在進行目標檢測時,移除全連層,添加類似于ResNet的恒等映射,將最后一層卷積層前的高分辨率特征圖與原生的深層特征相連接,疊加相鄰特征到不同通道增加網絡細粒度特征。預測時借鑒Faster R-CNN的anchor思想,在卷積特征圖上進行滑窗采樣,特征圖的每個特征點和原圖的每個cell中心相對應,每個中心預測5中不同大小和比例的建議框,其中每個建議框采用相對偏移預測,預測五個參數:(tx,ty,tw,th,to),分別對應行人位置的包圍框左上角點(x,y)坐標、寬、高和可信度,即同時預測行人和位置。
行人檢測網絡模型采用分批次多尺寸訓練,進行不同分辨率的檢測。網絡只使用卷積層和池化層進行特征提取和檢測,這樣可以對輸入的圖片進行動態調整,使用網絡降采樣參數的倍數作為網絡輸入尺寸,每經過一定批次訓練,隨機選擇新的圖片尺寸,調整網絡到相應的尺寸維度然后繼續訓練。
實驗中采用Darknet-19模型,其具有19個卷積層和5個最大池化層,其骨干網絡類似于VGG深度神經網絡,其中卷積層采用3x3卷積核運算卷積,3x3卷積核之間嵌入1x1卷積核壓縮特征;池化層采用2x2采樣核采樣,并且每次池化采樣后通道數翻倍。
本文在INRIA行人數據集上進行訓練測試。在訓練過程中各超參數分別設置為:學習率0.0001,動量0.9,權重衰減值0.5。同時采用批次正則化穩定模型訓練。在測試中行人檢測算法準確率達到98.69%,檢測速度達到50幀每秒(fps),達到車載檢測的實時性要求。
行人是安全智能駕駛的重要參與者,如何高效實時檢測行人是智能駕駛的熱點問題。本文通過對現有的行人檢測算法和深度學習研究分析,將深度學習自主學習特征的優勢應用于行人檢測:在原有的卷積神經網絡檢測算法中,通過單通道網絡對輸入圖像進行提取特征分類識別,同時輸出行人的位置和置信度,大大減少了計算復雜度和檢測時間。最后,在INRIA 數據集上進一步驗證了該算法的可行性。
[1]Benenson R, Omran M, Hosang J, et al. Ten Years of Pedestrian Detection, What Have We Learned?[C]// European Conference on Computer Vision. Springer, Cham, 2014:613-627.
[2]Huang J, Guadarrama S, Murphy K, et al. Speed/Accuracy Trade-Offs for Modern Convolutional Object Detectors[J].2016:3296-3297.
[3]Redmon J, Farhadi A. YOLO9000: Better, Faster,Stronger[J].2016:6517-6525.