王宇凡 張姍姍
(南京理工大學計算機科學與工程學院 南京 210094)
行人檢測中存在一些困難的挑戰,如運動模糊、虛焦、行人之間的頻繁遮擋、尺度變化。夜間的行人檢測由于光照、模糊等問題獲得的圖像質量更差。視頻具有時間順序上的連續性,行人特征在相鄰幀中不會產生劇烈變化,可以利用時間維度上的特征信息來進行檢測。對冗余的處理同樣是視頻行人檢測中的挑戰。
現有的許多行人檢測方法為了提升檢測性能,增加了額外的模型(如FlowNet[1]),耗費大量的計算資源和時間。本文提出一種基于多幀特征融合的視頻中夜間行人檢測方法來解決夜間行人圖像特征質量下降問題。我們在夜間視頻數據集上進行測試,結果顯示本方法對小尺度行人和嚴重遮擋的行人的檢測結果有所提升。
本節主要介紹行人檢測、視頻目標檢測、特征融合三個方面的相關工作。
行人檢測(Pedestrian Detection)是目標檢測的一個重要分支。2005 年Navneet Dalal 提出了基于HOG 和SVM 的行人檢測方法[2],使用HOG 直方圖描述行人的外觀特征。由于計算量太大,基于HOG和AdaBoost的方法[3]被提出。積分通道特征[4]獲得了更強力的特征。近年來神經網絡也被應用到行人檢測當中。Faster R-CNN[5]是一個端到端(end-to-end)的檢測模型,提出了區域建議網絡。YOLO[6]將整張圖劃分為固定數量的網格進行打分和回歸。SSD[7]使用預先設定好的多尺度的邊界框對圖像特征進行回歸。
視頻目標檢測(Video Object Detection)中的視頻數據集擁有時間特征,可以利用時間信息來加強鄰近幀中同一物體特征之間的關聯?!?br>