蔡英鳳, 王 海,陳小波, 陳 龍,江浩斌
(1.江蘇大學汽車工程研究院,鎮江 212013; 2.江蘇大學汽車與交通工程學院,鎮江 212013)
?
2015207
駕駛輔助系統基于融合顯著性的行人檢測算法*
蔡英鳳1, 王 海2,陳小波1, 陳 龍1,江浩斌2
(1.江蘇大學汽車工程研究院,鎮江 212013; 2.江蘇大學汽車與交通工程學院,鎮江 212013)
為滿足先進駕駛輔助系統的高準確性行人檢測要求,提出一種模擬人類注意力機制的視覺顯著性行人檢測方法。基于僅含行人信息的標記樣本庫,建立了條件隨機場(CRF)模型,以實現不同顯著性計算方法的最優融合。實際檢測中,首先采用SLIC算法進行圖像超像素形式的幾何信息劃分,進而對可能存在行人的區域進行初篩選,隨后在可能的行人區域內,采用CRF模型計算顯著性,并將具有較高顯著性的區域確定為行人區域。實驗結果表明,該方法具有較好的判別性能并達到滿意的檢測率,同時,采用的行人區域篩選方法在一定程度上縮短了算法的檢測時間,基本滿足了車載平臺的實時性要求。
先進駕駛輔助系統;行人檢測;視覺顯著性;條件隨機場
基于視覺的行人檢測是車輛先進駕駛輔助系統(advanced driver assistance systems,ADAS)的重要研究內容。統計數據顯示,近幾年我國平均每年發生交通事故20余萬起,死亡人數超過6萬人,居世界首位。其中,超過60%的死亡人員是行人或騎自行車和騎摩托車者[1]??梢?,有效而可靠的行人檢測對挽救生命有重要的現實意義。因此,眾多汽車生產企業推出了帶有行人檢測功能的概念車,EuroNCAP也在2014年新增了行人保護項目。
然而,面向ADAS 的行人檢測,受其特定應用背景的限制面臨如下挑戰:(1)行人檢測處于開放環境下,光照突變、遮擋等常造成行人視覺信息污染;(2)不同衣著、不同體態、不同外觀高度的行人目標具有較大類內差異性;(3)ADAS對算法實時性與準確性要求之間存在固有矛盾。上述難點使行人檢測成為ADAS和計算機視覺的研究難點與熱點。
一般來說,行人檢測可以分成基于人體模型和基于統計學習兩大類方法?;谌梭w模型的方法通過歸納出一些規則或構建出一些模板來描述行人的外觀模式、運動規律和某些特性[2-3]。文獻[4]中提出基于行人輪廓模板距離匹配計算實現行人識別的算法,該算法事先從大量圖像序列中勾勒出約2 500個表征行人各種可能姿態的輪廓,隨后對這些輪廓進行Chamfer距離變換,作為行人匹配的模板,該方法已被Protector項目[5]用作底層的粗粒度行人檢測方案。文獻[6]中利用不同大小的二值圖像模板對人頭和肩部進行建模,以此作為行人匹配的模板。總體來說,基于人體模型的算法操作簡單,但由于實際交通環境下行人姿態的復雜性,很難構造出足夠的模板以處理不同的姿態,算法的適應性受到限制。
基于統計學習的行人識別方法通過不同的行人描述特征和各種分類算法的結合實現行人區域的判斷。該類方法立足于大量行人和非行人樣本在外觀模式上體現出來的統計規律,主要包含兩個技術環節:特征提取和分類器的設計。目前,較常用的行人特征描述器有文獻[7]中設計的Haar-like特征、文獻[8]中提出的描述圖像紋理的局部二值模式(local binary pattern, LBP)特征、文獻[9]中提出的Edgelet特征、文獻[10]中提出的邊緣方向直方圖(Edge Orientation Histograms, EOH)特征、文獻[11]中提出的尺度不變特征變換(scale invariant feature transform, SIFT)特征、文獻[12]中提出的方向梯度直方圖(histograms of oriented gradients, HOG)特征等。行人檢測領域常用的分類算法主要有:支持向量機(support vector machine, SVM)、各種Boosting 方法和人工神經網絡(artificial neural networks, ANN)等。將人工設計的特征描述器與分類算法結合是目前統計學習方法進行行人檢測的主流思路。文獻[13]中利用Haar特征和AdaBoost算法和級聯分類器成功地實現第一個實時人臉檢測系統。文獻[14]中利用Haar小波特征,結合SVM算法構造了一個靜態圖片上的行人檢測系統。為提高SVM的分類性能,文獻[15]中提出了直方圖交叉核(HIK)的一種近似算法,使得分類器速度接近線性SVM的同時,分類性能得到了明顯提高。文獻[16]中利用HOG特征結合可變部件模型實現了遮擋環境下的人體、汽車等目標的檢測。上述基于統計學習的方法在一定程度上或特定條件下解決了行人檢測的問題,但在復雜交通場景下,非剛體的行人目標存在的較大類內差異性和受污染性,導致基于人工特征的分類器模型判別性能和泛化能力不足,滿足不了ADAS對高準確性行人檢測的要求。
本文中從ADAS中機器視覺用以彌補人類視覺注意力下降的根本任務出發,提出一種模擬人類注意力機制的視覺顯著性行人檢測方法。視覺顯著性是目前計算機視覺領域的研究熱點,在目標提取、圖像檢索、視頻摘要等方面均有成功應用,但用于特定目標識別任務的顯著性模型并不多見。本文中立足于顯著性分析的兩種現象:不同的顯著性計算方法在同類圖片集上有不同的顯著性分析效果;同一顯著性計算方法在不同類別圖片集合中的檢測效果存在差異,以行人檢測為目標,在統計學習的框架下,設計了多顯著性模型融合的行人提取方法,算法整體結構如圖1所示。
根據道路的特點,單幅圖像中道路場景的幾何信息主要分為天空、平面物體和垂直物體3類。其中,天空部分往往位于圖像上方,平面物體通常指路面區域,垂直物體則是豎立于路面的物體,包括行人、車輛、樹木和護欄等。因此,針對ADAS高實時性的要求和車載平臺計算能力受制約的現狀,本文中采用文獻[17]中提出的圖像平面信息提取方法,從道路場景中篩選出可能的行人區域,作為后續顯著性計算的范圍。
首先,基于SLIC方法[18]進行圖像底層超像素形式的劃分。底層信息是指圖像中如像素灰度、顏色等無需加工即可獲得的圖像信息,超像素是底層信息一種重要的表達方式,其本質是一種過分割方法,即將圖像中具有相同或相似特征屬性的近鄰像素聚合成一個組,并命名為一個超像素。圖2(a)對應的超像素形式如圖2(b)所示。
其次,將每個超像素用顏色、位置、透視效果等信息進行表征,并將其輸入到一個經預先訓練的回歸Adaboost分類器中,得到每個超像素的所屬類別:天空、路面或垂直物體。圖2(a)對應的分類結果如圖2(b)所示,路面用灰色標記、天空用淺灰色標記、垂直于路面的物體以“×”號標記。
最后,將圖像像素中屬于天空和路面的區域置為全黑BGR(0,0,0),只有屬性為垂直物體的圖片區域參與后續顯著性計算流程。
2.1 顯著性地圖的獲得
近年來,基于人類認知機制的圖片顯著性分析方法取得了不錯的研究成果,已開發出不少優秀的計算模型。這些方法各有自己的優點和缺點,并且他們相互之間存在互補關系。
本文中采用多種顯著性融合的思路,選用最常用的AC法[18]、HC法[19]、FT法[20]和LC法[23]4種顯著性計算方法獲得4張顯著性地圖,如圖3所示。
2.2 顯著性地圖的融合模型
對上述顯著性地圖的有效融合是本文中算法的關鍵。設m種方法獲得了圖片I的m個顯著性地圖{Si||1≤i≤m},則圖片I位于p處像素點的融合顯著性S(p)的條件概率形式為
S(p)=P(yp=1|S1(p),S2(p),…,Sm(p))∝
(1)
式中:yp為二進制的數值,取1表示該像素點為顯著點,否則取0,表示該點不顯著;Si(p)為顯著性地圖Si位于p像素點的顯著度值;Ζ為常量。函數ζ的不同形式則決定了融合的不同方式。
常用的ζ函數形式包括:ζ1(x)=x,ζ2(x)=exp(x)和ζ3(x)=-1/log(x)等。這些函數組合方式實現了優于單一顯著性計算方法的準確性,但是,若所組合的顯著性地圖中出現了某一張與其他張相差較大的地圖時,對組合結果將產生較大影響。更為重要的是,這些組合方式只考慮了單個像素的情況,忽略了鄰域之間的相關性,不能反映行人目標的連通屬性。因此,本文中采用柵格形狀的條件隨機場模型(conditionalrandomfield,CRF)進行顯著性地圖的組合。
CRF模型節點對應于圖片I的像素點,節點的特征向量xp=(S1(p),…,Sm(p)),節點p的狀態特征函數為f(xp,yp)。CRF的節點p與其八鄰域Np內某節點q之間的轉移特征函數為g(xp,xq,yp,yq)。定義圖片I在特征空間X={xp|p∈I} 上的顯著性Y={yp|p∈I}分布為
(2)
式中:θ={θF,θG}為CRF的模型參數,狀態特征函數和轉移特征函數的具體形式分別為
(3)
g(xp,xq,yp,yq)=ge(xp,xq,yp,yq)+
gc(xp,xq,yp,yq)
(4)
ge(·)反映了相鄰的兩個像素點在不同顯著性地圖中取值不同時,融合顯著性地圖中,這兩個像素點有較大可能出現不同的顯著度值。gc(·)反映了相鄰像素點顏色相似和顯著性相似的規律[21],某兩個像素點具有相似的顏色,則他們將具有相似的顯著度。ge(·)和gc(·)的定義分別為
1(yp=0,yq=1)(Si(p)-Si(q)))
(5)
gc(xp,xq,yp,yq)=-1(yp≠yq)×
exp(-φ(||I(p)-I(q)||))
(6)
式中:1(·)為示性函數;||I(p)-I(q)||為像素點p與q在RGB空間的差值;函數φ(·)定義為φ=(2<||I(p)-I(q)||2>)-1,其中<·> 為期望運算。
2.3 CRF模型參數訓練
本文中采用文獻[22]中所述的方法進行CRF模型參數訓練。在給定已標注訓練集{Xi,Yi},i=1,2,…,n條件下,基于最大熵理論,以式(7)所示對數似然函數達到最大為依據,完成CRF模型參數θ的訓練。其中,Xi為某幅圖片,Yi為與之對應的顯著圖的二值化矩陣。訓練獲得的CRF模型對行人目標具有較好的判別性能。

(7)
3.1 實驗樣本
利用試驗車輛,選擇良好天氣條件下(晴天和陰天)不同交通流密度的城市道路,采集了12h的視頻,從中挑選出1 000張圖片并采用了人工的方式標記了其中的行人輪廓區域,作為實驗樣本。與此同時,本文中從INRIA[23]和CVC[24]數據庫中共選擇了1 000張圖片,并對所提供的矩形框內的圖片采用二值化處理,配合人工調整的方式分割了精確的物體邊緣區域,以此對自行采集的樣本進行補充。上述兩部分共2 000個標記樣本構成本文中的訓練和測試集合,其中,選取1 000個標記樣本以本文中構建的CRF模型對其進行參數訓練,部分樣本如圖4所示,其中第1行為原始圖片;第2行為標記的二值化前景區域。
3.2 算法性能分析與比較
由于本文中算法是AC法、HC法、FT法和LC法4種方法通過CRF模型融合而成,因此,須將本文中所提算法與AC法、HC法、FT法和LC法進行顯著性區域在測試集合上開展的對比實驗,部分檢測結果見圖5。
從上述結果可以看出,本文中方法獲得的顯著性前景區域優于單個顯著性計算方法獲得的前景區域,并且CRF模型對于非行人區域有明顯抑制效果。為測試算法的性能,采用所構建的含1 000個標記樣本的測試集,基于PR指標(precision-recall),將本文中算法與目前主流的HOG+SVM和Haar+Adaboost行人檢測算法進行對比,結果如圖6所示。
基于圖1所示的檢測流程,對從交通場景中采集的原始圖片進行有效區域篩選,利用CRF模型提取其中的行人區域,部分實測效果如圖7所示。在ADAS行人檢測的高實時性應用中,檢測時間對算法的適用性有很大的影響。本文中算法運行平臺為Intel酷睿2雙核,2.67GHz處理器,4GB內存,Visual C++,在INRIA數據集上64×128解析度圖片的平均檢測時間為14ms。實際應用中,通過攝像頭輸入的圖片一般大于INRIA圖片,采用天空和平面物體的濾除算法能夠去除一部分無效區域,節省運算耗時??梢哉J為,經過代碼優化后本文中介紹的算法基本滿足車載平臺的實時性要求。
針對ADAS中行人檢測的實時性和魯棒性要求,本文中提出一種基于融合顯著性的行人檢測方法。通過引入條件隨機場模型,實現了不同顯著性計算方法的融合,該方法不僅考慮了單個像素顯著度的融合,還考慮了鄰域像素顯著性的相關性,CRF模型離線訓練后能夠獲得較好的判別性能。同時,采用SLIC方法進行圖像超像素形式的幾何信息劃分,進而對可能存在行人的區域進行篩選,縮短了算法的檢測時間。
本文中只考慮了單個無遮擋行人目標的檢測,基于融合顯著性的遮擋行人檢測仍然有待深入研究。此外,在實際交通環境下,受到天氣與光照變化和混合交通流的影響,開發適合我國交通狀況的視覺行人檢測系統是一個具有挑戰性的課題,在后續工作中,將對具有高表征意義的行人判別性特征提取、快速分類模型等方面進一步開展研究。
[1] 邱俊. 中國交通事故和交通傷成因,特點與趨勢研究[D]. 重慶:第三軍醫大學,2009.
[2] 莊家俊. 面向汽車輔助駕駛的遠紅外行人檢測關鍵技術研究[D]. 廣州:華南理工大學,2013.
[3] 蘇松志,李紹滋,陳淑媛,等. 行人檢測技術綜述[J]. 電子學報,2012,40(4): 814-820.
[4] Liem M C, Gavrila D M. Coupled Person Orientation Estimation and Appearance Modeling Using Spherical Harmonics[J]. Image and Vision Computing, 2014, 32(10): 728-738.
[5] Gavrila D M, Giebel J, Munder S. Vision-based Pedestrian Detection: The Protector System[C]. IEEE Conference on Intelligent Vehicles Symposium, 2004: 13-18.
[6] Broggi A, Bertozzi M, Fascioli A, et al. Shape-based Pedestrian Detection[C]. IEEE Conference on Intelligent Vehicles Symposium, 2000: 215-220.
[7] Papageorgiou C, Oren M, Poggio T. A General Framework for Object Detection[C]. IEEE International Conference on Computer Vision, 1998: 555-562.
[8] Ojala T, Pietikainen M, Maenpaa T. Multiresolution Gray-scale and Rotation Invariant Texture Classification with Local Binary Patterns[J]. Pattern Analysis and Machine Intelligence, 2002, 24(7): 971-987.
[9] Wu B, Nevatia R. Detection of Multiple, Partially Occluded Humans in a Single Image by Bayesian Combination of Edgelet Part Detectors[C]. IEEE International Conference on Computer Vision, 2005, 1: 90-97.
[10] Levi K, Weiss Y. Learning Object Detection from a Small Number of Examples: The Importance of Good Features[C]. IEEE Conference on Computer Vision and Pattern Recognition, Washington DC, USA, 2004: 53-60.
[11] Lowe D G. Distinctive Image Features from Scale-invariant Keypoints[J]. Computer Vision, 2004, 60(2): 91-110.
[12] Dalal N, Triggs B. Histograms of Oriented Gradients for Human Detection[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2005: 886-893.
[13] Viola P, Jones M. Robust Real-time Face Detection[J]. Computer Vision, 2004, 57(2): 137-154.
[14] Oren M, Papageorgiou C, Sinha P, et al. Pedestrian Detection Using Wavelet Templates[C]. IEEE Conference on Computer Vision and Pattern Recognition, 1997: 193-199.
[15] Maji S, Berg A C, Malik J. Efficient Classification for Additive Kernel Svms[J]. Pattern Analysis and Machine Intelligence, 2013, 35(1): 66-77.
[16] Felzenszwalb P, Girshick R, McAllester D, et al. Visual Object Detection with Deformable Part Models[J]. Communications of the ACM, 2013, 56(9): 97-105.
[17] Silberman N, Hoiem D, Kohli P, et al. Indoor Segmentation and Support Inference from RGBD Images[M]. Computer Vision. Springer Berlin Heidelberg, 2012: 746-760.
[18] Jiang H, Wang J, Yuan Z, et al. Salient Object Detection: a Discriminative Regional Feature Integration Approach[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2013: 2083-2090.
[19] Cheng M M, Zhang Z, Lin W Y, et al. Bing: Binarized Normed Gradients for Objectness Estimation at 300fps[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2014: 3286-3293.
[20] Mai L, Niu Y, Liu F. Saliency Aggregation: a Data-driven Approach[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2013: 1131-1138.
[21] Liu T, Yuan Z, Sun J, et al. Learning to Detect a Salient Object[J]. Pattern Analysis and Machine Intelligence, 2011, 33(2): 353-367.
[22] Pécot T, Bouthemy P, Boulanger J, et al. Background Fluorescence Estimation and Vesicle Segmentation in Live Cell Imaging with Conditional Random Fields[J]. Image Processing, 2015, 24(2): 667-680.
[23] INRIA Person Dataset[EB/OL]. http://www.emt.tugraz.at/~pinz/data/GRAZ_01.
[24] González A, Ramos S, Vázquez D, et al. Spatiotemporal Stacked Sequential Learning for Pedestrian Detection[C]. In 7th Iberian Conference on Pattern Recognition and Image Analysis, 2015.
Pedestrian Detection Algorithm for Driver Assistance System Based on Fused Saliency
Cai Yingfeng1, Wang Hai2, Chen Xiaobo1, Chen Long1& Jiang Haobin2
1.ResearchInstituteofAutomotiveEngineering,JiangsuUniversity,Zhenjiang212013;2.SchoolofAutomotiveandTrafficEngineering,JiangsuUniversity,Zhenjiang212013
For meeting the requirements of high accuracy of pedestrian detection in advanced driver assistance systems, a visual saliency based pedestrian detection method is proposed to simulate human attention mechanism. Based on the labeled sample bank containing only pedestrian information, a conditional random field (CRF) model is set up to achieve the optimal fusion of different saliency calculation methods. In practical detection, the SLIC algorithm is used firstly to divide the image geometric information into super pixels so that the regions probably having pedestrian can be preliminarily selected. Then the CRF model is used to calculate the saliency of probable pedestrian regions and the regions with high saliency are determined to be pedestrian regions. Experiment results show that the method proposed has good discrimination performance with satisfactory detection rate. In addition, the pedestrian region searching method used reduces the detection time of algorithm to a certain extent, basically meeting the real-time requirements of onboard platform.
ADAS; pedestrian detection; visual saliency; conditional random field
*國家自然科學基金(61403172, 51305167和61203244)、交通運輸部信息化項目(2013364836900)、中國博士后基金(2015T80511和2014M561592)、江蘇省六大人才高峰項目(2014-DZXX-040)、江蘇省自然科學基金(BK20140555)、江蘇省博士后基金(1402097C)和江蘇大學高級專業人才科研啟動基金(12JDG010和14JDG028)資助。
原稿收到日期為2015年7月2日,修改稿收到日期為2015年8月15日。