魯 超,滕國偉,鄒雪妹,安 平
(上海大學(xué) 通信與信息工程學(xué)院,上海 200444)
一種適應(yīng)運(yùn)動前景的快速行人檢測算法
魯 超,滕國偉,鄒雪妹,安 平
(上海大學(xué) 通信與信息工程學(xué)院,上海 200444)
針對智能監(jiān)控視頻中行人的運(yùn)動特性和基本HOG加SVM人體檢測算法的特點(diǎn),將運(yùn)動目標(biāo)檢測算法融入基本的HOG加SVM人體檢測算法。首先,利用運(yùn)動目標(biāo)檢測算法確定運(yùn)動區(qū)域矩形窗,并擴(kuò)大調(diào)整矩形窗尺寸獲得ROI窗口;然后,根據(jù)運(yùn)動區(qū)域尺寸與訓(xùn)練樣本尺寸的差距調(diào)整ROI窗口的首級窗口縮放因子,并對ROI窗口進(jìn)行人體檢測。實(shí)驗(yàn)結(jié)果表明,本文算法優(yōu)于基本的HOG加SVM人體檢測算法,具有良好的實(shí)時(shí)性和適應(yīng)性。
運(yùn)動目標(biāo)檢測;ROI窗口;窗口縮放因子;行人檢測
目前,人體檢測技術(shù)是智能視頻監(jiān)控領(lǐng)域的研究熱點(diǎn),引起了國內(nèi)外學(xué)者的高度關(guān)注,在理論和實(shí)踐方面均取得了長足進(jìn)展[1]。2005年N.Dalal和B.Triggs[2]提出了基于梯度方向直方圖(Histograms of Oriented Gradient,HOG)特征和支持向量機(jī)(Support Vector Machine,SVM)的人體檢測算法,由HOG特征的定義中可見,計(jì)算一幅圖的HOG特征向量的運(yùn)算量非常大,離實(shí)時(shí)應(yīng)用差距很大。因此很多學(xué)者在HOG加SVM人體檢測算法基礎(chǔ)上進(jìn)行改進(jìn)以提高檢測速度。其中,文獻(xiàn)[3]提出使用積分圖快速計(jì)算Haar特征,從而加速人臉檢測算法,受其啟發(fā),F(xiàn).Porikli[4]提出利用積分圖快速計(jì)算HOG特征,一定程度上縮短檢測耗時(shí),但仍未能達(dá)到實(shí)時(shí)應(yīng)用的效果,尤其針對高清圖片的檢測更是遠(yuǎn)遠(yuǎn)達(dá)不到應(yīng)用要求。文獻(xiàn)[5]利用Adaboost級聯(lián)分類器取代SVM進(jìn)行訓(xùn)練和分類,在速度上也有一定的提高,最終實(shí)現(xiàn)將320×240尺寸圖片檢測用時(shí)從1 s減少為0.2 s,但仍未達(dá)到工業(yè)應(yīng)用的要求。2012年,A.Mogelmose等[6]提出一種用于車載攝像頭的兩個(gè)階段人體檢測算法,首先利用Haar加Adaboost確定需要檢測的ROI窗口,再利用HOG加SVM人體檢測算法對ROI區(qū)域部分進(jìn)行投票驗(yàn)證,可有效地檢測出部分遮擋的行人,并提高人體檢測的實(shí)時(shí)性。文獻(xiàn)[7]在文獻(xiàn)[6]的基礎(chǔ)上,加入目標(biāo)跟蹤算法,進(jìn)一步提高檢測正確率和實(shí)時(shí)性。
上述方法在保證較高檢測率的同時(shí),力求縮短行人檢測所用時(shí)間,其中,在檢測之前確定需要進(jìn)行人體檢測的ROI區(qū)域可以極大地減少算法所用時(shí)間。本文對此進(jìn)一步研究,一方面利用幀差法[8]進(jìn)行前景分割確定需要檢測的ROI區(qū)域,排除不需要檢測的背景區(qū)域;另一方面,通過比較運(yùn)動區(qū)域尺寸與用于訓(xùn)練的樣本尺寸(64×128)差異來優(yōu)化HOG特征提取過程中被檢測圖像的第一級縮放因子。實(shí)驗(yàn)結(jié)果表明,在保證較高檢測率的同時(shí),可以極大限度地減少行人檢測過程中的冗余計(jì)算量,縮短行人檢測耗時(shí)。
本文提出一種基于運(yùn)動區(qū)域尺寸自適應(yīng)縮放的快速行人檢測算法,主要步驟包括:
1)利用相鄰幀差法進(jìn)行前景提取得到當(dāng)前幀的運(yùn)動區(qū)域,然后通過運(yùn)動區(qū)域輪廓確定外接運(yùn)動區(qū)域的矩形窗;
2)調(diào)整運(yùn)動區(qū)域矩形窗尺寸,將部分背景包含進(jìn)新得到的矩形窗,即為需要進(jìn)行人體檢測的ROI窗口;
3)根據(jù)運(yùn)動區(qū)域尺寸與訓(xùn)練樣本尺寸(64×128)的差距自適應(yīng)調(diào)整HOG特征提取過程中ROI窗口的第一級窗口縮放因子,除第一級縮放因子被調(diào)整之外,剩下的窗口縮放因子保持原來的1.05倍不變;
4)利用調(diào)整縮放因子后的HOG加SVM算法對ROI窗口進(jìn)行人體檢測。
1.1 利用幀間差分法確定運(yùn)動區(qū)域矩形窗
利用幀間差分法確定運(yùn)動區(qū)域矩形窗流程圖如圖1所示。

圖1 確定運(yùn)動區(qū)域矩形窗流程圖
1)前景分割
由于前景分割的目的是為了大體確定運(yùn)動物體所在區(qū)域,并不要求得到完整的運(yùn)動物體,因此,在前景分割算法上采用較簡單的相鄰幀差法,具體過程如圖1虛線框所示。
假設(shè)Fm(x,y)和Fm-1(x,y)是圖像序列的第m和m-1幀灰度圖像,Dm(x,y)是Fm(x,y)與Fm-1(x,y)的差分圖像,Bm(x,y)是Dm(x,y)進(jìn)行閾值化后的二值化圖像,閾值為T。當(dāng)差分圖像Dm(x,y)中像素點(diǎn)的灰度值大于閾值T時(shí),就認(rèn)為該像素點(diǎn)屬于運(yùn)動區(qū)域;反之,則認(rèn)為該像素點(diǎn)屬于背景,見式(1)和式(2)

(1)

(2)
2)確定運(yùn)動區(qū)域矩形窗
從二值圖像Bm(x,y)中檢索出運(yùn)動區(qū)域的外輪廓,根據(jù)統(tǒng)計(jì)出的輪廓尺寸,篩選出符合要求的輪廓,再遍歷輪廓上所有的點(diǎn),確定外接運(yùn)動區(qū)域矩形窗的左上角頂點(diǎn)坐標(biāo)、寬和高,最終確定輸入圖像的運(yùn)動區(qū)域矩形窗的具體位置,并在原圖中將運(yùn)動區(qū)域矩形窗分割出來,效果如圖2所示。

圖2 確定運(yùn)動區(qū)域矩形窗各階段效果
1.2 確定ROI窗
HOG特征本質(zhì)上描述的是人體的輪廓特征,據(jù)此,在制作用于訓(xùn)練分類器的正樣本時(shí),并不是緊貼著人體截取圖片的,正樣本中人體周圍需要包含一些背景。外接運(yùn)動區(qū)域的矩形窗會比分類器所能檢測到的人體窗口稍小,因此需要適當(dāng)擴(kuò)大運(yùn)動區(qū)域矩形窗,使其能完全覆蓋分類器所能檢測到的人體區(qū)域。
矩形窗擴(kuò)大倍數(shù)實(shí)質(zhì)上由訓(xùn)練樣本和分類器性能決定,通過大量實(shí)驗(yàn),僅引入運(yùn)動目標(biāo)檢測的HOG加SVM算法檢測效果與運(yùn)動區(qū)域放大倍數(shù)關(guān)系,如圖3所示。圖3a中,當(dāng)放大倍數(shù)為1.3時(shí),正檢率最高為93.4%,且平均每幀誤檢數(shù)為最小值0.08;圖3b中,隨著放大倍數(shù)的增加,檢測耗時(shí)逐漸增加,因此,綜合性能與時(shí)間確定最佳放大倍數(shù)為1.3。

圖3 算法檢測效果與放大倍數(shù)關(guān)系
針對本文所用分類器和訓(xùn)練樣本,最終的ROI窗口是以運(yùn)動區(qū)域矩形窗為中心放大1.3倍得到的,同時(shí)必須保證經(jīng)過擴(kuò)大尺寸得到的ROI窗口不超出視頻邊界范圍,針對大小為640×480的視頻,ROI窗口由式(3)~式(6)組成
(3)
(4)
(5)
(6)
式中:原點(diǎn)(0,0)位于視頻的左上角位置;(Xmv,Ymv)為運(yùn)動區(qū)域矩形窗的左上角頂點(diǎn)坐標(biāo);Wmv和Hmv分別對應(yīng)運(yùn)動區(qū)域矩形窗的寬和高;(XROI,YROI)為ROI窗口左上角頂點(diǎn)坐標(biāo);WROI和HROI分別對應(yīng)ROI窗口的寬和高。
圖4展示了由運(yùn)動區(qū)域矩形窗得到ROI窗的兩種情況和各自效果。其中里層窗口為運(yùn)動區(qū)域窗口,外層窗口為需要進(jìn)行人體檢測的ROI窗口。第一種情況,運(yùn)動區(qū)域在遠(yuǎn)離視頻邊界位置,以運(yùn)動區(qū)域?yàn)橹行臄U(kuò)大1.3倍后不超出視頻邊界,如圖4a所示;第二種情況,運(yùn)動區(qū)域靠近視頻邊界,運(yùn)動區(qū)域擴(kuò)大1.3倍后會超出視頻邊界,則在超出邊界那一側(cè)令視頻邊界為ROI窗口邊界,如圖4b所示。

圖4 運(yùn)動區(qū)域窗口與ROI窗口的比較
1.3 調(diào)整窗口縮放因子并對ROI窗口進(jìn)行人體檢測
1) 優(yōu)化窗口縮放因子
基本HOG加SVM算法的步驟為:首先輸入一幅圖像,使用固定大小的窗口(64×128)按步長8對該圖像進(jìn)行密集掃描,計(jì)算掃描到窗口的3 780維HOG特征向量,并使用已訓(xùn)練好的SVM分類器根據(jù)窗口的HOG特征向量判斷該窗口是否為人體;當(dāng)掃描完當(dāng)前圖像后,判斷當(dāng)前圖像是否到達(dá)金字塔頂端,若未到達(dá),則將當(dāng)前圖像按1.05倍縮放因子進(jìn)行縮放,然后對縮放后的圖像進(jìn)行同樣的掃描和人體檢測,依次循環(huán),直到圖像縮放到金字塔頂端位置,完成當(dāng)前圖像人體檢測。由此可見,圖像的縮放尺度決定所要檢測的窗口數(shù)目,以及算法復(fù)雜度和檢測時(shí)間。
由于檢測窗口尺寸固定為64×128,正常情況下,只有當(dāng)圖像中的人體尺寸縮放到64×128左右才會被判斷為人體,在此之前的圖像縮放和檢測對于人體檢測是冗余計(jì)算量,而最初的幾次縮放由于尺寸更大、占用的計(jì)算時(shí)間更長,通過控制窗口縮放因子,可以避免這部分冗余計(jì)算量,極大地節(jié)約時(shí)間。
如圖5所示,外層框?yàn)榇龣z測的ROI窗口,里層框?yàn)樽罱K行人檢測結(jié)果,經(jīng)測量,ROI窗口尺寸為153×315,人體窗口尺寸為120×233,由基本HOG加SVM算法,ROI窗口按照1.05倍等級依次縮放并檢測,當(dāng)縮放得到的待檢圖像中的人體窗口尺寸為64×128時(shí),才能通過特征提取與分類將其判斷為人體區(qū)域,由結(jié)果反推可知,ROI窗口按1.05倍等級縮放14次才能使得其內(nèi)部的人體窗口尺寸縮放為64×128,在此之前縮放形成的14張圖像對于人體檢測是冗余計(jì)算量,這14張圖像大小依次為88×182,114×222,109×211,104×201,…,88×182。本文思路是:通過控制第一級ROI窗口縮放因子,使得被檢ROI窗口尺寸直接縮放到88×182左右,跳過這部分冗余計(jì)算量,然后仍按1.05倍進(jìn)行縮放。由于運(yùn)動區(qū)域窗口尺寸略小于人體窗口尺寸,因此,通過計(jì)算運(yùn)動區(qū)域窗口尺寸與64×128的比值可以得到第一級窗口縮放因子scale0,見式(7)
scale0=min(Wmv/64,Hmv/128)
(7)

圖5 ROI窗口及最終行人檢測窗口
2)對ROI窗口進(jìn)行人體檢測
利用上述1)中改進(jìn)后的HOG加SVM檢測算法只對ROI窗口進(jìn)行人體檢測,最終檢測效果如圖6所示,矩形框?yàn)樽罱K框出的人體。

圖6 行人檢測的結(jié)果
為了檢驗(yàn)本文算法的效果,分別對以下3種算法進(jìn)行性能比較和評估:算法1,基本的HOG加SVM人體檢測算法;算法2,僅引進(jìn)幀間差分法的人體檢測算法;算法3,基于運(yùn)動區(qū)域尺寸自適應(yīng)縮放的快速行人檢測算法。
分別對3段視頻進(jìn)行測試,視頻為作者對實(shí)際場景進(jìn)行拍攝得到,其中,視頻1尺寸為640×480,內(nèi)部始終有4個(gè)行人(偶爾會有遮擋);視頻2尺寸為640×480,內(nèi)部始終只有1個(gè)行人;視頻3尺寸為1 920×1 080,內(nèi)部始終只有1個(gè)行人。檢測過程中基本的HOG加SVM算法使用的參數(shù)有:檢測窗口尺寸為64×128、窗口縮放倍數(shù)為1.05、塊尺寸16×16、單元格尺寸8×8、掃描步長8個(gè)像素、梯度方向數(shù)9維,HOG特征向量維數(shù)為3 780。
3個(gè)算法使用完全相同的分類器,本文分類器是利用目前行人檢測領(lǐng)域公認(rèn)的標(biāo)準(zhǔn)樣本集——INRIAPerson人體樣本集的圖片經(jīng)過裁剪訓(xùn)練得到的。統(tǒng)計(jì)過程中,當(dāng)行人身體的至少80%以上被檢為人體才判斷為檢測正確,被檢為人體的背景或者被部分檢出的人體判為誤檢。實(shí)驗(yàn)結(jié)果如表1所示。

表1 實(shí)驗(yàn)結(jié)果比較
從表中數(shù)據(jù)可以看到,利用算法3和算法1對視頻2進(jìn)行行人檢測,在正確率僅降低1.8%的情況下,時(shí)間降為原來的1/12;對視頻3進(jìn)行行人檢測,在正確率僅降低1.2%的情況下,時(shí)間降為原來的1/69。均證明本文算法在行人相互遮擋較少情況下,相比基本HOG加SVM算法在保證原有檢測率的同時(shí),可極大減少檢測時(shí)間。
此外,通過比較算法1、算法2、算法3檢測同一段視頻2的正確率,由算法1到算法3正確率降低1.5%,由算法2到算法3正確率降低0.3%,其主要原因是:1)利用相鄰幀差法確定運(yùn)動區(qū)域時(shí),當(dāng)人體運(yùn)動量較小時(shí),只有一部分被判斷為運(yùn)動區(qū)域,導(dǎo)致之后不能被正確檢測出;2)在根據(jù)運(yùn)動區(qū)域尺寸與樣本尺寸差距調(diào)整ROI圖像縮放因子時(shí),ROI縮放得過大,以致人體特征不明顯,不能被正確檢測出。
最后比較算法1、算法2、算法3檢測同一段視頻1的正確率,由算法1到算法3正確率降低6.6%,降低幅度較大,其主要原因是:視頻1中包括多人,經(jīng)常會有遮擋和重疊,遮擋和重疊的多個(gè)行人會被判斷為同一個(gè)ROI窗口,在調(diào)整ROI窗口縮放因子時(shí)根據(jù)與64×128的差距,導(dǎo)致ROI窗口縮放得太多,以致無法檢出。由此可見本文算法針對人流較少、重疊較少的視頻具有更好的效果,尤其針對高清視頻在保證檢測準(zhǔn)確度的同時(shí),可極大縮短檢測時(shí)間。針對這個(gè)問題,本文后續(xù)將對包含多人的情況進(jìn)行算法改進(jìn),對同一個(gè)ROI窗口中有多個(gè)行人的情況,將進(jìn)一步判斷出該窗口行人數(shù),根據(jù)人數(shù)分等級調(diào)整圖像縮放因子,以提升準(zhǔn)確度。
本文提出了一種基于運(yùn)動區(qū)域尺寸進(jìn)行自適應(yīng)縮放的快速行人檢測算法,主要在以下方面:1)引入運(yùn)動目標(biāo)檢測,利用幀差法確定ROI窗口,縮小人體檢測區(qū)域;2)經(jīng)過大量實(shí)驗(yàn)統(tǒng)計(jì)得到縮放倍數(shù)最佳值,將原始運(yùn)動區(qū)域放大得到ROI
窗口;3)優(yōu)化人體檢測時(shí)ROI窗口縮放因子,避免冗余計(jì)算量。實(shí)驗(yàn)結(jié)果表明該算法相對基本HOG加SVM算法在保持較高正確率的同時(shí),極大程度避免冗余計(jì)算量,大大縮短檢測時(shí)間,尤其針對高清視頻性能更優(yōu),可有效解決目前行人檢測實(shí)時(shí)性差的問題。
[1]DOLLAR P,WOJEK C,SCHIELE B,et al. Pedestrian detection: an evaluation of the state of the art[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(4):743-761.
[2]DALAL N,TRIGGS B. Histograms of oriented gradients for human detection[C]//Proc. IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2005. [S.l.]:IEEE Press,2005:886-893.
[3]VIOLA P,JONES M. Rapid object detection using a boosted cascade of simple features[C]//Proc. 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. [S.l.]:IEEE Press,2001:511-518.
[4]PORIKLI F. Integral histogram: a fast way to extract histograms in cartesian spaces[C]//Proc. IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2005. [S.l.]:IEEE Press,2005:829-836.
[5]ZHU Q,YEH M C,CHENG K T,et al. Fast human detection using a cascade of histograms of oriented gradients[C]//Proc. 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. [S.l.]:IEEE Press:1491-1498.
[6]MOGELMOSE A,PRIOLETTI A,TRIVEDI M M,et al. Two-stage part-based pedestrian detection[C]//Proc. 2012 15th International IEEE Conference on Intelligent Transportation Systems. [S.l.]:IEEE Press,2012:73-77.
[7]PRIOLETTI A,MOGELMOSE A,GRISLERI P,et al. Part-based pedestrian detection and feature-based tracking for driver assistance: real-time,robust algorithms,and evaluation[J].IEEE Transactions on Intelligent Transportation Systems,2013,14(3):1346.
[8]袁國武. 智能視頻監(jiān)控中的運(yùn)動目標(biāo)檢測和跟蹤算法研究[D].昆明:云南大學(xué),2012.
魯 超(1989— ),碩士生,研究方向?yàn)橹悄芤曨l處理;
滕國偉(1975— ),博士,高級工程師,碩士生導(dǎo)師,研究方向?yàn)橄冗M(jìn)視頻壓縮技術(shù)、先進(jìn)視頻監(jiān)控技術(shù);
鄒雪妹,女,副教授,碩士生導(dǎo)師,研究方向?yàn)橐曨l圖像信號處理;
安 平,女,教授,博士生導(dǎo)師,研究方向?yàn)槿S視頻處理技術(shù)。
責(zé)任編輯:任健男
Rapid Pedestrian Detection Algorithm Based on Foreground
LU Chao, TENG Guowei, ZOU Xuemei, AN Ping
(SchoolofCommunicationandInformationEngineering,ShanghaiUniversity,Shanghai200444,China)
Taking advantage of features of pedestrian in intelligent surveillance video and the characteristics of the fundamental HOG plus SVM human detection algorithm, the moving target detection algorithm is added into the fundamental HOG+SVM human detection algorithm. Firstly, moving target detection algorithm is used to determine the rectangular foreground area windows. Then, the prospects of background are added into the rectangular foreground area windows to gain ROI windows by expanding the size of rectangular windows. Secondly, according to the gap between the size of moving region and that of training samples, the first level of the scaling factor of ROI windows is resized and ROI windows are detected. The experimental results show that this algorithm is superior to the fundamental HOG plus SVM human detection algorithm, with good real-time performance and adaptability.
moving target detection; ROI windows; scaling factor; pedestrian detection
國家自然科學(xué)基金項(xiàng)目(61172096;61271212);新型顯示教育部重點(diǎn)實(shí)驗(yàn)室開放課題資助項(xiàng)目(P201104);上海市科委重點(diǎn)資助項(xiàng)目(12511502502)
TN911.73
A
10.16280/j.videoe.2015.01.029
2014-07-07
【本文獻(xiàn)信息】魯超,滕國偉,鄒雪妹,等.一種適應(yīng)運(yùn)動前景的快速行人檢測算法[J].電視技術(shù),2015,39(1).