楊 穎 黃曉峰
(廣東農工商職業技術學院計算機系 廣東 廣州 510507)
?
一種復雜背景下多尺度多視角的人體檢測方法
楊穎黃曉峰
(廣東農工商職業技術學院計算機系廣東 廣州 510507)
針對復雜背景下的人體檢測技術所面臨的噪聲干擾、背景復雜、相互遮擋等問題,設計一種多尺度多視角人體檢測算法。針對傳統的梯度方向直方圖目標特征提取方法特征維數大、有遮擋時檢測率低等缺陷,分別使用擴展多尺度方向特征和經WTA hash編碼的多尺度梯度方向直方圖特征提取,并使用弱分類器和貪婪算法進行特征選擇以獲得圖像的粗特征和精特征。然后使用線性平移合成多視角樣本,使用多層級聯的Adaboost算法和支持向量機作為分類器進行人體目標檢測,結合復雜背景處理、特征重裝等方法提高檢測精度。使用INRIA公共測試集的實驗結果表明,該算法可精確檢測出復雜背景下相互遮擋情況下多視角、多姿態的人體目標,與傳統的人體檢測算法相比,具有更高的檢測效率和檢測精度。
復雜背景人體檢測擴展多尺度方向多尺度梯度方向直方圖多視角分類器
本文立足于提高基于HOG的人體檢測方法的性能,并增強存在遮擋情況下的檢測率,提出了一種基于多尺度方向直方圖的特征提取方法提取圖像的粗特征和精特征。在此基礎上使用級聯SVM模型和Adaboost算法進行檢測,形成一種多尺度多分類器的人體檢測模型,并對其效能進行測試。
人體檢測作為計算機視覺研究應用領域的重要研究方向之一,有著巨大的市場應用潛力和研究意義,可廣泛運用于人機交互、自動控制、視頻檢索和智能視頻監控等方面[1]。這也進一步推動了學者對視頻幀和圖像中的人體目標檢測,但迄今為止人體檢測仍然存在著效率低下且易受遮擋、視角、光照等因素影響,這些方面的問題成為人體檢測領域的難點亟待解決[2]。
在目前的研究成果中,主要有三類人體檢測方法,分別是模板匹配、基于Haar特征的方法和基于梯度方向直方圖HOG(Histograms of oriented gradients)的方法[3-5]。其中模板匹配是提取圖像并與已有人體形狀模板進行匹配檢測是否是人體,較為典型的有頭肩模型用于匹配檢測[6],但人體形態的多樣性導致這種方法效果較差,已較少使用;基于Haar特征的方法使用Haar特征和分類器材識別,由于人臉特征能與Haar特征較好契合從而在人臉檢測中得到較好應用,但因背景顏色、衣服色澤等因素影響,在人體檢測中的效果不如預期[7];基于HOG的方法經描述局部圖像的方向分布情況和梯度獲取該區域的HOG作為檢測特征并結合訓練的分類器進行識別,該方法精度較高因此得到了較多的重視和研究[8]。但基于HOG的也存在訓練速度較慢、特征窗口提取單一等缺陷,因此許多研究對其進行改進,如多尺度HOG方法[9]、局部二值模式結合HOG方法[10]、加權塊[11]等方法來增強局部特征的表達能力從而提高基于HOG方法的效率。但這類方法都是在固定尺度上計算,沒有將人體的多尺度輪廓納入特征提取中,而多尺度特征表達的提出通過使用Gabor小波、灰度協方差、組合塊等方法提高了基于HOG方法的性能,進一步增強了基于HOG方法的應用價值。
本文在已有研究的基礎上,綜合考慮復雜背景下相互遮擋且不易檢測的難點,以背景區分、多視角檢測、遮擋去除等方法用于人體目標檢測。訓練特征塊以多尺度方法從訓練樣本中提取和選擇,包含粗特征和精特征,其中粗特征使用擴展多尺度方向特征提取并使用粗分類器選擇,精特征使用WTA hash編碼的擴展多尺度方向直方圖提取并使用貪婪算法選擇,對特征集使用多層級聯的Adaboost算法和SVM分類器進行多視角分類器進行分類訓練。將訓練好的分類器運用于待檢測圖像,并結合復雜背景處理、多視角樣本生成和遮擋處理得到最后的檢測結果,算法流程如圖1所示。

圖1 本文檢測算法流程
本文分別使用擴展多尺度方向特征提取和WTA hash編碼的多尺度梯度方向直方圖特征提取方法獲得圖像的粗特征和精特征。
2.1HOG原理
HOG是按照圖像的外觀、形狀等特征的邊緣方向和梯度來獲取圖像特征,這種特征并沒有從圖像整體去提取特征,而是將圖像分割成許多個名為cell的小細胞單元,再計算所有cell中的梯度方向直方圖。同時為了提高算法效率將多個cell融合成一個名為block的大單元并將其梯度進行歸一化,計算梯度方向向量[12]。
在HOG特征計算過程中,首先使用一維離散微分模板從垂直和水平兩個方向將180°分成N個方向計算內部各個cell的梯度,研究得出,當N為9時梯度精度最大[13]。然后取各cell單元中所有像素點的梯度幅值進行加權求得其比重,依照比重為直方圖通道投票加權。由于圖像背景的存在和影響,各cell的梯度變化幅度較大,分類器難以適應其變化,因此再進行歸一化處理,使用L2范數為因子,計算如式(1)所示。
(1)
式中e為常數,V表示歸一化前的梯度向量值。這樣可求得圖像的HOG特征。
2.2擴展多尺度方向特征提取
多尺度方向MSO(Multi-scale orientation)特征是從水平和垂直兩個方向綜合描述直立或者姿態變化小的人體輪廓信息,但卻不能有效識別姿態變化明顯的人體輪廓信息[14]。為此設計一種擴展多尺度方向特征EMSO(Extended MSO)提取方法,以擴展的Haar-like特征為基礎,在MSO的基礎上再提取兩個特征塊,使人體輪廓信息特征提取的姿態變化適應性更強,其原理如圖2所示。

圖2 EMSO原理
EMSO的方法是將圖像分解為n個單元塊,再將各單元塊劃分為4個子塊并計算各子塊顏色積分值,常規MSO已有垂直梯度Dd和左旋45°梯度Ddl,而水平梯度Dl和右旋45°梯度Ddr需計算得出,Dl計算方法為:
(2)
Ddr計算方法為:
(3)
式中I(·)是該點的像素值。計算4個子塊的顏色積分值后,可得EMSO單元塊方向He的值為:
(4)
在此基礎上可得量化塊方向Fi的值為:
Fi=Q(H)
(5)
即將180°以內方向的連續值進行8值離散化處理,將所有Fi進行連接后可得EMSO特征,該特征可用方塊表征任何矩形,其方向計算可在方向上進行,可降低EMSO特征維數,且不易受光照、形變影響,因此可提高運算效率。
2.3擴展梯度方向直方圖提取

圖像上的X和Y兩點相似性在某種程度上和對對應的特征維數排序類似,其pairwise-order量度計算方法為:
(6)
式中,xi、xj分別是X和Y對應的第i特征維數,T(·)是閾值函數,其公式為:

(7)
式(6)可變換為:
(8)
式中有:
Ri(X,Y)=|L(X,i)∩L(Y,i)|
(9)
L(X,i)={j|X(i)>X(j)}
(10)
WTA hash編碼[16]如圖3所示,圖3(a)中L(X,0)={1,2,3,5}對應式(10)的低于0下標元素的元素下標集合,類似的L(Y,0)={3,4,5},代入式(9)可得R0(X,Y)=|{3,5}|=2,由于維數為6,因此K=4,θ={1,4,2,5,0,3},圖3(a)和(b)的X不相關,編碼結果分別為1和2,即不相等。而圖3中的(c)、(d)是對(a)做線性運算而得,因此對應的輸出結果也為1。通過實例可知,WTA hash編碼可抗干擾,且具備線性穩定性,能將MHOG轉換到對特征維數不敏感的空間中得到稀疏特征,避免原特征空間中的冗余度大的缺陷,提高運算速度和運算效率。

圖3 WTA hash編碼實例
WTA hash編碼的步驟如圖4所示,實際上是將向量X中的值隨機排列,通過滑動窗口法掃描,將最大值保留,其他值設置為0,同時利用隨機數組θ消除向量中元素的相關性,這就是本文所用的WMHOG特征提取方法。

圖4 WTA hash編碼的步驟
圖5所示為圖2的例圖經MHOG和WMHOG兩種特征提取方法后的效果對比,分析發現,WMHOG特征比MHOG特征更為稀疏,降低了約17%。

圖5 WTA hash編碼效果
對EMSO提取的粗特征塊的選擇使用Adaboost算法[17],對WMHOG提取的精特征塊使用貪婪算法[18]。
使用Adaboost算法選擇粗特征先需構建弱分類器,由于人體的輪廓普遍存在一定的角度范圍,對應的方向特征fn在人體輪廓的表征上具有較好的性能。因此對弱分類器的需求是在特征選擇時將處于一定角度范圍內的特征作為正例樣本,這是選擇Adaboost算法的主要原因。弱分類器的構建方法為:
(11)
式中,C(n)是粗特征經粗分類器分類之后的結果,fn是通過式(1)所得的EMSO方向特征。Tmin(n)、Tmax(n)為弱分類器的最小和最大角度閾值,閾值可使用貪婪算法獲取。
WMHOG特征塊選擇使用貪婪算法,在其第t次求解過程中,由于局部最優解的優勢,新加入的特征ft+1可進一步增大分類精度,整個求解過程是從待選特征集A中選出局部最優解的特征值加入到已選集S中,即:
(12)
式中,I(u;C)=∑Cp(C,f)log(p(C|f))為f的條件熵,p(C|f)為C樣例正確的概率。這樣經t次求解后,A、S的更新如下:
At+1=Atfk,St+1=St∪{ft+1}
(13)
即從集合A中去除ft+1加入到集合S中,持續這一過程直到分類精度不增長或增長幅度小于一定閾值時為止。
4.1多視角檢測
分類器訓練使用級聯Adaboost和線性SVM,共分四層,第一層全部視角樣本共同訓練單一模型,第二、三層分別使用3個、5個視角,前三層使用Adaboost,第四層使用SVM,其框架如圖6所示。在人體目標檢測時,對圖像窗口進行逐一分類以判定圖像中是否存在目標人體,并對其位置進行確定,當4層分類器都通過時判定存在目標人體,反之判定不存在目標人體。圖6的分類器框架經過實驗驗證確定前三層只用3個級聯就能實現較高的查全率和較快的檢測速率,對第四層的SVM分類器,在超過128個精特征塊可使SVM分類精度超過97%。

圖6 多視角檢測分類框架
但是這種多視角檢測中存在一定的問題,即人體的正面(0°)和側面(90°)的樣本易獲取,但是獲得中間角度(30°、45°、60°)的樣本較困難,對此采取特征塊位置線性平移的方法合成中間角度樣本。由于人體的對稱性完成0°到90°的樣本獲取即可,設特征塊n的視角樣本度數為D,對應的位置為XD(n),則可得0°,90°內的樣本線性合成為:
XD(n)=α(n)·X0(n)+(1.0-α(n))·X90(n)
(14)
式中α(n)為合成系數,由于不進行精確的姿態識別,因此可假定人體為圓柱體,可得α(n)為合成系數α(n)為:
α(n)=cos(D)/(sin(D)+cos(D))
(15)
類似地,塊特征也可由式(16)獲取:
FD(n)=α(n)·F0(n)+(1.0-α(n))·F90(n)
(16)
式中FD(n)表示特征塊n在D°的特征值,這樣可實現通過正面樣本及側面樣本獲取中間各視角的樣本從而完成分類器訓練。
4.2復雜背景處理
圖像人體識別過程中復雜背景處理主要解決人體輪廓與背景圖層灰度相似情況下檢測目標出現空洞的問題[15]。因此在復雜背景存在的情況下,定義函數f(a,b):
(17)
式(17)中a(x,y)是當前幀在像素點(x,y)的像素值,b(x,y)是對應點的背景像素值,這樣根據式(17)可知:當(x,y)是背景點時,f(a,b)=0,且f(a,b)分散分布;當(x,y)為人體目標區域內點時,f(a,b)≥0且f(a,b)集中分布。計算f(a,b)集中分布的范圍即為目標人體區域范圍。
4.3遮擋處理

(18)

(19)

為對本文的人體檢測算法進行驗證,使用法國國家信息與自動化研究所的公共測試集INRIA行人數據庫進行實驗。該數據庫是目前最常用的靜態行人檢測數據庫,提供了原始的圖片和相應的標注文件。訓練時采用了2000正例樣本和1000反例樣本,反例樣本主要是建筑、樹干等和人體輪廓相似的圓柱形物體,其中正面和側面視角的樣本由人工劃分形成,中間視角(30°、45°、60°)的樣本能過多視角樣本合成算法生成。最后使用測試集INRIA數據庫進行實驗,部分人體檢測結果如圖7所示。可以看出本文算法可以檢測出大部分人體,圖7(a)-(g)包含了復雜背景、與類人形圓柱體較為貼近、非正面或側面多視角人體、多姿態人體等多種情況,本文算法都能成功檢測,這是由于使用了復雜背景處理和特征重裝成功檢測出了中間復雜背景中有遮擋的人像。但在圖7(h)和圖7(i)中漏檢了后方復雜背景下的人體目標,分析發現是WTA hash編碼導致部分有用信息被刪除從而無法檢測出復雜背景下較小像素的遮擋人體目標。

圖7 人體檢測結果
算法性能定量分析比較使用單位圖片誤檢/圖片FPPI(False Positive per Image)條件下的漏檢率,分別與常規的HOG特征提取檢測[9]、HOG和局部二值模式HOG+LBP(HOG + Local Binary Pattern)相結合的方法[10]及多尺度HOG(MHOG)特征方法[11]相比較,其結果如圖8所示。從圖8可知,在相同FPPI的條件下本文的多尺度多視角算法的漏檢率低于HOG、HOG+LBP、MHOG等方法,但在FPPI接近1的時候,本文算法的漏檢率與MHOG逐漸接近,經分析這是由于WTA hash編碼后部分有用信息被濾除導致漏檢率增加。

圖8 算法檢測結果比較
上述各種算法在復雜背景下的檢測效率如表1所示。由表1可知,本文的多尺度多視檢測算法的檢測率比HOG等算法高,檢測時間比HOG等算法少得多,這主要是因為使用WTA hash編碼后濾除圖像特征中的冗余信息使圖像特征變得較為稀疏,從而使后續算法較為迅速,降低了檢測時間。

表1 各種算法檢測效率對比
本文針對人體檢測面臨的背景復雜、相互遮擋等難題,使用擴展多尺度方向和經WTA hash編碼的多尺度梯度方向直方圖兩種特征提取方法來提取圖像的粗特征和精特征,并使用多層多視角的級聯分類器進行人體檢測。其中擴展的多尺度方向特征能有效表征人體邊緣特征,而WTA hash編碼的多尺度梯度方向直方圖能有效濾除精特征中的冗余信息從而提高算法的檢測效率,多視角結合復雜背景處理和特征重裝可以在一定程度上解決復雜背景下人群相互遮擋的問題。實驗證明,多尺度多視角的檢測方法在提高檢測精度的同時檢測效率也保持較高的水平,但WTA hash編碼后造成復雜背景下像素較低的人體目標檢測存在一定缺陷,這也需要在以后的研究中不斷改進的重點問題。
[1] Aggarwal J, Ryoo M. Human activity analysis: a review [J]. ACM Computing Surveys, 2011, 43(3): 1-47.
[2] 歐陽毅,張三元,張引.基于窗口邊緣梯度熱能的人體遮擋多驚訝檢測算法[J]. 電子與信息學報,2012,34(4): 858-864.
[3] 雷慶,陳鍛生,李紹滋.復雜場景下的人體行為識別研究新進展[J].計算機科學, 2014,41(12):1-7.
[4] Ji Shuiwang , Xu Wei, Yang Ming, et al. 3D Convolutional Neural Networks for Human Action Recognition [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(1): 221-231.
[5] 邵彧.基于局部圖塊匹配的行人跟蹤算法[J].計算機工程與設計,2014,35(10):3518-3522.
[6] Ni E Z, Zhou C L, Jiang M J. A radical cascade classifier for handwritten Chinese character recognition [J]. Journal of Software, 2012, 7(10): 2294-2300.
[7] 黃炎,范賜恩,朱秋平,等.聯合梯度直方圖和局部二值模式特征的人體檢測[J].光學精密工程,2013,21(4):1047-1053.
[8] 劉亞洲.基于時空分析和多粒度特征表示的人體檢測方法研究[D].哈爾濱:哈爾濱工業大學,2009.
[9] Lin Zhe, Hua Gang, Davis L S. Multi-scale shared features for cascade object detection[C]//Proceeding of the IEEE International Conference on Image Processing, Orlando, FL, 2012: 1865-1868.
[10] Wang Xiaoyu, Han T X, Yan Shuicheng. An HOG-LBP human detector with partial occlusion handling[C]//Proceeding of IEEE International Conference on Computer Vision, Kyoto, 2009:32-39.
[11] 葉齊祥,焦建彬,蔣樹強.基于多尺度方向特征的快速魯棒人體檢測算法[J]. 軟件學報,2011,22(12):3004-3014.
[12] 李夢涵,熊淑華,熊文,等.多尺度級聯行人檢測算法的研究與實現[J].計算機技術與發展,2014,24(8):10-13.
[13] Wantanbe T, Ito S, Yokoi K. Co-occurrence histograms of oriented gradients for pedestrian detection [J]. LNCS, 2009, 52(14): 37-47.
[14] 孫宏國,李天然,蒲寶明,等.復雜背景下人體檢測算法[J].計算機系統應用,2013,22(4):134-138.
[15] Poppe R. A survey on vision-based human action recognition[J]. Image and Vision Computing, Elsevier B.V. 2010, 28(6): 976-990.
[16] Kratz L, Nishino K. Tracking pedestrians using local spatiotemporal motion patterns in extremely crowded scenes [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(5): 987-1002.
[17] Li W T, Chang H S, Lien K C, et al. Exploring visual and motion saliency for automatic video object extraction [J]. IEEE Transactions on Image Processing, 2013, 22(7): 2600-2610.
[18] Dollar P, Wojek C, Schiele B, et al. Pedestrian detection: an evaluation of the state of the art [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(7): 743-761.
A MULTI-SCALE AND MULTI-VIEW HUMAN BODY DETECTION METHOD UNDER COMPLEX BACKGROUND
Yang YingHuang Xiaofeng
(DepartmentofComputer,GuangdongAIBPolytechnic,Guangzhou510507,Guangdong,China)
Aiming at the problems such as noise interface, complex background and mutual occlusion encountered by human body detection technology under complex background, we designed a multi-scale and multi-view body detection algorithm. According to the shortcomings of traditional object feature extraction method of orientated gradient histogram including high feature-dimension and low detection rate while being occluded, in extraction we employed the extended multi-scale orientation feature and the multi-scale histogram of orientated gradient coded by WTA hash separately, and used weak classifier and greedy algorithm to select features so as to obtain the coarse features and fine features of the image. After that we then used linear shift to synthesise the multi-view samples. The multi-level cascade Adaboost algorithm and support vector machine were used as the classifiers to detect body objects, and the detection accuracy was improved in combination with complex background processing and characteristics reinstalling. Experimental results on INRIA public test set showed that the algorithm can make accurate detection on human body objects with multi-view and multi-pose under the conditions of complex background and mutual occlusion. Compared with traditional human body detection algorithm, it has higher detection efficiency and accuracy.
Complex backgroundHuman body detectionExtended multi-scale orientationMulti-scale histograms of oriented gradientsMulti-view classifier
2015-04-08。楊穎,講師,主研領域:物聯網,網絡安全和人臉識別。黃曉峰,實驗師。
TP391
A
10.3969/j.issn.1000-386x.2016.08.073