葉 璐,郭 立,劉 皓
(1.中國科學(xué)技術(shù)大學(xué)電子科學(xué)與技術(shù)系安徽合肥230027;2.中國科學(xué)技術(shù)大學(xué)物理系,安徽合肥230026)
基于多條件隨機(jī)場模型的異常行為檢測*
葉 璐1,郭 立1,劉 皓2
(1.中國科學(xué)技術(shù)大學(xué)電子科學(xué)與技術(shù)系安徽合肥230027;2.中國科學(xué)技術(shù)大學(xué)物理系,安徽合肥230026)
傳統(tǒng)的異常行為檢測多數(shù)是利用單特征建模,檢測的行為較為單一,檢測率較低,針對這些問題,提出一種基于多條件隨機(jī)場模型(MCRF)的異常行為檢測方法,MCRF模型具有融合多特征和聯(lián)系上下文信息的優(yōu)勢。通過Kinect獲取3D骨架數(shù)據(jù),提取角度、位置、速度三類特征,形成多類特征子集,利用基本的CRF模型對每一類特征子集建模,形成多個CRF單元,然后組合所有的CRF單元,得到MCRF模型,最后利用MCRF模型進(jìn)行異常行為檢測。實(shí)驗(yàn)結(jié)果表明基于MCRF的異常行為檢測方法具有較高的檢測率。
異常行為檢測 多條件隨機(jī)場模型 Kinect 3D骨架數(shù)據(jù) 特征提取
人體異常行為檢測[1-2]是計算機(jī)視覺領(lǐng)域一個熱門課題,在智能視頻監(jiān)控、智能機(jī)器人開發(fā)、人機(jī)交互、運(yùn)動分析、視頻檢索等方面均有廣泛應(yīng)用。在人體異常行為檢測過程中,環(huán)境、人體行為動作的復(fù)雜,人體形態(tài)個體差異等,這些都會對最終的檢測結(jié)果產(chǎn)生影響,因此,如何準(zhǔn)確高效的提取特征并對行為檢測是一個具有挑戰(zhàn)性的課題。
人體異常行為檢測問題主要包括目標(biāo)檢測與跟蹤,特征提取和行為識別,其中難點(diǎn)在于特征的提取和人體行為的分類、識別。早期采用一些簡單的幾何模型描述人體,如基于節(jié)點(diǎn)的骨架模型[3]、二維輪廓模型[4]、三維圓柱體模型[5]、三維人體形狀模型[6]等,其中Fujiyoshi等人提出的Star-Model[7]應(yīng)用較廣,它提取目標(biāo)輪廓最明顯的五個拐點(diǎn)作為人體模型進(jìn)行行為檢測及識別。
1992年Yamato[8]首次將隱馬爾可夫模型(HMM,Hidden Markov Model)引入行為識別,開始了基于狀態(tài)空間的行為識別研究算法。HMM也得到了廣泛應(yīng)用,但是HMM這類產(chǎn)生式模型存在兩種問題:一是由于產(chǎn)生式模型定義的是聯(lián)合概率,必須羅列出所有觀察序列的可能,這在實(shí)際應(yīng)用中有很大的局限性。二是產(chǎn)生式模型為了便于模型處理,假設(shè)觀察序列都是基于條件獨(dú)立的,這個假設(shè)導(dǎo)致其不能聯(lián)系上下文,限制了特征的選擇。2001年Lafferty等[9]人首次提出了條件隨機(jī)場模型(CRF, Conditional Random Fields)。CRF模型采用一種概率無向圖的方式,直接對后驗(yàn)概率建模,不依賴于條件獨(dú)立假設(shè),具有聯(lián)系上下文的能力,但是目前CRF模型的開發(fā)工具只支持鏈?zhǔn)叫蛄?不能融合多類特征。
由于單個CRF模型很難對多類特征進(jìn)行建模,單個CRF模型對多類特征進(jìn)行建模會導(dǎo)致描述不準(zhǔn)確,2007年Zhong和Wang[10]提出了一種多CRF組合模型(MCRF,Multiple CRF Ensemble Model),到目前關(guān)于MCRF的研究還比較少,應(yīng)用也不夠廣泛。
傳統(tǒng)的異常行為檢測多數(shù)是利用單特征建模,檢測的行為較為單一,檢測率較低,針對這些問題,提出一種基于MCRF的異常行為檢測方法,MCRF模型具有融合多特征和聯(lián)系上下文信息的優(yōu)勢。傳統(tǒng)的異常行為檢測提取的特征多數(shù)是2D特征,不包含深度信息,無法解決遮擋問題,而基于Kinect獲得的骨架數(shù)據(jù)提取得到的角度、位置、速度特征可以解決這個問題,這三類屬于3D特征,包含深度信息。最終實(shí)驗(yàn)結(jié)果表明基于MCRF的異常行為檢測方法具有較高的檢測率。
采用基于Kinect獲得的具有20個關(guān)節(jié)點(diǎn)的骨架模型,通過這20個關(guān)節(jié)點(diǎn)可以準(zhǔn)確表達(dá)出人的行為,從這20個關(guān)節(jié)點(diǎn)中選取15個關(guān)鍵關(guān)節(jié)點(diǎn)處理得到角度、位置、速度三類特征。角度特征包含4個手臂角度特征、4個腿部角度特征和2個軀干角度特征,位置特征包含9個關(guān)鍵關(guān)節(jié)的位置特征,速度特征包含整體速度、2個腕關(guān)節(jié)的速度和2個踝關(guān)節(jié)的速度,這三類特征是表述人體行為的關(guān)鍵特征。例如,拳擊(boxing)行為主要就是手部的運(yùn)動,可以通過4個手臂角度特征、4個手臂關(guān)節(jié)位置特征和2個腕關(guān)節(jié)的速度特征與其他行為加以區(qū)分;逃逸(run)行為是人體整體的運(yùn)動,與walk非常相似,但是與walk相比,相鄰兩幀間的角度特征變化較大,速度特征的大小也較大,通過這兩個特征可以區(qū)分出run和walk。
1.1 人體結(jié)構(gòu)向量
從Kinect獲得的20個關(guān)節(jié)點(diǎn)中選取15個關(guān)鍵關(guān)節(jié)點(diǎn)(頭節(jié)點(diǎn)A1、肩關(guān)節(jié)中心節(jié)點(diǎn)A2、兩個肩關(guān)節(jié)A3和A4、兩個肘關(guān)節(jié)A5和A6、兩個腕關(guān)節(jié)A7和A8、臀部中心節(jié)點(diǎn)A9、兩個髖關(guān)節(jié)A10和A11、兩個膝關(guān)節(jié)A12和A13、兩個踝關(guān)節(jié)A14和A15),如圖1所示。

圖1 人體骨架Fig.1 Human skeleton diagram
另定義A16為左右踝關(guān)節(jié)A14和A15的中點(diǎn),A17為左右髖關(guān)節(jié)A10和A11的中點(diǎn),通過17個點(diǎn)的坐標(biāo)可以構(gòu)造出23個人體結(jié)構(gòu)向量,這23個向量分為手臂、腿部、軀干、特殊四個部分:。向量定義如表1所示。

表1 人體結(jié)構(gòu)向量定義Table1 Definition of human body structure vector

續(xù)表1
其中,手臂、腿部、軀干三部分向量組合得到向量間的角度特征,特殊向量通過求模、歸一化得到位置特征。
1.2 人體結(jié)構(gòu)向量間的角度特征
由于人體體型差異以及kinect與人體相對位置的不同,相同動作得到的人體結(jié)構(gòu)向量也會有很大差異,不能作為歸一化后的特征,所以要對人體結(jié)構(gòu)向量進(jìn)行進(jìn)一步處理。
當(dāng)人做某一個動作時,人體結(jié)構(gòu)變化基本一致,也就是說人體結(jié)構(gòu)向量間的角度變化趨勢基本一致,故可選擇人體結(jié)構(gòu)向量間的角度作為歸一化后的特征。
選取上面手臂、腿部、軀干的14個人體結(jié)構(gòu)向量構(gòu)成10個角度特征,包括三個部分10個角度特征:手臂角度特征{α1,α2,α3,α4}、腿部角度特征{β1,β2,β3,β4}、軀干角度特征{θ1,θ2}。角度特征定義如表2所示。

表2 角度特征定義Table 2 Definition of angle feature
1.3 人體關(guān)鍵關(guān)節(jié)的位置特征
在某些情況下僅使用人體結(jié)構(gòu)向量間的角度特征并不能描述行為的細(xì)節(jié)部分,例如拳擊時,判斷拳頭與身體的相對位置,此時角度特征不能提供足夠的信息,在這種情況下需要添加人體關(guān)鍵關(guān)節(jié)的位置特征來輔助角度特征。
選取頭節(jié)點(diǎn)、兩個肘關(guān)節(jié)、兩個腕關(guān)節(jié)、兩個膝關(guān)節(jié)、兩個踝關(guān)節(jié)作為關(guān)鍵關(guān)節(jié)。人體關(guān)鍵關(guān)節(jié)的位置特征即這9個關(guān)鍵關(guān)節(jié)點(diǎn)的位置信息:{d1,d2,d3,d4,d5,d6,d7,d8,d9}。
以人體臀部中心節(jié)點(diǎn)為參考節(jié)點(diǎn),人體關(guān)鍵關(guān)節(jié)的9個位置特征包括頭節(jié)點(diǎn)與踝關(guān)節(jié)中點(diǎn)的距離d1和其他8個關(guān)鍵關(guān)節(jié)與參考節(jié)點(diǎn)的距離d2,d3,d4,d5,d6,d7,d8,d9,通過d1的大小可以判斷人體是否處于站立狀態(tài)(包括走、跑等站立狀態(tài)動作),而通過其他8個距離大小變化可以判斷相應(yīng)節(jié)點(diǎn)的運(yùn)動狀態(tài)。
為了消除個體體型差異問題,將距離歸一化處理(距離除以h)得到9個關(guān)鍵關(guān)節(jié)點(diǎn)的歸一化距離,h表示人體處于站立狀態(tài)時頭節(jié)點(diǎn)A1到兩個踝關(guān)節(jié)A14和A15的中點(diǎn)A16的距離。位置特征定義如表3所示。

表3 位置特征定義Table 3 Definition of location feature
1.4 人體關(guān)鍵關(guān)節(jié)的速度特征
在有了關(guān)鍵關(guān)節(jié)位置特征的輔助下,某些類似動作還是無法明顯區(qū)分,如走和原地踏步,兩種動作的角度特征變化與位置特征變化基本一致,這個時候區(qū)分兩種動作就需要通過引入速度特征,原地踏步時人整體沒有位移,速度為0;而走時人體是有位移的,速度不為0。
選取臀部中心節(jié)點(diǎn)、兩個腕關(guān)節(jié)、兩個踝關(guān)節(jié)作為關(guān)鍵關(guān)節(jié),這5個關(guān)鍵關(guān)節(jié)構(gòu)成了5個速度特征: {v1,v2,v3,v4,v5},速度特征定義如表4所示。

表4 速度特征定義Table 4 Definition of speed feature
由于相鄰兩幀時間差很小,故可以將相鄰兩幀的位移看做是第i幀的速度。通過整體速度特征可以判斷人體整體的速度,利于區(qū)分原地動作和走、跑等非原地動作;通過手臂2個腕關(guān)節(jié)的速度特征可以判斷人體手臂運(yùn)動狀態(tài),利于識別拳擊這種快速手臂運(yùn)動的行為;通過腿部2個踝關(guān)節(jié)的速度特征可以判斷人體腿部運(yùn)動狀態(tài),利于識別走、跑這種腿部運(yùn)動較多的動作。
假設(shè)y={yi,i=1,2,…,n}表示觀測樣本序列,yi是第i幀的觀測數(shù)據(jù),x={xi,i=1,2,…n}表示觀測樣本序列的標(biāo)記。Lafferty等給出了條件隨機(jī)場模型的數(shù)學(xué)表達(dá)式:

式中,Z(y,θ)=∑xexp{∑
c∈Cφc(xc,y,θ)}為歸一化函數(shù),φc為定義在基團(tuán)c上的帶有參數(shù)θ的勢函數(shù)。
對第i幀觀測樣本yi,提取了K種類型的特征

利用貝葉斯定律,后驗(yàn)概率可以等價為:

進(jìn)一步變換可得:

在式(3)中,由于y為給定的觀測圖像,所以p(fk(y))以及p(fk(y)|f1:K-1(y))均為固定變量。故后驗(yàn)概率可改寫為:


式中,為常數(shù)。對p(x)以及p(x|fk(y))建模,得到MCRF模型最終表達(dá)式[11]:

對于給定M幅獨(dú)立同分布訓(xùn)練圖像{xm,ym,m=1,2,…,M},估計其MCRF模型中的參數(shù)θ={β,采取極大似然估計方法(ML)。
最終可以通過L-BFGS算法[12]獲得參數(shù)的最優(yōu)解,獲得模型參數(shù)之后,通過模型推斷獲得觀測序列的標(biāo)記,采用的是Viterbi算法動態(tài)求解。
3.1 異常行為
異常行為定義為特殊環(huán)境下的某種特定行為,如拳擊,逃逸,在地鐵出口處反向進(jìn)入,取款機(jī)處徘徊等等,訓(xùn)練的樣本行為共有6種:bend,boxing, wave1(揮左手),wave2(揮右手),walk,run。將其中的2種:boxing(拳擊)和run(逃逸)定義為異常行為,其他4種行為定義為正常行為。
3.2 異常行為檢測
對訓(xùn)練樣本進(jìn)行訓(xùn)練得到MCRF模型參數(shù),在獲得模型參數(shù)后,測試視頻序列經(jīng)過MCRF模型推斷得到一組觀測序列的最大可能標(biāo)記,通過這組標(biāo)記序列判斷這組測試視頻序列的行為,為此需要設(shè)置一個閾值p=80%。當(dāng)測試序列的某一類標(biāo)記所占比重pi≥p時,認(rèn)定這組測試序列是第i種行為,i=1,2,3,4,5,6對應(yīng)bend,boxing,wave1,wave2, walk,run這6種行為。當(dāng)i=2,6時,即測試序列行為表示boxing和run行為時,認(rèn)定這組測試序列是異常行為。
實(shí)驗(yàn)平臺為PC機(jī),CPU為Inter雙核T8100,主頻2.1 GHz,內(nèi)存2.0 GB,操作系統(tǒng)為windowXP,32位。主要函數(shù)采用C++、matlab編程,并在matlab2011b環(huán)境下對其調(diào)用。實(shí)驗(yàn)數(shù)據(jù)來自kinect拍攝,包括6種行為:bend,boxing,wave1,wave2,walk, run。每種行為包括10個人的視頻樣本,每個人每種行為做20次,總共1 200段視頻序列,其中1 000段視頻序列作為訓(xùn)練數(shù)據(jù),剩下200段視頻序列作為測試數(shù)據(jù),這200段測試視頻序列包含有4種正常行為和2種異常行為(boxing和run)。實(shí)驗(yàn)結(jié)果如表5所示。

表5 異常行為檢測率Table 5 Abnormal activity detection rates
由表5可知,基于MCRF的異常行為檢測的6種行為中,bend檢測率最高為99.5%,boxing檢測率為96.5%,wave1檢測率為98.6%,wave2檢測率為96.6%,walk和run的檢測率相比較而言比較低,為93.1%和94.1%。由于walk和run行為動作比較接近,故walk和run的檢測率與其他行為相比較低。
表6給出了基于MCRF的異常行為檢測方法與其他方法檢測率的比較,其中文獻(xiàn)[11]中采用的HMM模型不能聯(lián)系上下文、限制特征的選擇,檢測率為92.5%。文獻(xiàn)[12-13]所用特征均為2D特征,不包含深度信息,無法解決遮擋問題,檢測率分別為91.7%和94.17%。基于MCRF模型的異常行為檢測方法采用的是由骨架數(shù)據(jù)處理得到的3D特征,模型采用的是MCRF模型,具有融合多特征和聯(lián)系上下文信息的優(yōu)勢,檢測率高于以上方法,對特定行為的平均檢測率達(dá)到了96.4%,對異常行為boxing(拳擊)和run(逃逸)的平均檢測率達(dá)到了95.3%。

表6 與其他方法檢測率比較Table 6 Comparison of detection rates for different algorithm
文中提出一種基于多條件隨機(jī)場模型(MCRF)的異常行為檢測方法,MCRF模型具有融合多特征和聯(lián)系上下文信息的優(yōu)勢。通過Kinect獲得的3D骨架數(shù)據(jù),經(jīng)過特征提取得到角度、位置、速度三類特征,形成多類特征子集,利用基本的CRF模型對每一類特征子集建模,形成多個CRF單元,然后組合所有的CRF單元,得到MCRF模型,最后利用MCRF模型進(jìn)行異常行為檢測。實(shí)驗(yàn)結(jié)果表明具有較高的檢測率,達(dá)到了96.4%。
基于MCRF的異常行為檢測方法只能識別單個人的行為,而不能識別多人交互的行為(如兩人拳擊對打等)以及群體的行為(如火災(zāi)逃生等),如何識別多人交互和群體行為是下一步的研究方向。
[1] 路海先,郭立,桂樹,等.基于潛在主題的視頻異常行為分析[J].通信技術(shù),2012,45(07):67-71.
LU Hai-xian,GUO Li,GUI Shu,et al.Abnormal Behavior Analysis Based on Latent Topics[J].Communication Technology,2012,45(07):67-71.
[2] 劉鵬,郭立,王成彰,等.基于條件隨機(jī)場與區(qū)域劃分的異常行為檢測[J].通信技術(shù),2013,46(08):108-111.
LIU Peng,GUO Li,WANG Cheng-zhang,YU Hao.Abnormal Detection Based on Conditional Random Fields and Background Scene Partition[J].Communication Technology,2013,46(08):108-111.
[3] GUO Y,XU G,TSUJI S.Tracking Human Body Motion Based on a Stick Figure Model[J].Visual Communication Image Representation,1994,5(01):1-9.
[4] JU S X,BLACK M J,YACCOB Y.Cardboard People:a Parameterized Model of Articulated Image Motion[C]// Proceedings of the IEEE International Conference on Automatic Face and Gesture Recognition.Killington,Vermont,USA:FG'96,1996:38-44.
[5] ROHR K.Towards Model-based Recognition of Human Movements in Image Sequences[J].CVGIP:Image Understanding,1994,59(01):94-115.
[6] 谷軍霞.行為表征與行為識別方法研究[D].北京:清華大學(xué),2010.
GU J X.Research on Action Represention and Action Recognition[D].Beijing:Tsinghua University,2010.
[7] FUJIYOSHI H,LIPTON A J.Real-time Human Motion Analysis by Image Skeletonization[C].//Proceedings of the 4th IEEE Workshop on Applications of Computer Vision.Sarasota,FL,USA:WACV’98,1998:15-21.
[8] YAMATO J,OHYA J,ISHII K.Recognizing Human Action in Time-sequential Images Using Hidden Markov Model[C]//Computer Vision and Pattern Recognition, 1992.Proceedings CVPR'92.,1992 IEEE Computer Society Conference on 1992.Champaign,IL:CVPR,1992: 379-385.
[9] LAFFERTY J,MCCALLUM A,PEREIRA F C N.Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data[C]//Proceedings of the 18th International Conference on MachineLearning.San Francisco:Margan Kaufmann,2001:282-289.
[10] ZHONG P,WANG R.A Multiple Conditional Random Fields Ensemble Model for Urban Area Detection in Remote Sensing Optical Images[J].IEEE Transactions on Geoscience and Remote Sensing,2007,45(39):78-88.
[11] 鐘平.面向圖像標(biāo)記的隨機(jī)場模型研究[D].長沙:國防科學(xué)技術(shù)大學(xué),2008.
ZHONG P.Random Field Models for Image Labeling [D].Changsha:National University of Defense Technology,2008.
[12] BYRD R H,NOCEDAL J,SCHNABEL R B.Representations of Quasi—Newton Matrices and Their Use in Limited Memory Methods[J].Mathematical Programming,1994,63(04):129-156.
[13] UDDIN M Z,THANG N D,KIMJ T,et al.Human Activity Recognition Using Body Joint-Angle Features and Hidden MarkovModel[J].ETRIJournal,2011, 33(04):569-579.
[14] WANG Y,MORI G.Learning a Discriminative Hidden Part Model for Human Action Recognition[C]//AdvancesinNeuralInformationProcessingSystems (NIPS).Vancouver,British Columbia,Canada:NIPS, 2008:8-11.
[15] 王媛媛,王斌.人體行為識別的條件隨機(jī)場方法[J].重慶理工大學(xué)學(xué)報:自然科學(xué),2013,27(06):93-99.
WANG Yuan-yuan,WANG Bin.The Conditional Random Fields Method for Human Action Recognition.Journal of Chongqing University of Technology(Natural Science),2013,27(06):93-99.
YE Lu(1990-),male,graduate student, majoring in abnormal activity detection.
郭 立(1946—),男,博士生導(dǎo)師,教授,主要研究方向?yàn)閳D像與視頻處理;
GUO Li(1946-),male,Ph.D.supervisor,professor, mainly working at image and video processing.
劉 皓(1987—),男,博士研究生,主要研究方向?yàn)橐曨l信息分析與處理。
LIU Hao(1987-),male,Ph.D.student,majoring in video analysis and processing.
Abnormal Activity Detection based on Multiple CRF Ensemble Model
YE Lu1,GUO Li1,LIU Hao2
(1.Department of Electronic Science and Technology,University of Science and Technology of China,Hefei Anhui 230027, China;2.Department of Physics,University of Science and Technology of China,Hefei Anhui 230026,China)
Most of traditional abnormal activity detection is modeling by a single feature,so the testing activity is simple,and the detection accuracy rate is relatively low.For these problems,abnormal activity detection based on multiple CRF ensemble model is proposed.The advantage of MCRF model is the ability of combining more features and utilizing adaptive contextual information.There are three features:angle feature,position feature,speed feature by the 3D skeleton data of Kinect.And several features subsets can be formed through more features extraction.Then CRF model is used for each feature subset and to get CRF units.Finally,all the CRF units are combined to produce MCRF model which is utilized to detect abnormal activity.The experimental results indicate that the detection accuracy rate of this method is better.
abnormal activity detection;multiple CRF ensemble model;Kinect;3D skeleton data;feature extraction
TP391.7
A
1002-0802(2014)06-0612-06
10.3969/j.issn.1002-0802.2014.06.006

葉 璐(1990—),男,碩士研究生,主要研究方向?yàn)楫惓P袨闄z測;
2014-03-10;
2014-04-29 Received date:2014-03-10;Revised date:2014-04-29
國家自然科學(xué)基金(No.61071173)
Foundation Item:National Natural Science Foundation of China(No.61071173)