999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于CNN的監(jiān)控視頻事件檢測(cè)

2016-08-22 09:55:00王夢(mèng)來(lái)李想陳奇李瀾博趙衍運(yùn)
自動(dòng)化學(xué)報(bào) 2016年6期
關(guān)鍵詞:檢測(cè)

王夢(mèng)來(lái) 李想 陳奇 李瀾博 趙衍運(yùn)

?

基于CNN的監(jiān)控視頻事件檢測(cè)

王夢(mèng)來(lái)1李想1陳奇1李瀾博1趙衍運(yùn)1

復(fù)雜監(jiān)控視頻中事件檢測(cè)是一個(gè)具有挑戰(zhàn)性的難題,而TRECVID-SED評(píng)測(cè)使用的數(shù)據(jù)集取自機(jī)場(chǎng)的實(shí)際監(jiān)控視頻,以高難度著稱.針對(duì)TRECVID-SED評(píng)測(cè)集,提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)級(jí)聯(lián)網(wǎng)絡(luò)和軌跡分析的監(jiān)控視頻事件檢測(cè)綜合方案.在該方案中,引入級(jí)聯(lián)CNN網(wǎng)絡(luò)在擁擠場(chǎng)景中準(zhǔn)確地檢測(cè)行人,為跟蹤行人奠定了基礎(chǔ);采用CNN網(wǎng)絡(luò)檢測(cè)具有關(guān)鍵姿態(tài)的個(gè)體事件,引入軌跡分析方法檢測(cè)群體事件.該方案在國(guó)際評(píng)測(cè)中取得了很好的評(píng)測(cè)排名:在6個(gè)事件檢測(cè)的評(píng)測(cè)中,3個(gè)事件檢測(cè)排名第一.

卷積神經(jīng)網(wǎng)絡(luò),事件檢測(cè),行人檢測(cè),目標(biāo)跟蹤,軌跡分析

引用格式王夢(mèng)來(lái),李想,陳奇,李瀾博,趙衍運(yùn).基于CNN的監(jiān)控視頻事件檢測(cè).自動(dòng)化學(xué)報(bào),2016,42(6):892-903

隨著監(jiān)控設(shè)備的發(fā)展與普及,研發(fā)監(jiān)控視頻事件檢測(cè)(Surveillance event detection,SED)技術(shù)具有重要意義.TREC(Text Retrieval Conference)[1]由美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究院(National Institute of Standards and Technology,NIST)[2]主辦,是文本檢索領(lǐng)域最權(quán)威的評(píng)測(cè)會(huì)議.2001年,NIST設(shè)立視頻檢索(TREC video retrieval evaluation,TRECVID[3])專項(xiàng)測(cè)評(píng)任務(wù),每年舉行一次;2008年,為帶動(dòng)世界上各高校、研究院所和企業(yè)對(duì)智能監(jiān)控系統(tǒng)的研究,TRECVID加入了SED任務(wù).SED項(xiàng)目數(shù)據(jù)采集自英國(guó)倫敦蓋特威克國(guó)際機(jī)場(chǎng)的實(shí)際監(jiān)控視頻,視頻長(zhǎng)度為144小時(shí).由于機(jī)場(chǎng)監(jiān)控視頻中背景環(huán)境復(fù)雜、人群密度大、人與人之間的遮擋嚴(yán)重、場(chǎng)景內(nèi)光照變化等干擾因素的存在,SED評(píng)測(cè)的數(shù)據(jù)庫(kù)以高難度著稱,在此數(shù)據(jù)庫(kù)上進(jìn)行事件檢測(cè)極具挑戰(zhàn)性.

本文結(jié)構(gòu)安排如下:第1節(jié)敘述相關(guān)研究?jī)?nèi)容;第2節(jié)提出頭肩部檢測(cè)深度級(jí)聯(lián)網(wǎng)絡(luò)(Headshoulder networks,HsNet)行人檢測(cè)方法;第3節(jié)改進(jìn)跟蹤算法;第4節(jié)描述基于姿態(tài)的事件檢測(cè)方案;第5節(jié)介紹基于軌跡分析的事件檢測(cè)方案;第6節(jié)給出實(shí)驗(yàn)結(jié)果及分析;第7節(jié)為本文結(jié)論.

1 相關(guān)研究

監(jiān)控視頻事件檢測(cè),主要關(guān)注的對(duì)象是其中的行人的行為,因而行人檢測(cè)與跟蹤技術(shù)就成為能否有效實(shí)現(xiàn)事件檢測(cè)的關(guān)鍵基礎(chǔ).

盡管在一些公開庫(kù)上行人檢測(cè)已經(jīng)取得了很好的成果[4-5],例如,HOG[6]、DPM[7]等,充分利用了人體的輪廓信息,取得了很不錯(cuò)的檢測(cè)效果,但遮擋等因素對(duì)行人的輪廓信息存在較大干擾,進(jìn)而降低了這類方法的檢測(cè)性能.深度學(xué)習(xí)技術(shù),例如卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks,CNNs)[8-11]能夠自動(dòng)學(xué)習(xí)行人檢測(cè)中具有鑒別力的特征,在非擁擠的場(chǎng)景下,對(duì)存在部分遮擋的行人檢測(cè),比人工設(shè)計(jì)特征更具魯棒性;但擁擠場(chǎng)景下的實(shí)際監(jiān)控視頻,行人遮擋嚴(yán)重(例如人體2/3被遮擋),行人檢測(cè)方法的性能仍然是亟待提高的.

近年來(lái),受益于行人檢測(cè)技術(shù)的不斷發(fā)展,基于檢測(cè)的跟蹤方法逐漸成為對(duì)象跟蹤的主流方法,文獻(xiàn)[12]提出的分層多目標(biāo)跟蹤算法,對(duì)跟蹤問(wèn)題的模型描述和優(yōu)化求解都給出了很好的解決方案;文獻(xiàn)[13]在此基礎(chǔ)上,增加了非線性運(yùn)動(dòng)模式及對(duì)象外觀模型在線學(xué)習(xí)的策略,在復(fù)雜的SED數(shù)據(jù)集上取得了較好的跟蹤效果.視頻事件分析,涉及對(duì)象的動(dòng)作、行為識(shí)別.目前,在一些視頻動(dòng)作識(shí)別公開庫(kù)中,如UCF-101[14]、HMDB-51[15]等,研究者們已經(jīng)取得了比較好的成果.例如,文獻(xiàn)[16]將多個(gè)連續(xù)幀送入CNN網(wǎng)絡(luò),逐層融合以提取時(shí)域信息,將UCF-101上的識(shí)別準(zhǔn)確率從43.9%提高到了63.3%;文獻(xiàn)[17]通過(guò)將時(shí)域的光流信息和空域的姿態(tài)信息融合,將HMDB-51上的準(zhǔn)確率從57.2%提高到了59.4%.然而,由于SED數(shù)據(jù)集行人密度大、遮擋嚴(yán)重,使用這些方法也難取得好的檢測(cè)結(jié)果.

TRECVID評(píng)測(cè)[18]的SED任務(wù),包含7個(gè)事件檢測(cè),分別是指(Pointing)、擁抱(Embrace)、放東西(ObjectPut)、跑(PersonRuns)、打電話(Cell-ToEar)、人員分離(PeopleSplitUp)及人員聚集(PeopleMeet).根據(jù)事件涉及人數(shù),我們將前5個(gè)事件歸類為個(gè)體事件1盡管擁抱(Embrace)是多人事件,但是它和其他單體事件一樣具有很明顯的關(guān)鍵姿態(tài).同時(shí),在事件發(fā)生時(shí),擁抱的行人也可以作為一個(gè)整體來(lái)考慮,而且擁抱與分離、聚合等其他群體事件具有較明顯差異,為行文方便,將其分在個(gè)體事件檢測(cè)一類.,后兩個(gè)事件歸類為群體事件.在TRECVID-SED2015評(píng)測(cè)中,我們提交了除CellToEar之外的其余6個(gè)事件的檢測(cè)結(jié)果,所以本文的方案也只涉及這6種事件的檢測(cè).

TRECVID-SED評(píng)測(cè),自舉辦以來(lái),已吸引若干國(guó)際國(guó)內(nèi)知名研究機(jī)構(gòu)和院校參加,其中評(píng)測(cè)結(jié)果排名一直比較靠前的是卡耐基梅隆大學(xué)的參賽隊(duì)(CMU)[19],2014年IBM也提交了不錯(cuò)的結(jié)果[20].CMU采用方法的框架結(jié)構(gòu)是對(duì)標(biāo)注的訓(xùn)練視頻,按照滑動(dòng)窗口,提取窗口視頻段的描述特征,例如STIP[21]、MoSIFT[22]等,并對(duì)特征進(jìn)行編碼(Fisher vector);用編碼后的特征訓(xùn)練SVM分類模型或者隨機(jī)森林分類模型;測(cè)試時(shí)也采用滑動(dòng)窗口的方式截取視頻并提取特征,送入分類模型檢測(cè)相關(guān)事件.該結(jié)構(gòu)的優(yōu)點(diǎn)是,鑒于SED視頻的復(fù)雜性,按照特征點(diǎn)提取特征描述事件,很好地回避了擁擠人群無(wú)法進(jìn)行精細(xì)人員檢測(cè)與跟蹤的困境.其不足之處在于,需要檢測(cè)的事件是在真實(shí)的四維時(shí)空內(nèi)發(fā)生的,在采集監(jiān)控視頻時(shí)已經(jīng)丟失了一維空間信息,在此基礎(chǔ)上僅提取局部特征點(diǎn)相關(guān)特征又繼續(xù)丟失了大量信息,更何況不易確定這些特征點(diǎn)來(lái)自哪個(gè)具體對(duì)象,例如,也可能來(lái)自未參與事件的行人,這就使得所提取特征信息不僅有損,而且被噪聲嚴(yán)重干擾,難以準(zhǔn)確描述真實(shí)四維空間的事件.雖然TRECVID-SED的參加團(tuán)隊(duì),都是在計(jì)算機(jī)視覺領(lǐng)域有多年研究經(jīng)驗(yàn)的團(tuán)隊(duì),但SED評(píng)測(cè)中的事件檢測(cè)結(jié)果還不夠好,檢測(cè)指標(biāo)尚有很大的提升空間.

我們提出的SED事件檢測(cè)方案,正是認(rèn)識(shí)到這種基于特征點(diǎn)方法的不足,并認(rèn)為在盡可能準(zhǔn)確檢測(cè)和跟蹤行人的基礎(chǔ)上,進(jìn)行更高層次的分析,才是解決這類復(fù)雜視頻問(wèn)題的合理方案;在研究行人檢測(cè)過(guò)程中,因CNN的優(yōu)異性能,啟發(fā)我們提出了使用CNN網(wǎng)絡(luò)檢測(cè)具有關(guān)鍵姿態(tài)的個(gè)體事件.本文的主要貢獻(xiàn)是:

1)對(duì)固定攝像機(jī)拍攝的擁擠場(chǎng)景監(jiān)控視頻分析問(wèn)題,提出了CNN級(jí)聯(lián)網(wǎng)絡(luò)檢測(cè)行人頭肩部代替檢測(cè)行人整體的方法,既利用了CNN自動(dòng)提取魯棒特征的優(yōu)勢(shì),也較好地解決了遮擋問(wèn)題,檢測(cè)速度也較快;

2)提出了用CNN網(wǎng)絡(luò)檢測(cè)具有關(guān)鍵姿態(tài)的個(gè)體事件的方法,充分利用了CNN對(duì)二維形狀強(qiáng)大的描述能力,將復(fù)雜的四維事件檢測(cè)問(wèn)題,在二維空間找到解決方法;

3)提出了用軌跡分析檢測(cè)群體事件的方案,實(shí)質(zhì)上是分層次解決事件檢測(cè)這一復(fù)雜視覺問(wèn)題;

4)將高斯過(guò)程回歸引入跟蹤軌跡參數(shù)方程擬合,使得我們可以描述任意運(yùn)動(dòng)形式的軌跡,提高了跟蹤算法的準(zhǔn)確性,也為軌跡分析提供了更為準(zhǔn)確的軌跡數(shù)據(jù).

2 行人檢測(cè)

視頻事件的行為主體是場(chǎng)景中的行人對(duì)象,所以檢測(cè)場(chǎng)景中的行人是最重要的基礎(chǔ);基于行人檢測(cè)的結(jié)果,可以進(jìn)一步檢測(cè)個(gè)體事件和群體事件.

如前所述,在SED數(shù)據(jù)集上進(jìn)行行人檢測(cè)是極富挑戰(zhàn)性的,人員擁擠致使行人彼此遮擋嚴(yán)重;當(dāng)穿過(guò)場(chǎng)景時(shí),行人身上的光照變化較大,造成其外觀模型隨之變化;這些都是行人檢測(cè)中遭遇的難點(diǎn).分析SED視頻數(shù)據(jù)集,其攝像機(jī)位置固定,且高于人群,這就使得行人遮擋多發(fā)生在人體除頭肩之下的區(qū)域,也即行人頭肩被遮擋的概率很小,所以檢測(cè)行人頭肩區(qū)域代替檢測(cè)行人全身對(duì)于解決SED數(shù)據(jù)集中嚴(yán)重的遮擋問(wèn)題,無(wú)疑是一個(gè)很好的選擇;但由于頭肩區(qū)域的所包含的行人信息比整個(gè)行人區(qū)域所包含的信息少,這就可能造成更多的誤檢,例如,一個(gè)上小下大的吊燈,其平面輪廓與人的頭肩區(qū)域頗為相似,所以如何設(shè)計(jì)魯棒的頭肩檢測(cè)子是準(zhǔn)確檢測(cè)行人的關(guān)鍵.

CNN[8-10]是近期計(jì)算機(jī)視覺領(lǐng)域最熱門的研究焦點(diǎn),其在對(duì)象檢測(cè)與識(shí)別[23]、圖像分類[24]等方面都顯現(xiàn)了極大的潛力;鑒于CNN的良好性能及SED數(shù)據(jù)集特點(diǎn),我們嘗試在SED數(shù)據(jù)集上使用CNN檢測(cè)行人的頭肩部,以此實(shí)現(xiàn)檢測(cè)行人的目的.為此,我們提出了一種基于CNN的頭肩檢測(cè)深度級(jí)聯(lián)網(wǎng)絡(luò)(HsNet).

2.1網(wǎng)絡(luò)結(jié)構(gòu)

為了得到更好的頭肩部表達(dá)特征,引入CNN自動(dòng)提取頭肩部特征;而為了提高頭肩區(qū)域的檢測(cè)速度,我們提出一種三級(jí)的CNN級(jí)聯(lián)結(jié)構(gòu)檢測(cè)框架,利用第一級(jí)CNN去掉大量明顯的負(fù)樣本,利用第三級(jí)對(duì)比較困難的負(fù)樣本進(jìn)行更好的分類鑒別.

頭肩檢測(cè)深度級(jí)聯(lián)網(wǎng)絡(luò)(HsNet)由三級(jí)CNN網(wǎng)絡(luò)構(gòu)成,每級(jí)的CNN都使用Caffe工具箱實(shí)現(xiàn)[25],整個(gè)級(jí)聯(lián)網(wǎng)絡(luò)框架結(jié)構(gòu)如圖1所示.框架包含三級(jí),第一級(jí)(s1-net)是一個(gè)很淺的二分類網(wǎng)絡(luò),只包含一個(gè)卷積層和Softmax分類器,用于剔除大量明顯的負(fù)樣本,同時(shí)保證正樣本的通過(guò)率.實(shí)驗(yàn)設(shè)計(jì),在保持99.5%的召回率前提下,第一級(jí)能夠剔除77%的負(fù)樣本.

第二級(jí)(s2-net)是一個(gè)二分類的中間級(jí),目標(biāo)是進(jìn)一步剔除負(fù)樣本.如圖1所示,s2-net由兩個(gè)卷積層以及一個(gè)Softmax分類器組成,網(wǎng)絡(luò)復(fù)雜度比第一級(jí)略高,更具區(qū)分力,在保持99.5%召回率的情況下,能夠進(jìn)一步剔除44%的負(fù)樣本.

由于絕大多數(shù)的負(fù)樣本已經(jīng)被前兩級(jí)很快地剔除了,所以最后一級(jí)可以采用一個(gè)更復(fù)雜的網(wǎng)絡(luò).鑒于Cifar-10網(wǎng)絡(luò)[11]在一般場(chǎng)景中檢測(cè)行人的良好效果[10],HsNet最后一級(jí)(s3-net)我們直接采用Cifar-10網(wǎng)絡(luò).

第三級(jí)復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),能夠更好地鑒別困難的負(fù)樣本;同時(shí)因?yàn)榍皟杉?jí)已經(jīng)剔除了大量的簡(jiǎn)單負(fù)樣本,與單獨(dú)使用Cifar-10網(wǎng)絡(luò)相比,HsNet結(jié)構(gòu)檢測(cè)頭肩框耗時(shí)更少.級(jí)聯(lián)CNN使我們獲得了更好的檢測(cè)性能和更快的檢測(cè)速度.

2.2檢測(cè)過(guò)程

基于HsNet的行人檢測(cè)過(guò)程:1)對(duì)檢測(cè)視頻的每一幀圖像,用多尺度的滑窗按照預(yù)定步長(zhǎng)截取一系列的候選小圖像塊(Patch),形成待識(shí)別樣本;2)將這些樣本送入預(yù)先訓(xùn)練好的頭肩/非頭肩識(shí)別模型HsNet(三級(jí)CNN級(jí)聯(lián)網(wǎng)絡(luò))進(jìn)行分類,在網(wǎng)絡(luò)的每一級(jí)被分類為負(fù)的樣本的Patch直接舍棄,其余樣本繼續(xù)進(jìn)入網(wǎng)絡(luò)的下一級(jí)進(jìn)行更嚴(yán)格的識(shí)別分類,如此經(jīng)過(guò)三級(jí)CNN網(wǎng)絡(luò)進(jìn)行分類鑒別;3)網(wǎng)絡(luò)第三級(jí)的輸出結(jié)果用于判斷圖像Patch是否屬于頭肩區(qū)域,該區(qū)域的矩形框被稱為頭肩框,將頭肩框高度擴(kuò)展為原對(duì)應(yīng)滑動(dòng)窗口的3倍,得到行人檢測(cè)的全身框;4)由于采用多尺度的滑動(dòng)窗口檢測(cè)頭肩區(qū)域,對(duì)于同一個(gè)行人,會(huì)形成多個(gè)檢測(cè)框,最后用非極大值抑制策略剔除多余的檢測(cè)框,每個(gè)位置只保留最可能的一個(gè)檢測(cè)框—行人檢測(cè)結(jié)果.

HsNet網(wǎng)絡(luò)模型對(duì)擁擠造成的行人遮擋和光照變化等干擾具有很好的魯棒性,其級(jí)聯(lián)結(jié)構(gòu)不僅提高了行人檢測(cè)準(zhǔn)確率,也提高了行人檢測(cè)速度.

圖1 頭肩檢測(cè)的級(jí)聯(lián)深度網(wǎng)絡(luò)(HsNet)結(jié)構(gòu)[26]Fig.1 The architecture of the CNN cascade for head-shoulder detection[26]

3 行人跟蹤

本文提出的事件檢測(cè)方案分為基于姿態(tài)的個(gè)體事件檢測(cè)和基于軌跡分析的群體事件檢測(cè),行人跟蹤是實(shí)現(xiàn)軌跡分析方案的重要環(huán)節(jié).鑒于SED數(shù)據(jù)庫(kù)的復(fù)雜性及文獻(xiàn)[12-13]跟蹤算法的良好效果,我們基于HsNet的頭肩部檢測(cè)結(jié)果,實(shí)現(xiàn)了此跟蹤算法[27],基于跟蹤和軌跡分析,檢測(cè)SED群體事件.

文獻(xiàn)[12]提出了一種基于檢測(cè)的分層關(guān)聯(lián)多目標(biāo)跟蹤方法,取得了較好的跟蹤效果,文獻(xiàn)[13]在此基礎(chǔ)之上,引入非線性運(yùn)動(dòng)模式學(xué)習(xí)及在線外觀模型學(xué)習(xí)策略,改進(jìn)了這一分層多目標(biāo)跟蹤算法,其框架結(jié)構(gòu)如圖2所示.算法第一層對(duì)檢測(cè)對(duì)象進(jìn)行底層可信關(guān)聯(lián),形成軌跡片段;第二層利用非線性運(yùn)動(dòng)模式在線學(xué)習(xí)和外觀模型多實(shí)例學(xué)習(xí),對(duì)軌跡片段進(jìn)行有效連接,得到可靠的對(duì)象軌跡.

文獻(xiàn)[13]使用的行人檢測(cè)子檢測(cè)行人整體,而我們?yōu)榱吮苊庹趽鯁?wèn)題,僅僅檢測(cè)行人的頭肩部分區(qū)域代替行人整體;由于頭肩區(qū)域較小,且采用多尺度滑動(dòng)窗口的對(duì)象檢測(cè)策略,同一對(duì)象的頭肩區(qū)域在不同幀中位置跳變不可避免,這將影響對(duì)象軌跡片段速度的計(jì)算,進(jìn)而影響高層關(guān)聯(lián)中運(yùn)動(dòng)關(guān)系估計(jì),使同一對(duì)象的不同軌跡片段因速度計(jì)算誤差,導(dǎo)致無(wú)法正確關(guān)聯(lián).為解決此問(wèn)題,我們將高斯過(guò)程回歸(Gaussian process regression,GPR)引入跟蹤過(guò)程,通過(guò)GPR,平滑對(duì)象軌跡片段,解決不同幀對(duì)象頭肩部區(qū)域位置跳變問(wèn)題.GPR是采用貝葉斯方法的非線性回歸,其訓(xùn)練過(guò)程簡(jiǎn)單,所用的核函數(shù)的選擇范圍較大,因此在機(jī)器學(xué)習(xí)領(lǐng)域倍受重視.

以概率形式描述的GPR預(yù)測(cè)模型[28]

式中,x?為測(cè)試樣本特征(D維向量),w?為測(cè)試樣本狀態(tài)(標(biāo)量);為訓(xùn)練樣本特征集,為訓(xùn)練樣本狀態(tài)集;σ2為狀態(tài)w正態(tài)分布模型的方差,訓(xùn)練時(shí)采用一維搜索可以得到;為參數(shù)先驗(yàn)分布的方差,可以設(shè)定為一個(gè)較大的值,以彌補(bǔ)先驗(yàn)知識(shí)的不足;I為單位矩陣;K[·,·]為核函數(shù),我們選擇徑向基(Radial basis function,RBF)核函數(shù)

參數(shù)λ可以通過(guò)最大化邊緣似然學(xué)習(xí)得到

圖2 在線學(xué)習(xí)非線性運(yùn)動(dòng)模式及魯棒外觀模型的多目標(biāo)跟蹤算法框圖[13]Fig.2 The block diagram of multi-target tracking by online learning of non-linear motion patterns and robust appearance models[13]

式中,Φ=[φ1,φ2,···,φD]T為狀態(tài)模型梯度參數(shù).測(cè)試樣本的狀態(tài)w?的預(yù)測(cè)值為式(1)中正態(tài)分布的均值.

底層跟蹤得到對(duì)象軌跡片段,此處我們以底層片段平滑為例,說(shuō)明高斯過(guò)程回歸的使用.將對(duì)象頭肩檢測(cè)響應(yīng)記為ri=(xi,yi,wi,hi,t,ci),ri表示第t幀的第i個(gè)檢測(cè)響應(yīng),(xi,yi)、wi和hi分別表示該檢測(cè)框的中心位置、寬度和高度,t為視頻幀號(hào),ci為檢測(cè)框的置信度.

在對(duì)象底層跟蹤過(guò)程中,為使同一對(duì)象在不同幀中的位置(xi,yi)平滑變化,我們采用GPR預(yù)測(cè)檢測(cè)框位置.位置坐標(biāo)間關(guān)系可以表示為

式中,函數(shù)h(·)即為需要使用GPR擬合的函數(shù),h-1(·)為其反函數(shù).由于像素點(diǎn)坐標(biāo)的離散性,若直接擬合xi與yi的關(guān)系,需要區(qū)分對(duì)象運(yùn)動(dòng)方向分段擬合h(xi)或h-1(yi)函數(shù),而在進(jìn)行檢測(cè)響應(yīng)關(guān)聯(lián)時(shí),對(duì)象運(yùn)動(dòng)方向是未知的,為此,我們提出將(xi,yi)用參數(shù)方程進(jìn)行擬合.

將xi和yi寫成幀號(hào)t的參數(shù)方程,則有

式中,f(t)和g(t)為待擬合的函數(shù).

底層跟蹤時(shí),考慮從時(shí)刻t+1到t+N共N幀內(nèi)對(duì)象i的檢測(cè)響應(yīng)的擬合問(wèn)題,將兩組數(shù)據(jù)作為GPR方法的訓(xùn)練樣本(tn,xin,yin分別表示第t+n幀、第i個(gè)對(duì)象在第t+n個(gè)檢測(cè)響應(yīng)的x及y坐標(biāo)),可以得到式(5)中函數(shù)f和g的參數(shù);基于此擬合函數(shù),計(jì)算得到對(duì)象i在N幀中平滑的運(yùn)動(dòng)軌跡片段.

平滑的軌跡片段,可以較準(zhǔn)確地計(jì)算對(duì)象運(yùn)動(dòng)的速度,為高層對(duì)象關(guān)聯(lián)奠定基礎(chǔ).將檢測(cè)框位置(xi,yi)按照參數(shù)方程進(jìn)行GPR擬合,不需要已知對(duì)象運(yùn)動(dòng)方向,這也是本文的一個(gè)獨(dú)到之處.

我們從如下幾點(diǎn)將GPR用于改進(jìn)文獻(xiàn)[13]算法:1)底層關(guān)聯(lián)時(shí)用GPR擬合頭肩檢測(cè)響應(yīng),以得到平滑的軌跡片段;2)高層關(guān)聯(lián)時(shí),用GPR擬合非線性運(yùn)動(dòng)模式,比原方法中使用二次函數(shù)表示非線性運(yùn)動(dòng)模式更合理,因?yàn)閷?duì)象運(yùn)動(dòng)軌跡在二維圖像上的曲線不一定符合二次函數(shù)型,GPR對(duì)需要擬合的運(yùn)動(dòng)模式?jīng)]有任何限制;3)對(duì)最終融合后的軌跡進(jìn)行高斯過(guò)程擬合,得到完整光滑的行人運(yùn)動(dòng)軌跡,為后續(xù)基于軌跡分析檢測(cè)群體事件奠定基礎(chǔ).

4 基于姿態(tài)的事件檢測(cè)

在監(jiān)控視頻中,有很大一類事件具有明顯的區(qū)別于其他事件的動(dòng)作或者姿態(tài),我們稱為關(guān)鍵姿態(tài)(Key-pose),如圖3和圖4所示的Pointing、Embrace、ObjectPut和PersonRuns事件樣本示例.我們將這類事件的檢測(cè)轉(zhuǎn)化為對(duì)圖像幀中關(guān)鍵姿態(tài)的檢測(cè).下面以SED評(píng)測(cè)中幾個(gè)具有關(guān)鍵姿態(tài)的事件為例說(shuō)明基于姿態(tài)的事件檢測(cè)過(guò)程.

圖3 Pointing和Embrace事件樣本截圖Fig.3 Samples of Pointing and Embrace

圖4 ObjectPut和PersonRuns事件樣本截圖Fig.4 Samples of ObjectPut and PersonRuns

4.1Pointing和Embrace事件

Pointing事件檢測(cè),是在視頻中檢測(cè)發(fā)生“指”這一動(dòng)作的視頻片段;而Embrace事件檢測(cè)則是要檢測(cè)出發(fā)生“擁抱”動(dòng)作的視頻片段.觀察發(fā)現(xiàn),當(dāng)這樣的事件發(fā)生時(shí),圖像幀中都對(duì)應(yīng)著很明顯的關(guān)鍵姿態(tài)(Key-pose),如圖3所示的樣本示例,所以我們將這兩類事件的檢測(cè)轉(zhuǎn)化為對(duì)圖像幀中關(guān)鍵姿態(tài)的檢測(cè).類似地,我們采用與HsNet相同的網(wǎng)絡(luò)架構(gòu)來(lái)訓(xùn)練這兩類關(guān)鍵姿態(tài)檢測(cè)的CNN模型.

在檢測(cè)這兩種事件時(shí),為了節(jié)省時(shí)間,不再用逐幀滑窗的檢測(cè)方式,而是直接將前述行人檢測(cè)結(jié)果的頭肩框擴(kuò)展1.5倍之后截取候選圖像塊,分別輸入兩種關(guān)鍵姿態(tài)檢測(cè)CNN模型,由模型進(jìn)行鑒別分類,識(shí)別關(guān)鍵姿態(tài).對(duì)每一種關(guān)鍵姿態(tài)檢測(cè)結(jié)果,根據(jù)位置和時(shí)間相關(guān)性進(jìn)行平滑濾波,得到相應(yīng)事件發(fā)生的視頻片段.

4.2ObjectPut和PersonRuns事件

ObjectPut事件檢測(cè),是在視頻中檢測(cè)“放東西過(guò)程”的視頻片段;而PersonRuns事件檢測(cè),是檢測(cè)行人在場(chǎng)景內(nèi)跑步的視頻片段;這兩種事件樣本的截圖如圖4所示,圖4(a)是放東西事件樣本,圖4(b)為跑步事件樣本.從人的整體觀測(cè),ObjectPut 和PersonRuns事件也具有區(qū)別于其他行人姿態(tài)的關(guān)鍵姿態(tài),我們同樣采取CNN來(lái)捕捉這樣的關(guān)鍵信息.與Pointing和Embrace事件不同,這兩個(gè)事件的全身的姿態(tài)信息都是非常重要的,而且這些人的頭肩部分或者因?yàn)閺澭鹆吮容^大的形變和遮擋,或者因?yàn)榕懿剿俣冗^(guò)快導(dǎo)致的成像模糊,都使得基于行人檢測(cè)結(jié)果的再分類并不適合.因此,我們分別為這兩個(gè)事件訓(xùn)練關(guān)鍵姿態(tài)檢測(cè)CNN模型,并采用滑動(dòng)窗口的檢測(cè)方式.

1)模型設(shè)計(jì).研究發(fā)現(xiàn)Cifar-10網(wǎng)絡(luò)[11]在行人檢測(cè)、Pointing事件以及Embrace事件檢測(cè)上均有良好表現(xiàn),我們也采用該網(wǎng)絡(luò)分別訓(xùn)練了Object-Put姿態(tài)識(shí)別和PersonRuns姿態(tài)識(shí)別的CNN模型,其結(jié)構(gòu)如圖5所示.為了充分利用整人全身信息,我們將樣本歸一化到64像素×64像素,而不是Cifar-10網(wǎng)絡(luò)原始的32像素×32像素.

圖5 ObjectPut和PersonRuns事件關(guān)鍵姿態(tài)檢測(cè)的網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 The architecture of CNN for ObjectPut and PersonRuns key-pose detection

2)事件檢測(cè)過(guò)程.這兩種事件的檢測(cè),因?yàn)椴荒芾眯腥藱z測(cè)的結(jié)果,所以我們依然采用多尺度的滑動(dòng)窗口截取候選圖像區(qū)域(Patch),并將Patch作為相應(yīng)事件CNN模型的輸入,根據(jù)模型輸出的置信分?jǐn)?shù)鑒別圖像區(qū)域是否屬于關(guān)鍵姿態(tài).

4.3事件融合

一般說(shuō)來(lái),事件發(fā)生將會(huì)持續(xù)一段時(shí)間,而非瞬間結(jié)束.所以,為提高事件檢測(cè)的魯棒性,需要對(duì)事件進(jìn)行融合—將這些連續(xù)檢測(cè)到的關(guān)鍵姿態(tài)幀融合成為一個(gè)完整的事件.融合策略采用最近鄰匹配方式,分別考慮空間、外觀及時(shí)間上的相關(guān)性.設(shè)t1時(shí)刻檢測(cè)到事件i,時(shí)刻t2檢測(cè)到事件j,則兩事件融合規(guī)則為式中,f(i,j)為融合函數(shù),1表示可以融合,0表示不能融合;為兩個(gè)事件檢測(cè)框重合度,第i個(gè)事件檢測(cè)框,第j個(gè)檢測(cè)框;TIOU=0.5為重合度閾值;Shis為兩個(gè)檢測(cè)框內(nèi)直方圖匹配分?jǐn)?shù);This=35為直方圖匹配閾值;TΔ=25為兩事件時(shí)間差閾值,同一個(gè)事件的關(guān)鍵姿態(tài)幀在時(shí)間上應(yīng)該是相鄰的,考慮到關(guān)鍵姿態(tài)幀的檢測(cè)可能存在遺漏,所以該閾值選為25.

特別地,對(duì)于PersonRuns這樣持續(xù)時(shí)間較長(zhǎng)且容易漏掉關(guān)鍵姿態(tài)幀的事件,我們同時(shí)使用卡爾曼濾波器(Kalman filter)預(yù)測(cè)事件的起始幀和結(jié)束幀.

以上介紹了我們提出的基于關(guān)鍵姿態(tài)的事件檢測(cè)方案,與以文獻(xiàn)[19]為代表的方法相比較,基于姿態(tài)的事件檢測(cè)方法準(zhǔn)確地抓住了事件的關(guān)鍵點(diǎn),極大地降低了檢測(cè)難度;而且,檢測(cè)關(guān)鍵姿態(tài)不需要大量提取局部特征點(diǎn),有效地降低了被其他無(wú)關(guān)特征點(diǎn)噪聲干擾的可能性.

5 基于軌跡分析的事件檢測(cè)

基于軌跡分析的方案用于檢測(cè)群體事件.群體事件不僅具有相關(guān)人員(人數(shù)≥2)自身的行為動(dòng)作,還蘊(yùn)含了人員之間的相互關(guān)系,相對(duì)于個(gè)體事件,群體事件的檢測(cè)顯得更為復(fù)雜.考慮到一般群體事件很難抽象出關(guān)鍵姿態(tài),解決問(wèn)題的關(guān)鍵在于如何描述人員之間的相互關(guān)系,所以我們首先需要檢測(cè)并跟蹤到行人,也即得到行人的運(yùn)動(dòng)軌跡;然后分析行人軌跡之間的關(guān)系,進(jìn)而推理出是否發(fā)生所關(guān)注的群體事件.正是基于這樣的分析,我們提出了基于行人檢測(cè)與跟蹤的軌跡分析方案來(lái)識(shí)別群體事件.其中,基于行人檢測(cè)和跟蹤是實(shí)現(xiàn)軌跡分析方案的重要基礎(chǔ).圖6為所提出的群體事件檢測(cè)方案框圖,我們依然基于前文所述HsNet的行人頭肩部對(duì)象檢測(cè)結(jié)果,進(jìn)行行人跟蹤得到行人軌跡,通過(guò)軌跡分析檢測(cè)群體事件.

群體事件,特別是在人員擁擠的場(chǎng)景中,從場(chǎng)景正面看(正視圖),我們的觀測(cè)將受到遮擋等因素的影響.考慮監(jiān)控場(chǎng)景的固定攝像頭都是懸掛在高出人群的地方,也即可以從一定角度俯視場(chǎng)景,這種俯視觀察比正視觀察受人員相互遮擋影響就少許多.僅僅檢測(cè)頭肩部區(qū)域(避免被遮擋),并采用目標(biāo)軌跡分析群體事件的解決方案類似這種“俯視觀察”.從空中看人,人可以抽象成一個(gè)“點(diǎn)”;而運(yùn)動(dòng)中人的軌跡,即為一個(gè)點(diǎn)的運(yùn)動(dòng)軌跡.這樣,通過(guò)“空中俯視”檢測(cè)群體事件,即是通過(guò)提取這些運(yùn)動(dòng)軌跡之間的關(guān)系來(lái)識(shí)別相關(guān)事件.

圖6 群體事件檢測(cè)框圖Fig.6 The block diagram of group event detection

軌跡分析,從對(duì)象的運(yùn)動(dòng)軌跡中提取基本的參數(shù)(速度、方向、距離等)作為特征,對(duì)單個(gè)特征進(jìn)行分析或者將多個(gè)特征相結(jié)合組成更高級(jí)的語(yǔ)義來(lái)描述事件,進(jìn)而判斷事件是否發(fā)生.相對(duì)于傳統(tǒng)的特征—分類器相結(jié)合的方法,軌跡分析方法更注重對(duì)象整體行為以及對(duì)象間行為關(guān)系,軌跡分析更符合人眼對(duì)行為的認(rèn)知.

我們以SED中的人員聚集(PeopleMeet)與分離(PeopleSplitUp)事件為例,具體闡述如何用軌跡分析方法來(lái)檢測(cè)事件.

TRECVID評(píng)測(cè)中定義人員聚集指的是一人或多人走向另一人群(人數(shù)≥1),并停下談話交流;人員分離指的是人群(人數(shù)≥2)中有一個(gè)或多個(gè)人離開了人群.

根據(jù)定義我們可以把“聚集”事件抽象成三種狀態(tài)的順序組合:走近、速度減慢、停留,“分離”事件也抽象成三種狀態(tài)的順序組合:停留、速度加快、遠(yuǎn)離.這兩種事件的檢測(cè)都可以從檢測(cè)“停留”狀態(tài)開始,我們以“分離”事件為例敘述通過(guò)軌跡分析檢測(cè)群體事件的過(guò)程.完整的算法流程見算法1.

算法1.基于軌跡分析的分離事件檢測(cè)算法

1.遍歷軌跡集合ST

1.1找出每一條軌跡中速度趨近于0(vp≤vT1)的位置,即停留點(diǎn)

2.1.2當(dāng)前軌跡Tn在Δt1內(nèi)速度小于閾值vT2.

2.1.3Tn在Δt1內(nèi)的位置P?t1與停留點(diǎn)的距離小于閾值DT;將滿足條件的軌跡ID添加到以為基準(zhǔn)的候選事件Ek,迭代修正Δt1、增加Ek中的軌跡數(shù)目Nk.

3.遍歷候選事件集SEC,找出分離事件集SE

3.1若候選事件Ek中軌跡數(shù)目Nk≥2.

3.1.1求Nk條軌跡的時(shí)間交集

3.1.2遍歷Nk條軌跡,計(jì)算每一條軌跡距離停留點(diǎn)Pk的最遠(yuǎn)距離Dmax,若Dmax>DT,遠(yuǎn)離軌跡數(shù)目Mk增加1.

3.1.2.1若Mk<Nk,判斷有分離事件發(fā)生,即Mk個(gè)行人與Nk-Mk個(gè)行人分離,分離的起始時(shí)間為Δt1的tks,分離的結(jié)束時(shí)間為Δt2的t′ke.

3.1.2.2若Mk=Nk,計(jì)算各軌跡運(yùn)動(dòng)方向之差,只要存在一個(gè)夾角αi>AT,判斷有分離事件發(fā)生,分離的起始時(shí)間為Δt1的tks,分離的結(jié)束時(shí)間為Δt2的t′ke;否則,行人同向而行,無(wú)分離.

3.2若Nk<2,判斷無(wú)分離事件發(fā)生.

4.結(jié)束

算法1由停留狀態(tài)檢測(cè)、候選事件集檢測(cè)、分離事件鑒別三個(gè)階段構(gòu)成.

1)停留狀態(tài)檢測(cè)階段,遍歷從視頻中檢測(cè)到的所有軌跡,找出每條軌跡的“停留”狀態(tài)(速度趨于0),即vp≤vT1,vp為當(dāng)前軌跡考察點(diǎn)p的速度,vT1表示篩選出停留點(diǎn)的最大速度.由于停留狀態(tài)是一段時(shí)間,因此一條軌跡上會(huì)檢測(cè)出時(shí)間連續(xù)的停留點(diǎn)(xi,yi),聚類這些停留點(diǎn)

此階段,算法將檢測(cè)出所有的停留狀態(tài),找出所有候選停留聚類中心集,分離事件有可能從這些聚類中心發(fā)生.

3)分離事件鑒別階段,遍歷候選事件集SEC,鑒別可能的分離事件,得到分離事件檢測(cè)輸出結(jié)果SE.對(duì)于每個(gè)候選事件Ek,Nk條軌跡的時(shí)間交集為

計(jì)算每條軌跡在tstart之后距離停留點(diǎn)中心最遠(yuǎn)的距離Dmax,分離事件判別函數(shù)為

6 實(shí)驗(yàn)方法及結(jié)果

6.1行人檢測(cè)

為更好地研究實(shí)際監(jiān)控視頻行人檢測(cè)算法,基于TRECVID-SED的數(shù)據(jù)集,我們建立了規(guī)模較大的監(jiān)控視頻行人檢測(cè)標(biāo)注庫(kù)[29].TRECVID-SED的訓(xùn)練集包含50個(gè)視頻,我們從其中9個(gè)視頻,選擇標(biāo)注了45000幀圖像中的行人頭肩框,得到了404563個(gè)頭肩區(qū)域作為正確標(biāo)注(Ground truth).

6.1.1模型訓(xùn)練

我們將所有Ground truth作為正樣本,加上隨機(jī)產(chǎn)生的7087336個(gè)負(fù)樣本組成訓(xùn)練集[26],圖7為所截取的正負(fù)樣本示例,圖7(a)為正樣本,圖7(b)為負(fù)樣本.

圖7 頭肩區(qū)域訓(xùn)練樣本示例Fig.7 Samples of head-shoulder

訓(xùn)練HsNet第一級(jí)網(wǎng)絡(luò)時(shí),將所有的訓(xùn)練數(shù)據(jù)全部送入網(wǎng)絡(luò)中;訓(xùn)練完成后,根據(jù)正樣本置信分設(shè)定閾值τ,使99.5%的正樣本得分高于τ,將得分高于閾值τ的樣本組成訓(xùn)練集再送入下一級(jí)網(wǎng)絡(luò).以此類推,其余兩級(jí)的訓(xùn)練過(guò)程相同.

網(wǎng)絡(luò)訓(xùn)練過(guò)程中,我們使用隨機(jī)梯度下降算法(Stochastic gradient descent,SGD)及反向傳播算法(Back-propagation,BP)優(yōu)化級(jí)聯(lián)網(wǎng)絡(luò)的參數(shù).在每一次SGD迭代中,均勻采樣32個(gè)正樣本和96個(gè)負(fù)樣本構(gòu)成一個(gè)批處理單元.由于正樣本數(shù)量遠(yuǎn)小于負(fù)樣本數(shù)量,所以采樣更偏向正樣本.級(jí)聯(lián)網(wǎng)絡(luò)各層參數(shù)初始值均使用標(biāo)準(zhǔn)差σ=0.01的高斯分布初始化,學(xué)習(xí)率η設(shè)為0.01,每經(jīng)過(guò)5000次迭代,學(xué)習(xí)率η均衰減0.1,動(dòng)量(Momentum)設(shè)置為0.9,最大迭代次數(shù)為60000次.

6.1.2實(shí)驗(yàn)結(jié)果

基于上述訓(xùn)練集,我們將提出的行人檢測(cè)方案與當(dāng)前最先進(jìn)的一些檢測(cè)方法如DPM+LSVM[7]、JointDeep[8]、CifarNet[10]進(jìn)行了對(duì)比實(shí)驗(yàn).如圖8所示,由于人工設(shè)計(jì)的特征的局限性,DPM的性能是最差的(73.9%).盡管JointDeep[8]和CifarNet[10]均利用了深度網(wǎng)絡(luò)的長(zhǎng)處,但是依然無(wú)法處理高度擁擠的行人的情況.所以各自取得了58.5%和57.4%的漏檢率.相反,本文的模型因?yàn)楹雎缘袅塑|干及以下部分,有效地降低了因?yàn)檎趽醵鴮?dǎo)致的噪聲干擾.在圖9所示的場(chǎng)景中,本文的方法在擁擠的情況下依然檢測(cè)到了絕大多數(shù)的行人,

式中,DT為Dmax的閾值,僅當(dāng)Dmax大于此值時(shí),認(rèn)為該軌跡有遠(yuǎn)離傾向;Mk為遠(yuǎn)離的軌跡數(shù)目;α 為Nk條軌跡中任意兩條軌跡運(yùn)動(dòng)矢量(從軌跡的始端到末端的連線作為軌跡運(yùn)動(dòng)矢量)的夾角,用以衡量對(duì)象間相對(duì)運(yùn)動(dòng)方向,AT為閾值;f(Ek)為1表示分離事件發(fā)生,候選事件Ek并入分離事件檢測(cè)輸出結(jié)果SE,其結(jié)束時(shí)間為Δt2中的t′ke,即(t′s,t′e)= (tstart,t′ke).

聚集事件與分離事件是相反的過(guò)程,分析與其類似,不再贅述.從行人軌跡分析多人的群體事件,是用分層的思想分析視頻(底層—檢測(cè)跟蹤得到軌跡,高層—軌跡分析鑒別事件發(fā)生與否),更能捕獲真實(shí)世界中對(duì)象之間的相互關(guān)系,從而準(zhǔn)確檢測(cè)出我們關(guān)注的事件;當(dāng)然,軌跡分析的結(jié)果,與對(duì)象檢測(cè)和跟蹤算法的性能密切相關(guān),基于HsNet的頭肩部檢測(cè)結(jié)果與魯棒的多目標(biāo)跟蹤算法,對(duì)軌跡分析方案的實(shí)施奠定了重要的基礎(chǔ).并且保持極低的虛檢率.

圖8 與當(dāng)前最先進(jìn)的檢測(cè)方法在SED-PD上的對(duì)比[26](用平均對(duì)數(shù)漏檢率排列,越小越好)Fig.8 Comparison of our results with several state-of-the-art methods on SED-PD[26](The legends are ordered by log-average miss-rate,the lower the better.)

圖9 在SED-PD上的部分檢測(cè)結(jié)果[26](紅框表示正確檢測(cè),藍(lán)框表示虛檢,綠框表示漏檢)Fig.9 Detection results on SED-PD[26](red:correct detection,blue:false alarm,green:missed detection)

6.2行人跟蹤

由于SED僅評(píng)測(cè)事件檢測(cè)結(jié)果,NIST并不提供行人跟蹤的Ground truth;因此我們無(wú)法給出GPR改進(jìn)跟蹤算法的定量結(jié)果,同時(shí)考慮本文的篇幅較長(zhǎng),僅以圖10的一組對(duì)比圖,從軌跡的平滑性、是否斷裂以及完整性來(lái)體現(xiàn)改進(jìn)效果.如圖10所示,圖10(a)為直接關(guān)聯(lián)檢測(cè)響應(yīng)得到軌跡片段,軌跡平滑性較差;圖10(b)為對(duì)圖10(a)的軌跡片段通過(guò)GPR得到的光滑軌跡;圖10(c)是底層關(guān)聯(lián)時(shí)沒有加入GPR,軌跡速度計(jì)算誤差較大,影響了高層片段的正確關(guān)聯(lián),導(dǎo)致軌跡不完整;圖10(d)是在底層、高層及最終軌跡中都使用了GPR,修正了檢測(cè)位置,使得片段正確關(guān)聯(lián),得到完整、平滑的軌跡,可用于后續(xù)軌跡分析和事件檢測(cè).

6.3事件檢測(cè)

6.3.1參數(shù)設(shè)計(jì)

Pointing和Embrace事件,我們采用與HsNet相同的網(wǎng)絡(luò)架構(gòu)來(lái)訓(xùn)練這兩類關(guān)鍵姿態(tài)檢測(cè)的CNN模型.超參數(shù)設(shè)置也與HsNet一致,即在每一次SGD迭代中,均勻采樣32個(gè)正樣本和96個(gè)負(fù)樣本構(gòu)成一個(gè)批處理單元.級(jí)聯(lián)網(wǎng)絡(luò)各層參數(shù)初始值均使用標(biāo)準(zhǔn)差σ=0.01的高斯分布初始化,學(xué)習(xí)率η設(shè)為0.01,每經(jīng)過(guò)5000次迭代,學(xué)習(xí)率η均衰減0.1,動(dòng)量(Momentum)設(shè)置為0.9,最大迭代次數(shù)為60000次.

ObjectPut和 PersonRuns事件,我們采用Cifar-10[11]網(wǎng)絡(luò)結(jié)構(gòu).網(wǎng)絡(luò)的每一層參數(shù)使用標(biāo)準(zhǔn)差σ=0.01的高斯分布初始化,學(xué)習(xí)率η固定為0.001,動(dòng)量設(shè)置為0.9,最大迭代次數(shù)為50000次.

PeopleSplitUp和PeopleMeet事件檢測(cè)中,針對(duì)SED視頻場(chǎng)景的特點(diǎn),軌跡分析方法的參數(shù)設(shè)置如下:篩選停留點(diǎn)的最大速度vT1=5(pixel);聚類停留點(diǎn)的空間坐標(biāo)之差小于閾值DTxy=50 (pixel);候選軌跡在Δt1時(shí)段速度小于閾值vT2= 10(pixel);距離停留點(diǎn)中心的距離小于閾值DT= 50(pixel);軌跡具有遠(yuǎn)離傾向的距離閾值DT=100 (pixel);兩條軌跡相對(duì)運(yùn)動(dòng)方向大于閾值A(chǔ)T=45?.

圖10 高斯過(guò)程回歸改進(jìn)效果Fig.10 The improved results of Gaussian process regression

6.3.2實(shí)驗(yàn)結(jié)果

從TRECVID SED2015評(píng)測(cè)結(jié)果,可以體現(xiàn)我們所提事件檢測(cè)框架的效果.文獻(xiàn)[30]詳細(xì)描述了評(píng)測(cè)方法,采用實(shí)際歸一化檢測(cè)錯(cuò)誤率(Actual normalized detection cost rate,ADCR)作為主要的評(píng)測(cè)指標(biāo),值越小說(shuō)明系統(tǒng)效果越好.

表1為所有事件的評(píng)測(cè)結(jié)果.表1中#Targ是主辦方給出的事件總數(shù) (即 Ground truth),#CorDet為正確檢測(cè)數(shù),#FA為虛檢數(shù),#Miss為漏檢數(shù).由表1可知,本文所述基于CNN的復(fù)雜視頻事件檢測(cè)方法取得了非常優(yōu)秀的結(jié)果,在參與評(píng)測(cè)的6個(gè)項(xiàng)目中,取得了3個(gè)第一、2個(gè)第二和1個(gè)第四的好成績(jī).這些都得益于CNN能夠自動(dòng)學(xué)習(xí)更有區(qū)分力的特征,在關(guān)鍵姿態(tài)的檢測(cè)上優(yōu)勢(shì)明顯.同時(shí),基于CNN的行人檢測(cè)也為后續(xù)行人跟蹤進(jìn)而完成基于軌跡分析的群體事件檢測(cè)奠定了堅(jiān)實(shí)的基礎(chǔ).

7 結(jié)語(yǔ)

基于對(duì)TRECVID-SED評(píng)測(cè)中復(fù)雜監(jiān)控視頻中事件檢測(cè)任務(wù)的研究,我們提出了:1)基于CNN級(jí)聯(lián)網(wǎng)絡(luò)檢測(cè)行人頭肩部代替檢測(cè)行人整體的方法,來(lái)檢測(cè)擁擠場(chǎng)景遮擋嚴(yán)重條件下的行人,實(shí)現(xiàn)了可與當(dāng)前最先進(jìn)的行人檢測(cè)方法相比的檢測(cè)效果;2)基于 CNN網(wǎng)絡(luò)檢測(cè)具有關(guān)鍵姿態(tài)的個(gè)體事件的方法,使得復(fù)雜的4D空間的事件檢測(cè)在2D空間實(shí)現(xiàn)檢測(cè);3)基于軌跡分析檢測(cè)群體事件的方案,體現(xiàn)分層次解決高維的事件分析問(wèn)題的合理性;4)將高斯過(guò)程回歸引入跟蹤軌跡參數(shù)方程擬合,使得跟蹤算法不必受限于軌跡需要滿足線性或二次函數(shù)的假設(shè),更適合描述目標(biāo)的實(shí)際運(yùn)動(dòng)情況.所提出的事件檢測(cè)方案,在TRECVID-SED2015國(guó)際評(píng)測(cè)中,取得了很好的排名,證實(shí)了方案的有效性.當(dāng)然,SED數(shù)據(jù)集事件檢測(cè)性能還有很大的提升空間,與實(shí)際使用還有很大距離,需要研究者付出更多的努力.

表1 2015年TRECVID-SED評(píng)測(cè)結(jié)果Table 1 Evaluation Results of TRECVID-SED 2015

References

1 Text Retrieval Conference(TREC)[Online],available:http://trec.nist.gov/,April 5,2016

2 National Institute of Standards and Technology(NIST)[Online],available:http://www.nist.gov/index.html,April 5,2016

3 TREC Video Retrieval Evaluation(TRECVID)[Online],available:http://www-nlpir.nist.gov/projects/trecvid/,April 5,2016

4 Dollar P,Wojek C,Schiele B,Perona P.Pedestrian detection:an evaluation of the state of the art.IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(4):743-761

5 Benenson R,Omran M,Hosang J,Schiele B.Ten years of pedestrian detection,what have we learned?In:Proceedings of the 12th European Conference on Computer Vision. Zurich,Switzerland:Springer,2014.613-627

6 Dalal N,Triggs B.Histograms of oriented gradients for human detection.In:Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.San Diego,USA:IEEE,2005.886-893

7 Felzenszwalb P,McAllester D,Ramanan D.A discriminatively trained,multiscale,deformable part model.In:Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition.Anchorage,Alaska,USA:IEEE,2008.1-8

8 Ouyang W,Wang X.Joint deep learning for pedestrian detection.In:Proceedings of the 2013 IEEE International Conference on Computer Vision.Sydney,Australia:IEEE,2013.2056-2063

9 Luo P,Tian Y,Wang X,Tang X.Switchable deep network for pedestrian detection.In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus,Ohio,USA:IEEE,2014.899-906

10 Hosang J,Omran M,Benenson R,Schiele B.Taking a deeper look at pedestrians.In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston,USA:IEEE,2015.4073-4082

11 Cuda-convnet.High-performance C++/CUDA implementation of convolutional neural networks[Online],available:https://code.google.com/p/cuda-convnet/,April 5,2016

12 Huang C,Wu B,Nevatia R.Robust object tracking by hierarchical association of detection responses.In:Proceedings of the 10th European Conference on Computer Vision.Marseille,F(xiàn)rance:Springer,2008.788-801

13 Yang B,Nevatia R.Multi-target tracking by online learning of non-linear motion patterns and robust appearance models.In:Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition.Providence,USA:IEEE,2012.1918-1925

14 Soomro K,Zamir A R,Shah M.UCF101:A Dataset of 101 Human Actions Classes from Videos in the Wild,Technical Report CRCV-TR-12-01,Center for Research in Computer Vision,University of Central Florida,USA,2012.

15 Kuehne H,Jhuang H,Garrote E,Poggio T,Serre T.HMDB:a large video database for human motion recognition.In:Proceedings of the 2011 IEEE International Conference on Computer Vision.Barcelona,Spain:IEEE,2011.2556-2563

16 Karpathy A,Toderici G,Shetty S,Leung T,Sukthankar R,Li F F.Large-scale video classification with convolutional neural networks.In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus,Ohio,USA:IEEE,2014.1725-1732

17 Simonyan K,Zisserman A.Two-stream convolutional networks for action recognition in videos.In:Proceedings of the 2014 Conference and Workshop on Neural Information Processing Systems.Montreal,Canada,2014.568-576

18 Over P,Awad G,F(xiàn)iscus J,Michel M,Smeaton A F,Kraaij W.TRECVID 2009-goals,tasks,data,evaluation mechanisms and metrics.In:TRECVid Workshop 2009.Gaithersburg,MD,USA:NIST,2010.1-42

19 Du X Z,Cai Y,Zhao Y C,Li H,Yang Y,Hauptmann A.Informedia@trecvid 2014:surveillance event detection. TRECVid video retrieval evaluation workshop[Online],available:http://www-nlpir.nist.gov/projects/tvpubs/tv14. papers/cmu.pdf,April 5,2016

20 Cheng Y,Brown L,F(xiàn)an Q F,Liu J J,F(xiàn)eris R,Choudhary A,Pankanti S.IBM-Northwestern@TRECVID 2014:Surveillance Event Detection.TRECVid video retrieval evaluation workshop[Online],available:http://www-nlpir.nist.gov/ projects/tvpubs/tv14.papers/ibm.pdf,April 5,2016

21 Laptev I.On space-time interest points.International Journal of Computer Vision,2005,64(2-3):107-123

22 Chen M Y,Hauptmann A.MoSIFT:Recognizing Human Actions in Surveillance Videos,Technical Report CMU-CS-09-161,Department of Computer Science,Mellon University,USA,2009.

23 Lawrence S,Giles C L,Tsoi A C,Back A D.Face recognition:a convolutional neural-network approach.IEEE Transactions on Neural Networks,1997,8(1):98-113

24 Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks.In:Proceedings of the 2012 Advances in Neural Information Processing Systems.Lake Tahoe,Nevada,USA:Curran Associates,Inc.,2012.1097-1105

25 Jia Y Q,Shelhamer E,Donahue J,Karayev S,Long J,Girshick R,Guadarrama S,Darrell T.Caffe:convolutional architecture for fast feature embedding.In:Proceedings of the 22nd ACM International Conference on Multimedia.Orlando,USA:ACM,2014.675-678

26 Chen Q,Jiang W H,Zhao Y Y,Su F.Part-based deep network for pedestrian detection in surveillance videos.In:Proceedings of the 2015 IEEE International Conference on Visual Communications and Image Processing.Singapore:IEEE,2015.1-4

27 Li Lan-Bo.Currency Recognition and Multi-Target Tracking Algorithm [Master dissertation],Beijing University of Posts and Communications,China,2015.(李瀾博.紙幣面值識(shí)別及監(jiān)控視頻跟蹤算法[碩士學(xué)位論文],北京郵電大學(xué),中國(guó),2015.)

28 Prince S J D.Computer Vision:Models,Learning,and Inference.Cambridge:Cambridge University Press,2012.

29 SED Pedestrian Dataset(SED-PD)[Online],available:http://www.bupt-mcprl.net/datadownload.php,April5,2016

30 TRECVID Surveillance Event Detection(SED)Evaluation Plan[Online],available: ftp://jaguar.ncsl.nist.gov/pub/ SED15-EvaluationPlan.pdf,April 5,2016

王夢(mèng)來(lái)北京郵電大學(xué)信息與通信工程學(xué)院碩士研究生.主要研究方向?yàn)橛?jì)算機(jī)視覺和深度學(xué)習(xí).本文通信作者.

E-mail:wangmenglai@bupt.edu.cn

(WANG Meng-LaiMaster student at the School of Information and Communication Engineering,Beijing University of Posts and Telecommunications.His research interest covers computer vision and deep learning.Corresponding author of this paper.)

李 想北京郵電大學(xué)信息與通信工程學(xué)院碩士研究生.主要研究方向?yàn)橛?jì)算機(jī)視覺與模式識(shí)別.

E-mail:lixiang92130@163.com

(LI XiangMaster student at the School of Information and Communication Engineering,Beijing University of Posts and Telecommunications.His research interest covers computer vision and pattern recognition.)

陳 奇北京郵電大學(xué)信息與通信工程學(xué)院碩士研究生.主要研究方向?yàn)橛?jì)算機(jī)視覺與模式識(shí)別.

E-mail:chen-qi1990@163.com

(CHEN QiMaster student at the School of Information and Communication Engineering,Beijing University of Posts and Telecommunications.His research interest covers computer vision and pattern recognition.)

李瀾博北京郵電大學(xué)信息與通信工程學(xué)院碩士研究生.主要研究方向?yàn)橛?jì)算機(jī)視覺和大規(guī)模深度學(xué)習(xí).

E-mail:llb-34@126.com

(LI Lan-BoMaster student at the School of Information and Communication Engineering,Beijing University of Posts and Telecommunications.His research interest covers computer vision and large scale deep learning.)

趙衍運(yùn)北京郵電大學(xué)信息與通信工程學(xué)院副教授.主要研究方向?yàn)橛?jì)算機(jī)視覺與模式識(shí)別.

E-mail:zyy@bupt.edu.cn

(ZHAO Yan-YunAssociate professor at the School of Information and CommunicationEngineering, Beijing University of Posts and Telecommunications.Her research interest covers computer vision and pattern recognition.)

Surveillance Event Detection Based on CNN

WANG Meng-Lai1LI Xiang1CHEN Qi1LI Lan-Bo1ZHAO Yan-Yun1

It is well-known that event detection in real-world surveillance videos is a challenging task.The corpus of TRECVID-SED evaluation is acquired from the surveillance video of London Gatwick International Airport and it is well known for its high difficulties.We propose a comprehensive event detection framework based on an effective part-based deep network cascade— head-shoulder networks(HsNet)and trajectory analysis.On the one hand,the deep network detects pedestrians very precisely,laying a foundation for tracking pedestrians.On the other hand,convolutional neural networks(CNNs)are good at detecting key-pose-based single events.Trajectory analysis is introduced for group events. In TRECVID-SED15 evaluation,our approach outperformed others in 3 out of 6 events,demonstrating the power of our proposal.

Convolutional neural network(CNN),event detection,pedestrian detection,target tracking,trajectory analysis

10.16383/j.aas.2016.c150729

Wang Meng-Lai,Li Xiang,Chen Qi,Li Lan-Bo,Zhao Yan-Yun.Surveillance event detection based on CNN. Acta Automatica Sinica,2016,42(6):892-903

2015-11-03錄用日期2016-04-01
Manuscript received November 3,2015;accepted April 1,2016
本文責(zé)任編委柯登峰
Recommended by Associate Editor KE Deng-Feng
1.北京郵電大學(xué)信息與通信工程學(xué)院多媒體通信與模式識(shí)別實(shí)驗(yàn)室北京100876
1.Multimedia Communication and Pattern Recognition Laboratory,School of Information and Communication Engineering,Beijing University of Posts and Telecommunications,Beijing 100876

猜你喜歡
檢測(cè)
QC 檢測(cè)
“不等式”檢測(cè)題
“一元一次不等式”檢測(cè)題
“一元一次不等式組”檢測(cè)題
“幾何圖形”檢測(cè)題
“角”檢測(cè)題
“有理數(shù)的乘除法”檢測(cè)題
“有理數(shù)”檢測(cè)題
“角”檢測(cè)題
“幾何圖形”檢測(cè)題
主站蜘蛛池模板: 伊人AV天堂| 一级毛片在线直接观看| 日韩国产另类| 天堂网亚洲综合在线| 69综合网| 久久精品国产精品青草app| 99这里只有精品6| 国产在线98福利播放视频免费| 国产欧美在线观看一区| 99青青青精品视频在线| 国产精品原创不卡在线| 亚洲精品亚洲人成在线| 国产v欧美v日韩v综合精品| 成人无码区免费视频网站蜜臀| 亚洲福利视频网址| 亚洲另类国产欧美一区二区| 色悠久久综合| 日本黄网在线观看| 色亚洲激情综合精品无码视频| 97青青青国产在线播放| 亚洲最新地址| 国产精品刺激对白在线| 久久性妇女精品免费| 免费观看国产小粉嫩喷水| 国产精品13页| 广东一级毛片| 亚洲一区二区黄色| 一区二区三区国产精品视频| 日本一区二区三区精品视频| 最新亚洲人成网站在线观看| 国产99在线| 国产成人精品视频一区视频二区| 中文字幕天无码久久精品视频免费| 欧美日韩国产成人在线观看| 天天爽免费视频| 一本一道波多野结衣av黑人在线| 日韩成人在线视频| 婷婷午夜影院| 四虎影视国产精品| 中文字幕调教一区二区视频| 中文字幕在线看| 久久综合色视频| 亚洲国产精品不卡在线| 国产va在线| 国产剧情伊人| 亚洲色图欧美在线| 精品99在线观看| 黄色网在线| 亚洲娇小与黑人巨大交| 91亚洲免费| 99成人在线观看| 亚洲成a人片77777在线播放| 成人自拍视频在线观看| 精品无码一区二区三区在线视频| 中文字幕乱妇无码AV在线| 蜜臀av性久久久久蜜臀aⅴ麻豆 | 国产乱人伦偷精品视频AAA| 精品自拍视频在线观看| 日韩av无码精品专区| www.91在线播放| 国产麻豆永久视频| 国产第一页屁屁影院| 97综合久久| 91精品视频网站| 青草娱乐极品免费视频| 超碰aⅴ人人做人人爽欧美| 无码精油按摩潮喷在线播放| 欧美精品亚洲日韩a| 99在线视频免费| 欧美性猛交一区二区三区| 国产精品私拍在线爆乳| 欧美三级自拍| 四虎精品国产AV二区| 91偷拍一区| 欧美三级自拍| 亚洲av无码久久无遮挡| 免费中文字幕一级毛片| 91精品国产一区自在线拍| 国产va在线| 毛片免费高清免费| 欧美在线视频不卡| 日韩国产一区二区三区无码|