






摘 要:群體行為的多層次深度分析是行為識(shí)別領(lǐng)域亟待解決的重要問(wèn)題。在深度神經(jīng)網(wǎng)絡(luò)研究的基礎(chǔ)上,提出了群體行為識(shí)別的層級(jí)性分析模型。基于調(diào)控網(wǎng)絡(luò)的遷移學(xué)習(xí),實(shí)現(xiàn)了行為群體中多人體的時(shí)序一致性檢測(cè);通過(guò)融合時(shí)空特征學(xué)習(xí),完成了群體行為中時(shí)長(zhǎng)無(wú)約束的個(gè)體行為識(shí)別;通過(guò)場(chǎng)景中個(gè)體行為類別、交互場(chǎng)景上下文信息的融合,實(shí)現(xiàn)了對(duì)群體行為穩(wěn)定有效的識(shí)別。在公用數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)表明,與現(xiàn)有方法相比,該模型在群體行為分析識(shí)別方面具有良好的效果。
關(guān)鍵詞:群體行為識(shí)別;深度神經(jīng)網(wǎng)絡(luò);遷移學(xué)習(xí);長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò);時(shí)序一致性檢測(cè)
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2022)03-050-0931-07
doi:10.19734/j.issn.1001-3695.2021.06.0284
基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(61806073);河南省重點(diǎn)研發(fā)與推廣專項(xiàng)(科技攻關(guān))項(xiàng)目基金資助項(xiàng)目(192102210097,192102210126,212102210160,182102210210)
作者簡(jiǎn)介:裴利沈(1988-),女,講師,碩導(dǎo),博士,主要研究方向?yàn)橛?jì)算機(jī)視覺(jué)、模式識(shí)別、行為識(shí)別;趙雪專(1986-),男(通信作者),講師,碩導(dǎo),博士,主要研究方向?yàn)樾袨樽R(shí)別、目標(biāo)檢測(cè)(xuezhuansci@126.com);張國(guó)華(1981-),男,副研究員,碩導(dǎo),博士,主要研究方向?yàn)樾袨樽R(shí)別、人工智能及其應(yīng)用.
Research on collective activity analysis model based on multilevel deep neural network architecture
Pei Lishen1,Zhao Xuezhuan2?,Zhang Guohua3
(1.School of Computer amp; Information Engineering,Henan University of Economics amp; Law,Zhengzhou 450046,China;2.School of Intelligent Engineering,Zhengzhou University of Aeronautic,Zhengzhou 450046,China;3.Institute of Magnetic Levitation amp; Electromagnetic Propulsion,China Aerospace Institute of Science amp; Technology,Beijing 100074,China)
Abstract:Multi-level in-depth analysis of collective activity is an important issue to be solved in the field of activity recognition.Based on the research of deep neural network,this paper proposed a progressive hierarchical analysis model for activity recognition.Using the modulating network based on transfer learning,it detected multi-person with temporal consistency detection in the crowd.Through integrating spatio-temporal feature learning,it recognized the individual actions in the crowd with unconstrained action duration.Through integrating the individual action category,interaction context and scene context,it re-cognized the crowd activity steady and effectively.A large amount experiments on the benchmark data sets demonstrate that,compared with the current approaches,the proposed model achieves better performance on collective activity analysis and recognition.
Key words:crowd activity recognition;deep neural network;transfer learning;long-short term memory neural network;temporal consistency detection
0 引言
隨著各領(lǐng)域?qū)θ后w行為分析應(yīng)用需求的日益增長(zhǎng),群體行為識(shí)別成為了計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)熱點(diǎn)研究問(wèn)題。目前,群體行為分析方法大多通過(guò)對(duì)特征的提取識(shí)別或?qū)W習(xí)分析,且只給出了群體行為的類別,忽略了群體中行為個(gè)體的活動(dòng)細(xì)節(jié)。隨著人工智能領(lǐng)域各種應(yīng)用的發(fā)展,群體行為及群體中個(gè)體行為的分析識(shí)別研究變得更為迫切。
科研工作者對(duì)人體行為進(jìn)行了各種抽象層次的定義[1,2]。本文比較認(rèn)同Moeslund等人[3]將人的運(yùn)動(dòng)劃分為人體基本動(dòng)作(primitives)、個(gè)體行為(actions)與群體行為(activities)三個(gè)層次。人體的基本動(dòng)作是構(gòu)成行為與活動(dòng)的原子動(dòng)作,主要包括諸如轉(zhuǎn)頭、舉手、抬腳此類簡(jiǎn)單的肢體運(yùn)動(dòng)。個(gè)體行為則是由一系列基本動(dòng)作按照一定的時(shí)序規(guī)則組合而成,例如走、跑等行為。群體行為通常是建立在個(gè)體行為之上的一些事件,依賴于活動(dòng)場(chǎng)地、交互的物體及人類個(gè)體。本文模型采用自下而上的認(rèn)知方式,依次通過(guò)對(duì)人類活動(dòng)個(gè)體的檢測(cè)、對(duì)個(gè)體行為類別的識(shí)別分析等對(duì)群體行為進(jìn)行漸進(jìn)層級(jí)性的分析理解。
在群體行為識(shí)別方面,眾多科研工作者進(jìn)行了大量的研究,取得了一系列成果。基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法已有大量群體行為識(shí)別方面的成果,但這些方法的識(shí)別效果與基于深度學(xué)習(xí)的方法有些差距。近年來(lái),基于深度學(xué)習(xí)的群體行為識(shí)別方法獲得了越來(lái)越多的關(guān)注。大部分研究聚焦于對(duì)群體行為類別的識(shí)別與檢測(cè)方面,對(duì)群體行為多層級(jí)的分析識(shí)別工作相對(duì)比較少。
目前,層級(jí)性對(duì)群體行為進(jìn)行識(shí)別的方法,一般都是利用目標(biāo)檢測(cè)數(shù)據(jù)庫(kù)中訓(xùn)練好的人體檢測(cè)器對(duì)視頻幀中的活動(dòng)人體進(jìn)行檢測(cè),然后對(duì)其進(jìn)行跟蹤,繼而進(jìn)行后續(xù)處理。沒(méi)有對(duì)多人場(chǎng)景下的多目標(biāo)人體的檢測(cè)與跟蹤進(jìn)行聯(lián)合優(yōu)化。在特征表征方面,亦是基于檢測(cè)到的活動(dòng)人體進(jìn)行特征提取,而忽略了場(chǎng)景上下文信息與交互上下文信息。這些問(wèn)題激發(fā)了對(duì)層級(jí)性群體行為識(shí)別模型的思考與研究。
建立在現(xiàn)有工作的基礎(chǔ)上,依靠深度網(wǎng)絡(luò)架構(gòu)強(qiáng)大的學(xué)習(xí)能力,通過(guò)將目標(biāo)檢測(cè)器遷移到群體行為的視頻分析場(chǎng)景中,實(shí)現(xiàn)多行為人體的時(shí)序一致性檢測(cè);然后,融合時(shí)空特征學(xué)習(xí)實(shí)現(xiàn)時(shí)長(zhǎng)無(wú)約束的個(gè)體行為識(shí)別;最后,結(jié)合識(shí)別的個(gè)體行為類別、捕捉到的場(chǎng)景上下文信息與行為交互上下文信息對(duì)群體行為進(jìn)行有效的識(shí)別。本文模型層級(jí)性地分析了群體行為,從語(yǔ)義層面上一層一層漸進(jìn)地進(jìn)行分析,各層之間語(yǔ)義上相互獨(dú)立,在特征提取及分析處理上又緊密聯(lián)系,各層最終共同服務(wù)于群體行為的識(shí)別。本文的主要貢獻(xiàn)有三個(gè)方面:a)該模型基于遷移學(xué)習(xí)通過(guò)可調(diào)控網(wǎng)絡(luò)實(shí)現(xiàn)了多人體目標(biāo)的檢測(cè),利用少量目標(biāo)域領(lǐng)域的標(biāo)注信息即可顯著提高群體行為場(chǎng)景中人體的檢測(cè)效果,并且降低了在群體行為場(chǎng)景中對(duì)標(biāo)注樣本數(shù)量的需求;
b)關(guān)于群體中個(gè)體行為的識(shí)別,考慮到行為主體的自主性及與其他個(gè)體的互動(dòng)性,和其行為變化的突發(fā)性及隨意性,本文算法實(shí)現(xiàn)了時(shí)長(zhǎng)無(wú)約束的個(gè)體行為識(shí)別算法;
c)結(jié)合個(gè)體行為類型與場(chǎng)景上下文、交互上下文的群體行為識(shí)別方法,綜合考慮了群體行為發(fā)生發(fā)展所必需的重要因素,在群體行為識(shí)別的語(yǔ)義層面及識(shí)別算法上進(jìn)行了創(chuàng)新。
1 相關(guān)工作
1.1 多人體目標(biāo)檢測(cè)
在多目標(biāo)檢測(cè)領(lǐng)域存在大量的成果。目前大部分研究方法都依賴于滑動(dòng)窗口(sliding window)方法[4,5]、目標(biāo)提議機(jī)制(object proposal mechanism)[6]和卷積神經(jīng)網(wǎng)絡(luò)[7]對(duì)目標(biāo)進(jìn)行檢測(cè)識(shí)別。目前大量的目標(biāo)檢測(cè)方法都沒(méi)有對(duì)目標(biāo)對(duì)象的存在進(jìn)行聯(lián)合推理,而是依靠啟發(fā)式的后處理步驟來(lái)獲得最終的多目標(biāo)檢測(cè)結(jié)果。一個(gè)明顯的例外是ReInspect[8]算法,該方法通過(guò)Hungarian loss以端對(duì)端的方式訓(xùn)練檢測(cè)模型,專門用于處理多目標(biāo)場(chǎng)景下的目標(biāo)檢測(cè)問(wèn)題。此外,還有一些基于生成模型(generative model)的方法專門致力于多人聯(lián)合檢測(cè)問(wèn)題[9]的研究,然而其需要多視角視圖或深度圖信息,不適用于單目相機(jī)采集信息的處理。
由于遷移學(xué)習(xí)在時(shí)效及性能方面的優(yōu)勢(shì),自1995年以來(lái),遷移學(xué)習(xí)日益得到學(xué)術(shù)界的重視,并取得了許多優(yōu)秀的研究成果[10,11]。根據(jù)源域與目標(biāo)域數(shù)據(jù)分布、標(biāo)簽分布、特征空間或任務(wù)是否一致,遷移學(xué)習(xí)可以分為很多種類,研究?jī)?nèi)容非常龐雜[11]。本文研究設(shè)計(jì)的將目標(biāo)檢測(cè)問(wèn)題遷移至行為識(shí)別場(chǎng)景中目標(biāo)人體的檢測(cè)隸屬于直推式遷移學(xué)習(xí)。
在源域與目標(biāo)域的特征空間基本一致的情況下,實(shí)現(xiàn)直推式遷移學(xué)習(xí)的方法主要分為基于實(shí)例、基于特征、基于參數(shù)和基于關(guān)系的遷移學(xué)習(xí)[10,11]四大類。直接推廣這些遷移學(xué)習(xí)方法并不能很好地解決本文提出的問(wèn)題。首先,本文所涉及的行為識(shí)別場(chǎng)景中的人體標(biāo)注信息比較少,缺乏充足的標(biāo)注樣本,而且還可能存在非常嚴(yán)重的正負(fù)樣本不均衡問(wèn)題;其次,該遷移學(xué)習(xí)的源域?qū)儆谀繕?biāo)檢測(cè)領(lǐng)域,而目標(biāo)域?qū)儆谛袨樽R(shí)別領(lǐng)域,在某些場(chǎng)景下可能會(huì)存在樣本的負(fù)遷移問(wèn)題。為解決負(fù)遷移問(wèn)題,利用調(diào)控網(wǎng)絡(luò)自適應(yīng)地通過(guò)權(quán)重學(xué)習(xí)來(lái)選擇有效網(wǎng)絡(luò)的方式,抑制負(fù)遷移的網(wǎng)絡(luò)特征,以提高在群體行為識(shí)別場(chǎng)景中人體目標(biāo)的檢測(cè)效果。
1.2 個(gè)體行為識(shí)別
關(guān)于個(gè)體行為的識(shí)別,曾涌現(xiàn)了大量基于傳統(tǒng)的手工設(shè)計(jì)特征(handcrafted features)的方法,如HOG[12]、HOF[13]和MBH[14]。綜合比較這些行為識(shí)別方法可以發(fā)現(xiàn),它們首先通過(guò)各種建模方法檢測(cè)出興趣區(qū)域,然后對(duì)興趣區(qū)域進(jìn)行特征提取,繼而利用分類模型進(jìn)行分類或檢測(cè)。或者通過(guò)跟蹤運(yùn)動(dòng)目標(biāo)將得到的運(yùn)動(dòng)矢量、能量作為判斷依據(jù),將得到的特征通過(guò)事先訓(xùn)練好的分類器進(jìn)行分類,得到最終的分析結(jié)果。然而,在實(shí)驗(yàn)過(guò)程中,無(wú)論是最初的興趣目標(biāo)提取還是后期的運(yùn)動(dòng)分析都存在一系列問(wèn)題,導(dǎo)致人體檢測(cè)有很大的誤報(bào)率。此外,行為發(fā)生場(chǎng)景的背景通常比較復(fù)雜,不易完全提取;異常事件本身種類眾多,不易分類;人之間的遮擋情況也很嚴(yán)重,不易區(qū)分及跟蹤,這些都為行為的有效識(shí)別提出了挑戰(zhàn)。
伴隨著深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,利用深度學(xué)習(xí)的方法提取的特征表達(dá)可有效彌補(bǔ)手工特征的缺陷,該特征表現(xiàn)出了更強(qiáng)的魯棒性。近來(lái),基于深度學(xué)習(xí)的數(shù)據(jù)驅(qū)動(dòng)方法涌現(xiàn)了大量的行為識(shí)別方法[15~19]。深度卷積神經(jīng)網(wǎng)絡(luò)是應(yīng)用最為廣泛的一種,它通過(guò)多層卷積和池化操作,能夠發(fā)現(xiàn)高層語(yǔ)義信息的高層視頻表達(dá),在視頻或行為分類中取得了很好的效果[15,16]。獨(dú)立子空間分析網(wǎng)絡(luò)和限制玻爾茲曼機(jī)是該類方法的另外兩種不同的實(shí)現(xiàn)方案。Le 等人[17]基于獨(dú)立子空間網(wǎng)絡(luò)(independent subspace analysis network),以無(wú)監(jiān)督的方式從行為視頻中學(xué)習(xí)了一系列不變的局部時(shí)空特征,最后利用詞袋模型與線性支持向量機(jī)對(duì)視頻行為進(jìn)行分類識(shí)別;文獻(xiàn)[18]以概率模型為基礎(chǔ),基于卷積限制玻爾茲曼機(jī),利用深度置信網(wǎng)絡(luò)(space-time deep belief network)通過(guò)對(duì)行為特征的學(xué)習(xí)實(shí)現(xiàn)了對(duì)視頻行為的分類識(shí)別。
目前,大部分對(duì)行為識(shí)別的研究都基于三維卷積神經(jīng)網(wǎng)絡(luò)(3D CNN)[15]和多流網(wǎng)絡(luò)(multi-stream network)[20,21]展開。此外還有一些方法[22,23]通過(guò)結(jié)合手工設(shè)計(jì)特征(handcrafted features)和深度學(xué)習(xí)的特征來(lái)加強(qiáng)行為的識(shí)別效果。而大部分方法依靠一種基于時(shí)間線索(temporal cue)的方式,或增加一個(gè)單獨(dú)的時(shí)間流(temporal stream)域[20,22],或者直接編碼表征[19]。此外,基于遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network)的行為識(shí)別方法獲得了普遍的關(guān)注[24~26]。
這些方法大都致力于單個(gè)活動(dòng)個(gè)體的行為識(shí)別,難于直接應(yīng)用于多人交互的行為識(shí)別場(chǎng)景中。本文對(duì)群體行為進(jìn)行漸進(jìn)層級(jí)性的分析,所檢測(cè)與識(shí)別的行為個(gè)體是行為群體中的個(gè)體,該個(gè)體與群體中的其他個(gè)體存在交互與依賴,不是一個(gè)獨(dú)立的個(gè)體,且個(gè)體行為的識(shí)別結(jié)果將作用于后續(xù)的群體行為識(shí)別。所提個(gè)體行為識(shí)別方案應(yīng)綜合考慮各方面的因素,且能夠貢獻(xiàn)于層級(jí)分析模型后續(xù)的群體行為識(shí)別。
1.3 群體行為識(shí)別
群體行為識(shí)別的方法種類眾多,按照群體行為的建模模型來(lái)分,現(xiàn)有的群體行為識(shí)別方法大致可以分為三大類,即基于語(yǔ)法模型(grammar model)的方法[27,28]、基于圖模型(graphical model)[29,30]和基于深度網(wǎng)絡(luò)模型(deep neural network model)的方法[31~33]。目前,大部分群體行為識(shí)別的研究都基于圖模型和深度網(wǎng)絡(luò)模型。
目前的圖模型方法通常都是學(xué)習(xí)馬爾可夫隨機(jī)場(chǎng)(MRF)模型[34]或條件隨機(jī)場(chǎng)(CRF)模型[35]。而基于深度神經(jīng)網(wǎng)絡(luò)模型的方法大多通過(guò)全卷積神經(jīng)網(wǎng)絡(luò)(FCN)[32]和長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(LSTM)[31]來(lái)構(gòu)建深度網(wǎng)絡(luò)架構(gòu)。此外,群體行為識(shí)別的研究工作[36,37]表明,基于遞歸神經(jīng)網(wǎng)絡(luò)的深度網(wǎng)絡(luò)架構(gòu)較非深度的方法具有很多優(yōu)勢(shì)。
關(guān)于群體行為識(shí)別的圖模型方法,曾有大量的工作基于手工設(shè)計(jì)特征來(lái)構(gòu)建圖模型。現(xiàn)在,許多方法結(jié)合了圖模型與網(wǎng)絡(luò)架構(gòu)來(lái)識(shí)別群體行為。不同于那些基于設(shè)計(jì)特征方法的地方,這些方法結(jié)合了神經(jīng)網(wǎng)絡(luò)強(qiáng)大的可區(qū)分能力和圖模型的結(jié)構(gòu)塑造能力。文獻(xiàn)[36]提出一種通過(guò)推理來(lái)完善從CNN獲取個(gè)體級(jí)別的行為類別估計(jì)的方法,該方法設(shè)計(jì)了一個(gè)可訓(xùn)練的節(jié)點(diǎn)表示人和場(chǎng)景的圖模型,并通過(guò)節(jié)點(diǎn)間的信息傳遞來(lái)實(shí)現(xiàn)最終場(chǎng)景級(jí)別的行為估計(jì)。
現(xiàn)在基于深度神經(jīng)網(wǎng)絡(luò)模型的方法取得了很好的效果。文獻(xiàn)[37,38]分別利用LSTM對(duì)個(gè)體級(jí)別的行為和群體行為進(jìn)行表征識(shí)別,并將其結(jié)果最大值池化后作為輸入傳遞給第二個(gè)LSTM,以捕捉場(chǎng)景級(jí)別的信息表征。文獻(xiàn)[39]利用深度強(qiáng)化學(xué)習(xí)對(duì)構(gòu)建低級(jí)特征和高級(jí)特征的關(guān)系以用于群體行為識(shí)別。文獻(xiàn)[40]利用二維的姿態(tài)網(wǎng)絡(luò)和三維的CNN來(lái)提取特征,構(gòu)建actor-transformers 模型來(lái)識(shí)別個(gè)體行為和群體行為。文獻(xiàn)[41]探討了一個(gè)略有不同的方法,作者注意到在某些情況下,群體行為的類別為某個(gè)個(gè)體的行為所決定,于是提出了一種軟性注意機(jī)制來(lái)識(shí)別該個(gè)體行為,該方法的整體模型非常接近于文獻(xiàn)[37]。文獻(xiàn)[42,43]亦使用深度學(xué)習(xí)架構(gòu),通過(guò)描述局部信息來(lái)識(shí)別群體行為。上述方法解決了群體行為識(shí)別在某些方面的問(wèn)題,但是部分方法在推理階段使用的聯(lián)合推理方法有可能丟棄有用的上下文信息;部分方法是基于標(biāo)注的人體位置信息或人體的跟蹤結(jié)果進(jìn)行后續(xù)處理的,并沒(méi)有實(shí)現(xiàn)端到端地解決群體行為的分析識(shí)別問(wèn)題。
2 層級(jí)性群體行為分析模型
本文研究面向群體行為識(shí)別的層級(jí)性分析模型,基于人類的認(rèn)知規(guī)律,該模型按照自下而上的方式層級(jí)遞進(jìn)地對(duì)群體行為進(jìn)行分析識(shí)別。首先本文利用基于遷移學(xué)習(xí)的多目標(biāo)檢測(cè)的方法對(duì)群體行為中的人體進(jìn)行時(shí)序一致性檢測(cè);然后融合時(shí)空特征學(xué)習(xí)時(shí)長(zhǎng)無(wú)約束的個(gè)體行為識(shí)別方法識(shí)別個(gè)體行為;繼而結(jié)合個(gè)體行為與交互、場(chǎng)景上下文對(duì)群體行為進(jìn)行識(shí)別。下面對(duì)這些問(wèn)題逐一展開論述。
2.1 基于遷移學(xué)習(xí)的多人體目標(biāo)的時(shí)序一致性檢測(cè)
針對(duì)行為識(shí)別場(chǎng)景中多個(gè)活動(dòng)人體的時(shí)序一致性檢測(cè)問(wèn)題,本文設(shè)計(jì)了如圖1所示的多人體目標(biāo)時(shí)序一致性檢測(cè)模型的網(wǎng)絡(luò)框架。該方法首先通過(guò)ImageNet源數(shù)據(jù)域(source domain)訓(xùn)練人體檢測(cè)器,接著利用動(dòng)態(tài)調(diào)控網(wǎng)絡(luò)(modulating neural network)將其遷移到行為識(shí)別場(chǎng)景中,對(duì)行為視頻幀中的多個(gè)活動(dòng)人體進(jìn)行密集檢測(cè);然后通過(guò)非最大值抑制(non-max suppression)的方式來(lái)剔除那些重復(fù)的檢測(cè)結(jié)果,并優(yōu)化活動(dòng)人體的檢測(cè)邊框Bt;最后通過(guò)概率推理的判別模型條件隨機(jī)場(chǎng)(CRF)來(lái)匹配任意連續(xù)兩幀圖像中同一活動(dòng)人體的檢測(cè)結(jié)果,以實(shí)現(xiàn)整個(gè)視頻序列中多人體目標(biāo)的時(shí)序一致性檢測(cè)。該圖中黑色箭頭部分指示利用源域數(shù)據(jù)固化的權(quán)重特征,紅色箭頭部分指示在需在人體行為識(shí)別場(chǎng)景中訓(xùn)練學(xué)習(xí)(見電子版)。
在如圖1所示的person detection階段,該模型將目標(biāo)檢測(cè)領(lǐng)域的人體目標(biāo)檢測(cè)器遷移到行為識(shí)別場(chǎng)景中。在源域擁有充分樣本的情況下,假定源域人體目標(biāo)檢測(cè)網(wǎng)絡(luò)能適應(yīng)所有情形,那么對(duì)于特定的行為識(shí)別場(chǎng)景,只有部分網(wǎng)絡(luò)能夠發(fā)揮作用,而部分網(wǎng)絡(luò)是冗余的,有的甚至?xí)?lái)負(fù)遷移。在不保留源訓(xùn)練樣本的情況下,該模型的調(diào)控網(wǎng)絡(luò)通過(guò)特征調(diào)整選擇的方式,基于構(gòu)建的網(wǎng)絡(luò)模型,利用少量目標(biāo)域樣本標(biāo)簽信息通過(guò)權(quán)重的學(xué)習(xí)自適應(yīng)地選擇有效網(wǎng)絡(luò),抑制造成負(fù)遷移的網(wǎng)絡(luò)特征,增強(qiáng)識(shí)別效果。
圖1將目標(biāo)檢測(cè)領(lǐng)域的人體檢測(cè)遷移到行為識(shí)別場(chǎng)景中,是通過(guò)feature maps weight layer實(shí)現(xiàn)的,即通過(guò)增加一個(gè)對(duì)特征圖進(jìn)行加權(quán)的網(wǎng)絡(luò)層來(lái)實(shí)現(xiàn)特征選擇的動(dòng)態(tài)調(diào)控,特征加權(quán)層的參數(shù)p=(p1,p2,…,pm)由下面調(diào)控網(wǎng)絡(luò)的反饋網(wǎng)絡(luò)預(yù)測(cè)學(xué)習(xí)。在人體檢測(cè)網(wǎng)絡(luò)的訓(xùn)練過(guò)程中,首先本文基于AlexNet的深度卷積網(wǎng)絡(luò)(DCNN)使用源域樣本訓(xùn)練網(wǎng)絡(luò)權(quán)重,固化特征提取網(wǎng)絡(luò),選取中間層輸出的特征圖;然后利用RPN(region proposal network)[6]預(yù)測(cè)人體目標(biāo)所在區(qū)域,假定獲得了m個(gè)大小為v1×v2的特征圖,通過(guò)最小化式(1)目標(biāo)函數(shù)來(lái)訓(xùn)練圖1所示的人體檢測(cè)網(wǎng)絡(luò)。
其中:zi(ω,p)是群體行為識(shí)別數(shù)據(jù)庫(kù)中的人體檢測(cè)樣本xi的位置預(yù)測(cè)標(biāo)簽;yi為樣本的標(biāo)注標(biāo)簽;ω為fully connected layer的網(wǎng)絡(luò)參數(shù);p=(p1,…,pm)為調(diào)控網(wǎng)絡(luò)預(yù)測(cè)得到的加權(quán)參數(shù);‖p‖1為其正則化項(xiàng),用于約束選擇盡量少的特征圖用于人體識(shí)別。兩個(gè)網(wǎng)絡(luò)參數(shù)ω和p通過(guò)交叉迭代實(shí)行訓(xùn)練,只訓(xùn)練特征圖加權(quán)層和全連接層,可通過(guò)標(biāo)準(zhǔn)的誤差傳播算法實(shí)現(xiàn);區(qū)域預(yù)測(cè)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練詳見Faster R-CNN[6];調(diào)控網(wǎng)絡(luò)的訓(xùn)練方法詳見自適應(yīng)的人體檢測(cè)算法[44]。在人體檢測(cè)階段,通過(guò)區(qū)域預(yù)測(cè)網(wǎng)絡(luò)獲得候選區(qū)域,然后利用該區(qū)域調(diào)控網(wǎng)絡(luò)特征權(quán)重生成新的目標(biāo)檢測(cè)器,對(duì)行為識(shí)別場(chǎng)景中的人體進(jìn)行檢測(cè)。
其中:IoU(truth,pred)(intersection over union)是人體檢測(cè)的預(yù)測(cè)邊框和人體的基準(zhǔn)邊框的交集與并集之間的比值。PCS有效地編碼了人體目標(biāo)在邊框中出現(xiàn)的概率,以及預(yù)測(cè)邊框?qū)θ梭w的適應(yīng)性。
2.2 融合時(shí)空特征學(xué)習(xí)時(shí)長(zhǎng)無(wú)約束的個(gè)體行為識(shí)別方法
群體活動(dòng)中的個(gè)體行為隸屬于群體行為的一部分,一般情況下,行為個(gè)體會(huì)與行為群體中其他個(gè)體或場(chǎng)景進(jìn)行交互,外觀表現(xiàn)上更為細(xì)微,并與群體行為有很大的關(guān)聯(lián),且易受群體行為或其他個(gè)體行為改變的影響。此外,個(gè)體行為具有很大的主觀任意性,不同行為主體或同一行為主體在不同時(shí)刻所執(zhí)行的同類行為活動(dòng)持續(xù)時(shí)間的長(zhǎng)短、動(dòng)作的幅度等有很大差異。綜合考慮眾多因素,本文通過(guò)空間卷積神經(jīng)網(wǎng)絡(luò)(spatial con-volutional neural network)與運(yùn)動(dòng)卷積神經(jīng)網(wǎng)絡(luò)(motion convolutional neural network)的有機(jī)結(jié)合對(duì)行為進(jìn)行表征,并采用長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(long short term memory neural network,LSTM)實(shí)現(xiàn)時(shí)長(zhǎng)無(wú)約束的個(gè)體行為識(shí)別。
鑒于群體行為中個(gè)體行為體現(xiàn)的很強(qiáng)的突發(fā)性,在行為持續(xù)時(shí)間上表現(xiàn)的主觀任意性,采用基于長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)的記憶網(wǎng)絡(luò)來(lái)訓(xùn)練不確定長(zhǎng)度的輸入到確定維度的有效輸出的模型,并完成在任意時(shí)刻即可有效地輸出人體行為的活動(dòng)狀態(tài)的任務(wù)。如圖2所示為對(duì)群體行為場(chǎng)景中的某個(gè)行為個(gè)體i進(jìn)行行為識(shí)別時(shí)采用的融合時(shí)空特征學(xué)習(xí)時(shí)長(zhǎng)無(wú)約束的個(gè)體行為識(shí)別方法,圖中黑色箭頭指示上個(gè)層次訓(xùn)練的人體一致性檢測(cè)網(wǎng)絡(luò)架構(gòu),紅色箭頭與黑色箭頭共同指示該層次進(jìn)行的個(gè)體行為識(shí)別的流程(見電子版)。
如圖2所示,基于對(duì)人體的時(shí)序一致性檢測(cè)(黑色箭頭標(biāo)示部分)結(jié)果,本文采用AlexNet網(wǎng)絡(luò)架構(gòu)來(lái)實(shí)現(xiàn)空間卷積神經(jīng)網(wǎng)絡(luò)SCNN,對(duì)bt檢測(cè)區(qū)域中人體的空間域特征fs進(jìn)行學(xué)習(xí)提取。對(duì)運(yùn)動(dòng)特征fm,則首先需要對(duì)人體的一致性檢測(cè)邊框bt框定的部分進(jìn)行光流提取,然后使用基于GoogLeNet的MCNN進(jìn)行特征提取。為降低整個(gè)行為識(shí)別過(guò)程中的計(jì)算工作量,模型中使用的空間卷積神經(jīng)網(wǎng)絡(luò)和運(yùn)動(dòng)卷積神經(jīng)網(wǎng)絡(luò)復(fù)用于下一層級(jí)群體行為識(shí)別中時(shí)空上下文的特征提取。空間域特征fs與運(yùn)動(dòng)特征fm基本包含了行為識(shí)別所需的重要信息,通過(guò)一個(gè)拼接層(concatenation layer)將兩種信息整合到一起標(biāo)記為xt,就形成了后續(xù)用于個(gè)體行為識(shí)別的時(shí)空特征。
該網(wǎng)絡(luò)模型利用兩種類型的深度卷積神經(jīng)網(wǎng)絡(luò)提取行為的特征序列,提取完畢后將拼接的特征序列輸入至LSTM網(wǎng)絡(luò)進(jìn)行記憶學(xué)習(xí)。群體行為中個(gè)體行為的狀態(tài)有時(shí)在很長(zhǎng)時(shí)間內(nèi)不發(fā)生改變,有時(shí)又因?yàn)榕c其他活動(dòng)主體或活動(dòng)場(chǎng)景的交互發(fā)生頻繁的改變。長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)由于其網(wǎng)絡(luò)結(jié)構(gòu)中遺忘門的設(shè)置,可以根據(jù)輸入情況對(duì)長(zhǎng)期或短期的信息進(jìn)行有效記憶,它的這種特征使其非常適用于面臨的行為持續(xù)時(shí)間不確定的問(wèn)題。通過(guò)長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò),可以在任意時(shí)刻對(duì)行為狀態(tài)進(jìn)行識(shí)別。對(duì)個(gè)體行為進(jìn)行識(shí)別和訓(xùn)練LSTM時(shí),各神經(jīng)元的激活函數(shù)如下:
群體行為中行為個(gè)體的活動(dòng)持續(xù)時(shí)間有很大的不同,此外,個(gè)體行為轉(zhuǎn)換的發(fā)生往往是自然連續(xù)且流暢的,若要有效地對(duì)行為進(jìn)行識(shí)別必須在行為發(fā)生轉(zhuǎn)換的較短時(shí)間內(nèi)識(shí)別出當(dāng)前的行為狀態(tài),因此,需對(duì)任意長(zhǎng)度的行為序列進(jìn)行處理并得出有效的狀態(tài)輸出。通過(guò)測(cè)試發(fā)現(xiàn),在輸入序列太短或個(gè)體行為狀態(tài)發(fā)生改變的過(guò)程中,由于信息短缺,當(dāng)不足以確定當(dāng)前行為狀態(tài)時(shí),這種輸入長(zhǎng)度無(wú)約束的判別模型不能及時(shí)給出正確的判斷。為避免該模型作出誤判,在這種情況下,所提出的記憶網(wǎng)絡(luò)模型在不能作出確定的判定時(shí),對(duì)行為狀態(tài)不進(jìn)行判別。個(gè)體行為的識(shí)別會(huì)對(duì)群體的行為造成一定的影響,但是行為群體中個(gè)別行為短期內(nèi)無(wú)識(shí)別結(jié)果對(duì)其影響不大。此外,如前文所述,群體行為受多方面因素的影響,該方案不僅不會(huì)影響群體行為的最終判定,還在很大程度上減少了誤判帶來(lái)的嚴(yán)重后果。
2.3 結(jié)合個(gè)體行為與交互場(chǎng)景上下文的群體行為識(shí)別方法
群體行為的狀態(tài)受眾多因素的影響,如群體中個(gè)體行為的狀態(tài)、行為個(gè)體之間的交互、人體與物體、環(huán)境的交互,以及所處的活動(dòng)場(chǎng)景等。為了有效地統(tǒng)籌整合各類信息,本文設(shè)計(jì)了如圖3所示的群體行為識(shí)別流程,其中黑色箭頭指示了前兩個(gè)層級(jí)的人體一致性檢測(cè)和個(gè)體行為識(shí)別流程。群體行為識(shí)別作為行為漸進(jìn)層級(jí)性分析模型的最后一個(gè)層次,為了提高模型中特征提取網(wǎng)絡(luò)模塊的復(fù)用率,這里使用個(gè)體行為識(shí)別模塊中的空間卷積神經(jīng)網(wǎng)絡(luò)與運(yùn)動(dòng)卷積神經(jīng)網(wǎng)絡(luò)對(duì)群體行為的場(chǎng)景上下文信息與行為交互上下文信息進(jìn)行編碼,并結(jié)合群體中各行為主體的行為狀態(tài)的識(shí)別結(jié)果來(lái)分析識(shí)別群體行為。
從圖3所示的群體行為識(shí)別流程中可以看出,用于群體行為識(shí)別的特征主要包含各個(gè)體行為的識(shí)別結(jié)果的投票特征fRt、場(chǎng)景上下文信息fSCt和交互上下文信息fICt三部分內(nèi)容。其中交互上下文信息包括行為群體中各活動(dòng)個(gè)體之間的交互和活動(dòng)個(gè)體與環(huán)境之間的交互等,主要涉及到的是交互運(yùn)動(dòng)信息。主要使用個(gè)體行為識(shí)別模塊中,基于AlexNet的空間卷積神經(jīng)網(wǎng)絡(luò)SCNN對(duì)場(chǎng)景上下文信息進(jìn)行編碼,基于GoogLeNet的運(yùn)動(dòng)卷積神經(jīng)網(wǎng)絡(luò)MCNN對(duì)交互上下文信息進(jìn)行編碼。
利用SCNN和MCNN提取的場(chǎng)景上下文信息的編碼fSC和交互上下文的編碼fIC的維度是固定的,而個(gè)體行為的數(shù)目由于各群體行為實(shí)例中行為主體的個(gè)數(shù)的不同而不確定,直接利用各個(gè)體行為的識(shí)別結(jié)果作為特征的一部分進(jìn)行群體行為識(shí)別變得不可行。為解決此問(wèn)題,本文采用獨(dú)熱編碼(one hot encoding)對(duì)個(gè)體行為的識(shí)別結(jié)果進(jìn)行編碼,并以各個(gè)體行為類別的投票信息作為群體行為識(shí)別中個(gè)體行為的狀態(tài)編碼fR。最后,基于這三種特征(fR,fSC,fIC),利用式(8)訓(xùn)練長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò),對(duì)群體行為進(jìn)行識(shí)別。
3 實(shí)驗(yàn)與分析
在兩個(gè)公用數(shù)據(jù)庫(kù)上評(píng)估了所提群體行為識(shí)別的層級(jí)性分析模型對(duì)群體行為的分析與識(shí)別效果。
3.1 實(shí)驗(yàn)數(shù)據(jù)集
排球視頻數(shù)據(jù)集[37](volleyball dataset)是一個(gè)大規(guī)模的群體行為識(shí)別數(shù)據(jù)集,包含了多層次的標(biāo)簽。該數(shù)據(jù)庫(kù)包含了55個(gè)排球視頻,其中有4 830個(gè)標(biāo)注好的視頻幀,標(biāo)注信息包含三種類型的標(biāo)簽。對(duì)每一個(gè)足球運(yùn)動(dòng)員,該數(shù)據(jù)庫(kù)通過(guò)一個(gè)矩形框標(biāo)注了其位置標(biāo)簽信息,并給其分配了一個(gè)個(gè)體行為類別標(biāo)簽,該數(shù)據(jù)庫(kù)共涉及到九種個(gè)體行為類別,分別為spiking、blocking、 setting、 jumping、digging、standing、falling、 waiting 和moving。對(duì)每個(gè)視頻中的整個(gè)排球活動(dòng)場(chǎng)景,亦給其分配了群體活動(dòng)類別標(biāo)簽,共涉及到八種群體活動(dòng)類別,分別為left pass、right pass、left set、right set、left spike、right spike、left winpoint、right winpoint。
brainwash數(shù)據(jù)集[45]是一個(gè)人頭檢測(cè)的數(shù)據(jù)集,拍攝的是在一個(gè)咖啡館里出現(xiàn)的人群,然后對(duì)這群人進(jìn)行標(biāo)注而得到的數(shù)據(jù)集。該數(shù)據(jù)庫(kù)包含三個(gè)部分,即訓(xùn)練集包含了10 769張圖像,共81 975個(gè)人頭;驗(yàn)證集包括500張圖像,共3 318個(gè)人頭;測(cè)試集包括500張圖像,共5 007個(gè)人頭。為了對(duì)基于遷移學(xué)習(xí)的多人體目標(biāo)檢測(cè)網(wǎng)絡(luò)進(jìn)行有效評(píng)估,本文利用該數(shù)據(jù)集測(cè)試了多人體檢測(cè)網(wǎng)絡(luò)。
3.2 實(shí)驗(yàn)設(shè)置
本文從三個(gè)層次上對(duì)提出的層級(jí)性模型進(jìn)行訓(xùn)練,分別為多人體檢測(cè)層次的神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,群體中個(gè)體行為識(shí)別層次的網(wǎng)絡(luò)訓(xùn)練和群體行為識(shí)別層次的網(wǎng)絡(luò)訓(xùn)練。在網(wǎng)絡(luò)訓(xùn)練的過(guò)程中,本文采用自下而上的訓(xùn)練方式,首先訓(xùn)練多人體檢測(cè)的神經(jīng)網(wǎng)絡(luò);然后,個(gè)體行為識(shí)別與群體行為識(shí)別層面的網(wǎng)絡(luò)訓(xùn)練分別依賴于前一級(jí)訓(xùn)練好的網(wǎng)絡(luò)架構(gòu)。整個(gè)訓(xùn)練過(guò)程都在Caffe[46]上實(shí)現(xiàn),LSTM神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)率設(shè)定為0.000 1,且每?jī)蓚€(gè)epoch衰減為原來(lái)的1/2,LSTM網(wǎng)絡(luò)的訓(xùn)練與測(cè)試的實(shí)現(xiàn)參考文獻(xiàn)[47]。
在基于遷移學(xué)習(xí)的多人體檢測(cè)神經(jīng)網(wǎng)絡(luò)架構(gòu)中,本文利用源域ImageNet[48]中的行人數(shù)據(jù)來(lái)訓(xùn)練DCNN,固化特征提取網(wǎng)絡(luò),然后利用目標(biāo)域排球視頻數(shù)據(jù)集中的人體信息來(lái)訓(xùn)練調(diào)控網(wǎng)絡(luò),通過(guò)交叉迭代的方式來(lái)訓(xùn)練特征圖加權(quán)層和全連接層的網(wǎng)絡(luò)參數(shù),以實(shí)現(xiàn)對(duì)多人體目標(biāo)的檢測(cè),其實(shí)現(xiàn)方法與文獻(xiàn)[49]相同。
在個(gè)體行為識(shí)別的網(wǎng)絡(luò)訓(xùn)練中,本文利用上級(jí)網(wǎng)絡(luò)架構(gòu)檢測(cè)到的連續(xù)視頻幀中的一致性人體的位置信息,利用空間CNN(AlexNet[50])從源圖像中提取人體的空間表征信息,利用運(yùn)動(dòng)CNN(GoogLeNet[51])從視頻幀的光流圖中提取人體的運(yùn)動(dòng)表征信息,然后將兩者拼接為人體的時(shí)空表征信息輸入到LSTM網(wǎng)絡(luò)中。LSTM網(wǎng)絡(luò)的輸入信息的維度為4096+1204=5120,LSTM網(wǎng)絡(luò)包含1 024個(gè)隱藏單元,其輸出單元的數(shù)目為個(gè)體行為的類別數(shù)目,對(duì)于排球視頻數(shù)據(jù)集,本文設(shè)置其輸出單元的數(shù)目為9。
在群體行為識(shí)別的網(wǎng)絡(luò)訓(xùn)練中,本文統(tǒng)計(jì)各個(gè)體行為的識(shí)別信息,復(fù)用空間CNN和運(yùn)動(dòng)CNN提取整個(gè)視頻幀的空間與運(yùn)動(dòng)信息,對(duì)群體行為的上下文信息進(jìn)行描述,并對(duì)其進(jìn)行整合,對(duì)群體行為進(jìn)行識(shí)別。對(duì)于排球視頻數(shù)據(jù)集,群體行為識(shí)別的LSTM網(wǎng)絡(luò)的輸入向量的維度為4096+1024+9=5129,網(wǎng)絡(luò)包含3 000個(gè)隱藏單元,輸出神經(jīng)元的個(gè)數(shù)為8。
所提群體行為識(shí)別模型雖然分為三級(jí)單獨(dú)進(jìn)行訓(xùn)練,但是由于人體行為識(shí)別與群體行為識(shí)別中SCNN和MCNN的復(fù)用,群體行為的識(shí)別過(guò)程則有了一定程度的簡(jiǎn)化。首先對(duì)群體中的人體進(jìn)行時(shí)序一致性檢測(cè);然后利用SCNN和MCNN對(duì)視頻序列提取特征;根據(jù)圖2處理流程,利用對(duì)應(yīng)于人體的一致性檢測(cè)結(jié)果的特征,對(duì)其進(jìn)行個(gè)體行為識(shí)別;根據(jù)圖3所示流程,結(jié)合個(gè)體識(shí)別結(jié)果及視頻場(chǎng)景中利用SCNN和MCNN提取的特征,對(duì)群體行為進(jìn)行識(shí)別。相比于那些只對(duì)群體行為進(jìn)行分類的算法,增加了對(duì)群體場(chǎng)景中活動(dòng)個(gè)體的一致性檢測(cè)過(guò)程。
為了更好地展示所提漸進(jìn)層級(jí)性網(wǎng)絡(luò)模型在行為分析識(shí)別方面的效果,本文設(shè)置了幾個(gè)基準(zhǔn)實(shí)驗(yàn)。Person-DetCNN實(shí)驗(yàn)網(wǎng)絡(luò)設(shè)置與漸進(jìn)層級(jí)模型不同的地方在于,沒(méi)有將人體檢測(cè)模型遷移到群體行為識(shí)別場(chǎng)景中,在群體行為場(chǎng)景中進(jìn)行多人體檢測(cè)的時(shí)候使用的是在ImageNet數(shù)據(jù)庫(kù)上訓(xùn)練的人體檢測(cè)模型。SM-CNN實(shí)驗(yàn)網(wǎng)絡(luò)在對(duì)群體行為進(jìn)行識(shí)別的時(shí)候沒(méi)有使用個(gè)體行為識(shí)別的結(jié)果,只通過(guò)提取的場(chǎng)景上下文和交互上下文對(duì)群體行為進(jìn)行了識(shí)別。Person-LSTM實(shí)驗(yàn)網(wǎng)絡(luò)只通過(guò)群體行為中的各個(gè)體行為的識(shí)別結(jié)果對(duì)群體性為進(jìn)行識(shí)別。
3.3 實(shí)驗(yàn)結(jié)果與分析
本文在公共數(shù)據(jù)集volleyball dataset上對(duì)所提的層級(jí)行分析模型進(jìn)行了驗(yàn)證。圖4展示了對(duì)群體行為的層級(jí)性分析識(shí)別結(jié)果的示例,圖中標(biāo)示了三個(gè)層級(jí)的分析結(jié)果,即群體中人體的檢測(cè)結(jié)果、個(gè)體行為的識(shí)別結(jié)果及群體行為的識(shí)別結(jié)果。圖中綠色的矩形框標(biāo)定了檢測(cè)到的人體區(qū)域、矩形框上面的字體為標(biāo)注識(shí)別的個(gè)體行為類別,綠色字體為正確的識(shí)別結(jié)果,紅色字體為錯(cuò)誤的識(shí)別結(jié)果(見電子版)。每幀上方的文字為識(shí)別的群體行為的類別結(jié)果。
為了驗(yàn)證所提層級(jí)性分析模型中涉及到的各級(jí)分析對(duì)群體行為識(shí)別都是有效的,本文在volleyball dataset數(shù)據(jù)集上,進(jìn)行了所提方法與設(shè)置的基準(zhǔn)方法對(duì)比實(shí)驗(yàn)。表1展示了在排球視頻數(shù)據(jù)集中,利用所提方法和基準(zhǔn)方法對(duì)各群體行為的識(shí)別率的比較。該實(shí)驗(yàn)表明,對(duì)人體區(qū)域的正確檢測(cè)對(duì)群體中個(gè)體行為的識(shí)別具有重要影響。在對(duì)群體行為進(jìn)行識(shí)別時(shí),群體活動(dòng)的場(chǎng)景上下文與交互上下文信息,以及群體活動(dòng)中各個(gè)體行為的類別對(duì)群體行為的識(shí)別都具備鑒別意義。在考慮個(gè)體行為類別對(duì)群體行為識(shí)別的影響時(shí),對(duì)活動(dòng)個(gè)體正確有效的檢測(cè)對(duì)群體行為的正確識(shí)別具有很重要的意義。
表2展示了在排球視頻數(shù)據(jù)集中,利用所提方法和其他經(jīng)典方法對(duì)群體行為和個(gè)體行為的平均識(shí)別率的比較。目前,大部分對(duì)群體行為的識(shí)別算法只對(duì)整個(gè)群體活動(dòng)場(chǎng)景進(jìn)行了識(shí)別,不對(duì)群體行為中的個(gè)體行為進(jìn)行分析。在表1中,通過(guò)與基準(zhǔn)實(shí)驗(yàn)的對(duì)比可以發(fā)現(xiàn),在對(duì)群體行為進(jìn)行識(shí)別時(shí),考慮構(gòu)成群體行為的各個(gè)體行為的類別信息,能夠有效提升群體行為的識(shí)別率。在表2中,展示了其他分析了個(gè)體行為識(shí)別的群體行為識(shí)別方法對(duì)個(gè)體行為的識(shí)別情況。通過(guò)對(duì)比可以發(fā)現(xiàn),所提算法對(duì)群體中個(gè)體行為的識(shí)別具有很好的效果。
表3展示了在排球視頻數(shù)據(jù)集中所提方法和其他最新群體行為識(shí)別方法的比較。所提方法不僅取得了比較好的識(shí)別效果,相比于其他的基于深度神經(jīng)網(wǎng)絡(luò)的行為識(shí)別方法,該方法更符合人類分析認(rèn)知問(wèn)題的模式,對(duì)群體活動(dòng)中的信息的分析更加透徹。通過(guò)所展示的這些對(duì)比實(shí)驗(yàn)可以發(fā)現(xiàn),層級(jí)性的分析模式使人們對(duì)活動(dòng)場(chǎng)景中發(fā)生的細(xì)節(jié)信息更明確,且按照人類自下而上的認(rèn)知模式對(duì)行為進(jìn)行分析,使人們更容易感知群體活動(dòng)。
為了對(duì)基于遷移學(xué)習(xí)的多人體檢測(cè)網(wǎng)絡(luò)的檢測(cè)效果進(jìn)行分析,額外增加了多人體檢測(cè)的實(shí)驗(yàn),該實(shí)驗(yàn)在Brainwash 數(shù)據(jù)集上進(jìn)行,對(duì)多人體檢測(cè)的效果進(jìn)行了對(duì)比分析。相比于其他在群體行為識(shí)別中的多人檢測(cè)模型,所提方法因?yàn)樽赃m應(yīng)網(wǎng)絡(luò)的引入,對(duì)群體活動(dòng)場(chǎng)景具有更強(qiáng)的場(chǎng)景適應(yīng)性,表4直觀地展示了各種方法的平均識(shí)別率(AP)。通過(guò)對(duì)比表4中的數(shù)據(jù)可以發(fā)現(xiàn),所提方法在人體檢測(cè)方面優(yōu)于其他方法。
4 結(jié)束語(yǔ)
針對(duì)目前群體行為識(shí)別研究所面臨的實(shí)際問(wèn)題,本文提出了面向群體行為識(shí)別的層級(jí)性分析模型。該模型在現(xiàn)有工作的基礎(chǔ)上,依靠深度網(wǎng)絡(luò)架構(gòu)強(qiáng)大的學(xué)習(xí)能力,利用遷移學(xué)習(xí)對(duì)行為人體進(jìn)行時(shí)序一致性檢測(cè);然后基于群體中個(gè)體行為的識(shí)別,與捕捉到的場(chǎng)景上下文信息與行為交互上下文信息對(duì)群體行為進(jìn)行有效的識(shí)別。整個(gè)行為識(shí)別模型是漸進(jìn)層級(jí)性的,對(duì)群體行為的分析和理解更加深入。該問(wèn)題亦是一個(gè)多學(xué)科交叉融合的研究問(wèn)題,涉及到機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、人工智能、計(jì)算機(jī)視覺(jué)等多個(gè)學(xué)科。
所提模型基于遷移學(xué)習(xí)實(shí)現(xiàn)了對(duì)多人體目標(biāo)的時(shí)序一致性檢測(cè),通過(guò)自調(diào)控網(wǎng)絡(luò)解決了遷移學(xué)習(xí)過(guò)程中的樣本負(fù)遷移問(wèn)題,解決了對(duì)缺乏充足行為人體的檢測(cè)樣本及標(biāo)注信息的行為識(shí)別場(chǎng)景中的人體檢測(cè)問(wèn)題。對(duì)于群體行為中因個(gè)體行為的主觀隨意性而導(dǎo)致的個(gè)體行為的時(shí)長(zhǎng)不一致問(wèn)題,本文基于LSTM利用時(shí)空特征實(shí)現(xiàn)了對(duì)時(shí)長(zhǎng)無(wú)約束的個(gè)體行為的有效識(shí)別。對(duì)于群體行為的識(shí)別,本文復(fù)用SCNN和MCNN捕捉場(chǎng)景上下文信息與行為交互上下文信息,綜合考慮各類有效信息實(shí)現(xiàn)了對(duì)群體行為的有效識(shí)別。最后,通過(guò)大量實(shí)驗(yàn),驗(yàn)證了所提神經(jīng)網(wǎng)絡(luò)架構(gòu)在群體行為識(shí)別分析中的效果。
參考文獻(xiàn):
[1]Wang Xiaolong,F(xiàn)arhadi A,Gupta A.Actions transformations[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:2658-2667.
[2]Poppe R.A survey on vision-based human action recognition[J].Image and Vision Computing,2010,28(6):976-990.
[3]Moeslund T B,Hilton A,Kruger V.A survey of advances in vision-based human motion capture and analysis[J].Computer Vision and Image Understanding,2006,104:90-126.
[4]Sermanet P,Eigen D,Zhang Xiang,et al.Overfeat:integrated recognition,localization and detection using convolutional networks[EB/OL].(2014-02-24).https://arxiv.org/abs/1312.6229.
[5]Zhang Shanshan,Benenson R,Schiele B.Filtered channel features for pedestrian detection[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:1751-1760.
[6]Ren Shaoqing,He Kaiming,Girshick R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[7]王偉,潘秋羽,王明明,等.基于卷積特征融合的通用目標(biāo)檢測(cè)方法[J].計(jì)算機(jī)應(yīng)用研究,2020,37(11):3492-3495.(Wang Wei,Pan Qiuyu,Wang Mingming,et al.Object detection based on convolutional feature fusion[J].Application Research of Computers,2020,37(11):3492-3495.)
[8]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[J].Communications of the ACM,2017,60(6):84-90.
[9]Bagautdinov T,F(xiàn)leuret F,F(xiàn)ua P.Probability occupancy maps for occluded depth images[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:2829-2837.
[10]Pan S J,Yang Qiang.A survey on transfer learning[J].IEEE Trans on Knowledge and Data Engineering,2010,22(10):1345-1359.
[11]Weiss K,Khoshgoftaar T M,Wang Dingding.A survey of transfer learning[J].Journal of Big Data,2016,3(1):1-40.
[12]Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2005:886-893.
[13]Laptev I,Marszalek M,Schmid C,et al.Learning realistic human actions from movies[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2008:1-8.
[14]Wang Heng,Kl?Ser A,Schmid C,et al.Dense trajectories and motion boundary descriptors for action recognition[J].International Journal of Computer Vision,2013,103(1):60-79.
[15]Ji Shuiwang,Xu Wei,Yang Ming,et al.3D convolutional neural networks for human action recognition[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2013,35(1):221-231.
[16]Shao Jing,Loy C C,Kang Kai,et al.Slicing convolutional neural network for crowd video understanding[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:5620-5628.
[17]Le Q V,Zou W Y,Yeung S Y,et al.Learning hierarchical invariant spatio-temporal features for action recognition with independent subspace analysis[C]//Proc of CVPR.Piscataway,NJ:IEEE Press,2011:3361-3368.
[18]Bo Chen,Ting J A,Marlin B,et al.Deep learning of invariant spatio-temporal features from video[EB/OL].(2010).http://www.cs.ubc.ca/~nando/papers/nipsworkshop2010.pdf.
[19]Wu Di,Shao Ling.Leveraging hierarchical parametric networks for skeletal joints based action segmentation and recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2014:724-731.
[20]Feichtenhofer C,Pinz A,Zisserman A.Convolutional two-stream network fusion for video action recognition[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:1933-1941.
[21]Singh B,Marks T K,Jones M,et al.A multi-stream bi-directional recurrent neural network for fine-grained action detection[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2016:1961-1970.
[22]Singh S,Arora Chetan,Jawahar C V.First person action recognition using deep learned descriptors[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:2620-2628.
[23]Wang Limin,Qiao Yu,Tang Xiaoou.Action recognition with trajectory-pooled deep-convolutional descriptors[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:4305-4314.
[24]Koli R R,Bagban T I.Human action recognition using deep neural networks[C]//Proc of the 4th World Conference on Smart Trends in Systems,Security and Sustainability.Piscataway,NJ:IEEE Press,2020:376-380.
[25]Sun Yue,Yuan Tiantian,Chen Junfen,et al.Chinese sign language key action recognition based on extenics immune neural network[C]//Proc of IEEE International Conference on Advances in Electrical Engineering and Computer Applications.Piscataway,NJ:IEEE Press,2020:187-191.
[26]Zhao Han,Jin Xinyu.Human action recognition based on improved fusion attention CNN and RNN[C]//Proc of the 5th International Conference on Computational Intelligence and Applications.Piscataway,NJ:IEEE Press,2020:108-112.
[27]Amer M R,Xie Dan,Zhao Mingtian,et al.Cost-sensitive top-down/bottom-up inference for multiscale activity recognition[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2012:187-200.
[28]Shu Tianmin,Dan Xie,Rothrock B,et al.Joint inference of groups,events and human roles in aerial videos[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:4576-4584.
[29]Choi W,Savarese S.Understanding collective activities of people from videos[J].IEEE Trans on Pattern Analysis and Machine Intel-ligence,2014,36(6):1242-1257.
[30]Shu Tianmin,Todorovic S,Zhu S C.CERN:confidence-energy recurrent network for group activity recognition[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:4255-4263.
[31]Wang Minsi,Ni Bingbing,Yang Xiaokang.Recurrent modeling of interaction context for collective activity recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:7408-7416.
[32]Bagautdinov T,Alahi A,F(xiàn)leuret F,et al.Social scene understanding:end-to-end multi-person action localization and collective activity re-cognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:3425-3434.
[33]李洪均,丁宇鵬,李超波,等.基于特征融合時(shí)序分割網(wǎng)絡(luò)的行為識(shí)別研究[J].計(jì)算機(jī)研究與發(fā)展,2020,57(1):145-158.(Li Hongjun,Ding Yupeng,Li Chaobo,et al.Action recognition of temporal segment network based on feature fusion[J].Journal of Compu-ter Research and Development,2020,57(1):145-158.)
[34]Wu Zhirong,Lin Dahua,Tang Xiaoou.Deep Markov random field for image modeling[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2016:295-312.
[35]Jain A,Zamir A R,Savarese S,et al.Structural-RNN:deep learning on spatio-temporal graphs[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:5308-5317.
[36]Deng Zhiwei,Vahdat A,Hu Hexiang,et al.Structure inference machines:recurrent neural networks for analyzing relations in group activity recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:4772-4781.
[37]Ibrahim M S,Muralidharan S,Deng Zhiwei,et al.A hierarchical deep temporal model for group activity recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:1971-1980.
[38]Shu Xiangbo,Zhang Liyan,Sun Yunlian,et al.Host-parasite:graph LSTM-in-LSTM for group activity recognition[J].IEEE Trans on Neural Networks and Learning Systems,2021,32(2):663-674.
[39]Hu Guyue,Cui Bo,He Yuan,et al.Progressive relation learning for group activity recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:977-986.
[40]Gavrilyuk K,Sanford R,Javan M,et al.Actor-transformers for group activity recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:836-845.
[41]Ramanathan V,Huang J,Abu-El-Haija S,et al.Detecting events and key actors in multi-person videos[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:3043-3053.
[42]Borja-Borja L F,Azorin-Lopez J,Saval-Calvo M,et al.Deep learning architecture for group activity recognition using description of local motions[C]//Proc of International Joint Conference on Neural Networks.Piscataway,NJ:IEEE Press,2020:1-8.
[43]胡學(xué)敏,陳欽,楊麗,等.基于深度時(shí)空卷積神經(jīng)網(wǎng)絡(luò)的人群異常行為檢測(cè)和定位[J].計(jì)算機(jī)應(yīng)用研究,2020,37(3):891-895.(Hu Xuemin,Chen Qin,Yang Li,et al.Abnormal crowd behavior detection and localization based on deep spatial-temporal convolutional neural networks[J].Application Research of Computers,2020,37(3):891-895.)
[44]Tang Song,Ye Mao,Xu Pei,et al.Adaptive pedestrian detection by predicting classifier[J].Neural Computing and Applications,2019,31:1189-1200.
[45]Stewart R,Andriluka M,Ng A Y.End-to-end people detection in crowded scenes[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:2325-2333.
[46]Jia Yangqing.Caffe:an open source convolutional architecture or fast feature embedding[EB/OL].(2013).http://caffe.berkeleyvision.org/.
[47]Donahue J,Hendricks L A,Guadarrama S,et al.Long-term recurrent convolutional networks for visual recognition and description[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:2625-2634.
[48]Russakovsky O,Deng J,Su H,et al.ImageNet large scale visual recognition challenge[J].International Journal of Computer Vision,2015,115(3):211-252.
[49]Li Xudong,Ye Mao,Liu Yiguang,et al.Accurate object detection using memory-based models in surveillance scenes[J].Pattern Re-cognition,2017,67:73-84.
[50]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[J].Communications of the ACM,2017,60(6):84-90.
[51]Szegedy C,Wei Liu,Jia Yangqing,et al.Going deeper with convolutions[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:1-9.
[52]Ibrahim M S,Mori G.Hierarchical relational networks for group activity recognition and retrieval[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2018:742-758.
[53]Li Xin,Chuah M C.SBGAR:semantics based group activity recognition[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:2895-2904.
[54]Wu Jianchao,Wang Limin,Wang Li,et al.Learning actor relation graphs for group activity recognition[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:9956-9966.