摘要:該文提出一種基于多攝像機(jī)信息融合的行為識(shí)別方法。新方法使用背景融合的方式融合多鏡頭的信息,使用背景差分提出人體目標(biāo),基于運(yùn)動(dòng)慣性定律解決了多目標(biāo)跟蹤的問(wèn)題,并在行為識(shí)別中引入了人工智能和多層次分析等先進(jìn)的手段。
關(guān)鍵詞:行為識(shí)別;多鏡頭;視頻監(jiān)控
中圖分類號(hào):TP18文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2009)25-7238-02
Behavior Recognition Method Based on Multi-camera Information Integration
YIN Ming-jun1, CHEN Li-wei1,TANG Quan-hua2
(1. Southwest University of Science and Technology, Mianyang 621010 ,China;(2. Southwest Jiaotong University, Chengdu 610031,China)
Abstract:A behavior recognition method based on multi-camera information integration is proposed in this paper. The multi-lens information is integrated by background combining. The human body is extracted by background subtraction.The problem of multiple target tracking is solved by law of inertia. And new methods such as artificial intelligence and multilevel analysis are ntroducted in our new method.
Key words: Behavior Recognition, Multi-camera, Video Surveillance
隨著社會(huì)經(jīng)濟(jì)的發(fā)展,各種刑事案件時(shí)有發(fā)生,近年來(lái)還有情況加劇的趨勢(shì)。為穩(wěn)定社會(huì)治安,保障人民安全,公安部門在幾乎所有公共場(chǎng)所安裝了視頻監(jiān)控設(shè)備,但這些裝置主要靠人工觀察,當(dāng)案件突然發(fā)生時(shí),往往不能及時(shí)發(fā)現(xiàn)預(yù)警,給罪犯作案和逃竄留下了過(guò)多的時(shí)間。因此,有必要研究智能監(jiān)控與報(bào)警系統(tǒng),實(shí)現(xiàn)智能行為識(shí)別,提供自動(dòng)報(bào)警的途徑。
基于視頻的行為識(shí)別及人臉表情識(shí)別等問(wèn)題是目前視頻信號(hào)處理研究的前沿課題,項(xiàng)目的實(shí)施需要涉及到視頻信號(hào)處理的各方面技術(shù),包括去噪、編解碼等基礎(chǔ)問(wèn)題,項(xiàng)目的研究必然推動(dòng)視頻信號(hào)處理理論和技術(shù)的發(fā)展。隨著理論問(wèn)題的突破,視頻監(jiān)控的應(yīng)用也可以推廣到更多的場(chǎng)景。
1 基于多攝像機(jī)的目標(biāo)提取與跟蹤
人體的跟蹤研究還很缺乏,身體姿勢(shì)和運(yùn)動(dòng)在單一視角下由于遮擋或深度影響而容易產(chǎn)生歧義現(xiàn)象,因此使用多攝像機(jī)進(jìn)行人體姿勢(shì)跟蹤和恢復(fù)的優(yōu)點(diǎn)是很明顯的。同時(shí),多攝像機(jī)的使用不僅可以擴(kuò)大監(jiān)視的有效范圍,而且可以提供多個(gè)不同的方向視角以用于解決遮擋問(wèn)題。很明顯,未來(lái)的人運(yùn)動(dòng)分析系統(tǒng)將極大受益于多攝像機(jī)的使用。對(duì)于多攝像機(jī)跟蹤系統(tǒng)而言,我們需要確定在每個(gè)時(shí)刻使用哪一個(gè)攝像機(jī)或哪一幅圖像。也就是說(shuō),多攝像機(jī)之間的選擇和信息融合是一個(gè)比較關(guān)鍵的問(wèn)題。
1.1 基于背景融合的多鏡頭運(yùn)動(dòng)融合方法
由于拍攝角度不同,同一事物的運(yùn)動(dòng)在不同鏡頭中表現(xiàn)可能完全不同。根據(jù)攝像機(jī)方向一致且拍攝范圍高度重合的特點(diǎn),本文提出基于背景融合的多鏡頭運(yùn)動(dòng)融合方法。背景合成方法可以對(duì)場(chǎng)景內(nèi)的事物進(jìn)行協(xié)同處理,避免對(duì)同一事物重復(fù)計(jì)算,簡(jiǎn)化系統(tǒng)運(yùn)行過(guò)程中的坐標(biāo)變換過(guò)程。假定各相鄰攝像機(jī)的攝像距離和角度相同,則可以使用使用以下公式判定和求解背景重疊:
其中F1,F(xiàn)2分別為兩個(gè)攝像機(jī)在同一時(shí)刻拍攝到的圖像,Ω,Ψ分別是兩幅圖像的子區(qū)域。D(F1,F(xiàn)2)越大,則兩個(gè)圖像的重疊區(qū)域越大。其中重疊區(qū)域則可以通過(guò)最小化來(lái)判定。
圖1中,紅、黃、綠、藍(lán)四個(gè)方框代表四個(gè)攝像機(jī)的可視區(qū)域,背景融合則是將這四個(gè)區(qū)域合成為一個(gè)整體。
1.2 人體提取技術(shù)方案
為獲得視頻中完整的人體圖像,本項(xiàng)目擬采用背景差分的方式提取人體。首先通過(guò)時(shí)空聯(lián)合進(jìn)行去噪,同時(shí)消除閃光和抖動(dòng),然后使用中值濾波聯(lián)合運(yùn)動(dòng)分析進(jìn)行動(dòng)態(tài)背景建模,最后利用背景差結(jié)合運(yùn)動(dòng)跟蹤情況獲得視頻中的人體圖像。
監(jiān)控系統(tǒng)中由于連續(xù)采集的需要,視頻信號(hào)的質(zhì)量較差,尤其在銀行這樣的室內(nèi)環(huán)境中,由于光線不足,采集受空氣擾動(dòng)影響較大,視頻中噪聲污染較為嚴(yán)重。噪聲不僅影響視頻的視覺(jué)效果,而且嚴(yán)重影響視頻對(duì)象分割與識(shí)別的準(zhǔn)確率。傳統(tǒng)的去噪方法主要是在圖像內(nèi)進(jìn)行的,如高斯濾波器、維納濾波器、中值濾波器、頻域?yàn)V波和小波域去噪等,都是利用圖像的空域相關(guān)性進(jìn)行平滑處理。但空域相關(guān)性并不能完全區(qū)分視頻信號(hào)與噪聲信號(hào),圖像邊緣和細(xì)節(jié)的空域相關(guān)性較弱,而污染嚴(yán)重時(shí)噪聲之間卻產(chǎn)生較強(qiáng)空域相關(guān)性。這使得空域?yàn)V波在去噪時(shí)無(wú)法避免破壞圖像細(xì)節(jié),且去噪能力不強(qiáng)。由于視頻信號(hào)具有連貫性,視頻幀間的時(shí)域相關(guān)性遠(yuǎn)遠(yuǎn)大于空域相關(guān)性,近年來(lái),人們開(kāi)始研究時(shí)域和時(shí)空域聯(lián)合的視頻去噪方法,而單純的時(shí)域?yàn)V波忽略了空間相關(guān)性,雖然在信噪比等參數(shù)上有所提高,但視覺(jué)效果不佳,所以時(shí)空聯(lián)合成為視頻去噪的主要發(fā)展方向。時(shí)空聯(lián)合去噪方法比以往的各種方法更能保護(hù)圖像細(xì)節(jié),去除視頻噪聲能力更強(qiáng),運(yùn)算速度較快,視覺(jué)效果和峰值信噪比(PSNR)都可以得到有效提升。消除閃光和抖動(dòng)則可以直接采用現(xiàn)有成熟技術(shù)。
運(yùn)動(dòng)物體的提取方法主要分幀差法背景差法兩類,幀差法獲得的物體不完整,背景差法需要有固定背景或動(dòng)態(tài)背景建模,銀行內(nèi)的光線、器具擺放等背景因素都不固定,因此不能使用固定背景的方法,項(xiàng)目擬采用基于中值濾波與運(yùn)動(dòng)分析結(jié)合的動(dòng)態(tài)背景建模方法。首先通過(guò)運(yùn)動(dòng)檢測(cè)與跟蹤,獲得當(dāng)前幀中靜止區(qū)域累積各像素點(diǎn)的顏色直方圖,然后通過(guò)直方圖計(jì)算中值作為背景。
通過(guò)上述背景建模和背景差應(yīng)該可以準(zhǔn)確地獲得當(dāng)前場(chǎng)景中的運(yùn)動(dòng)物體,但項(xiàng)目中需要獲得的是完整的人體,因此需要在背景差的基礎(chǔ)上濾去一般物件和陰影等非人體因素,并且要能區(qū)分出長(zhǎng)期停留的人體部分,解決這些問(wèn)題的主要技術(shù)手段有運(yùn)動(dòng)跟蹤、體積判定、二階差分等。
1.3 多目標(biāo)跟蹤
目標(biāo)跟蹤的研究歷史較長(zhǎng),但多目標(biāo)跟蹤仍是視頻分析中的一個(gè)研究難題,尤其在本項(xiàng)目中,目標(biāo)間存在交叉、重合和停留的情況。通過(guò)多個(gè)目標(biāo)的運(yùn)動(dòng)狀態(tài)進(jìn)行跟蹤,不僅可以對(duì)各目標(biāo)的行為進(jìn)行單一分析,也可以幫助對(duì)目標(biāo)的交互行為進(jìn)行分析,以及對(duì)目標(biāo)的群體行為進(jìn)行識(shí)別。多目標(biāo)跟蹤的主要難題在于各目標(biāo)之間的重疊,本文通過(guò)運(yùn)動(dòng)方向不變的假設(shè)來(lái)解決這一問(wèn)題,即認(rèn)為當(dāng)對(duì)象重疊再分開(kāi)后,由原來(lái)運(yùn)動(dòng)狀態(tài)決定。
令兩個(gè)視頻對(duì)象的速度分別為v1、v2,加速度分別為a1、a2,重疊后經(jīng)過(guò)t時(shí)間段分離,則使用:
分別預(yù)測(cè)兩個(gè)對(duì)象的位置,然后認(rèn)定與預(yù)測(cè)位置相接近的對(duì)象為原跟蹤對(duì)象。
當(dāng)有多個(gè)對(duì)象重疊時(shí),將上述方法進(jìn)一步推廣,則可以解決一般多目標(biāo)跟蹤的問(wèn)題。
2 基于多鏡頭的行為識(shí)別
2.1 人體行為識(shí)別
目前人行為理解雖然取得一定的進(jìn)展,但行為理解研究還只局限于簡(jiǎn)單、固定視角且已切分好后的動(dòng)作,對(duì)不同動(dòng)作連續(xù)變化的長(zhǎng)運(yùn)動(dòng)序列的研究比較少,而且魯棒差,在噪聲、亮度和光照變化強(qiáng)烈以及視角變化的復(fù)雜環(huán)境中正確識(shí)別率大大降低。目前的行為識(shí)別方法如狀態(tài)轉(zhuǎn)移的圖模型方法和模板匹配方法通常在計(jì)算代價(jià)和運(yùn)動(dòng)識(shí)別的準(zhǔn)確度之間進(jìn)行折中,而且都是先訓(xùn)練后使用,只能識(shí)別訓(xùn)練中預(yù)先定義好的動(dòng)作,沒(méi)有自動(dòng)學(xué)習(xí)新行為的能力,缺乏考慮場(chǎng)景等背景知識(shí),很難根據(jù)目標(biāo)行為和場(chǎng)景的先驗(yàn)知識(shí)進(jìn)行自動(dòng)機(jī)器學(xué)習(xí)。例如HMM等方法被看成一個(gè)黑盒,它不解釋某種行為是什么,只輸出一種未知行為與認(rèn)知的模式行為之間的概率。所以仍需要尋找和開(kāi)發(fā)新技術(shù),以利于在提高行為識(shí)別性能的同時(shí),又能有效地降低計(jì)算的復(fù)雜度。
行為本身具有很強(qiáng)的模糊性,同一行為、事件、狀態(tài)在不同的場(chǎng)景有著不同的概念,當(dāng)同一場(chǎng)景中有多個(gè)目標(biāo)出現(xiàn)時(shí)其行為模糊性更加明顯。所以,如何借助于先進(jìn)的視覺(jué)算法和人工智能等領(lǐng)域的成果,將現(xiàn)有的簡(jiǎn)單行為識(shí)別與理解推廣到更為復(fù)雜場(chǎng)景下的事件與場(chǎng)景理解,是將計(jì)算機(jī)視覺(jué)低、中層次的處理推向高層抽象思維的關(guān)鍵問(wèn)題。
使用基于多鏡頭的行為識(shí)別,不僅可以結(jié)合多攝像機(jī)獲得的多角度信息,而且可以通過(guò)各角度信息進(jìn)行結(jié)果驗(yàn)證。多鏡頭為行為識(shí)別提供了豐富的識(shí)別素材,這也為引入人工智能、機(jī)器學(xué)習(xí)等手段提供了基礎(chǔ)。
2.2 基于層次分析的事件判定機(jī)制
盜搶案件的發(fā)生是雙方或多方的事件,案件行為既有行為人整體、群體的表現(xiàn),也有人體部分運(yùn)動(dòng)的表現(xiàn),基于視頻信息判定案件發(fā)生既有定量的信息又有定性的信息,使用層次分析方法可以有國(guó)地結(jié)合各方面的因素。層次分析方法起源于運(yùn)籌學(xué),目前也有人將它引入網(wǎng)絡(luò)自動(dòng)選擇等問(wèn)題,本文首次將它引入事件判定機(jī)制,為事件的判定提供了新的思路和方法。
3 結(jié)論
由于拍攝角度不同,同一事物的運(yùn)動(dòng)在不同鏡頭中表現(xiàn)可能完全不同。本文在攝像機(jī)方向一致的假設(shè)前提條件下,依據(jù)拍攝范圍高度重合的特點(diǎn),提出基于背景融合的多鏡頭運(yùn)動(dòng)融合方法。背景融合方法可以對(duì)場(chǎng)景內(nèi)的事物進(jìn)行協(xié)同處理,避免對(duì)同一事物重復(fù)計(jì)算,簡(jiǎn)化系統(tǒng)運(yùn)行過(guò)程中的坐標(biāo)變換過(guò)程。結(jié)合多目標(biāo)跟蹤、人體行為識(shí)別等技術(shù),本文提出了一套新的高效行為識(shí)別方法。
參考文獻(xiàn):
[1] 王亮, 胡衛(wèi)明, 譚鐵牛. 人運(yùn)動(dòng)的視覺(jué)分析綜述[M]. 計(jì)算機(jī)學(xué)報(bào), 2002, 25(3): 225-237.
[2] 李妍婷, 羅予頻, 唐光榮. 單目視頻中的多視角行為識(shí)別方法[M]. 計(jì)算機(jī)應(yīng)用. 2006, 26(7):1592-1594.
[3] 張麗君, 吳曉娟, 盛贊, 等. 基于HMM復(fù)雜場(chǎng)景下的行為識(shí)別方法[M]. 計(jì)算機(jī)工程, 2008, 34(7): 212-214.
[4] 胡長(zhǎng)勃, 馮濤, 馬頌德. 基于主元分析法的行為識(shí)別[M]. 中國(guó)圖象圖形學(xué)報(bào), 2000, 5(10):818-821.
[5] 凌志剛, 趙春暉, 梁彥. 基于視覺(jué)的人行為理解綜述[M]. 計(jì)算機(jī)應(yīng)用研究, 2008, 25(9):2570-2578.
[6] Kittler J, Ballettem, Christmasw J,etal.Fusion of multiple cue detectors for automatic sports video annotation[M]. Workshop on Structura, Syntactic and Statistical Pattern Recognition. 2002: 597-606.
[7] Tjondronegoro D,Chen Y P P, Pham B. Content-based video indexing for sports applications using integrated multi-modal approach[M]. The 13th Annual ACM International Conference on Multimedia. 2005: 1035-1036.