程 芳 察 豪
(海軍工程大學海洋電磁環境研究所 武漢 430033)
?
視頻監控智能識別的關鍵技術研究*
程 芳 察 豪
(海軍工程大學海洋電磁環境研究所 武漢 430033)
隨著視頻監控需求的迅速增長,人工監視已遠不能滿足監控的要求,視頻監控系統的“智能化”變得越來越迫切。論文研究的核心是從理論層面出發,在視頻序列中檢測、跟蹤人體,獲取人體運動數據,描述和理解人體運動。
視頻監控; 智能化; 核心理論
Class Number TP391
美國911事件發生以后,各單位對于安全防范工作的重視程度逐漸加強。在信息化的今天,視頻監控無疑是預警危險的最佳方式。現在的視頻監控的應用越來越普及,但大量的圖像信息也成為困擾監控管理員的一個難題。如何有效地采集信息,而且有效地對采集的信息進行分析,將大量沒有威脅、無關緊要的信息剔除,并將有用信息能夠直接呈現給用戶,這就是智能化視頻監控系統主要的任務之一。現今智能視頻監控主要應用于銀行、超市、倉庫、停車場等對安全性要求比較高的場合中,要求能夠進行物體識別、軌跡跟蹤、車牌識別、車速測量、行為識別等[1]。
1) 圖像
圖像是客觀對象的一種相似性的、生動的描述或寫真,是人類社會活動中最常用的信息載體。圖就是物體透射或反射光的分布;像是人的視覺系統接受視覺信息而在人的大腦中形成的印象或認識。前者是客觀存在的,而后者是人的感覺,二者的結合即為圖像。圖像處理中,僅僅把圖像看成是二維平面或三維立體空間中具有明暗或色彩變化的光分布是不全面的。圖像根據記錄方式不同可分為兩大類:模擬圖像和數字圖像。模擬圖像可以通過某種物理量(如光、電等)的強弱變化來記錄圖像亮度信息,例如模擬電視圖像;數字圖像是指由像素組成的二維矩陣,數字圖像在現代工程實踐中應用最為廣泛。為了方便計算機運算與儲存,傳統照片或錄像帶模擬圖像經取樣及數字化后轉化為數字圖像。數字圖像的最基本單元稱為像素(Pixel)。像素的亮度以灰度值(Gray-level)表示,灰度值被劃分為256階,最暗為0,最亮為255。圖像按其灰度分成黑白圖像(是指圖像的每個像素只能是黑或者白,沒有中間的過渡,故又稱為二值圖像,二值圖像的像素值為0.1)、灰度圖像(灰度圖像是指每個像素的信息由一個量化的灰度級來描述的圖像,沒有彩色信息)、彩色圖像(彩色圖像是指每個像素的信息由RGB三原色構成的圖像,其中RGB是由不同的灰度級來描述的)。
2) 圖片識別問題
智能視頻監控實質就是對一幀幀的視頻圖片進行處理,圖片的模式識別涉及下列幾步[2]:
1) 圖片的取樣和量化:一張照片被轉化為一個計算機能識別的數組。
2) 圖片分割:按亮色、彩色或紋理的一致與否確定區域。
3) 景物分析:由分割獲得的區域被合并或修改,使計算機能定位其為物體。
4) 形狀描述:物體被編碼為反映它們形狀的定量的結構。
5) 物體描述:根據服務需求進行簡單分類或語言描述。
視頻監控智能識別系統是防止人為的盜竊、破壞,不法分子的入侵,從而確保財產及生命的安全。它主要是對場景進行實時監控,自動檢測到闖入目標(主要是人),并由預先設定好的規則判斷該目標的行為是否合法。整個系統結構將由運動檢測、人體識別和目標跟蹤三個部分組成,這種系統可以有效解決現有人工監控系統的缺陷,能勝任無人值守情況下的智能監控[3]。
1) 運動檢測(motion detection)
應用于任何場合的智能視頻監控,一個首要問題就是運動檢測[4],因為監控區域潛在的危險通常是運動的目標。通過運動目標檢測過濾掉無用的靜止信息,把注意力集中在活動目標上,然后再對運動的目標進行跟蹤以及目標分類識別、行為理解等處理,對相應的情況做出反應,達到智能監控的目的[5]。運動檢測的結果會作為前提條件傳遞給跟蹤和識別,因此運動檢測的好壞,直接關系到后續處理的準確性。可見,運動檢測是實現智能化的第一步,也是最關鍵的一步。針對不同的環境,對于如何從視頻流中準確地提取運動目標,許多研究者對此進行了大量的研究,得到了許多適應不同情況的方法。其中最常見是幀差法和背景相減法。
(1)幀差法
幀差法是通過判斷相鄰兩幀圖片之間的顯著差異來檢測運動目標,是一種圖像序列運動分析的基本方法[6]。它的思想是通過對相鄰的兩幀圖片作差,利用視頻序列相鄰幀間的強相關性進行變化檢測,從而確定運動目標。如果差的絕對位大于某一設定的閾值,則存在運動物體。反之,則不存在運動物體。具體公式如下:
其中Pk(x,y)為當前時刻t圖像的一個像素點,Pk-1為對應的t-1時刻圖像的一個像素點。當它們的差大于預先設定的閾值,則認為是前景點,反之,則是背景點。再將差分后的圖片二值化,前景點置1,背景點置0。
幀差法的特點是:算法簡單;速度快;對場景光線的變化不太敏感;受目標陰影的影響也不大;適用于實時性高的環境。缺點是:容易產生前景空洞,無法得到完整性的運動目標輪廓;無法處理復雜的噪聲;檢測效果有賴于運動物體的運動速度,如果運動速度較快,可能會造成兩幀之間無覆蓋區域,從而無法分割出運動物體;而如果運動速度過慢或是運動物體有所滯留時,則會造成過度覆蓋或是完全重疊,根本就檢測不到物體。
(2)背景相減法
背景相減法首先儲存一張圖片作為背景,并以一定的方法進行更新。用當前幀與背景幀絕對相減,然后以一定的閾值進行前景劃分,從而檢測到運動的物體。具體算法描述如下:
式中Pk(x,y)為當前幀中坐標為(x,y)的像素點的位,Bk(x,y)為對應的背景模型的像素點的位,T為設定的閾值。若當前幀像素與對應背景幀差的像素絕對差值大于閾值T時,則此像素為判定為前景點,否則為背景點。背景相減法的好壞,關鍵取決于背景模型的準確性。
2) 人體識別(body recognition)
人體識別的目的是對檢測到的運動區域做出是否存在活動人體的判斷。運動檢測后得到運動物體的區域表示(一般用二值圖像表示:1表示運動目標,0表示靜態背景),而不同的運動區域可能對應于不同的運動目標。由于監控系統的關注對象一般情況下就是人,所以根據運動區域的目標分類就可簡化為對人和非人的簡單判別。人體識別是監控智能識別的核心問題之一,目前常用的人體識別方法有:基于人的形體知識的分類方法和基于人的運動學知識的分類方法。基于形狀信息的分類方法有兩種,一種是利用檢測出的運動區域的形狀特征進行目標分類的方法。例如,VSAM分散度、面積、寬高比等作為特征,利用三層神經網絡方法將運動目標劃分為人、人群、車和背景干擾。另一種方法是建立人體形態模型庫的識別方法。這種方法一般比較復雜,多用在要求非常精準識別的場合。基于人的運動學知識的分類方法是利用人體運動的周期特性,運動方向的一致性來區分人或物的,這方面值得一提的是中國科學院自動化研究所模式識別國家重點實驗室視覺監控組,正在根據人體運動的周期性進行步態識別方而的研究,這項技術可以和人臉識別、指紋識別一起用于對特定人的識別方面,在刑事偵察領域有廣闊的應用前景。
3) 目標跟蹤((object tracking)
運動目標跟蹤是指通過對圖像序列中的運動目標進行檢測、提取、識別和跟蹤,獲得目標如位置、速度、加速度以及運動軌跡等運動參數,從而進行進一步處理與分析,實現運動目標的行為理解,以完成更高一級的任務(智能視頻監控系統目標跟蹤與分類算法研究)。常用的數學工具有卡爾曼濾波(Kalman Filtering)、粒子濾波算法(particle filter)及隱式馬爾可夫模型(Hidden Markov Model,HMM)等。其中Kalman濾波是基于高斯分布的狀態預測方法,不能有效地處理多峰模式(Multi-mode)的分布情況;Condensation算法[7](粒子濾波算法的簡化模型)是以因子抽樣為基礎的條件密度傳播方法,結合可學習的動態模型,可完成穩定的運動跟蹤。下面依據不同的跟蹤方法加以分類介紹:
(1)基于區域的跟蹤
基于區域的跟蹤方法基本思想是:首先得到包含目標的模板,該模板通過圖像分割獲得或是預先人為確定,模板通常為略大于目標的矩形,也可為不規則形狀;然后在序列圖像中,運用相關算法跟蹤目標,對灰度圖像可以采用基于紋理和特征的相關,對彩色圖像還可利用基于顏色的相關。系統可將人體看作由頭、軀干、四肢等身體部分所對應的小區域塊所組成,通過跟蹤各個小區域塊來完成整個人的跟蹤。基于區域的跟蹤方法根據運動目標區域的屬性變化(比如目標區域的位置、大小等)進行跟蹤,在很少運動目標的場景下效果很好,但當運動目標出現遮擋時很難持續地正確跟蹤。
(2)基于模型的跟蹤
通過匹配目標模型跟蹤目標,通常有三種形式:①線圖模型—人的運動是骨骼的運動,該表達方法就是將身體的各個部分以直線來近似。②二維輪廓—該人體表達方法的使用直接與人體在圖像中的投影有關,如紙板人模型[8],它將人的身體用一組連接的平面區域塊所表達。③立體模型:它是利用廣義橢圓柱、錐臺、球等三維模型來描述人體的結構細節,因此要求更多的計算參數和匹配過程中更大的計算量。基于模型的跟蹤方法利用目標模型進行匹配跟蹤,能達到較穩定的跟蹤效果,但該方法需要事先構造好目標模型,運動分析的精度取決于幾何模型的精度,在現實生活中獲得運動目標的精確幾何模型是非常困難的,并且跟蹤過程計算復雜、非常耗時,很難實現實時的運動目標跟蹤。
(3)基于活動輪廓的跟蹤
基于活動輪廓的跟蹤是利用封閉的曲線輪廓來表達運動目標,并且該輪廓能夠自動連續地更新[9]。例如可以利用隨機微分方程去描述復雜的運動模型,并與可變形模板相結合應用于人的跟蹤。相對于基于區域的跟蹤方法,輪廓表達有減少計算復雜度的優點,然而初始化通常是很困難的。基于活動輪廓的跟蹤方法主要根據目標的外形輪廓進行跟蹤,輪廓描述正確與否決定了跟蹤的精度,該方法對跟蹤的初始化非常敏感,以致很難自動地啟動跟蹤。
(4)基于特征的跟蹤
基于特征的跟蹤包括特征的提取和特征的匹配兩個過程。Polana與Nelson的文章[10]給了一個很好的解決方案,文中將每個行人用一個矩形框封閉起來,封閉框的質心被選擇作為跟蹤的特征,在跟蹤過程中若兩人出現相互遮擋時,只要質心的速度能被區分開來,跟蹤仍能被成功地執行。另外,利用區域的形狀、紋理、色彩和邊緣特征信息建立了活動模板,結合卡爾曼濾波的預測方法,使特征匹配能量函數最小化來完成運動目標的跟蹤過程,該活動模型對于非剛性物體的跟蹤具有很好的自適應性。基于特征的跟蹤方法主要通過目標區域的全局特征(比如面積、周長等)或局部特征(比如點、線特征等)進行跟蹤,該方法能處理部分遮擋下的跟蹤問題,其難點是如何確定目標的唯一特征集,若采用特征過多,系統效率將降低,且容易產生錯誤。
智能視頻監控系統所涉問題較多,一方面要對圖像識別有較為深入的了解,另一方面還要對相關的數學理論有較為透徹的認識。智能系統性能的提升,重點還是能否選取最適合的數學解決方案解決具體的問題。
[1] 高振遠.基于視頻的幾種人體行為識別技術研究[D].哈爾濱:哈爾濱工業大學,2011.
[2] 顧毅.數字圖像識別技術對危險化學品船舶監控中的應用[J].中國水運,2006(11):25-26.
[3] 欒海龍.基于視頻檢測的智能監控系統及其關鍵技術研究[D].西安:西安電子科技大學,2009.
[4] 文軍.如何有效的實現智能視頻監控[J].中國安防(技術與應用),2007(3):65-68.
[5] 房玲江.視頻監控中的運動檢測與跟蹤[D].長春:吉林大學,2010.
[6] 何峻峰.運動檢測技術在數字化監控中的實現與應用[J].中國安防產品信息技術論壇系統開發,2004(4):47-49.
[7] Isard M, Blake A. CONDENSATION-Conditional density propagation for visual tracking[J]. International Journalof Computer Vision,1998,29(1):52-81.
[8] S. Ju, M. Black, Y. Yaccob. Cardboard people: a parameterized model of articulated image motion[C]//Proceedings of IEEE International Conference on Automatic Face and Gesture Recognition,1996:38-44.
[9] A. Galata, N. Johnson, D. Hogg. Learningvariable-length Markov models of behavior[J]. Computer Vision and Image Understanding,2001,81(3):398-413.
[10] R. Polana, R. Nelson. Low level recognition of human motion[C]//Proceedings of IEEE Workshop Motion of Non-Rigid and Articulated Objects, Austin, TX,1994:77-82.
Key Techniques Research of Intelligent Monitoring System
CHENG Fang CHA Hao
(Electromagnetism Institute of Ocean, Naval University of Engineering, Wuhan 430033)
With the rapid growth of video surveillance requirements, manual monitoring can’t meet the needs of surveillance and the intelligentization of video surveillance systems gets more and more urgent. Starting from the theoretical level, the core of this paper is how to detect and track human body, extract human motion data, describe and understand human movement, to judge people’s intentions from video sequences.
video surveillance, intelligentization, core theory
2014年9月1日,
2014年10月17日
程芳,女,碩士研究生,研究方向:通信與信息系統。察豪,男,教授,研究方向:雷達總體技術。
TP391
10.3969/j.issn1672-9730.2015.03.025