鄭 浩 劉建芳 廖夢怡
1(平頂山學院計算機學院 河南 平頂山 467000)2(華中師范大學國家數字化學習工程技術研究中心 湖北 武漢 430079)
近年來,監控攝像已廣泛應用于銀行、超市、監獄、機場、停車場、加油站、救援、醫學檢測等場景,以保證人民生命及財產安全和社會穩定[1-2]。同時針對室內老年人異常行為檢測與識別方面也有較廣泛的應用,但由于室內照明變化、遮擋和相似背景其他對象等因素的干擾,對于異常行為的檢測和識別具有一定的挑戰性,學者針對現有監控識別系統在人體異常行為檢測和識別性能的提升開展了大量研究工作[3]。其中常見的狀態檢測和識別方法包括[4-5]:檢測和跟蹤、跟蹤前檢測和基于概率假設密度濾波器等多目標跟蹤技術。雖然學者們已經提出了許多以互斥方式處理照明變化、運動狀態變化等因素的干擾和局限,但當有障礙物遮擋和存在其他相似對象時對人體異常行為的檢測和識別問題仍未得到完全解決。其中,平均移位跟蹤算法[6]建立在密度外觀模型上,用于跟蹤靜止或移動物體,由于其結構簡單和計算量小等優點,已被廣泛應用于物體的實時檢測與識別。但其主要問題是當目標物體靠近或遠離相機的焦點時會導致跟蹤失敗。因此,文獻[7]提出了一種用于擁擠場景中快速異常檢測和定位的級聯式三維深層神經網絡,并對比了其余傳統光流法和社會力模型等方法的異常行為檢測效果,但該方法主要針對室外擁擠場景,且更側重于異常行為的檢測與定位。文獻[8]則針對該問題提出了一種社會網絡模型的檢測方法,利用局部社交網絡對全球社交網絡顯示場景中的動態對象進行檢測,并對所劃分的每個長方體中的人體行為踐行建模,最終實現異常行為的檢測與定位。文獻[9]提出了在跟蹤過程中自適應地調整跟蹤窗口的大小和目標對象的分布模式的改進連續自適應均值漂移(CAMS),但CAMS跟蹤方法在目標對象所在背景中有相似顏色的其他對象或是所要跟蹤的對象突然被障礙物遮擋時,其檢測和識別性能往往差強人意。文獻[10]提出了一種整合跟蹤和識別技術的背景減法算法,以檢測室內環境中的人體存在,并消除背景中相似顏色其他對象對人體異常行為檢測和識別的干擾,但當有障礙物遮擋時的跟蹤效果卻有待提升。
此外,在CAMS和Kalman的組合濾波器中,Kalman濾波器主要用于預測目標物體的可能位置,同時借助CAMS在預測區域中搜索和匹配目標物體,以實現目標對象的檢測、識別和跟蹤。如文獻[11]在CAMS無法正確估計目標物體的路徑時,引入卡爾曼濾波技術來跟蹤目標對象,以實現對目標對象的檢測和識別,然而卻受限于高斯假設,導致跟蹤效果欠佳。粒子濾波器因其所具有的非高斯、非線性等假設屬性而被應用于視覺對象跟蹤[12]。研究表明,粒子濾波器和CAMS的組合可以提高在線跟蹤的性能,但粒子濾波器使用轉換優先級作為提議分布,并且不考慮當前觀察到的數據,從而導致低概率區域中許多粒子的浪費[13]。
因此,提出了在CAMS基礎上,引入無味粒子濾波器(UPF)和校正背景權重直方圖(CBWH),整合稀疏表達的多技術混合跟蹤方法來提升室內人體異常行為檢測與識別系統的綜合性能。本文創新點總結如下:
(1) UPF技術可以有效解決CAMS跟蹤過程中目標對象被遮擋的問題,對目標進行有效跟蹤;
(2) CBWH技術可以在被跟蹤目標對象背景中具有與其顏色相近的其他對象時提高算法對目標對象路徑估計的準確性。
(3) 稀疏表達的引入可以針對人體異常行為進行有效檢測和識別,實現系統預期功能。
此外所提集成技術,對于檢測和跟蹤視頻序列中的對象具有良好的快速性和魯棒性。
所提出的混合算法人體異常行為檢測與識別系統框架如圖1所示。首先,將一系列視頻幀傳遞到顏色轉換模塊以分解幀中目標對象的顏色。若目標對象背景中具有與其相近顏色的其他對象時,則通過CBWH模塊從其背景干擾中恢復對目標對象的篩選,并確定可能的顏色分布,再調用CAMS模塊;否則直接調用CAMS模塊。此外,當目標對象的路徑被障礙物遮擋時,CAMS模塊將輸出到UPF模塊,進行目標對象路徑的正確估計,再通過基于稀疏表達的異常行為識別模塊最終以視頻形式顯示。

圖1 多技術人體異常行為檢測與識別系統框架
CAMS是一種目標跟蹤算法,它通過改變窗口的大小將循環中的Mean-Shift算法結合起來直到收斂[14]。初始化搜索窗口的位置和大小須包含視頻序列中目標對象的所在區域,通過對搜索窗口內每個像素的色調進行采樣,生成概率密度函數并存儲為直方圖目標對象的模型[15]。在跟蹤的下一階段,通過掃描所捕獲場景的每個像素來進行概率分布估計,最后計算該像素屬于目標對象的概率。若隱藏搜索窗口基于(x,y)坐標的初始位置,則搜索窗口第零,第一和第二階圖像矩陣可表示如下:
(1)
(2)
(3)
式中:p(x,y)表示圖像中位置(x,y)處的概率值,x和y分別表示矩形搜索窗口的坐標。在下一步中,搜索窗口中的中心位置(Cl)可利用下式計算:
(4)
同時,通過使用目標對象的縱橫比(Ar)來更新搜索窗口位置:
(5)
Width=2M00×ArHeight=2M00/Ar
(6)
CAMS跟蹤算法用于檢測和跟蹤視頻序列中的目標對象時,重復上述式(1)-式(6)直到達到所需的收斂狀態。但當目標對象具有與其背景中其他對象顏色相似時,算法跟蹤性能通常會變差。其次就是在視頻序列中所要跟蹤的對象出現遇到被遮擋的情況時,CAMS跟蹤算法就會失去對物體路徑的估計能力,從而導致跟蹤效果不佳。這兩個突出的問題在當前大多數跟蹤算法都較為突出。因此,引入CBWH和UPF方法來加以優化。
在對目標對象進行跟蹤時,檢測區域中通常會包括對象的背景信息,當目標和背景或背景中其他對象具有較高相關性高的情況下,對象的定位精度將降低,從而影響跟蹤準確性[16-17]。為最小化背景特征的對定位精度的影響,引入了CBWH技術來刻畫目標對象與背景之間的特征差異[18],以提高對目標物體的跟蹤精度,CBWH的數學模型可表示如下[19]:
(7)
(8)
(9)
(10)

濾波技術被廣泛用于建立模型,其主要目的是估計后續幀中目標對象的狀態。比較常見的濾波方案是采用序貫蒙特卡洛法,即粒子濾波器(Particle Filters,PF)對后續統計值進行估計和計算,其中包括平均值、模式、峰度和方差等。然而,PF對抽樣的合理性要求較高,若不能使用最新的可用信息來估計新的狀態值,則只有少數粒子可以存活。因此,采用UPF方法作為提議分布,將粒子盡可能多地移向高可能性區域,以便恰當地估計目標對象在被遮擋情況下的路徑。UPF算法第一階段涉及到的目標對象初始化狀態可表示如下:
(12)
(13)

(14)
(15)
(16)
(17)
(18)
通過最后步驟的計算,將生成來自已知提議分布的樣本粒子。其中每個樣品粒的權重已知,并進行歸一化處理。由此將CBWH和UPF集成到CAMS中,以構建一個可靠且高效的人體異常行為檢測和識別系統。
異常行為圖像檢測的稀疏表達流程如下:先針對訓練樣本建立查詢字典庫,再根據查詢字典庫進行稀疏重構樣本,最后通過比較重構稀疏度,對異常行為圖像進行檢測。圖像稀疏表達如圖2所示,其中x∈Rm×l表示原始特征數據,D∈Rm×n表示查詢字典庫,α∈Rl×n為系數矩陣,同時也是x的稀疏表示。

圖2 圖像稀疏表達
稀疏表達式如下:
(19)
式中:λ表示權重系數,‖α‖1表示系數矩陣的稀疏度。設定異常行為圖像檢測的特征數據為sampletest∈Rm,它在查詢字典庫上的表示系數為:
(20)
重構誤差φ為:
(21)
比較重構誤差與閾值,判定樣本sampletest是否為異常行為。
為驗證所提方案的可行性和有效性,基于Windows 10平臺使用MATLAB(R2016a)進行了實驗,該模型運行于6核i7-8700處理器,8 GB RAM的惠普690-076ccn臺式計算機上。其數據來源的視頻文件通過Canon HF R806百萬像素數碼攝像機采集,分辨率設置為350×320,速率32幀/秒。通過將視頻進行格式轉換后加載到傳統的CAMS算法和提出的跟蹤方案中以觀察其檢測和識別性能。
所提跟蹤檢測方案流程大致如下:首先基于幀間差異確定視頻序列中的圖像變化;其次通過在二值圖像上設置閾值來提取輪廓,以得到關于目標對象的特征向量,并利用目標對象周圍的統計像素值來計算顏色直方圖;最終通過反投影恢復原始對象的顏色概率分布。當跟蹤目標對象被遮擋時,UPF模塊利用軌跡歷史來預測下一組幀中的對象的位置;當跟蹤目標對象在其背景中具有相似顏色的其他對象時,CBWH模塊用于提供信息使CAMS算法聚焦于目標對象而非背景。實驗主要設置無障礙遮蔽、有障礙物遮蔽和背景中存在相似顏色其他對象三種場景下所提方法與傳統CAMS方法的對比案例,其具體實驗步驟和結果如下。
本組實驗通過使用一組沒有任何障礙物遮擋的視頻文件,分四次對所提方法和傳統CAMS算法的檢測和識別性能進行檢驗。圖3為使用提方法和傳統CAMS方法的一組人體運動檢測和跟蹤結果。

圖3 分別在50,150,250和350幀進行人體運動跟蹤 ((a)-(d)為傳統CAMS方法;(e)-(h)為所提方法)
從圖3所示的結果可以看出,所提多技術跟蹤策略能準確估計從初始幀(圖3(e))到最終幀(圖3(h))的人體運動路徑。由于沒有障礙物遮擋,CAMS算法也正確地估計了人體運動的路徑(如圖3(a)-(d)。在所有幀中,所提方法和CAMS在沿X和Y軸對目標對象路徑估計方面的性能如圖4所示。可以看出所提方法具有與傳統CAMS方法相似的跟蹤性能。在四個不同實驗中,通過使用均方誤差(MSE)來對所提方法和CAMS方法沿兩X和Y軸對目標對象路徑估計的準確性進行比較,其結果如表1所示。

(a) 沿X坐標

(b) 沿Y坐標圖4 無障礙路徑估計結果

試驗數量CAMS法MSE所提方法MSEX軸Y軸X軸Y軸10.250.230.270.2220.190.170.140.1530.230.150.140.1840.240.230.190.13平均值±標準0.227± 0.0230.195± 0.0530.185±0.0350.170±0.063
通過計算四次實驗結果可得,提方法沿X軸和Y軸的平均估計誤差分別為0.185%和0.170%,而CAMS方法沿X軸和Y軸的平均估計誤差分別為0.227%和0.195%。從實驗結果可以看出,傳統的CAMS方法在沒有障礙物的情況下能夠正確估計視頻序列中目標對象的路徑。
本組實驗以一系列面部視頻為實驗對象,引入尺寸約為210 mm×297 mm的A4白紙作障礙物對目標對象進行遮擋以比較所提方法和傳統的CAMS算法對目標對象的跟蹤性能,其實驗結果表明,提出的混合跟蹤方法因引入無味粒子濾波器的預測能力,可以在目標對象被遮擋或者恢復時保持較好的跟蹤性能。針對傳統方法和所提方法,分別沿X和Y軸對目標對象路徑進行了估計,其結果如圖5所示。

(a) 沿X坐標

(b) 沿Y坐標圖5 目標對象被遮擋時路徑估計結果
由圖5可知,在有遮擋場景中提出的方法能夠正確地估計并跟蹤目標對象的路徑。傳統CAMS方法在無遮擋時表現良好,但當完全遮擋時,在沿X軸(280.2,105)丟失了物體路徑的完整軌跡。沿Y軸跟蹤效果與X軸相似,丟失軌跡的處為(269.2,87.8)。進一步分析兩種方法的平均跟蹤精度,結果如表2所示。

表2 所提出方法與CAMS算法在有遮擋情況下的跟蹤結果
根據表2中所示的目標對象路徑估計結果,可以觀察到所提方法在X和Y軸上實現了82.8%的平均估計精度,而傳統的CAMS方法由于障礙物的遮擋,其平均估計精度僅為55.37%。該結果也說明UPF技術的引入,對系統在存在障礙物遮擋的場景中對目標對象的跟蹤和識別性能具有一定的改進能力。
實驗所用UMN數據集的包含3個不同擁擠場景,分別采用3個不同場景對異常行為進行檢測。如圖6所示,(a)-(c)為正常幀,(d)-(f)為存在異常行為的異常幀。采用所提算法與傳統光流法和社會力模型等方法分別在三個情景中進行比較,其中,傳統光流法和社會力模型的結果參考自文獻[20]。實驗結果通過繪制接收者操作特性曲線(receiver operating characteristic curve,ROC)來表示,如圖7所示。

圖6 公開數據集UMN中正常幀(a-c)和異常幀(d-f)

圖7 不同方法在公開數據集UMN中的異常探測ROC曲線
圖7中,S1、S2、S3分別代表UMN公開數據集中的三個不同場景,從圖中可以看出,在不同場景下,所提方法都較傳統光流法和社會力模型等方法有更好的異常行為識別效果。這是因為提出的方法為最小化背景特征的對定位精度的影響,引入了CBWH技術來刻畫目標對象與背景之間的特征差異,提高了對目標物體的跟蹤精度。
本節實驗目標對象背景中存在與其相似的其他對象,主要檢驗傳統CAMS方法和所提方法在老年人摔倒等異常行為方面的檢測和識別效果。實驗結果如圖8所示,(a)-(c)為傳統CAMS算法,(d)-(f)為所提方法。盡管背景中存在與其跟蹤目標相似顏色的其他對象,算法也能保持對視頻序列中目標對象的良好跟蹤效果,而傳統CAMS方法卻不能較好地檢測和識別該異常行為。

圖8 傳統CAMS算法和所提出算法在50幀、100幀和150幀處當背景中存在其他類似物體時對異常行為的檢測情況
此外,分析所提方法和傳統的CAMS算法分別沿X和Y軸對移動小球進行路徑估計情況,其結果如圖9所示。可以看出,無論背景中是否存在與目標對象顏色相近的其他物體,所提方法都能夠正確地估計目標物體沿X和Y軸的路徑。CAMS算法僅能在開始階段具有較好的跟蹤效果,而分別在沿X軸(77.3,135.5),沿Y軸(39.5,193.7)處丟失對目標對象完整路徑的估計。分析兩種方法沿X和Y軸對目標對象的跟蹤的MSE,其結果如表3所示。

(a) 沿X坐標

(b) 沿Y坐標圖9 當目標對象背景中有相似顏色的其他物體時的路徑估計結果

試驗數量CAMS法MSE所提方法MSEX軸Y軸X軸Y軸10.580.460.170.1520.340.440.130.0930.530.560.210.1540.550.640.220.21平均值±標準0.5±0.1230.525±0.1430.182±0.0360.15±0.032
根據表3中對目標對象路徑估計的統計結果顯示,所提方法在X和Y軸上的平均估計精度為83.4%,而由于背景中與目標對象顏色相似的其他對象的存在,傳統的CAMS方法估計精度僅為48.75%。所提方法由于引入了CBWH技術,使得跟蹤算法能夠從相似顏色對象中準確檢測并跟蹤目標對象,從而實現系統跟蹤性能的改進。
此外,進一步將所提方法與CAMS引導粒子濾波器(CAMS+PF)和CAMS引導卡爾曼濾波器(CAMS+KF)進行運動跟蹤的性能評估比較,以處理粒子所花時間為對比指標,其結果如圖10所示。

圖10 同時估計目標物體路徑時處理粒子所花費的時間對比
三次實驗結果顯示,CAMS+PF和CAMS+KF處理粒子以跟蹤目標所需平均時間分別為0.09 s和0.088 2 s,所提方法用時最短,為0.065 s。這再次說明所提對象跟蹤方法相對于現有方法有較強的魯棒性和較高的精確性,更具有快速估計目標對象的路徑的優點。
針對室內人體異常行為檢測與識別問題,集成了CAMS、CBWH和UPF技術,提出了一種對目標對象檢測與識別的混合算法,同時利用三種不同場景,對比了所提算法與傳統CAMS在路徑跟蹤和目標檢測方面的性能比較。實驗結果表明,所提方法在有障礙物遮擋和目標顏色與背景中有相似對象的情況下,具有更好的識別和跟蹤性能,對于提高室內人體異常行為的檢測與識別的準確性和快速性具有重要意義。
但目前研究大多局限于單個攝像機的目標對象跟蹤與識別,對于復雜場景下多攝像機中目標對象的跟蹤與識別問題仍亟待解決。整合CAMS、CBWH和UPF三種技術,提出針對有障礙物遮擋和背景中具有相似顏色目標對象的目標檢測與識別方法,將有望提高在擁擠場景下多個攝像機中目標對象跟蹤與識別的快速性和準確性。