王思聰 陳 瑩 包智雄 于子皓 葛非凡 馬元驊
(江南大學(xué) 無錫 214122)
近年來,智能視頻監(jiān)控系統(tǒng)作為多學(xué)科交叉的前沿?zé)狳c,引起了世界范圍內(nèi)越來越多研究者的興趣。針對基于視頻的人群行為異常檢測,國內(nèi)外學(xué)者對此做了很多的相關(guān)工作,也取得了豐碩的成果。
早期的人群異常行為識別,都是基于運動物體檢測。比如Nikos Paragios等[1],利用類似高斯混合模型的概率方法建立三種背景模型,對于每一幀視頻圖像都會計算三個不同的運動檢測模型,比較三個圖像就可以比較準(zhǔn)確地提取出運動的前景(人群)。
又比如Viola 等[2]中提出的一種基于靜態(tài)物體識別的統(tǒng)計算法。該算法對人體區(qū)域圖像提取harr-like 特征然后采用boost 增強學(xué)習(xí)方法訓(xùn)練基于決策樹的cascade 級聯(lián)分類器,使用滑動窗口遍歷圖像并判斷截取的子區(qū)域是否為檢測目標(biāo),但是該算法不能用于運動物體檢測。
近年來,隨著深度學(xué)習(xí)算法——卷積神經(jīng)網(wǎng)絡(luò)(CNN)的發(fā)展,能夠提取更全面更抽象的特征,提高特征的表征力[3~5]利用卷積神經(jīng)網(wǎng)絡(luò)估計場景中人群密度也已經(jīng)成為了學(xué)界新的熱點。但是卷積神經(jīng)網(wǎng)絡(luò)因其計算量大,難以適應(yīng)實時性的要求,故在現(xiàn)實中應(yīng)用也相對較少。
總體來看,視頻的人群異常行為的檢測和分析方面的研究成果雖然比較多,但是較難適用于多拍攝角度下得到的視頻識別。其難點在于:
1)監(jiān)控視頻受攝像頭位置、拍攝角度、光照、因透視而形成的形變等多種因素的影響,為視頻分析帶來困難。
2)目前既有的各種人群異常行為識別算法,對于不同拍照角度帶來的透視問題以及相應(yīng)的透視誤差缺乏相應(yīng)的討論。
3)人在視頻中位置、姿勢、衣著等形態(tài)變化很多。且在人群密集場景,人和人之間存在大量重疊。
然而實際的生活中卻經(jīng)常出現(xiàn)涉及這方面情況,如繁華的公共場所經(jīng)常會吸引較多的人,且攝像頭拍攝的角度也不固定。所以,隨著社會經(jīng)濟建設(shè)的不斷提高公共安全事件的發(fā)生概率也越來越高,智能視頻人群異常行為檢測必然會在人們的日常生活中產(chǎn)生更加重要的作用。
關(guān)于運動目標(biāo)的檢測,常用的目標(biāo)檢測方法有幀差法、背景減法、光流法等。此處,本文使用Lucas-Kanade[6]光流算法,引入圖像局部區(qū)域光流值一致的約束條件,利用加權(quán)最小二乘法進行近似計算光流值。
圖像中的特征檢測是進行圖像內(nèi)容特征描述的前提,行人特征點檢測屬于局部特征檢測,本文采用了Shi-Tomasi算法[7]。

圖1 算法框架圖
Shi-Tomasi 方法運用平移運動來估計塊的運動隨著圖像幀的推進,圖像強度改變模式會一種復(fù)雜的方式變化,這個方法是通過確定前后兩個幀圖像之間的相似性,來估計圖像間的運動。
異常檢測過程中,將待檢測視頻基于訓(xùn)練所得的冗余字典進行稀疏分解,當(dāng)場景內(nèi)為正常運動時,其特征能夠被冗余字典內(nèi)的原子稀疏表示,因而得到的系數(shù)是稀疏的;當(dāng)場景內(nèi)存在異常運動時,因該類特征不包含在冗余字典中,因此將得到非稀疏的表示結(jié)果,據(jù)此采用稀疏重建代價(Sparse Representation Cost,SRC)[9]對重構(gòu)稀疏進行判斷,即可檢測場景中是否存在異常事件。
在現(xiàn)實生活中常見的監(jiān)控場景中,監(jiān)控攝像頭的拍攝視角往往與水平地面成一定的角度,而不同的拍攝角度會帶來畫面中行人不同程度的透視問題。攝像設(shè)備位于高處,遠處的物體雖然和近處的物體實際上大小相等,但是在圖像中近處的物體占圖像比更大,這就是透視現(xiàn)象。如圖2 所示,監(jiān)控設(shè)備的拍攝視角與水平地面之間的夾角越小,則透視現(xiàn)象越嚴(yán)重。這對于場景中個體的表征帶來了一定的困難[8]。

圖2 拍攝視角與透射失真
因此結(jié)合監(jiān)控設(shè)備在場景中位置進行特征提取可以顯著提升異常檢測算法的檢測性能。為此,有必要使用在空間上非重疊的網(wǎng)格結(jié)構(gòu)將監(jiān)控畫面進行分割,從每個網(wǎng)格中提取需要的特征信息。
然而,若采用等尺寸的網(wǎng)格結(jié)構(gòu),而不考慮它們相對于監(jiān)控設(shè)備的具體位置,將會導(dǎo)致計算的偏差,難以消除透視誤差,因此等尺度網(wǎng)格不適合處理監(jiān)控設(shè)備的位置及拍攝視角的問題。
通過前期對其他文獻的對比分析可知,在中高密度的人群中進行個體特性的識別,計算量大,耗時長,因此,尺度分塊結(jié)構(gòu)中每個單元格的大小由監(jiān)控圖像的尺寸決定,從監(jiān)控圖像的頂頂端開始,令yk為垂直方向上第k 個單元格的高度,則與其在垂直方向相鄰的單元格即第k+1 個單元格的高度為

其中,α ≥1 為網(wǎng)格增長率,從而使第k+1 個單元格的尺寸大于第k 個單元格的尺寸,α 值的大小與監(jiān)控設(shè)備的拍攝視角有關(guān),攝像機與水平方向夾角越小,則α 值越大;攝像機與水平方向夾角越大,則α 值越小。當(dāng)拍攝視角與水平方向夾角為90°時,α 的值為1,即所有單元格尺寸相同。因此,監(jiān)控圖像的垂直高度Y 可通過每個單元格的遞歸垂直維度表示如下。

其中,ny為監(jiān)控圖像在垂直方向單元格的數(shù)量。y0最小單元格的垂直高度當(dāng)確定ny、y0的值之后,如圖3(a)所示,使用公式y(tǒng)k+1=αyk計算以y0為起始最小單元格高度,在鉛垂方向Y 上創(chuàng)建的ny個多尺度單元格的垂直高度,隨后按照相似的方法確定單元格在水平方向上的尺寸。設(shè)X 為監(jiān)控圖像的水平寬度,令x0為最小單元格的水平寬度,從監(jiān)控圖像的頂部邊界開始,在X/2 的位置上即監(jiān)控圖像的中部,沿水平方向填充整數(shù)個相同尺寸的單元格,如圖3(b)所示。隨后使用相同的單元格增長率增加垂直方向上單元格的水平尺寸:

若單元格填充后水平方向上還有未填滿的空隙,則在單元格水平方向上繼續(xù)增加像素,直到在水平方向上單元格完全覆蓋監(jiān)控圖像的X/2 到X。填充間隙之后的圖像如圖3(c)所示。隨后采用對稱填充的方式去填充監(jiān)控圖像的0到X/2部分。用cell(i,j)表示位于第i 行第j 列的單元格,第一行網(wǎng)格由于尺寸最小,每個單元格中所包含的特征信息較少,且實驗表明其會經(jīng)常觸發(fā)錯誤警報。因此舍棄第一行單元格結(jié)構(gòu),如圖3(d)所示。由此得到完整的多尺度分塊結(jié)構(gòu)。

圖3
在多尺度分塊結(jié)構(gòu)的基礎(chǔ)上,計算每個單元格的前景占用量。在前景圖像上,在多尺度分塊的單元格cell(i,j)的基礎(chǔ)上結(jié)合時間信息,定義對應(yīng)的三維時空單元格:

其中mx和my分別為單元格cell(i,j)的水平和垂直尺度mt為視頻幀數(shù)。隨后通過統(tǒng)計每個時空單元格ui,j中前景像素的數(shù)量來計算被檢測目標(biāo)的大小以及在場景中持續(xù)運動的時間。對于每個時間單元格ui,j來計算其前景占用F(i,j)∈R

其中,N=mx×my×mt為ui,j中的像素個數(shù)。Bt表示t時刻的二進制掩碼。
最后,提取單元格中的目標(biāo)塊區(qū)域。將前景占用F(i,j)高于閾值ThF的時空單元格所對應(yīng)的單元格視為興趣塊。

此處,令ThF=0.1。即單元格中至少有10%的像素屬于背景,對應(yīng)的單元格視為活動塊區(qū)域。在后續(xù)的特征提取中,只分析與活動塊區(qū)域相關(guān)的特征信息。該操作有助于濾除干擾判斷的特征,減少算法的處理時間,降低誤報率。為了濾除背景噪聲,只保留活動塊中的運動粒子點,去除非活動塊中的運動粒子。從而構(gòu)造出每幀圖像的運動點集。f 時刻的目標(biāo)塊cell(i,j)中的運動粒子點集kt(i,j)表示為:

需修正運動速度大小以補償透視問題帶來的計算誤差:

其中,|Vtp(i,j)|表示t時刻目標(biāo)塊cell(i,j)中第p個運動粒子的運動速度大小,Xkp,Xk-1p,Ykp,Yk-1p分別為該運動粒子在t 時刻和t-1 時刻的橫縱坐標(biāo)。α 為構(gòu)建多尺度分塊結(jié)構(gòu)的網(wǎng)格增長率,ny為多尺度分塊結(jié)構(gòu)垂直方向的單元格數(shù)。
對群體的群體性通過數(shù)學(xué)分析進行了合適的表征,得到了群體性指數(shù):

其中,ωL為正則化因子,用來減緩個體集群性指數(shù)隨路徑L 的增長而呈指數(shù)爆炸的效應(yīng)。CL(kti,ktj)表征從粒子點kti到粒子點ktj的長度為L的所有運動路徑行為的一致性。
使用一個全局方向描述子,用來提取全局層面的群體運動模式,并構(gòu)建了群體性方向指數(shù),群體性方向指數(shù)用以下的公式進行定義:

?θmean(i,j)和?θmax(i,j)分別表示t 時刻粒子點(i,j)的方向和所有粒子平均速度方向的差值和t時刻粒子點(i,j)的速度方向與所有粒子最大速度方向的差值。是?θmean(i,j)和?θmax(i,j)的均方根,用來表征粒子點(i,j)的方向無序度的平均離散值,ρ 為歸一化因子,作用為使Direction(i,j)的值保持在0~1之間。
計算塊內(nèi)粒子的方向-群體性指數(shù)DC(i,j):

計算塊內(nèi)運動粒子的速度能量特征Espeed(i,j):

其中,Nij為目標(biāo)塊cell(i,j)中的運動粒子數(shù),最后,將目標(biāo)塊中提取的方向-群體性特征與速度能量特征組成特征點對

聯(lián)合表征群體運動模式。
攝像機的監(jiān)控區(qū)域由于距離攝像機的距離的遠近不同而產(chǎn)生近大遠小的情況。為了減少深度信息丟失所帶來的影響,本文除了使用上述的多尺度分塊模型來減小透視問題帶來的誤差處理之外,還采用線性了內(nèi)插權(quán)值的方式輔助進行圖像的透視矯正。
線性內(nèi)插權(quán)值的透視矯正方法,具有很強的適應(yīng)性,它的實時性高,并且在實際應(yīng)用中無需對現(xiàn)場的環(huán)境進行測量。圖像劃分為四個網(wǎng)格區(qū)域,在每個網(wǎng)格區(qū)域的入口和出口統(tǒng)計參考人物的最小外接正矩形的寬度與高度。通過區(qū)域中的參考人物的面積變化率,可求得區(qū)域的內(nèi)插權(quán)數(shù)的值。

圖4 線性內(nèi)插權(quán)值的透視效應(yīng)矯正
如圖4所示,網(wǎng)格區(qū)域abcd中,面積變化率為

其中,(h1,w1)、(h2,w2)分別為參考人物在入口和出口統(tǒng)計的高度與寬度。
本文將原始監(jiān)控空間人工的劃分為4 個單元,如圖5所示,這4個單元為經(jīng)過多尺度分塊之后,處于距離監(jiān)控屏幕較遠的位置。以單元為對象進行后續(xù)的線性內(nèi)插權(quán)值的透視矯正。
對于上述劃分的四個區(qū)域,分別內(nèi)插四個權(quán)值K1,K2,K3,K4首先提取單人行走的活躍區(qū)塊的特征點DCE(i,j)為特征點,通過統(tǒng)計回歸的方式,計算出這四個權(quán)值的值。圖6 可以看出矯正前與矯正后的明顯差異。橫坐標(biāo)代表幀數(shù),縱坐標(biāo)代表DCE(i,j)點個數(shù)。

圖5 線性內(nèi)插權(quán)值劃分的單元格
圖6 (a)中可以看出隨著行人逐漸遠離攝像機,DCE(i,j)點個數(shù)在逐步減少。通過線性擬合得到點數(shù)減少關(guān)系,就能夠得到這內(nèi)插的四個權(quán)值。圖6(b)中可以看出,通過內(nèi)插這四個權(quán)值的矯正后,單人的DCE(i,j)點數(shù)基本保持在一個穩(wěn)定的范圍內(nèi)。

圖6 矯正前后的特征點對
通過圖6(a)、圖6(b)可以看出,線性內(nèi)插權(quán)值的透視效應(yīng)矯正能夠快速有效地矯正透視畸形帶來的影響。
提取正常人群運動視頻的DCE(i,j)特征,通過K-SVD[14]方法學(xué)習(xí)訓(xùn)練建立基于DCE(i,j)特征的冗余字典,使得該字典內(nèi)包含正常視頻所提取的DCE(i,j)特征,基于該字典進行稀疏分解時,可以得到稀疏的重構(gòu)系數(shù)。其中稀疏重構(gòu)系數(shù)x*計算公式如下。

其中,y 為測試集中的樣本,Dx為正常字典。‖ ‖x1為L1范數(shù),λ為求解過程中所設(shè)定的一個系數(shù)。
異常檢測過程中,將待檢測視頻基于訓(xùn)練所得的冗余字典進行稀疏分解,當(dāng)場景內(nèi)為正常運動時,其特征能夠被冗余字典內(nèi)的原子稀疏表示,因而得到的系數(shù)是稀疏的;當(dāng)場景內(nèi)存在異常運動時,因該類特征不包含在冗余字典中,因此將得到非稀疏的表示結(jié)果,據(jù)此采用稀疏重建代價(Sparse Representation Cost,SRC)Sw[9]。
對重構(gòu)稀疏進行判斷,即可檢測場景中是否存在異常事件。其中Sw的計算公式如下。

其中λ 與稀疏分解過程中設(shè)定的值一樣,Sw的值越大表示此樣本稀疏重構(gòu)的代價越高,則證明此樣本異常的可能性越大。
為了檢測本文所述方法在不同視角下的識別效果,本文選擇在PETS2009-S3 數(shù)據(jù)集進行試驗。PETS2009-S3 數(shù) 據(jù) 集[13]提 供view001-view004 等4個不同拍攝視角的監(jiān)控視頻。根據(jù)拍攝視角的不同,網(wǎng)格增長率序列α 分別設(shè)置為αview001=1.12,αview002=1.13,αview003=1.15,αview004=1.20。由于該數(shù)據(jù)集只提供幀級別的數(shù)據(jù),所以對本文對至少有一個網(wǎng)格被檢測為異常,則當(dāng)前幀判定為異常幀。
為了評估人群異常行為檢測算法的實用性,本文利用ROC(receiver operating characteristic curve)下的面積AUC(area under ROC curve)作為評判標(biāo)準(zhǔn),AUC 通常介于0.5~1,其值越大說明算法性能越好。其中ROC 曲線是以真陽性率tpr 為縱坐標(biāo),假陽性率fpr 為橫坐標(biāo)繪制的曲線,利用ROC 曲線能很容易觀察出算法的分類識別性能[10]。

圖7 PETS2009-S3-view001檢測結(jié)果

圖8 PETS2009-S3-view002檢測結(jié)果

圖9 PETS2009-S3-view003檢測結(jié)果

圖10 PETS2009-S3-view004檢測結(jié)果
通過對數(shù)據(jù)庫PET2009-S3 中4 個不同視角下的場景進行的人群異常行為的檢測,首先隨機選取50 幀作為訓(xùn)練集,50 幀視頻作為測試集。然后對本文算法進行驗證,每種場景的ROC 曲線如圖11所示。
圖11 表明:本文算法對不同場景能夠很好地進行人群異常行為檢測。同時,本文還在UMN 數(shù)據(jù)集上對光流法(Optical Flow)傳統(tǒng)社會力模型(SFM)[9]、能量模型(BM)[10]、Spare(weight)+LSDS[11]不同的算法準(zhǔn)確率進行了對比,如表1 所示,本文模型在三個場景的平均準(zhǔn)確率為95.3%,相較于光流法(83.50%),傳統(tǒng)的社會力模型(85.44%)和能量模型(90.14%),Spare(weight)+LSDS(95.23.01%)具有更好的識別準(zhǔn)確率。

圖11 3種場景的異常檢測ROC曲線

表1 本文算法與三種不同算法識別準(zhǔn)確率的對比
本文介紹了一種用于解決設(shè)備拍攝角度過低帶來的透視變形問題,結(jié)合LK 光流法,shi-tomas角點檢測法,提出了一種基于多尺度分塊方向-群體性模型的群體異常行為監(jiān)測方法,首先建立起尺寸上從上至下遞增的多尺度分塊結(jié)構(gòu),提取多尺度分塊結(jié)構(gòu)中包含足夠前景運動信息的目標(biāo)塊。隨后提取目標(biāo)塊中的方向-群體性特征,并利用線性內(nèi)插權(quán)值法對透視誤差進行了進一步的矯正。最后利用稀疏表示的人群異常檢測算法。實驗結(jié)果顯示,該算法在檢測人群異常事件時具有比較理想的檢測結(jié)果,與其他算法相比性能更好。