999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度卷積神經(jīng)網(wǎng)絡(luò)的人群密度估計方法

2017-08-12 15:45:56譚智勇袁家政劉宏哲
計算機(jī)應(yīng)用與軟件 2017年7期
關(guān)鍵詞:特征方法

譚智勇 袁家政,2 劉宏哲 李 青

1(北京市信息服務(wù)工程重點(diǎn)實驗室 北京 100101)2(北京成像技術(shù)高精尖創(chuàng)新中心 北京 100048)

?

基于深度卷積神經(jīng)網(wǎng)絡(luò)的人群密度估計方法

譚智勇1袁家政1,2劉宏哲1李 青1

1(北京市信息服務(wù)工程重點(diǎn)實驗室 北京 100101)2(北京成像技術(shù)高精尖創(chuàng)新中心 北京 100048)

人群密度自動估計作為人群控制和管理的方法,是當(dāng)前視頻監(jiān)控中的一個重要研究領(lǐng)域。現(xiàn)有的方法通過提取復(fù)雜的特征來進(jìn)行人群密度估計,由于人群遮擋、透視效果和環(huán)境復(fù)雜等條件限制,難以滿足實際應(yīng)用中的需求,而深度卷積神經(jīng)網(wǎng)絡(luò)在特征學(xué)習(xí)上具有較強(qiáng)的能力。提出了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)DCNN(Deep Convolution Neural Network)的方法來進(jìn)行自然場景下人群密度估計。首先,為了消除攝像機(jī)透視效果,以圖像中行人身高作為尺度基準(zhǔn),將圖像分成多個子圖像塊。其次,設(shè)計一種新的深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),利用多種不同的卷積核提取人群圖像的深層次特征進(jìn)行人群密度估計。實驗結(jié)果證明該方法在自然場景下人群密度估計具有良好的穩(wěn)定性和魯棒性。

人群密度估計 圖像分塊 深度卷積神經(jīng)網(wǎng)絡(luò)

0 引 言

隨著經(jīng)濟(jì)的發(fā)展,人們的社會活動越來越多,各種公共場所如超市、地鐵、火車站、體育館等地常常有著大量的人群,因而容易發(fā)生踩踏群傷事故。人群分析已經(jīng)成為人群檢測和智能視頻監(jiān)控的一個重要研究課題。特別是人群密度估計成為人群安全控制和管理研究的重點(diǎn),它能夠自動監(jiān)測公共場所中人群的大小,幫助工作人員很好地進(jìn)行管理;此外,它在預(yù)防過度擁擠和檢測潛在的安全問題上有著極其重要的作用。

在自然人群場景中的人群密度估計存在以下幾個難點(diǎn):第一,攝像機(jī)的透視效果,造成人群遠(yuǎn)近尺度不同;第二,由于人群過度擁擠遮擋,無法有效檢測人群的大小;第三,在自然場景下,環(huán)境復(fù)雜、光照變化大,視頻圖像中存在大量噪聲。所以,在自然場景下特別是高密度人群的場景下的人群密度估計仍是一個極具挑戰(zhàn)的任務(wù)。

為解決人群密度估計存在的問題,國內(nèi)外學(xué)者提出了許多的方法。目前人群密度估計的相關(guān)方法大致可以分為兩類:基于像素的和基于紋理。

基于像素的方法,通過前景區(qū)域[1, 2, 4]、邊緣直方圖[3, 7]、邊界統(tǒng)計[1, 3, 7]等進(jìn)行人群密度估計。如Davies等[1]提出了通過圖像處理的方法來進(jìn)行人群密度估計。該方法假設(shè)人群密度和前景像素存在一定的線性關(guān)系,利用背景建模、前景提取和邊緣檢測等方法計算人群像素總數(shù),然后通過回歸擬合估計人群密度。這種方法被證明簡單有效,容易實現(xiàn)。但實際中,卻只能用在一些特殊的環(huán)境下,像車站這種高密度的環(huán)境下則由于人群的過度遮擋而無法使用。Hussain等[10]通過背景去除和邊緣檢測提取人群特征輸入到訓(xùn)練好的BP神經(jīng)網(wǎng)絡(luò)中估計人群數(shù)目從而實現(xiàn)人群密度估計。該方法同樣在高密度環(huán)境下,由于人群的過度擁擠遮擋,性能表現(xiàn)明顯下降。

基于紋理的方法則是利用不同的紋理描述子如灰度共生矩陣GLDM(Gray Level Dependence Matrices)[4,9,13,24]、局部二值模式LBP(Local Binary Pattern)[12,14,16]等對人群圖像提取紋理特征,從而實現(xiàn)人群密度估計。由于不同的人群密度圖像有著不同的紋理特征,當(dāng)人群密度比較高時,人群圖像的紋理表現(xiàn)為細(xì)紋理;反之,當(dāng)人群密度較低時,人群圖像的紋理表現(xiàn)為粗紋理。Marana等[2]針對高密度下的人群提出了基于GLDM的人群密度估計方法,該方法用灰度共生矩陣提取人群特征,通過自組織神經(jīng)網(wǎng)絡(luò)對這些特征分類實現(xiàn)人群密度估計。然而,該方法在人群密度較低時容易受到背景噪聲的干擾,且精度只有81.88%。為了更好地提高人群密度估計性能,Wu等[4]首次提出利用支持向量機(jī)SVM(Support Vector Machine)對提取的GLDM進(jìn)行分類。Li等[5]提出了一種多尺度分析和SVM結(jié)合的方法來進(jìn)行人群密度估計。Ma等[5]對LBP進(jìn)行改進(jìn)提出了高級局部二值模式ALBP(Advanced Local Binary Pattern),該方法利用ALBP表示人群的紋理特征,通過將ALBP輸入到SVM中實現(xiàn)人群密度估計。Zhang等[8]提出了拼接圖像差分特征AMID(Accumulated Mosaic Image Difference)表示場景內(nèi)人群運(yùn)動模式進(jìn)行前景檢測,同樣通過使用SVM對人群圖像特征向量識別分類從而分析人群密度。這類方法在特定的環(huán)境中,紋理描述子的效果各不一樣,基于SVM表現(xiàn)出來的性能還是有所不足。

近年來,深度學(xué)習(xí)框架在計算機(jī)視覺領(lǐng)域取得不錯的效果。LeCun等[11]早在1998年就提出了經(jīng)典的LeNet網(wǎng)絡(luò)。而現(xiàn)在卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolution Neural Network)嘗試對原有CNN網(wǎng)絡(luò)架構(gòu)進(jìn)行了改善。Sermanet 等[14]引入了新的深度學(xué)習(xí)的方法通過學(xué)習(xí)和預(yù)測對象邊界來定位對象。并獲得了2013年ImageNet計算機(jī)視覺識別挑戰(zhàn)賽(ILSVRC2013)圖像定位冠軍。Zhang等[7]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的不同場景下的人群計數(shù)的方法,該方法通過交替學(xué)習(xí)人群密度和人群數(shù)目方法來訓(xùn)練人群CNN模型,從而實現(xiàn)人群計數(shù)。現(xiàn)在CNN已經(jīng)成功地應(yīng)用在人臉檢測[15]、圖像分割[16]、語音檢測[17]等領(lǐng)域。大型圖像數(shù)據(jù)集如ImageNet和基于集群的大規(guī)模分布式深度學(xué)習(xí)的發(fā)展,使得CNN成為計算機(jī)視覺領(lǐng)域的最有效的工具。

考慮到CNN在圖像特征表示上巨大優(yōu)勢,本文提出了一種在自然場景下基于深度卷積神經(jīng)網(wǎng)絡(luò)的人群密度估計的方法。該方法將分為圖像分塊預(yù)處理和設(shè)計深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)兩部分。其中第一部分是圖像分塊預(yù)處理。利用圖像中行人身高作為尺度基準(zhǔn)制作透視圖,根據(jù)場景中實際的面積將圖像分成多個圖像子塊并進(jìn)行標(biāo)記,作為DCNN的訓(xùn)練樣本。采用這種局部分析的方法不僅有效地克服了攝像機(jī)的透視效果,同時降低了對訓(xùn)練樣本的依賴性,第二部分是設(shè)計一種適合人群密度估計的DCNN。通過多層卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),深度提取圖像的高層特征,通過特征學(xué)習(xí)避免了復(fù)雜的特征設(shè)計過程。最后采用Softmax回歸模型對提取的圖像高層特征進(jìn)行人群密度估計。將卷積神經(jīng)網(wǎng)絡(luò)和Softmax回歸模型結(jié)合起來分析、檢測動態(tài)場景下的人群密度,使該方法適應(yīng)性較強(qiáng),具有較好的泛化能力。

1 深度卷積神經(jīng)網(wǎng)絡(luò)簡介

DCNN是一種有監(jiān)督的深度學(xué)習(xí)模型,它一種是將卷積神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)網(wǎng)絡(luò)相結(jié)合而產(chǎn)生的新型卷積神經(jīng)網(wǎng)絡(luò)。CNN的核心思想是局部感受野、權(quán)值共享、時間或空間亞采樣。CNN主要由卷積層和全連接層組成,其中每個特征圖都由前一層的網(wǎng)絡(luò)輸出結(jié)果與當(dāng)前層學(xué)習(xí)獲得卷積核進(jìn)行卷積運(yùn)算產(chǎn)生,而最后是全連接層,輸出層是一個Softmax分類器,最后一層全連接隱層的輸出值為所提取的輸入樣本的高層特征,通過外部標(biāo)簽對網(wǎng)絡(luò)有監(jiān)督的學(xué)習(xí),這樣保證了通過CNN所提取的特征具有較好的不變性。

1.1 卷積層(Convolution Layer)

卷積層中利用上一層網(wǎng)絡(luò)輸出的特征圖和當(dāng)前卷積層學(xué)習(xí)獲得的卷積核進(jìn)行卷積操作,對卷積操作后結(jié)果進(jìn)行加權(quán)求和,然后經(jīng)過非線性函數(shù)處理從而得到這一層的特征圖。這樣每個神經(jīng)元可以提取到輸入圖像的多種結(jié)構(gòu)特征,如方向、線段、端點(diǎn)、角點(diǎn)等,卷積操作計算如公式(1)所示:

(1)

設(shè)當(dāng)前層包含M個特征圖,卷積操作之后的特征圖M大小如公式(2)計算所得:

(2)

式中,Mn和Mn-1表示當(dāng)前層的特征圖和上一層的特征圖,Kn表示當(dāng)前層的卷積核大小,Sn表示當(dāng)前層的卷積核的步長,p表示對當(dāng)前層添加的邊界大小。

1.2 最大池化層(Max-pooling Layer)

最大池化層中的采樣操作是對上一層的特征圖同一大小的子區(qū)域進(jìn)行不重疊采集,選取其中的最大值作為輸出結(jié)果。通過降低特征圖的分辨率并抽樣選取較好的特征,使得訓(xùn)練CNN模型具有更好的抗噪能力,同時降低了特征維度。最大池化層的一般形式如公式(3)所示:

(3)

式中,第i個輸出特征Oi中每個神經(jīng)元在一個s×s的不重合區(qū)域內(nèi)進(jìn)行最大值采樣。最大池化層輸出特征的大小的方法如式(1)所示。

2 基于DCNN的人群密度估計模型

基于DCNN的人群密度估計方法主要分為模型訓(xùn)練和樣本估計兩個過程,在模型訓(xùn)練前需要對訓(xùn)練樣本歸一化預(yù)處理。其中模型訓(xùn)練通過有監(jiān)督的方法進(jìn)行網(wǎng)絡(luò)學(xué)習(xí)。處理流程如圖1所示。

圖1 處理流程圖

2.1 圖像分塊

人群密度估計模型主要是通過深度學(xué)習(xí)方式獲得能夠?qū)⑷巳簣D像根據(jù)密度等級進(jìn)行分類的關(guān)系F如公式(4)所示:

F=X→D

(4)

式中,X表示從訓(xùn)練樣本中提取的人群特征,D表示人群密度等級。本文從訓(xùn)練圖像中選取一定數(shù)量的圖像子塊作為模型的訓(xùn)練樣本,每個圖像子塊對應(yīng)的人群密度等級作為訓(xùn)練樣本的真實類別,其中每個模型訓(xùn)練的輸入圖像子塊的人數(shù)同時通過人工標(biāo)記出來。

1) 計算透視關(guān)系圖

由于攝像機(jī)存在透視效果,行人在圖像中具有不同的尺度,當(dāng)行人靠近攝像機(jī)時目標(biāo)更大,而遠(yuǎn)離的攝像機(jī)的行人目標(biāo)更小。離攝像機(jī)較遠(yuǎn)的區(qū)域人群更加密集,相互遮擋更嚴(yán)重,這時只能通過行人肩膀和頭部判斷行人所在的位置,從而大大增加人群密度估計的難度。因此,透視歸一化是人群密度估計必須的關(guān)鍵步驟。

根據(jù)Chen等[3]提出方法,在圖像坐標(biāo)系中,行人身高會隨著圖像縱坐標(biāo)減小而增加,所以攝像機(jī)的透視關(guān)系可以表示為圖像中行人身高和行人在圖像位置的函數(shù)。本文在實際場景中,根據(jù)與攝像機(jī)的距離,由近到遠(yuǎn)隨機(jī)選取多個成年人,假設(shè)成年人的身高都是175cm,標(biāo)記行人從頭到腳的長度。通過線性回歸方式獲取透視關(guān)系圖M如公式(5)所示:

hi=ayi+b

(5)

式中,hi是圖像中標(biāo)記的行人的身高,yi是圖像中行人的頭部的中心縱坐標(biāo),a、b則是圖像中行人身高與圖像縱坐標(biāo)的關(guān)系參數(shù)。透視關(guān)系圖M(p)中的每個像素值表示在該位置實際場景中一米的長度在圖像中包含的像素的個數(shù),透視關(guān)系如圖2所示。

圖2 透視關(guān)系圖

2) 獲取圖像子塊

在獲得透視圖和感興趣區(qū)域內(nèi)人頭的中心位置后,根據(jù)透視圖M(p)中每個像素點(diǎn)值,在感興趣區(qū)域內(nèi)將透視程度相似的區(qū)域依次分為幾個實際場景面積為3×3m2的圖像子塊,相鄰圖像子塊之間允許存在一定的重復(fù)區(qū)域,這樣可以盡可能地覆蓋全部感興趣區(qū)域。本文中通過透視歸一化將感興趣區(qū)域內(nèi)圖像分成多個透視程度相同圖像子塊,這樣可以消除由于攝像機(jī)透視帶來的影響,保證每個圖像子塊中行人的大小不存在明顯的差異,圖像分塊示意如圖3所示。

圖3 圖像分塊示意圖

將感興趣區(qū)域劃分為多個具有相同透視程度的圖像子塊后,本文采用人工的方式對每個圖像子塊的行人數(shù)目進(jìn)行統(tǒng)計,當(dāng)圖像子塊的行人只有部分身體在內(nèi)時,則本文通過計算其面積統(tǒng)計。根據(jù)圖像子塊中包含的人數(shù),將圖像子塊的人群密度劃分為5個等級,分表代表塊中的人群密度為很低(VL)、低(L)、中等(M)、高(H)、很高(VH),具體的分類標(biāo)準(zhǔn)如表1所示。

表1 基于圖像塊的人群密度等級分類標(biāo)準(zhǔn)

當(dāng)確定感興趣區(qū)域內(nèi)每個圖像子塊的密度等級后,感興趣區(qū)域的總體密度等級計算如公式(6)所示:

(6)

式中,D(Xi)表示第i個圖像的人群密度等級,N表示圖像Xi感興趣區(qū)域內(nèi)的圖像塊個數(shù),j的表示圖像Xi感興趣區(qū)域內(nèi)第j個圖像塊,D(Xi;pj)表示圖像塊pj的人群密度等級,round()表示采用四舍五入取整。

2.2 深度卷積神經(jīng)網(wǎng)絡(luò)的構(gòu)建

本文采用DCNN構(gòu)建人群密度估計的深度學(xué)習(xí)網(wǎng)絡(luò)。根據(jù)人群密度估計的需要,利用DCNN建出的網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。該模型以標(biāo)記了圖像子塊作為訓(xùn)練集,通過卷積層、池化層多次卷積、池化操作后自動提取圖像的中人群特征,然后將學(xué)習(xí)的特征通過全連接網(wǎng)絡(luò)輸入到Softmax分類器處理,輸入圖像子塊的密度等級。其中特征提取和密度分類通過網(wǎng)絡(luò)的自主學(xué)習(xí)實現(xiàn)。

圖4 深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖

本文構(gòu)建的學(xué)習(xí)網(wǎng)絡(luò)共分為7層,其中包含1個輸入層,3個卷積層(Conv1、Conv2、Conv3)和3個全連接層(FC4、FC5、FC6),在第一卷積層(Conv1)和第二卷積層(Conv2)后加上最大池化層。最后一層輸出單元數(shù)目為類別的數(shù)目。由于本文中將人群密度分為5個等級,因此最后一層的輸出為5個單元,依次對應(yīng)人群不同的密度很低、低、中等、高、很高。密度分類采用Softmax loss函數(shù)作為損失函數(shù)。每個卷積層和全連接層中選用線性校正單元(ReLU)作為激活函數(shù)。

在訓(xùn)練階段,所有的參數(shù)通過批量梯度下降BGD(Batch gradient descent)和反向傳播BP(Back Propagation)進(jìn)行優(yōu)化。沖量(Momentum)設(shè)置為0.9,使用的Dropout概率為50%,權(quán)值衰減(Weight decay)設(shè)置為0.01,避免訓(xùn)練過程過擬合。在測試階段,利用訓(xùn)練好的人群密度估計模型對輸入的圖像子塊密度估計,然后得到的圖像子塊的密度通過式(6)計算出圖像中的人群密度。

訓(xùn)練樣本是從訓(xùn)練集圖像中獲得圖像子塊,其中每個圖像子塊表示實際場景中面積為3×3m2的區(qū)域,由于每個圖像子塊的大小各不相同,因此在輸入網(wǎng)絡(luò)前所有圖像子塊大小歸一化為72×72后再輸入模型中。

基于DCNN的人群密度估計方法如下:

1) 網(wǎng)絡(luò)學(xué)習(xí)過程

① 對訓(xùn)練集圖像進(jìn)行卷積采樣操作深度學(xué)習(xí)特征。

② 利用BGD和BP學(xué)習(xí)DCNN網(wǎng)絡(luò),不斷調(diào)整網(wǎng)絡(luò)參數(shù),使得損失函數(shù)最小。

2) 樣本分類過程

① 對于測試樣本,通過DCNN網(wǎng)絡(luò)提取深度學(xué)習(xí)特征。

② 利用Softmax分類器對測試樣本進(jìn)行分類。

網(wǎng)絡(luò)各層的具體參數(shù)如表2所示。

表2 網(wǎng)絡(luò)各層的具體參數(shù)

3 實驗結(jié)果與分析

3.1 數(shù)據(jù)庫

由于人群密度估計沒有標(biāo)準(zhǔn)的數(shù)據(jù)集,針對本文提出的方法分別在三種數(shù)據(jù)集進(jìn)行測試驗證,數(shù)據(jù)集包括:UCSD[3]、PETS_2009[9]以及北京聯(lián)合大學(xué)校園內(nèi)拍攝的一段視頻(BUU_Campus)。這三個數(shù)據(jù)集中的人群密度變化包含了各個等級,三個數(shù)據(jù)集詳細(xì)的描述如表3所示。表中,Nf表示幀數(shù),S表示視頻大小,F(xiàn)PS表示幀率,D表示每幀圖像感興趣區(qū)域內(nèi)人數(shù)的最大值和最小值。其中UCSD、PETS_2009都是來自其他文獻(xiàn)使用的數(shù)據(jù)集,BUU_Campus則是實際生活中拍攝的一段視頻。BUU_Campus視頻總共時間將近1h,由于本文中提出的方法是對視頻圖像進(jìn)行分類,因此本文對BUU_Campus視頻每隔10秒進(jìn)行抽樣,每兩幀之間沒有交集,對BUU_Campus視頻抽樣共得到1596張視頻圖像。對每幀圖像感興趣區(qū)域內(nèi)的行人進(jìn)行人工統(tǒng)計,BUU_Campus中行人數(shù)目的變化范圍為17-73人。三個數(shù)據(jù)集中的不同人群密度的圖像如圖5所示。圖中第一行展示的是BUU_Campus的示例,第二行展示的是UCSD的示例,第三行展示的是PETS_2009的示例。

表3 三個數(shù)據(jù)集的統(tǒng)計情況

圖5 不同場景中的不同密度等級樣本

根據(jù)本文中提出的圖像分塊方法,首先對圖像進(jìn)行分塊,并將圖像子塊按照表1的標(biāo)準(zhǔn)根據(jù)圖像子塊中的行人數(shù)目分成5個等級。為了更好地進(jìn)行實驗驗證,本文將圖像子塊分為2部分:選取60%的圖像子塊作為DCNN模型的訓(xùn)練集,剩下40%的圖像子塊作為DCNN模型的測試集。由于圖像子塊都是相對獨(dú)立的,因此本文在劃分兩個集合時隨機(jī)從不同級別的人群密度中選取圖像子塊。不同場景訓(xùn)練數(shù)據(jù)集情況如表4所示。

3.2 實驗結(jié)果

在實驗中,本文使用伯克利大學(xué)視覺與學(xué)習(xí)中心(BVLC)提供的開源深度學(xué)習(xí)架構(gòu)Caffe訓(xùn)練本文的DCNN模型。人群DCNN模型訓(xùn)練完后在測試集上的準(zhǔn)確率為95.02%,三個數(shù)據(jù)集中每一類人群密度的準(zhǔn)確率如表5所示。從表5可知,三個不同的數(shù)據(jù)集中人群密度為中等時預(yù)測準(zhǔn)確率最低,這是由于人群密度等級的相鄰類之間的差異較大,在圖像子塊中行人數(shù)目靠近類別邊界時,DCNN模型出現(xiàn)分類錯誤。

根據(jù)本文中提出的圖像分塊方法,首先對圖像進(jìn)行分塊,并將圖像子塊按照表1的標(biāo)準(zhǔn)根據(jù)圖像子塊中的行人數(shù)目分成5個等級。為了更好地進(jìn)行實驗驗證,本文將圖像子塊分為2部分:選取60%的圖像子塊作為DCNN模型的訓(xùn)練集,剩下40%的圖像子塊作為CNN模型的測試集。由于圖像子塊都是相對獨(dú)立的,因此本文在劃分兩個集合時隨機(jī)從不同級別的人群密度中選取圖像子塊。不同場景訓(xùn)練數(shù)據(jù)集情況如表4所示。

表4 實驗數(shù)據(jù)集

3.2 實驗結(jié)果

在實驗中,本文使用伯克利大學(xué)視覺與學(xué)習(xí)中心(BVLC)提供的開源深度學(xué)習(xí)架構(gòu)Caffe訓(xùn)練本文的DCNN模型。人群DCNN模型訓(xùn)練完后在測試集上的準(zhǔn)確率為95.02%,三個數(shù)據(jù)集中每一類人群密度的準(zhǔn)確率如表5所示。

表5 不同數(shù)據(jù)集的DCNN準(zhǔn)確率

從表5可知,三個不同的數(shù)據(jù)集中人群密度為中等時預(yù)測準(zhǔn)確率最低,這是由于人群密度等級的相鄰類之間的差異較大,在圖像子塊中行人數(shù)目靠近類別邊界時,DCNN模型出現(xiàn)分類錯誤。

在BUU_Campus數(shù)據(jù)集上的測試準(zhǔn)確率明顯不如另外兩個數(shù)據(jù)集。經(jīng)分析認(rèn)為主要存在有兩個方面的原因:(1)該場景下存在大量的陰影,環(huán)境相對比較復(fù)雜,DCNN學(xué)習(xí)特征時將陰影部分當(dāng)成特征作為模型的輸入。(2)由于每個類別的訓(xùn)練樣本不均勻,可能造成了訓(xùn)練時過擬合從而影響了網(wǎng)絡(luò)的精確度。

但總體而言,本文提出DCNN模型在3個不同的數(shù)據(jù)集中都擁有較高的準(zhǔn)確率,特別是在UCSD數(shù)據(jù)集中表現(xiàn)更為突出。本文提出的方法不僅在各種不同的復(fù)雜自然場景下都擁有較高的準(zhǔn)確率,特別是在UCSD數(shù)據(jù)集中表現(xiàn)更為突出。本文提出的方法不僅在各種不同的復(fù)雜自然場景下能適用,同時不需要去完成攝像機(jī)標(biāo)定和背景去除工作,是一種準(zhǔn)確率高魯棒性強(qiáng)的人群密度估計方法。

為了對本文提出的方法進(jìn)行驗證和分析,本文選取了3種代表性的方法進(jìn)行比較,第一種是Hinton等[12]經(jīng)典深度卷積神經(jīng)網(wǎng)絡(luò)模型AlexNet,AlexNet包含5個卷積層和3個全連接層,采用ReLU作為激活函數(shù)。第二種是Li等[6]提出的基于自適應(yīng)LBP的人群密度估計方法,該方法首先利用三維的海塞矩陣檢測輸入圖像的特征點(diǎn),通過自適應(yīng)的LBP計算圖像的紋理特征,然后利用SVM進(jìn)行特征分類,從而實現(xiàn)人群密度估計。第三種方法是Kim等[13]采用計算運(yùn)動區(qū)域和對比信息的方法估計人群密度,其中運(yùn)動區(qū)域通過光流法計算,而對比信息基于GLDM的紋理統(tǒng)計,用提取的兩種人群特征去訓(xùn)練BP神經(jīng)網(wǎng)絡(luò),從而實現(xiàn)人群密度估計。

為了更好地體現(xiàn)每種方法的性能,本文將各類方法在實際環(huán)境更為復(fù)雜的BUU_Campus數(shù)據(jù)集上進(jìn)行了測試,圖6列出了各類方法在BUU_Campus數(shù)據(jù)集上的人群密度估計分類的準(zhǔn)確率。

從圖6可知,在BUU_Campus數(shù)據(jù)集上人群密度等級分類的準(zhǔn)確率中,本文中提出的DCNN的方法在極低、低、高和極高的情況下明顯優(yōu)于其他方法。而BPNN的方法效果最差,LBP-SVM和AlexNet的方法效果差別不大。

這主要是因為在BUU_Campus數(shù)據(jù)集中背景復(fù)雜,存在較多陰影。基于BPNN的方法由于基于光流法的運(yùn)動區(qū)域在行人停止時失效,此時只能依靠紋理特征進(jìn)行分類,而實驗環(huán)境過于復(fù)雜,表現(xiàn)不佳,而自適應(yīng)LBP特征的方法同樣由于陰影干擾過于嚴(yán)重,LBP表現(xiàn)出的區(qū)分能力較弱。BNPP和LBP-SVM在特征區(qū)分能力上如CNN深度學(xué)習(xí)的特征強(qiáng),且在低密度的情況下容易受到噪聲干擾,從而影響了分類器的性能。AlexNet由于網(wǎng)絡(luò)層數(shù)較多和卷積核較小,在人群密度較高時人群特征較豐富,使用較小的卷積核能夠?qū)W習(xí)到更多細(xì)節(jié)的變化,從而更加準(zhǔn)確對人群密度進(jìn)行判斷,而當(dāng)人群密度較低時導(dǎo)致提取的特征大部分為空,導(dǎo)致信息丟失過快,獲得人群特征不足導(dǎo)致準(zhǔn)確率降低。而本文中提出的DCNN方法針對單幀圖像分塊處理,所以可以很好地對靜態(tài)或運(yùn)動圖像中人群進(jìn)行估計,同時網(wǎng)絡(luò)層數(shù)減小有效地避免了信息丟失的問題,保證了較高準(zhǔn)確率。

圖6 實驗結(jié)果對比圖

4 結(jié) 語

本文提出了一種基于DCNN的方法來解決復(fù)雜自然場景中人群密度估計的問題。首先使用圖像中行人身高作為尺度基準(zhǔn)將圖像分為多個子圖像塊,利用訓(xùn)練好人群DCNN模型對輸入圖像估計圖像子塊的人群密度等級,所有圖像子塊的等級均值為該場景下的實際人群密度等級。

通過實驗和理論分析,本文中提出的方法具有以下主要特點(diǎn):(1)適用性強(qiáng),不需要進(jìn)行攝像機(jī)標(biāo)定來計算圖像透視關(guān)系,同時省去背景去除的工作;(2)準(zhǔn)確性高,特別是復(fù)雜充滿陰影的復(fù)雜場景下準(zhǔn)確率相比其他方法表現(xiàn)得更好。

雖然在復(fù)雜場景下的人群密度進(jìn)行估計上取得了一些進(jìn)展,但由于環(huán)境復(fù)雜性、光照的多變性和攝像機(jī)透視效果的影響,我們提出方法存在的問題與現(xiàn)有的其他算法一樣,在訓(xùn)練場景和測試場景不同時,很難獲得較好的效果,而這將是下一步研究的重點(diǎn)。

[1] Davies A C, Yin J H, Velastin S A. Crowd monitoring using image processing[J]. Electronics & Communication Engineering Journal, 1995, 7(1):37-47.

[2] Marana A N, Velastin S A, Costa L F, et al. Automatic estima-tion of crowd density using texture[J]. Safety Science, 1998, 28(3):165-175.

[3] Chan A B, Liang Z S J, Vasconcelos N. Privacy preserving crowd monitoring: Counting people without people models or tracking[C]// IEEE Computer Society Conference on Computer Vision and Pattern Recognition. DBLP, 2008:1-7.

[4] Wu X, Liang G, Lee K K, et al. Crowd Density Estimation Using Texture Analysis and Learning[C]// IEEE International Conference on Robotics and Biomimetics, Robio 2006, Kunming, China, 17-20 December. 2006:214-219.

[5] Li X, Shen L, Li H. Estimation of Crowd Density Based on Wavelet and Support Vector Machine[J]. Transactions of the Institute of Measurement & Control, 2006, 28(3):299-308.

[6] Ma W, Huang L, Liu C. Advanced Local Binary Pattern Descriptors for Crowd Estimation.[C]// PACIIA 2008, Volume 2, 2008 IEEE Pacific-Asia Workshop on Computational Intelligence and Industrial Application, 19-20 December 2008, Wuhan, China. 2008:958-962.

[7] Li Y, Zou T, Chen P. Estimation of Crowd Density Based on Adaptive LBP[J]. Advanced Materials Research, 2014(998/999):864-868.

[8] Zhang C, Li H, Wang X, et al. Cross-scene crowd counting via deep convolutional neural networks[C]// IEEE Conference on Computer Vision & Pattern Recognition. IEEE, 2015:833-841.

[9] Zhang A Z, Li M. Crowd density estimation based on statistical analysis of local intra-crowd motions for public area surveillance[J]. Optical Engineering, 2012, 51(4):7204.

[10] Ferryman J, Shahrokni A. An overview of the PETS 2009 challenge[J]. IEEE, 2009.

[11] Hussain N, Yatim H S M, Hussain N L, et al. CDES: A pixel-based crowd density estimation system for Masjid al-Haram[J]. Safety Science, 2011, 49(6):824-833.

[12] LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11):2278-2324.

[13] Krizhevsky A, Sutskever I, Hinton G E. ImageNet Classi-fication with Deep Convolutional Neural Networks[J]. Advances in Neural Information Processing Systems, 2012, 25(2):2012.

[14] Kim G, An T, Kim M. Estimation of crowd density in public areas based on neural network.[J]. Ksii Transactions on Internet & Information Systems, 2012, 6(9):2170-2190.

[15] Sermanet P, Eigen D, Zhang X, et al. OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks[J]. Eprint Arxiv, 2013.

[16] Sun Y, Liang D, Wang X, et al. DeepID3: Face Recognition with Very Deep Neural Networks[J]. Computer Science, 2015.

[17] Girshick, Ross, Donahue, Jeff, Darrell, Trevor, et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[J]. Computer Science, 2014:580-587.

[18] Abdel-Hamid O, Mohamed A R, Jiang H, et al. Convolutional Neural Networks for Speech Recognition[J]. IEEE/ACM Transactions on Audio Speech & Language Processing, 2014, 22(10):1533-1545.

CROWD DENSITY ESTIMATION METHOD BASED ON DEEP CONVOLUTION NEURAL NETWORKS

Tan Zhiyong1Yuan Jiazheng1,2Liu Hongzhe1Li Qing1

1(BeijingKeyLaboratoryofInformationServiceEngineering,Beijing100101,China)2(BeijingHigh-techInnovationCentreofImagingTechnology,Beijing100048,China)

Crowd density estimation is an important research topic in intelligent surveillance system, which is an effective way for crowd control and management. But the existing methods are hard to satisfy the demand of the practical applications, due to severe occlusions, scene perspective distortions and variable weather. In addition, most existing methods use general the hand-crafted features, which have low representation capability for crowd. To address these problems, a deep convolution neural networks (DCNN)-based method to estimate the crowd density in natural scenes is proposed. Firstly, we divide the crowed image into several image patches according to the criterion of the mean height of the adult pedestrian, which overcome the impact of perspective distortion on the pedestrian images Secondly, the deep convolution neural network has been designed. The DCNN is used to extract crowd features by different convolution kernels on the pedestrian image. The learned crowd features are employed to estimate crowd density. We test our approach on three different data sets, the experimental results demonstrate the effectiveness and robustness of the proposed method in the different scenes.

Crowd Density Estimation Image Block Deep convolution neural network

2016-08-30。國家自然科學(xué)基金項目(61271369,61502036,61571045);國家科技支撐項目(2014BAK08B,2015BAH55F03);北京市自然科學(xué)基金項目(4152018,4152016)。譚智勇,碩士生,主研領(lǐng)域:數(shù)字圖像處理,深度學(xué)習(xí)。袁家政,教授。劉宏哲,教授。李青,講師。

TP391

A

10.3969/j.issn.1000-386x.2017.07.025

猜你喜歡
特征方法
抓住特征巧觀察
新型冠狀病毒及其流行病學(xué)特征認(rèn)識
如何表達(dá)“特征”
不忠誠的四個特征
學(xué)習(xí)方法
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 国产成人精品综合| 欧美三級片黃色三級片黃色1| 白丝美女办公室高潮喷水视频| 一本大道在线一本久道| 欧美第一页在线| 国产午夜人做人免费视频中文| 精品第一国产综合精品Aⅴ| 日韩免费成人| 免费A∨中文乱码专区| 综合色区亚洲熟妇在线| 波多野结衣爽到高潮漏水大喷| 亚洲av无码人妻| 欧美另类第一页| 少妇被粗大的猛烈进出免费视频| 精品乱码久久久久久久| 午夜福利视频一区| 国产大片喷水在线在线视频| 日韩一区二区三免费高清 | 亚洲日本精品一区二区| 国产网站免费观看| 国产极品美女在线| 亚洲AV成人一区二区三区AV| 国产男女XX00免费观看| 国产欧美日韩在线一区| 久久久久久国产精品mv| 欧美 国产 人人视频| 日韩毛片基地| 中国黄色一级视频| 亚洲精品第一在线观看视频| 日韩精品免费在线视频| 日本AⅤ精品一区二区三区日| 亚洲不卡影院| 91香蕉视频下载网站| 天堂成人在线视频| 99无码熟妇丰满人妻啪啪| 中文字幕色在线| 99久久国产综合精品2020| 99热这里只有精品2| 小说 亚洲 无码 精品| 操国产美女| 亚洲日韩国产精品综合在线观看| 精品欧美一区二区三区在线| 欧洲日本亚洲中文字幕| 97视频精品全国在线观看| 丝袜久久剧情精品国产| 97狠狠操| 高清无码不卡视频| 91网址在线播放| 成人午夜免费观看| 成人免费视频一区二区三区 | 欧美国产菊爆免费观看| 亚洲动漫h| 国产美女91视频| 99re经典视频在线| 亚洲伊人天堂| 99精品一区二区免费视频| 婷婷激情亚洲| 中字无码精油按摩中出视频| 亚洲男人的天堂久久香蕉网| 老熟妇喷水一区二区三区| 亚洲日韩欧美在线观看| 免费无码又爽又刺激高| aa级毛片毛片免费观看久| 亚洲一级毛片在线观播放| 日韩大片免费观看视频播放| 免费精品一区二区h| 亚洲制服中文字幕一区二区| 亚洲精品在线影院| 日韩毛片在线播放| 国产JIZzJIzz视频全部免费| 亚洲天堂网视频| 国产内射在线观看| 久久一级电影| 福利片91| 色老头综合网| 亚洲无线国产观看| 又爽又大又黄a级毛片在线视频| 伦伦影院精品一区| 日韩黄色在线| 国产精品视屏| 亚洲午夜国产片在线观看| 亚洲综合色婷婷|