時增林 葉陽東 吳云鵬 婁錚錚
?
基于序的空間金字塔池化網絡的人群計數方法
時增林1葉陽東1吳云鵬1婁錚錚1
視頻中的人群計數在智能監控領域具有重要價值.由于攝像機透視效果、圖像背景、人群密度分布不均勻和行人遮擋等干擾因素的制約,基于底層特征的傳統計數方法準確率較低.本文提出一種基于序的空間金字塔池化(Rank-based spatial pyramid pooling,RSPP)網絡的人群計數方法.該方法將原圖像分成多個具有相同透視范圍的子區域并在各個子區域分別取不同尺度的子圖像塊,采用基于序的空間金字塔池化網絡估計子圖像塊人數,然后相加所有子圖像塊人數得出原圖像人數.提出的圖像分塊方法有效地消除了攝像機透視效果和人群密度分布不均勻對計數的影響.提出的基于序的空間金字塔池化不僅能夠處理多種尺度的子圖像塊,而且解決了傳統池化方法易損失大量重要信息和易過擬合的問題.實驗結果表明,本文方法相比于傳統方法具有準確率高和魯棒性好的優點.
人群計數,空間金字塔池化,深度學習,卷積神經網絡,嶺回歸
引用格式時增林,葉陽東,吳云鵬,婁錚錚.基于序的空間金字塔池化網絡的人群計數方法.自動化學報,2016,42(6):866-874
監控視頻中的人群自動計數有著重要的社會意義和市場應用前景.充分利用興趣區域的人數統計信息可以為一些人群密集的商場、車站、廣場等公共場合的安全預警提供有效的指導,還可以帶來經濟效益,例如,提高服務質量、分析顧客行為、廣告投放和優化資源配置等.因此,該問題已成為計算機視覺和智能視頻監控領域的重要研究內容.
近年來,隨著計算機視覺技術的持續發展,大量的人群計數方法被提出.這些方法總體可以分為兩類,一類是基于行人檢測技術的直接法[1-2],另一類是基于特征回歸技術的間接法[3-9].直接法通過檢測和跟蹤視頻中的個體來完成人數統計.這種方法能夠同時完成人群計數和個體定位,缺點是在人群密度較高或視頻開闊的場景下識別率不高.間接法將人群視為一個整體,利用圖像特征和人群人數之間的回歸關系實現行人計數.這類方法能夠有效地解決人群遮擋問題,具有大規模人群計數的能力.
間接法又可以分為全局法和局部法[10].全局法[3-4,8]以視頻中的每一幀為計數單位,使用全局的圖像特征進行計數.局部法[5-7,9]將原圖像分成多個子圖像塊,以子圖像塊為計數單位,使用局部的圖像特征進行計數.盡管全局法具有操作簡單、計數方便的優點,然而也面臨著以下幾個方面的問題:1)容易受到攝像機透視效果的影響,即對于同一個目標,隨著它與攝像機的距離變化,特征向量也會改變;2)人群密度大的場景比較復雜,這時將整個場景作為計數單位,會產生很多噪聲,噪聲累積對計數結果有負面影響;3)建立整個場景的特征和人數的回歸關系,需要大量的訓練數據;4)由于透視效果、視點變化和人群密度變化,圖像人群密度分布應大致均勻的前提假設在真實的場境下一般不成立.局部法通過將原圖像分成多個子圖像塊,能夠有效解決全局法面臨的問題[10].
圖像分塊和圖像特征提取是影響局部法計數效果的關鍵技術.均勻分塊方法[5-6]是現有局部法常采用的圖像分塊方法.該方法將原圖像分成多個具有相同尺度的子圖像塊,有著操作簡單的優點,然而并不能有效地消除攝像機透視效果和人群密度分布不均勻對計數的影響.現有局部法常用的底層特征有:形狀特征[3[8]、關鍵點特征(興趣點[5]、角點[11])、紋理特征(Gray level dependent matrix,GLDM)[12]和梯度統計特征(Histogram of oriented gradient,HOG)[5]等.這些底層特征對人群的表征能力有限,加上人群遮擋、透視效果的影響,難以達到理想的效果.
本文在深入研究現有人群計數方法的基礎上,提出一種基于序的空間金字塔池化網絡的人群計數方法.該方法將原圖像分成多種尺度的子圖像塊,采用基于序的空間金字塔池化網絡獲取子圖像塊人數,然后相加所有子圖像塊人數得出圖像人數.傳統方法和本文方法的計數流程如圖1所示.本文的貢獻主要有以下幾點:1)提出一種新的人群計數方法.該方法提取特征不依賴于前景分割,通過多層卷積—池化結構獲取的高層特征相比于底層特征對人群的表征能力更強.2)提出一種新的圖像分塊方法.該方法將原圖像分成多個具有相同透視范圍的子區域并在各個子區域取圖像塊,有效地消除了攝像機透視效果和人群密度分布不均勻對計數的影響;3)提出的基于序的空間金字塔池化不僅能夠處理多種尺度的子圖像塊,而且解決了傳統池化方法易損失大量重要信息和易過擬合的問題.在UCSD行人數據集上的實驗結果表明,本文方法相比于傳統方法具有準確率高和魯棒性好的優點.
自Hinton等提出深度學習(Deep learning,DL)[13]以來,DL已經在學術界和產業界產生了深遠的影響.它通過多層結構將底層特征逐步轉換為更加抽象的高層特征,具有優異的特征學習能力,學到的特征對數據有更本質的刻畫.卷積神經網絡(Convolutional neural network,CNN)是第一個真正意義上的深度學習模型,也是最成功的深度模型之一,在計算機視覺領域有著廣泛的應用.CNN憑借特有的卷積—池化(Convolution-pooling)結構獲得的特征對平移、縮放和旋轉具有不變性,相比于底層特征,判別能力和魯棒性更強[14].修正線性單元(Rectified linear units,ReLU)[15]、Dropout[16]和響應歸一化(Response normalization,RN)[16]等新方法又增強了CNN模型的能力.當前典型的卷積—池化結構如圖2所示.

圖1 傳統人群計數方法和本文人群計數方法的流程Fig.1 The flow chart of traditional and the proposed crowd counting methods

圖2 當前典型的卷積—池化結構Fig.2 The typical convolution-pooling structure
CNN中的全連接層需要固定的輸入維度,限制了CNN只能接受固定尺度的輸入.一般只能通過圖像尺度歸一化的方法來處理不同尺度的輸入圖像,然而這種方法會導致圖像信息的損失.為解決這個問題,He等提出了空間金字塔池化(Spatial pyramid pooling,SPP)[17]方法.SPP允許CNN接受任何尺度的輸入,增加了模型的尺度不變性,抑制了過擬合的發生.文獻[17]將使用了空間金字塔池化的卷積神經網絡稱為空間金字塔池化網絡.典型的空間金字塔池化網絡如圖3所示.

圖3 典型的空間金字塔層結構Fig.3 The typical spatial pyramid pooling structure
空間金字塔池化通過使用多個不同大小的池化操作保證固定的特征向量輸出,從而實現任何尺度的輸入.在進行具體的池化操作時一般采用最大池化(Max pooling)和平均池化(Average pooling),然而這兩種方法都有自身的缺陷.最大池化總是取池化域內的最大激活值作為池化輸出,忽略了大量有用信息,容易導致模型過擬合.平均池化以池化域內所有激活值的平均值作為池化輸出,會發生低的負激活值與高的正激活值相消的情況,容易產生零均值,從而導致不好的結果.為解決最大池化和平均池化的問題,文獻[18]提出一種稱作隨機池化(Stochastic pooling)的方法.該方法采用對池化域內的n個激活值歸一化的方法獲取選擇概率pi:

然后根據選擇概率隨機地選取一個激活值作為池化輸出.該方法通過隨機操作使得所有激活值都有機會參與到池化操作中,相比于最大池化和平均池化具有更好的表現[18-19].然而這種隨機池化方法使用式(1)計算選擇概率有兩方面的不足:1)該式不接受負值,只能與ReLU激活函數配合使用(ReLU可以把負值強制為0),因此,不能與其他有效的激活函數結合使用;2)該式不能控制選擇概率,在某些情況下會導致最大激活值的選擇概率接近或達到1,使得隨機池化退化為最大池化.
本文在深入研究現有人群計數方法的基礎上,提出一種基于序的空間金字塔池化網絡的人群計數方法.該方法將原圖像分成多種尺度的子圖像塊,采用基于序的空間金字塔池化網絡獲取子圖像塊人數,然后相加所有子圖像塊人數得出圖像人數.
2.1圖像分塊
由于攝像機的透視效果,不同景深的行人在圖像平面呈現不同的形狀和大小,遠離攝像機區域的人群更密集,相互遮擋更嚴重,這些問題都增加了人群計數的難度.因此,消除圖像的透視效果是提高間接法人群計數算法性能的關鍵步驟.圖像分塊可以有效地消除攝像機的透視效果,然而現行的均勻分塊方法的效果并不理想.本文提出一種新的圖像分塊方法.該方法將原圖像分成多個具有相同透視范圍的子區域并在各個子區域取圖像塊,具體有三個主要步驟.
1)計算圖像的透視關系圖.本文采用文獻[3]提出的方法計算圖像的透視關系圖.首先,標出實驗所需要的感興趣區域(Region of interest,ROI),找出ROI區域沿著攝像機遠近方向的平行的兩端,一個遠端,一個近端,分別測量出其長度,如圖4(a)中的分別測量出線段上的一個目標的長度,目標中心在上.如圖4(a)中的h1和h2.然后,用透視程度表示不同景深的行人發生透視效果的程度.設線上的透視程度為1,則按照線性插值的規則,線上的透視程度應為.最后,其他景深的透視程度按照兩條線之間的線性插值得到.
2)將圖像分為幾個子區域,使得不同子區域具有相同的透視范圍(Scope of perspective,SP).

其中,pf表示ROI區域內最遠方的透視程度,pn表示ROI區域內最近方的透視程度,t表示圖像分成的子區域數量,可以控制子區域透視效果的強度.t值越大子區域的透視效果越弱,然而t值過大會導致計數復雜度變高和計數準確率下降.本文將圖像分為A、B和C三個子區域,如圖4(b)所示.
3)分別從各個子區域取子圖像塊.子圖像塊的高度與子區域的高度一致.由于不同子區域的高度不同,因此從各個子區域獲取的子圖像塊具有不同的尺度.
文獻[3]通過使用透視關系圖對每個像素加透視校正權重的方式處理攝像機的透視效果,然而這種方法在真實的場景中具有局限性[9],并且不能夠處理人群密度分布不均勻的問題.本文利用透視關系圖將圖像分成多個具有相同透視范圍的子區域,從而弱化了原圖像的透視效果.從各個子區域所取的子圖像塊相比于原圖像尺寸較小,因此子圖像塊的人群密度分布相對均勻.

圖4 圖像分塊方法Fig.4 The methods of dividing image into sub-image blocks
2.2基于序的隨機池化
盡管空間金字塔池化網路能夠處理多種尺度的子圖像塊,然而在進行具體的池化操作時,當前常用的池化方法有很多的不足.為此,本文提出了一種稱作基于序的隨機池化(Rank-based stochastic pooling,RSP)方法.
RSP首先根據池化域內激活值的大小對激活值從高到低排序,將激活值在排序后的索引作為激活值的序.例如,激活值最高的元素的序是“1”.然后,根據下式[20]計算激活值的選擇概率.

其中,α是一個超參數,表示最大激活值的選擇概率,r表示激活值的序,n表示池化域的大小.最后,從選擇概率的多項式分布(Multinomial distribution)中采樣,得到第j個池化域要保留的激活值sj:

ai表示池化域j內索引為i的激活值.
在測試時,使用式(3)計算的概率對池化域內的激活值加權,取加權后的所有激活值的和作為池化的結果.

這種加權方法應用在測試時可以看作是一種模型平均策略,提高了模型的表現.式(3)可以看作是一個首項為α、公比為1-α的等比數列,因此,容易得到,

化簡后得到,

RSP使用激活值的序而不是實際的激活值計算選擇概率,因此不必限制激活值的正負性,可以與更多的激活函數結合使用.式(3)能夠通過參數α控制最大激活值的選擇概率,使得最大激活值的選擇概率不會太大,也不會太小,保證了RSP在選擇激活值時具有更多的隨機性,從而進一步控制過擬合.同時,更多的隨機性使得RSP既保留了重要信息又保證了信息的多樣性,有利于獲得表征能力更強的特征.
RSP可以應用在CNN的任何池化層.本文將使用了RSP的空間金字塔池化稱作基于序的空間金字塔池化(Rank-based spatial pyramid pooling,RSPP),將使用了RSPP的CNN稱作基于序的空間金字塔池化網絡(Rank-based spatial pyramid pooling network,RSPP-net).
2.3人群計數模型
本文提出的基于序的空間金字塔池化網絡的人群計數模型是一個端到端的系統(End-to-end system).該模型直接以子圖像塊作為輸入,通過多層的卷積—池化結構自動提取特征,然后交由嶺回歸層[21]處理,最終輸出子圖像塊人數.特征提取和回歸由不同的網絡層自動實現.為了降低訓練的難度,使用多個共享訓練參數的CNN模型來逼近一個允許多尺度輸入的基于序的空間金字塔池化網絡[17].本文構建了三個僅輸入維度不同的CNN模型來處理三種尺度的子圖像塊,分別記作CNN_64、CNN_44和CNN_28,它們的詳細參數設置如表1所示.訓練時三個模型根據輸入維度大小依次進行,通過將前一個訓練好的模型作為下一個訓練模型的預訓練模型的方式共享訓練參數.這種訓練方法彌補了較小尺度圖像塊訓練數據不足的問題,并且加快了模型擬合的速度.測試時分別將子圖像塊輸入訓練好的模型得到子圖像塊人數,然后所有子圖像塊人數相加得出圖像人數.提出的計數框架如圖5所示.

表1 人群CNN模型的詳細結構Table 1 Architecture specifics for crowd CNN model
利用開源的深度學習框架Caffe[22]訓練提出的模型.Euclidean_loss被用為損失函數.使用minibatch為100的隨機梯度下降(Stochastic gradient descent,SGD)方法調整模型參數.為了加快模型擬合的速度,使用了常數項為0.9的沖量(Momentum).常數項為0.01的權值衰減(Weight decay)被用于控制過擬合.RSP中的常數項α取值為0.5.
采用UCSD行人數據集[3]評價提出的方法.該數據集由2000幀尺寸為158×238的圖像組成.每一幀圖像中的行人都已經被標注,標注坐標是行人的中心位置.圖像中行人數量最小為11,最大為46. 圖6給出了UCSD數據集的一些示例幀.

圖5 計數模型的整體結構Fig.5 The overall structure of the crowd counting model

圖6 UCSD數據集示例幀Fig.6 Examples frames of the UCSD dataset
為了保證對比實驗的公平性,與文獻[3]保持一致,使用601~1400幀作為訓練集,余下的1200幀作為測試集.分別在訓練集和測試集上根據第2節描述的方法取子圖像塊.首先將圖像分為高度為64、44和28三個子區域.然后分別在三個子區域上取尺寸相同的子圖像塊.由于深度學習模型復雜,需要大量的訓練數據.本文在訓練集上使用滑動步長為1的窗口取子圖像塊,進行數據集的擴展.每個子圖像塊的實際人數通過行人的標注坐標計算得到.訓練集中存在一些只有背景沒有行人的數據,這些數據作為負樣本,使得訓練得到的模型魯棒性更好.在每一張圖像的三個子區域分別取3、4和3個子圖像塊,組成測試集.測試子圖像塊之間沒有重疊,能夠覆蓋整個ROI區域.一些示例如圖7所示.最終獲得的訓練集和測試集的詳細情況如表2所示.

圖7 子圖像塊示例Fig.7 Examples of sub-image blocks

表2 實驗數據Table 2 Experimental data
人群計數方法的優劣可以通過實驗幀的實際人數與其對應的預測值來做判斷,本文采用平均絕對誤差(Mean absolute error,MAE)和均方誤差(Mean squared error,MSE)作為評價的標準.

其中,N為實驗視頻序列的幀數,Gt為第t幀的實際人數,Et為第t幀的預測人數.
實驗1.驗證基于序的隨機池化方法的有效性.由于尺度為64的圖像塊訓練數據最多,首先訓練CNN_64模型.為了驗證本文提出的基于序的隨機池化方法的有效性,在保證其他設置都不變的情況下,分別采用不同的池化方法估計人數.多種池化方法在尺度為64的子圖像塊上的計數結果如表3所示.通過比較表3的結果可以看出,基于序的隨機池化方法避免了過擬合,在測試集上的兩種評價指標均優于其他幾種池化方法.

表3 多種池化方法在尺度為64的子圖像塊上的測試結果Table 3 Testing results for sub-image blocks with the scale of 64 of various pooling methods
實驗2.驗證聯合訓練方法的有效性.CNN_44模型將訓練好的CNN_64模型作為預訓練模型,并使用尺度為44的訓練數據調整模型參數.最后訓練的是CNN_28模型.為了驗證本文提出的聯合訓練方法的有效性,進行了單獨訓練的對比實驗.單獨訓練指的是三個模型分別使用各自的數據進行無關聯的訓練,彼此之間不共享訓練參數.在三個尺度子圖像塊上的測試結果如表4所示.從表4的測試結果可以看出,聯合訓練大幅提高了計數準確率.

表4 子圖像塊上的測試結果Table 4 The testing results in sub-image blocks
實驗3.驗證提出的圖像分塊方法的有效性.本實驗采用均勻分塊的方法,將原圖像分成尺度相同的子圖像塊,然后用一個CNN模型進行計數.從每個原始訓練圖像上隨機取600個72×72的子圖像塊組成訓練集.從每個原始測試圖像上取6個72×72的子圖像塊組成測試集.測試子圖像塊之間沒有重疊,能夠覆蓋整個ROI區域.將子圖像塊輸入到CNN模型中,得出子圖像塊人數.每個原始測試圖像的估計人數為6個子圖像塊之和.為保證計數的公平性,本實驗使用的CNN模型與實驗1和實驗2所用的CNN模型僅輸入維度不一樣,其他參數設置完全相同.實驗結果如表5所示,本文方法優于單CNN模型.

表5 整幅圖像上的測試結果Table 5 The testing results in image
實驗4.比較本文方法與傳統人群計數方法.提出方法的最終目的是估計整幅圖像的人數.分別將子圖像塊輸入訓練好的模型得到子圖像塊的人數,然后所有子圖像塊人數相加得出圖像人數.提出的方法與傳統最好方法(State-of-the-art methods)在測試數據上的計數結果如表5所示.從結果對比可以看出,本文提出的方法在兩個評價指標上均優于已有的方法,分析原因主要有兩點:1)對比方法都是先進行前景分割,再提取邊緣、面積等特征描述行人.顯然,前景分割后有利于更直接地描述和提取行人的特征.但是光照變化、行人擁擠程度、背景顏色等多種干擾因素都使得前景分割成為一項較難的工作.本文提出的方法一方面通過分塊降低了特征提取的難度,另一方面自動學習特征的方式具有辨識前景和背景的能力,因此不需要前景分割,可以直接在原圖像上學習特征;2)對比方法使用的都是底層特征,對人群表達能力有限.本文采用多層卷積—池化結構學習獲得的高層特征對人群有更本質的刻畫和更強的判別能力,對行人遮擋的魯棒性好.
提出方法對整個測試集計數結果如圖8所示,對一些稀疏人群和高密度人群的計數結果如圖9所示.圖中所標示的“E”為人數估計值,“G”為人數標定值.

圖8 整個測試集的計數結果Fig.8 The recognition results on the entire testing frames

圖9 在多種人群密度上的計數結果Fig.9 Various density crowd counting
本文提出了一種基于序的空間金字塔池化網絡的人群計數方法.通過將圖像分成具有相同透視范圍的子區域,然后分別在子區域上取子圖像塊的方法,有效解決了攝像機透視效果和人群密度分布不均勻對計數帶來的影響.采用基于序的空間金字塔池化網絡估計多種尺度的子圖像塊人數,不需要前景分割等復雜的步驟,通過多層卷積—池化結構提取的特征相比于底層特征對人群圖像有更本質的刻畫.通過實驗驗證了提出的圖像分塊方法和基于序的隨機池化方法的有效性.為解決基于序的空間金字塔池化網絡訓練困難的問題,提出了聯合訓練的方法.該方法充分利用了訓練數據,有效控制了過擬合現象的發生,相比于單獨訓練方法提高了1倍的準確率.實驗結果表明,本文方法在有關人群計數準確率的兩項指標上均優于其他計數方法.
References
1 Wu B,Nevatia R.Detection of multiple,partially occluded humans in a single image by Bayesian combination of edgelet part detectors.In:Proceedings of the 10th IEEE International Conference on Computer Vision.Beijing,China:IEEE,2005.90-97
2 Zhao T,Nevatia R,Wu B.Segmentation and tracking of multiple humans in crowded environments.IEEE Transactions on Pattern Analysis and Machine Intelligence,2008,30(7):1198-1211
3 Chan A B,Liang Z S J,Vasconcelos N.Privacy preserving crowd monitoring:counting people without people models or tracking.In:Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition.Anchorage,AK:IEEE,2008.1-7
4 Chan A B,Vasconcelos N.Counting people with low-level features and Bayesian regression.IEEE Transactions on Image Processing,2012,21(4):2160-2177
5 Idrees H,Saleemi I,Seibert C,Shah M.Multi-source multiscale counting in extremely dense crowd images.In:Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition.Portland,USA:IEEE,2013. 2547-2554
6 Lempitsky V,Zisserman A.Learning to count objects in images.In:Proceedings of Advances in Neural Information Processing Systems.Vancouver,Canada:NIPS,2010. 1324-1332
7 Ma W,Huang L,Liu C.Crowd density analysis using cooccurrence texture features.In:Proceedings of the 5th IEEE International Conference on Computer Sciences and Convergence Information Technology.Seoul,Korea:IEEE,2010. 170-175
8 Kong D,Gray D,Tao H.A viewpoint invariant approach for crowd counting.In:Proceedings of the 18th IEEE International Conference on Pattern Recognition.Hong Kong,China:IEEE,2006.1187-1190
9 Chen K,Loy C C,Gong S G,Xiang T.Feature mining for localised crowd counting.In:Proceedings of the 23rd British Machine Vision Conference.Surrey,British:BMVA Press,2012.1-3
10 Ryan D,Denman S,Sridharan S,Fookes C.An evaluation of crowd counting methods,features and regression models.Computer Vision and Image Understanding,2015,130:1-17
11 Rosten E,Porter R,Drummond T.Faster and better:a machine learning approach to corner detection.IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(1):105-119
12 Wu X Y,Liang G Y,Lee K K,Xu Y.Crowd density estimation using texture analysis and learning.In:Proceedings of the 2006 IEEE International Conference on Robotics and Biomimetics.Kunming,China:IEEE,2006.214-219
13 Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks.Science,2006,313(5786):504-507
14 Zeiler M D,Fergus R.Visualizing and understanding convolutional networks.In:Proceedings of the 13th European Conference on Computer Vision.Zurich,Switzerland:Springer,2014.818-833
15 Nair V,Hinton G E.Rectified linear units improve restricted Boltzmann machines.In:Proceedings of the 27th International Conference on Machine Learning.Haifa,Israel:JMLR,2010.807-814
16 Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks.In:Proceedings of Advances in Neural Information Processing Systems. Nevada,USA:NIPS,2012.1097-1105
17 He K M,Zhang X Y,Ren S Q,Sun J.Spatial pyramid pooling in deep convolutional networks for visual recognition.In:Proceedings of the 13th European Conference on Computer Vision.Zurich,Switzerland:Springer,2014.346-361
18 Zeiler M D,Fergus R.Stochastic pooling for regularization of deep convolutional neural networks.In:Proceedings of the 2013 International Conference on Learning Representation.Arizona,USA:ICLR,2013.1-9
19 Sainath T N,Kingsbury B,Saon G,Soltau H,Mohamed A R,Dahl G,Ramabhadran B.Deep convolutional neural networks for large-scale speech tasks.Neural Networks,2015,64:39-48
20 Michalewicz Z.Genetic Algorithms+Data Structures= Evolution Programs.Berlin Heidelberg:Springer Science& Business Media,2013.59-61
21 Saunders C,Gammerman A,Vovk V.Ridge regression learning algorithm in dual variables.In:Proceedings of the 15th International Conference on Machine Learning.San Francisco,CA,USA:Morgan Kaufmann Publishers Inc.,1998.515-521
22 Jia Y Q,Shelhamer E,Donahue J,Karayev S,Long J,Girshick R,Guadarrama S,Darrell T.Caffe:convolutional architecture for fast feature embedding.In:Proceedings of the 22nd ACM International Conference on Multimedia. Florida,USA:ACM,2014.675-678
23 Zhang Z X,Wang M,Geng X.Crowd counting in public video surveillance by label distribution learning.Neurocomputing,2015,166:151-163

時增林鄭州大學信息工程學院碩士研究生.主要研究方向為計算機視覺,機器學習,深度學習.
E-mail:iezlshi@gs.zzu.edu.cn
(SHI Zeng-LinMaster student at the School of Information Engineering,Zhengzhou University.His research interest covers computer vision,machine learning,and deep learning.)

葉陽東鄭州大學信息工程學院教授.主要研究方向為智能系統,機器學習,數據庫.本文通信作者.
E-mail:ieydye@zzu.edu.cn
(YE Yang-DongProfessor at the SchoolofInformationEngineering,Zhengzhou University.His research interest covers intellectual system,machine learning,and database system.Corresponding author of this paper.)

吳云鵬鄭州大學信息工程學院博士研究生.主要研究方向為機器學習,計算機視覺.
E-mail:ieypwu@zzu.edu.cn
(WU Yun-PengPh.D.candidate at the School of Information Engineering,Zhengzhou University.His research interest covers machine learning and computer vision.)

婁錚錚鄭州大學信息工程學院講師,博士.主要研究方向為機器學習,模式識別,計算機視覺.
E-mail:iezzlou@zzu.edu.cn
(LOUZheng-ZhengLecturer,Ph.D.at the School of Information Engineering,Zhengzhou University.His research interest covers machine learning,pattern recognition,and computer vision.)
Crowd Counting Using Rank-based Spatial Pyramid Pooling Network
SHI Zeng-Lin1YE Yang-Dong1WU Yun-Peng1LOU Zheng-Zheng1
Crowd counting in videos has an important value in the field of intelligent surveillance.Due to the constraints resulting from camera perspective,uneven distribution of crowd density,background clutter,and occlusions,traditional low-level features-based methods suffer from low counting accuracy.In this paper,a new crowd counting method is proposed based on rank-based spatial pyramid pooling(RSPP)network.In the proposed method,the original image is divided into several sub-regions with the same scope of perspective,and then multi-scale sub-image blocks are respectively taken from different sub-regions.Rank-based spatial pyramid pooling network is used to get the numbers of pedestrians in sub-image blocks.Then summing the numbers of persons of all sub-image blocks gives the total number of people on the image.The proposed image blocking method eliminates the effect of camera perspective and uneven distribution of crowd density on crowd counting.The proposed rank-based spatial pyramid pooling can not only handle multi-scale sub-image blocks,but also solve the problem of huge important information loss and over-fitting encountered by traditional pooling methods.Experimental results show that the proposed method has the advantages of high accuracy and good robustness compared with traditional methods.
Crowd counting,spatial pyramid pooling(SPP),deep learning(DL),convolutional neural network(CNN),ridge regression
10.16383/j.aas.2016.c150663
Shi Zeng-Lin,Ye Yang-Dong,Wu Yun-Peng,Lou Zheng-Zheng.Crowd counting using rank-based spatial pyramid pooling network.Acta Automatica Sinica,2016,42(6):866-874
2015-10-31錄用日期2016-04-01
Manuscript received October 31,2015;accepted April 1,2016
國家自然科學基金(61170223,61502432,61502434)資助
Supported by National Natural Science Foundation of China (61170223,61502432,61502434)
本文責任編委柯登峰
Recommended by Associate Editor KE Deng-Feng
1.鄭州大學信息工程學院鄭州450002
1.School of Information Engineering,Zhengzhou University,Zhengzhou 450002