朱宇斌



摘要:人群計數問題是計算機視覺領域的一個經典問題,旨在通過計算機的相關方法計算視頻或圖片場景中的人數,對控制關鍵場所人數、指揮公共交通、控制疫情蔓延、保障社會穩定具有重要積極意義。針對現有人群計數面臨的背景干擾與目標遮擋問題,本文提出了基于相似性度量的人群計數方法。
關鍵詞:人群計數;相似性度量;卷積神經網絡
中圖分類號:TP311? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)06-0179-02
1概述
整體來看,人群計數領域的方法主要有三大類[1] :基于檢測的方法、基于回歸的方法和基于 CNN 的方法。在人群計數發展初期,人們想到如果能夠使用 模型準確地檢測出視頻或圖片中的每個目標,那么可以很好地計算總數。故而文獻[2]提出了基于檢測的方法。由于其準確性和模型性能受到圖像分辨率低、目標大小不一、目標重疊模糊等因素的限制,文獻[3]提出基于回歸的模型進一步提 升了效果。但回歸模型的相關方法仍然忽視了空間尺度的相關信息,僅僅得到一 個計數結果而不能學習到目標的分布,其結果缺乏可信度和可解釋性。近年來, 基于 CNN 的方法模型能夠提取出有效的空間尺度、紋理特征等深層信息,在復雜監控環境下的圖片和視頻數據上表現優異,成為該領域的一大研究熱點。 圖1表示人群計數領域的里程碑,標注了人群計數網絡的簡要發展過程。近幾年大趨勢是使用基于多列和單列的網絡結構,結合目標定 位和目標追蹤等額外技術來設計人群計數網絡,這也是未來的發展方向。
2基于相似性度量的人群計數方法
2.1 基于推土機距離的損失項
在統計學中,推土機距離(Earth mover's distance,又叫Wasserstein distance或Kantorovich-Rubinsterin metric)是用來衡量兩個概率分布相似性的一種方法。顧名思義,假設在空間[D]上有兩堆形狀不同的土堆,則將把一堆土變形為另一堆土所需要花費的最小代價定義為推土機距離。嚴格來說,當兩個概率分布具有相同的積分總和(即兩堆土的總量是相等的),推土機距離的定義才有效,且等于一階Wasserstein距離。
為了解決背景干擾問題,本節引入推土機距離來度量真實密度圖和預測密度圖之間的相似性:
其中[μ]、[v]分別代表原始密度圖和預測密度圖上的概率分布,[M,d]為對應圖像的度量空間。
基于推土機距離的損失項優勢在于可以直接度量預測密度圖與真實密度圖之間的相似性,來替代通過高斯模糊預處理數據來度量預測密度圖與模糊后的真實密度圖的相似性。也就是說,使用高斯模糊來預處理數據會使目標與背景融為一體、難以分辨,即使訓練得到的模型損失很低,該模型學習到的仍然是模糊的真實密度圖。本節提出的基于推土機距離的損失項正是避開了這個問題來直接度量。從理論上說,使用該損失項訓練得到的模型預期效果應當優于使用模糊的真實密度圖訓練的模型。
2.2 基于全變差距離的損失項
全變差(Total Variation)在數學中原本定義為曲線的一維弧長。對樣本空間[Ω]上的兩個概率分布[P]、[Q],其全變差為:
基于全變差距離的損失項優勢在于可以通過度量概率分布的總變化來計算預測密度圖與真實密度圖之間的差異大小,從而削弱由目標遮擋帶來的計數影響。換句話說,當圖片中的目標被物體遮擋變得難以辨別時,全變差距離能夠敏感地發現模型因該目標造成的計數誤差,并直觀地通過損失項的值來反映誤差的大小。因此本節提出的基于全變差距離的損失項能夠從一定程度上緩解目標遮擋問題,使用該損失項訓練得到的模型預期效果應當優于未解決目標遮擋問題的模型。
2.3基于相似性度量的人群計數網絡
近年來,人群計數算法常基于遷移學習,將預訓練好的卷積神經網絡作為主干,添加額外的網絡模塊來進行訓練。遷移學習是一種機器學習方法,是將已有問題的解決模型利用在其他相關問題上,例如用來辨別車輛的模型也可以被用來辨別船只。
為了驗證本文提出的基于相似性度量的損失函數在人群計數問題上的效果,實驗將基于遷移學習,直接使用該損失函數來訓練VGG16網絡,網絡模型的結構如圖2所示。
本文實驗直接使用VGG16網絡的優勢在于:
1)可以直接使用預訓練好的權重來微調網絡,進行遷移學習,大大節省資源開銷,提升訓練速度;
2)在人群計數問題中,相比于其他經典卷積神經網絡,VGG16更多地被作為主干網絡來設計模型,這使得本文實驗具有參考價值;
3)VGG16是一個簡潔高效的卷積神經網絡,可以更純粹地評估本文提出的損失函數的效果。
3 實驗結果與分析
3.1 實驗數據集與評價指標
為了驗證提出方法的效果,本文將使用目前公開的Shanghai Tech數據集進行實驗。在人群計數問題中存在多種模型評價指標,最常用的評價指標為平均絕對誤差(MAE)和均方根誤差(RMSE)。
3.2實驗結果與分析
表1展示了基于相似性度量的人群計數方法與經典人群計數方法在Shanghai Tech數據集上的實驗結果和對比。圖3 為對應的預測效果。
通過定性分析各數據集上的實驗效果可以發現,本文設計的基于相似性度量的人群計數方法能夠很好地緩解人群計數問題中背景干擾和目標遮擋問題。
4總結
為了緩解人群計數問題中背景干擾和目標遮擋兩大問題,本文從理論出發,引入了推土機距離和全變差距離來度量預測密度圖和真實密度圖之間的相似性,進一步提出了基于相似性度量的損失函數?;谕仆翙C距離的損失項優勢在于可以避免使用高斯模糊處理造成目標與背景融為一體的情況直接度量預測密度圖與真實密度圖的差異。基于全變差距離的損失項優勢在于可以度量概率分布的總變化來削弱由目標遮擋帶來的計數影響。通過實驗最終證明了該方法的有效性,能夠在一定程度上緩解背景干擾和目標遮擋兩大問題。
參考文獻:
[1] Sindagi V A,Patel V M.A survey of recent advances in CNN-based single image crowd counting and density estimation[J].Pattern Recognition Letters,2018,107:3-16.
[2] Wu B,Nevatia R.Detection of multiple,partially occluded humans in a single image by Bayesian combination of edgelet part detectors[C]//Tenth IEEE International Conference on Computer Vision (ICCV'05) Volume 1.October 17-21,2005,Beijing,China.IEEE,2005:90-97.
[3] Chan A B,Liang Z S John,Vasconcelos N.Privacy preserving crowd monitoring:Counting people without people models or tracking[C]//2008 IEEE Conference on Computer Vision and Pattern Recognition.June 23-28,2008,Anchorage,AK,USA.IEEE,2008:1-7.
[4] Zhang Y Y,Zhou D S,Chen S Q,et al.Single-image crowd counting via multi-column convolutional neural network[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).June 27-30,2016,Las Vegas,NV,USA.IEEE,2016:589-597.
[5] Sam D B,Surya S,Babu R V.Switching convolutional neural network for crowd counting[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).July 21-26,2017,Honolulu,HI,USA.IEEE,2017:4031-4039.
[6] Li Y H,Zhang X F,Chen D M.CSRNet:dilated convolutional neural networks for understanding the highly congested scenes[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:1091-1100.
【通聯編輯:光文玲】