基于背景抑制與上下文感知的人群計(jì)數(shù)網(wǎng)絡(luò)

2022-09-15 06:59:44黃奕秋楊佳信歐嘉敏

計(jì)算機(jī)工程 2022年9期

關(guān)鍵詞：特征

黃奕秋，胡曉，楊佳信，歐嘉敏

（1.廣州大學(xué) 電子與通信工程學(xué)院，廣州 510006；2.廣州大學(xué) 機(jī)械與電氣工程學(xué)院，廣州 510006）

0 概述

近年來，隨著城市居住人口的不斷增加，人口密集程度不斷上升，導(dǎo)致?lián)頂D踩踏風(fēng)險(xiǎn)也隨之增加。為實(shí)時(shí)檢測人群數(shù)量變化，避免擁擠踩踏對(duì)公共安全、交通控制、智能交通等造成破壞，精確地監(jiān)測人群的數(shù)量變化成為一個(gè)十分重要的課題。

基于計(jì)數(shù)方式的不同，人群計(jì)數(shù)算法可以分為傳統(tǒng)的人群計(jì)數(shù)算法和基于深度學(xué)習(xí)的人群計(jì)數(shù)算法。傳統(tǒng)的人群計(jì)數(shù)算法首先提取圖像中行人特征，然后通過檢測或回歸的方法確定人群數(shù)量。其中，基于檢測的方法［1］是通過檢測圖像中人的頭部信息計(jì)算出人數(shù)，這種方法隨著目標(biāo)分布密集程度的增加，檢測難度也隨之增加。而基于回歸的方法［2-3］則是利用圖像的紋理特征與人數(shù)的映射關(guān)系估計(jì)出人群數(shù)量，能夠減小人群擁擠情況下的估計(jì)誤差。然而由于回歸方法無法從圖像中提取有助于完成人群計(jì)數(shù)任務(wù)的語義信息，導(dǎo)致當(dāng)存在嚴(yán)重的遮擋問題和背景干擾時(shí)，算法性能難以提升。隨著深度學(xué)習(xí)的發(fā)展，卷積神經(jīng)網(wǎng)絡(luò)（Convolution Neural Network，CNN）在許多計(jì)算機(jī)視覺任務(wù)中都取得了良好的效果［4-5］，在一定程度上突破了傳統(tǒng)網(wǎng)絡(luò)的限制，顯著提升了計(jì)數(shù)性能。但圖像存在的透視畸變問題和背景噪聲不僅影響了網(wǎng)絡(luò)的計(jì)算精度，而且約束了網(wǎng)絡(luò)的泛化能力和魯棒性。

為減少圖像中多尺度問題對(duì)計(jì)數(shù)任務(wù)的影響，ZHANG 等［6］利用端到端的深度卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)不同場景的人群計(jì)數(shù)，此網(wǎng)絡(luò)雖然提高了計(jì)數(shù)的精確性，但網(wǎng)絡(luò)的跨場景計(jì)數(shù)能力較差。文獻(xiàn)［7］提出多列卷積神經(jīng)網(wǎng)絡(luò)（Multi-Column CNN，MCNN），通過不同尺度的卷積核提取不同尺度大小的頭部特征，提高網(wǎng)絡(luò)跨場景計(jì)數(shù)的能力，但該網(wǎng)絡(luò)的結(jié)構(gòu)復(fù)雜，泛化能力有待提高。SAM 等［8］提出切換卷積神經(jīng)網(wǎng)絡(luò)（Switching CNN，SwitchCNN），該網(wǎng)絡(luò)雖然提高了泛化能力，但冗余結(jié)構(gòu)較多，計(jì)算量較大。為解決MCNN 這一類多列結(jié)構(gòu)網(wǎng)絡(luò)存在的網(wǎng)絡(luò)冗余問題，LI 等［9］提出基于擴(kuò)展卷積的密集場景識(shí)別網(wǎng)絡(luò)（Congested Scene Recognition Network，CSRNet），通過去除冗余的多列卷積層，采用7 層空洞卷積構(gòu)成一個(gè)單通道端到端的人群計(jì)數(shù)網(wǎng)絡(luò)，在減少網(wǎng)絡(luò)冗余的情況下提高了模型對(duì)透視畸變的抗干擾能力。與CSRNet 類似，LIU 等［10］設(shè)計(jì)了一個(gè)上下文感知網(wǎng)絡(luò)（Context-Aware Network，CAN）以自適應(yīng)預(yù)測人群密度所需的上下文信息，進(jìn)而減小圖像多尺度問題造成的干擾。值得注意的是，雖然CSRNet 和CAN 均減少了此問題造成的影響，但圖像本身存在的背景噪聲對(duì)人群計(jì)數(shù)的精度仍然造成影響，并未得到改善。

為抑制圖像背景對(duì)人群計(jì)數(shù)網(wǎng)絡(luò)性能的干擾，文獻(xiàn)［11］提出注意力尺度網(wǎng)絡(luò)（Attention Scaling Network，ASNet），并利用二進(jìn)制掩碼對(duì)背景和人群進(jìn)行分割，但該網(wǎng)絡(luò)并不能實(shí)現(xiàn)端到端的計(jì)算，網(wǎng)絡(luò)計(jì)算量較大。ZHU 等［12］通過對(duì)稱雙路徑多尺度融合網(wǎng)絡(luò)（Dual Path Multi-scale Fusion Network，SFANet），利用空間注意力圖過濾密度圖的噪聲以提高計(jì)數(shù)準(zhǔn)確度，但其生成的空間注意力圖精度有待提高，無法對(duì)噪聲進(jìn)行充分抑制，網(wǎng)絡(luò)的泛化能力和魯棒性有待增強(qiáng)。

本文對(duì)SFANet 進(jìn)行改進(jìn)，提出基于背景抑制與上下文感知的人群計(jì)數(shù)網(wǎng)絡(luò)。通過構(gòu)建背景噪聲抑制（Background Noise Suppression，BNS）模塊提高網(wǎng)絡(luò)對(duì)圖像背景噪聲的抑制能力，并設(shè)計(jì)上下文感知增強(qiáng)網(wǎng)絡(luò)結(jié)構(gòu)，減少圖像透視畸變對(duì)計(jì)數(shù)任務(wù)的干擾。

1 本文網(wǎng)絡(luò)

1.1 網(wǎng)絡(luò)結(jié)構(gòu)

本文網(wǎng)絡(luò)由VGG-16 網(wǎng)絡(luò)、密度圖生成（Density Map Generation，DMG）模塊、BNS 模塊以及上下文感知增強(qiáng)網(wǎng)絡(luò)（Weight Enhancement-Context Aware Network，WE-CAN）4 個(gè)部分組成，具體結(jié)構(gòu)如圖1所示。

圖1 本文網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of network in this paper

由圖1 可知，該網(wǎng)絡(luò)首先利用特征提取網(wǎng)絡(luò)VGG-16 提取輸入圖像不同層次的特征并分別輸入DMG 模塊和BNS 模塊中進(jìn)行處理，生成密度特征圖和空間注意力圖。然后，將生成的密度特征圖和空間注意力圖相乘，得到能有效抑制噪聲的初級(jí)密度圖。最后，利用WE-CAN 模塊提取初級(jí)密度圖上下文信息并進(jìn)行優(yōu)化處理，減少透視畸變引起的問題，進(jìn)而獲得高質(zhì)量的預(yù)測密度圖。

1.2 密度圖生成模塊

DMG 模塊的作用是生成高分辨率的初級(jí)密度圖，其結(jié)構(gòu)如圖1 中DMG 模塊所示。由于低層特征包含更多的紋理信息，高層特征包含頭部等位置信息［13］，因此DMG 模塊采用特征金字塔的結(jié)構(gòu)［14］能使輸入的低層特征圖和高層特征圖的信息有效互補(bǔ)，從而得到高分辨率的初級(jí)密度圖。

在DMG 模塊中，首先提取VGG-16 網(wǎng)絡(luò)中4 個(gè)池化層的中間特征圖，分別記為F1、F2、F3、F4；然后依次對(duì)F1、F2、F3、F4進(jìn)行特征融合。DMG 模塊首先利用特征融合策略對(duì)F4進(jìn)行兩倍上采樣，并與F3級(jí)聯(lián)，利用T 操作處理得到通道數(shù)為256 的中間特征圖FC1；然后，使用T 操作將FC1和F2進(jìn)行特征融合并進(jìn)行降維操作，生成通道數(shù)為128 的特征圖FC2；最后，利用H 操作對(duì)FC2與F1級(jí)聯(lián)后的特征進(jìn)行融合，在經(jīng)過特征通道降維后得到通道數(shù)為32 的高分辨率的密度特征圖Fden，其大小為原始輸入的1/2。

生成高分辨率的密度特征圖Fden后，為了減少圖像背景對(duì)計(jì)數(shù)結(jié)果的干擾，將Fden與BNS 模塊生成的空間注意力圖Matt進(jìn)行相乘操作，實(shí)現(xiàn)對(duì)噪聲的抑制，最后生成初級(jí)密度圖Frefine。此過程的表達(dá)式如式（1）所示：

其中：?表示逐點(diǎn)相乘操作。

1.3 背景噪聲抑制模塊

BNS 模塊旨在生成對(duì)圖像背景噪聲起抑制作用的空間注意力圖Matt，其結(jié)構(gòu)如圖1 中BNS 模塊所示。由式（1）可知，空間注意力圖Matt對(duì)噪聲的抑制能力越強(qiáng)，其與Fden相乘后生成初級(jí)密度圖Frefine的精確度越高。因此，為增強(qiáng)空間注意力圖抑制噪聲的能力，本文設(shè)計(jì)了基于通道域注意力ECA 模塊［15］和多層次信息融合的BNS 模塊。由于低層特征包含細(xì)節(jié)邊緣的信息，且高層特征圖具有區(qū)分頭部區(qū)域與噪聲的有效語義信息，因此BNS 模塊使用ECA 模塊充分提取不同層次的有效信息，提高頭部特征信息表達(dá)能力，從而生成高質(zhì)量的空間注意力圖。通道域注意力模塊ECA 的結(jié)構(gòu)如圖2 所示，其中，K為卷積核，GAP 為全局平均池化。

圖2 ECA 模塊結(jié)構(gòu)Fig.2 Structure of ECA module

由圖2 可知，ECA 模塊的引入不僅能增強(qiáng)低層特征圖中細(xì)節(jié)邊緣信息的表達(dá)，而且能提高高層特征圖中用于區(qū)分頭部和背景的語義信息權(quán)重。具體而言，ECA 模塊首先利用卷積核大小為K的一維卷積獲取特征圖中每個(gè)通道以及K個(gè)相鄰?fù)ǖ乐g的交互信息，從而計(jì)算出不同通道的權(quán)重，此過程用C1DK(·)表示。然后，將計(jì)算得到的權(quán)重與原始特征圖相乘，以增強(qiáng)不同特征中有效信息的表達(dá)［15］，此過程如式（2）所示：

其中：x表示輸入特征；y表示輸出結(jié)果；sigmoid 表示sigmoid 激活函數(shù)；在網(wǎng)絡(luò)中K值設(shè)為3。

為進(jìn)一步突出空間注意力圖中前景和后景差異［12］，BNS 模塊在輸出空間注意力圖前使用1×1×1 卷積對(duì)特征圖進(jìn)行降維，并使用sigmoid 函數(shù)將空間注意力圖像素點(diǎn)的值映射為（0，1），從而區(qū)分圖像中頭部區(qū)域與背景區(qū)域，此過程的表達(dá)式如式（3）所示：

其中：Matt表示最終生成的空間注意力圖；fatt表示經(jīng)過3 個(gè)通道域注意力模塊優(yōu)化后的中間特征圖；*表示卷積操作；W和b分別表示一維卷積的權(quán)重和偏置。

1.4 上下文感知增強(qiáng)網(wǎng)絡(luò)

為增強(qiáng)特征圖中上下文信息的表達(dá)，減少圖像透視畸變?cè)斐傻挠绊?，本文在CAN［10］模塊的基礎(chǔ)上結(jié)合特征權(quán)重增強(qiáng)模塊（Feature Weight Enhance Module，WE）進(jìn)行改進(jìn)，提出WE-CAN 模塊。其中WE 模塊用于增強(qiáng)特征圖中多尺度上下文信息的表達(dá)，其結(jié)構(gòu)如圖3 所示。由圖3 可知，WE 模塊的功能是提取DMG 模塊所生成初級(jí)密度圖Frefine中的多尺度特征并增強(qiáng)其中有效信息的表達(dá)。WE 模塊首先對(duì)Frefine進(jìn)行平均池化［16-17］，并使用一個(gè)1×1 卷積和2 個(gè)3×3 卷積以不同的感受野提取Frefine的多尺度信息。為有效提取不同尺度的頭部特征，本文首先根據(jù)文獻(xiàn)［16］中提出的空洞空間卷積池化金字塔中對(duì)卷積核的設(shè)置，將1×1 卷積的空洞率設(shè)為1，2 個(gè)3×3卷積的空洞率分別設(shè)為6 和12。然后，對(duì)提取到的頭部特征與池化后的Frefine進(jìn)行級(jí)聯(lián)后降維輸出，記為FA。其次，利用通道域注意力模塊（Squeeze and Excitation Module，SE）［18］強(qiáng)化Frefine中有效的多尺度信息表達(dá)，生成具有顯著信息的特征，記為FS。最后，對(duì)FA和FS進(jìn)行相乘操作，生成多尺度特征密度圖Fm，該過程可以表述為：

圖3 WE-CAN 模塊結(jié)構(gòu)Fig.3 Structure of WE-CAN module

其中：Fm表示W(wǎng)E 模塊生成的多尺度特征密度圖。

結(jié)合WE 模塊對(duì)CAN［10］模塊進(jìn)行改進(jìn)，本文提出的WE-CAN 模塊能提取特征中更詳細(xì)的空間信息和全局信息，增強(qiáng)網(wǎng)絡(luò)自適應(yīng)優(yōu)化多級(jí)上下文信息的能力，其結(jié)構(gòu)如圖3（a）所示。由圖3（a）可知，WE-CAN 模塊分為4 個(gè)步驟：首先使用4 個(gè)不同核大小的平均池化層對(duì)初級(jí)密度圖Frefine進(jìn)行多尺度特征提取，生成4 個(gè)不同尺寸的感受野，以感知上下文特征Sj，比例分別為1、2、3、6［10］；其次，將Sj與WE 模塊生成的Fm相減，從而提取出目標(biāo)特征與相鄰特征的特征差異Cj，實(shí)現(xiàn)WE-CAN 模塊中的特征差異提取，其定量表述為式（5）；然后，WE-CAN 模塊將計(jì)算出的Cj輸入到權(quán)重計(jì)算網(wǎng)絡(luò)中，利用一維卷積計(jì)算不同尺度在輸入特征圖中的尺度權(quán)重ωj，此過程可表述為式（6）；最后，利用尺度權(quán)重ωj對(duì)初級(jí)密度圖Frefine進(jìn)行透視矯正并降維輸出，使網(wǎng)絡(luò)生成高質(zhì)量的預(yù)測密度圖Dpre，該過程可表述為式（7）：

其中：[·|·]表示級(jí)聯(lián)操作。

2 實(shí)驗(yàn)與結(jié)果分析

2.1 數(shù)據(jù)集

ShanghaiTech、UCF-CC-50 以及UCF-QNRF 數(shù)據(jù)集是目前人群計(jì)數(shù)研究中的主流數(shù)據(jù)集詳情如下：

1）ShanghaiTech 數(shù)據(jù)集是由ZHANG［8］等提出的大型開源數(shù)據(jù)集，該數(shù)據(jù)集由Part A 和Part B 2 個(gè)部分組成。Part A 包含從互聯(lián)網(wǎng)中隨機(jī)收集的482 張圖片，其中300 張用于訓(xùn)練，182 張用于測試。Part B則包含716 張拍攝于上海繁華街道的圖片，其中400 張用于訓(xùn)練，316 張用于測試。

2）UCF-CC-50 數(shù)據(jù)集［19］是一個(gè)包含擁擠人群圖片的開源數(shù)據(jù)集，一共包括50 張不同分辨率的人群圖片。該數(shù)據(jù)集圖片人數(shù)變化大，人群范圍跨度大，從94 人到4 543 人，平均每張圖片1 280 人。為更好地驗(yàn)證模型的準(zhǔn)確性，在實(shí)驗(yàn)過程中使用與文獻(xiàn)［20］相同的5 折交叉驗(yàn)證法：首先在不重復(fù)的前提下將數(shù)據(jù)集平均劃分為5 份，每份10 張圖像。然后每次選擇不同的一份作為測試集，將余下的4 份作為訓(xùn)練集進(jìn)行訓(xùn)練，分別獲得5 組測試結(jié)果，最后取5 組測試結(jié)果的平均值作為模型的性能指標(biāo)，并與其他網(wǎng)絡(luò)進(jìn)行比較。

3）UCF-QNRF 數(shù)據(jù)集［20］是一個(gè)復(fù)雜且擁擠的人群數(shù)據(jù)集，共包含1 251 642 處人體標(biāo)注。該數(shù)據(jù)集共有1 535 張圖像，訓(xùn)練集由1 201 張圖像組成，其余334 張作為測試集。UCF-QNRF 數(shù)據(jù)集不僅包含多種多樣的環(huán)境背景，而且數(shù)據(jù)集中圖像的分辨率差異較大，具有一定的挑戰(zhàn)性。

本文采用的3 個(gè)數(shù)據(jù)集對(duì)比結(jié)果如表1 所示。

表1 本文數(shù)據(jù)集信息Table 1 Information of datasets in this paper

2.2 數(shù)據(jù)處理

2.2.1 真實(shí)人群密度圖生成

由于現(xiàn)有的人群計(jì)數(shù)數(shù)據(jù)集只標(biāo)注了圖像中人頭的位置，因此需要將人頭位置轉(zhuǎn)化為真實(shí)人群密度圖以提供更多的監(jiān)督信息。本文按照文獻(xiàn)［8］中生成密度圖的方法，對(duì)所有的目標(biāo)均采用內(nèi)核大小相同的高斯濾波器進(jìn)行處理。首先使用δ(x-xi)表示圖像在像素點(diǎn)xi上的頭部標(biāo)注，然后利用標(biāo)準(zhǔn)差為σi的高斯核濾波器Gσi對(duì)每個(gè)頭部標(biāo)注進(jìn)行高斯模糊處理，進(jìn)而得到相應(yīng)的真實(shí)人群密度圖DGT，該過程可定量描述為：

其中：標(biāo)準(zhǔn)差σi由K最近鄰算法計(jì)算得出；表示xi和k個(gè)相鄰點(diǎn)之間的距離，k設(shè)為3；β為超參數(shù)，根據(jù)文獻(xiàn)［7］將其設(shè)為0.3。

2.2.2 真實(shí)空間注意力圖生成

為使網(wǎng)絡(luò)生成預(yù)測空間注意力圖，實(shí)現(xiàn)對(duì)預(yù)測密度圖的權(quán)重分配，本文根據(jù)文獻(xiàn)［12］設(shè)定閾值的方式對(duì)真實(shí)人群密度圖DGT進(jìn)行二值化處理，將人群區(qū)域和背景區(qū)域進(jìn)行分割，從而獲得真實(shí)空間注意力圖ΑGT，該過程可定量描述為：

其中：x表示DGT中不同位置像素點(diǎn)的值；t表示閾值，在本文實(shí)驗(yàn)中將其設(shè)為0.001。

2.3 訓(xùn)練方法

本文基于Pytorch框架，在Ubuntu18.04系統(tǒng)和RTX 2080Ti GPU 條件下進(jìn)行實(shí)驗(yàn)。為提高訓(xùn)練速度和計(jì)數(shù)精度，本文導(dǎo)入VGG-16 預(yù)訓(xùn)練模型并將其作為前端特征提取器，其余網(wǎng)絡(luò)參數(shù)初始值由均值為0、標(biāo)準(zhǔn)差為0.01 的高斯分布隨機(jī)生成。同時(shí)，采用Adam 優(yōu)化器訓(xùn)練，學(xué)習(xí)率設(shè)為1×10-4，權(quán)重衰減設(shè)為5×10-3，迭代次數(shù)設(shè)為800 次，批量化大小設(shè)為8。

2.4 多任務(wù)聯(lián)合損失函數(shù)

為獲得精確的人群估計(jì)結(jié)果，本文根據(jù)文獻(xiàn)［12］的方法，將多任務(wù)聯(lián)合損失函數(shù)分別用于訓(xùn)練網(wǎng)絡(luò)生成有效的預(yù)測空間注意力圖和精準(zhǔn)的預(yù)測密度圖。此外，基于現(xiàn)有的研究，本文利用歐氏幾何距離測量預(yù)測人群密度圖和真實(shí)人群密度圖之間的差值并將其作為損失函數(shù)，以用于訓(xùn)練網(wǎng)絡(luò)模型生成預(yù)測密度圖。損失函數(shù)的表達(dá)式如式（11）所示：

其中：F(Xi；Θ)表示預(yù)測的人群密度圖；Θ表示網(wǎng)絡(luò)學(xué)習(xí)參量；xi和DGT分別表示輸入圖像和真實(shí)人群密度圖。

為得到有效的空間注意力圖，本文在訓(xùn)練過程中采用二進(jìn)制交叉熵?fù)p失（Binary Cross Entropy Loss，BCELoss）作為損失函數(shù)，計(jì)算人群空間注意力圖與真實(shí)人群空間注意力圖之間的差值。損失函數(shù)的表達(dá)式如式（12）所示：

其中：表示真實(shí)人群空間注意力圖；Pi是經(jīng)過sigmoid 函數(shù)處理后預(yù)測空間注意力圖中每個(gè)像素的概率值。

在訓(xùn)練過程中使用多任務(wù)結(jié)合損失函數(shù)實(shí)現(xiàn)端到端的訓(xùn)練，多任務(wù)聯(lián)合損失函數(shù)表達(dá)式如式（13）所示：

其中：α為超參數(shù)，設(shè)其為0.1。

2.5 評(píng)價(jià)指標(biāo)

現(xiàn)有的研究主要使用平均絕對(duì)誤差（Mean Absolute Error，MAE）和均方誤差（Mean Square Error，MSE）對(duì)模型進(jìn)行評(píng)估，MAE 反映了網(wǎng)絡(luò)的準(zhǔn)確性，而MSE 體現(xiàn)了網(wǎng)絡(luò)的泛化能力。其計(jì)算過程分別如式（14）和式（15）所示：

其中：N表示測試集中測試圖像的數(shù)量；分別表示網(wǎng)絡(luò)預(yù)測的人群總數(shù)和真實(shí)人群密度圖中的人群總數(shù)。

2.6 結(jié)果分析

為驗(yàn)證本文網(wǎng)絡(luò)的有效性，在人群計(jì)數(shù)任務(wù)數(shù)據(jù) 集ShanghaiTech、UCF-CC-50 以及UCF-QNRF 數(shù)據(jù)集上分別進(jìn)行實(shí)驗(yàn)，并與現(xiàn)有的其他網(wǎng)絡(luò)包括MCNN［7］，SwitchCNN［8］，CSRNet［9］，多尺度聚合網(wǎng)絡(luò)（Multi-Scale Aggregation Network，SANet）［21］，CAN［10］，關(guān)系注意力神經(jīng)網(wǎng)絡(luò)（Relational Attention Network，RANet）［22］，SFANet［12］，泛密度神經(jīng)網(wǎng)絡(luò)（Pan-Density Neural Network，PaDNet）［23］，密度感知卷積神經(jīng)網(wǎng)絡(luò)（Density-Aware CNN，DensityCNN）［24］以及多尺度感知人群計(jì)數(shù)神經(jīng)網(wǎng)絡(luò)（Scale-Aware Crowd Counting Network，SACCN）［25］進(jìn)行對(duì)比分析，實(shí)驗(yàn)結(jié)果如表2 所示。

表2 不同網(wǎng)絡(luò)在公開數(shù)據(jù)集上的MAE 與MSE 結(jié)果比較Table 2 Comparison on MAE and MSE of different networks on public datasets

由表2 可知，對(duì)于ShanghaiTech 數(shù)據(jù)集，本文網(wǎng)絡(luò)模型在密集程度較高的Part A 子集上的MAE 和MSE 分別為56.6 和97.6，均達(dá)到了先進(jìn)水平。同時(shí)在人群密度較低的Part B 子集中，本文網(wǎng)絡(luò)也取得了所有對(duì)比網(wǎng)絡(luò)中最佳的MAE 和MSE，分別為6.3和10.2，相比SFANet 分別下降了8.7%和6.4%。在樣本量較少，但視角豐富的UCF-CC-50 數(shù)據(jù)集中，本文網(wǎng)絡(luò)取得了對(duì)比網(wǎng)絡(luò)中最低的MAE 和MSE，分別為160.6 和224.7，與SFANet 相比分別下降了26.9%和28.9%。在場景豐富、圖像視角多樣的UCF-QNRF 數(shù)據(jù)集中，本文網(wǎng)絡(luò)的MAE 和MSE 分別為85.8 和146.0，取得了對(duì)比網(wǎng)絡(luò)中的最佳結(jié)果，與SFANet 相比MAE 下降了14.9%，MSE 下降了16.3%。

表2 的實(shí)驗(yàn)數(shù)據(jù)說明本文網(wǎng)絡(luò)在擁擠人群和稀疏人群場景中均具有較高的準(zhǔn)確性，而且在圖像畸變較為嚴(yán)重、背景環(huán)境復(fù)雜多樣的擁擠人群場景中具有良好性能，體現(xiàn)了該網(wǎng)絡(luò)良好的泛化能力和較強(qiáng)的魯棒性。

2.7 消融性實(shí)驗(yàn)

為驗(yàn)證BNS 模塊和WE-CAN 模塊的有效性，在ShanghaiTech 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，分析不同模塊對(duì)網(wǎng)絡(luò)性能的影響。

消融實(shí)驗(yàn)結(jié)果如表3 所示。首先以SFANet 作為基線網(wǎng)絡(luò)，并在其基礎(chǔ)上增加BNS 模塊進(jìn)行實(shí)驗(yàn)，從而驗(yàn)證BNS 模塊的有效性。此外，為驗(yàn)證WE-CAN模塊的有效性，在基線網(wǎng)絡(luò)添加了BNS 模塊的基礎(chǔ)上分別添加CAN 模塊和WE-CAN 模塊進(jìn)行對(duì)比實(shí)驗(yàn)。由表3 可知，SFANet 增加BNS 模塊后在Part A數(shù)據(jù)集上的MAE 下降1.5%，在Part B 數(shù)據(jù)集的MAE下降2.9%，MSE 下降4.6%。當(dāng)SFANet 依次增加BNS 模塊和CAN 模塊后，Part A 數(shù)據(jù)集的MAE 相比SFANet 下降3.5%，Part B 數(shù)據(jù)集的MAE 下降4.3%，MSE 下降4.6%。當(dāng)網(wǎng)絡(luò)增加了WE-CAN 模塊后，在Part A 數(shù)據(jù)集的MAE 下降5.3%，Part B 數(shù)據(jù)集的MAE 和MSE 分別下降了8.7%和6.4%。上述消融性實(shí)驗(yàn)驗(yàn)證了本文設(shè)計(jì)的BNS 模塊和WE-CAN 模塊在人群計(jì)數(shù)任務(wù)中的有效性和合理性。

表3 消融實(shí)驗(yàn)結(jié)果Table 3 Results of ablation experiment

2.8 結(jié)果可視化

將本文網(wǎng)絡(luò)和SFANet 生成的密度圖進(jìn)行對(duì)比，結(jié)果如圖4 所示（彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML 版）。

圖4 本文網(wǎng)絡(luò)與SFANet 的預(yù)測密度圖比較Fig.4 Comparison of predict density map between SFANet and network in this paper

由圖4 可知，當(dāng)擁擠人群存在旗幟等遮擋物的時(shí)候，SFANet 無法很好區(qū)分人群和背景區(qū)域，容易將旗幟上的圖案判定為人體特征，導(dǎo)致最終預(yù)測結(jié)果誤差較大。而本文網(wǎng)絡(luò)能有效抑制噪聲，使生成的預(yù)測密度圖能準(zhǔn)確突出人群區(qū)域，提高人群計(jì)數(shù)任務(wù)的計(jì)算精度。

此外，本文網(wǎng)絡(luò)能生成較精確的預(yù)測空間注意力圖和預(yù)測密度圖，且能進(jìn)行可視化，可視化結(jié)果如圖5所示（彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML 版）。

圖5 本文網(wǎng)絡(luò)的實(shí)驗(yàn)效果展示Fig.5 Experimental effect display of network in this paper

由圖5 左數(shù)第1 列、第2 列圖可知，針對(duì)存在背景干擾較嚴(yán)重的擁擠人群場景的圖像，本文網(wǎng)絡(luò)能將圖像中存在的汽車、樹木等遮擋物識(shí)別為背景元素，減少遮擋物對(duì)預(yù)測結(jié)果的干擾。由圖5 左數(shù)第3 列圖可知，針對(duì)目標(biāo)尺度變化較大的圖像，本文網(wǎng)絡(luò)生成的預(yù)測空間注意力圖和預(yù)測密度圖均能較好地對(duì)圖像中的多尺度目標(biāo)進(jìn)行檢測。由圖5 左數(shù)第4 列圖可知，針對(duì)稀疏人群場景的圖像，本文網(wǎng)絡(luò)也能生成精確的預(yù)測空間注意力圖和預(yù)測密度圖，體現(xiàn)了該網(wǎng)絡(luò)良好的跨場景計(jì)數(shù)能力。

綜上所述，本文網(wǎng)絡(luò)能生成高質(zhì)量的預(yù)測密度圖，在有效抑制圖像噪聲干擾的同時(shí)，也能有效減少透視畸變引起的估計(jì)誤差，展示了該網(wǎng)絡(luò)在人群計(jì)數(shù)領(lǐng)域中優(yōu)越的性能。

3 結(jié)束語

本文提出基于背景抑制與上下文感知的人群計(jì)數(shù)網(wǎng)絡(luò)，通過引入DMG 模塊有效提取不同層次特征的有效信息，生成高分辨率的特征圖，并利用BNS 模塊充分抑制圖像噪聲干擾，提高模型的人群計(jì)數(shù)精度。此外，采用WE-CAN 模塊解決圖像存在的透視畸變問題，在對(duì)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練時(shí)采用多任務(wù)的聯(lián)合損失函數(shù)，以提高模型的計(jì)數(shù)精度。實(shí)驗(yàn)結(jié)果表明，本文網(wǎng)絡(luò)在UCF-QNRF 數(shù)據(jù)集上的平均絕對(duì)誤差和均方誤差分別為85.8、146.0，相較于MCNN、SwitchCNN、CSRNet 等網(wǎng)絡(luò)最高分別下降69.0%和67.2%，具有良好的泛化能力和較強(qiáng)的魯棒性。下一步將引入霧霾、暴雨等復(fù)雜天氣變化的數(shù)據(jù)樣本和存在低光照、過曝等光照變化的數(shù)據(jù)樣本對(duì)模型進(jìn)行訓(xùn)練，提高網(wǎng)絡(luò)在復(fù)雜環(huán)境下的計(jì)算精度。