楊佩龍,陳樹越,楊尚瑜,王佳宏
基于RGB-T圖像的雙流殘差擴張網絡人群計數算法
楊佩龍,陳樹越,楊尚瑜,王佳宏
(常州大學 計算機與人工智能學院,江蘇 常州 213164)
在人群計數中,針對尺度變化、行人分布不均以及夜間較差成像條件,提出了一種基于RGB-T(RGB-Thermal)圖像的多模態人群計數算法,稱為雙流殘差擴張網絡,它由前端特征提取網絡、多尺度的殘差擴張卷積模塊和全局注意力模塊所構成。其中,前端網絡用來提取RGB特征和熱特征,擴張卷積模塊進一步提取不同尺度的行人特征信息,全局注意力模塊用來建立全局特征之間的依賴關系。此外,還引入了一種新的多尺度差異性損失,以提高網絡的計數性能。為評估該方法,在RGBT-CC(RGBT Crowd Counting)數據集和DroneRGBT數據集上進行了對比實驗。實驗結果表明,在RGBT-CC數據集上與CMCRL(Cross-modal Collaborative Representation Learning)算法相比該算法的GAME(0)(Grid Average Mean absolute Errors)和RMSE(Root Mean Squared Error)分別降低了0.8和3.49,在DroneRGBT數據集上與MMCCN(Multi-Modal Crowd Counting Network)算法比分別降低了0.34和0.17,表明具有較好的計數性能。
人群計數;RGB-T圖像;擴張卷積;全局注意力;多尺度差異性損失
人群計數[1]作為計算機視覺領域的一個基礎任務,其目的是估計給定圖像或視頻中包含的行人數量。近些年,由于在人群流量檢測[2]、人群行為分析[3-4]和智能視頻監控[5]等多方面的應用,人群計數受到了越來越多的關注,也因此成為近幾年一個比較活躍的研究課題。但受到光照、尺度變化、遮擋、行人分布不均和圖像采集的不同視角等諸多外在因素的影響,人群計數依然是一個有挑戰性的研究領域。
在卷積神經網絡應用于人群計數領域之前,人群計數的方法主要分為基于檢測的方法[6-7]和基于回歸的方法[8-9]。然而,這些方法都無法處理擁擠場景下,行人相互遮擋、背景干擾以及尺度變化等問題。為了解決這些問題,近幾年提出了很多基于神經網絡回歸密度圖的方法[1,10-11]。目前大多回歸密度圖的方法都是從RGB圖像中提取行人特征,再根據提取的特征回歸密度圖。然而,該方法存在一個缺陷,在黑暗、大霧等幾乎看不見行人的場景中,僅依靠RGB圖像無法提取到有效的行人特征信息。隨著跨模態學習即RGB-T的流行[12],融合RGB信息和熱信息就成為了該問題的解決方案之一。RGB-T圖像(成對的RGB圖像和熱圖像)之間存在信息互補,如圖1所示,在光線良好的場景下RGB圖片清晰,而熱圖像難以區分行人和背景。相反,在黑暗中熱圖像清晰,而RGB圖像則幾乎看不見行人。因此,如何對RGB信息和熱信息進行融合以及圖像存在的尺度變化、行人分布不均等就成了當前需要研究的主要問題。如,Liu等[13]引入了一個大規模的RGBT-CC數據集并提出了一種跨模態協作表示學習框架,通過提出的信息聚合分布模塊,來充分捕獲不同模態的互補信息。Peng等[14]提出了一種多模態人群計數網絡并引入了一個基于無人機的DroneRGBT數據集。Tang等[12]為解決該問題首次提出了一種三流自適應融合網絡TAFNet,通過提出的信息改進模塊來自適應地將兩個輔助流的模式特征融合到主流信息中去。然而,以上3種算法的著重點都放在RGB信息和熱信息的融合上面,忽略了對圖像中尺度變化以及行人分布不均等問題的處理,這不利于生成高質量的人群密度圖。
基于以上討論,本文給出一種新的多模態人群計數網絡模型,由于采用RGB圖像和熱圖像作為輸入,且前端網絡使用了雙流的VGG-19[15]的前12層卷積,因此該模型稱為雙流殘差擴張網絡TSRDNet(Two-Stream Residual Dilation Network),它由前端網絡、殘差擴張卷積模塊和全局注意力模塊組成。在殘差擴張卷積模塊中,疊加的擴張卷積層可以捕獲不同尺度的行人特征信息,包含1×1卷積的殘差連接可以改善網絡的信息流通并避免深層網絡的退化[16]。由于全局特征之間的依賴關系對算法理解場景來說至關重要,因此在每個多尺度的殘差擴張卷積模塊之間引入了全局注意力模塊。全局注意力模塊通過對通道和空間信息進行重新賦值,來提高模型的表達能力。此外,很多先前的方法,在訓練過程中都使用歐幾里得損失來計算預測值與真值之間的差距。然而,使用歐幾里得損失的前提是默認人群密度圖中每個像素點相互獨立,這忽略了密度圖局部之間的差異性,不利于生成高質量的人群密度圖[17]。因此,為解決該問題,本文在歐幾里得損失的基礎上,設計了一種新的多尺度差異性損失。多尺度差異性損失根據預測值與真值之間在多個不同尺度上的差異,可以有效地衡量預測值與真值在全局和局部之間的差異性。通過對以上兩個損失算法進行加權結合得到的綜合損失,可以加快網絡的收斂速度,并進一步提高網絡的計數性能。

綜上所述,本文的主要貢獻如下:
1)提出了一種用于RGB-T圖像的多模態人群計數卷積神經網絡模型TSRDNet。該模型利用殘差擴張卷積模塊和引入的全局注意力模塊,解決了RGB信息和熱信息融合中尺度變化、行人分布不均等問題,實現了高性能的人群計數。
2)設計了一種多尺度差異性損失,并與歐幾里得損失進行加權結合。綜合后的損失函數可以更加有效地衡量預測值和真值之間在不同尺度上的差異,有助于網絡生成更高質量的人群密度圖,提高計數的準確性和魯棒性。
本文算法核心是設計一個具有尺度多樣性的卷積神經網絡,用來融合RGB信息和熱信息并處理圖像中尺度變化和行人分布不均等問題。在這一部分,首先介紹提出的TSRDNet,包括前端網絡、殘差擴張卷積模塊和全局注意力模塊等,該算法的總體結構圖如圖2所示。其次,介紹多尺度差異性損失,它使預測的人群密度圖與真值之間在多個尺度中保持一致。
所給出的TSRDNet包括一個用來提取RGB特征和熱特征的前端網絡,4個殘差擴張卷積模塊,4個全局注意力模塊以及一個用來生成人群密度圖的1×1卷積層。
1.1.1 前端網絡
使用雙流的VGG-19[15]的前12層卷積作為模型的前端網絡,其中一流輸入RGB圖像,另一流輸入熱圖像,如圖2所示。在當前的卷積網絡中,使用更多小尺寸卷積核的卷積層堆疊的效果比起使用較少的大尺寸卷積核的卷積網絡更好[15]。而且,現有的深度學習框架、設備都對卷積核尺寸為3×3的卷積進行了優化,可以更快速地進行計算。因此,選擇VGG-19[15]的前12層作為模型的特征提取網絡,是在平衡算法的準確性和計算資源消耗之間,實現了最優解,適合用來進行快速、準確的人群計數。此外,為充分融合RGB信息和熱信息,將前端網絡提取的RGB特征和熱特征在通道維度上拼接在一起,輸入給殘差擴張卷積模塊,利用卷積網絡的自學習能力進行信息的自適應融合。
1.1.2 殘差擴張卷積模塊
由于采集人群圖像的角度、位置和距離等因素,導致收集的圖像中行人尺度變化很大并且分布不均。因此,為解決該問題,需要一個可以捕捉不同尺度特征的網絡模型。CSRNet[18]通過堆疊擴張率為2的擴張卷積,擴大了卷積層的感受野,通過提取更多尺度的行人信息,來處理人群計數所面臨的問題。但是,該網絡模型中疊加的擴張卷積都使用了相同的擴張率,而相同擴張率的擴張卷積疊加會導致特征圖出現棋盤偽影現象,使網絡無法生成高質量的人群密度圖。結合以上分析,提出了一種多尺度擴張卷積模塊,該模塊由3個不同擴張率的擴張卷積疊加而成,其中擴張率分別設置為1、2、3。這種特別選擇的擴張率組合,可以有效地避免單一擴張率的擴張卷積疊加帶來的棋盤偽影現象。如圖3所示,在處理一維信息的情況下,通過一個擴張率為2的三層擴張卷積堆疊的網絡獲得一個像素信息,在此過程中只有15個像素點參與。如果需要處理的信息有兩個維度,此時這種網絡空洞的現象就會變得更加明顯。在處理一維信息的情況下,該模型丟失了大概一半(45%)的原始信息。因此這會嚴重影響最終的計數結果,因為像素級別的回歸人群密度圖任務,往往需要特征圖的原始細節信息。所以這里使用了這種特別設計的擴張率組合方案。首先,第一層使用擴張率為1的擴張卷積可以覆蓋所有輸入的特征信息。其次使用擴張率為2、3的擴張卷積在不增加參數量的情況下,盡可能地擴大卷積的感受野,通過捕獲更多不同尺度的行人特征信息生成高質量的人群密度圖。最后,在每一個擴張卷積層后加上歸一化層和Relu層,用來加快模型的收斂速度,避免網絡出現梯度消失或梯度爆炸。
雖然以上所提出的多尺度擴張卷積模塊,可以捕獲不同尺度的行人特征信息,但是沒有考慮到如何利用不同模塊之間的層次信息。因此,需要引入殘差連接來改進網絡的結構并改善網絡傳遞的信息流。在殘差連接中使用了一個1×1的卷積層,將輸出的特征圖通道數變為輸入的1/4,通過這種方式限制殘差連接后網絡的寬度。

1.1.3 全局注意力模塊
在人群計數領域中,建立全局特征之間的依賴關系,是算法理解場景的關鍵。然而,由于卷積固有的特性,其只能在領域像素之間建立聯系。雖然堆疊多層卷積也可以在全局特征之間建立聯系,但是這種方式的網絡很難優化且效率低下,不便于對模型進行訓練[19]。因此,為解決該問題,本文提出了一種新的全局注意力機制,從加強通道和空間信息之間的信息交互出發。該注意力機制由兩個子模塊構成,分別是通道注意力子模塊和空間注意力子模塊,它們的排列方式選擇順序放置,并將通道注意力子模塊放在空間注意力子模塊之前,如圖4所示。與CBAM(Convolutional Block Attention Module)[19]不同,在全局注意力模塊中本文重新設計了一個新的空間注意力子模塊。為了更好地提取特征的空間信息,該模塊使用兩個7×7卷積層構成的瓶頸結構進行空間信息的融合,同時為了進一步保留特征之間的映射關系,這里刪除了池化操作。全局注意力模塊通過對特征圖的通道和空間信息進行權重再分配,來建模全局特征之間的聯系。在卷積神經網絡中,通過此模塊自適應的建立特征之間的映射關系。

圖4 全局注意力機制的結構圖
全局注意力機制由兩個子模塊組成,輸入的特征圖依次經過通道注意力子模塊和空間注意力子模塊,因此其處理過程可以用如下的計算方式表示:

式中:∈R××表示輸入的特征圖;c∈R×1×1表示通道注意力子模塊生成的通道注意力圖;1表示通道注意力子模塊的輸出特征圖;s∈1××表示空間注意力子模塊生成的空間注意力圖;2表示空間注意力子模塊的輸出特征圖;?表示逐元素相乘。
通道注意力子模塊,通過提取特征圖之間的通道信息,生成通道注意力圖,如圖5所示。在此處為了更加有效地聚合信息,需要對特征圖使用全局自適應池化以壓縮其空間維度。因此,首先對輸入的特征圖分別進行全局自適應平均池化和全局自適應最大池化操作,用來生成全局自適應平均池化特征Ave和全局自適應最大池化特征Max。之后將Ave和Max作為多層感知器(Multilayer Perceptron,MLP)的輸入,以此來提取輸入特征的通道信息。該MLP由全連接層組成,為了減少MLP的參數量,其中間層大小設置為R/r×1×1,其中代表縮放比率。最后使用sigmoid函數聚合經過MLP處理的Ave和Max。總之通道注意力圖的生成方式,可用如下的計算方式表示:

式中:表示sigmoid函數;0∈R×/r和1∈R/r×為MLP的共享參數。
在空間注意力子模塊中,利用輸入特征圖的空間維度信息生成空間注意力圖,如圖6所示。空間注意力作為通道注意力的補充,其更關注特征的“位置”信息。首先,把通道注意力子模塊的輸出作為空間注意力子模塊的輸入,通過兩層卷積層來融合空間信息。在此過程中,為了減少卷積層的參數量,這里使用了與通道注意力子模塊中相同的縮放比率。其次,在特征圖的通道維度上計算其平均值,最后再經過sigmoid函數生成空間注意力圖。總之,空間注意力圖的計算方式如下:

式中:f7×7表示卷積層的卷積核的尺寸為7×7;W0∈RC×C/r×H×W和W1∈RC/r×C×H×W表示為卷積層的參數。
目前很多方法都是使用歐幾里得損失作為模型訓練過程中優化的損失函數,但是歐幾里得損失只能計算全局的像素差異,其忽略了預測的密度圖與真值之間的局部差異。因此,本文提出了一種新的衡量預測值與真值之間全局和局部之間差異的多尺度差異性損失,并與歐幾里得損失進行加權結合。綜合后的損失函數,可以使網絡生成的密度圖在全局和局部之間都盡可能的接近真值。
歐幾里得損失用來衡量預測值和真值之間的全局像素差異,其可以用如下的形式定義:


多尺度差異性損失,旨在比較預測值與真值之間在不同尺度上的差異,作為歐幾里得損失的補充,其更關注預測值和真值之間的局部差異性。該損失的定義方式如下:

式中:代表計算時的尺度大小;max代表自適應最大池化;k表示自適應最大池化的輸出。
根據不同的尺度等級將密度圖分成不同的區域,并使用自適應最大池化處理每一個區域,其結果就代表該區域的最大密度水平。通過計算預測值與真值在每一個區域的最大密度水平的差值,來確保預測值和真值之間在不同的尺度等級上盡可能的保持一致。在這里,為了平衡算法的準確性和計算速度之間,本文選擇了3個不同的尺度等級,其輸出大小分別為1×1、2×2、4×4。其中,1×1表示全局的密度水平差異,其余兩個代表不同尺度等級的密度水平差異。
對以上兩個損失函數進行加權結合,得到模型最終訓練過程中使用的損失函數,該綜合損失可用如下的形式表示:
=2+(1—)m(6)
式中:表示歐幾里得損失與多尺度差異性損失加權結合的超參數。
在這一部分,將介紹密度圖真值的生成方法、算法的評價標準、在RGBT-CC數據集[13]上的對比實驗、在DroneRGBT數據集上的對比實驗、驗證模型各個模塊有效性的消融實驗、驗證全局注意力模塊效果的對比實驗以及參數實驗。本模型代碼基于Pytorch框架,通過平均值為0、標準差為0.01的高斯分布為所有的卷積層參數進行隨機的初始賦值。在訓練過程中使用Adam優化器優化模型的所有參數,初始的學習率設置為0.00001,并將weight_decay設置為0.0005。
采用幾何自適應高斯核生成人群圖像的密度圖真值,其原因是它可把輸入的每一張圖像的點標注進行自適應的模糊處理,以生成可以代表該圖像人群信息的密度圖真值。幾何自適應高斯核的定義方式如下[1]:


當前的很多方法,普遍使用平均絕對誤差MAE和均方根誤差RMSE作為模型的評價指標。但是平均絕對誤差MAE只能評估整張圖像的全局誤差,無法對圖像的局部區域進行有效的評估。因此本文使用網格平均絕對誤差GAME[13]代替MAE。具體來說,就是對于一個給定的等級,將圖片分成4個非重疊的區域,分別計算每個區域的誤差,再把每個區域的結果進行累加。當等于零時,此時的GAME(0)就等于MAE。RMSE和GAME[13]可用如下的公式定義:


式中:代表測試集的圖片數量;E和G分別代表第個測試圖片的估計值和真值;E和G和代表第個測試圖片的第個區域的估計值和真值。總之,算法的準確性用網格平均絕對誤差GAME來評估,算法的魯棒性用均方根誤差RMSE來評估。
RGBT-CC數據集是一個公開的用于多模態人群計數的RGB-T數據集,由Liu等[13]在2021年給出。該數據集一共有2300對(每一對包含一張普通RGB圖像和對應的熱圖像)圖像,包含街道、商場、地鐵站等多種場景。一共標注了138389名行人,平均每張圖片包含68人。其中有1013對圖像在光線明亮的環境下拍攝,1017對圖像在黑暗的環境中拍攝。實驗中參照文獻[13]將整個數據集隨機分成3個部分,其中訓練集包含1030對圖像,驗證集包含200對圖像,測試集包含800對圖像。
為了驗證提出算法的效果,在該數據集上進行了對比實驗,實驗的結果如表1所示。對比其它算法,TSRDNet在所有的評價指標上都獲得了較好的結果。與之前最優的算法CMCRL[13]相比,在GAME(0)、GAME(1)、GAME(2)和GAME(3)上分別降低了0.8、1.18、1.65、4.13,在RMSE上降低了3.49。這表明了無論是準確性還是魯棒性,本文算法均優于其它的算法。此外,為了測試算法在不同光照條件下的性能,在明亮和黑暗的環境中分別做了對應的實驗,結果如表2所示。與CMCRL[13]算法相比,在明亮的環境中GAME(0)、GAME(1)、GAME(2)、GAME(3)和RMSE分別提高了4.28、2.45、1.37、2.44和4.85,而在黑暗的場景中本文算法依然優于CMCRL[13]算法。實驗的結果驗證了TSRDNet算法無論是在黑暗還是在明亮的環境下都有穩定優異的計數表現。最后,算法在RGBT-CC數據集上的部分測試結果如圖7所示。從圖中可以明顯地看出,本文算法生成的人群密度圖與真值之間的差異較小,估計的計數結果也比較接近真實值。

表1 在RGBT-CC數據集上的對比實驗結果
DroneRGBT數據集是一個具有RGB和熱紅外圖像的無人機視角的多模態人群計數數據集,由Peng等在2020年提出[14]。該數據集一共有3600對圖像,包含校園、街道、公園、停車場和廣場等多種不同的場景。DroneRGBT數據集[14]一共標注了175698名行人,最少的一張圖片包含1名行人,最多的一張圖片包含了403名行人,平均每張圖片包含49名行人。實驗中參考文獻[14]的做法,將該數據集隨機分成兩個部分,其中訓練集和測試集各包含1800對圖像。

表2 在RGBT-CC數據上不同光照環境下的對比實驗結果

圖7 本文算法的部分測試結果
為驗證本文算法的效果,在該數據集上進行了對比實驗,實驗的結果如表3所示。與其它算法相比,TSRDNet在評價指標上獲得了較好的結果。與之前最優的算法MMCCN[14]相比,在GAME(0)和RMSE上分別降低了0.34和0.17。這表明在該數據集上無論是準確性還是魯棒性,TSRDNet算法均要優于其它的算法。最后,算法在DroneRGBT數據集上的部分測試結果如圖8所示。從圖8中可以發現,無論是低密度圖像還是高密度圖像,本文算法均可以生成質量較高的人群密度圖,獲得相對準確的估計結果。

表3 在DroneRGBT數據集上的對比實驗結果

圖8 本文算法的部分測試結果圖。第一列和第二列分別代表RGB圖像和熱圖像,第三列是對應的人群密度圖真值,第四列是本文方法的預測值
為了驗證本文算法各個模塊,包括前端網絡、殘差擴張卷積模塊、全局注意力模塊以及一個綜合損失函數的有效性和整體結構的合理性,在RGBT-CC數據集[13]上進行了模型的消融實驗,消融實驗的結果如圖9所示,其中圖中的值代表不同模型實驗的GAME(0)和RMSE的測試結果。

圖9 消融實驗結果對比圖
首先使用雙流的VGG-19[15]網絡的前12層構成的前端網絡作為基準模型,該基準模型的GAME(0)和RMSE分別為26.39和40.92。從圖8中可以明顯地發現TSRDNet的實驗結果要遠遠好于基準模型的實驗結果。之后,在保持TSRDNet的其它模塊不變的情況下,分別去除模型中的殘差連接結構、全局注意力模塊和多尺度差異性損失,依次進行測試。
在去除所有的全局注意力模塊后,算法的RMSE和GAME(0)分別為17.92和28.28,對比TSRDNet,RMSE提高了3.59,GAME(0)提高了3.11,這驗證了全局注意力模塊對整個模型性能的提升。
在移除所有包含的殘差連接結構后,模型測試的GAME(0)和RMSE分別為17.18和26.91,對比TSRDNet,GAME(0)提高了2.37,RMSE提高了2.22,這驗證了殘差連接結構對整個模型性能的提升。
與以上兩個模塊相比,多尺度差異性損失對整個模型的增益較小。移除多尺度差異性損失后,模型測試的GAME(0)和RMSE分別為15.01和25.54,對比TSRDNet,GAME(0)提高了0.2,RMSE提高了0.85這驗證了多尺度差異性損失對整個模型性能的提升。
通過以上的實驗證明,分別去除網絡的每個模塊后,算法的準確性和魯棒性均有一定程度的下降。因此驗證了網絡的每個模塊對其性能都有一定的增益,也說明了本文算法結構上比較合理。
在RGBT-CC數據集[13]上對模型使用全局注意力模塊和CBAM[19]對計數結果的影響進行了實驗,結果如表4所示。從表中可以看出,模型使用全局注意力模塊可以獲得更好的計數結果,這也驗證了本文提出的空間注意力子模塊的有效性。

表4 全局注意力模塊和CBAM的對比實驗
在RGBT-CC數據集上對綜合損失函數中的參數的取值進行了參數的消融實驗,來獲到參數的最優取值,圖10展示了參數實驗的結果對比。其中,橫坐標表示的取值變化,縱坐標表示評估指標值的變化。

圖10 參數l的消融實驗的結果對比圖
根據圖10的(a)、(b)可以看出,模型評估指標GAME(0)和RMSE關于參數取值的不同先遞減再遞增,當=0.6時,評估結果最好,因此取=0.6。
本文提出了一種新的使用RGB-T圖像進行多模態人群計數的網絡模型TSRDNet,該模型基于殘差擴張卷積模塊和全局注意力模塊來進行精確的人群計數。此外,為了進一步的提升網絡的性能,在歐幾里得損失的基礎上還引入了一個新的多尺度差異性損失,通過對上述的兩個損失函數進行加權結合,得到的綜合損失函數可以使網絡生成的人群密度圖在不同的尺度內和真值保持一致。所提出的方法在RGBT-CC數據集[13]和DroneRGBT數據集[14]上進行了廣泛的實驗,證明了算法的有效性。在未來的工作中,計劃進一步地改進全局注意力機制并結合多尺度差異性損失,使用更多其它場景下的RGB-T圖像對模型進行訓練,以提高算法在不同場景下的計數性能。
[1] 張宇倩, 李國輝, 雷軍, 等. FF-CAM:基于通道注意機制前后端融合的人群計數[J].計算機學報, 2021, 44(2): 304-317.
ZHANG Yuqian, LI Guohui, LEI Jun, et al. FF-CAM: crowd counting based on front-end and back-end fusion of channel attention mechanism [J]., 2021, 44(2): 304-317.
[2] YANG Z, WEN J, HUANG K. A method of pedestrian flow monitoring based on received signal strength[J]., 2022, 2022(1): 1-17.
[3] 王曲, 趙煒琪, 羅海勇, 等. 人群行為分析研究綜述[J]. 計算機輔助設計與圖形學學報, 2018, 30(12): 2353-2365.
WANG Qu, ZHAO Weiqi, LUO Haiyong, et al. Review of research on crowd behavior analysis[J]., 2018, 30(12): 2353-2365.
[4] 蔣一, 侯麗萍, 張強. 基于改進空時雙流網絡的紅外行人動作識別研究[J]. 紅外技術, 2021, 43(9): 852-860.
JIANG Yi, HOU Liping, ZHANG Qiang. Research on infrared pedestrian action recognition based on improved space-time dual-stream network [J]., 2021, 43(9): 852-860.
[5] 趙才榮, 齊鼎, 竇曙光, 等. 智能視頻監控關鍵技術:行人再識別研究綜述[J]. 中國科學: 信息科學, 2021, 51(12): 1979-2015.
ZHAO Cairong, QI Ding, DOU Shuguang, et al. Key technologies for intelligent video surveillance: A review of pedestrian re-identification research [J].: Information Science, 2021, 51(12): 1979-2015.
[6] Enzweiler M, Gavrila D M. Monocular pedestrian detection: Survey and experiments[J]., 2008, 31(12): 2179-2195.
[7] LI M, ZHANG Z, HUANG K, et al. Estimating the number of people in crowded scenes by mid based foreground segmentation and head-shoulder detection[C]//2008 19th, 2008: 1-4.
[8] CHEN K, Loy C C, GONG S, et al. Feature mining for localised crowd counting[C]//, 2012: 3-12.
[9] Pham V Q, Kozakaya T, Yamaguchi O, et al. Count forest: Co-voting uncertain number of targets using random forest for crowd density estimation[C]//, 2015: 3253-3261.
[10] PAN S, ZHAO Y, SU F, et al. SANet++: enhanced scale aggregation with densely connected feature fusion for crowd counting[C]//2021-2021,(ICASSP), 2021: 1980-1984.
[11] 吳奇元, 王曉東, 章聯軍, 等. 融合注意力機制與上下文密度圖的人群計數網絡[J]. 計算機工程, 2022, 48(5): 235-241, 250.
WU Qiyuan, WANG Xiaodong, ZHANG Lianjun, et al. Crowd counting network integrating attention mechanism and context density map [J]., 2022, 48(5): 235-241, 250.
[12] TANG H, WANG Y, CHAU L-P. TAFNet: a three-stream adaptive fusion network for RGB-T crowd counting[J/OL]. arXiv preprint arXiv:2202.08517, 2022.https://doi.org/10.48550/arXiv.2202.08517.
[13] LIU L, CHEN J, WU H, et al. Cross-modal collaborative representation learning and a large-scale rgbt benchmark for crowd counting[C]//, 2021: 4823-4833.
[14] PENG T, LI Q, ZHU P. RGB-T crowd counting from drone: a benchmark and MMCCN network[C]//2020, 2021: 497-513.
[15] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[C]//(ICLR), 2014: 1-14.
[16] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//, 2016: 770-778.
[17] DAI F, LIU H, MA Y, et al. Dense scale network for crowd counting[C]//2021, 2021: 64-72.
[18] LI Y, ZHANG X, CHEN D. Csrnet: Dilated convolutional neural networks for understanding the highly congested scenes[C]//, 2018: 1091-1100.
[19] Woo S, Park J, Lee J Y, et al. Cbam: Convolutional block attention module[C]//(ECCV), 2018: 3-19.
[20] ZHANG J, FAN D P, DAI Y, et al. UC-Net: uncertainty inspired RGB-D saliency detection via conditional variational autoencoders[C]//, 2020: 8582-8591.
[21] PANG Y, ZHANG L, ZHAO X, et al. Hierarchical dynamic filtering network for rgb-d salient object detection[C]//, 2020: 235-252.
[22] ZHANG Y, ZHOU D, CHEN S, et al. Single-image crowd counting via multi-column convolutional neural network[C]//P, 2016: 589-597.
[23] CAO X, WANG Z, ZHAO Y, et al. Scale aggregation network for accurate and efficient crowd counting[C]//(ECCV), 2018: 734-750.
[24] FAN D P, ZHAI Y, Borji A, et al. BBS-Net: RGB-D salient object detection with a bifurcated backbone strategy network[C]//, 2020: 275-292.
[25] ZHANG Q, CHAN A B. Wide-area crowd counting via ground-plane density maps and multi-view fusion cnns[C]//, 2019: 8297-8306.
[26] MA Z, WEI X, HONG X, et al. Bayesian loss for crowd count estimation with point supervision[C]//, 2019: 6142-6151.
[27] ZENG L, XU X, CAI B, et al. Multi-scale convolutional neural networks for crowd counting[C]//(ICIP), 2017: 465-469.
[28] SHEN Z, XU Y, NI B, et al. Crowd counting via adversarial cross-scale consistency pursuit[C]//, 2018: 5245-5254.
Two-Stream Residual Dilation Network Algorithm for Crowd Counting Based on RGB-T Images
YANG Peilong,CHEN Shuyue,YANG Shangyu,WANG Jiahong
(School of Computer and Artificial Intelligence, Changzhou University, Changzhou 213164, China)
We proposed a multimodal crowd counting algorithm based onRGB-Thermal (RGB-T) images (two-stream residual expansion network) in crowd counting, given scale changes, uneven pedestrian distribution, and poor imaging conditions at night. It has a front-end feature extraction network, multi-scale residual dilation convolution, and global attention modules. We used the front-end network to extract RGB and thermal features, and the dilated convolution module further extracted pedestrian feature information at different scales and used the global attention module to establish dependencies between global features. We also introduced a new multi-scale dissimilarity loss method to improve the counting performance of the network and conducted comparative experiments on the RGBT crowd counting (RGBT-CC) and DroneRGBT datasets to evaluate the method. Experimental results showed that compared with the cross-modal collaborative representation learning (CMCRL) algorithm on the RGBT-CC dataset, the grid average mean absolute error (GAME (0)) and root mean squared error (RMSE) of this algorithm are reduced by 0.8 and 3.49, respectively. On the DroneRGBT dataset, the algorithm are reduced by 0.34 and 0.17, respectively, compared to the multimodal crowd counting network (MMCCN) algorithm, indicating better counting performance.
crowd counting, RGB-T images, dilated convolution, global attention, multi-scale disparity loss
TP391
A
1001-8891(2023)11-1177-10
2022-07-13;
2022-09-13.
楊佩龍(1997-),男,碩士,主要研究方向為計算機視覺。E-mail: 2247291086@qq.com。
陳樹越(1963-),男,教授,主要研究方向為計算機視覺與檢測技術。E-mail:csyue2000@163.com。
江蘇省關鍵研究與發展計劃項目(BE2021012-5)。