999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于弱監督的改進Transformer在人群定位中的應用

2023-10-10 10:38:26鄧淼磊趙文君陳法權張德賢
計算機工程與應用 2023年19期
關鍵詞:特征方法

高 輝,鄧淼磊,趙文君,陳法權,張德賢

1.河南工業大學 機電工程學院,鄭州 450001

2.河南省糧食信息處理國際聯合實驗室,鄭州 450001

3.河南工業大學 信息科學與工程學院,鄭州 450001

人群定位旨在預測頭部,獲得視頻圖像中每個目標的位置,是人群分析的一項重要研究內容。主流人群定位方法大致可分為基于檢測、基于回歸和基于密度圖的方法?;跈z測的方法[1-3]主要遵循Faster RCNN[4]的路線,利用最近鄰頭部距離來初始化偽真值(ground truth,GT)邊界框。它們通常遵循兩步探測原則,頭部位置等于預測邊界框的中心。然而,偽GT 值并不能精確表示頭部尺寸,導致檢測性能差。此外,手動設計的非最大抑制(non-maximum suppression,NMS)算子可以消除負面預測。Ⅰdress等[5]和Gao等[6]利用了小型高斯核密度圖,頭部位置等于密度圖的最大值。盡管使用小內核可以生成清晰的密度圖,但在極度密集的區域仍然存在重疊,使得頭部位置無法區分。因為位置圖需要經過精心設計,從而基于密度圖的方法具有相對較高的定位精度,所以大多數人群定位方法是基于密度圖的,如距離標簽圖[7]、焦點反變換圖(focal inverse distance transform map,FⅠDTM)[8]和獨立實例圖(independent instance map,ⅠⅠM)[9]。然而,基于密度圖的方法需要復雜且不可微分的后處理來提取頭部位置,例如“查找最大值”。

此外,基于密度圖的方法依靠高分辨率表示生成清晰的地圖,以便更好地找到局部最大值,這意味著需要多尺度特征映射。相比之下,基于回歸的方法比基于檢測和基于密度圖的方法更簡單,原因可以概括為兩個方面:(1)訓練簡單,既不需要預處理,如生成偽GT框或本地化地圖,也無須進行后處理,如NMS 或“查找最大值”。(2)不依賴于高分辨率表示,如復雜的多尺度融合或上采樣機制。Song 等[10]是通過對大量提案定義替代回歸來實現的,該模型依賴于預處理,例如生成8×W×H點提案。

隨著深度學習的發展,Transformer在計算機視覺中迅速傳播開來[11-16]。具體而言,Carion 等[11]提出一種沒有NMS 的端到端可訓練檢測器detector Transformer(DETR),利用Transformer解碼器在端到端管道中對目標檢測進行建模,并僅使用一個單級特征映射成功地消除了后處理的需要,實現具有競爭力的性能。然而,DETR主要依賴帶有類置信度的L1距離,即在沒有上下文的情況下為每個GT 分配每個獨立匹配可能導致錯誤,且與目標檢測不同的是人群圖像只包含人頭一個類別,而密集的人頭的紋理都相似,所以預測的可信度很高,從而造成大大降低算法的定位效果。在DETR的基礎上,Meng 等[12]提出一種用于快速DETR 訓練的條件交叉注意機制,加速了DETR 的收斂。在人群分析中,Liang 等[15]提出了TransCrowd,它從基于ViT 的序列計數的角度重新表述了弱監督人群計數問題。TransCrowd能夠利用ViT 的自注意力機制有效地提取語義人群信息。此外,這是研究人員首次采用ViT進行人群計數研究,并且取得顯著效果。Sun 等[17]展示了點監督人群計數設置中Transformer的功效。但他們都只關注人群計數任務,而不是人群定位任務。

只有少數方法專注于計數,缺乏標記數據。傳統方法[18]依賴于手工制作的特征,如GLCM 和邊緣方向,對于這種弱監督的計數任務,這些特征是次優的。Lei等[19]從少量的點級注釋(完全監督)和大量的計數級注釋(弱監督)學習模型。Borstel 等[20]提出了一種基于高斯過程的弱監督解,用于人群密度估計。類似地,Yang等[21]提出了一種軟標簽排序網絡,可以直接回歸人群數量,而無須任何位置監控。然而,這些計數級弱監督計數方法的計數性能仍然沒有達到與完全監督計數方法相當的結果,存在大量退化,限制了弱監督方法在現實世界中的應用。因此,基于ViT的架構采用了弱監督方法。其中,Tian等[22]借鑒了Chu等[23]提出的Twins SVT,包括骨干網絡和一個復雜的解碼器,它既可以執行完全監督的人群計數,也可以執行弱監督的人群計數。在密集場景中,由于對每個頭部標注邊界框既費時又費力,因此一般用頭部的中心點表示目標的位置,而且當前大多數數據集僅提供點級標注。因此,設計一種準確的人群定位算法可以提高人群跟蹤和人群計數性能。

1 改進的人群定位網絡

本文旨在探索將純Transformer 模型用于人群定位,建立一個基于弱監督的改進Transformer框架Local-Former,如圖1所示。該方法無須額外的預處理和后處理即可直接預測所有實例子,包含特征提取網絡Backbone、編碼器-解碼器網絡與預測器。具體來說,該方法首先使用預先訓練的Transformer骨干網絡從輸入圖像中提取多尺度特征,并將來自不同階段的特征通過全局最大池化(global max pooling,GMP)操作后,再經過聚合模塊得到組合特征F。其次,在編碼器-解碼器網絡中,將組合特征進行位置嵌入后的特征Fp輸入編碼器,輸出編碼特征Fe,再將Fe輸入解碼器,且每個解碼器層采用一組可訓練嵌入作為查詢,并將編碼器最后一層的視覺特征作為鍵和值,輸出解碼特征Fd用于預測置信度得分。最后,將Fd和置信度得分送入二值化模塊自適應優化閾值學習器,精確地二值化置信度圖,從而得到人頭中心位置。

圖1 LocalFormer網絡結構圖Fig.1 Network structure diagram of LocalFormer

1.1 Transformer骨干網絡

本文提出的LocalFormer 使用金字塔vision Transformer 作為特征提取骨干網絡,在此參考PVTv2[24]的“PVTv2 B5”版本,如表1 所示。它有4 個階段,每個階段生成不同比例的特征圖。每個階段的架構包括重疊的補丁嵌入層和變壓器編碼器層的Li數,即第i階段的Li編碼器層。PVTv2 利用重疊的補丁嵌入來標記圖像。生成補丁時,相鄰窗口的重疊面積為其面積的一半。重疊補丁嵌入是通過應用零填充卷積和適當的步長來實現的。具體來說,對于大小為W×H×C的輸入,卷積層的內核大小為2S-1,零填充為S-1,步長S,內核數C被用于生成一個尺寸為×C的輸出。第一階段生成補丁的卷積步長為S=4 ,其余階段為S=2。因此,從第i階段獲得一組特征圖,與輸入圖像的大小相比,尺寸縮小了2(i+1)。

表1 LocalFormer骨干網絡參數配置Table 1 Parameters setting of LocalFormer backbone network

標準Transformer 層由multi-head attention 和MLP塊組成,同時采用了層歸一化(layer norm,LN)和殘差連接,如圖2 所示。在第一階段開始時,輸入被均勻地劃分為大小相等的重疊補丁,每個補丁被展平并投影到Ci 維嵌入中。第1、2、3 和4 階段嵌入維度分別為64、128、320 和512,這些補丁嵌入然后通過Transformer 編碼器。每個編碼器由一個自我注意機制和一個前饋神經網絡組成,位置編碼在前饋神經網絡中完成。在LocalFormer中,輸入圖像大小為384×384×3像素,第一階段的補丁大小為7×7×3 和3×3×Ci,其中Ci是第i階段的嵌入維度。如前所述,C2=64、C3=128 和C4=320。因此,得到的輸出特征的尺寸分別為96×96×64、48×48×128、24×24×320和12×12×512。

圖2 標準Transformer層Fig.2 Standard Transformer layer

通過實驗,在Transformer 骨干網絡前三階段使用全局最大池化銳化提取特征,去除無效信息。在第四階段使用全局平均池化(global avg pooling,GAP)來獲取全局上下文信息,找到所有的目標可區分區域。因此,從每個階段獲取特征映射,執行全局池化操作以獲得64、128、320和512維的一維序列,并將這些序列中的每一個投影到長度為6 912的一維序列中。

1.2 Transformer編碼器-解碼器

1.2.1 編碼器

由于Transformer 編碼器采用1D 序列作為輸入,本文在Transformer 骨干網絡提取的特征Fp可以直接送入Transformer 編碼器層,以生成編碼特征Fe。這里,編碼器包含許多編碼器層,每一層包括一個自注意力(self-attention,SA)層和一個前饋(feed-forward,FF)層。SA由3個輸入組成,包括查詢(query,Q)、鍵(key,K)和值(value,V),定義如下:

其中,Q、K和V從相同的輸入Z獲得(例如,Q=ZWQ)。特別是,使用多頭自注意力(multi self-attention,MSA)來建模復雜的特征關系,這是多個獨立SA模塊的擴展:MSA=[SA1,SA2,…,SAm]W,其中W是重投影矩陣,m是設置為8的注意頭數。

1.2.2 解碼器

Transformer解碼器由多個解碼器層組成,每一層由3 個子層組成:(1)一個自我注意力(SA)層。(2)交叉注意(cross attention,CA)層。(3)前饋(FF)層。SA和FF與編碼器相同。CA模塊將兩個不同的嵌入作為輸入,而不是SA中的相同輸入。將兩個嵌入表示為X和Y,CA可以寫為CA=SA(Q=XWQ,K=YWK,V=YWV)。

本文中,每個解碼器采用一組可訓練嵌入作為查詢query,最后一個編碼器層的視覺特征作為鍵和值。解碼器輸出解碼后的特征Fd,用于預測人頭的點坐標(point coordinate)及其置信度得分(confidence score),從而得出場景中的人數和人群定位。

1.3 二值化模塊

許多主流方法利用熱圖進行目標定位,通常設置閾值以從預測的熱圖中過濾位置信息。大多數啟發式人群定位方法[2-3,8,25]在數據集上用單個閾值提取頭部點。顯然,這不是最佳選擇,因為低置信度和高置信度之間的置信度響應不同。為了緩解這個問題,ⅠⅠM提出學習一個像素級閾值圖來分割置信度圖[9],這可以有效提升捕獲更多較低響應頭并消除相鄰頭中的重疊。但也存在兩個問題:(1)閾值學習器在訓練過程中可能會誘發NaN(not a number)現象。(2)預測的閾值圖相對粗糙。因此,考慮重新設計二值化模塊來解決這兩個問題。

如圖3 所示,置信度預測值被饋送到閾值學習器中,用于解碼像素級閾值映射。這里,進行像素級的注意過濾器操作,而不是直接傳遞特征映射Fd。注意過濾器是解碼特征Fd和置信度預測C之間的點積操作,其可表示為:

圖3 二值化模塊流程圖Fig.3 Flowchart of binarization module

二值化模塊的核心組件是閾值學習器和二值化層。前者從過濾器學習像素級閾值映射T,后者將置信度映射C二值化為二值映射B。其中,閾值學習器由5個卷積層組成:前三層以3×3的內核大小逐步減少特征通道,每一層后面都有一個批量歸一化和ReLU激活函數。最后兩層的內核大小分別為3×3 和1×1,然后是批處理規范化、ReLU 和平均池層。添加窗口大小為9×9的平均池層來平滑閾值圖。最后,引入了一個定制的激活函數來解決NaN現象,其定義如下:

等式(3)將Ti,j的范圍限制為[0.25,0.90]。與壓縮的Sigmoid激活函數相比,它不會強制最后一層輸出±∞等無意義值,因此,它增加了數值計算的穩定性。為了確保在訓練過程中適當優化閾值,規定了公式(4)的推導規則。

閾值學習器定義為δ,參數θt,其輸出閾值映射如公式(5)所示:

現在,通過將置信度映射C和閾值映射T轉發到可微二值化層,得到了具有函數?(C,T)的二值映射B,其公式如下:

1.4 損失函數

在獲得一對一匹配結果后,需要計算反向傳播的損失。由于不同圖像的人群數量差異很大,而且L1損失[23]對異常值非常敏感,所以使用平滑的Ls損失,而不是L1損失。平滑Ls損失定義如下:

公式(7)可以看出,當 |Prei-Gti|>β時,平滑Ls損失作為L1損失。|Prei-Gti|≤β時,平滑Ls損失作為L2損失。β是一個超參數,Prei和Gti分別代表給定圖像中的預測人數和真實人數。

2 實驗

2.1 數據集

在3個具有挑戰性的數據集上評估本文方法,每個數據集詳細情況如下:

ShanghaiTech[26]是前幾年最大的大規模人群統計數據集之一,由1 198幅圖像和330 165條注釋組成。根據密度分布的不同,將數據集分為兩部分:A 部分和B 部分。A 部分由300 張訓練圖像和182 張測試圖像組成。B部分包括400張訓練圖像和316張測試圖像。A 部分是從互聯網上隨機選取的圖片,B部分是從上海一個大都市的繁忙街道上拍攝的圖片。A 部分中的密度比B部分中的密度大得多。該數據集所呈現的規模變化和視角扭曲為許多基于CNN的網絡的設計提供了新的挑戰和機遇。

UCF-QNRF[5]是一個密集的數據集,包含1 535幅圖像(1 201 幅用于訓練,334 幅用于測試)和1 251 642 個注釋。每幅圖像的平均行人數量為815人,最大人數達到了12 865人。此數據集中的圖像具有更廣泛的場景,并包含最多樣化的視點集、密度和照明變化。

NWPU-Crowd[27]是從各種場景收集的大規模數據集,共包含5 109 幅圖像,總共包含2 133 238 個帶注釋的實例。這些圖像隨機分為訓練集、驗證集和測試集,分別包含3 109、500 和1 500 幅圖像。與現實世界中以前的數據集相比,除了數據量之外,還有一些其他優點,包括負樣本、公平評估、更高的分辨率和較大的外觀變化。此數據集提供點級和框級注釋。

2.2 訓練環境

對于上述數據集,使用原始大小的圖像隨機水平翻轉、縮放(0.8~1.2 倍)和裁剪(768×1 024)來增加訓練數據。批處理大小為8,二值化模塊學習率設置為1E-5,其余可學習模塊的學習率初始化為1E-6。在訓練期間,通過衰減策略更新學習率,衰減率為0.9,Adam[28]算法用于優化框架,選擇驗證集中性能最好的模型來進行測試和評估本文模型,將10%的訓練數據集劃分為一個驗證集。在測試階段,在驗證集上選擇性能最好的模型來評估測試集上的性能,執行端到端預測,無須多尺度預測融合和參數搜索。

2.3 評估指標

在這項工作中,使用精度(precision,Pre)、召回率(recall,Rec)和F1 值(F1-measure,F1)作為人群定位的評估指標,具體計算如下所示:

其中,TP表示預測為1,實際為1,預測正確;FP表示預測為1,實際為0,預測錯誤;FN表示預測為0,實際為1,預測錯誤。

預測點和ground truth遵循一對一匹配。如果匹配對中的距離小于距離閾值σ,則相應的預測點被視為人頭中心點的位置。對于ShanghaiTech數據集,使用兩個固定閾值,包括σ=4 和σ=8。對于UCF-QNRF,使用[1,2,…,100]中的各種閾值范圍,類似于CL[5]。對于提供框級注釋的NWPU群組數據集,σ設置為/2,其中w和h分別是每個頭部的寬度和高度。

2.4 消融實驗

2.4.1 全局池化影響

首先研究GMP和GAP的影響。當刪除GMP時,觀察到人群定位的性能顯著下降,精度從74.9%降至72.6%。而刪除GAP 時,精度從74.9%降至73.2%。全局池化對算法的消融實驗,結果如表2所示。

表2 全局池化消融實驗結果Table 2 Results of global pooling ablation experiment單位:%

2.4.2 Transformer大小消融

接下來,研究了改變Transformer 大小的影響,包括編碼器/解碼器層的數量和可訓練的實例查詢。如表3所示,當層和查詢數設置為6 和500 時,LocalFormer 實現了最佳性能。當查詢數為300時,所提出的方法的精度降至74.5%。當查詢數更改為700 時,所提出方法的精度降至74.3%。因此,查詢數量過多或者過少都會影響所提出算法的性能。

表3 Transformer 尺寸的影響Table 3 Effect of Transformer size

3 結果及討論

首先使用一些最先進的本地化方法來評估本地化性能。對于NWPU人群,如表4所示,一個大型數據集,本文提出的LocalFormer 在驗證集上的F1 值優于Auto-Scale[7],為4.0個百分點。值得注意的是,該數據集提供了精確的框級注釋。盡管本文方法只是基于點注釋,這是一種更弱的標記機制,但它仍然可以在NWPU-Crowd測試集上實現有優勢的競爭性能。對于密集數據集UCF-QNRF(見表5),本文方法實現了最佳的召回率和F1 值。對于ShanghaiTech PartA(見表6),一個稀疏的數據集,本文的LocalFormer將最先進的方法TopoCount的F1 值改進了1.1 個百分點,用于嚴格的設置(σ=4),并且在不太嚴格的設置(σ=8)中仍然領先。這些結果表明,該方法可以處理各種場景,包括大規模、密集和稀疏場景。

表4 NWPU-Crowd數據集的人群定位性能Table 4 Crowd localization performance on NWPU-Crowd dataset 單位:%

表5 UCF-QNRF數據集的人群定位性能Table 5 Crowd localization performance on UCF-QNRF dataset 單位:%

本文方法的人群定位結果可視化如圖4所示,第一行為3 個數據集上的4 張人群樣本圖,第二行為人群定位效果圖。其中,圖4(a)和4(b)分別來自ShanghaiTech數據集PartA 和PartB,圖4(c)來自NWPU-Crowd 數據集,圖4(d)來自UCF_QNRF數據集。

圖4 人群定位可視化結果Fig.4 Visualization results of crowd localization

4 結論

本文提出一種基于視覺Transformer 的人群定位算法LocalFormer,實現了在密集場景下人群定位。該算法基于弱監督學習,將純Transformer 網絡用于人群定位,并進行了改進。通過在Transformer 每一層之后加入全局最大池化操作提高骨干網絡的特征提取能力。在編碼器-解碼器層,將聚合特征嵌入位置信息,并通過二值化模塊自適應優化閾值學習器,大幅提升了人群定位模型性能。在三個具有挑戰性的數據集上的實驗證明本文方法簡單而有效。下一步,將結合目標檢測等,探索輕量化的人群定位模型,提高人群分析效率。

猜你喜歡
特征方法
抓住特征巧觀察
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
學習方法
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 亚洲成年人网| 91丨九色丨首页在线播放| 天堂在线视频精品| 亚洲精品国偷自产在线91正片| 亚洲无码免费黄色网址| 在线观看免费人成视频色快速| 国产成人高清在线精品| 国产黑丝视频在线观看| 免费看美女毛片| 在线国产你懂的| 人妻无码中文字幕第一区| 亚洲精品无码久久毛片波多野吉| 狠狠五月天中文字幕| 欧洲成人免费视频| 国产内射一区亚洲| 性欧美久久| 久久99国产综合精品1| 无码网站免费观看| 国产真实乱了在线播放| 黄色成年视频| 无套av在线| 无码aaa视频| 亚洲天堂视频网站| 国产精品久久久久久久久kt| 日韩在线欧美在线| 玖玖免费视频在线观看| 欧美成人免费午夜全| 2022国产无码在线| 九九热这里只有国产精品| 国产三级精品三级在线观看| 成人中文字幕在线| 又粗又硬又大又爽免费视频播放| 中文字幕va| 88av在线| 一区二区在线视频免费观看| 亚洲手机在线| 国产精品久久久久久久久久98| 高清色本在线www| 激情乱人伦| 人妻丰满熟妇AV无码区| 亚洲精品无码抽插日韩| 熟女日韩精品2区| 国产女人18水真多毛片18精品| 97国产在线观看| 亚洲精品图区| 国产精品无码在线看| 中文字幕在线观| 中国国语毛片免费观看视频| 中文字幕2区| 999在线免费视频| 综合社区亚洲熟妇p| 久久综合九九亚洲一区| 久久人人97超碰人人澡爱香蕉| www.亚洲一区二区三区| 波多野结衣中文字幕一区二区| 欧美a在线看| 日韩国产一区二区三区无码| 国产综合色在线视频播放线视 | 亚洲视频三级| 欧美a在线视频| 99成人在线观看| 免费一级无码在线网站 | 香蕉伊思人视频| 伊在人亞洲香蕉精品區| vvvv98国产成人综合青青| 亚洲欧美人成电影在线观看| 伊人天堂网| 日本91视频| 亚洲国产日韩在线成人蜜芽| a级毛片一区二区免费视频| 2022国产91精品久久久久久| 久久精品亚洲中文字幕乱码| 国产xxxxx免费视频| 精品国产福利在线| 动漫精品中文字幕无码| www.91在线播放| 亚洲第一成年免费网站| 成人一级免费视频| 久久亚洲国产最新网站| 好吊色国产欧美日韩免费观看| 91热爆在线| 亚洲国产日韩在线观看|