




摘 要:為了提高基于深度學習的行人屬性識別的能力,提出了一種基于任務感知機制的行人屬性識別網絡模型??紤]到不同行人屬性之間存在較強的語義相關性,提出了任務感知機制,充分挖掘不同任務中屬性和屬性之間的關聯性;針對行人屬性樣本的不平衡性,利用加權損失策略降低不平衡性帶來的影響;在現有的三個行人屬性數據集PETA、PA100k和RAP上的實驗結果表明,提出的方法具有較強的競爭力。
關鍵詞:行人屬性識別;空間注意力;注意力機制;語義相關
中圖分類號:TP391.41 文獻標志碼:A
文章編號:1001-3695(2022)03-041-0879-05
doi:10.19734/j.issn.1001-3695.2021.07.0285
基金項目:國家自然科學基金面上項目(62076132);江蘇省自然科學基金資助項目(BK20211194)
作者簡介:儲智強(1996-),男,江蘇南通人,碩士研究生,主要研究方向為行人屬性識別;李旻先(1983-),男(通信作者),江蘇南京人,副教授,博士,主要研究方向為計算機視覺、機器學習、目標檢測、跟蹤和再識別(minxianli@njust.edu.cn).
Task-aware mechanism for pedestrian attribute recognition
Chu Zhiqiang,Li Minxian?
(College of Computer Science amp; Engineering,Nanjing University of Science amp; Technology,Nanjing 210014,China)
Abstract:In order to improve the recognition ability of pedestrian attribute recognition based on deep learning,this paper proposed a pedestrian attribute recognition network model based on task-aware mechanism.Considering the strong semantic correlation between different pedestrian attributes,it proposed a task-aware mechanism to fully mine the correlation between attri-butes in different tasks.Aiming at the imbalance of pedestrian attribute samples,it used the weighted loss strategy to reduce the impact of imbalance.The experimental results on three existing pedestrian attribute datasets PETA,PA100k and RAP show that the proposed method has strong competitiveness.
Key words:pedestrian attribute recognition;spatial self-attention;attention mechanism;semantic dependency
0 引言
行人屬性識別的目的是在給定目標人物圖像的情況下挖掘目標人物的屬性。其作為中層語義信息,對視點的變化和觀看條件的多樣性具有更強的魯棒性,在行人再識別、人臉識別和身份識別中發揮著重要作用。但是由于光照、分辨率等因素影響,行人屬性識別仍然是一個有待提升的問題。
早期的行人屬性識別方法通常采用基于手工設計特征的方法,如提取圖像中的方向梯度直方圖(histogram of oriented gradient,HOG)[1]或者統計顏色直方圖[2],然后根據不同的任務設計相對應的濾波器。然而這些傳統方法的性能很難令人滿意。近些年來,基于卷積神經網絡(convolutional neural networks,CNN)的方法在行人屬性識別方面取得了巨大的成功,文獻[3]對基于CNN的行人屬性識別方法進行了綜合闡述;文獻[4]提出了一個聯合訓練的CNN框架,共同學習不同的行人屬性;文獻[5]將行人屬性識別問題歸納為多標簽分類問題,并且考慮屬性的不平衡性,提出了改進的交叉熵損失函數。但是這些基于全局圖像的方法缺乏對屬性細粒度特征的考慮,使整體性能受到限制。最近的一些方法試圖利用屬性之間的空間關系和語義關系來進一步提高屬性識別性能,這些方法可以分為以下三種基本類型:
a)基于局部的方法。這類方法通常從人體的局部部位來提取特征。文獻[6]將整張行人圖片分割為15個剛性區域,并對不同的區域進行特征融合;文獻[7,8]利用外部姿態估計模塊來定位身體部位;文獻[9]利用EdgeBox[10]區域生成建議,以弱監督的方式定位感興趣的區域,但是該方法不是完全自適應的,而且也不支持端到端訓練。雖然這些方法提高了識別性能,但是使用了額外的身體部件定位模塊增加了模型的復雜性,運行時間也大大增強。
b)基于屬性關聯的方法。已有一些工作[11~13]利用屬性語義關系來輔助行人屬性識別。文獻[11]提出了一個基于CNN-RNN的框架,能夠聯合學習圖像級的上下文信息和屬性級的順序相關性;文獻[12]將屬性進行了分組,嘗試探索屬性組組內和組間的關系;文獻[13]嘗試使用兩層圖卷積神經網絡(graph convolutional networks,GCN)來發掘屬性和區域之間的關聯性。
c)基于注意力機制的方法。一些工作[14~17]利用視覺注意力機制來輔助行人屬性識別。文獻[14]提出了一種多方向的注意力機制,學習多尺度的注意力特征來進行行人分析;文獻[15]通過擴展空間正則化模塊[16]來學習多個尺度上的有效注意力映射。雖然最終的識別準確率有所提高,但是這些方法都沒有考慮特定于屬性的信息。
行人屬性總是表現出語義性和視覺空間的相關性,可以根據這些相關性進行分組。例如,屬性boldHair和blackHair不可能出現在同一個人身上,它們都與一個人的頭肩區域相關,并且是互斥的,所以可以在一個組中一起被識別?,F有的行人屬性識別方法試圖單獨挖掘屬性間的相關性,忽略了屬性組內的語義互斥性和屬性組間的空間相關性,這實際上可以提高行人屬性識別性能。
本文在端到端的結構中對屬性組內和組間關聯性進行建模,在傳統注意力機制的基礎上,提出了一種基于任務感知機制的框架,對行人屬性進行逐組識別,兼顧組內和組間的關系。
1 基于任務感知機制的行人屬性識別
本章主要介紹基于任務感知機制的行人屬性識別網絡架構,具體網絡架構如圖1所示。首先對模型框架進行整體介紹,接著對經典的空間注意力機制進行介紹,隨后比較任務感知機制和空間注意力機制的不同之處,最后介紹了本文使用的損失函數。
1.1 整體架構
本文提出的總體網絡架構如圖1所示,在ResNet50[17]的基礎上加入了任務感知模塊。
首先利用ResNet50的conv1~4模塊進行特征提取,然后將提取到的特征分別輸入給整體特征提取和注意力特征提取兩個網絡。兩個網絡都使用ResNet50的conv5_x模塊作為高層語義特征提取模塊。整體特征提取網絡主要提取行人的整體特征。與ResNet50結構類似,在conv5_x模塊提取得到2 048×14×14維的特征后,使用全局平均池化的方式連接一層全連接層,得到行人屬性的整體特征。注意力特征提取網絡主要偏向于提取行人的局部特征,該網絡主要由任務感知模塊構成。任務感知模塊能夠捕捉屬性的空間關聯特征,并且挖掘不同屬性任務之間的相關性,對局部細粒度的行人屬性有更好的識別效果。最后,將注意力特征提取網絡的輸出進行向量拼接,參考文獻[18],對兩個網絡的輸出采用逐元素取最大值方案,得到最后的屬性預測。
1.2 空間注意力機制
人類視覺感知的一個重要屬性就是選擇性地將注意力集中在視覺空間的部分區域上,并隨著時間的推移,將不同視角下的信息相結合,建立對整個場景的完整表示,這就是空間注意力機制(spatial attention mechanism,SpAM)的由來,其目的是衡量空間位置對于特定任務的重要性。
為了部署注意力模型,首先通過深度卷積神經網絡(DCNN)從圖像中提取深度特征,如圖1所示。假定I是給定行人圖像,將I裁剪為W×H的正方形區域,其中W=H。在經過DCNN的最后一層后得到特征表示圖,記為fI,fI∈C×W′×H′,其中:W′=W/s,H′=H/s,s是DCNN中池化層的步長,由池化層動態決定。因此,fI中每一個特征向量對應于輸入圖像I中大小為s×s的區域,然后在fI上應用注意力機制。
首先針對得到的特征表示圖fI,空間注意力機制會生成多個注意力得分矩陣,一個得分矩陣對應一個行人屬性預測任務,記為gt,其中t對應一個行人屬性預測任務,t∈{1,2,…,T}。隨后利用逐元素相乘的方式將權重ω(SpAM)t與特征圖fI相結合,得到每個任務的特征圖F(SpAM)t,即
其中:c∈{1,2,…,C}表示fI和F(SpAM)t的通道;⊙表示逐元素相乘;fI和F(SpAM)t的維度相同。利用softmax激活函數對ω(SpAM)t的每一個元素進行歸一化,即
其中:gti表示第t個行人屬性任務中第i個位置的得分,i∈[1,W′×H′]表示空間位置下標;gt可以通過簡單的卷積神經網絡獲得。第一層網絡擁有K個核大小為1×1的卷積核,然后針對每一個行人屬性預測任務連接一個核大小為1×1的網絡層,最后連接兩個全連接層。空間注意力機制的目的是為了發掘不同圖像位置的重要性,這有利于下階段對更有利的空間位置進行學習和特征表示。
1.3 任務感知機制
任務感知機制(task-aware mechanism, TAM)和空間注意力機制的最大區別在于空間注意力機制在學習某個任務的注意力權重時并不會考慮其他任務,然而這在行人屬性識別中并不是完全適用的,因為行人屬性不是獨立的個體,屬性和屬性之間存在著聯系,任務感知機制正是通過考慮其他屬性任務來權衡任務的重要性。
首先根據特征圖fI,任務感知機制會得到一個注意力得分矩陣。第t個任務第i個位置的注意力得分記為hti,t∈{1,2,…,T},i∈[1,W′×H′]。隨后對得分矩陣中不同任務的同一位置,即{h1i,h2i,…,hTi}進行歸一化操作。歸一化操作的目的是將不同任務在同一位置上的注意力得分限制在可比較的尺度上,從而反映任務之間的關系,也有利于訓練的穩定性和收斂性。歸一化后會得到新的注意力得分矩陣ω(TAM)={ω(TAM)1,ω(TAM)2,…,ω(TAM)T}。最后將ω(TAM)和特征圖fI進行線性融合,得到每個任務的特征表示F(TAM)t,即
其中:c∈{1,2,…,C}表示fI和F(TAM)t的通道;⊙表示逐元素相乘。
本文利用兩層卷積網絡實現對注意力權重的學習。第一層卷積層使用K個核大小為1×1的卷積核,K根據不同的主干網絡設置。第二層卷積層使用T個核大小為1×1的卷積核,T表示行人屬性預測的任務數。將權重與卷積特征映射相結合,再利用全連接層對融合后的特征進行分類,完成行人屬性識別。盡管屬性與特征圖中具體位置之間的關系尚不明確,但是引入的歸一化操作可以有效解決這一問題:a)歸一化操作可以讓不同任務相同位置的注意力權重保持在相同尺度上;b)通過歸一化操作得到的注意力權重可以反映出特征空間對于不同任務的相對重要性。如果一個位置對于某些任務是有用的,那么它就會給這些任務分配相似的注意力權重。如果一個位置對該任務的貢獻度低,那么注意力權重就會很小。反之,如果一個位置對于任務具有較高的貢獻度,那么注意力權重就會較高。
1.4 損失函數
現有的行人屬性數據集都存在比較嚴重的屬性樣本不平衡的情況,以PETA數據集為例,表1統計了數據集中部分屬性的數量占比。從表1可知,年齡小于30歲、下身穿褲子等屬性的樣本占比更大,而戴眼鏡、穿V領上衣等屬性樣本占比偏小,這使網絡模型在訓練階段更加關注樣本比例大的屬性,從而導致樣本比例高的屬性識別準確率高,樣本比例低的屬性識別準確率低。
針對這種情況,本文采用加權損失函數策略,增大少樣本屬性在訓練過程中的影響。loss函數計算公式如下:
其中:N表示行人圖像的數量;M表示行人屬性的總數量;yij表示第i張行人圖像第j個屬性的真實標簽,若存在即為1,否則為0;ij表示分類層的輸出;σ(Z)的計算公式為
ωj表示第j個屬性的權重。采用文獻[8]的計算方式以緩解屬性間分布不平衡的情況,計算方式如下:
其中:rj表示訓練集中第j個屬性的正樣本占比。
2 實驗結果與分析
2.1 數據集和評價指標
本文方法在現有的三個行人屬性公共數據集上進行了實驗:
a)PETA數據集。PETA數據集共有19 000張行人圖片,每張圖片標注了61個二值屬性和4個多類屬性。本文參考已有的工作,將整個數據集隨機分成3個不重疊的子部分,即9 500張的訓練集、1 900張的驗證集以及7 600張的測試集。由于屬性樣本的不平衡性,一般選擇屬性標注中樣本比例大于5%的屬性用于評價測試,最終屬性數量確定為35個。
b)RAP數據集。RAP數據集包含從26個室內監控攝像機收集的41 585張圖像,每張圖像標注了72個細粒度屬性。按照官方說明,整個數據集被分成了33 268張的訓練集和8 317張的測試集兩部分,并選擇了51個樣本比例大于1%的屬性用于評測。
c)PA100k數據集。PA100k數據集是迄今為止行人屬性識別的最大數據集,總共包含了從室外監控攝像機采集的100 000張行人圖像,每張圖像都用26個常用屬性進行了標注。按照官方說明,整個數據集被隨機分成80 000張訓練圖像、10 000張驗證圖像和10 000張測試圖像。
使用兩種類型的評價指標進行性能衡量:
a)基于標簽的指標。通過計算平均準確率(mean accuracy, mA)作為每個屬性的正準確率和負準確率的平均值。mA的計算公式為
其中:N表示樣本數量;M表示屬性數量;Pi和TPi分別是第i個屬性的正例數和正確預測的正例數;Ni和TNi的定義類似。
b)基于實例的指標。包括準確率(accuracy,Acc)指標、精確率(precision,Prec)指標、召回率(recall,Rec)指標以及F1指標。
2.2 實現細節
在本次實驗中,輸送到網絡的行人圖像大小裁剪為224×224,在數據擴增上,只在訓練過程中采用了隨機翻轉和隨機旋轉的數據增強方法,測試時不進行任何變換。使用ResNet50作為主干網絡,使用在ImageNet上訓練的權重作為初始權重,與文獻[19,20]類似,刪去了conv5_x的空間下采樣操作,即conv5_x輸出的特征維度為2 048×14×14。任務感知網絡一共包含兩層。為了與ResNet50匹配,第一層使用2 048個大小為1×1的卷積核,第二層使用T個大小為1×1的卷積核,T為屬性任務個數。根據屬性的語義和空間信息,將3個數據集進行了不同屬性任務劃分,其中PETA和PA100k數據集劃分為6個屬性任務,而RAP數據集劃分為7個屬性任務。具體屬性任務劃分如表2所示。網絡使用隨機梯度下降法(stochastic gradient descent, SGD)進行參數更新,其中動量(momentum)設為0.9,權值衰減參數(weight decay)設為0.000 5。初始學習率為0.01。
2.3 對比實驗
2.3.1 與其他模型的對比
本文方法與其他12種行人屬性識別任務中最先進的方法在三個行人屬性數據集上進行了對比,如表3~5所示。
ACN(attributes convolutional network)[4]為所有屬性聯合訓練CNN模型,并在不同屬性之間共享權重;DeepMAR(deep multi-attribute recognition model)[5]使用行人的全局特征進行屬性識別,采用加權的交叉熵損失函數來考慮行人屬性的相關性;HP-Net(hydraPlus network)[14]是一種基于注意力機制的方法,它利用多方向注意力模塊訓練多層次、多尺度的注意力強化特征;LGNet(locational guided network)[9]使用行人局部區域網絡提取行人不同部位的局部特征;PGDM(posed guided deep model)[8]利用額外的行人位姿估計模塊來輔助行人屬性識別;JRL(joint recurrent learning)[11]引入編解碼框架來處理圖像上下文信息和屬性相關性;GRL(grouping joint recurrent lear-ning)[12]在JRL基礎上引入人體位姿估計模塊,進一步提高屬性識別效果;RA(recurrent attention model)[21]利用循環注意力機制來挖掘屬性之間的相關性;ALM(attribute localization mo-dule)[18]設計屬性定位模塊,并將不同層次下的特征進行融合,增強上下文信息;DTM(deep template matching)[22]采用輔助監督方式,利用行人姿態關鍵點來引導定位局部屬性;MLASC(multi-level attention skip connect)[23]采用多級注意力跳躍連接網絡來融合網絡提取的特征,提高識別性能;MRAN(multi-scale residual attention network)[24]使用特征金字塔策略融合多尺度特征進行屬性識別。
2.3.2 SpAM和TAM效果對比
本節對SpAM和TAM兩種注意力機制進行了探討。 SpAM和TAM是在不同維度上實現的。簡單來說,SpAM只關注從空間維度上探索每個任務的重要性,而TAM更關注不同任務之間的關系。本文在RAP數據集上對這兩種注意力機制進行了對比。此外,由于這兩種注意力機制實現的維度不同,它們兩個是可以互補的。本文設計了SpAM+TAM+Max和SpAM+TAM+Sum兩個互補形式,所有實驗使用ResNet50作為主干網絡,歸一化操作使用softmax。實驗結果如表6所示。
1)SpAM+TAM+Max 這種模式下,兩種注意力網絡在特征層面上進行了融合。在第一個全連接層上對SpAM和TAM進行融合。對于每一個行人屬性,通過在ResNet50最后一個卷積層后加上兩個注意力模塊,再接一個全連接層,即可分別獲得SpAM和TAM的特征向量,最后對兩個特征向量進行逐元素取最大值的操作。訓練過程與TAM一致。
2)SpAM+TAM+Sum 該方式與上一個方式類似,唯一的區別是將逐元素取最大值操作變成逐元素相加。
由表6可知,在使用TAM的情況下可以獲得最好的實驗效果。其原因是在使用TAM時,已經隱性地對空間維度進行了分析,再加上SpAM不僅會使神經網絡復雜化,而且會降低神經網絡對不同任務的感知能力,從而導致識別性能的下降。
2.3.3 歸一化操作
本節在RAP數據集上對兩種注意力矩陣歸一化方式進行了對比。一種是利用softmax方式,另一種是向量歸一化(vector normalization,VN)方式。
1)softmax 利用softmax得到第t個任務中第i個位置的注意力權重ω(TAN)i,t,計算公式如下:
其中:hti是第t個屬性任務第i個空間位置處原始的注意力得分。
2)向量歸一化 向量歸一化的計算公式如下:
其中:hti是第t個屬性任務第i個空間位置處原始的注意力得分。
從表7可知,向量歸一化的效果在各項指標上較softmax差。分析原因如下:對于softmax而言,給定一個向量,輸出的所有元素相加之和為1,且每個元素的值限制在(0,1);而對于向量歸一化操作,輸出元素的平方和為1,每個元素的值可能不是正值;與向量歸一化相比,利用softmax運算得到的新的特征值更穩定。因此,TAN中的softmax歸一化是一種較好的選擇。
2.3.4 可視化分析
為了研究任務感知機制在行人屬性識別任務中關注的特征,了解任務感知機制在屬性識別過程中發揮著什么樣的作用,利用GradCAM(gradient class activation map)[22]方法對任務感知機制的判別結果進行可視化分析,分別使用模型識別行人是否有“HandBag”和“Female”屬性,可視化結果如圖2和3所示。
對于HandBag屬性,通常只需要關注行人手部區域的特征,也就是對局部區域進行著重關注,與其他區域的關聯性不大。從圖2可以看出,TAM和SpAM都只關注了手部區域的特征,有利于HandBag屬性的識別。
與HandBag屬性不同,Female屬性并不是局部區域特征,而是非局部特征的抽象屬性,需要對全局特征進行綜合性考慮。在這種情況下,SpAM更偏向于大范圍的特征區域,通過關注行人穿著來判定Female屬性,而TAM更關注于局部區域,如長發、裙子以及靴子這些局部特征,進而進行綜合判斷,這相較于SpAM擁有更高的識別準確率。
3 結束語
本文提出了一種基于任務感知機制的行人屬性識別算法。通過對行人不同屬性在空間上和語義上的關聯性分析,對行人屬性進行劃分,并利用提出的任務感知機制進一步識別行人不同的細粒度屬性。本文分析了任務感知機制和傳統空間注意力機制的異同,并通過實驗驗證了本文方法的合理性和有效性。在三個行人屬性數據集上,本文方法展現出了出色的性能,相比于其他優秀算法,本文方法具有較強的競爭力。
參考文獻:
[1]Cao Liangliang,Dikmen M,Fu Yu,et al.Gender recognition from body[C]//Proc of the 16th ACM International Conference on Multimedia.New York :ACM Press,2008:725-728.
[2]Joo J,Wang Shuo,Zhu Songchun.Human attribute recognition by rich appearance dictionary[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2013:721-728.
[3]Wang Xiao,Zheng Shaofei,Yang Rui,et al.Pedestrian attribute recognition:a survey[J].Pattern Recognition,2021,121(1):108220.
[4]Sudowe P,Spitzer H,Leibe B.Person attribute recognition with a jointly-trained holistic CNN model[C]//Proc of IEEE International Conference on Computer Vision Workshops.Piscataway,NJ:IEEE Press,2015:329-337.
[5]Li Dangwei,Chen Xiaotang,Huang Kaiqi.Multi-attribute learning for pedestrian attribute recognition in surveillance scenarios[C]//Proc of the 3rd IAPR Asian Conference on Pattern Recognition.Piscataway,NJ:IEEE Press,2015:111-115.
[6]Zhu Jianqing,Liao Shengcai,Yi Dong,et al.Multi-label CNN based pedestrian attribute learning for soft biometrics[C]//Proc of International Conference on Biometrics.Piscataway,NJ:IEEE Press,2015:535-540.
[7]Yang Luwei,Zhu Ligen,Wei Yichen,et al.Attribute recognition from adaptive parts[EB/OL].(2016-07-05)[2021-08-16].https://arxiv.org/abs/1607.01437.
[8]Li Dangwei,Chen Xiaotang,Zhang Zhang,et al.Pose guided deep mo-del for pedestrian attribute recognition in surveillance scenarios[C]//Proc of IEEE International Conference on Multimedia and Expo.Pisca-taway,NJ:IEEE Press,2018:1-6.
[9]Liu Pengze,Liu Xihui,Yan Junjie,et al.Localization guided learning for pedestrian attribute recognition[EB/OL].(2018-08-28)[2021-08-16].https://arxiv/org/abs/1808.09102.
[10]Zitnick C L,Dollár P.Edge boxes:locating object proposals from edges[C]//Proc of European Conference on Computer Vision.Cham:Springer,2014:391-405.
[11]Wang Jingya,Zhu Xiatian,Gong Shaogang,et al.Attribute recognition by joint recurrent learning of context and correlation[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:531-540.
[12]Zhao Xin,Sang Liufang,Ding Guiguang,et al.Grouping attribute re-cognition for pedestrian with joint recurrent learning[C]//Proc of the 27th International Joint Conference on Artificial Intelligence.2018:3177-3183.
[13]Li Qiaozhe,Zhao Xin,He Ran,et al.Visual-semantic graph reasoning for pedestrian attribute recognition[C]//Proc of AAAI Conference on Artificial Intelligence.2019:8634-8641.
[14]Liu Xihui,Zhao Haiyu,Tian Maoqing,et al.HydraPlus-Net:attentive deep features for pedestrian analysis[C]//Proc of IEEE international Confe-rence on Computer Vision.Piscataway,NJ:IEEE Press,2017:350-359.
[15]Sarafianos N,Xu Xiang,Kakadiaris I A.Deep imbalanced attribute classification using visual attention aggregation[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2018:708-725.
[16]Zhu Feng,Li Hongsheng,Ouyang Wanli,et al.Learning spatial regularization with image-level supervisions for multi-label image classification[C]//Proc of IEEE Conference on Computer Vision and Pattern Re-cognition.Piscataway,NJ:IEEE Press,2017:2027-2036.
[17]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual lear-ning for image recognition[C]//Proc of IEEE Conference on Compu-ter Vision and Pattern Recognition.2016:770-778.
[18]Tang Chunfeng,Sheng Lu,Zhang Zhaoxiang,et al.Improving pedestrian attribute recognition with weakly-supervised multi-scale attribute-specific localization[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:4996-5005.
[19]Sun Yifan,Zheng Liang,Yang Yi,et al.Beyond part models:person retrieval with refined part pooling(and a strong convolutional baseline)[C]//Proc of European Conference on Computer Vision.2018:480-496.
[20]Zhang Zhizheng,Lan Cuiling,Zeng Wenjun,et al.Densely semantically aligned person re-identification[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:667-676.
[21]Zhao Xin,Sang Liufang,Ding Guiguang,et al.Recurrent attention model for pedestrian attribute recognition[C]//Proc of AAAI Confe-rence on Artificial Intelligence.2019:9275-9282.
[22]Zhang Jiajun,Ren Pengyuan,Li Jianmin.Deep template matching for pedestrian attribute recognition with the auxiliary supervision of attribute-wise keypoints[EB/OL].(2020-11-13)[2021-08-16].https://arxiv/org/abs/2011.06798.
[23]王林,李聰會.基于多級注意力跳躍連接網絡的行人屬性識別[J].計算機工程,2021,47(2):314-320.(Wang Lin,Li Conghui.Pedestrian attribute recognition based on multi-level attention skip connection network[J].Computer Engineering,2021,47(2):314-320.)
[24]張再騰,張榮芬,劉宇紅.基于多尺度殘差注意網絡的輕量級行人屬性識別算法[J/OL].控制與決策.(2021-08-02)[2021-08-16].https://doi.org/10.13195/j.kzyjc.2021.0411.(Zhang Zai-teng,Zhang Rongfen,Liu Yuhong.Lightweight pedestrian attribute recognition algorithm based on multiscale residual attention network[J/OL].Control and Decision.(2021-08-02)[2021-08-16].https://doi.org/10.13195/j.kzyjc.2021.0411.)
[25]Sarfraz M S,Schumann A,Wang Yan,et al.Deep view-sensitive pedestrian attribute inference in an end-to-end model[EB/OL].(2017-07-19)[2021-08-16].https://arxiv/org/abs/1707.06089.