







收稿日期:2023-07-15
DOI:10.19850/j.cnki.2096-4706.2024.03.016
摘" 要:由于采集的圖像中存在遮擋、圖像分辨率低、人姿態(tài)發(fā)生改變等干擾因素,行人重識(shí)別的研究極具挑戰(zhàn)性。為此,文章提出基于注意力機(jī)制與多粒度特征的行人重識(shí)別網(wǎng)絡(luò)。首先,針對(duì)行人姿態(tài)的改變,設(shè)計(jì)了一種多粒度特征提取模塊,使用多分支網(wǎng)絡(luò)聯(lián)合注意力機(jī)制提取多層次全局特征與局部特征。其次,針對(duì)行人局部未對(duì)齊問(wèn)題,文章提出了一種鄰域自適應(yīng)特征融合模塊。此外,為保留更多的有用信息,文章還設(shè)計(jì)了一個(gè)自適應(yīng)特征池化模塊。在兩個(gè)公開數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),與其他方法的比較結(jié)果驗(yàn)證了所提出方法的有效性。
關(guān)鍵詞:行人重識(shí)別;深度學(xué)習(xí);自適應(yīng)特征池化;特征表示;多粒度特征
中圖分類號(hào):TP391.4" 文獻(xiàn)標(biāo)識(shí)碼:A" 文章編號(hào):2096-4706(2024)03-0073-06
Research on Pedestrian Re-identification Method Based on Multi-granularity Features
LI Jing1, CHEN Tianli2, LAN Ling3, WU Jianbin4
(1.Wengyuan County Public Security Bureau, Shaoguan" 512600, China; 2.Xinfeng County Public Security Bureau, Shaoguan" 511100, China; 3.Beijiang Middle School, Shaoguan" 512000, China; 4.Teacher Development Center of Wujiang District, Shaoguan" 512000, China)
Abstract: Due to interference factors such as occlusion, low image resolution, and changes in person poses in the collected images, the research on person re-identification is extremely challenging. To this end, this paper proposes a pedestrian re-identification network based on Attention Mechanism and multi-granularity features. Firstly, in response to the change of pedestrian posture, this paper designs a multi-granularity feature extraction module, which uses a multi-branch network joint Attention Mechanism to extract multi-level global features and local features. Secondly, for the pedestrian local misalignment problem, this paper proposes a neighborhood adaptive feature fusion module. In addition, in order to retain more useful information, this paper also designs an adaptive feature pooling module. It conducts experiments on two public data sets, and the comparison results with other methods verify the effectiveness of the proposed method.
Keywords: pedestrian re-identification; Deep Learning; adaptive feature pooling; feature representation; multi-granularity feature
0" 引" 言
隨著社會(huì)的逐漸發(fā)展與科技水平的不斷提高,先進(jìn)的科學(xué)技術(shù)不斷服務(wù)于社會(huì)的和諧穩(wěn)定。為了防止一些大型的公共場(chǎng)所中安全事件的發(fā)生,在大型公共場(chǎng)所安裝了大量的監(jiān)控?cái)z像設(shè)備。這些大量的監(jiān)控設(shè)備可以有效地保障社會(huì)穩(wěn)定和人身財(cái)產(chǎn)的安全,同時(shí),通過(guò)攝像頭所獲取到的數(shù)據(jù)已經(jīng)成為公安部門偵破犯罪案件的一個(gè)非常重要的手段。但是隨著視頻監(jiān)控?cái)?shù)據(jù)的大量增長(zhǎng),通過(guò)人工的方式對(duì)監(jiān)控所拍攝的視頻圖像進(jìn)行目標(biāo)行人的識(shí)別不僅耗費(fèi)大量的精力,而且也是非常耗時(shí)的。因此,行人重識(shí)別(Person Re-identification, ReID)逐漸成為一個(gè)研究的熱點(diǎn)問(wèn)題。
1" 相關(guān)工作
行人重識(shí)別是一種比較特殊的非重疊攝像機(jī)下的人員匹配的問(wèn)題,它主要的目標(biāo)是通過(guò)一個(gè)感興趣的行人圖像可以在不同的時(shí)間、不同地點(diǎn)或者是不同監(jiān)控設(shè)備下進(jìn)行目標(biāo)行人的檢索[1]。
在早期的研究階段,研究者們的主要還是依靠于傳統(tǒng)方法進(jìn)行研究,主要是特征提取和相似性度量?jī)煞矫娴难芯縖2,3]。
在特征提取方面的研究主要是基于特征表示的方法,通過(guò)手工的方式來(lái)進(jìn)行特征的設(shè)計(jì)。比較常用的方法有形狀、顏色以及紋理特征等。其中,梯度直方圖(HOG)[4],尺度不變特征變換(SIFT)[5,6]是用來(lái)表示形狀特征,基于顏色特征的方法通常使用 LAB、HSV、RGB等表示行人的特征?;诩y理特征的方法有局部二值模式[7],Gabor濾波[8],共生矩陣[9]。隨著研究的發(fā)展,也有很多學(xué)者會(huì)研究行人外觀的描述,Liao等人[10]為了能夠更好地提取特征,他們提出了一種局部最大特征描述,首先將行人的圖像進(jìn)行輸入,再提取HSV顏色直方圖特征,同時(shí)不只是提取一種特征,還使用了SILTP提取紋理直方圖特征,選擇直方圖中的最大值來(lái)構(gòu)成新的直方圖。Farenzena等人[11]提出了一種 SDALF方法,這種方法就是對(duì)稱驅(qū)動(dòng)的局部特征積累方法,Gray等人[12]提出了局部特征的集合(ELF)方法,該方法可以將輸入進(jìn)行分割。
Ma等人[13]還提出了一種局部描述子(LDFV)的方法,該描述子是基于Fisher向量的方法,在這篇文章中Ma等人提出了一個(gè)新的描述子,BiCov描述子。該方法不僅在特征表示上使用了顏色特征和紋理特征,而且還新增加了行人的屬性特征,增加完善了特征表示的信息。
行人重識(shí)別中另一個(gè)研究就是度量學(xué)習(xí)。目前,研究者們常用的方法主要是集中于兩種,一種是在研究過(guò)程中常用的歐氏距離(ED),另外一種就是更加有優(yōu)勢(shì)的馬氏距離(MD)。Kostinger等人[14]提出了一種保持簡(jiǎn)單和直接的度量學(xué)習(xí)(KISSME)方法,該方法更加適用于大規(guī)模數(shù)據(jù)集。Weinberger等人[15]同樣提出了新的度量方法,大邊距最近鄰(LMNN)方法。該度量學(xué)習(xí)方法的提出存在一個(gè)問(wèn)題,那就是會(huì)在實(shí)驗(yàn)過(guò)程中發(fā)生過(guò)擬合。Davis等人[16]為了解決上述方法中存在的問(wèn)題,在該方法得基礎(chǔ)上,提出一種改進(jìn)的方法為信息論度量學(xué)習(xí)(ITML)方法,該方法可以很好的滿足各類相似性約束,以及成對(duì)距離之間的關(guān)系。除此以外,也有學(xué)者會(huì)使用其他的一些度量學(xué)習(xí)方法,Mignon等人[17]通過(guò)對(duì)度量學(xué)習(xí)方法的研究提出了一種新的方法,成對(duì)約束分量分析(PCCA)方法。不僅如此,Pedagadi等人[18]提出了局部線性判別分析(LFDA)方法,該方法同樣也取得了很好的效果。
深度學(xué)習(xí)技術(shù)的成熟是比較晚的,在此之前都是以傳統(tǒng)方法為主。在最近幾年的研究工作中,深度學(xué)習(xí)技術(shù)為研究工作帶來(lái)了更好的基礎(chǔ),和傳統(tǒng)方法相比較,通過(guò)深度學(xué)習(xí)技術(shù)能夠獲得傳統(tǒng)方法所不及的表示能力,而這一表示能力是非常強(qiáng)大的,因?yàn)橥ㄟ^(guò)深度學(xué)習(xí)能夠?qū)W習(xí)出更加復(fù)雜的特征,因此,在性能方面肯定是遠(yuǎn)高于傳統(tǒng)方法。在該課題研究中可使用的方法較多,在度量方面可以使用度量學(xué)習(xí)方法,而在特征方面可以使用表征學(xué)習(xí)、局部特征的方法。生成對(duì)抗網(wǎng)絡(luò)(GAN)[19]的逐漸成熟,為數(shù)據(jù)集數(shù)據(jù)不足提供了解決方法,可以使用它來(lái)進(jìn)行數(shù)據(jù)的擴(kuò)充。
近幾年隨著GAN的發(fā)展,很多研究學(xué)者利用GAN在該課題中進(jìn)行一些研究工作。Zheng等人[20]使用了GAN解決ReID中數(shù)據(jù)量較少的問(wèn)題,將真實(shí)訓(xùn)練數(shù)據(jù)和新生成數(shù)據(jù)合并后作為CNN的訓(xùn)練輸入。Zhong等人[21]提出了一種相機(jī)風(fēng)格自適應(yīng)方法,這種方法是為了對(duì)數(shù)據(jù)的多樣性有所增加,從而達(dá)到防止過(guò)度擬合的目的。Qian等人[22]提出姿態(tài)歸一化GAN(PNGAN),該方法的一個(gè)優(yōu)勢(shì)是可以不用再關(guān)心姿態(tài)的變化,解決了姿態(tài)對(duì)于模型性能的影響問(wèn)題。
基于上述研究,為了更好的實(shí)現(xiàn)行人重識(shí)別,本文提出了一種基于注意力機(jī)制與多粒度特征的行人重識(shí)別網(wǎng)絡(luò)。首先,本文設(shè)計(jì)了一種多粒度特征提取模塊,使用多分支網(wǎng)絡(luò)聯(lián)合注意力機(jī)制提取多粒度全局特征與局部特征,不同粒度的特征各有所長(zhǎng),可高魯棒性挖掘圖像中的信息。其次,針對(duì)行人局部未對(duì)齊的問(wèn)題,本文提出了一種鄰域自適應(yīng)特征融合模塊,避免行人信息丟失。此外,為了保留更多的有用信息,本文還設(shè)計(jì)了一個(gè)自適應(yīng)特征池化模塊。本文在兩個(gè)公開數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),與其他方法的比較結(jié)果驗(yàn)證了本文所提出方法的有效性。
2" 本文所提出的行人重識(shí)別方法
由于監(jiān)控環(huán)境下不同機(jī)位的視角的變化會(huì)導(dǎo)致拍攝出的圖像不一致,而且在監(jiān)控區(qū)域中行人不是靜止的,行人的活動(dòng)以及行人眾多所導(dǎo)致的遮擋現(xiàn)象在查找目標(biāo)行人時(shí)依舊會(huì)非常的困難,這些是行人重識(shí)別任務(wù)的難點(diǎn)。解決這些難點(diǎn)的關(guān)鍵在于找到魯棒性的表示方法,傳統(tǒng)的行人重識(shí)別方法特征表示能力較差,難以應(yīng)對(duì)復(fù)雜情況?;谏疃葘W(xué)習(xí)的識(shí)別方法[23-25]具有較好的特征表征能力,是當(dāng)前的主流方法,但是這些方法難以應(yīng)對(duì)行人的多姿態(tài)與多分辨率。為此,本文提出了一種多粒度特征神經(jīng)網(wǎng)絡(luò)(Multi-granularity FeaturesNetwork, MGF-Net)用于行人重識(shí)別方法,下面將進(jìn)行詳細(xì)介紹。
2.1" 網(wǎng)絡(luò)的總體結(jié)構(gòu)
如圖1所示,我們的方法由主干網(wǎng)絡(luò)與多粒度特征提取模塊組成。
圖1" MGF-Net網(wǎng)絡(luò)結(jié)構(gòu)
給定一張行人圖像X,主干網(wǎng)絡(luò)從圖像中提取不同尺度的特征。可以表示為:
其中,F(xiàn)1、F2、F3、F4分別表示1/4、1/8、1/16以及1/32尺度下的特征。 表示特征提取器,即主干網(wǎng)絡(luò)。在得到多尺度特征之后,多粒度特征提取模塊對(duì)多尺度特征通過(guò)注意力機(jī)制進(jìn)行特征融合,得到不同粒度的特征,該過(guò)程可以表示為:
其中,Agp(·)表示自適應(yīng)全局池化, 表示特征融合模塊,用于將F3與F4融合,F(xiàn)l(·)表示基于鄰域自適應(yīng)特征融合的局部特征提取模塊。G1表示從高層語(yǔ)義提取的全局特征,G2表示從高層語(yǔ)義與中層特征所提取的全局特征,L1表示局部特征。在測(cè)試階段,本文將G1、G2與L1進(jìn)行拼接,得到行人的特征表示,使用距離度量的方法將輸入圖像的拼接向量與圖像庫(kù)中圖像的特征向量進(jìn)行匹配。
2.2" 自適應(yīng)全局池化
全局池化是的作用將特征圖轉(zhuǎn)化為一維向量,從特征圖中提取關(guān)鍵的信息,全局最大池化與全局平均池化是兩種最常用的池化方式。最大池化可以找到一些關(guān)鍵特征,平均池化可以綜合特征的上下文信息。為了綜合利用兩種池化的優(yōu)勢(shì),本文設(shè)計(jì)了一種自適應(yīng)池化模塊。
對(duì)于特征F,首先分別使用最大池化與平均池化進(jìn)行處理,得到Fmax與Favg,然后,將二者進(jìn)行拼接,得到[Fmax,F(xiàn)avg],使用輸出為2的全連接層與Softmax函數(shù),得到Fmax與Favg的權(quán)重amax與aavg。最后,F(xiàn)max與Favg進(jìn)行加權(quán)融合。
2.3" 特征融合模塊
特征融合模塊用于將Agp(F3)與Agp(F4)進(jìn)行融合。其包含維度變換,特征增強(qiáng),特征組合四個(gè)步驟。下面將進(jìn)行具體介紹。
維度變換:Agp(F3)與Agp(F4)的維度分別為
1 024與2 048,為了統(tǒng)一維度,分別使用輸入為1 024的全連接層對(duì)Agp(F3)與Agp(F4)進(jìn)行維度變換,得到兩個(gè)1 024維度的向量F3c與F4c。
特征增強(qiáng):將F3c與F4c進(jìn)行相加,并分別使用兩個(gè)輸出為1 024的全連接層,求取F3c與F4c所需要的殘差,基于殘差對(duì)F3c與F4c進(jìn)行增強(qiáng),該過(guò)程可以表示為:
其中,F(xiàn)3E與F4E分別表示增強(qiáng)后的特征。
特征組合:將F3E與F4E進(jìn)行特征拼接,得到全局特征G2,可以表示為:
2.4" 基于鄰域自適應(yīng)特征融合的局部特征提取模塊
行人圖像具有相對(duì)明確的結(jié)構(gòu)信息,因此,在行人重識(shí)別中,局部信息也是非常重要的,為了獲取局部信息,一種常用的做法是將特征圖沿著水平方向進(jìn)行均勻劃分。得到人體不同位置的局部特征,比如頭部,身體。但是,均勻切分難以適應(yīng)人體位置多樣性的問(wèn)題,可能出現(xiàn)位置不對(duì)齊的問(wèn)題。為此,本文提出了一種鄰域自適應(yīng)特征融合模塊來(lái)對(duì)相鄰圖像塊的信息之間進(jìn)行了交互。這樣即使圖像是均勻劃分的,最終的特征信息也是根據(jù)人體的特征進(jìn)行學(xué)習(xí)的,可以大大提高模型的魯棒性。
給定三個(gè)相鄰的局部特征L1,L2以及L3,使用L1與L3中的信息對(duì)L2進(jìn)行增強(qiáng)。為實(shí)現(xiàn)這一目的,首先將三者進(jìn)行相加融合,得到融合后的特征Lfusion,然后使用全連接層,從Lfusion求取增強(qiáng)L2所需要的特征。增強(qiáng)后的L2可以表示為:
2.5" 損失函數(shù)
為了充分發(fā)揮多粒度特征的優(yōu)勢(shì),我們損失函數(shù)使用了交叉熵?fù)p失與對(duì)比損失的組合,下面將進(jìn)行詳細(xì)介紹。
1)交叉熵?fù)p失:行人重識(shí)別任務(wù)本質(zhì)可以看作是一個(gè)分類任務(wù),因此,本文采用分類任務(wù)中最經(jīng)典的交叉熵?fù)p失對(duì)不同粒度的特征分別進(jìn)行了監(jiān)督,Softmax損失函數(shù)公式為:
其中,m表示參數(shù)與損失計(jì)算的樣本的總個(gè)數(shù),p表示數(shù)據(jù)中所包含的類別數(shù),x表示樣本的特征,y表示特征的標(biāo)簽,W表示分類層中的可學(xué)習(xí)權(quán)重。
2)原型損失:行人重識(shí)別具有類間差異小,類內(nèi)差異大的特點(diǎn),為了增強(qiáng)同類別特征的緊湊型,本文還使用了原型損失對(duì)模型進(jìn)行了監(jiān)督。首先,我們?yōu)槊總€(gè)類別的每個(gè)粒度的特征構(gòu)建一個(gè)可學(xué)習(xí)原型,然后計(jì)算特征距離原型的歐式距離,某一類別特征距離該類別的原型的距離應(yīng)小于該特征距離其他原型的距離。原型損失可以表示為:
其中,m表示參數(shù)與損失計(jì)算的樣本的總個(gè)數(shù),p表示數(shù)據(jù)中所包含的類別數(shù),x表示樣本的特征,t表示可學(xué)習(xí)原型。
3)總損失:在模型訓(xùn)練階段,使用兩個(gè)損失進(jìn)行聯(lián)合訓(xùn)練,模型的總損失可以表示為:
2.6" 算法的總體流程
給定一張圖像,模型的主干對(duì)圖像的特征進(jìn)行提取,提取的特征經(jīng)由三種不同的處理,得到三個(gè)種粒度的特征,使用Softmax損失和原型損失共同計(jì)算損失,并基于誤差值優(yōu)化網(wǎng)絡(luò)。算法的具體流程可以表示為:
Algorithm:多層次細(xì)粒度三分支網(wǎng)絡(luò)行人重識(shí)別算法流程
輸入:行人圖像
輸出:預(yù)測(cè)行人的標(biāo)簽
Step1.輸入行人圖像。
Step2.主干網(wǎng)絡(luò)提取行人圖像特征圖。
Step3.對(duì)特征圖F4采用自適應(yīng)池化后輸出2 048維特征。
Step4.將該特征分別使用Softmax和原型損失計(jì)算損失。
Step5.對(duì)特征圖F4與F3進(jìn)行特征融合,得到融合后特征。
Step6.對(duì)融合后特征使用Softmax和原型損失計(jì)算損失。
Step7.將特征圖F4進(jìn)行均勻切分,切分為6份,并用自適應(yīng)池化輸出6個(gè)2 048維特征。
Step8.將這6個(gè)特征進(jìn)行鄰域自適應(yīng)特征融合,輸出特征 f1~f6。
Step9.將f1~f6輸入到Softmax loss,并將其串聯(lián)后輸入到原型損失。
3" 實(shí)驗(yàn)結(jié)果及分析
3.1" 實(shí)驗(yàn)實(shí)施細(xì)節(jié)
本文實(shí)驗(yàn)的系統(tǒng)環(huán)境為Ubuntu18.04操作系統(tǒng),模型訓(xùn)練是在NVIDIA GTX 3090 GPU進(jìn)行的,模型框架采用PyTorch。在進(jìn)行網(wǎng)絡(luò)訓(xùn)練時(shí),為了提升模型表達(dá)能力,使用了在 ImageNet[54]的預(yù)訓(xùn)練的Resnet50模型的權(quán)重對(duì)本文網(wǎng)絡(luò)的主觀進(jìn)行了初始化。在訓(xùn)練階段,行人圖像的尺寸被統(tǒng)一調(diào)整為384×128。此外,本文還使用了隨機(jī)翻轉(zhuǎn)和隨機(jī)擦除這兩種數(shù)據(jù)增強(qiáng)策略。在訓(xùn)練階段,本文選擇了常用的SGD優(yōu)化器對(duì)模型進(jìn)行訓(xùn)練,SGD的參數(shù)使用的均為默認(rèn)參數(shù),模型的batch 大小為32,訓(xùn)練總次數(shù)為120個(gè)epoch。
對(duì)于學(xué)習(xí)率,我們使用了預(yù)熱策略與衰減策略。對(duì)于預(yù)測(cè)策略,將學(xué)習(xí)率的初始值設(shè)置為3×10-2大小,并逐步增大到初始學(xué)習(xí)率。對(duì)于衰減策略,模型在第40,80,100個(gè)epoch學(xué)習(xí)率變?yōu)橹暗氖种弧?/p>
3.2" 與其他模型的比較結(jié)果
為了驗(yàn)證本文方法與其他方法的差別,使用了該課題中現(xiàn)有的十種方法進(jìn)行比較,這幾種方法分別是IANet、Triplet Loss、MultiScale、Auto-ReID、MLFN、HA-CNN、PCB、GSRW、PGFA、P2-Net,表1為本文方法與十種方法在 Market-1501數(shù)據(jù)集上的對(duì)比結(jié)果。由對(duì)比結(jié)果數(shù)據(jù)可以看出,本文的方法Rank-1為95.4%、mAP為85.8%。本文方法與P2-Net算法相比,Rank-1與mAP均有所提升。與其他算法相比,本文方法均有顯著提高,證明了本文方法的有效性。
表1" 在Market-1501與主流算法的比較" "單位:%
Methods Rank-1 mAP
Triplet Loss 84.9 69.1
MultiScale 88.9 73.1
MLFN 90.0 74.3
HA-CNN 91.2 75.7
PGFA 91.2 76.8
PCB 92.3 77.4
PCB+RPP 93.8 81.6
GSRW 92.7 82.5
IANet 94.4 83.1
Auto-ReID 94.5 85.1
P2-Net 95.2 85.6
MGF-Net 95.4 85.8
3.3" 消融研究
3.3.1" 多粒度特征的有效性
我們通過(guò)實(shí)驗(yàn)來(lái)說(shuō)明本文方法中各個(gè)粒度的特征作用是否是有效的。為此,我們?cè)贛arket1501數(shù)據(jù)集下對(duì)模型各個(gè)粒度特征的有效性以進(jìn)行了驗(yàn)證。表2顯示了在使用不同粒度特征的設(shè)置下,不同模型的性能比較結(jié)果。
表2" 不同粒度特征設(shè)置下的性能比較結(jié)果" 單位:%
Model Rank-1 Rank-5 Rank-10 mAP
MGF-Net(G1,G2) 93.8 97.7 98.5 81.9
MGF-Net(G2,L1) 94.4 97.5 98.5 82.8
MGF-Net(G1,L1) 94.6 97.9 98.8 82.9
MGF-Net 95.4 98.1 98.9 85.8
其中,G1和G2分別代表兩種全局特征,L1代表局部特征。可以發(fā)現(xiàn),當(dāng)去掉局部特征后,模型的性能顯著下降。去掉全局特征1或者全局特征2,模型的性能略有下降。這一結(jié)果說(shuō)明了本文提出的多粒度特征對(duì)于模型性能的提升時(shí)有效的。
3.3.2" 自適應(yīng)池化的有效性
進(jìn)一步,本文對(duì)所提出池化策略的有效性進(jìn)行了驗(yàn)證,結(jié)果如表3所示??梢钥吹剑畲蟪鼗男阅芤獌?yōu)于平均池化,這是因?yàn)樽畲蟪鼗瘯?huì)找到許多具有辨別性的特征信息。將最大池化與平均池化綜合使用,可以取得優(yōu)于任意一種池化方法的效果,因此,綜合使用最大池化與平均池化是最佳選擇。
表3 不同池化設(shè)置下的性能比較結(jié)果" " 單位:%
Model Rank-1 Rank-5 Rank-10 mAP
MGF-Net(最大池化) 95.1 97.6 98.1 84.8
MGF-Net(平均池化) 94.2 96.5 97.5 83.8
MGF-Net 95.4 98.1 98.9 85.8
3.3.3" 特征融合模塊的有效性
為了驗(yàn)證本文提出的特征融合模塊的有效性,本文將全局特征2中的特征融合改為了降維后直接拼接的融合方式,從表4可以看到,本文的特征融合方式可以帶來(lái)0.4%的Rank-1增益和1.2%的mAP增益。這一結(jié)果充分體現(xiàn)了本文所設(shè)計(jì)的特征融合模塊的有效性。
表4" 不同特征融合方式下的性能比較結(jié)果" 單位:%
Model Rank-1 Rank-5 Rank-10 mAP
MGF-Net(直接拼接) 95.0 97.5 98.1 85.0
MGF-Net 95.4 98.1 98.9 85.8
3.3.4" 鄰域自適應(yīng)特征融合模塊的有效性
為了驗(yàn)證本文提出的鄰域自適應(yīng)特征融合模塊的有效性,本文對(duì)使用與不使用鄰域自適應(yīng)特征融合模塊的特征的模型進(jìn)行了比較,結(jié)果如表5所示??梢钥吹?,在不使用鄰域自適應(yīng)特征融合模塊的情況下,模型的性能有顯著下降,這一結(jié)果充分體現(xiàn)了本文所設(shè)計(jì)的鄰域自適應(yīng)特征融合模塊的有效性。
表5" 使用與不使用鄰域自適應(yīng)特征融合模塊的性能比較結(jié)果
單位:%
Model Rank-1 Rank-5 Rank-10 mAP
MGF-Net(不使用鄰域自適應(yīng)特征融合模塊) 95.2 97.8 98.1 85.1
MGF-Net 95.4 98.1 98.9 85.8
4" 結(jié)" 論
本文提出一種多分支架構(gòu)的深度學(xué)習(xí)網(wǎng)絡(luò)用于行人重識(shí)別,所提出的網(wǎng)絡(luò)由兩個(gè)全局特征提取分支和一個(gè)局部特征提取分支組成。多個(gè)分支可以提取圖像不同層次的圖像特征,避免信息的確實(shí),增強(qiáng)了所提取特征的魯棒性。在局部特征提取分支,針對(duì)行人局部未對(duì)齊的問(wèn)題,本文在局部分支中設(shè)計(jì)了一種重疊特征融合方法,避免行人信息丟失。在兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明了所提出的方法的優(yōu)越性。
參考文獻(xiàn):
[1] 姚樂(lè)煒.基于深度學(xué)習(xí)的行人重識(shí)別算法研究 [D].哈爾濱:哈爾濱工業(yè)大學(xué),2018.
[2] 盧丹丹. 基于深度學(xué)習(xí)的行人重識(shí)別技術(shù) [D].南京:南京郵電大學(xué),2020.
[3] 孫鵬,馮鵬定,于彤等.基于巴氏距離的監(jiān)控視頻人體目標(biāo)相似性度量 [J].中國(guó)刑警學(xué)院學(xué)報(bào),2019(4):119-123.
[4] DALAL N,TRIGGS B. Histograms of oriented gradients for human detection [C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition.San Diego:IEEE,2005:886-893.
[5] ZHAO R,OUYANG W,WANG W. Unsupervised salience learning for person re-identification [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Portland:IEEE,2013:3586-3593.
[6] ZHAO R,OUYANG W,WANG X. Person re-identification by salience matching [C]//Proceedings of the IEEE International Conference on Computer Vision.Sydney:IEEE, 2013:2528-2535.
[7] MIGNON A,JURIE F. Pcca:a new approach for distance learning from sparse pairwise constraints [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Providence:IEEE,2012:2666-2672.
[8] ZHENG W S,GONG S,XIANG T. Person re-identification by probabilistic relative distance comparison [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.IEEE,2011:649-656.
[9] SCHWARTZ W R,DAVIS L S. Learning Discriminative Appearance-Based Models Using Partial Least Squares [C]//XXII Brazilian Symposium on Computer Graphics amp; Image Processing.IEEE,2010:322-329.
[10] LIAO S,HU Y,ZHU X,et al. Person re-identification by local maximal occurrence representation and metric learning [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Boston:IEEE,2015:2197-2206.
[11] FARENZENA M,BAZZANI L,PERINA A. Person re-identification by symmetry-driven accumulation of local features [C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition.IEEE,2010:2360-2367.
[12] GRAY D,TAO H. Viewpoint Invariant Pedestrian Recognition with an Ensemble of Localized Features [C]//ECCV '08:Proceedings of the 10th European Conference on Computer Vision.Berlin:Springer-Verlag,2008:262-275.
[13] MA B,YU S,JURIE F. Local Descriptors Encoded by Fisher Vectors for Person Re-identification [C]//Proceedings of the International Conference on Computer Vision.Berlin:Springer-Verlag,2012:413-422.
[14] K?STINGER M,HIRZER M,WOHLHART P,et al. Large scale metric learning from equivalence constraints [C]//2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence:IEEE,2012:2288-2295.
[15] WEINBERGER K Q,SAUL L K. Distance Metric Learning for Large Margin Nearest Neighbor Classification [J].The Journal of Machine Learning Research,2009,10:207-244.
[16] DAVIS J V,KULIS B,JAIN P. Information-theoretic metric learning [C]//Proceedings of the 24th international conference on Machine learning,Corvallis:Association for Computing Machinery,2007:209-216.
[17] MIGNON A,JURIE F. PCCA:A new approach for distance learning from sparse pairwise constraints [C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,2012:2666-2672.
[18] PEDAGADI S,ORWELL J,VELASTIN S. Local Fisher Discriminant Analysis for Pedestrian Re-identification [C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.IEEE,2013:3318-3325.
[19] GOODFELLOW I,POUGET-ABADIE J,MIRZA M,et al. Generative adversarial nets [C]//Advances in Neural Information Processing Systems.Montreal.Canada:MIT Press, 2014:2672-2680.
[20] ZHENG Z,ZHENG L, YANG Y. Unlabeled samplesgeneratedby gan improve the person re-identification baseline in vitro [C]//2017 IEEE International Conference on Computer Vision.IEEE,2017:3774-3782.
[21] ZHONG Z,ZHENG L,ZHENG Z,et al. Camera Style Adaptation for Person Re-identification [C]//2018 IEEE Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:5157-5166.
[22] QIAN X,F(xiàn)U Y,XIANG T,et al. Pose-Normalized Image Generation for Person Re-identification [C]//Proceedings of the European conference on computer vision.Munich:Springer,2018:650-667.
[23] CHEN X,F(xiàn)U C,ZHAO Y,et al. Salience-Guided Cascaded Suppression Network for Person Re-identification [C]//Computer Vision and Pattern Recognition. Seattle:IEEE,2020:3300-3310.
[24] ZHENG F,DENG C,SUN X,et al. Pyramidal Person Re-IDentification via Multi-Loss Dynamic Training [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Long Beach:IEEE,2019:8506-8514.
[25] MIAO J X,WU Y,LIU P, et al. Pose-Guided Feature Alignment for Occluded Person Re-Identification [C]//International Conference on Computer Vision.Seoul:IEEE,2019:542-551.
作者簡(jiǎn)介:李靜(1977—),男,漢族,廣東韶關(guān)人,警務(wù)技術(shù)二級(jí)主管,本科,研究方向:網(wǎng)絡(luò)通信、視頻人像識(shí)別在公安業(yè)務(wù)的應(yīng)用分析;陳天立(1974—),男,漢族,廣東韶關(guān)人,警務(wù)技術(shù)一級(jí)主管,本科,研究方向:公共治安視頻監(jiān)控、人臉識(shí)別等系統(tǒng)建設(shè)規(guī)劃、實(shí)戰(zhàn)應(yīng)用;藍(lán)凌(1978—),男,畬族,廣東南雄人,中學(xué)高級(jí)教師,本科,研究方向:信息技術(shù)、人工智能通信;吳劍濱(1979—),男,漢族,廣東英德人,本科,中級(jí)工程師,研究方向:信息技術(shù)教育教學(xué)、計(jì)算機(jī)圖形圖像處理。