楊玉婷,苗奪謙
(1.同濟(jì)大學(xué) 電子與信息工程學(xué)院,上海 201804;2.同濟(jì)大學(xué) 嵌入式系統(tǒng)與服務(wù)計(jì)算教育部重點(diǎn)實(shí)驗(yàn)室,上海 201804)
行人搜索旨在從跨攝像頭下找到與待查詢(xún)目標(biāo)行人類(lèi)別相同的行人在場(chǎng)景中的位置,與行人重識(shí)別(re-ID)[1]任務(wù)相比,它包含從畫(huà)廊(gallery)中生成行人邊界框和匹配行人兩個(gè)過(guò)程。實(shí)際應(yīng)用獲取的圖像往往是包含場(chǎng)景信息的完整圖像,沒(méi)有手動(dòng)標(biāo)注的行人位置信息,導(dǎo)致現(xiàn)有的re-ID方法無(wú)法直接使用。而行人搜索更適合于實(shí)際應(yīng)用,例如視頻監(jiān)視、查找罪犯,跨攝像機(jī)人員跟蹤以及人機(jī)交互等。由于人體姿勢(shì)、場(chǎng)景照明、行人遮擋、分辨率、背景雜亂等因素的復(fù)雜變化,使得行人搜索任務(wù)具有挑戰(zhàn)性,近年來(lái)引起了越來(lái)越多的研究關(guān)注。現(xiàn)有的行人搜索方法將這項(xiàng)任務(wù)分為行人檢測(cè)和行人重識(shí)別兩個(gè)子任務(wù)。在一個(gè)端到端的多任務(wù)框架中處理兩個(gè)子任務(wù)(單階段方法),或者通過(guò)級(jí)聯(lián)行人檢測(cè)器和行人re-ID特征提取器(兩階段方法),訓(xùn)練兩個(gè)獨(dú)立的網(wǎng)絡(luò)分別處理兩個(gè)子任務(wù)。
目前,現(xiàn)有的單階段行人搜索方法大多是基于Faster R-CNN[2]的端到端框架,雖然該多任務(wù)框架是高效且易于訓(xùn)練的,但是存在行人檢測(cè)和re-ID 分支特征優(yōu)化目標(biāo)沖突的問(wèn)題。檢測(cè)分支旨在從畫(huà)廊中獲取邊界框(bounding boxes),并對(duì)邊界框進(jìn)行二分類(lèi),只區(qū)分行人和背景,而不區(qū)分行人的具體類(lèi)別,其關(guān)注的是行人之間的粗粒度共性特征;而re-ID 分支是將檢測(cè)出的各個(gè)疑似目標(biāo)行人與查詢(xún)行人進(jìn)行匹配的過(guò)程,其關(guān)注的是不同行人之間的細(xì)粒度個(gè)性特征。粗粒度共性關(guān)注的是全局的特征,細(xì)粒度個(gè)性關(guān)注的是局部的特征,導(dǎo)致行人檢測(cè)和re-ID 分支特征優(yōu)化目標(biāo)沖突。本文在現(xiàn)有的單階段模型OIM[3]中融入注意力機(jī)制和多粒度的思想,提出了一種雙全局池化結(jié)構(gòu)(dual global pooling),使網(wǎng)絡(luò)可以靈活捕捉全局和局部的聯(lián)系,并對(duì)兩個(gè)不同的分支提取出符合自身粒度特性的特征,從而改善了特征之間的共性和特性沖突問(wèn)題。
同時(shí)由于re-ID 子任務(wù)的細(xì)粒度特性,我們發(fā)現(xiàn)從畫(huà)廊里檢測(cè)到的不同邊界框粒度差異較大。我們把邊界框的分辨率定義為它的粒度,分辨率越高,粒度越細(xì);分辨率越低,粒度越粗。粗粒度的邊界框往往更容易與查詢(xún)?nèi)擞?jì)算出較高的相似度,因?yàn)榇至6鹊倪吔缈蛑?行人特征比較模糊,網(wǎng)絡(luò)無(wú)法提取出具有判別性的細(xì)粒度特征,從而產(chǎn)生錯(cuò)誤的匹配結(jié)果。為了緩解粒度不匹配問(wèn)題,本文提出了一種畫(huà)廊邊界框粒度加權(quán)算法(granularity weighted similarity,GWS),無(wú)需改變模型的復(fù)雜度,將畫(huà)廊邊界框的粒度差異納入相似度計(jì)算,為不同粒度的畫(huà)廊邊界框賦予不同的權(quán)重,提高細(xì)粒度邊界框的權(quán)重,降低粗粒度邊界框的權(quán)重。
本文采用端到端的單階段的行人搜索框架OIM作為基準(zhǔn)模型,目標(biāo)是改進(jìn)行人檢測(cè)和re-ID 分支特征優(yōu)化目標(biāo)沖突問(wèn)題,以及特征相似度計(jì)算時(shí)查詢(xún)行人和畫(huà)廊邊界框粒度不匹配的問(wèn)題。本文主要工作和貢獻(xiàn)如下:
1)針對(duì)檢測(cè)和re-ID 分支特征優(yōu)化目標(biāo)沖突問(wèn)題,提出一種基于注意力機(jī)制的雙全局池化結(jié)構(gòu),對(duì)檢測(cè)分支使用全局平均池化結(jié)構(gòu) (global average pooling,GAP) 提取粗粒度特征,對(duì)re-ID分支使用全局K最大池化結(jié)構(gòu)(globalK-max pooling,GKMAP)[4]進(jìn)行細(xì)粒度特征提取。
2)針對(duì)特征相似度計(jì)算時(shí)查詢(xún)行人和畫(huà)廊邊界框粒度不匹配的問(wèn)題,提出一種畫(huà)廊邊界框粒度加權(quán)算法GWS,把畫(huà)廊邊界框的粒度差異納入相似度計(jì)算,使粗粒度的邊界框獲得較低的權(quán)重,細(xì)粒度的邊界框獲得較高的權(quán)重。
3)實(shí)驗(yàn)證明我們的方法極大地提高了單階段行人搜索算法在CUHK-SYSU[3]和PRW[3]上的性能。
行人搜索作為re-ID 技術(shù)的衍生,如圖1(a)所示,歷史并不算久。早期行人檢測(cè)和re-ID 被當(dāng)作兩個(gè)獨(dú)立的領(lǐng)域進(jìn)行研究,近年來(lái)隨著深度學(xué)習(xí)的不斷發(fā)展,研究者們提出了融合行人檢測(cè)和re-ID 的檢索思想,行人搜索的概念應(yīng)運(yùn)而生。目前,基于深度學(xué)習(xí)的行人搜索主要分為單階段方法和兩階段方法,如圖1(b)所示。

圖1 行人搜索技術(shù)示意Fig.1 Schematic diagram of person search
單階段方法[3,5-8]是指在一個(gè)端到端的網(wǎng)絡(luò)中實(shí)現(xiàn)行人搜索的功能,主流的方法是沿用Faster R-CNN 框架并加以改進(jìn)從而實(shí)現(xiàn)多任務(wù)的功能。最具代表性的是Xiao 等[3]在2017 年提出的行人搜索框架OIM。OIM 將基于ResNet50[9]的Faster R-CNN 當(dāng)作骨干網(wǎng)絡(luò),通過(guò)在網(wǎng)絡(luò)中增加一個(gè)re-ID 分支以實(shí)現(xiàn)行人識(shí)別的功能,并提出了一種在線(xiàn)實(shí)例匹配損失函數(shù),使網(wǎng)絡(luò)可以在具有大而稀疏的分類(lèi)任務(wù)中更好地收斂;為了進(jìn)一步提高網(wǎng)絡(luò)減小類(lèi)內(nèi)差異的能力,Xiao 等[5]提出IAN,沿用Faster R-CNN 框架并通過(guò)引入中心損失增強(qiáng)行人特征的判別性;為了充分利用圖像的上下文信息,Yan 等[6]在Faster R-CNN 的頂部建立了圖模型來(lái)學(xué)習(xí)行人的上下文信息;為了準(zhǔn)確提取邊界框內(nèi)的行人特征, Dong 等[7]提出BINet,在訓(xùn)練階段,除了畫(huà)廊圖像外,還以裁剪后的行人圖片為輸入來(lái)幫助模型基于人的外觀(guān)識(shí)別身份,此外還設(shè)計(jì)了兩個(gè)交互損失來(lái)實(shí)現(xiàn)兩個(gè)級(jí)別的分支之間的雙向交互。為了充分利用查詢(xún)行人的信息,QEEPS[8]提出以查詢(xún)?yōu)閷?dǎo)向的方法,在處理畫(huà)廊圖像時(shí)將查詢(xún)圖片送入網(wǎng)絡(luò),并受SEblock[8]啟發(fā),利用QSSE-Net[8]輔助畫(huà)廊圖像進(jìn)行行人特征的提取。
兩階段方法[10-11]是指先根據(jù)檢測(cè)器從畫(huà)廊中檢測(cè)出所有候選人員,再將其輸入到re-ID 特征提取器中進(jìn)行識(shí)別。Chen 等[10]首次提出單階段的方法存在特征優(yōu)化目標(biāo)沖突的問(wèn)題,并提倡使用行人檢測(cè)器和re-ID 網(wǎng)絡(luò)級(jí)聯(lián)的方式實(shí)現(xiàn)行人搜索算法,即為檢測(cè)和re-ID 提供兩個(gè)參數(shù)獨(dú)立的模型。Zheng 等[11]測(cè)試了檢測(cè)器和識(shí)別器的各種組合,提出了用于訓(xùn)練的級(jí)聯(lián)微調(diào)策略和用于匹配的置信加權(quán)相似度(confidence weighted similarity,CWS),將分類(lèi)置信度從檢測(cè)器傳輸?shù)絩e-ID 網(wǎng)絡(luò),有效地提高了識(shí)別的效果。一般來(lái)說(shuō),兩階段的方法在精度上優(yōu)于單階段的方法,但是在速度上略遜一籌。實(shí)際應(yīng)用中往往對(duì)行人搜索任務(wù)的實(shí)時(shí)性要求較高,因此將兩個(gè)子任務(wù)融合在一個(gè)端到端的框架中解決顯得更加方便和高效,同時(shí)也更符合人類(lèi)處理問(wèn)題的方式。
在計(jì)算機(jī)視覺(jué)領(lǐng)域,注意力機(jī)制主要是為了讓模型把注意力放在感興趣的區(qū)域,基本原理很簡(jiǎn)單:它認(rèn)為,網(wǎng)絡(luò)中每層不同特征(可以是不同通道的,也可以是不同位置的)的重要性不同,后面的層應(yīng)該更注重其中重要的信息,抑制不重要的信息。在本節(jié)中,首先概述基于Faster R-CNN的單階段行人搜索模型OIM 的整體結(jié)構(gòu),然后針對(duì)檢測(cè)和re-ID 分支優(yōu)化目標(biāo)粒度不一致的問(wèn)題,介紹改進(jìn)后的模型。
圖2 顯示了基于Faster R-CNN 的單階段行人搜索方法OIM 的模型結(jié)構(gòu),其在Faster R-CNN 頂部卷積特征的基礎(chǔ)上,添加了用于檢測(cè)、回歸和re-ID的多任務(wù)分支,使模型可以在一個(gè)端到端的框架內(nèi)共同處理行人檢測(cè)和行人re-ID 任務(wù)。如圖2所示,給定一張待查詢(xún)的圖像作為輸入,首先經(jīng)過(guò)ResNet50 的第一部分(res1-res4),將輸入圖片從原始像素變換到卷積特征圖,然后在這些特征圖上建立一個(gè)RPN[2]網(wǎng)絡(luò)(region proposal network,RPN),從而得到預(yù)測(cè)候選人的區(qū)域提案(region proposals)。在對(duì)這些區(qū)域提案進(jìn)行非極大值抑制[13](non-maximum suppression,NMS)后,保留128個(gè)區(qū)域提案,并利用RoI-Align[14]層將這些區(qū)域提案轉(zhuǎn)化為1 024×14×14 的特征區(qū)域。接著將這些池化后的特征區(qū)域輸入到ResNet50 的第二部分(res5)和一個(gè)全局平均池化層(global average pooling,GAP)。最后經(jīng)過(guò)2 048 維全連接層進(jìn)行分類(lèi)和回歸,經(jīng)過(guò)全連接層提取L2 歸一化后的256 維特征,用OIM 損失[3]對(duì)提取的行人特征進(jìn)行優(yōu)化。

圖2 行人搜索模型OIM 結(jié)構(gòu)Fig.2 Structure of person search model OIM
OIM 由檢測(cè)(包括分類(lèi)和回歸)和re-ID 兩個(gè)分支組成,并在全連接層之前共享了一個(gè)全局平均池化層(如圖2 所示)。全局池化層通過(guò)改變卷積特征圖的空間維度,往往可以幫助網(wǎng)絡(luò)實(shí)現(xiàn)更好的分類(lèi),然而由于檢測(cè)和re-ID 特征的粒度特性不同,使用相同的池化方法無(wú)法為每個(gè)分支提取出最優(yōu)的特征。行人檢測(cè)是粗粒度的任務(wù),關(guān)注的是行人這一類(lèi)別特征之間的整體相似性,需要降低局部判別性特征帶來(lái)的差異性和對(duì)分類(lèi)結(jié)果的影響。如圖3 所示,基于這一特性,本文在檢測(cè)分支中保留了全局平均池化的結(jié)構(gòu),便于網(wǎng)絡(luò)提取出全局共性信息。而re-ID 是細(xì)粒度的任務(wù),不同類(lèi)別的行人由于外形、穿著等原因可能看起來(lái)很相似,同時(shí)同一類(lèi)別的行人圖像可能由于姿態(tài)、光照等因素看起來(lái)反而不那么相似,因此該任務(wù)有著“類(lèi)間間距小,類(lèi)內(nèi)間距大”的特點(diǎn)。對(duì)于網(wǎng)絡(luò)來(lái)說(shuō),應(yīng)該更加關(guān)注那些能夠區(qū)分行人的局部特征。本文受到ELoPE[4]的啟發(fā),在網(wǎng)絡(luò)的re-ID 分支中融入了注意力機(jī)制,如圖3 所示,用全局K最大池化結(jié)構(gòu)(globalK-max pooling,GKMAP)代替了原來(lái)的全局平均池化結(jié)構(gòu)。GKMAP通過(guò)提取特征圖中K個(gè)最重要的局部位置,使得用于re-ID 的特征更具判別性。全局平均池化是對(duì)最后一個(gè)卷積層輸出的每一個(gè)特征圖的所有值進(jìn)行平均運(yùn)算,而全局K最大池化是對(duì)最后一個(gè)卷積層輸出的每一個(gè)特征圖先選定K個(gè)最大值,然后對(duì)每個(gè)特征圖中的K個(gè)最大值進(jìn)行平均運(yùn)算。

圖3 改進(jìn)后的OIM 模型結(jié)構(gòu)Fig.3 Structure of improved OIM model
全局K最大池化定義如下:給定輸入圖像x,y∈RC×H×W是最后一個(gè)卷積層的輸出,其中C是通道數(shù),每一個(gè)通道內(nèi)的特征圖的大小為H×W。
給定一個(gè)c∈{1,2,···,C},降序排列后的向量Vc定義如下:

基于給定K值的全局K最大池化的定義如下:

如果K=H×W,式(2)則可以表示標(biāo)準(zhǔn)的全局平均池化。
全局平均池化的定義如下:

本文中,通過(guò)引入雙全局池化結(jié)構(gòu),改進(jìn)后的OIM 模型可以為檢測(cè)分支提取出全局的粗粒度共性特征,為re-ID 分支提取出局部的細(xì)粒度個(gè)性特征,從而能夠靈活捕捉全局和局部的聯(lián)系,專(zhuān)注于提取符合兩個(gè)子任務(wù)粒度特性的特征。
OIM 模型在計(jì)算查詢(xún)?nèi)撕彤?huà)廊圖像的相似度時(shí),將畫(huà)廊中檢測(cè)到的不同邊界框權(quán)重視作相等,這就產(chǎn)生了查詢(xún)行人和畫(huà)廊邊界框粒度不匹配的問(wèn)題。為了改善粒度不匹配問(wèn)題,本文提出一種畫(huà)廊邊界框粒度加權(quán)相似度計(jì)算(granularity weighted similarity,GWS)。
GWS 算法定義如下:給定一個(gè)查詢(xún)?nèi)诉吔缈騫和一個(gè)畫(huà)廊邊界框g,q和g的相似度計(jì)算定義如下:

我們用area(b)=bw·bh定義邊界框的面積,并定義函數(shù)d(q,g)來(lái)衡量q和g之間的粒度差異。

式中:d(q,g)的值越接近1,說(shuō)明q和g之間的粒度差異越小,d(q,g)的值越小,說(shuō)明g相對(duì)于q的粒度越粗。
檢測(cè)框g的權(quán)重變化函數(shù)w(q,g)如圖4 所示。

圖4w(q,g)示意圖Fig.4 Structure ofw(q,g)
定義閾值k1和k2,k1表示開(kāi)始降低權(quán)重時(shí)橫坐標(biāo)d(q,g)的閾值,k2表示d(q,g)為0 時(shí)縱坐標(biāo)w(q,g)的值,若d(q,g)≥k1,則w(q,g)設(shè)置為1,保持不變;若d(q,g) 粒度加權(quán)相似度計(jì)算GWS 的定義如下: GWS 算法是受到CWS 算法[11]的啟發(fā),當(dāng)畫(huà)廊邊界框的質(zhì)量較低(如包含大范圍背景或者邊界框分類(lèi)錯(cuò)誤)時(shí),re-ID 的準(zhǔn)確率不可避免地會(huì)受到影響,CWS 通過(guò)將檢測(cè)置信度納入相似度計(jì)算來(lái)解決這個(gè)問(wèn)題,使得那些高質(zhì)量的邊界框比低質(zhì)量的邊界框擁有更高的權(quán)重,從而計(jì)算出更符合實(shí)際的相似度。通過(guò)實(shí)驗(yàn)證明,GWS 可以在CWS 的基礎(chǔ)上進(jìn)一步提高OIM 的精度。 置信度加權(quán)相似度計(jì)算CWS 的定義如下: 其中C=2和y={0,1} 代表前景和背景邊界框兩種類(lèi)別。det(g)表示網(wǎng)絡(luò)的檢測(cè)分支為邊界框g預(yù)測(cè)的置信度。 綜上,本文提出的GWS 可以和CWS 融合成一種新的畫(huà)廊邊界框加權(quán)算法GWS+,定義如下: CUHK-SYSU:CUHK-SYSU 是一個(gè)大型行人搜索數(shù)據(jù)集,由攝像機(jī)拍攝的街道行人照片和從電影中收集的照片兩部分組成。它包含1818 張畫(huà)廊圖像,8 432個(gè)帶標(biāo)簽的行人和96 143個(gè)帶標(biāo)注的邊界框。每個(gè)被標(biāo)記的行人都分配有一個(gè)類(lèi)別標(biāo)簽,并且屬于同一個(gè)類(lèi)別標(biāo)簽的行人至少以不同的角度出現(xiàn)在兩張不同的畫(huà)廊圖像中,未標(biāo)記類(lèi)別的行人被標(biāo)記為未知人員。訓(xùn)練集包含11 206個(gè)畫(huà)廊圖像和5 532個(gè)行人類(lèi)別,而測(cè)試集包含6 978個(gè)畫(huà)廊圖像和2 900個(gè)查詢(xún)?nèi)恕T跍y(cè)試集中,對(duì)于每個(gè)查詢(xún)?nèi)?其畫(huà)廊圖像的數(shù)目在50~4 000,本文實(shí)驗(yàn)?zāi)J(rèn)將畫(huà)廊圖像的數(shù)目設(shè)置為100。 PRW:PRW 數(shù)據(jù)集由從大學(xué)校園中拍攝的視頻中提取的11 816個(gè)視頻幀組成。它包含932個(gè)帶標(biāo)簽的行人和34 304個(gè)帶標(biāo)注的邊界框。與CUHK-SYSU 類(lèi)似,標(biāo)注分為帶標(biāo)簽的行人類(lèi)別和未標(biāo)記的行人。訓(xùn)練集包含5 704 張圖像和482個(gè)行人類(lèi)別,測(cè)試集包含2 057 名查詢(xún)?nèi)藛T,每個(gè)人都將在具有6 112 張圖像的畫(huà)廊中進(jìn)行搜索。因此,畫(huà)廊大小明顯大于CUHK-SYSU 的默認(rèn)設(shè)置。 本文使用mAP (mean average precision)[3]和CMC (cumulative matching characteristics)[3]作為衡量行人搜索性能的標(biāo)準(zhǔn)指標(biāo)。 由于行人搜索包含了檢測(cè)邊界框的過(guò)程,因此僅當(dāng)排名候選框與真值邊界框 (ground truth)的IoU(Intersection over Union)大于0.5 時(shí)才被認(rèn)為是正確的,這是與re-ID 方法的主要區(qū)別。 使用PyTorch 來(lái)實(shí)現(xiàn)OIM 模型,并在NVIDIA 2080Ti GPU 上運(yùn)行實(shí)驗(yàn)。采用ImageNet[15]預(yù)先訓(xùn)練的ResNet50 作為骨干網(wǎng)絡(luò),把前4個(gè)殘差塊(res1-res4)用作主干網(wǎng)絡(luò),然后用標(biāo)準(zhǔn)的RPN 生成行人候選邊界框,接下來(lái)經(jīng)過(guò)RoI-Align 層將候選框的尺寸重塑為14×14,然后經(jīng)過(guò)ResNet50 的res5 殘差塊。在訓(xùn)練過(guò)程中,采用SGD 算法,將動(dòng)量設(shè)置為0.9,權(quán)重衰減設(shè)置為0.000 1,批量大小設(shè)置為2。對(duì)于CUHK-SYSU,學(xué)習(xí)速率被初始化為0.001,在40 000 迭代之后下降到0.000 1,并保持不變,直到50 000 迭代。 將在CUHK-SYSU 和PRW 數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),以探索本文提出的方法對(duì)實(shí)驗(yàn)結(jié)果的貢獻(xiàn),包括雙全局池化結(jié)構(gòu)和GWS 算法。基于Py-Torch重新實(shí)現(xiàn)了OIM 模型,表1 給出在兩個(gè)數(shù)據(jù)集上進(jìn)行的消融實(shí)驗(yàn)結(jié)果,其中OIM 是我們重新實(shí)現(xiàn)的基準(zhǔn)模型,OIM+GWS 是基準(zhǔn)模型加上GWS 算法,OIM+CWS 是基準(zhǔn)模型加上CWS 算法,OIM+GWS+是基準(zhǔn)模型加上融合了CWS 的GWS 算法。2pool 是使用雙全局池化結(jié)構(gòu)改進(jìn)后的模型,2pool+GWS 是雙全局池化結(jié)構(gòu)和GWS算法,2pool+CWS 是雙全局池化結(jié)構(gòu)和CWS 算法,2pool+GWS+是雙全局池化結(jié)構(gòu)加上融合了CWS的GWS 算法。 雙全局池化結(jié)構(gòu)的有效性:表2 給出在CUHKSYSU 數(shù)據(jù)集上單全局池化結(jié)構(gòu)與雙全局池化結(jié)構(gòu)的對(duì)比實(shí)驗(yàn)(其中K=4)。其中OIM_1GAP 表示使用單全局平均池化的基準(zhǔn)模型,OIM_1GAP 表示使用單全局最大池化的模型,OIM_1GKMP 表示使用單全局K最大池化的模型,OIM_2pool 表示使用雙全局池化結(jié)構(gòu)改進(jìn)后的模型。通過(guò)分析可以看出,無(wú)論是共享全局平均池化層,還是共享全局K最大池化層,使用雙全局池化層的效果要優(yōu)于共享全局池化層,說(shuō)明對(duì)檢測(cè)分支和re-ID[15]分支使用不同的池化方法可以?xún)?yōu)化特征共性-特性沖突問(wèn)題。同時(shí),由于本文方法對(duì)模型的改動(dòng)是微小的,與OIM 基準(zhǔn)模型相比,本文方法對(duì)速度的影響是微小的,與OIM 相差無(wú)幾。 表2 單雙全局池化層結(jié)構(gòu)對(duì)比實(shí)驗(yàn)(取K=4)Table2 Experiments of different pooling structures % K的取值:在CHUK-SYSU 數(shù)據(jù)集上,在GKMAP中為K選擇合適的值的實(shí)驗(yàn)探究如圖5 所示。當(dāng)K=1 時(shí)與GMP 等效,K=196 時(shí)與GAP 等效(最后一個(gè)卷積層的空間尺寸為 14×14)。如圖5 所示,觀(guān)察到K=4 時(shí),結(jié)果的效果是最佳的。 圖5K 的取值對(duì)比實(shí)驗(yàn)Fig.5 Different values ofK GWS 的有效性:圖6 給出GWS 的可視化結(jié)果示例,GWS 修正了OIM 的錯(cuò)誤結(jié)果。我們分別選擇了k1=0.8 和k2=0.8。在表1 中,將GWS 應(yīng)用到OIM 后,在CUHK-SYSU 上,mAP 和top-1 分別提高了0.5%和0.4%;在PRW 上,mAP 和top-1 分別提高了0.4%和0.3%。將GWS 添加到改進(jìn)后的2pool_OIM 中,在CUHK-SYSU 上,mAP 和top-1分別提高了0.4%和0.4%;在PRW 上, mAP 和top-1 分別提高了0.3%和0.2%。同時(shí)從表1 可以看到,融合了CWS 的GWS+在OIM 和改進(jìn)后的OIM 仍然保持有效性,以上結(jié)果證明了GWS 的確可以改善粒度不匹配問(wèn)題。 圖6 GWS 可視化結(jié)果示例Fig.6 Visualization examples of GWS 表1 本文方法在CUHK-SYSU 和PRW 上的實(shí)驗(yàn)結(jié)果Table1 Result of proposed method on CUHK-SYSU and PRW % 本文針對(duì)單階段行人搜索模型存在的特征優(yōu)化目標(biāo)沖突問(wèn)題,在現(xiàn)有的單階段模型中融入注意力機(jī)制和多粒度的思想,提出了一種雙全局池化結(jié)構(gòu),使網(wǎng)絡(luò)可為不同分支提取出符合自身粒度特性的特征。針對(duì)查詢(xún)?nèi)撕彤?huà)廊邊界框粒度不匹配的問(wèn)題,本文提出一種改善粒度匹配的畫(huà)廊邊界框加權(quán)算法,將檢測(cè)框的分辨率差異納入相似度計(jì)算中從而改善了粒度不匹配的問(wèn)題。本文方法有效地提高了單階段算法在CHUK-SYSU和PRW 數(shù)據(jù)集上的性能。


4 實(shí)驗(yàn)結(jié)果
4.1 數(shù)據(jù)集
4.2 評(píng)價(jià)指標(biāo)
4.3 實(shí)驗(yàn)設(shè)置
4.4 實(shí)驗(yàn)結(jié)果與分析




5 結(jié)束語(yǔ)