陳 瑩, 夏士雄, 趙佳琦, 周 勇, 姚 睿, 朱東郡
1(中國礦業大學 計算機科學與技術學院, 徐州 221116)
2(礦山數字化教育部工程研究中心, 徐州 221116)
行人重識別技術(person re-identification, ReID)[1]是在行人檢測的基礎上利用計算機視覺方法判斷圖像或者視頻序列中是否存在特定行人的技術, 被認為是圖像檢索的子問題. 行人重識別技術與行人檢測技術相結合, 可廣泛應用于智能視頻監控、智能商業、智能安防等領域. 在實際的視頻監控環境中, 由于目標尺寸變化、姿態變化、非剛體目標形變等目標自身變化的多樣性和光照變化、背景復雜、相似行人干擾、遮擋等應用環境的復雜性, 使得魯棒、高效的行人重識別是一個極具挑戰性的課題, 也是當前國內外的研究熱點. 其中, 攝像機視角不同和多姿態行人是導致ReID任務識別精度低的主要原因. “多姿態” (例如正身與側身匹配)是指當目標發生運動時引起身體幾何形變或者角度變化, 從而導致不同姿態下同一行人圖像在像素級別的差別大于不同行人在相同姿態下的圖像, 如圖1 所示. 針對上述問題, ReID 方法的核心在于如何設計魯棒的行人視覺特征和如何得到最優的行人圖像特征相似性度量.

圖1 行人重識別任務中“多姿態”樣本示例
卷積神經網絡(convolutional neural networks,CNNs)作為深度學習的一個重要組成部分, 它可以從大規模數據集中自動學習魯棒的行人特征, 基于深度學習的ReID 方法能夠自動學習較好的視覺特征和最優的相似性度量, 因此基于深度學習的行人重識別技術得到迅速發展[2]. 人體姿態的變化會引起識別漂移或者失敗, 其原因是當人體發生形變或者角度變化時, 行人的表觀特征也會發生變化, 與初始跟蹤時的目標有較大外觀差異. 行人姿態多變仍然是ReID 方法提取有效行人特征的一大挑戰, 現有深度學習領域主要有3 類方法針對該問題: 行人圖像對齊[3–6], 局部特征學習[7–11]和行人姿態轉換[12–16].
行人圖像對齊方法解決的是由于姿態或者視角變化以及不可靠的關鍵點檢測引起的身體部件缺失和圖像背景冗余問題, 通過將非對準圖像數據進行人體結構對齊來學習圖像對的相似度. 局部特征學習方法針對姿勢變化引起的人體不對準問題, 采用關鍵點定位技術生成多個區域, 從而學習易于判別行人身份的局部特征. 行人姿態轉換方法利用生成式對抗網絡生成身份一致的規范姿態圖像達到學習與身份相關特征的目的. 盡管這些方法獲得了較好的ReID 性能, 但行人圖像對齊和局部特征學習方法在識別階段需要輔助的姿態信息, 這限制了ReID 方法的泛化能力. 尤其是基于行人姿態轉換的ReID 方法, 它們忽略了生成任務對識別精度的影響.
針對行人重識別數據集的姿態多樣性帶來的挑戰,在不進行行人對齊或學習基于人類區域表示的情況下,本文提出一種基于變分對抗與強化學習(RL-VGAN)的行人重識別方法來提取僅與身份相關的視覺特征.一方面提升網絡生成多樣性樣本的能力, 另一方面提升行人重識別方法對相似樣本干擾的魯棒性. 具體而言, RL-VGAN 在孿生網絡結構中嵌入設計的變分生成式對抗網絡(variational generative network, VG-Net),VG-Net 中變分生成網絡由外觀編碼器和圖像解碼器組成, 圖像解碼器將外觀編碼器編碼的外觀特征和姿態編碼器編碼的姿態特征解碼為新的行人圖像; 姿態判別器用以判斷生成的行人圖像是否與原始的目標姿態一致. 除了VG-Net 外, 還包括一個身份驗證分類器實現行人身份的判斷. 特別地, 變分生成網絡將行人圖像分解為兩個基本特征: 與內在身份信息相關的外觀特征和可變化的姿態特征(包括位置、體型、形狀等).大量定性和定量實驗證明RL-VGAN 方法在基準數據集上取得顯著效果. 本文的主要貢獻包括以下3 點.
(1) 設計了一個新的變分生成網絡將行人特征解耦為外觀特征和姿態特征, 有效地緩解姿態變化帶來識別精度低的問題. 特別地, 通過采用Kullback-Leibler(KL)散度損失促進編碼網絡學習潛在空間變量和真實圖像之間的關系, 保證編碼的空間變量包含更多與行人身份相關的信息.
(2) 采用強化學習策略能夠處理變分生成式對抗網絡在方向傳播中不可微分的問題, 通過限制生成網絡迭代的梯度調整判別網絡的參數, 保證生成網絡和判別網絡的協調工作.
(3) 針對基于姿態引導圖像生成任務生成圖像質量差的問題, 設計新的inception score (IS)損失, IS 是評估GAN 生成圖像真實性和多樣性的指標, 因此提出新的IS 損失使變分生成網絡生成具有真實性和多樣性的行人圖像.
本文的其余部分組織如下: 第1 節討論了行人重識別方法的相關工作; 第2 節詳細地介紹基于變分對抗與強化學習的行人重識別方法; 第3 節描述了實驗細節和分析了實驗結果; 第4 節概括了本文的結論以及提出未來研究工作的方向.
行人ReID 技術通常包含3 個環節: 特征提取、相似度量和特征匹配. 首先利用行人特征表示方法提取行人圖像的視覺特征; 然后對提取到的行人圖像視覺特征進行訓練, 學習合適的相似性度量方法; 最后將待檢索的行人圖像視覺特征與其他行人圖像視覺特征進行相似度排序, 找到與其相似度高的行人圖像. ReID方法的核心在于如何設計魯棒的行人視覺特征和如何得到最優的行人圖像特征相似性度量. 由于目標在不同的角度和距離拍攝下, 其形狀、姿態和相對大小都有變化, 行人姿態多變仍然是ReID 方法提取有效行人特征的一大挑戰, 現有深度學習領域主要有3 類方法針對該問題: 行人圖像對齊[3–6], 局部特征學習[7–11]和行人姿態轉換[12–16].
基于行人圖像對齊的行人重識別方法通過把人體分解成幾塊區域后獲取每個區域的特征表示, 計算兩幅圖像對應區域之間相似度和作為它們的匹配得分.王金等人[3]利用行人圖像的圖像塊集合, 提取每個圖像塊特征表示獲取行人圖像的局部信息, 對局部信息進行聚類處理建立兩幅行人圖像塊之間的對應關系以獲得姿態對齊后的圖像塊序列. 基于深度學習的部件表示(deeply-learned part-aligned representations, DPR)[4]方法針對人體空間分布不一致問題, 采用注意力機制提取一個更具區分性的三維特征向量, 其通道對應人體部位, 在不借助人體部件標注的情況下采用最小化三元損失訓練網絡模型. 這些行人圖像對齊方法要么簡單地把人體分為幾個部分, 要么通過姿態估計器估計人體骨架信息來實現對齊, 而行人對齊網絡(pedestrian alignment network, PAN)[5]采用深度學習方法來矯正行人姿態, 學習一個二維的變換把行人對齊好后再做識別, 該方法包含基本網絡分支和對齊網絡分支這兩個CNN 分類網絡和一個放射估計網絡. 基本分類網絡由ResNet-50 作為骨干網絡, 執行識別預測任務; 對齊網絡定位行人關節點以便放射估計網絡學習一個能夠對齊人體結構的二維變換. Zheng 等人[6]提出位姿不變嵌入(pose invariant embedding, PIE)作為行人描述符,首先利用姿態估計和仿射變換產生將行人與標準姿勢對齊的PoseBox 結構; 其次設計PoseBox Fusion 網絡融合輸入圖像、PoseBox 和姿態估計誤差, 在姿態估計失敗時提供了一種后退機制.
上述方法利用人體結構來增強識別能力, 通過人體部件對齊表示來處理身體部件不對齊導致的局部距離過大問題. 而基于局部特征學習的行人重識別方法通過區分人體區域精準地識別行人, 因為人體具有高度的結構[17]. Chen 等人[7]提出了可以提取人體整體和區域特征的集成模型, 該集成模型包括提取整體特征的卷積神經網絡和提取區域特征的雙向高斯混合模型.為了提高模型的泛化性, 在特征匹配時采用距離歸一化提取的特征. 另一個解決此類問題的有效方法是將長短期記憶網絡嵌入到孿生網絡中[8], 利用上下文信息以序列的方式對人體部件進行處理, 提高局部特征的判別能力實現識別行人的任務. Spindle Net[9]是ReID任務中第1 個考慮人體結構信息的方法, 它利用14 個定位的人體關節來檢測感興趣區域, 產生7 個身體區域: 頭-肩、上體和下體宏觀區域以及雙腿、雙臂微觀區域與Spindle Net 相似, 姿態驅動的深卷積方法(posedriven deep convolutional, PDC)[10]也采用了同時學習全局和局部信息的方式, 但將14 個關鍵點分成6 個區域. 而全局局部對齊描述符方法(global local alignment descriptor, GLAD)[11]在提取人體關鍵點后將人體分為頭部、上半身和下半身3 部分, 采用4 個子網絡組成的CNN 對全局區域和局部區域進行特征表示學習, 結合全身輸入到網絡中進行特征融合.
盡管這些方法獲得了較好的ReID 性能, 但由于需要輔助姿態信息增加了計算復雜度. 近年來, 許多學者對Goodfellow 等人[18]首次提出的生成式對抗網絡(generative adversarial network, GAN)產生了興趣, 一些工作致力于研發基于GAN 的ReID 任務. Zheng 等人[19]利用深度卷積生成式對抗網絡(deep convolutional GAN, DCGAN)生成無類標樣本, 這是利用GAN 完成ReID 任務的第一個工作. 同時也有很多ReID 方法利用GAN 來指導姿態轉換的行人圖像生成. Ge 等人提出FD-GAN (feature distilling GAN)[12]僅學習和身份信息有關的視覺特征, 去除冗余的姿態特征表示. 在網絡學到行人視覺特征后, 在測試階段不需要輔助的姿態信息, 因此減少了計算成本. 為了解決在跨攝像機下對姿態多變訓練數據的差異特征和不變特征的魯棒性學習, Ho 等人[13]提出一種端到端的稀疏時態學習框架用以解決姿態時序變化問題. Qian 等人[14]提出一種基于姿態歸一化圖像生成的方法(pose-normalization GAN,PN-GAN), 該方法可以生成身份一致和姿態可控的行人圖像. 而基于姿態生成的方法(pose transferrable GAN,PT-GAN)[15]是一個實現轉移行人姿態的模型, 將MARS 數據集中的多姿態行人圖像遷移到目標數據集以擴充訓練樣本, 設計引導子網絡模型使生成的新姿態圖像更好地適應ReID 任務.
本文提出的RL-VGAN 模型以姿態引導圖像生成的思想解決ReID 易受姿態變化影響和相似行人干擾的問題. 整體的網絡模型結構如圖2 所示. RL-VGAN模型采用孿生網絡結構, 該結構的每個分支嵌入由變分生成網絡G和姿態判別器Dp組成的變分生成式對抗網絡. 以孿生網絡一個分支的訓練過程為例, 條件行人圖像xi被G中的外觀編碼器Ea編碼成外觀特征fa, 目標姿態圖像pk被姿態編碼器Ep編碼為姿態特征fp, 圖像解碼器D根據外觀特征fa、姿態特征fp和隨機噪聲n拼接的特征z生成擁有xi外觀以及姿態pk的行人圖像xki.接下來, 姿態判別器Dp通過判別樣本姿態的真實性來規范圖像解碼器D生成姿態變化樣本的能力. 此外, 身份驗證分類器V監督外觀編碼器Ea學習僅與身份相關的視覺特征.

圖2 RL-VGAN 網絡結構示意圖
給定序列(X,Y)=({x1,···,xN},{y1,···,yM}),xi表示有M個類別和N張圖像數據集中的一張行人圖像,yj表示xi的身份標簽. 為了生成真實的行人圖像, 本節設計變分生成網絡學習與圖像相關的連續隱變量分布以便進行采樣和插值. 一方面利用變分推理保留條件行人圖像的細節信息, 另一方面采用最近鄰損失保證生成的圖像在外觀和紋理上與條件行人圖像一致.


借助姿態編碼器, 孿生網絡中兩個圖像解碼器生成的行人圖像姿態一致, 保證一個分支中的外觀編碼器可以學習僅用身份相關與姿態無關的特征.
變分生成式對抗網絡通過變分推理和對抗學習生成較為真實的圖像, 編碼網絡通過隱變量和真實圖像之間的KL 損失保持了外觀特征的一致性. 在對抗性學習階段, RL-VGAN 模型將變分生成網絡和姿態判別器嵌入到孿生網絡模型中, 通過生成樣本對抗學習提升RL-VGAN 模型學習身份特征以及生成相似樣本的能力. GAN 的基本思想來源于極小極大博弈, 變分生成網絡試圖通過生成更自然的圖像“欺騙”判別器以獲得高匹配置信度, 姿態判別器Dp用來判別變分生成網絡G生成的行人圖像是否能完成姿態遷移的任務.
將外觀特征fa、姿態特征fp和服從正態分布的隨機噪聲n統一到相同空間維度z, 加入噪聲n目的是提高模型魯棒性. 在基于變分生成對抗網絡模型中, 圖像解碼器D根據z生成具有pk姿態和xi外觀的新圖像xki, 姿態判別器Dp判別生成的圖像xki與相同分支輸入圖像xk的姿態特征是否保持一致, 保證D在姿態轉移上的生成能力.Dp的損失函數如式(8)所示.

其 中,m表示孿生網絡的分支數.
深度強化學習(reinforcement learning, RL)將深度學習的強大感知能力及表征能力與強化學習的決策能力相結合, 通過最大化獎勵函數的學習方式使學習器從環境中獲取行為. 具體而言就是通過一系列動作策略與環境交互, 學習器產生新的參數, 再利用新的參數去修改自身的動作策略, 經過數次迭代后, 學習器就會學習到完成任務所需要的動作策略. 在基于姿態指導行人圖像生成任務中, 采用強化學習的方法訓練變分生成網絡G和姿態判別器Dp中的參數, 對它們的參數進行調整保證兩個網絡協調工作來學習行人的幾何特征. 基于強化學習的變分生成式對抗網絡(RL-VGAN)模型如圖3 所示.

圖3 強化變分生成式對抗網絡結構示意圖
在RL-VGAN 網絡模型中, 變分生成網絡G作為學習器在更新網絡參數生成新的樣本過程中, 與姿態判別器Dp環境進行交互, 產生新的狀態S,S表示在當前姿態判別器Dp的狀態下是否需要對G進行狀態更新.G生成圖像的質量通過強化學習決策產生動作a影響Dp. 同時環境給出反饋即由標量獎勵信號r組成, 通過達到最大獎賞值來提高生成網絡生成圖像的能力, 以及通過學習器和環境不斷交互來更新網絡.G將生成的圖像送入Dp計算獎勵信號Qr, 根據得到的獎勵信號進行策略梯度下降優化模型. 采用Dp(·)作為獎勵函數一方面促使變分生成網絡G和姿態判別器Dp協同工作,另一方面保證生成的圖像具有目標姿態特征. 獎勵信號Qr定義如下:

一個分支網絡的Dp試圖最小化以下損失函數:


算法1. 基于強化學習的變分生成式對抗網絡算法流程輸入: 學習器 , 環境 , 行人樣本和姿態數據, 起始狀態G x′輸出: 學習器 生成的圖像GDpxpS 0=G(x,p)1 for do G tepoches<maxepoches 2 使用變分生成網絡 根據姿態和行人圖像生成一張行人圖像x′x′GSa 3 根據 質量來產生是否更新 的狀態以及動作4 使用式(9)計算獎勵信號QrG Qr 5 根據獎勵信號 判斷當前是否對 執行更新網絡參數的決策Qr 6 根據 進行策略梯度下降優化模型7 end for
為了完成識別行人身份任務, 需要借助身份驗證分類器V進行行人身份的識別,V根據兩個分支外觀編碼器Ea編碼的特征識別輸入的圖像是否屬于同一個行人, 因此驗證分類損失Lve 可以由式(11)表示:

本節對所提出的RL-VGAN 模型在3 個基準數據集上進行實驗驗證, 證明RL-VGAN 模型在ReID 任務中的優越性. 首先對本文使用的數據集和評價指標進行介紹; 其次針對圖像生成任務, 與基于姿態指導行人圖像生成方法進行對比; 最后對RL-VGAN 模型與先進的行人重識別方法在姿態變化問題上進行比較.
基于卷積神經網絡的行人重識算法依賴于大規模的數據集, 本文在大型數據集CUHK03[21], Market-1501[22]和DukeMTMC[23]上進行ReID 算法驗證, 通過3 個指標: IS[20], structural similarity (SSIM)[24]和Frechet inception distance (FID)[25]評價圖像生成質量,采用平均準確度(mean average precision, mAP)和累計匹配特征(cumulative match characteristics, CMC)曲線評估ReID 算法的性能.
采用的數據集詳細信息如表1. CUHK03 數據集是由香港中文大學從2 個攝像頭上采集的, 包含1 476個行人的14 097 張圖像, 每個行人平均有9.6 張訓練數據. 由1 367 個行人作為訓練集和100 個行人作為測試集組成, 且提供人工標注的行人檢測框和機器檢測的行人檢測框. Market-1501 數據集的采集地點是清華大學校園, 使用6 個攝像頭采集了1 501 個行人的32 668張圖像, 其中訓練集有751 個行人和12 936 張圖像, 平均每人有17.2 張訓練數據; 測試集包含750 個行人的19732 張圖像, 平均每人擁有26.3 張測試數據. Duke-MTMC 數據集是在杜克大學由8 個攝像頭采集, 該數據集由16 522 張行人圖像的訓練集和17 661 張圖像的測試集組成. 訓練集中有702 個行人, 平均每人有23.5 張訓練數據; 測試數據集中有702 個行人, 平均每人有25.2 張測試數據, 該數據集提供了行人屬性(性別/長短袖/是否背包等)的標注信息.

表1 行人重識別圖像數據集信息
由于各種概率標準, 評估不同模型生成圖像的質量是一項艱巨的任務. 使用3 個標準: 可辨別性, 多樣性和真實性來量化FD-GAN, RL-VGAN(w/IS) (w/IS 表示RL-VGAN 模型在FD-GAN 的基礎上僅用IS 損失)和RL-VGAN 生成模型. IS 度量標準表示生成圖像的質量和多樣性之間的合理相關性, 這也是IS 廣泛用于度量生成圖像的原因. SSIM 作為感知度量, 經常用來衡量由于數據壓縮或數據傳輸中丟失而導致的圖像質量惡化程度. FID 在判別生成圖像真實性方面表現良好, 因此它被認為是對帶有標記數據集樣本質量評估的標準. FID 值越低表示兩個樣本分布越近, 生成的圖像越接近真實圖像, 而IS 和SSIM 值越高表示生成的圖像質量越好.
現有的ReID 算法采用CMC 曲線評估算法中分類器的性能, 即匹配給定目標行人圖像在大小為r的行人圖像庫中出現的概率. CMC 曲線將行人匹配結果的高低進行排序, 通過rank-r的形式給出, 即查找r次即可找到目標行人的概率. CMC 曲線能夠檢驗ReID 算法的查準率, 此外還要考慮算法的查全率, 因此采用mAP 對算法的性能進行評估. mAP 是對ReID 算法中準確率和召回率的綜合考量, 其計算方式是對每個檢索目標求AP (average precision)并取平均. 將準確率和召回率作為橫縱坐標時, AP 的值是曲線下的面積.
與面向多姿態行人重識別的變分對抗與強化學習網絡模型和傳統的ReID 模型相比, 模型的任務更復雜, 故采用多階段的學習方法來訓練本文提出的RLVGAN 模型, 實現多個任務的協同學習: 一方面實現高質量樣本生成, 另一方面提升行人重識別方法的泛化性能. 使用PyTorch 環境實現代碼編寫, 采用一張Geforce RTX 2080Ti 卡訓練所提方法. 在訓練過程中,3 個基準數據集的圖像大小設置為256×128, 與FDGAN[12]一樣, 整個網絡的訓練分為3 個階段. 第1 階段利用損失函數Lve在數據集上訓練變分生成網絡中的外觀編碼器Ea和身份驗證分類器V, 采用隨機梯度下降法(stochastic gradient descent, SGD)[26]優化兩個神經網絡, 動量因子大小為0.9, 初始學習率設為0.01. 第1 階段batch_size設為128, 共訓練100 個迭代次數. 第2 階段是針對生成任務, 在固定外觀編碼器Ea和身份驗證分類器V網絡參數的情況下訓練圖像解碼器D和姿態判別器Dp, 即式(12)中λve=0. 圖像解碼器D采用Adam 優化器[27](β1=0.5 , β2=0.999), 姿態判別器Dp采用SGD 進行優化, 其中 β1和 β2是矩估計的指數衰減率, 兩個網絡的初始學習率分別是10?3、10?2, 第2 階段的batch_size設為16, 共訓練100 個迭代次數.第3 階段, 整個行人重識別網絡以端到端的方式聯合微調進行模型參數的學習,batch_size設為16, 共訓練50 個迭代次數.
為了證明在本小節中, 我們首先在3 個基準數據集上, 展示所提方法生成圖像的視覺效果, 其次使用IS, SSIM 和FID 三種評價指標評估RL-VGAN 方法生成圖像的效果. 最后采用mAP 和rank-1 準確率對比RL-VGAN 方法和其他行人重識別方法.
3.3.1 基于姿態指導行人圖像生成結果
圖4 展示了RL-VGAN 生成圖像示例, 從上到下依次為條件行人圖像、目標行人圖像、目標姿態圖像和生成行人圖像. RL-VGAN 方法在大多數情況下能夠生成真實和多樣的圖像, 由于數據集中圖像存在遮擋以及清晰度低的問題, 因此生成的圖像中存在一些噪點, 但整體上比較好的保留了原圖像的細節信息.

圖4 在3 個數據集上的生成圖像示例
為了定量地分析方法的有效性, 選用IS、SSIM和FID 作為分析和評估本文方法與基準方法的客觀評價指標, 如表2 所示. 其中, RL-VGAN(w/IS)表示RLVGAN 只采用IS 損失. 與基線FD-GAN 相比, 在CUHK03 數據集上, RL-VGAN(w/IS) 分別在IS 和SSIM 評估指標提高了3.86%、3.45%, 在FID 指標上下降了4.77%. 表明IS 損失能夠促進生成網絡很好地保留更多外觀信息. 而且, RL-VGAN 得到的IS 準確率相比于RL-VGAN(w/IS), 分別提高了9.83%、6.81%和1.21%. 其原因在于結合強化學習的生成式對抗網絡有效地規范了生成網絡生成圖像的過程, 從而進一步提高行人圖像的姿態轉移能力. 針對本文提出的IS 損失, 我們評估了其在不同數據集上的收斂性, 如圖5 所示. 我們可以看出IS 損失收斂值約為0.02.

表2 3 個基準數據集上生成圖像的IS、SSIM 和FID 值

圖5 訓練階段, IS 損失隨著迭代次數在3 個數據集上的變化說明
3.3.2 與現有行人重識別方法的結果比較
為了公平起見, 我們選擇的ReID 對比方法是解決ReID 任務中行人姿態變化導致識別精度差的問題,包括基于行人圖像對齊的ReID 方法[5]和基于行人姿態轉換的ReID 方法[12–16], 如表3 所示.
表3 中“*”表示本文復現結果, CMC 包括rank-1正確率, 即預測的標簽取最后概率向量里面最大的作為預測結果, 若預測結果中概率最大的分類正確則預測正確, 否則預測錯誤. 值得注意的是, 采用不同的GPU 卡和不同數量的卡都會嚴重影響實驗結果, 比如FD-GAN 結果與原論文相比下降嚴重, mAP 在CUHK03、Market1501 和DukeMTMC-ReID 分別下降2.85%、3.86%和12.25%. 因為GPU 卡的好壞會影響浮點運算, 以及batch_size大小. 實驗數據表明, 在數據集CUHK03 和Market1501 上, 本文提出的方法表現均優于其他行人重識別方法. 與基準方法FD-GAN 相比,RL-VGAN 分別提高了1.35%、0.67% 和8.66%(mAP 指標), 0.76%、0.11%和3.44% (rank-1 指標). 在DukeMTMC 數據集上, 所提方法取得了與GLAD 方法相當的結果. 實驗結果表明, 本文提出的方法不僅可以有效地生成高質量的行人樣本, 而且還可以緩解行人姿態變化帶來的干擾.

表3 RL-VGAN 與其他方法在3 個基準數據集下的mAP 和rank-1 準確率 (%)
本文構建了基于變分對抗與強化學習(RL-VGAN)的行人重識別模型, 在變分生成式對抗網絡中, 利用變分推理促進生成網絡生成相似行人圖像的同時學習魯棒的身份信息. 此外, 提出一種新的IS 損失提升變分生成網絡生成圖像的質量, 從而解決行人重識別系統易受相似行人干擾以及行人姿態變化的問題. 由于采用交替迭代方式會導致生成式對抗網絡訓練過程不穩定, 因此本文采用強化學習策略促進變分生成網絡和判別網絡收斂到穩定狀態. 本文提出的RLVGAN 將姿態指導行人圖像生成任務與行人重識別任務相結合, 在3 個基準數據集上進行的大量實驗證明, RL-VGAN 不僅能夠生成高質量的行人圖像還能夠有效地完成ReID 的任務. 基于變分對抗與強化學習的行人重識別方法具有極高的準確性, 但該網絡模型容易存在網絡參數過擬合的問題. 針對該問題, 將進一步研究基于多目標優化的生成式對抗網絡參數學習和結構修剪方法, 提升生成式對抗網絡學習的穩定性和泛化性能.