基于步行周期聚類的視頻行人重識別關鍵幀提取算法

2021-11-10 09:09:42李夢靜吉根林

南京航空航天大學學報 2021年5期

關鍵詞：特征

李夢靜，吉根林，趙斌

（南京師范大學計算機與電子信息學院/人工智能學院，南京 210023）

視頻行人重識別是指在不同攝像頭拍攝的行人視頻中判斷是否存在特定行人的技術，用來解決不重疊監控視野中行人身份匹配的問題［1］。這種針對特定人的視頻檢索具有重要的研究意義，在失蹤者定位、犯罪跟蹤和智能安防等方面有著廣泛的應用［2］。隨著近年來視頻監控范圍不斷擴大、監控點數量增多，數據量持續猛增，給存儲及使用帶來了巨大限制［3］。據報道，中等城市的監控規模一般為數千到數萬個攝像頭，以1080P 為例，在8 M/s的碼率下，每只攝像頭每天產生的視頻數據約84 GB，一般要求這些數據必須在系統中保存30 d以上，這對存儲空間的大小要求很高；另一方面，這些海量視頻監控數據中存在大量時間冗余，即不同幀的行人外觀特征之間存在極大的相似性。使用所有的幀圖像進行識別會降低查詢效率，也會給準確性帶來不利影響。如何去除視頻時間冗余、提高識別準確率并保留關鍵的視頻幀以減少視頻數據的物理存儲空間是一個值得研究的問題。

傳統的視頻行人重識別方法不考慮時間冗余，對視頻內所有幀進行最大池化或平均池化以得到視頻級特征。平等地對待所有幀不僅會耗費巨大的計算代價，也會因為大量噪聲的存在導致算法性能的退化，所以提取關鍵幀尤為重要。視頻行人重識別中的關鍵幀提取是在相似的特征組中只保留一個特征，僅使用部分具有鑒別力的特征進行識別以提高識別準確率和效率，一般來說關鍵幀是視頻內不同視角或者不同行人姿態的幀。近年來，相關研究［3?7］致力于解決時間冗余的問題，他們從視頻序列中選擇有鑒別力的幀生成視頻特征。雖然這些方法一定程度地解決了時間冗余的問題，但是依然存在一些不足。文獻［3?5，6］切斷了視頻的時間連續性，文獻［6］過于依賴行人檢測框的質量，并且對攝像頭角度變化及行人姿態變化表現出較差的魯棒性，而且這些工作都是在訓練或測試中減少行人特征的冗余，無法減少實際的數據存儲空間。針對上述不足，為了解決海量視頻數據帶來的查詢效率低下和準確率下降的問題，本文提出一個關鍵幀提取算法，既可以保留視頻時間連續性又在實際查詢操作之前完成，減少視頻數據的存儲空間。在對行人步行姿態的觀察中，可以注意到：（1）行人步行時雙腳交替運動，具有明顯的周期性，而時間特征就蘊含在這些步行周期內，這說明步行周期可以作為劃分視頻數據的最小單位；（2）在這樣的周期性運動中，腳部運動最為明顯，即行人步行時，雙腳之間的距離具有周期變化，呈現由小變大再變小的規律。基于上述兩點，本文設計了基于步行周期聚類的關鍵幀提取算法（Walking cycle clustering based key frame extraction，WCC?based KFE）：第1 步利用預訓練好的人體姿態估計模型獲取視頻序列中行人雙腳距離，根據距離的周期性變化規律提取所有的候選步行周期；第2 步獲得所有候選步行周期的特征，再利用聚類方法選取核心特征，僅保留其對應的關鍵步行周期以減少時間冗余。未保留的步行周期存在兩種情況：（1）與簇中心距離近，此時使用簇中心統一表示既減少了數據量又保留了重要特征；（2）與簇中心距離遠，此時該步行周期屬于干擾或噪聲，應將其去除，否則會影響識別準確率。本文提出了一個新的行人重識別框架將WCC?based KFE 算法與行人重識別網絡結合起來。在查詢之前對視頻數據進行處理可以大量減少數據存儲空間，更加適用于實際應用。此算法的優點是在保留視頻時間連續性和行人特征多樣性的情況下，減少了時間冗余，去除了干擾和噪聲，提高了視頻行人重識別的準確率，而且WCC?based KFE 算法在行人重識別網絡訓練和測試之前完成，節省了59%～82%的數據量。

1 相關研究工作

視頻行人重識別對圖像質量要求不高，使用場景更廣且賦含信息更多，包含了幀與幀之間的時間信息、運動信息等［8］，這更有利于提高行人檢索的準確率。但是它不僅面臨著物體遮擋、姿態變化和光照變化等問題帶來的挑戰；而且存在視頻數據獨有的問題，例如數據量更大、計算量更大且存在高度冗余。近年來，越來越多的學者關注視頻行人重識別，針對目前該研究領域存在的各種問題提出了相應的方法。

（1）行人遮擋。學者們大多引入注意力機制，弱化遮擋圖像給網絡模型帶來的負面影響。例如，2017 年，Zhou 等［9］提出時間注意模型來衡量視頻序列中每一幀的重要性，認為嚴重遮擋的幀是“壞”幀，將其剔除，僅對質量好的幀進行特征提取。同樣，Xu 等［10］設計了注意力時間池化使網絡模型給予包含有效信息的幀更多的權重。與上述兩個工作在時間層面利用注意力機制不同，2018 年，Li等［11］首先通過空間注意模型自動發現不同的身體部位，提取質量好的局部區域特征，再利用時間注意模型進行組合。Hou 等［12］認為丟棄遮擋圖像的方法并不理想，因為它中斷了視頻的時間信息，于是提出了時空補全網絡（Spatial?temporal comple?tion network，STCnet），根據行人的身體空間結構，利用可見的身體部分預測缺失的部分，然后基于視頻的時間連續性，利用相鄰幀的信息來恢復當前幀的行人外觀，從而解決物體遮擋的問題。它們都取得了一定的效果，但是仍然存在不足：（1）文獻［9?11］僅對質量好的幀進行處理會嚴重破壞時間特征；（2）視頻本身存在大量冗余，過多信息會降低算法的查詢效率，而文獻［12］補全圖像遮擋部分的操作會額外花費大量的計算成本。

（2）姿態變化。2019 年，Chen 等［7］提出了一種基于KFS（Key frame selection）訓練策略，首先將視頻分成長度相等的片段，選擇與前一個片段姿態變化最大的一幀作為關鍵幀，將所有的關鍵幀作為訓練數據提高網絡模型對姿態變化的魯棒性。同年，Wu 等［13］提出了一種半監督的方法，將訓練好的姿態估計模型直接應用到行人重識別數據集上，避免了在行人重識別數據集上標注姿態的麻煩。其中，他們根據行人不同姿態對圖像進行定位和分割，提取對應位置的行人外觀特征以解決姿態變化的問題。

（3）時間冗余。目前較少學者關注到視頻行人重識別時間冗余、計算成本高的問題。現有解決方法通常是采用關鍵幀提取的方法減少時間冗余，其中根據關鍵幀的性質不同，可以將現有方法分為兩類：第1 類以幀作為最小單位，此時關鍵幀不一定是連續的；第2 類以步行周期作為最小單位，此時關鍵幀至少包含1 個連續的步行周期。

第1 類方法。2018 年，Zhang 等［5］訓練一個“代理”，每次只驗證2 個視頻序列中的一對圖像是否屬于同一個人，若能得到肯定回答：相同或者不同，則輸出結果，此時只使用了2 幅圖像；若無法得到肯定回答：不確定，則加入另一對圖像進行驗證。不斷循環，直到得到肯定回答。此方法的優點是對于一些簡單樣本，使用極少量的圖像就能判斷2 個視頻序列是否屬于同一個人，缺點是忽略了視頻的運動特征，僅使用表觀特征來進行識別。Chen等［14］首先將查詢和候選視頻序列劃分為多個固定長度的短視頻片段，將片段相似性最大的認為是該視頻序列的相似性，從而最小化序列中行人的外觀變化。此方法劃分的片段不具有完整的時間特征，而且雖然減少了時間冗余，但需要計算所有片段對的相似度，計算量龐大。2019 年，Song 等［15］提出“主圖像組”的概念，認為圖像序列中與平均特征距離最小的3 幀為該圖像序列的“主圖像”，從“主圖像”中提取行人的空間上下文特征以減少時間冗余的不利影響。與上一個工作不同的是，Zhang 等［16］首先利用FEP（Flow energy profile）信號劃分步行周期，根據信號值的變化，每個步行周期選擇4 幀圖像作為關鍵幀，缺點仍然是中斷了視頻的時間連續性。

第2 類方法。2019 年，Gao 等［6］跟蹤圖像中行人腳部的超像素，根據其在行人檢測框的水平位置來提取步行周期，認為超像素水平位置曲線最接近正弦曲線的周期是最佳步行周期，然后僅使用最佳步行周期來表示該行人。但是，該方法對行人檢測框精度要求高且行人行走方向和攝像機拍攝角度可能存在一定夾角，以人體最低部位來劃分步行周期不具有可靠性，而且該方法只使用一個最佳步行周期去代表一個人，沒有考慮到行人姿態變化導致的外觀多樣性。

此外，這些工作共同的缺點是沒有減少實際的物理存儲空間，隨著監控點越多、拍攝時間越長、圖像質量越高，視頻數據量呈幾何指數增長，算法執行將耗費大量的計算成本。

本文將提出的基于步行周期聚類的關鍵幀提取算法用于視頻行人重識別中，通過重識別準確率評價關鍵幀提取算法的有效性，因此需要對原有視頻行人重識別算法框架進行調整，調整后框架結構如圖1 所示，旨在查詢前對數據進行處理，減少數據量以提高查詢效率。

圖1 框架示意圖Fig.1 Schematic diagram of the framework

框架主要有兩步：（1）分別將查詢集和候選集里的每一個視頻序列輸入到WCC?based KFE 算法中，該算法是本框架的核心，具體見第2 節。算法的輸出是由關鍵步行周期組成的新序列，新序列是原視頻序列的子集，且長度短很多。（2）將新查詢集和新候選集一起輸入到基礎網絡中進行識別，并輸出查詢結果。只對查詢集和候選集進行處理的原因是現實應用中大量占據存儲空間的是測試集，因為只有測試集的數據由于不斷拍攝而不斷增加，而訓練集不會發生變化。為了和別人統一比較，本文使用ImageNet 預訓練好的ResNet?50 模型作為基礎網絡。

2 基于步行周期聚類的關鍵幀提取算法

視頻行人重識別面臨著數據量龐大、時間冗余等問題，這會嚴重影響重識別效率和準確率，本文提出基于步行周期聚類的關鍵幀提取算法來解決上述問題。算法輸入是一個視頻序列，輸出是只包含關鍵步行周期的短的視頻序列。如圖2 所示，主要分為兩步：（1）提取候選步行周期，如圖2（a～d）所示；（2）提取關鍵步行周期，如圖2（d～f）所示。

2.1 提取候選步行周期

WCC?based KFE 算法通過提取關鍵步行周期在保留視頻時間連續性的同時減少時間冗余，所以首先要得到關鍵步行周期的候選集，即候選步行周期。由圖2（a）可知，行人行走雙腳交替運動，具有明顯的周期性，而最能夠從視頻中反映的就是行人雙腳之間的距離，距離滿足由小變大再變小的變化規律，所以本文根據行人雙腳距離來劃分周期，提取候選步行周期的具體方法如下：

（1）獲得視頻序列里每幀圖像中行人雙腳之間的距離。本文采用的是開源人體姿態識別項目OpenPose。算法的輸入是查詢或者候選集中任意一個視頻序列tracklet={frame1，frame2，…，framen}，將每幀圖像framei(i∈[1，n])輸入到預訓練好的OpenPose 模型中，分別提取圖像中行人雙腳的位置，計算出距離di，此處計算的是雙腳像素點之間的距離，所以di單位是像素。如圖像存在嚴重遮擋，提取不到雙腳位置，則定義di=-1，表示無效值，得到距離序列Distance=［d1，d2，…，dn］。

（2）根據式（1）中獲得的距離序列Distance 劃分周期。距離序列可視化如圖2（c）所示，曲線上每一個點的值是對應幀圖像中行人雙腳之間的距離。該曲線具有明顯的周期性，不同周期之間行人的外觀特征和運動特征都具有高度的相似性，這也是視頻數據時間冗余的原因。

圖2 WCC?based KFE 算法示意圖Fig.2 Schematic diagram of WCC?based KFE algorithm

曲線中的紅色三角形代表的是極小值，每一個極小值是上一個周期的結束，也是下一個周期的開始，所以將相鄰兩個極小值之間的幀劃分為一個周期。極小值定義為

式中：mini_l和mini_u是極小值取值的下界和上界，如圖2（c）中minimum_low 和minimum_up 兩條虛線所示。極小值必須為有效值，即不等于“-1”，而規定極小值取值上界的原因是OpenPose 模型輸出的結果有小范圍誤差，因為偶然性的誤差，可能導致距離值較大的點符合數學上極小值的定義，但它顯然不能看作是一個步行周期的結束。

得到所有的極小值之后，將相鄰兩個極小值之間的對應幀圖像提取出來作為一個周期，例如圖2（c）中，極小值集合為{d1，d7，d13，d20，d26}，則第1 個周期為｛frame1，frame2，…，frame7｝，第2 個周期為｛frame7，frame8，…，frame13｝，以此類推。

（3）判斷前一步提取的周期是否有效。有效即該周期內的所有幀具有完整的行人外觀特征，不存在嚴重遮擋問題。在式（2）中，只考慮了極小值對應的幀不能存在嚴重遮擋問題，并沒有考慮一個周期內其他幀的情況。設某個周期長度為m，表示為Cycle={ framei，framei+1，…，framei+m}，則其對應的距離序列Distancecycle=[di，di+1，…，di+m]，di，di+m∈minmum，則其為有效周期的條件是

式中：1≤i≤n-m，count（·）為計數函數；δ為無效閾值，即一個周期內，距離無效值允許出現的最大次數。沒有嚴格要求周期內所有幀的行人雙腳距離都為有效值的原因是：行人檢測框存在一些誤差，當行人步幅很大時，行人檢測框不能將完整的行人框出，可能缺少行人的腳部，從而導致出現距離無效值。但是這樣的問題不會導致出現連續多幀圖像中行人雙腳距離均為無效值的情況，所以定義無效閾值避免因這類問題而導致的錯誤判斷。

綜上所述，提取候選步行周期這一步的輸入是原始的視頻序列，首先利用OpenPose 人體姿態估計模型獲得每幀圖像中行人雙腳的位置，然后根據得到的距離序列劃分周期，并判斷每個周期是否有效，候選步行周期就是該視頻序列所有的有效周期，最后輸出所有的候選步行周期。

2.2 提取關鍵步行周期

在獲得一個視頻序列里的所有候選步行周期之后，下一步是判斷這些候選步行周期是否為關鍵步行周期，此時必須要考慮周期間特征的關系，去除特征提取模型輸出的特征與關鍵步行周期的特征相似的冗余周期，最后將剩余的關鍵步行周期合并作為新的視頻序列。

（1）獲得所有候選步行周期的特征，本文使用預訓練好的Resnet?50 網絡作為特征提取模型。設一個視頻序列中提取出j個候選步行周期，則經過特征提取后得到的特征表示為{feature1，feature2，…，featurej}。

（2）從所有特征中選擇核心特征，認為其對應的候選步行周期即為關鍵步行周期。使用K?means 聚類的方法在j個候選步行周期中選出k個核心特征對應的關鍵步行周期，核心特征是K?means 結果的每一個簇中最靠近簇中心的特征，可以代表整個簇的情況。K?means 聚類采用距離作為相似性的評價指標，即認為兩個對象的距離越近，其相似度就越大。該算法采用貪心的迭代方法直到得到緊湊且獨立的簇。k個簇集合C定義和簇中心μ定義為

式中：1≤l≤j；p為K?means 算法的當前迭代次數，當前迭代次數的C是由上一次迭代中心點結果μ根據式（3）計算得來。初始μ是在所有樣本中隨機選擇的。nu=|Cu|是簇Cu中樣本的個數。如圖2（e）所示：K?means 將特征相似的候選步行周期聚成一個簇，總共有k個簇。關鍵步行周期定義為每個簇中最靠近聚類中心的特征對應的周期，即有

若j>k，保留k個關鍵步行周期，其他候選步行周期為冗余周期去除。若j

k的取值與數據集攝像頭安裝位置和行人行走方向有關，行人的不同角度之間的圖像特征差距很大，盡可能保留不同角度的行人圖像可以提高識別的魯棒性。所以k個關鍵步行周期可以理解為k個不同的角度的行人圖像序列。當k=1 時，僅保留一個角度的行人圖像序列。

如圖3 所示，行人拍攝角度可以大致分為8 個，分別是正北、正南、正東、正西、東北、西北、東南、西南。當行人在固定位置的攝像頭前走過時，行人被拍攝到的只是身體的一側，角度為5 個，即一般情況下，一個視頻序列中存在5 個角度，所以k的最佳取值在5 左右。

圖3 k 取值示意圖Fig.3 Schematic diagram of k value

3 實驗結果與分析

3.1 數據集與評價指標

本文在公開數據集MARS 和DukeMTMC?VideoReID 上開展實驗，與國際前沿進行對比，評價算法的有效性。MARS 數據集［17］于2016 年發表，拍攝于清華大學校園，是第1 個可以用于深度學習的大型視頻行人重識別數據集。MARS 由6臺攝像機拍攝，總共有1 261 個不同的行人，625 個用于訓練，636 個用于測試，總共有超過20 000 個圖像序列，每個行人至少被2 個攝像機捕獲。測試集大小一共有3.8 GB，其中干擾項有0.9 GB。DukeMTMC?VideoReID 數據集拍攝于杜克大學，是多攝像頭跟蹤數據集DukeMTMC［18］的子集，包括702 個用于訓練的身份，702 個用于測試的身份，以及408 個干擾項。總共有21 96 個視頻用于訓練，2 636 個視頻用于測試。測試集大小一共為2.2 GB。本文使用累積匹配曲線（Cumulative match characteristic，CMC）和平均精度均值（mean Average precision，mAP）［19］作為評價標準。其中，使用Rank?1，Rank?5，Rank?20 代表CMC 曲線。CMC 更關注準確率，而mAP 同時關注準確率和召回率。

3.2 實驗說明

（1）Resnet?50 網絡。本文實驗使用的GPU是NVIDIA TITAN Xp 且在PyTorch 框架下實現，使用ImageNet 預訓練的Resnet?50 網絡進行訓練和測試。在訓練時，訓練集不變，為了節省GPU內存，隨機采樣16 幀作為輸入，所有視頻序列中的幀級特征經過平均池化形成視頻級特征。本文采用動量為0.5，權值衰減為0.000 5 的隨機梯度下降法進行參數優化，迭代次數為70，批大小為8，學習率初始值為0.1，在最后15 次迭代時，調整為0.01。

（2）WCC?based KFE。極小值下界mini_l設置為0，上界mini_u設置為20，比0 小意味著提取不到行人雙腳位置，該幀有嚴重的遮擋問題，不能作為極小值。通過觀察輸出結果，本文發現當距離值小于20 時，行人雙腳位置幾乎重合，可以作為極小值，所以定義20 像素是極小值取值的上界。

無效閾值δ設置為2，即有效周期中距離無效值出現次數不能大于2 次。例如圖2（c）中第3 個周期，距離序列為｛17，59，-1，-1，-1，8，7｝，其中距離無效值“-1”出現了3 次，不滿足有效周期定義，將其去除，其余3 個均為有效周期。

k的取值決定每個視頻序列保留幾個關鍵步行周期。本文k設置為6，在具體實現時，若一個視頻序列沒有候選步行周期，則對它不進行操作，保留原視頻序列，但是這樣的情況是極個別的。特別地，MARS 數據集候選集有0.9 GB 的干擾項，這些圖像不包含完整的行人，所以不進行處理。

3.3 實驗結果

本節探討WCC?based KFE 算法的兩步處理操作對模型準確率和效率的提升。結果如表1 所示，Baseline 方法是測試集不使用WCC?based KFE算法處理，直接輸入到ResNet?50 網絡進行識別的結果。Baseline+WCC?based KFE（1）方法是測試集只經過WCC?based KFE 算法的第1 步結果，即僅提取候選步行周期。 Baseline+WCC?based KFE（1）+（2）方法是測試集完整經過WCC?based KFE 算法第2 步的結果，即提取了關鍵步行周期。

從表1 中可以看到，Baseline+WCC?Based KFE（1）方法的結果比Baseline 方法好，對于MARS 數據集來說，CMC Rank?1 提高了0.3%，mAP 提高了5%。對于DukeMTMC?VideoReID數據集來說，CMC Rank?1 提高了0.4%，因為雖然只得到了候選步行周期，但是這一步操作也過濾掉了大量的嚴重遮擋的幀，提高了準確率。而Base?line+WCC?based KFE（1）+（2）方法進一步過濾了質量不好的幀，以及去除了時間冗余，所以CMC Rank?1 又比Baseline+WCC?based KFE（1）方法上升了。MARS 數據集的Rank?1 提高了0.4%，DukeMTMC?VideoReID 數據集的Rank?1提高了1%。

表1 WCC?based KFE 算法兩步操作對數據量和準確率的影響Table 1 Influence of two?step operation of WCC?based KFE algorithm on data volume and accuracy

在評價指標CMC 和mAP 都提高的同時，測試集數據量卻在不斷的變小。對于MARS 數據集，WCC?based KFE 第1 步操作處理后，數據量減少了24%，兩步都處理后，數據量減少了58.6%。對于DukeMTMC?VideoReID 數據集，WCC?based KFE 第1 步操作處理后，數據量減少了31.8%，兩步都處理后，數據量減少了81.8%。

3.4 與其他方法對比

本文在MARS 和DukeMTMC?VideoReID 兩個數據集上進行實驗，將本文提出的方法與其他行人重識別方法進行比較，結果如表2、3 所示。其中，K?reciprocal 和See the Forest 方法關注時間池化，Latent Parts、SRM+TAM、QAN 和DSAN 是基于注意力機制的方法。

從表2、3 中可以看出，本文提出的方法在使用更少數據量的同時，CMC 和mAP 也比現有的方法有所提高。準確度提升主要有兩個原因：（1）WCC?based KFE 算法的第1 步過濾了嚴重遮擋的幀，例如汽車遮擋、垃圾桶遮擋等，避免了物體遮擋導致的錯誤識別；（2）算法第2 步去除了時間冗余，過濾了圖像質量差的幀，僅使用關鍵步行周期所在的幀代表該行人，進一步提高了準確率。

表2 MARS 數據集中各方法比較Table 2 Comparison of methods in the MARS dataset

3.5 k 取值分析

本節討論k的不同取值對測試集數據量以及評價指標CMC 和mAP 的影響，實驗結果見表4。其中MARS 中測試集的數據量未計算干擾項。從表4 中可以看到，隨著k值從1 增加到8，測試集的數據量在不斷增加。對于MARS 數據集來說，當k=1 時，測試集數據量只有0.5 GB，k值每增加1，測試集數據量增加100～200 MB，當k=8 時，測試集數據量增加到了 1.4 GB。對于DukeMTMC?VideoReID 數據集來說，當k=1 時，測試集數據量僅有108.7 MB，k值每增加1，測試集數據量增加60～90 MB，當k=8 時增加到了642.5 MB。但是總體而言，隨著k值的變大，數據量增幅在不斷變小，因為會有更多候選步行周期個數小于k的視頻序列。

隨著數據量的不斷增加，CMC 和mAP 并沒有隨之不斷增加。表4 中紅色標記為該評價指標最高值，藍色標記為第二高的值?？梢钥吹疆攌=5時，幾乎所有的評價指標排名均在前兩位。而對于最重要的Rank1 和mAP 來說，MARS 數據集Rank1 達到了 78.8，mAP 達到了 68.5，而DukeMTMC?VideoReID 數據集Rank1 達到了89.0，mAP 達到了84.1，這些都是所有k取值當中最高的。

表3 DukeMTMC?VideoReID 數據集中各方法比較Table 3 Comparison of methods in the Duke MTMC?VideoReId dataset

表4 不同k 值時的數據量和評價指標Table 4 Data volume and evaluation indexes at different k values

3.6 數據量分析

本節分析WCC?based KFE 算法對測試集數據量的影響。如圖4 所示，MARS 數據集中處理前的測試集共有2.9 GB，處理后剩余1.2 GB，比例為原來的41.38%。DukeMTMC?VideoReID 數據集處理前的測試集共有2.2 GB，處理后僅剩0.4 GB，比例為原來的18.18%。雖然都減少了大量的數據量，但是MARS 處理后數據比例仍然較高。如圖5 所示，兩個數據集處理后的長度都為30 幀左右，但是MARS 數據集中每個視頻序列原始長度較短，平均只有50 多幀，而Duke?MTMC?VideoReID 數據集中每個視頻序列原始長度很長，在160 幀左右，所以DukeMTMC?Vid?eoReID 數據集節省的存儲空間比例更大，這也說明本文提出的算法對更長的視頻序列處理效果更好。

圖4 處理前后測試集數據量Fig.4 Data volume of test set before and after processing

圖5 處理前后測試集平均軌跡長度Fig.5 Average track length of test set before and after pro?cessing

4 結論

本文針對視頻行人重識別研究問題中存在的數據量龐大、時間冗余等問題設計了基于步行周期聚類的關鍵幀提取算法，并提出一個新的框架將該算法與視頻行人重識別網絡結合起來。該算法在查詢之前完成，可以減少大量的數據存儲空間，同時因為去除了時間冗余及噪聲，準確率也得到了提高。