結(jié)合雙流網(wǎng)絡和金字塔映射的步態(tài)識別

2022-01-01 00:00:00張家波李杰甘海洋

計算機應用研究 2022年6期

收稿日期：2021-11-04；修回日期：2021-12-24

作者簡介：張家波（1974-），男，湖北麻城人，副教授，碩導，碩士，主要研究方向為車聯(lián)網(wǎng)通信技術(shù)和無線傳輸技術(shù)應用（zhangjb@cqupt.edu.cn）；李杰（1994-），男，安徽合肥人，碩士研究生，主要研究方向為人體動作識別；甘海洋（1995-），男，河南人，碩士研究生，主要研究方向為微表情識別．

摘要：目前，基于深度學習的步態(tài)識別方法雖然取得了一定的進展，但數(shù)據(jù)采集和步態(tài)外觀的變化仍然是實現(xiàn)精確步態(tài)識別所面臨的挑戰(zhàn)。為了提高網(wǎng)絡對時空步態(tài)信息的捕捉能力，提出了一種基于步態(tài)輪廓流和步態(tài)特征差分流的雙流網(wǎng)絡結(jié)構(gòu)。步態(tài)輪廓流以步態(tài)輪廓圖作為輸入，用來提取步態(tài)序列中包含的空間步態(tài)信息；步態(tài)特征差分流則是以步態(tài)特征差分圖作為輸入，用來捕獲相鄰步態(tài)圖之間的動態(tài)信息。同時，為了充分利用步態(tài)序列中的全局和局部信息，提出了多尺度金字塔映射（multi-scale pyramid mapping，MPM）模塊，并插入到各單流網(wǎng)絡中以增強網(wǎng)絡對全局和局部步態(tài)信息的提取能力。所提方法在步態(tài)數(shù)據(jù)集CASIA-B和OU-MVLP上的平均識別精度分別達到了87.0%和85.5%，這表明雙流網(wǎng)絡架構(gòu)和MPM模塊可以有效地捕獲步態(tài)序列中的時空步態(tài)信息。

關(guān)鍵詞：步態(tài)識別；雙流網(wǎng)絡；金字塔映射；特征差分圖

中圖分類號：TP391.4"" 文獻標志碼：A

文章編號：1001-3695（2022）06-054-1911-05

doi：10.19734/j.issn.1001-3695.2021.11.0636

Gait recognition combined with two-stream network and pyramid mapping

Zhang Jiabo，Li Jie，Gan Haiyang

（School of Communication amp; Information Engineering，Chongqing University of Posts amp; Telecommunications，Chongqing 400065，China）

Abstract：At present，although gait recognition methods based on deep learning have made some progress，data collection and changes in gait appearance are still challenges to achieving accurate gait recognition.In order to improve the network’s ability to capture temporal and spatial gait information，this paper proposed a two-stream network architecture based on gait contour flow and gait feature differential flow.The gait contour stream toke the gait contour map as input to extract the spatial gait information contained in the gait contour sequence，and the gait feature difference stream used the gait feature difference map as input to capture the dynamic information between adjacent gait frames.At the same time，to make full use of the global and local information in the gait sequence，this paper proposed a multi-scale pyramid mapping （MPM） module and inserted it into each single-stream network to enhance the network’s ability to extract global and local gait information.The average recognition accuracy of this method on the gait datasets CASIA-B and OU-MVLP reaches 87.0% and 85.5%，respectively，which shows that the two-stream network architecture and MPM module can effectively capture the spatiotemporal gait information in the gait sequence.

Key words：gait recognition；two-stream network；pyramid mapping；feature difference map

0 引言

人體步態(tài)是一種生物特征，包含了重要的人類信息，可由行走過程中身體不同部位的運動信息綜合表征，已被廣泛應用于醫(yī)療和身份識別等領(lǐng)域。與其他生物特征相比，人體步態(tài)不僅可以進行一些疾病的早期檢測[1～3]，如帕金森、老年癡呆等老年疾病，還可以進行非侵犯性的遠距離身份認證[4～6]。自1997年引入第一個步態(tài)識別系統(tǒng)以來[7]，該領(lǐng)域取得了巨大的進展。然而，基于視覺的步態(tài)識別方法仍然面臨著巨大的挑戰(zhàn)，如遮擋、衣著變化、行走速度和捕捉角度等外界因素都會對最終的識別效果產(chǎn)生嚴重的影響。

近年來，由于深度學習技術(shù)在計算機視覺方面引起了日益廣泛的關(guān)注，并取得了可觀的效果，使得越來越多的工作更傾向于使用深度學習方法來進行步態(tài)識別。這些方法可分為基于模型[8～11]和基于外觀[12～15]兩種，其中，基于模型的方法通常在行走過程中對身體結(jié)構(gòu)進行建模以獲取人體骨骼數(shù)據(jù)，骨骼數(shù)據(jù)可以提供如步長、速度、距離和關(guān)節(jié)之間的角度等步態(tài)信息。基于模型的步態(tài)識別方法雖然對視點和外觀的變化具有較強的魯棒性，然而，這種魯棒性嚴重依賴于身體關(guān)節(jié)的準確檢測。此外，姿態(tài)估計算法的使用同時也會給識別系統(tǒng)帶來額外的計算開銷。不同于基于模型的方法，基于外觀的方法利用從圖像中獲取的步態(tài)輪廓圖作為網(wǎng)絡的輸入，并以較低的計算成本在單個幀中有效地描述身體狀態(tài)。一系列的步態(tài)輪廓圖可以提供速度、節(jié)奏和步態(tài)周期等有用的步態(tài)信息[16]，是目前工作中使用最多的表示類型。為了進一步表征步態(tài)輪廓序列圖中包含的動作信息，一些工作通過從步態(tài)輪廓圖序列中提取光流來凸顯相鄰圖像之間的動作信息[17，18]。雖然這種方法直接有效，但是光流的提取過程是極為耗時的，這大大限制了其在現(xiàn)實中的應用。現(xiàn)有工作缺少既能有效地表征又能被快速提取的步態(tài)信息表示類型。

為了獲取步態(tài)序列中的時間信息，一些工作采用3D卷積神經(jīng)網(wǎng)絡[19，20]，相比于2D卷積神經(jīng)網(wǎng)絡，3D卷積神經(jīng)網(wǎng)絡具有強大的時空信息獲取能力。然而，由于3D卷積神經(jīng)網(wǎng)絡采用了固定步長的時空卷積模塊，使其在處理可變長度的步態(tài)序列時缺乏靈活性。為了改善這一問題，Lin等人[20]通過采用多尺度的時空卷積核，相比于固定尺度的時空卷積核，它可以更好地適應可變長度的步態(tài)序列。為了降低網(wǎng)絡的復雜度，現(xiàn)有工作主要通過將2D卷積神經(jīng)網(wǎng)絡與循環(huán)神經(jīng)網(wǎng)絡（recurrent neural network，RNN）及其變體長短記憶（long short-term memory，LSTM）網(wǎng)絡集成來學習空間編碼后的時間關(guān)系。Sadeghzadehyazdi等人[4]通過在2D卷積神經(jīng)網(wǎng)絡的全連接層引入LSTM模塊來獲取步態(tài)序列中的時間信息。不同于該工作，Zhang等人[21]首先將步態(tài)輪廓圖分為四個水平部分，并將每個部分輸入到2D卷積神經(jīng)網(wǎng)絡中，利用基于注意力機制的LSTM模塊來選擇性地關(guān)注步態(tài)最重要的識別幀。雖然2D卷積神經(jīng)網(wǎng)絡與LSTM模塊的集成可以取得較好的識別效果，但是，由于LSTM本身結(jié)構(gòu)的問題使網(wǎng)絡很難進行端到端的訓練。為了使網(wǎng)絡既能快速地進行端到端訓練，又能取得很好的識別效果，F(xiàn)u等人[22]提出了金字塔水平池化模塊，將空間編碼后的特征塊先進行多尺度水平切割，再利用全局池化操作生成基于部分的特征表示，這有利于網(wǎng)絡收集局部和全局信息。為了使金字塔水平池化模塊更有效地捕獲動態(tài)步態(tài)信息，Chao等人[23]對每個池化后的特征使用獨立的全連接層將其映射到判別空間中，提出了水平金字塔映射模塊。考慮到切割后的特征塊之間具有一定的相關(guān)性，Qin等人[24]提出了部分特征關(guān)系提取模塊，該模塊不僅可以提取局部和全局步態(tài)信息，還可以獲取每個特征塊之間的相關(guān)性。現(xiàn)有基于金字塔模型的方法都著重于使用水平切割的單一方法，卻忽略了垂直方向上的步態(tài)變化信息，這些信息對于步態(tài)識別任務來說同樣不可忽視。

為了解決上述問題，本文提出了一種基于步態(tài)輪廓流和步態(tài)特征差分流的雙流網(wǎng)絡架構(gòu)。其中，步態(tài)輪廓流是以步態(tài)輪廓圖作為網(wǎng)絡的輸入，步態(tài)特征差分流則是以步態(tài)特征差分圖作為輸入。相比于光流，步態(tài)特征差分圖只需對特征圖進行差分操作即可，因此它不僅可以快速地獲取，同時也可以有效地表征相鄰步態(tài)輪廓圖之間的動態(tài)信息。為了彌補金字塔模型中被忽視的垂直方向上的步態(tài)信息，本文提出了多尺度金字塔映射（multi-scale pyramid mapping，MPM）模塊，該模塊有效地融合了水平和垂直方向上的動態(tài)步態(tài)信息。如圖1所示，本文將其放入各單流網(wǎng)絡中以增強網(wǎng)絡對步態(tài)信息的捕捉能力。

1 系統(tǒng)模型

本文基于步態(tài)特征差分流和步態(tài)輪廓流的雙流網(wǎng)絡模型如圖1所示，上支流表示步態(tài)特征差分流，下支流表示步態(tài)輪廓流。該雙流網(wǎng)絡主要由步態(tài)特征差分（gait feature diffe-rence，GFD）模塊、特征提取模塊、多尺度金字塔映射模塊和特征融合模塊組成，使用順序步態(tài)序列作為網(wǎng)絡的輸入。其中，步態(tài)特征差分流可以有效地捕捉相鄰步態(tài)圖之間的動態(tài)步態(tài)信息，步態(tài)輪廓流更善于捕捉步態(tài)特征圖中的空間特征。多尺度金字塔映射模塊可以加強網(wǎng)絡對全局和局部步態(tài)信息捕捉能力，特征融模塊可以將各單流網(wǎng)絡中的有用步態(tài)信息進行融合，將融合后的步態(tài)信息作為最終的判別信息。

1.1 步態(tài)特征差分算法

目前，基于圖像的差分工作[25]大多通過對相鄰圖像對應位置上的像素值作差來凸顯動作變化的部分，相鄰兩幀的差分過程可由式（1）表示。

Dj（p）=Pj（p）-Pj+1（p）（1）

其中：j=1，2，…，n-1，n表示幀數(shù)；p=（x，y）表示相鄰幀中的相對位置；Pj（p）表示j幀上點p處的像素值；Dj（p）表示相鄰兩幀在像素點p處的差值。

雖然圖像差分技術(shù)可以凸顯出運動過程中的變化部分，但是對于運動的細微變化卻很難捕捉。考慮到卷積網(wǎng)絡的淺層模塊傾向于捕獲如邊界、紋理等一般模式，本文設(shè)計了步態(tài)特征差分模塊來獲取淺層特征圖之間的差異信息，這種差異信息可以更多地關(guān)注運動邊界的變化，從而有效地改善細微動作變化信息難捕捉的問題。

步態(tài)特征差分模塊的結(jié)構(gòu)如圖2所示。首先，將步態(tài)圖序列順序輸入到卷積模塊中以獲取各步態(tài)圖對應的特征圖Fk，k∈［1，n］，k∈Z，其中n表示輸入的幀數(shù)目。本文中，卷積層采用預訓練好的二維卷積神經(jīng)網(wǎng)絡的淺層卷積層，因為隨著網(wǎng)絡層數(shù)的增加，特征會被高度抽象化，將無法獲取輸入圖像中的細微運動變化。接著，為了有效地捕捉相鄰步態(tài)幀中的細微動作變化，本文對式（1）進行了相應的調(diào)整，使其能夠進行通道維度上的特征圖差分運算，如式（2）所示，第i個通道上的GFD分量如下：

GFDi，j（p）=Fi，j+1（p）-Fi，j（p）（2）

其中：i=1，2，…，c，c表示通道數(shù)；Fi，j（p）表示j幀第i個通道上p處的特征值。式（2）中計算的所有GFDi，j值都可以通過式（3）進一步疊加到同一個通道中來顯示運動變化。

GFDj=1C∑Ci=1|GFDi，j（p）|（3）

最終，可以從順序輸入的n個步態(tài)幀中獲取n-1個步態(tài)特征差分圖。

1.2 多尺度金字塔映射算法

為了將水平方向上的重要信息引入到識別任務中，本文提出了MPM模塊。該模塊通過對特征圖進行多尺度橫向和縱向分割，將水平和垂直方向上的步態(tài)信息一起融入到最終的判別信息中去。

MPM模塊結(jié)構(gòu)如圖3所示，先將特征提取模塊輸出的特征塊F分別進行橫向和縱向切割，F(xiàn)∈Euclid Math TwoRApH×W×C，C表示通道數(shù)，H和W分別表示特征圖的高和寬。若以切割尺度i進行水平切割，可以獲得s個特征塊Fhi，k，k表示切割后的特征塊編號，k∈［1，s］，h表示橫向切割。本文中i∈［1，5］，i∈Z，s的大小與切割尺度i有關(guān)，可由式（4）表示。

s=2i-1（4）

與橫向切割類似，若以切割尺度j進行縱向切割，可以獲得s個特征塊Fzj，k，z表示垂直切割。與橫向切割不同，為了避免獲取重復的步態(tài)信息，縱向切割尺度從j=2開始，即j的取值為j∈［2，5］，j∈Z。

為了獲取切割后特征塊的全局特征，分別對每個切割后的特征快進行全局池化操作，池化過程可由式（5）表示：

Fh*i，k=GMP（Fhi，k）+GAP（Fhi，k）

Fz*j，k=GMP（Fzj，k）+GAP（Fzj，k）（5）

其中：GMP（·）表示全局最大池化操作；GAP（·）表示全局平均池化操作;經(jīng)過池化操作后得到特征塊Fh*i，k和Fz*j，k，且Fh*i，k∈Euclid Math TwoRApC×1×1，F(xiàn)z*j，k∈Euclid Math TwoRApC×1×1。本文同時采用了全局最大池化和全局最小池化，因為合并的結(jié)果要優(yōu)于單獨使用其中任意一個的結(jié)果。本文還利用全連接層將經(jīng)過池化處理的Fh*i，k和Fz*j，k映射到一個深度鑒別空間中，以獲取更多有用的鑒別信息。

1.3 特征提取和損失計算

為了有效地提取步態(tài)序列中的時空步態(tài)特征，本文搭建了如圖4所示的2D卷積網(wǎng)絡來提取步態(tài)特征。其中，SP模塊是一種集合池模塊[23]，它可以有效地壓縮一組步態(tài)信息。

Zhang等人[26]發(fā)現(xiàn)不同支流的輸出特征對提升網(wǎng)絡最終識別效果的貢獻值不同，為此，本文采用了加權(quán)融合方法來融合各支流網(wǎng)絡的輸出特征，融合過程可由式（6）表示。

F=hFL+（1-h）FC（6）

其中：FC和FL分別表示步態(tài)特征差分流網(wǎng)絡和步態(tài)輪廓流網(wǎng)絡中全連接層的輸出特征；h表示對FC和FL的加權(quán)值，h的取值對網(wǎng)絡最終識別效果的影響將在實驗部分進一步分析。

為了更好地對網(wǎng)絡進行訓練，本文采用步態(tài)識別任務中常用的三元損失函數(shù)來訓練網(wǎng)絡，損失表達式如式（7）所示。

Ltriplet=∑Ni=1（Dai-Dpi+α）（7）

其中：i表示從訓練集抽取的訓練樣本；a表示與i同類的樣本；p表示與i異類的樣本；Dai表示i與a之間的歐氏距離；Dpi表示i與p之間的歐氏距離；α主要用來控制正負樣本的距離，本文中將其設(shè)為0.2。

2 實驗與分析

2.1 評價標準

測試時，給定待測樣本庫（probe）中的一個測試序列q，以及目標樣本庫（gallery），目標是通過遍歷目標樣本庫中的所有序列，識別出與測試序列具有相同身份標簽的樣本序列p。為此，首先將q和目標樣本庫中的樣本輸入到本文雙流網(wǎng)絡中，生成多個多尺度特征，最后再將這些特征展開成最終的表示形式，如圖1所示。接著，計算測試序列特征與每個樣本步態(tài)特征之間的歐氏距離。最后，基于最小歐氏距離計算出rank1識別率。

2.2 數(shù)據(jù)集

為了與其他先進的方法進行了比較，本文分別在公共步態(tài)數(shù)據(jù)集CASIA-B和OU-MVLP上進行實驗評估。

CASIA-B步態(tài)數(shù)據(jù)集包含了124名受試者，113 640個步態(tài)序列。每個受試者都分別在三種狀態(tài)下進行測試，即正常行走（NM）、背包行走（BG）和穿著外套行走（CL），且每種行走狀態(tài)同時在11個視角下（0°～180°）進行捕捉。在訓練集和測試集的劃分方面，本文使用了目前文獻中最流行的劃分方式，即大樣本劃分（LT）。大樣本劃分中，前74名受試者作為訓練集，后50名受試者作為測試集。圖5展示了在該數(shù)據(jù)集中各行走狀態(tài)下的步態(tài)特征差分圖的可視化結(jié)果，其中圖（a）～（c）分別表示正常、背包和穿著外套狀態(tài)下的步態(tài)特征差分圖。與步態(tài)輪廓圖不同，步態(tài)特征差分圖可以有效地凸顯相鄰輪廓圖之間的動態(tài)信息。

OU-MVLP步態(tài)數(shù)據(jù)集是目前最大的步態(tài)數(shù)據(jù)集，它包含10 307名受試者，每個受試者分別在14個視角下（0°～270°）進行捕捉。在訓練集和測試集的劃分方面，本文將前5 154名受試者作為訓練集，后5 153名受試者作為測試集。

上述兩個數(shù)據(jù)集提供的都是步態(tài)剪影序列圖，在實驗中，為了降低計算成本，本文首先計算每幀的步態(tài)邊界框，并對齊步態(tài)輪廓幀，從完整的步態(tài)幀中裁剪出步態(tài)輪廓并將其調(diào)整為（64×64）的步態(tài)輪廓圖像，將這些調(diào)整后的步態(tài)輪廓序列圖作為網(wǎng)絡的輸入，該過程在文獻[27]中被證明是有效的。

2.3 實驗環(huán)境與參數(shù)配置

實驗中，輸入的步態(tài)輪廓圖和步態(tài)特征差分圖的大小都控制在（64×64），并利用Adam優(yōu)化器來訓練本文雙流網(wǎng)絡，網(wǎng)絡的初始學習率設(shè)為1E-4。為了讓網(wǎng)絡更好地訓練，將三元組損失中，參數(shù)margin的值設(shè)為0.2。所有的實驗代碼都是利用Python編寫，在PyTorch 0.4.0上實現(xiàn)，并在一臺NVIDIA DGX服務器上訓練。

2.4 實驗結(jié)果與分析

在CASIA-B步態(tài)數(shù)據(jù)集的實驗中，批尺寸設(shè)置為（8×8），即每次隨機選取8個人，每個人隨機選取8個步態(tài)序列，并將每個步態(tài)序列中的所有步態(tài)圖順序輸入到雙流網(wǎng)絡中，迭代次數(shù)設(shè)為200 000輪。表1展示了本文雙流網(wǎng)絡與目前先進方法之間的比較，其中，每種行走狀態(tài)下的識別精度是指在11個視角下（0°～180°）的平均識別精度。從表1的實驗結(jié)果可以看出，本文方法在各行走狀態(tài)下都展現(xiàn)出了較好的識別效果。

表1所對比的先進步態(tài)識別方法都是將重點放在網(wǎng)絡結(jié)構(gòu)上，為了有效地捕捉步態(tài)輪廓序列中包含的步態(tài)信息，通過設(shè)計新的網(wǎng)絡結(jié)構(gòu)來提升最終的識別效果。這些先進方法雖然有效，但卻忽略了單一數(shù)據(jù)類型無法包含足夠且豐富的步態(tài)信息問題，這在一定程度上限制了網(wǎng)絡的識別效果。本文通過引入步態(tài)特征差分圖來彌補上述缺陷，步態(tài)特征差分圖作為一種新的數(shù)據(jù)類型包含了相鄰步態(tài)幀之間的動態(tài)信息，與步態(tài)輪廓圖相結(jié)合，進一步豐富了輸入步態(tài)序列中所包含的步態(tài)信息。從表1的對比結(jié)果可以看出，新數(shù)據(jù)類型的引入在改善網(wǎng)絡識別性能方面是有效的。

在OU-MVLP步態(tài)數(shù)據(jù)集的實驗中，除了將迭代次數(shù)設(shè)為400 000輪外，其余各參數(shù)的設(shè)置與在CASIA-B步態(tài)數(shù)據(jù)集上實驗的參數(shù)設(shè)置保持一致，實驗結(jié)果如表2所示。從實驗結(jié)果可以看出，本文方法在四種行走視角下都展現(xiàn)出了較好的識別效果，這不僅證明了本文方法的有效性，同時也證明了本文方法具有較好的泛化能力。

特征融合部分中，本文在CASIA-B步態(tài)數(shù)據(jù)集上探究了不同的權(quán)重系數(shù)h對最終的識別效果的影響，如圖6所示，圖中的識別精度指的是三種行走狀態(tài)下的平均精度。

由實驗結(jié)果可知，識別結(jié)果受到h的取值影響，隨著h值的不斷增加，網(wǎng)絡的識別精度先上升后下降，當h取值為0.7時，網(wǎng)絡的識別精度達到了最大值，這不僅驗證了不同單流網(wǎng)絡的輸出具有互補性，同時也驗證了它們對最終的識別效果有著不同的重要性。在本文中，為了讓網(wǎng)絡獲得最好的識別效果，將h的值設(shè)定為0.7。

2.5 消融實驗

為了證明本文基于步態(tài)輪廓流和步態(tài)特征差分流的雙流網(wǎng)絡以及多尺度金字塔映射模塊的有效性，分別進行了對應的消融實驗來驗證。

針對雙流網(wǎng)絡結(jié)構(gòu)所做的消融實驗中，為了證明雙流網(wǎng)絡的有效性，本文分別對雙流網(wǎng)絡中的各單流進行實驗，實驗過程中，各支流除了輸入的數(shù)據(jù)類型不同外，其他參數(shù)都與雙流網(wǎng)絡的參數(shù)保持一致，實驗結(jié)果如表3所示。

根據(jù)表3實驗結(jié)果不難發(fā)現(xiàn)，步態(tài)輪廓流和步態(tài)特征差分流融合后的識別效果要明顯優(yōu)于各單流的識別效果。這表明，基于步態(tài)輪廓流和步態(tài)特征差分流的雙流網(wǎng)絡是有效的，它能夠?qū)⒏鲉瘟骶W(wǎng)絡中有利于步態(tài)識別的信息進行有效融合，彌補了各單流網(wǎng)絡中所缺失的重要步態(tài)信息。

為了驗證多尺度金字塔映射模塊可以有效地捕獲人體行走過程中水平和垂直方向上的步態(tài)信息，本文分別在橫向金字塔映射模塊、縱向金字塔映射模塊和多尺度金字塔映射模塊上進行消融實驗。實驗過程中，除了金字塔映射模塊類型不同外，網(wǎng)絡結(jié)構(gòu)和參數(shù)都保持一致，網(wǎng)絡結(jié)構(gòu)都是基于本文雙流結(jié)構(gòu)，實驗結(jié)果如表4所示。

根據(jù)表4的實驗結(jié)果不難發(fā)現(xiàn)，基于橫向切割的金字塔映射方法和基于縱向切割的金字塔映射方法雖然可以取得一定的識別效果，但是結(jié)合橫向切割和縱向切割的多尺度金字塔映射方法的識別效果要明顯優(yōu)于只采用單一的切割金字塔映射方法。這表明，本文提出的多尺度金字塔映射模塊可以將水平和垂直方向上的步態(tài)信息有效地結(jié)合起來，最大程度地降低有效步態(tài)信息的損失，為最終的步態(tài)識別提供更豐富且更具判別性的步態(tài)信息。

3 結(jié)束語

本文從提高網(wǎng)絡捕捉時空步態(tài)信息能力的角度出發(fā)，提出了基于步態(tài)特征差分流和步態(tài)輪廓流的雙流網(wǎng)絡架構(gòu)。其中，步態(tài)特征差分流可以有效地捕捉相鄰圖像之間的動作信息，并與步態(tài)輪廓流的輸出進行有效融合，以共同表征時空步態(tài)信息。同時，為了充分利用步態(tài)序列中的全局和局部信息，本文還提出了MPM模塊，并將其插入到各單流網(wǎng)絡中，以增強各單流網(wǎng)絡對全局和局部信息的捕捉能力。本文分別在兩種大規(guī)模的CASIA-B和OU-MVLP步態(tài)數(shù)據(jù)集上進行了對比實驗，實驗結(jié)果表明了本文模型要優(yōu)于許多目前先進的方法。最后，通過一系列的消融實驗驗證了網(wǎng)絡中各模塊的有效性。

參考文獻：

［1］Dolatabadi E，Taati B，Mihailidis A.An automated classification of pathological gait using unobtrusive sensing technology[J].IEEE Trans on Neural Systems and Rehabilitation Engineering，2017，25（12）：2336-2346.

[2]Torvi V G，Bhattacharya A，Chakraborty S.Deep domain adaptation to predict freezing of gait in patients with Parkinson’s disease[C]//Proc of the 17th IEEE International Conference on Machine Learning and Applications.2019：1001-1006.

[3]Goyal D，Jerripothula K R，Mittal A.Detection of gait abnormalities caused by neurological disorders[C]//Proc of the 22nd International Workshop on Multimedia Signal Processing.2020：1-6.

[4]Sadeghzadehyazdi N，Batabyal T，Acton S T.Modeling spatiotemporal patterns of gait anomaly with a CNN-LSTM deep neural network[J].Expert Systems with Applications，2021，185：115582.

[5]Xu Chi，Makihara Y，Li Xiang，et al.Cross-view gait recognition using pairwise spatial transformer networks[J].IEEE Trans on Circuits and Systems for Video Technology，2020，31（1）：260-274.

[6]Elharrouss O，Almaadeed N，Al-maadeed S，et al.Gait recognition for person re-identification[J].The Journal of Supercomputing，2021，77（4）：3653-3672.

[7]Cunado D，Nixon M S，Carter J N.Using gait as a biometric，via phase-weighted magnitude spectra[C]//Proc of International Conference on Audio-and Video-Based Biometric Person Authentication.Berlin：Springer，1997：93-102.

[8]Liao Rijun，Yu Shiqi，An Weizhi，et al.A model-based gait recognition method with body pose and human prior knowledge[J].Pattern Re-cognition，2020，98：107069.

[9]Huynh-The T，Hua C H，Tu N A，et al.Learning 3D spatiotemporal gait feature by convolutional network for person identification[J].Neurocomputing，2020，397：192-202.

[10]Deng Muqing，Wang Cong.Human gait recognition based on deterministic learning and data stream of Microsoft Kinect[J].IEEE Trans on Circuits and Systems for Video Technology，2018，29（12）：3636-3645.

[11]Zeng Wei，Ismail S A，Pappas E.Detecting the presence of anterior cruciate ligament injury based on gait dynamics disparity and neural networks[J].Artificial Intelligence Review，2020，53（5）：3153-3176.

[12]Ghaeminia M H，Shokouhi S B，Badiezadeh A.A new spatio-temporal patch-based feature template for effective gait recognition[J].Multimedia Tools and Applications，2020，79（1）：713-736.

[13]Zhang Peng，Wu Qiang，Xu Jingsong.VN-GAN：identity-preserved variation normalizing gan for gait recognition [C]//Proc of International Joint Conference on Neural Networks.Piscataway，NJ：IEEE Press，2019：1-8.

[14]Li Xiang，Makihara Y，Xu Chi，et al.Joint intensity transformer network for gait recognition robust against clothing and carrying status[J].IEEE Trans on Information Forensics and Security，2019，14（12）：3102-3115.

[15]Ben Xianye，Gong Chen，Zhang Peng，et al.Coupled bilinear discriminant projection for cross-view gait recognition[J].IEEE Trans on Circuits and Systems for Video Technology，2019，30（3）：734-747.

[16]Nieto-Hidalgo M，F(xiàn)errández-Pastor F J，Valdivieso-Sarabia R J，et al.Vision based extraction of dynamic gait features focused on feet movement using RGB camera[C]//Proc of Conference on Ambient Intelligence for Health.Berlin：Springer，2015：155-166.

[17]Sokolova A，Konushin A.View resistant gait recognition[C]//Proc of the 3rd International Conference on Video and Image Processing.New York：ACM Press，2019：7-12.

[18]Castro F M，Marin-Jimenez M J，Guil N，et al.Evaluation of CNN architectures for gait recognition based on optical flow maps [C]//Proc of International Conference of the Biometrics Special Interest Group.Piscataway，NJ：IEEE Press，2017：1-5.

[19]Wolf T，Babaee M，Rigoll G.Multi-view gait recognition using 3D convolutional neural networks [C]//Proc of IEEE International Confe-rence on Image Processing.Piscataway，NJ：IEEE Press，2016：4165-4169.

[20]Lin Beibei，Zhang Shunli，Bao Feng.Gait recognition with multiple-temporal-scale 3D convolutional neural network[C]//Proc of the 28th ACM International Conference on Multimedia.New York：ACM Press，2020：3054-3062.

[21]Zhang Yuqi，Huang Yongzhen，Yu Shiqi，et al.Cross-view gait recognition by discriminative feature learning [J].IEEE Trans on Image Processing，2020，29：1001-1015.

[22]Fu Yang，Wei Yunchao，Zhou Yuqian，et al.Horizontal pyramid ma-tching for person re-identification[C]//Proc of the 33rd Conference on Artificial Intelligence and the 31st Innovative Applications of Artificial Intelligence Conference and 9th AAAI Symposium on Educational Advances in Artificial Intelligence.Palo Alto，CA：AAAI Press，2019：8295-8302.

[23]Chao Hanqing，He Yiwei，Zhang Junping，et al.GaitSet：regarding gait as a set for cross-view gait recognition[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto，CA：AAAI Press，2019：8126-8133.

[24]Qin Hao，Chen Zhenxue，Guo Qingqiang，et al.RPNet：gait recognition with relationships between each body-parts [J/OL].IEEE Trans on Circuits and Systems for Video Technology.（2021-07-07）.http：//doi.org/10.1109/tcsvt.2021.3095290.

[25]Wang Limin，Xiong Yuanjun，Wang Zhe，et al.Temporal segment networks：towards good practices for deep action recognition [C]//Proc of European Conference on Computer Vision.Berlin：Springer，2016：20-36.

[26]Zhang Zufan，Lyu Zongming，Gan Chenquan，et al.Human action recognition using convolutional LSTM and fully-con-nected LSTM with different attentions[J].Neurocomputing，2020，410：304-316.

[27]Sepas-moghaddam A，Etemad A.View-invariant gait recognition with attentive recurrent learning of partial representations[J].IEEE Trans on Biometrics，Behavior，and Identity Science，2020，3（1）：124-137.

[28]Zhang Ziyuan，Tran L，Yin Xi，et al.Gait recognition via disentangled representation learning [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2019：4705-4714.

[29]Zhang Ziyuan，Tran L，Liu Feng，et al.On learning disentangled representations for gait recognition[J].IEEE Trans on Pattern Analysis and Machine Intelligence，2022，44（1）：345-360.

[30]胡少暉，王修暉.結(jié)合注意力卷積網(wǎng)絡與分塊特征的步態(tài)識別[J].計算機工程與應用，2022，58（3）：266-273.（Hu Shaohui，Wang Xiuhui.Gait recognition combined with convolutional neural network with attention and part-level features[J].Computer Engineering and Applications，2022，58（3）：266-273.）

[31]周瀟涵，王修暉.基于非對稱雙路識別網(wǎng)絡的步態(tài)識別方法[J].計算機工程與應用，2022，58（4）：150-156.（Zhou Xiaohan，Wang Xiuhui.A novel gait recognition method based on asymmetric two-path network [J].Computer Engineering and Applications，2022，58（4）：150-156.）

[32]胡少暉，王修暉，劉硯秋.基于多支路殘差深度網(wǎng)絡的跨視角步態(tài)識別方法[J].模式識別與人工智能，2021，34（5）：455-462.（Hu Shaohui，Wang Xiuhui，Liu Yanqiu.Cross-view gait recognition method based on multi-branch residual deep network[J].Pattern Recognition and Artificial Intelligence，2021，34（5）：455-462.）

[33]Huang Guoheng，Lu Zeng，Pun C M，et al.Flexible gait recognition based on flow regulation of local features between key frames[J].IEEE Access，2020，8：75381-75392.

[34]Wu Zifeng，Huang Yongzhen，Wang Liang，et al.A comprehensive study on cross-view gait based human identification with deep CNNs[J].IEEE Trans on Pattern Analysis and Machine Intelligence，2016，39（2）：209-226.

[35]Wang Yu，Xia Yi，Zhang Yongliang.Beyond view transformation：feature distribution consistent GANs for cross-view gait recognition[J/OL].The Visual Computer.（2021-07-06）.https：//doi.org/10.1007/s00371-021-02254-8.

[36]Takemura N，Makihara Y，Muramatsu D，et al.On input/out-put architectures for convolutional neural network-based cross-view gait recognition[J].IEEE Trans on Circuits and Systems for Video Technology，2017，29（9）：2708-2719.

[37]Sepas-Moghaddam A，Ghorbani S，Troje N F，et al.Gait recognition using multi-scale partial representation transformation with capsules [C]//Proc of the 25th International Conference on Pattern Recognition.Piscataway，NJ：IEEE Press，2021：8045-8052.

計算機應用研究2022年6期

計算機應用研究的其它文章: 基于視頻時空關(guān)系的高速公路異常停車檢測; 融合密集連接與自適應加權(quán)損失的血管壁圖像分割; 基于深度學習的光流插幀邊信息生成算法; 基于分頻和多感受野殘差密集的指靜脈圖像超分辨率重建; 基于超像素和隨機游走的交互式分割算法; 基于離群特征的γ輻射圖像去噪方法