基于三維圖卷積與注意力增強的行為識別模型

2021-07-29 03:35:52盛永健黃子龍鄧小龍

電子與信息學報 2021年7期

關鍵詞：信息模型

曹毅劉晨盛永健黃子龍鄧小龍

①(江南大學機械工程學院無錫 214122)

②(江南大學江蘇省食品制造裝備重點實驗室無錫 214122)

③(江蘇信息職業技術學院無錫 214153)

1 引言

骨架行為識別是通過提取骨架序列中的動作特征，進而實現對人體行為的理解與描述的方法。骨架行為識別是機器視覺領域的熱點研究方向之一，其可實現計算機準確識別目標對象的動作，進而分析視頻中人體的動作，提高了計算機的動態感知能力，因此骨架行為識別技術廣泛應用于視頻監控[1]、視頻理解[2,3]等領域。

針對骨架行為識別，國內外學者分別基于卷積神經網絡和圖卷積神經網絡兩類方法開展了大量的理論與實驗研究。其中，基于卷積神經網絡[3–6]，文獻[3]提出將骨架序列的時空信息編碼為彩色紋理圖像，并使用卷積神經網絡學習行為的判別特征；文獻[4]將3維卷積引入骨架行為識別，通過3維卷積神經網絡學習深度圖序列的時空信息，并融合關節特征向量輸入的SVM分類結果，實現行為識別；文獻[5]將雙流結構與3維卷積結合，提出了雙流3維卷積網絡，并將骨架信息映射到3D坐標空間進行時空信息的編碼，實現了時空信息的提取。

基于圖卷積神經網絡，文獻[7]融合圖卷積神經網絡與時間卷積網絡，提出了一種時空圖卷積模型，以提取骨架序列的空間信息與時間信息；文獻[8]結合圖卷積與長短時記憶網絡(LSTM)，提出了一種圖卷積LSTM網絡，通過圖卷積與LSTM網絡，分別提取骨架序列中的空間信息與時間信息；為捕獲關節間更豐富的依賴關系，文獻[9]引入了一種編碼器-解碼器結構以捕獲動作的潛在依賴關系，并通過圖卷積與時間卷積分別學習空間與時間信息，實現了時空信息的提取。

基于上述，針對骨架行為識別國內外諸多學者盡管開展了大量研究并取得了一定的研究成果[3–9]，但不難發現：(1) 3維卷積無法直接針對具有非歐式空間數據的3維骨架序列進行時空信息的提取；(2) 圖卷積僅能提取空間信息，時空信息依賴圖卷積與LSTM(或時間卷積)分別進行提取，且未考慮空間與時間信息間的關聯性；(3) 缺少對于特定關節的關注，無法聚焦重要的動作信息。

針對上述問題，本文提出了一種基于3維圖卷積與注意力增強的行為識別模型。本文首先介紹了3維卷積與圖卷積的具體工作原理；其次基于圖卷積中可處理變長鄰居節點的圖卷積核，引入3維卷積的3維采樣空間將2維圖卷積核改進為具有3維采樣空間的圖卷積核，提出了一種3維圖卷積方法；然后，為增強對于特定關節的關注，聚焦重要的動作信息，設計了一種注意力增強結構；再者，結合3維圖卷積與注意力增強結構，構建了基于3維圖卷積與注意力增強的行為識別模型；最后，基于NTU-RGBD和MSR Action 3D骨架動作數據集開展了骨架行為識別的研究。研究結果進一步驗證了本文提出的行為識別模型的時空信息的有效提取能力及優秀的識別準確率。

2 3維卷積與圖卷積

2.1 3維卷積

3維卷積的3維采樣空間由多個連續幀中相同位置的采樣區域構成，其包含時間與空間2個維度。通過3維卷積核將多個連續幀中采樣區域的數據進行堆疊求和生成多維數據，從而實現了對3維采樣空間的卷積操作[10,11]，如圖1所示。設3維卷積核的卷積核尺寸為[Pi, Qi, Ri]，則第i層網絡中第j張特征圖的(x, y, z)位置響應可表示為

圖1 3維卷積的卷積操作

3維采樣通過將前一層輸出中多個連續幀進行加權疊加，其不僅能采集空間信息，且能構建當前特征圖與前一層輸出中多個連續幀的連接，實現了多幀范圍內時間信息的捕捉。因此，3維卷積不僅能同時實現空間與時間信息的采集，且能保留兩者的關聯性，故3維卷積可適用于連續動作視頻幀序列等歐式空間內3維序列型數據的時空特征采集。

2.2 圖卷積

圖卷積是學習圖結構數據的一種通用有效的方式。圖卷積通過可處理變長鄰居節點的圖卷積核，將鄰居節點的隱藏狀態進行加權求和，以此來聚合鄰居節點的信息，實現了圖結構數據的卷積操作，提取了圖上信息[12]。因此，圖卷積能處理具有廣義拓撲結構的圖結構數據，故其廣泛運用于骨架行為識別[2]和姿態估計[13]等領域。

其中，D表示A的度矩陣，a為A的元素用以判斷節點是否為存在連接的鄰居節點，W表示圖卷積的權重矩陣，b表示偏置值，σ(·)表示非線性變化的激活函數。

圖2 圖卷積的卷積操作

3 基于3維圖卷積與注意力增強的行為識別模型

3.1 3維圖卷積

3.1.1 3維圖卷積原理

骨架序列的空間結構特征與時間特征能夠表述骨架序列中動作的完整信息，且兩者之間存在關聯不可獨立分析。因此，為實現骨架序列中時空信息的有效提取，開展3維圖卷積方法的研究是非常有必要的。

值得指出的是，3維卷積中3維采樣空間為柵格化采樣，其僅適用于歐式空間內3維序列型數據的特征采集，對于非歐式空間3維數據的采樣存在采樣空間中鄰居節點數量不固定的問題。因此，(1) 3維卷積無法針對具有非歐式空間3維數據的骨架序列進行時空信息的提取；(2) 圖卷積通過可處理變長鄰居節點的圖卷積核，其僅能實現圖上空間信息的提取。為提取骨架序列的時空信息，基于圖卷積中可處理變長鄰居節點的圖卷積核，以3維卷積中的3維采樣空間為改進思想，將2維圖卷積核改進為具有3維采樣空間的圖卷積核，本文提出了一種3維圖卷積方法，其能有效提取非歐式空間內3維骨架序列的時空信息。

3維圖卷積針對骨架序列的采樣操作中，3維采樣空間的鄰居節點既包含當前幀內與節點存在連接的鄰居節點也包含多個連續幀內相同位置節點的鄰居節點。基于3維圖卷積核，通過3維采樣空間內鄰居節點數據的加權堆疊求和來生成多維數據，從而實現了骨架序列的3維圖卷積，有效提取了骨架序列的時空信息。如圖3所示，設3維采樣空間中有L張連續骨架幀，從第1幀到第L幀記作G0,G1,···,GL-1，則3維圖卷積的輸出結果可表示為

圖3 骨架序列中的3維圖卷積

值得注意的是，3維圖卷積在時間維度上采樣骨架序列中的連續L幀，在未進行填充操作的情況下，每一次3維圖卷積操作將使骨架序列減少L–1幀的序列長度。且基于padding填充操作，通過設置時間維度的采樣步長，3維圖卷積可實現倍率減少序列長度。

3.1.2 3維圖卷積的有效性

骨架序列中3維采樣空間是3維圖卷積的核心，為證明3維圖卷積的有效性，開展了3維圖卷積與2維圖卷積提取骨架序列特征的差異性研究。

如圖4(a)所示，應用于骨架序列的2維圖卷積僅輸出對應當前第T幀的單幀圖(式(4))，故每次圖卷積運算僅處理當前第T幀內的空間信息，未對時間信息進行提取[7]，且2維圖卷積切斷了骨架幀間的時間關系，無法提取時空信息。

圖4 骨架序列中2維圖卷積與3維圖卷積的差異性

對比2維圖卷積，3維圖卷積(圖4(b))則通過采集當前第T 幀的空間信息與第T 幀周圍L–1幀的時間信息(式(5))，保留了骨架幀間的時間關系，實現了時空信息的提取。通過將卷積層輸出特征圖與多個相鄰幀相連，既提取了空間信息又捕獲了時間信息[12]。其次，通過同時聯合空間信息與時間信息進行提取，3維圖卷積解決了2維圖卷積與時間卷積網絡融合帶來的空間信息與時間信息關聯性被破壞的問題，保留了兩者的關聯性。本文將進一步開展實驗，以驗證3維圖卷積對比2維圖卷積的有效性。

由圖4(a)、圖4(b)與式(4)、式(5)的對比可知：(1) 2維圖卷積僅對單張骨架幀的空間信息進行處理，由于其切斷了骨架幀間的時間關系，故無法提取時間信息；(2) 基于具有時間與空間兩個采樣維度的3維采樣空間，3維圖卷積通過添加聚合時間維度上相關的鄰居節點信息，既提取了骨架序列間的時間信息，又提取了空間信息，實現了時空信息的有效提取，且保留了空間與時間信息的相關性。

綜上所述，針對具有非歐式空間3維數據的骨架序列，基于3維采樣空間，3維圖卷積通過聚合空間與時間維度上的鄰居節點信息，實現了骨架序列中時空信息的有效提取。

3.2 注意力增強結構

骨架行為識別中動作的大部分動作信息可由少數關節表示，如揮手的大部分動作信息可由肩、肘、腕3個關節表示，故聚焦特定關節能一定程度提升骨架行為的識別準確率。

3維圖卷積的輸入特征中各個關節的權重均一致，針對特定動作其存在缺乏對于特定關節關注的問題。注意力機制通過注意力矩陣表示骨架序列中各關節對應的注意力權重并加權輸入模型，實現了針對特定關節的關注[14]。基于上述，為解決3維圖卷積缺乏對于特定關節關注的問題，本文設計了一種注意力增強結構。其不僅能增強對于特定關節的關注，且不削弱非關注關節點的信息，如圖5所示。

圖5 注意力增強結構示意圖

注意力增強結構首先通過計算關節相似性度權重系數，求解生成中間特征，然后利用兩層感知機，實現骨架序列中關節權重分布的提取，最后，結合結構輸入特征，實現對于特定關節的注意力增強，注意力增強算法流程如下所示：

輸入. 具有n維m個關節的骨架序列特征；

輸出. 由輸入骨架序列與關節加權的骨架序列求和生成的骨架序列；

步驟 1 基于相似度計算函數Score求解各關節間的相似度，并利用softmax函數進行相似度歸一化，實現關節相似性權重系數α的生成；

步驟 2 基于權重系數α進行關節信息的加權求和并與原始特征拼接，實現中間特征H′的生成；

步驟 3 通過兩層感知機(s,u)結合tanh與sigmoid非線性化操作，實現關節權重矩陣V的計算；

步驟 4 基于關節權重vi針對骨架序列中關節進行加權，并通過求和結構輸入特征hi得到結構輸出。

基于上述研究，注意力增強結構通過計算骨架序列中關節的權重并結合結構輸入特征構建增強特征，既實現了對于特定關節點的注意力增強，又不削弱非關注關節點的信息，更有利于模型學習重要特征。

綜上所述，基于3維圖卷積與注意力增強的行為識別模型具有以下特點：(1) 3維圖卷積將2維圖卷積的2維采樣區域擴展到3維采樣空間，包含空間與時間2個維度，實現了骨架序列中時空信息的有效提取；(2) 基于注意力增強結構，增強了對于特定關節點的關注，更有利于模型學習重要特征。

4 實驗設計與結果分析

4.1 實驗數據集及評價指標

NTU-RGBD[15]：該數據集為最為廣泛應用的行為識別大型實驗數據集之一，其包含56880個動作樣本。動作樣本可劃分為60個動作類別，每一個動作類別均通過3個視角的Kinect相機采集40個志愿者的25個關節點動作來構建。數據集具有基于視角(X-View)與基于運動對象(X-Sub)兩種劃分方式。為驗證基于3維圖卷積與注意力增強的行為識別模型的性能，評價指標采用Top-1識別準確率和Top-5識別準確率，針對模型在兩種數據集劃分方式下的性能進行綜合評價。

MSR Action 3D[16]：該數據集包含16個動作類別的320個動作樣本，每一個動作樣本均有Kinect相機采集人體的20個關節點來構成。數據集可劃分為3類子集(AS1, AS2, AS3)，各類子集均包含8類動作，其中AS1和AS2子集均為簡單的相似動作，AS3子集為復雜動作[17]，評價標準采用Top-1識別準確率評價模型。

4.2 網絡結構與參數配置

網絡結構：單特征輸入由于限制了網絡模型從多種特征中學習各種信息，故影響了網絡模型的識別準確率。為學習多種特征進一步提高網絡模型的識別準確率，基于3維圖卷積與注意力增強結構并以雙特征作為輸入，構建了基于3維圖卷積與注意力增強的行為識別模型。雙特征分別為表示靜態特性的骨架特征與表示運動特性的骨架序列幀差特征。

該模型中的單流網絡由3維圖卷積與注意力增強結構構成，每一層3維圖卷積前均設置注意力增強結構；利用3維圖卷積的串聯，構建了單流網絡；通過疊加平均雙流網絡的預測分數，實現了雙流融合并預測動作標簽。若采用NTU數據集中25個關節表示的300幀骨架序列的動作樣本，則模型具體結構如表1所示。

表1 基于3維圖卷積與注意力增強的行為識別模型的網絡結構

參數配置：動作幀數規整化(NTU：300幀；MSR：100幀)；設置批量處理尺寸(batch_size)為32；采用SGD為模型優化器；設置初始學習率為0.1；循環輪數(epoch)為80，并在第50輪進行學習率衰減。

4.3 模型對比實驗

4.3.1 模型深度實驗

模型深度在一定程度上影響模型的識別準確率，淺層模型識別準確率不高，深層模型存在過擬合。為探究最優的模型深度，以結合注意力增強結構的3維圖卷積層數為變量，分別構建了5層至11層的網絡結構，并基于以X-View劃分的NTU數據集開展骨架行為識別的實驗研究，實驗結果如表2所示。

表2 不同模型深度的識別準確率對比(%)

由表2可知：當模型層數為10層時，基于Top-1與Top-5評價指標，模型均取得最高識別準確率，分別為93.30%與99.49%，故模型最優模型深度為10層。

4.3.2 時間維度的鄰居采樣范圍實驗

3維圖卷積通過擴展多個連續幀內相同位置節點的鄰居節點，實現了時間信息的采樣。時間維度上的鄰居采樣范圍會影響模型時間信息的采樣能力，長采樣范圍無法關注短時重要信息，短采樣范圍則無法提取上下文信息。為探究最優的采樣范圍，本文分別設置了5類采樣范圍并基于以X-View劃分的NTU數據集開展骨架行為識別的實驗研究，實驗結果如表3所示。

由表3可知：當鄰居采樣范圍為9幀時，基于Top-1與Top-5評價指標，模型取得最高的識別準確率，分別為93.30%與99.49%，故模型最優的采樣范圍選用9幀。

表3 不同鄰居采樣范圍的識別準確率對比(%)

4.3.3 注意力對比實驗

為驗證注意力增強結構相較于其他注意力機制在3維圖卷積模型上的優勢，基于注意力增強結構與3種注意力機制分別開展了對比實驗。實驗均基于以X-View劃分的NTU數據集開展，實驗結果如表4所示。

表4 注意力增強結構與多種注意力機制的識別準確率對比(%)

由表4可知：(1) 相較于未使用注意力增強結構的3維圖卷積模型，結合注意力增強結構的3維圖卷積模型雖在Top-5評價指標下識別準確率下降了0.05%，但在Top-1評價指標下識別準確率提升了0.4%，達到最高93.30%的識別準確率；(2) 對比其他3種注意力機制，通過結合注意力增強結構，3維圖卷積模型在Top-1評價指標下的識別準確率得到最顯著提升，其也充分論證了注意力增強結構對于增強關節關注的有效性。

因此，注意力增強結構不僅能夠增強3維圖卷積針對特定關節的關注，且進一步提高了識別準確率。

4.4 識別準確率對比實驗

為評估基于3維圖卷積與注意力增強的行為識別模型的性能，基于NTU-RGBD和MSR Action 3D數據集，開展了骨架行為的識別準確率對比實驗。

4.4.1 NTU-RGBD

為驗證基于3維圖卷積與注意力增強的行為識別模型相較于基于3維卷積與圖卷積行為識別模型的優秀性能，分別基于X-View與X-Sub劃分的NTU數據集開展了骨架行為識別的實驗研究，并采用Top-1準確率為評價指標，實驗結果如表5所示。

由表5可知：

表5 NTU數據集上不同模型的識別準確率對比(%)

(1) 在以X-View與X-Sub兩種方式劃分的NTU數據集上，基于3維圖卷積與注意力增強的行為識別模型均取得最高的識別準確率，分別為93.30%與89.43%；

(2) 相較于同樣采用雙流結構的3維卷積方法，基于注意力增強的3維圖卷積模型，在X-View與XSub下分別提高了20.72%與22.58%；

(3) 相較于使用2維圖卷積的文獻[6]，基于3維圖卷積與注意力增強的模型識別準確率在X-View與X-Sub下分別提高了5.0%與7.93%，實驗結果進一步驗證了3維圖卷積對比2維圖卷積的有效性。

4.4.2 MSR Action 3D

上述單一數據集上的對比實驗僅反映模型在單一數據集上的性能表現，為進一步驗證模型在不同數據集上的性能，綜合表現模型的泛化性能，需在全新數據集上開展模型性能的測試。為驗證基于3維圖卷積與注意力增強的行為識別模型的泛化性能，基于MSR Action 3D骨架行為識別數據集的3類子集(AS1, AS2, AS3)，開展了識別準確率對比實驗。對比實驗采用Top-1準確率為評價指標，實驗結果如表6所示。

由表6可知：

表6 MSR Action 3D數據集上3種訓練條件下的識別準確率對比(%)

(1) 基于注意力增強的3維圖卷積模型，在AS1, AS2, AS3 3種訓練條件下均取得了高于3維卷積與圖卷積的識別準確率，進一步驗證了模型時空信息提取的有效性；

(2) 本文提出的基于3維圖卷積與注意力增強的行為識別模型，在NTU-RGBD與MSR Action 3D數據集上均取得了優秀的識別準確率，進一步驗證了模型具有良好的泛化性能。

綜上實驗結果表明：基于3維圖卷積與注意力增強的行為識別模型相較于基于3維卷積與圖卷積的行為識別方法，既實現了骨架序列中時空信息的有效提取與對特定關節的注意力增強，又具有優秀的識別準確率與泛化性能。

5 結束語

為有效提取非歐式空間中3維骨架序列的時空信息，并實現針對特定關節的關注，本文提出了一種基于3維圖卷積與注意力增強的行為識別模型。(1) 3維圖卷積基于具有時間與空間兩個采樣維度的3維采樣空間，聚合前幀內鄰居節點的空間信息與時間維度上相關的鄰居節點時間信息，實現了時空信息的有效提取，且保留了空間與時間信息的相關性。(2) 對比傳統注意力機制，注意力增強結構不僅能增強對于特定關節的關注，且不削弱非關注關節點的信息。實驗結果表明：首先，對比傳統注意力機制，注意力增強結構能更有效增強對于特定關節的關注，且能進一步提高識別準確率。其次，基于3維圖卷積與注意力增強的行為識別模型具有優秀的識別準確率與泛化性能。

值得指出的是，人體行為在未剪輯視頻中僅占據小段時間，本文所提出的行為識別模型僅是基于人工剪輯視頻，未剪輯視頻中準確定位動作的問題在研究中未予以考慮。針對如何在未剪輯視頻中準確定位動作與識別動作的問題，其在后續的研究中擬進一步展開。