















摘要:針對現有基于骨骼行為識別的圖卷積的方法存在關節劃分固定、重視空間信息而忽視時間信息并且網絡參數量較高等問題。首先引入對稱關節的信息,增加對稱動作的交互特征;其次,加入多尺度金字塔(Multi-scalePyramid, MSP)時間圖卷積模塊,形成雙分支(Dual-branch, DB)的網絡結構,提高網絡對時間維度的信息提取能力;最后,本研究利用特征映射和空間聚合(Feature Mapping and Spatial Aggregation,FM-SA),在保留原始拓撲結構信息的前提下,過濾了權重矩陣中的冗余部分,并添加了擠壓-激勵(Squeeze-and-Excitation,SE)模塊,從而有效提升了空間特征的提取能力和特征圖的表達能力。實驗結果表明,與基準模型相比,網絡參數量減少51%,在NTURGB+D 120 數據集上的關節、骨骼流的識別準確率分別提高了0.5%和1.3%,融合準確率提高0.7%,0.5%,在NTURGB+D、Northwestern-UCLA(NW-UCLA)數據集的識別準確率分別提升0.1%,0.2%,1.5%。本文模型的有效性和可行性得到驗證。
關鍵詞:骨骼行為識別;關節分區;時空信息增強;多尺度金字塔;映射聚合
中圖分類號:O436 文獻標志碼:A 文章編號:0253-2395(2025)01-0055-11
0 引言
隨著互聯網的發展,以人為主題的視頻數據量愈發龐大,人體行為的智能識別作為計算機視覺領域的熱點之一,可以用在例如視頻監控、智能人機交互、體育仲裁[1-2]、智能醫療[3]等很多領域,具有重要的理論與應用價值。
早期骨骼行為識別的方法大多數基于循環神經網絡(Recurrent Neural Network,RNN)或者結合長短期記憶網絡(Long Short-Term Memo?ry,LSTM),例如Du 等[4]提出一種端到端的雙向RNN 模型,將人體的骨架序列劃分為五個部分后分別送入不同的子網絡,最后對子網絡的結果進行融合輸出。Lee 等[5]提出的時間滑動LSTM 網絡模型,該網絡先將骨骼數據轉換到不同的坐標系后輸入到網絡進行多尺度的時間特征提取。后來出現基于卷積神經網絡(Con?volutional Neural Network,CNN)的方法,Ke等[6]將骨骼序列劃分為片段,轉化到圖像坐標系中利用CNN 分層學習其圖像特征,對骨骼序列進行長期的時間建模。
近年來,圖卷積神經網絡因其能夠揭示人體拓撲結構和關節相關性等的優點,被廣泛地應用于人體骨骼行為識別。Yan 等[7]提出一種時空圖卷積網絡(Spatial Temporal Graph Convo?lutional Networks,ST-GCN),用圖卷積網絡(Graph Convolutional Network,GCN)建模人體關節的相關性并結合時間卷積來提取運動特征。Shi 等[8]采用局部網絡計算不同關節之間關系生成自適應鄰接矩陣,構建雙流網絡利用骨骼數據的二階信息(骨骼的長度和方向)實現不同模態的信息互補。Li 等[9]提出多流網絡模型,增加輸入信息,并通過密集連接的方式強化模型的時間提取能力。Shi 等[10]將注意力機制融入網絡之中,通過加入時空-通道-注意力模塊增加模型對重要關節、幀和特征的關注。其他方法[11-12]主要是在網絡的結構設計上做出改變,以更好地捕捉多尺度的聯合關系。
盡管基于圖卷積的骨骼行為識別方法較為常用,但仍然存在以下不足之處:(1)空間卷積在人體先驗關節連接的基礎上提取空間特征,但是先驗連接不能體現未連接關節之間的相關性,不能充分地利用人體的結構信息;(2)先驗的物理連接拓撲矩陣在學習過程中會出現信息損失的情況;(3)模型大多傾向于空間維度建模或時間維度僅利用單一卷積核處理,不能充分提取時間方面的信息。
針對上述問題,本文提出了一種時空增強的雙分支圖卷積網絡 (Spatiotemporally En?hanced Dual-branch Graph Convolutionsl Network,STEDB-GCN)。因為運動中的人體肢體關節內部相關性較強,加入對稱關節的劃分方式,能夠加強內部關節之間的聯系,增加有用的信息輸入。其次,在學習過程中鄰接矩陣和權重矩陣分別會產生信息的損失和冗余[12],根據關節連接的最短距離對于權重矩陣進行映射分組,在保證鄰接矩陣信息利用率的前提下也減少了部分冗余信息。最后,由于基礎模型通道級拓撲優化圖卷積(Channel-wise Topology Re?finement Graph Convolution,CTR-GCN)側重于改善空間特征的提取,所以增加一個包含多種尺度卷積核的金字塔[13]時間圖卷積分支,增強了時間特征的提取,更好地聚焦上下文并提取有用信息,使網絡得到的時空特征更具判別力的同時也減少了模型的參數量。
總體而言,本文的主要工作包括以下3 個方面:
(1)針對現在的大多數方法只在相鄰關節點進行卷積的方式,引入了骨骼的對稱信息,提取人體動作中的對稱行為的特征,對權重矩陣進行分組計算,加入擠壓激勵模塊,提高各通道包含的不同層次語義信息的提取和表達能力;(2)提出雙分支的圖卷積網絡,在普遍使用的時間- 空間網絡框架基礎上增加一個時間分支,強化時間特征;(3)加入金字塔多尺度時空建模,充分捕捉骨骼序列的長短期時空動作信息,進一步提高網絡時空建模能力。
1 基于骨骼行為識別的相關工作
1.1 圖卷積網絡
圖神經網絡(Graph Neural Network,GNN)現在已被廣泛使用。GNN 有兩種思想,光譜視角[14]和空間視角[15-16]。本文遵循空間透視GNN 的原則。作為經典的GNN 模型之一,STGCN[7]在每個關節的物理鄰接點上應用圖卷積,對每幀骨骼數據的空間特征進行編碼,還將關節劃分不同子集。Shift-GCN[17]采用移位操作收集從所有其他關節到當前關節的信息,將感受野擴大到整個骨架。這些方法使用GCN 對骨骼結構進行建模,但是預定義骨骼圖忽略了動作識別中樣本相關特征,無法學習圖的拓撲結構。MotifGCN[18]模型在非物理連接的關節之間構建樣本相關的關系進行動作識別。接著,自適應方式應運而生,雙流自適應圖卷積網絡(Two-Stream Adaptive Graph Convo?lutional Networks,2S-AGCN)[8]學習基于注意力機制的自適應結構,將網絡中圖的拓撲結構進行單獨學習,增加靈活性以適應各種數據樣本,并融合骨骼數據一階和二階信息進行建模。構建自適應圖的信息只來自空間維度,因此很難有效地提取包含空間、時間和通道維度信息的關節之間的復雜連接。CTR-GCN[19]通道拓撲細化圖卷積模型,非共享拓撲結構以及動態卷積的方式學習不同通道維度的拓撲特征并聚合。
1.2 最短路徑距離
由結點表示的圖結構與其鄰接矩陣的集合,可以記為G = (V,A),其中G 代表完整的圖結構,A 是圖結構的鄰接矩陣。圖1 結點圖結構表示為V = {vi| i = 1,2,3,4},也可以表示為人體的拓撲結構,節點代表關節,節點間的連接線表示骨骼。鄰接矩陣A 如圖2(a),矩陣元素為節點之間的連接關系,1 與0 分別表示相連和不相連。
最短路徑距離計算中會使用距離矩陣D 如圖2(b)所示,表示任意兩點之間的距離。路由矩陣R 如圖2(c)所示,記錄任意兩點之間的路徑關系。根據鄰接矩陣A,如果vi 到vj 是相連的,則距離矩陣D [ i,j ] = 1,否則為無窮大,用inf 表示。R [ i,j ] 表示vi 到vj 需要經過的點,初始化R [ i,j ] = j,即默認vi 到vj 之間是相互連通的,每列數等于該列的數目。把各個節點vk 分別插入圖中,比較插入后與原來的距離,若從i經過k 到j 的距離比直接到達距離短,則更新D [ i,j ] = D [ i,k ]+ D [ k,j ],R [ i,j ] = k。R 中包含兩點之間最短距離信息,D 中包含最短路徑的信息。
2 基于時空增強雙分支圖卷積的行為識別網絡
2.1 骨骼數據
基于骨骼的行為識別中,人體骨骼可以表示為以關節作為頂點,骨骼作為邊的圖。這個圖表示為G = (V,E,X),其中V= {v1,v2,…,vN }是N 個關節頂點的集合,E 是邊的集合,鄰接矩陣表示為A ∈ RN × N,A 的元素aij 表示關節vi 和vj 之間是否相連,vi 的鄰域表示為N(vi ) ={vj| aij ≠ 0 },X 是N 個頂點的特征的集合表示為矩陣X ∈ RN × C,vi 的特征表示為xi ∈ RC。
H( l ) = σ ( A( l ) H( l - 1)W( l ) )。(1)
其中A ∈ RV × V 是空間聚合的鄰接矩陣,H ∈ RV × T × M 是隱藏表示,W ∈ RM × M 是特征投影的權重矩陣。M 表示隱藏特征的數量、l 表示層數、C 是通道數、V 是關節數目、T 表示輸入的序列的長度。
2.2 關節分區策略
圖卷積有優異的時空建模能力,ST-GCN首次將圖卷積用于行為識別,提出將人體相鄰關節點劃分為3 個子集的策略,如圖3(a)所示。本文在此基礎上加入對稱關節(Symmetri?cal Joint, SJ)子集,如圖3(b)所示。結點歸屬方式如式(2)。
其中ri 是第i 個關節點到中心關節點的距離,Vs是所有對稱點對的集合。
結合上述關節點的劃分方式和公式(2),在空間維度上,頂點vi 的圖卷積的公式[7]表示為:
其中fout ( vi ) 是第i 個關節的輸出特征,Bi 是通過劃分方法劃分的鄰域集合,Zij 等于相應子集中的基數,w (li (vj )) 是索引張量的加權函數。本文結合空間結構劃分方式進行骨骼序列分割,將li ( vj ) 分為四個不同的值。
2.3 空間映射聚合(FM-SA)
基于圖卷積的方法中,拓撲結構的選擇至關重要。早期方法使用骨骼的固定拓撲結構描述骨骼信息,有效但是也存在局限性。目前的方法使用可以學習的鄰接矩陣來捕獲關節之間的關系,但是在訓練學習過程中,包含大量運動信息的鄰接矩陣A 中的拓撲無法完好的保留,造成結構的損壞。所以本文選擇利用最短路徑距離來描述骨骼關節之間的連接。
其中權重參數Bij 從訓練參數E = { eindex } 中得到,根據關節對的最短路徑距離di,j 將Bij 分配給關節對,P1 和P|p| 分別是路徑上的第一個和最后一個頂點。Wk ∈ RD K × D K ( k = 1,…,K ) 是權重矩陣,Hk ∈ RV × T × D K 是隱藏層特征。
為防止學習過程中鄰接矩陣發生變化造成關節位置信息的丟失,在訓練過程中只對嵌入權重進行優化不對鄰接矩陣處理,確保由關節距離表示的骨骼的連通信息得到保留。原始特征信息劃分為K 組隱藏特征,將權重矩陣Wk 排列為對角矩陣的形式,相較于每個結點參與計算,只有矩陣對角塊參與計算減少參數量并且投影的特征組之間是彼此獨立。此外,在空間特征提取網絡中加入擠壓- 激勵(Squeeze-and-Excitation, SE)模塊,它將全局的特征進行壓縮后進行通道特征學習,得到各個通道的權重,再將其與原始特征圖逐通道相乘,加強通道的特征提取能力,提高了模型的性能,如圖4所示。
2.4 多尺度金字塔時間建模(MSP)
為了更加全面高效地提取人體行為的時間特征,采用多尺度時間建模方式,利用五個尺度的時間卷積核,能覆蓋大部分尺度的感受野并且提取全粒度的時間特征信息。但是單純的串聯增加時間卷積核的數目會增加網絡的深度,提高網絡的運算負荷。
通過對金字塔形式的探索[20],大尺寸卷積核的深度較淺,小尺寸卷積核深度較深。所以使用多種尺度的時候,將卷積核的深度也對應進行變化,卷積核{3,5,7,9}對應的深度變化為{1,1/4,1,1/4}。
fout = f ( fin,f 1,f 35,f79 )。(7)
其中f 表示1×1 的卷積、批量歸一化和激活函數組成的復合函數,f 35 和f79 是兩個金字塔圖卷積的輸出特征圖。如圖5 所示,輸入特征fin 經過1×1 卷積后分別并行經過多個卷積核通道數進行變換,經過每階段的殘差連接拼接后利用1×1 卷積重塑通道之后得到輸出特征fout。
網絡深度減少,提高了GPU 并行計算的能力,通過分組卷積的方式,降低網絡的參數量,增強了時間特征的提取能力,可以更加全面地捕捉到人體的短期動作細節和長期運動趨勢。
2.5 雙分支網絡(DB)
本文網絡的基本模塊STEDB(Spatiotempo?rally Enhanced Dual-branch)主要分為三個部分,時間卷積層、金字塔時間卷積層和空間圖卷積層,如圖6(b)所示。
特征fin 首先輸入到空間圖卷積層(FeatureMapping and Spatial Aggregation, FM-SA),空間圖卷積層中使用SE 模塊利用全局通道信息學習得到通道細化后的特征圖,再結合自適應學習權重和分組后的權重得到輸出fS-GC,此過程強化空間特征提取能力。接著將fS-GC 分別輸入到并行的時間卷積層和金字塔時間圖卷積層(Multi-scale Pyramid, MSP)分支得到fT-GC 和T(fS-GC),加強時間特征信息的提取能力。基本模塊的輸出是經過增強的空間信息和時間信息融合后的結果。
fS-GC= BN (WfSE finGad )+ Lres ( fin ), (8)
fT-GC= BN(WfS-GC), (9)
fout = fT-GC+T(fS-GC)。(10)
其中fS-GC,fT-GC 分別表示空間圖卷積層和時間圖卷積層的特征輸出,Lres 表示殘差連接,W 是分組后的權重矩陣,Gad 為空間卷積層中學習到的自適應圖,T 是基于多尺度金字塔的時間圖卷積操作。
2.6 模型結構
網絡模型的總體流程如圖6(a)所示,首先將骨骼、關節和對應的運動流分別輸入網絡中,然后經過10 個STEDB 模塊、平均池化和softmax 操作,再將4 個流的得分融合得到最終的分類結果。每個STEDB 模塊結構如圖6(b),輸入信息經過特征提取得到維度為T ×V × C 的特征,接著將其輸入FA-SM 強化對空間信息提取,后兩個并行分支分別為普通時間圖卷積和MSP 模塊增強時間維度特征提取能力,將增強后的特征與原始特征融合后輸出。
3 實驗結果分析
3.1 數據集
Northwestern-UCLA 數據集包含10 個動作類別,每個動作類別由10 個不同的對象執行,用來訓練的數據是來自前兩個Kinetic 攝像頭,剩余一個Kinetic 攝像頭數據用來進行測試。
NTU RGB+D 數據集中包含60 個動作類別,共計有56 880 個樣本。它使用兩個標準來劃分訓練集和測試集,一是跨主題(X-sub),二是交叉視圖(X-view)。
NTU RGB+D 120 數據集是現有最大的人體運動3D 數據集。該集合在NTU RGB+D 數據集的基礎上添加了60 個動作類別進行擴展,且使用兩個評估標準對訓練集和測試集進行劃分,第一跨主題(X-sub),第二交叉設置(X-set)。
3.2 參數配置
本文使用PyTorch 框架在NVIDIA RTX(NVIDIA Ray Tracing Texel eXtreme) A6000GPU 上進行所有實驗,部分超參數沿用基準模型CTR-GCN 進行設置。模型使用隨機梯度下降(Stochastic Gradient Descent,SGD)優化器訓練了75 個迭代周期,動量設置為0.9,并且在三個數據集訓練模型時,我們在前5 個迭代周期中采用了熱身策略。在NTU RGB+D 和NTURGB+D 120 數據集的權重衰減為0.000 4,批量大小設置為64,在Northwestern-UCLA 數據集的衰減權重是0.000 1,批量大小設置為16。本文實驗中采用交叉熵損失,學習率設置為0.1,在35、55、70 個迭代周期階段把學習分別率縮減10 倍。
3.3 模型對比實驗
為了驗證本文提出模型的有效性并使結果能夠相對公平,我們利用關節、骨骼、關節運動和骨骼運動四個流進行了融合實驗,在NTURGB+D、NTU RGB+D 120 和NW-UCLA 數據集上和主流方法進行比較。
由表1 可知,在NTU RGB+D 數據集X-sub和X-view 劃分標準中,我們實驗的準確率相比基準模型CTR-GCN 分別提升了0.1% 和0.2%,比最新的方法分別提升0.2%,0.1%,驗證了本文模型具有較好的競爭優勢。在NTU RGB+D 120 數據集X-Sub 和X-Set 的劃分標準下的準確率比基準模型分別提升0.7% 和0.5%,比最新的方法分別提高了0.4% 和0.2%,進一步驗證了本文模型的有效性。
由表2 可知,在NW-UCLA 數據集中,本文方法與參考模型CTR-GCN 相比識別精度上升1.5%,比最優型提升0.4%,提升效果較為顯著。
本文實驗結果在準確率最優的同時,參數量并沒有顯著增加。相較于CTR-GCN 的方法,本文模型參數量減少2.3 M,與最新的方法相比高了0.6 M,綜合三個數據集上的實驗表現,可知本文模型能夠在不同數據集上表現出良好的性能。
3.4 消融實驗
模型主要是基于骨骼、關節、骨骼運動和關節運動四個流進行融合得到最終的效果,我們采用NTU RGB+D 120 數據集的X-sub 劃分標準進行各個流的測試。
由表3 可知,本文模型在四個流的準確率相比于CTR-GCN 分別提高了1.3%、0.6%、1.3% 和1%,因為本文方法不僅在原始模型CTR-GCN 的基礎上增加了拓撲連接方式,也在時間圖卷積層和空間圖卷積層進行了改進,能夠更好地提取骨骼的時空信息。實驗結果也驗證了本文模型對于每個流的有效性和適用性。
為了驗證所提出的不同模塊的有效性,以CTR-GCN 作為基準,分別對幾個模塊進行驗證,實驗結果如表4 所示。本文提出的各改進模塊與CTR-GCN 比較,在參數量和識別精度上均有改善,特別是在對稱關節(SJ)、特征聚合映射(FM-SA)、多尺度金字塔(MSP)三個模塊上有顯著的提升,進一步驗證了所提模型的有效性和正確性。
為了驗證模型的穩定性,對NTU RGB+D、NTU RGB+D 120 數據集X-sub 和NW-UCLA數據集下不同的模態分別進行3 次實驗,并計算出平均精確度和對應方差。方差都小于0.05,可知網絡模型是穩定的,本文選取精確度最高的作為最終結果,如表5 所示。
3. 5 可視化結果
NTU RGB+D 數據集的原始骨骼序列有25個關節點,鄰接矩陣可視化如圖7 所示,圖中顏色越深表示兩節點之間關系越密切,印證了對稱關節信息對于動作的表示相關程度的重要性。
對模型進行評價時,不僅要考慮精度也需要考慮收斂的速度,所以將四個流的準確率和損失函數利用折現圖直觀地體現出來。本文設置的35,55,70 分別為學習率變化的epoch 節點,如圖8 所示,可以清晰地看出模型迭代過40次之后便趨向于收斂趨勢。
4 結論
本文提出了用于骨骼行為識別的雙分支時空增強網絡。該網絡包含更為合理關節點區域的劃分,加入對稱關節點的分區,提取的信息更加細致。加入最短距離和權重矩陣分組,能夠減少特征信息模型學習過程中的損失和冗余,擠壓激勵模塊能夠更準確地刻畫通道之間的關系,提升模型的表達能力。采用多尺度金字塔模型,多個尺度有利于提取特征的上下文信息,能捕獲不同尺度的關鍵特征進而為網絡提供更加豐富的特征表示。在原始的網絡中加入一個時間建模分支,進一步增強對骨骼序列時間特征的提取能力。本文工作主要體現在時空增強和參數量減少,并且在三個數據集上的表現都較優異。未來的主要工作可以進一步減少網絡參數量,提高識別的準確率。
參考文獻:
[1] WEINLAND D, RONFARD R, BOYER E. A Survey ofVision-based Methods for Action Representation, Segmentationand Recognition[J]. Comput Vis Image Underst,2011, 115(2): 224-241. DOI: 10.1016/j.cviu.2010.10.002.
[2] POPPE R. A Survey on Vision-based Human Action Recognition[J]. Image Vis Comput, 2010, 28(6): 976-990.DOI: 10.1016/j.imavis.2009.11.014.
[3] MOCCIA S, MIGLIORELLI L, CARNIELLI V, et al.Preterm Infants' Pose Estimation with Spatio-temporalFeatures[J]. IEEE Trans Biomed Eng, 2020, 67(8): 2370-2380. DOI: 10.1109/TBME.2019.2961448.
[4] DU Y, WANG W, WANG L. Hierarchical Recurrent NeuralNetwork for Skeleton Based Action Recognition[C]//2015 IEEE Conference on Computer Vision and PatternRecognition (CVPR). New York: IEEE, 2015: 1110-1118. DOI: 10.1109/CVPR.2015.7298714.
[5] LEE I, KIM D, KANG S, et al. Ensemble Deep Learningfor Skeleton-based Action Recognition Using TemporalSliding LSTM Networks[C]//2017 IEEE InternationalConference on Computer Vision (ICCV). New York:IEEE, 2017: 1012-1020. DOI: 10.1109/ICCV.2017.115.
[6] KE Q H, BENNAMOUN M, AN S J, et al. A New Rep‐resentation of Skeleton Sequences for 3D Action Recognition[C]//2017 IEEE Conference on Computer Visionand Pattern Recognition (CVPR). New York: IEEE,2017: 4570-4579. DOI: 10.1109/CVPR.2017.486.
[7] YAN S J, XIONG Y J, LIN D H. Spatial Temporal GraphConvolutional Networks for Skeleton-based Action Recognition[J]. Proc AAAI Conf Artif Intell, 2018, 32(1):7444-7452. DOI: 10.1609/aaai.v32i1.12328.
[8] SHI L, ZHANG Y F, CHENG J, et al. Two-stream AdaptiveGraph Convolutional Networks for Skeleton-based ActionRecognition[C]//2019 IEEE/CVF Conference on ComputerVision and Pattern Recognition (CVPR). New York: IEEE,2019: 12018-12027. DOI: 10.1109/CVPR.2019.01230.
[9] LI F J, ZHU A C, XU Y G, et al. Multi-stream and EnhancedSpatial-temporal Graph Convolution Network for SkeletonbasedAction Recognition[J]. IEEE Access, 2020, 8: 97757-97770. DOI: 10.1109/ACCESS.2020.2996779.
[10] SHI L, ZHANG Y F, CHENG J, et al. Skeleton-basedAction Recognition with Multi-stream Adaptive GraphConvolutional Networks[J]. IEEE Trans Image Process,2020, 29: 9532-9545. DOI:10.1109/TIP.2020.3028207.
[11] BAI R W, LI M, MENG B, et al. Hierarchical GraphConvolutional Skeleton Transformer for Action Recognition[C]//2022 IEEE International Conference on Multimediaand Expo (ICME). New York: IEEE, 2022: 1-6.DOI: 10.1109/ICME52920.2022.9859781.
[12] CHENG K, ZHANG Y F, CAO C Q, et al. DecouplingGCN with Drop Graph Module for Skeleton-based ActionRecognition[M]//Lecture Notes in Computer Science.Cham: Springer International Publishing, 2020:536-553. DOI: 10.1007/978-3-030-58586-0_32.
[13] DUTA I C, LIU L, ZHU F, et al. Pyramidal Convolution:Rethinking Convolutional Neural Networks for VisualRecognition[EB/OL]. (2020-6-20) [2024-02-24].http://arxiv.org/abs/2006.11538.
[14] JIA N, TIAN X L, ZHANG Y, et al. Semi-supervised NodeClassification with Discriminable Squeeze ExcitationGraph Convolutional Networks[J]. IEEE Access, 2020, 8:148226-148236. DOI: 10.1109/ACCESS.2020.3015838.
[15] MONTI F, BOSCAINI D, MASCI J, et al. Geometric DeepLearning on Graphs and Manifolds Using Mixture ModelCNNS[C]//2017 IEEE Conference on Computer Visionand Pattern Recognition (CVPR). New York: IEEE, 2017:5425-5434. DOI: 10.1109/CVPR.2017.576.
[16] ALSARHAN T, ALI U, LU H T. Enhanced DiscriminativeGraph Convolutional Network with Adaptive TemporalModelling for Skeleton-based Action Recognition[J]. Comput Vis Image Underst, 2022, 216: 103348.DOI: 10.1016/j.cviu.2021.103348.
[17] CHENG K, ZHANG Y F, HE X Y, et al. Skeleton-basedAction Recognition with Shift Graph ConvolutionalNetwork[C]//2020 IEEE/CVF Conference on ComputerVision and Pattern Recognition (CVPR). New York: IEEE,2020: 180-189. DOI: 10.1109/CVPR42600.2020.00026.
[18] WEN Y H, GAO L, FU H B, et al. Graph CNNS withMotif and Variable Temporal Block for Skeleton-basedAction Recognition[J]. Proc AAAI Conf Artif Intell, 2019,33(1): 8989-8996. DOI: 10.1609/aaai.v33i01.33018989.
[19] CHEN Y X, ZHANG Z Q, YUAN C F, et al. ChannelwiseTopology Refinement Graph Convolution forSkeleton-based Action Recognition[C]//2021 IEEE/CVF International Conference on Computer Vision(ICCV). New York: IEEE, 2021: 13339-13348. DOI:10.1109/ICCV48922.2021.01311.
[20] LI F J, ZHU A C, LIU Z Y, et al. Pyramidal Graph ConvolutionalNetwork for Skeleton-based Human ActionRecognition[J]. IEEE Sens J, 2021, 21(14): 16183-16191. DOI: 10.1109/JSEN.2021.3075722.
[21] LIU J, SHAHROUDY A, XU D, et al. Spatio-temporalLSTM with Trust Gates for 3D Human Action Recognition[M]//Lecture Notes in Computer Science. Cham:Springer International Publishing, 2016: 816-833. DOI:10.1007/978-3-319-46487-9_50.
[22] ZHANG P F, LAN C L, ZENG W J, et al. SemanticsguidedNeural Networks for Efficient Skeleton-basedHuman Action Recognition[C]//2020 IEEE/CVF Conferenceon Computer Vision and Pattern Recognition(CVPR). New York: IEEE, 2020: 1109-1118. DOI:10.1109/CVPR42600.2020.00119.
[23] YE F F, PU S L, ZHONG Q Y, et al. Dynamic GCN:Context-enriched Topology Learning for SkeletonbasedAction Recognition[C]//Proceedings of the 28thACM International Conference on Multimedia. ACM.New York: Association for Computing Machinery,2020: 55-63. DOI: 10.1145/3394171.3413941.
[24] SONG Y F, ZHANG Z, SHAN C F, et al. ConstructingStronger and Faster Baselines for Skeleton-basedAction Recognition[J]. IEEE Trans Pattern AnalMach Intell, 2023, 45(2): 1474-1488. DOI: 10.1109/TPAMI.2022.3157033.
[25] LI F J, ZHU A C, LI J J, et al. Frequency-driven ChannelAttention-augmented Full-scale Temporal ModelingNetwork for Skeleton-based Action Recognition[J].Knowl Based Syst, 2022, 256: 109854. DOI: 10.1016/j.knosys.2022.109854.
[26] DAI M, SUN Z H, WANG T Y, et al. Global SpatiotemporalSynergistic Topology Learning for SkeletonbasedAction Recognition[J]. Pattern Recognit, 2023,140: 109540. DOI: 10.1016/j.patcog.2023.109540.
[27] HUANG X, ZHOU H, WANG J, et al. Graph ContrastiveLearning for Skeleton-Based Action Recognition[EB/OL].(2023-6-10)[2024-04-9]. http://arxiv.org/abs/2301.10900.
[28] VEMULAPALLI R, ARRATE F, CHELLAPPA R. HumanAction Recognition by Representing 3D Skeletonsas Points in a Lie Group[C]//2014 IEEE Conference onComputer Vision and Pattern Recognition. New York:IEEE, 2014: 588-595. DOI: 10.1109/CVPR.2014.82.
[29] SI C Y, CHEN W T, WANG W, et al. An Attention EnhancedGraph Convolutional LSTM Network forSkeleton-based Action Recognition[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). New York: IEEE, 2019: 1227-1236.DOI: 10.1109/CVPR.2019.00132.
[30] XU K L, YE F F, ZHONG Q Y, et al. Topology-awareConvolutional Neural Network for Efficient SkeletonbasedAction Recognition[J]. Proc AAAI Conf Artif Intell,2022, 36(3): 2866-2874. DOI: 10.1609/aaai.v36i3.20191.
基金項目:國家自然科學基金(62072024;12301581);北京市教育委員會科學研究計劃項目(KM202210016002);北京建筑大學碩士研究生創新項目(09081024002)