基于TSM框架的三維空間動態手勢識別模型

2021-06-28 07:03:40吳心怡徐火生

艦船電子工程 2021年6期

吳心怡徐火生李恒胡超

（武漢數字工程研究所武漢 430000）

1 引言

動態手勢識別需要通過連續的視頻幀序列來學習和訓練手勢動作的時空特征，進而對不同的動態手勢進行分類識別。采用RGB數據與深度數據特征融合的方法，如文獻［1～3］分別提取RGB圖像和深度圖像的手勢特征，再進行融合與分類，識別效果較好但訓練所需數據量較大；引入光流信息輔助提取特征的方法，如文獻［4～5］分別對動態手勢的RGB圖像和深度圖像提取光流信息，再對光流信息進行特征提取與分類，識別效果優秀，魯棒性高，但模型復雜度也相對較高。為了解決上述問題，本文提出了一種基于TSM框架的動態手勢識別模型，通過使用一種高效的時間移位模塊來融合不同時間維度上的手勢特征信息［6］，再結合復雜度較低的基礎網絡ResNet50，實現對手勢動作序列的識別。該模型能夠在2D網絡模型上達到3D網絡模型的識別效果，大大降低了模型的復雜度。

2 基于TSM框架的動態手勢識別模型

如圖1所示，模型首先對視頻數據進行預處理，將視頻幀歸一化至224×224大小，再將視頻均勻分成n個片段，每個片段采樣1幀圖像得到圖像幀序列{F1，F2，…，Fn} 送入殘差網絡進行卷積操作［7～8］，再沿著時間維度對特征圖的部分通道進行移位替換操作，通過時間移位模塊得到移位特征，該特征融合了當前幀與相鄰幀的特征信息來進行時間維度建模。這一系列操作能夠讓更具代表性的手勢特征在時間維度上高效傳播，保持2D網絡的復雜度并達到3D網絡的效果。

圖1 模型整體結構圖

一段視頻的維度可表示為A?R(N×C×T×H×W)，其中N是批處理大小，C是通道數，T是時間維，H和W是圖片的高度和寬度。TSM模塊首先將視頻均勻分成n個片段，每個片段采樣一幀，即將整個視頻采樣為n張圖片，這時時間維度T=n。文獻［6］驗證了在時間T維度上分別用前后兩幀各1/8的通道來替換當前幀1/4的通道，能夠取得最好的融合效果。為了不破壞主干網絡的空間學習能力，將時間移位模塊以旁路的形式插入到殘差塊之間，也因此能夠在更多的主干網絡上融合時移模塊，增強模型的魯棒性。

3 實驗

實驗選擇了兩個大型動態手勢基準數據集EgoGestrue和 Chalearn IsoGD LAP。EgoGestrue是一個多模態的大規模數據集，包含83類靜態或動態手勢，由2081個RGB-D視頻、24161個手勢樣本和來自50個不同主題的2953224幀組成。手勢視頻來自6個不同的室內外場景，既包含靜態的背景，同時又包含室外的運動背景［9～10］。Chalearn IsoGD LAP數據集包括249類動態手勢，由21個不同的人執行，每個RGB-D視頻只代表一個手勢，共有47933個RGB-D手勢視頻［11～12］。

實驗使用兩顆Intel Xeon Gold 6142 Processor 32核心CPU，128GB DDR4 2666MHz RDIMM內存，Nvidia Titan RTX 24G顯卡。模型的訓練基于Win?dows操作系統和Pytorch框架，使用Python語言編寫代碼。EgoGestrue數據集的視頻參數為640×480@30fps，Chalearn IsoGD LAP數據集的視頻參數為320×240@15fps，將視頻幀剪裁至224×224輸入網絡，每個視頻片段平均分為4個片段，每個片段采樣一幀，批處理大小為32，初始學習率設置為0.01，每20個epoch（訓練周期）學習率衰減10倍，最終將訓練50個epoch。

實驗結果如表1所示，本文提出的方法在Ego?Gestrue上達到了88.8%的準確率，與表現最優的3D網絡模型僅相差0.5%的準確率；如表2所示，在Chalearn IsoGD LAP數據集上達到了69.3%的準確率，超過了使用C3D系列方法的準確率。訓練過程的精度曲線和損失函數曲線如圖2和圖3所示。考慮到本方法使用2D網絡進行分類訓練與測試，復雜度和數據量遠低于3D卷積神經網絡，在以視頻片段為樣本的訓練環境中是一種“性價比”較高的方法。

圖2 模型在EgoGestrue數據集上精度曲線和損失函數曲線

圖3 模型在ChaLearn IsoGD LAP數據集上精度曲線和損失函數曲線

表1 EgoGestrue數據集實驗結果

表2 Chalearn IsoGD LAP數據集實驗結果

4 結語

本文提出了一種基于TSM框架的動態手勢識別網絡模型，首先將視頻數據進行采樣得到關鍵幀，再送入殘差網絡來提取具有代表性的手勢特征，通過時間移位模塊從時間維度上融合手勢特征，從而進行動態手勢分類。在大型動態手勢數據集EgoGestrue和Chalearn IsoGD LAP上進行實驗驗證，準確率分別達到了88.8%和69.3%。雖然犧牲了一定精度，但模型所需數據量僅為RGBD模式下的一半，復雜度也相對更低，在這種情況下識別效果能夠超過3D網絡方法，并且接近RGBD模式下的最高準確率，體現了該方法的高效性。未來的工作將在RGB-D模式下進一步驗證該方法的性能表現，同時著重研究如何提升模型的精度。