特征采樣運(yùn)動(dòng)信息增強(qiáng)的動(dòng)作識(shí)別方法

2023-02-21 00:34:42羅會(huì)蘭包中生

計(jì)算機(jī)應(yīng)用研究 2023年12期

羅會(huì)蘭包中生

摘要：基于深度模型的視頻動(dòng)作識(shí)別通常先對輸入視頻進(jìn)行采樣，然后對獲得的視頻幀進(jìn)行特征表達(dá)，輸出動(dòng)作類別，因此視頻幀采樣方法對動(dòng)作識(shí)別的效果有直接的影響。為了采樣到關(guān)鍵有效的特征，同時(shí)增強(qiáng)視頻運(yùn)動(dòng)信息，提出了一種基于特征級(jí)采樣策略的局部—全局運(yùn)動(dòng)信息增強(qiáng)的動(dòng)作識(shí)別網(wǎng)絡(luò)（localglobal motion enhancement network，LGMeNet）。首先，利用特征級(jí)采樣模塊對輸入數(shù)據(jù)進(jìn)行相同運(yùn)動(dòng)信息間隔均勻取幀；其次，局部運(yùn)動(dòng)特征提取模塊使用相似性函數(shù)計(jì)算單幀短期運(yùn)動(dòng)特征；最后，全局運(yùn)動(dòng)特征提取模塊利用LSTM網(wǎng)絡(luò)計(jì)算多尺度長期運(yùn)動(dòng)特征。通過實(shí)驗(yàn)評估，LGMeNet在UCF101和SomethingSomethingV1數(shù)據(jù)集上分別取得了97.7%和56.9%的精確度。結(jié)果表明，采用LGMeNet能夠有效提升動(dòng)作識(shí)別的效果，對進(jìn)一步改進(jìn)相關(guān)領(lǐng)域的研究具有重要意義。

關(guān)鍵詞：深度學(xué)習(xí)；動(dòng)作識(shí)別；視頻采樣；時(shí)間建模

中圖分類號(hào)：TP391.4?? 文獻(xiàn)標(biāo)志碼：A?? 文章編號(hào)：1001-3695（2023）12-052-3848-06

doi：10.19734/j.issn.10013695.2023.05.0216

Action recognition method with feature sampling and motion information enhancement

Abstract：Based on deep models，video action recognition typically involves sampling the input video and then extracting features from the obtained video frames to classify actions.Therefore，the video frame sampling method directly affects the effectiveness of action recognition.Aiming to sample key and effective features while enhanced the motion information in videos，this paper proposed a LGMeNet based on a featurelevel sampling strategy.Firstly，it used a featurelevel sampling module to uniformly select frames with the same motion information from the input data.Secondly，it employed a local motion feature extraction module to compute shortterm motion features using a similarity function.Finally，it utilized a LSTM network in the global motion feature extraction module to calculate multiscale longterm motion features.Experimental evaluations show that LGMeNet achieves accuracies of 97.7% and 56.9% on the UCF101 and SomethingSomethingV1 datasets，respectively.The results of this study demonstrate the effectiveness of LGMeNet in enhancing action recognition and highlight its significance for further advancements in related research areas.

Key words：deep learning；action recognition；video sampling；temporal modeling

0 引言

隨著網(wǎng)絡(luò)多媒體的快速發(fā)展以及視頻獲取設(shè)備的日漸普及，生產(chǎn)和生活中積累了越來越多的視頻數(shù)據(jù)。如何理解和分析這些海量視頻數(shù)據(jù)具有重大的理論研究及應(yīng)用價(jià)值。動(dòng)作識(shí)別的目的是從傳感器獲取的視頻中識(shí)別其中包含的動(dòng)作類別。視頻動(dòng)作識(shí)別在許多領(lǐng)域中具有非常大的應(yīng)用價(jià)值，比如視頻檢索［1，2］、異常檢測［3］、自動(dòng)駕駛［4］、視頻監(jiān)控［4］和人機(jī)交互等［5］。

基于視頻的動(dòng)作識(shí)別可以分為兩大類［6，7］，即基于傳統(tǒng)手工特征的方法［8，9］和基于深度學(xué)習(xí)的方法［10～13］?；趥鹘y(tǒng)手工特征的動(dòng)作識(shí)別方法通過對視頻采樣點(diǎn)提取特征來表達(dá)視頻，然后將特征矢量輸入分類器進(jìn)行類別預(yù)測。文獻(xiàn)［8］利用Kinect相機(jī)采集的骨骼動(dòng)作數(shù)據(jù)，將每個(gè)關(guān)節(jié)的坐標(biāo)轉(zhuǎn)換為一組特征向量，然后利用主成分分析方法對這些特征向量進(jìn)行降維，得到一組新的低維特征向量。在降維后的特征空間中，利用SVM分類器對動(dòng)作進(jìn)行分類。文獻(xiàn)［9］利用空間和時(shí)間的高斯尺度空間信息來提取關(guān)鍵點(diǎn)，并利用方向直方圖描述關(guān)鍵點(diǎn)的短期紋理方向。傳統(tǒng)算法存在無法自動(dòng)學(xué)習(xí)復(fù)雜的視頻特征表達(dá)，以及特征提取與后續(xù)分類器不能統(tǒng)一學(xué)習(xí)的問題，因此識(shí)別性能較差。隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的成功應(yīng)用，基于深度模型的視頻動(dòng)作識(shí)別方法逐漸成為了主流。根據(jù)時(shí)間建模長度的不同，基于深度學(xué)習(xí)的動(dòng)作識(shí)別方法可以分為短期時(shí)序建模方法和長期時(shí)序建模方法兩大類。短期時(shí)序建模方法通常利用卷積神經(jīng)網(wǎng)絡(luò)建模短期運(yùn)動(dòng)信息來捕捉短期動(dòng)作特征。這種方法主要關(guān)注短期動(dòng)作特征，容易捕捉到運(yùn)動(dòng)的速度和方向等短期運(yùn)動(dòng)信息。例如，文獻(xiàn)［14］將RGB流和光流分別輸入到兩個(gè)具有5個(gè)卷積層和2個(gè)全連接層的卷積神經(jīng)網(wǎng)絡(luò)中，分別學(xué)習(xí)空間特征和光流特征，在測試階段將兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)的輸出均值作為最后的分類結(jié)果。由于獲取光流數(shù)據(jù)的計(jì)算量過大以及所需的時(shí)間很長，文獻(xiàn)［15］從輸入的視頻中獲取RGB圖像和運(yùn)動(dòng)矢量，使用運(yùn)動(dòng)矢量代替光流構(gòu)成了新的雙流網(wǎng)絡(luò)結(jié)構(gòu)，不僅獲得了和twostream網(wǎng)絡(luò)相媲美的效果，而且處理速度比原始twostream網(wǎng)絡(luò)快。文獻(xiàn)［16］通過將二維卷積神經(jīng)網(wǎng)絡(luò)擴(kuò)展為三維卷積神經(jīng)網(wǎng)絡(luò)，直接對RGB視頻進(jìn)行處理，以更準(zhǔn)確地捕捉短期動(dòng)態(tài)特征。在C3D的基礎(chǔ)上，文獻(xiàn)［17］采用時(shí)空分離卷積來代替標(biāo)準(zhǔn)的三維卷積，在保持與C3D相當(dāng)準(zhǔn)確率的同時(shí)，實(shí)現(xiàn)了更小的模型尺寸和更快的訓(xùn)練速度。在這一研究思路下，一些工作集中于設(shè)計(jì)更強(qiáng)大的時(shí)間模塊，并將其插入到二維卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行有效的動(dòng)作識(shí)別。文獻(xiàn)［10］將視頻序列分成若干時(shí)間段，在每個(gè)時(shí)間段進(jìn)行平均池化后，通過時(shí)間移位操作將相鄰時(shí)間段的特征進(jìn)行交換，從而在不增加模型參數(shù)的情況下增強(qiáng)模型對運(yùn)動(dòng)特征的表達(dá)能力。文獻(xiàn)［18］通過在網(wǎng)絡(luò)中引入門控機(jī)制，實(shí)現(xiàn)了對時(shí)間維度上特征的重要性加權(quán)，從而提高了模型對運(yùn)動(dòng)信息的敏感性。

在短期時(shí)序建模的基礎(chǔ)上，長期時(shí)序建模方法更加關(guān)注較長時(shí)間范圍的運(yùn)動(dòng)信息，旨在捕捉動(dòng)作的上下文信息和動(dòng)作之間的關(guān)系。例如，文獻(xiàn)［19］將多個(gè)RNN模塊連接起來，每個(gè)模塊處理視頻序列的一部分，可以處理不同時(shí)序尺度的序列數(shù)據(jù)，從而適用于處理多種動(dòng)作識(shí)別問題。文獻(xiàn)［20］采用雙向時(shí)空卷積提取視頻序列中的時(shí)空特征，將特征序列輸入到LSTM模型中，學(xué)習(xí)序列中的長期依賴關(guān)系。文獻(xiàn)［12］將視頻序列分成若干個(gè)固定長度的視頻段，在每個(gè)視頻段中隨機(jī)選取一個(gè)時(shí)間點(diǎn)作為采樣點(diǎn)，從采樣點(diǎn)的前后若干幀中提取特征，并將這些特征拼接后，輸入到分類器中進(jìn)行分類預(yù)測。文獻(xiàn)［13］提出了長時(shí)時(shí)間差模塊（longterm TDM），擴(kuò)展了基本的時(shí)間差模塊，使其能夠處理具有不同時(shí)間尺度的特征。

由于視頻的長短不一樣，并且視頻中包含了大量的冗余信息，所以現(xiàn)存視頻動(dòng)作識(shí)別方法都是基于幀采樣的，即需要先對輸入視頻采樣固定數(shù)量的視頻幀作為模型的輸入。文獻(xiàn)［17］通過隨機(jī)選擇幀作為起始點(diǎn)來獲取視頻片段，然后對視頻中接下來的64個(gè)連續(xù)幀進(jìn)行均勻次采樣。文獻(xiàn)［13，14］沿整個(gè)時(shí)間維度均勻采樣幀，這種隨機(jī)均勻采樣方法不加區(qū)別地對待所有視頻幀，可能會(huì)導(dǎo)致采樣到的幀在包含大量冗余信息的同時(shí)缺少關(guān)鍵運(yùn)動(dòng)信息。如圖1跳水動(dòng)作視頻均勻采樣結(jié)果所示，采樣到幀包含了大量的動(dòng)作準(zhǔn)備和結(jié)束信息。因此，文獻(xiàn)［21］設(shè)計(jì)了一種基于累積運(yùn)動(dòng)分布的運(yùn)動(dòng)均勻采樣策略，以確保采樣幀均勻地覆蓋所有具有高運(yùn)動(dòng)顯著性的重要片段。雖然MGSampler改進(jìn)了均勻采樣方法，但是因?yàn)樗菍蓭卣飨鄿p作為當(dāng)前幀的運(yùn)動(dòng)信息，所以當(dāng)處理運(yùn)動(dòng)背景變化幅度較大的視頻時(shí)，MGSampler不能很好地將運(yùn)動(dòng)的背景和前景區(qū)分開來。

針對當(dāng)前動(dòng)作識(shí)別的采樣方法不能很好地將運(yùn)動(dòng)背景和前景區(qū)分開來，導(dǎo)致采樣不到包含豐富運(yùn)動(dòng)信息的視頻幀的問題，在提取局部運(yùn)動(dòng)特征時(shí)沒有考慮到每一幀所關(guān)聯(lián)的局部運(yùn)動(dòng)信息的重要性不同和每一時(shí)刻的運(yùn)動(dòng)信息是與參照物有關(guān)系的問題，以及在提取全局運(yùn)動(dòng)特征時(shí)的特征尺度太過單一，不能捕捉更豐富的上下文語義關(guān)系的問題，本文提出了一種基于特征級(jí)采樣策略的局部—全局運(yùn)動(dòng)信息增強(qiáng)的動(dòng)作識(shí)別網(wǎng)絡(luò)（LGMeNet）。

1 方法

1.1 LGMeNet結(jié)構(gòu)

LGMeNet的整體框架如圖2所示，共包含視頻采樣、局部運(yùn)動(dòng)特征提取和全局運(yùn)動(dòng)特征提取三個(gè)部分。首先，使用MfS采樣模塊從視頻中采樣T幀作為網(wǎng)絡(luò)的輸入，然后對所有采樣到的視頻幀并行進(jìn)行特征提取。以ResNet50作為骨干網(wǎng)絡(luò)為例，圖像分別輸入到殘差塊和局部運(yùn)動(dòng)特征提取模塊LME中提取外觀特征和局部運(yùn)動(dòng)信息，將每一級(jí)外觀特征與局部運(yùn)動(dòng)特征相加后分別輸入到下一級(jí)殘差塊和局部運(yùn)動(dòng)特征提取模塊。LGMeNet只使用了前三個(gè)殘差塊提取的低級(jí)特征進(jìn)行局部運(yùn)動(dòng)信息的提取與融合，理由是低級(jí)特征包含了更多的細(xì)節(jié)信息，更能反映出局部運(yùn)動(dòng)信息，這一點(diǎn)在后面的消融實(shí)驗(yàn)中也得到了驗(yàn)證。接下來，所有采樣幀的特征串接融合后，輸入到全局運(yùn)動(dòng)特征提取模塊GME、第四殘差塊、GME和第五殘差塊中，進(jìn)行運(yùn)動(dòng)信息和空間信息的提取與融合。最后將提取到的視頻特征輸入到全連接層進(jìn)行分類學(xué)習(xí)。

1.2 MfS采樣模塊

為了更好地采樣到包含豐富運(yùn)動(dòng)信息的視頻幀，本文提出了MfS采樣模塊。MfS采樣模塊的結(jié)構(gòu)框架如圖3所示。具體的實(shí)現(xiàn)細(xì)節(jié)如下：

a）先進(jìn)行運(yùn)動(dòng)和空間背景降噪。在這一步中，原始輸入視頻序列首先在空間維度上使用1×1的卷積進(jìn)行初步特征提取并調(diào)整通道數(shù)。接下來，通過在時(shí)間維度上進(jìn)行卷積核大小為3的1維卷積、時(shí)序全局平均池化（temporal global average pooling，TGAP）、空間維度的3×3卷積，獲得全局運(yùn)動(dòng)信息。通過將每一幀特征與此全局運(yùn)動(dòng)信息相減，消除運(yùn)動(dòng)背景的影響。然后，通過空間全局平均池化（spatial global average pooling，SGAP）與輸入數(shù)據(jù)進(jìn)行點(diǎn)乘去除空間背景噪聲的影響。接下來，把經(jīng)過背景降噪的特征輸入到訓(xùn)練過的經(jīng)典三維卷積神經(jīng)網(wǎng)絡(luò)，如文獻(xiàn)［22］中，提取視頻中的運(yùn)動(dòng)特征。最后將提取到的運(yùn)動(dòng)特征進(jìn)行SGAP和CGAP，得到每一幀的時(shí)空特征值F（t）（0

b）根據(jù)所獲得的運(yùn)動(dòng)信息進(jìn)行均勻采樣。首先，根據(jù)文獻(xiàn)［21］中的方法計(jì)算視頻的累積運(yùn)動(dòng)分布，計(jì)算方法如式（1）所示，即將從初始幀到第t幀的特征值F（t）累加起來，除以所有幀的特征值和。然后，假設(shè)需要從輸入視頻中采樣T幀，則從累積運(yùn)動(dòng)分布中查找與1/T、2/T、…、15/T和1最接近的運(yùn)動(dòng)信息分布值Diff（t）所對應(yīng)的T個(gè)索引值t，并將這些索引對應(yīng)的幀作為采樣到的幀。

1.3 LME模塊

為了關(guān)注視頻中的局部運(yùn)動(dòng)信息，本文引入了LME模塊。注意到每一幀所關(guān)聯(lián)的局部運(yùn)動(dòng)信息的重要性不同，以及每一時(shí)刻的運(yùn)動(dòng)信息是與參照物有關(guān)系的，本文把當(dāng)前幀作為參考幀，計(jì)算它與前后兩幀間的特征距離，以此距離值作為權(quán)值進(jìn)行局部范圍內(nèi)的運(yùn)動(dòng)信息的聚合學(xué)習(xí)。LME模塊的結(jié)構(gòu)如圖4所示。

以計(jì)算t時(shí)刻的局部運(yùn)動(dòng)信息S（t）為例。首先，通過相鄰兩幀特征I（t）相減的方式，計(jì)算t時(shí)刻與前后兩幀總共5幀的局部運(yùn)動(dòng)信息f（ti），接下來對f（ti）使用步長為2的2×2空間平均池化（spatial average pooling，SAP）擴(kuò)大局部運(yùn)動(dòng)信息的感受野。同時(shí)，通過余弦相似性函數(shù)計(jì)算t時(shí)刻的特征與前后兩幀特征之間的特征級(jí)差異性權(quán)重μi（0

αi=1-sum（Cosine（I（t），I（t+i））） i∈（- 2，-1，1，2）（2）

μi=Softmax（αi）（3）

f（ti）=I（t）-I（t+i） i∈（-2，-1，1，2）（4）

S（t）=Concat（SAP（f（t1））×μ1，…，SAP（f（t4））×μ4）（5）

其中：Cosine（）表示逐點(diǎn)計(jì)算余弦相似性；sum（）表示將所有點(diǎn)的值求和；Concat（）表示沿通道維度串接。接下來，LME使用雙路融合方式豐富網(wǎng)絡(luò)學(xué)習(xí)到的語義信息。在第一條融合支路中，首先采用3×3的卷積操作將加權(quán)融合后的局部運(yùn)動(dòng)特征與第t幀特征進(jìn)行通道維度統(tǒng)一。然后，使用上采樣對局部運(yùn)動(dòng)特征進(jìn)行空間維度調(diào)整。最后，將調(diào)整后的局部運(yùn)動(dòng)特征與第t幀特征相加作為第一條融合支路的輸出。在第二條融合支路中，通過了3×3卷積操作通道維度統(tǒng)一之后的局部運(yùn)動(dòng)特征和第一條支路的輸出都再通過一個(gè)殘差卷積層，目的是提取到更大感受野的空間特征。然后，同樣也經(jīng)過上采樣對特征進(jìn)行空間維度調(diào)整。最后，將處理后的特征相加融合，得到了每一幀的局部運(yùn)動(dòng)信息H（t）。

1.4 GME模塊

局部運(yùn)動(dòng)信息和全局運(yùn)動(dòng)信息是動(dòng)作識(shí)別中兩個(gè)互補(bǔ)的信息。局部運(yùn)動(dòng)信息對動(dòng)作識(shí)別準(zhǔn)確率的提升以及捕獲細(xì)粒度的細(xì)節(jié)特征有著很大的幫助，但是，全局運(yùn)動(dòng)信息對于理解運(yùn)動(dòng)語義非常重要。

為了學(xué)習(xí)視頻中多尺度的全局運(yùn)動(dòng)信息，以及捕捉更豐富的上下文語義關(guān)系，本文設(shè)計(jì)了GEM模塊，具體的結(jié)構(gòu)如圖5所示。將所有采樣幀的特征串接融合后獲得X∈Euclid Math TwoRApC×T×H×W作為GEM的輸入。首先，使用1×1卷積和Reshape函數(shù)得到F∈Euclid Math TwoRApCr×T×HW輸入到長短時(shí)記憶網(wǎng)絡(luò)。長短時(shí)記憶網(wǎng)絡(luò)可以學(xué)習(xí)到時(shí)間維度上的長期依賴關(guān)系。然后，將學(xué)習(xí)的長期依賴關(guān)系的特征與原始輸入特征進(jìn)行點(diǎn)乘和相加操作，得到全局運(yùn)動(dòng)信息激勵(lì)后的特征，這個(gè)過程如下所示：

F=Reshape（Conv 1×1（X））（6）

F′=Conv1×1（sigmoid（LSTM（F）））（7）

X=X⊙F′+X（8）

接下來，經(jīng)過全局運(yùn)動(dòng)信息激勵(lì)的特征通過多尺度模塊進(jìn)行時(shí)空特征增強(qiáng)。以t時(shí)刻的特征為例，首先將經(jīng)過3×3卷積處理后的特征X（t）和X（t-1）相減，得到運(yùn)動(dòng)特征差值g（t）。然后，將它輸入到三個(gè)分支中，每個(gè)分支從不同的感受野中學(xué)習(xí)運(yùn)動(dòng)信息。最后，將不同分支的信息相加得到了多尺度的全局運(yùn)動(dòng)信息G。這個(gè)過程用公式描述如下所示：

g（t）=Conv3×3（X（t））-Conv3×3（X（t-1））（9）

G=Concat（G（t）） t∈（0，T）（10）

G（t）1=g（t）（11）

G（t）2=Conv3×3 （g（t））（12）

G（t）3=UPsample（Conv3×3（SAP（g（t））））（13）

G（t）=G（t）1+G（t）2+G（t）3（14）

最后，多尺度的全局運(yùn)動(dòng)信息G經(jīng)過平均池化和全連接層輸出最后的分類結(jié)果。

2 實(shí)驗(yàn)

為了驗(yàn)證本文所提出的LGMeNet的有效性，本章在兩個(gè)具有不同屬性的大規(guī)模視頻數(shù)據(jù)集上與其他先進(jìn)方法進(jìn)行了性能比較實(shí)驗(yàn)；另外，也進(jìn)行了大量的消融實(shí)驗(yàn)以驗(yàn)證各關(guān)鍵模塊的有效性。

2.1 數(shù)據(jù)集

UCF101［24］是一個(gè)廣泛使用的動(dòng)作識(shí)別數(shù)據(jù)集，它有13 000個(gè)來自YouTube視頻的片段，平均每個(gè)視頻持續(xù)7 s?？値瑪?shù)為240萬，分布在101個(gè)類別中。視頻的空間分辨率為320 × 240像素，幀率為25 fps。

SomethingSomething［25］數(shù)據(jù)集是用于動(dòng)作識(shí)別的大規(guī)模視頻數(shù)據(jù)集。它包括V1和V2版本，V1大約有110 000個(gè)視頻，而V2大約有220 000個(gè)視頻，涵蓋了174個(gè)細(xì)粒度的動(dòng)作類別，具有多樣化的對象和場景，專注于人類執(zhí)行預(yù)定義的基本動(dòng)作。在該數(shù)據(jù)集中，具有不同的對象執(zhí)行相同的動(dòng)作，因此模型需要理解基本動(dòng)作，而不能通過識(shí)別對象或背景來分類動(dòng)作。此外，對象和事件的空間和時(shí)間尺度在不同的視頻中變化很大，這適于驗(yàn)證所提出方法的靈活時(shí)空建模能力。

2.2 實(shí)現(xiàn)細(xì)節(jié)

在實(shí)驗(yàn)中，本文分別使用了ResNet50和ResNet101作為主干實(shí)現(xiàn)本文的LGMeNet。視頻幀采樣模塊MfS中的3D CNN使用了預(yù)訓(xùn)練過的網(wǎng)絡(luò)文獻(xiàn)［22］。在訓(xùn)練過程中，將每個(gè)視頻幀隨機(jī)裁剪為224×224的大小。在UCF101數(shù)據(jù)集上，訓(xùn)練周期設(shè)置為70，批大小為8，dropout設(shè)置為0.8，學(xué)習(xí)率為0.002。在SomethingSomething數(shù)據(jù)集上，訓(xùn)練周期設(shè)置為60，批大小為4，dropout設(shè)置為0.8，學(xué)習(xí)率為0.002。當(dāng)訓(xùn)練周期達(dá)到30、45、55時(shí)，學(xué)習(xí)率除以10。

2.3 消融實(shí)驗(yàn)

本節(jié)的消融實(shí)驗(yàn)在UCF101數(shù)據(jù)集上進(jìn)行，每個(gè)視頻采樣16幀，以ResNet50為主干，使用top1準(zhǔn)確率評價(jià)指標(biāo)進(jìn)行比較。

a）MfS采樣模塊的消融實(shí)驗(yàn)。MfS采樣模塊主要由兩部分組成。第一部分是背景降噪網(wǎng)絡(luò)，在表1中用“BNRN”表示，它用于消除運(yùn)動(dòng)噪聲和背景噪聲；第二部分是輕量型三維卷積網(wǎng)絡(luò)，在表1中用“3D CNN”表示，用于提取運(yùn)動(dòng)信息。通過表1的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn)，當(dāng)結(jié)合背景降噪網(wǎng)絡(luò)和三維卷積神經(jīng)網(wǎng)絡(luò)時(shí)，能更好地學(xué)習(xí)視頻運(yùn)動(dòng)信息，從而獲得更好的采樣幀，實(shí)現(xiàn)更好的動(dòng)作識(shí)別性能（性能從95.6%上升到了97.1%）。表1還分析比較不同的3DCNN對采樣效果的影響，結(jié)果發(fā)現(xiàn)，使用PAN［22］的準(zhǔn)確率是最高的，達(dá)到了97.1%。所以在后面的實(shí)驗(yàn)中，采樣模塊均使用了PAN。

b）MfS采樣策略和TSN［12］采樣策略對比。為了驗(yàn)證本文提出的采樣模塊的有效性，表2對比了在TSM［10］、TEA［18］、GSM［28］、TDN［13］和本文方法上分別應(yīng)用MfS采樣策略和TSN采樣策略后的動(dòng)作識(shí)別準(zhǔn)確率。結(jié)果表明，MfS采樣策略能夠在不同模型上帶來性能改進(jìn)。

c）自相似性函數(shù)的選擇。表3顯示了在LME模塊中采用不同的相似性函數(shù)計(jì)算t時(shí)刻的特征與前后兩幀特征之間的差異性對本文提出模型性能的影響?？梢钥闯?，采用余弦相似度函數(shù)效果最好，但是不同的相似性函數(shù)對結(jié)果的影響較小。

d）LME和GME的消融實(shí)驗(yàn)。表4對比了LME和GME模塊對模型性能的影響?？梢钥闯?，當(dāng)所有的LME和GME模塊從網(wǎng)絡(luò)中移除時(shí)，準(zhǔn)確率為92.5%。隨著三個(gè)LME模塊的依次加入，性能穩(wěn)步增加到96.4%，而結(jié)合LME和GME可以將性能提高到97.1%，驗(yàn)證了兩個(gè)模塊的有效性和互補(bǔ)性。

e）LME和GME位置的消融實(shí)驗(yàn)。表5比較了在ResNet50主干網(wǎng)絡(luò)的不同位置使用LME和GME的動(dòng)作識(shí)別準(zhǔn)確率?？梢钥闯?，采用如圖2所示的設(shè)置，即在前三個(gè)卷積塊中使用局部運(yùn)動(dòng)信息提取模塊，后二個(gè)卷積塊中使用全局運(yùn)動(dòng)信息提取模塊，得到了最好的識(shí)別精度。這表明局部運(yùn)動(dòng)信息適合在初級(jí)特征上提取，而全局運(yùn)動(dòng)信息適合在高級(jí)特征上提取。

f）MfS采樣模塊與當(dāng)前主流采樣模塊的實(shí)例效果比較。為了更加直觀地驗(yàn)證本文提出的采樣模塊的有效性，在圖6中展示了MfS模塊采樣的結(jié)果和當(dāng)前主流采樣模塊的采樣結(jié)果對比（上面是MfS模塊的采樣視頻幀的結(jié)果，下面是主流的采樣模塊采樣視頻幀的結(jié)果），可以很明顯地看出，MfS模塊的采樣能力更加優(yōu)秀，采樣出的視頻幀包含的運(yùn)動(dòng)信息更多，而主流的采樣模塊的結(jié)果覆蓋很多的靜態(tài)視頻幀。因此，表明了MfS模塊在采樣視頻幀的效果上優(yōu)于當(dāng)前主流的采樣模塊，證明了MfS模塊的有效性。

g）LGMeNet與同類方法在局部、全局階段的特征可視化對比。為了更加直觀地驗(yàn)證本文在局部和全局階段兩個(gè)模塊的有效性，在圖7、8中分別給出了在局部階段和全局階段與同類方法的特征可視化對比。從圖中可以看出，本文的可視化效果會(huì)更好一點(diǎn)，證明了本文LGMeNet方法在局部和全局階段都能帶來有效改進(jìn)。

2.4 與其他先進(jìn)方法的比較

本節(jié)分別在UCF101和Something V1數(shù)據(jù)集上比較了本文方法和其他先進(jìn)方法的性能，實(shí)驗(yàn)結(jié)果如表6和7所示。由于UCF101數(shù)據(jù)集上的top5準(zhǔn)確率都太高，比較不出方法間的差別，所以表6只列出了top1準(zhǔn)確率。

可以看出，在UCF101數(shù)據(jù)集上，采用ResNet50作為骨干并采樣16幀時(shí)，相比于其他采用同樣骨干網(wǎng)絡(luò)并且采樣幀數(shù)大于或等于16幀的先進(jìn)方法，本文方法獲得了最好的性能，準(zhǔn)確率達(dá)到了97.1%；當(dāng)只采樣8幀時(shí)，準(zhǔn)確率也達(dá)到了95.8%。而當(dāng)采用更大的骨干網(wǎng)絡(luò)ResNet101時(shí)，性能有了更大的提升，采樣16幀時(shí)，準(zhǔn)確率達(dá)到了97.7%，采樣8幀時(shí)，準(zhǔn)確率也達(dá)到了96.4%。

同樣地，從表7可以看出，在Something V1數(shù)據(jù)集上，采用ResNet50作為骨干并采樣16幀時(shí)，相比于其他采用同樣骨干網(wǎng)絡(luò)并且采樣幀數(shù)大于或等于16幀的先進(jìn)方法，本文方法獲得了最好的性能，top1準(zhǔn)確率達(dá)到了55.7%，top5準(zhǔn)確率達(dá)到了82.8%；當(dāng)只采樣8幀時(shí)，top1準(zhǔn)確率也達(dá)到了54.6%，top5準(zhǔn)確率達(dá)到了81.6%。而當(dāng)采用更大的骨干網(wǎng)絡(luò)ResNet101時(shí)，性能有了更大的提升，采樣16幀時(shí)，top1準(zhǔn)確率達(dá)到了56.9%，top5準(zhǔn)確率達(dá)到了83.9%；采樣8幀時(shí)，top1準(zhǔn)確率達(dá)到了55.6%，top5準(zhǔn)確率達(dá)到了82.4%。

這些實(shí)驗(yàn)結(jié)果驗(yàn)證了本文方法的有效性和先進(jìn)性。與基于三維卷積神經(jīng)網(wǎng)絡(luò)的動(dòng)作識(shí)別方法進(jìn)行比較，如I3D、SlowFast、LGD3D相比，本文方法不但獲得了更好的性能，同時(shí)計(jì)算成本也相對更小。

3 結(jié)束語

為了更好地采樣到包含豐富運(yùn)動(dòng)信息的視頻幀，同時(shí)關(guān)注動(dòng)作的局部和全局上下文特征，本文提出了一種基于特征級(jí)采樣策略的局部—全局運(yùn)動(dòng)信息增強(qiáng)的動(dòng)作識(shí)別網(wǎng)絡(luò)LGMeNet。在去除運(yùn)動(dòng)噪聲和背景噪聲后，采用預(yù)訓(xùn)練好的3DCNN提取視頻特征，在此基礎(chǔ)上進(jìn)行運(yùn)動(dòng)信息均勻采樣，提取到關(guān)鍵幀；然后將關(guān)鍵幀輸入特征提取骨干網(wǎng)絡(luò)進(jìn)行空間維特征提取的同時(shí)，在初級(jí)特征上利用局部運(yùn)動(dòng)信息提取模塊進(jìn)行短期運(yùn)動(dòng)信息增強(qiáng)，在高級(jí)特征上利用全局運(yùn)動(dòng)信息提取模塊學(xué)習(xí)多尺度全局時(shí)空特征。在Something V1和UCF101上的實(shí)驗(yàn)結(jié)果驗(yàn)證了所提出模塊的有效性，與其他先進(jìn)方法的比較結(jié)果也證明了所提方法的先進(jìn)性。本文提出的基于運(yùn)動(dòng)特征的采樣模塊是利用預(yù)訓(xùn)練好的模塊來進(jìn)行特征提取的，在模型學(xué)習(xí)時(shí)，此部分參數(shù)沒有進(jìn)行訓(xùn)練和微調(diào)。所以，后續(xù)研究將考慮改進(jìn)此模塊，使其能與主體網(wǎng)絡(luò)無縫連接，以便進(jìn)行統(tǒng)一訓(xùn)練和學(xué)習(xí)，進(jìn)一步提高視頻動(dòng)作識(shí)別性能。

參考文獻(xiàn)：

［1］Kilickaya M，Smeulders A W M.Structured visual search via compositionaware learning［C］//Proc of IEEE/CVF Winter Conference on Applications of Computer Vision.Piscataway，NJ：IEEE Press，2021：17011710.

［2］Tan R，Xu Huijuan，Saenko K，et al.LoGAN：latent graph coattention network for weaklysupervised video moment retrieval［C］//Proc of IEEE/CVF Winter Conference on Applications of Computer Vision.Piscataway，NJ：IEEE Press，2021：20832092.

［3］Liu Wen，Luo Weixin，Lian Dongze，et al.Future frame prediction for anomaly detection–a new baseline［C］//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2018：65366545.

［4］Zhou Yao，Wan Guowei，Hou Shenhua，et al.Da4ad：endtoend deep attentionbased visual localization for autonomous driving［C］//Proc of European Conference on Computer Vision.Berlin：Springer，2020：271289.

［5］Xu Dejing，Zhao Zhou，Xiao Jun，et al.Video question answering via gradually refined attention over appearance and motion［C］//Proc of the 25th ACM International Conference on Multimedia.New York：ACM Press，2017：16451653.

［6］羅會(huì)蘭，王嬋娟，盧飛.視頻行為識(shí)別綜述［J］.通信學(xué)報(bào)，2018，39（6）：169180.（Luo Huilan，Wang Chanjuan，Lu Fei.A review of video action recognition［J］ .Journal on Communications，2018，39（6）：169180.）

［7］黃晴晴，周風(fēng)余，劉美珍.基于視頻的人體動(dòng)作識(shí)別算法綜述［J］.計(jì)算機(jī)應(yīng)用研究，2020，37（11）：32133219.（Huang Qingqing，Zhou Fengyu，Liu Meizhen.A review of videobased human action recognition algorithms［J］.Application Research of Computers，2020，37（11）：32133219.）

［8］Yang Xiaodong，Tian Yingli .Effective 3D action recognition using eigen joints ［J］.Journal of Visual Communication and Image Representation，2014，25（1）：211.

［9］Willems G，Tuytelaars T，Van Gool L.An efficient dense and scaleinvariant spatiotemporal interest point detector［C］//Proc of the 10th European Conference on Computer Vision.Berlin ：Springer，2008：650663.

［10］Lin Ji，Gan Chuang，Han Song.TSM：temporal shift module for efficient video understanding［C］//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway，NJ：IEEE Press，2019：70827092.

［11］Huang Guoxi，Bors A G.Busyquiet video disentangling for video classification［C］//Proc of IEEE/CVF Winter Conference on Applications of Computer Vision.Piscataway，NJ：IEEE Press，2022：756765.

［12］Wang Limin，Xiong Yuanjun，Wang Zhe，et al.Temporal segment networks：towards good practices for deep action recognition［C］//Proc of European Conference on Computer Vision.Cham：Springer，2016：2036.

［13］Wang Limin，Tong Zhan，Ji Bin，et al.TDN：temporal difference networks for efficient action recognition［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2021：18951904.

［14］Simonyan K，Zisserman A.Twostream convolutional networks for action recognition in videos ［EB/OL］.（20141112）.https：//arxiv.org/abs/1406.2199.

［15］Zhang Bowen，Wang Limin，Wang Zhe，et al.Realtime action recognition with enhanced motion vector CNNs［C］//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2016：27182726.

［16］Carreira J，Zisserman A.Quo vadis，action recognition？ A new model and the kinetics dataset［C］//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2017：47244733.

［17］Qiu Zhaofan，Yao Ting，Mei Tao.Learning spatiotemporal representation with pseudo3D residual networks［C］//Proc of IEEE International Conference on Computer Vision.Piscataway，NJ：IEEE Press，2017：55345542.

［18］Li Yan，Ji Bin，Shi Xintian，et al.TEA：temporal excitation and aggregation for action recognition ［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2020：906915.

［19］Schmidhuber J，Hochreiter S.Long shortterm memory［J］.Neural Computation，1997，9（8）：17351780.

［20］Fu Zirong，Wu Shengxi，Wu Xiaoying，et al.Human action recognition using BILSTM network based on spatial features［J］.Journal of East China University of Science and Technology：Natural Science Edition，2021，47（2）：225-232.

［21］Zhi Yuan，Tong Zhan，Wang Limin，et al.MGSampler：an explainable sampling strategy for video action recognition［C］//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway，NJ：IEEE Press，2021：14931502.

［22］Zhang Can，Zou Yuexian，Chen Guang，et al.PAN：towards fast action recognition via learning persistence of appearance［EB/OL］.（20200808）.https：//arxiv.org/abs/2008.03462.

［23］Shen Zhongwei，Wu X J，Xu Tianyang.FEXNet：foreground extraction network for human action recognition［J］.IEEE Trans on Circuits and Systems for Video Technology，2021，32（5）：31413151.

［24］Soomro K，Zamir A R，Shah M.UCF101：a dataset of 101 human actions classes from videos in the wild ［EB/OL］.（20121203）.https：//arxiv.org/abs/1212.0402.

［25］Goyal R，Ebrahimi Kahou S，Michalski V，et al.The “something something” video database for learning and evaluating visual common sense［C］//Proc of IEEE International Conference on Computer Vision.Piscataway，NJ：IEEE Press，2017：58425850.

［26］陳遙.基于輕量級(jí)三維卷積神經(jīng)網(wǎng)絡(luò)的視頻行為識(shí)別研究［D］.武漢：華中科技大學(xué)，2020.（Chen Yao.Research on video behavior recognition based on lightweight 3D convolutional neural networks［D］.Wuhan：Huazhong University of Science and Technology，2020.）

［27］Tran D，Bourdev L，F(xiàn)ergus R，et al.Learning spatiotemporal features with 3D convolutional networks［C］//Proc of IEEE International Conference on Computer Vision.Piscataway，NJ：IEEE Press，2015：44894497.

［28］Sudhakaran S，Escalera S，Lanz O.Gateshift networks for video action recognition［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2020：10991108.

［29］Gowda S N，Rohrbach M，SevillaLara L.Smart frame selection for action recognition［C］//Proc of AAAI Conference on Artificial Intelligence.2021：14511459.

［30］Jiang Boyuan，Wang Mengmeng，Gan Weihao，et al.STM：spatiotemporal and motion encoding for action recognition［C］//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway，NJ：IEEE Press，2019：20002009.

［31］Feichtenhofer C，F(xiàn)an Haoqi，Malik J，et al.Slowfast networks for video recognition［C］//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway，NJ：IEEE Press，2019：6201-6210.

［32］Qiu Zhaofan，Yao Ting，Ngo C W，et al.Learning spatiotemporal representation with local and global diffusion［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2019：1204812057.