王 飛,胡榮林,金 鷹
(淮陰工學(xué)院計(jì)算機(jī)與軟件工程學(xué)院,江蘇 淮安 223003)
人體動(dòng)作識(shí)別是計(jì)算機(jī)視覺領(lǐng)域的一項(xiàng)基本任務(wù),它基于一個(gè)視頻中完整的動(dòng)作執(zhí)行來識(shí)別人體動(dòng)作[1]. 隨著機(jī)器學(xué)習(xí)研究的進(jìn)行,人體動(dòng)作識(shí)別的方法可以大致分為兩種,一種是基于機(jī)器學(xué)習(xí)人工設(shè)計(jì)特征的方法[2-3],另一種是端到端的深度學(xué)習(xí)算法. 與人工制作的動(dòng)作特征不同,深度學(xué)習(xí)方法可以從圖像中自主學(xué)習(xí)特征,并且學(xué)習(xí)到的動(dòng)作特征比人工動(dòng)作特征有更好的識(shí)別性能. Tran等[4]提出C3D網(wǎng)絡(luò)模型,通過3D卷積直接從視頻序列幀中提取時(shí)間和空間特征,但是仍然不能充分利用時(shí)間和空間特征. Simonyan等[5]提出了雙流卷積網(wǎng)絡(luò)模型,這個(gè)模型由時(shí)間和空間網(wǎng)絡(luò)構(gòu)成,空間流從靜態(tài)的視頻序列幀中執(zhí)行行為識(shí)別,同時(shí)時(shí)間流從密集光流形式的運(yùn)動(dòng)中訓(xùn)練以識(shí)別行為,但是雙流網(wǎng)絡(luò)需要人工提取出視頻幀之間的光流信息以便時(shí)間流的訓(xùn)練識(shí)別. 文獻(xiàn)[6-7]通過實(shí)驗(yàn)表明長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)能夠一定程度上解決卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)不能夠表示長(zhǎng)時(shí)間變化的問題,但是LSTM是從CNN的全連接層獲取特征進(jìn)行處理的,所以缺乏時(shí)空特性的細(xì)節(jié).
針對(duì)上述的問題,本文提出了一種在C3D卷積神經(jīng)網(wǎng)絡(luò)上進(jìn)行改進(jìn)的融合模型. 整個(gè)動(dòng)作識(shí)別流程如圖1所示. 首先通過SSD目標(biāo)檢測(cè)方法將視頻中的人體目標(biāo)進(jìn)行分割,然后將原視頻序列幀和分割后的人體目標(biāo)序列幀經(jīng)過一系列的3D卷積、ConvLSTM、3D卷積塊注意力模塊(3D-convolutional block attention module,3D-CBAM)和3D池化模塊直接提取時(shí)間和空間特征,最后將網(wǎng)絡(luò)提取的特征進(jìn)行后期融合并分類得到最終的人體動(dòng)作分類結(jié)果.
人體動(dòng)作識(shí)別有著廣泛的應(yīng)用場(chǎng)景,如視頻監(jiān)控、視頻的存儲(chǔ)與檢索、人機(jī)交互和身份識(shí)別等[8]. 人體動(dòng)作識(shí)別涵蓋了計(jì)算機(jī)視覺中的許多研究課題,包括視頻中的人體檢測(cè)、人體姿態(tài)估計(jì)、人體跟蹤以及時(shí)間序列數(shù)據(jù)的分析和理解[9]. 隨著深度學(xué)習(xí)在圖像分類和目標(biāo)檢測(cè)上的成功應(yīng)用,許多研究者也將其應(yīng)用于人體動(dòng)作識(shí)別. 與圖像空間中的特征表示不同,視頻中的人體動(dòng)作表示不僅描述了人體在圖像空間中的形象,而且還必須提取形象和姿態(tài)的變化即不僅需要提取外觀信息還要提取運(yùn)動(dòng)信息. 目前,根據(jù)深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)劃分,可以將外觀信息和運(yùn)動(dòng)信息結(jié)合的具有代表性的深度學(xué)習(xí)方法分為3種:基于雙流卷積網(wǎng)絡(luò)的方法、基于3D卷積網(wǎng)絡(luò)的方法和基于長(zhǎng)短期記憶網(wǎng)絡(luò)的方法.
Simonyan等[5]最先提出基于雙流卷積網(wǎng)絡(luò)的方法,首先對(duì)視頻序列中每?jī)蓭?jì)算密集光流,得到密集光流的序列,然后對(duì)視頻圖像和密集光流分別獨(dú)立地訓(xùn)練CNN模型,兩個(gè)網(wǎng)絡(luò)分別對(duì)動(dòng)作的類別進(jìn)行判斷,將兩個(gè)分支網(wǎng)絡(luò)的類別得分進(jìn)行融合,最終得到動(dòng)作分類結(jié)果. 文獻(xiàn)[10-11]在雙流網(wǎng)絡(luò)的基礎(chǔ)上利用CNN網(wǎng)絡(luò)進(jìn)行了空間和時(shí)間的融合,并將網(wǎng)絡(luò)替換成VGG-16,進(jìn)一步提高了分類準(zhǔn)確率. Wang等[12]在使用RGB圖像和光流圖像的基礎(chǔ)上還嘗試了RGB差異和翹曲光流兩種輸入,通過實(shí)驗(yàn)證明RGB、光流和翹曲光流的組合效果最好. 張聰聰?shù)萚13]將提取的關(guān)鍵幀融入雙流卷積網(wǎng)絡(luò),相對(duì)降低網(wǎng)絡(luò)復(fù)雜度并具有較高識(shí)別率. 基于雙流網(wǎng)絡(luò)的方法依賴提取的光流圖像,然而光流的計(jì)算與存儲(chǔ)代價(jià)比較昂貴.
Ji等[14]最早提出3D卷積并將其運(yùn)用到行為識(shí)別,提出的模型從空間和時(shí)間維度中提取特征,從而捕獲在多個(gè)相鄰視頻幀中的運(yùn)動(dòng)信息,C3D卷積網(wǎng)絡(luò)是3D卷積網(wǎng)絡(luò)的代表,通過3D卷積和3D池化可以對(duì)時(shí)間信息進(jìn)行建模,并且可以將完整的視頻幀作為輸入,并不依賴于任何處理,可以輕松地?cái)U(kuò)展到大數(shù)據(jù)集. 但3D卷積仍然不能充分的提取時(shí)空特征.
LSTM在時(shí)序數(shù)據(jù)上的處理能力比較強(qiáng),但如果時(shí)序數(shù)據(jù)是圖像,則在LSTM的基礎(chǔ)上增加卷積操作,對(duì)于圖像的特征提取會(huì)更加有效. Ng等[15]采用CNN提取幀級(jí)特征,再將幀級(jí)特征和提取到的光流特征輸入到LSTM進(jìn)行訓(xùn)練得到分類結(jié)果. Shi等[16]通過將全連接LSTM擴(kuò)展為卷積結(jié)構(gòu),提出ConvLSTM網(wǎng)絡(luò),能夠更好地捕捉時(shí)空相關(guān)性,并且始終優(yōu)于FC-LSTM算法.
本文提出的融合模型綜合利用了雙流網(wǎng)絡(luò)、3D卷積網(wǎng)絡(luò)和ConvLSTM網(wǎng)絡(luò)3種網(wǎng)絡(luò)的優(yōu)勢(shì). 將雙流網(wǎng)絡(luò)的主體網(wǎng)絡(luò)結(jié)構(gòu)替換成C3D,無需計(jì)算和存儲(chǔ)光流信息,采用ConvLSTM層替代部分3D卷積層,提高對(duì)時(shí)間特征的利用率,能夠更好地捕捉時(shí)空相關(guān)性. 同時(shí)在網(wǎng)絡(luò)中采用shortcut結(jié)構(gòu)[17]將3D-CBAM注意力機(jī)制結(jié)合到3D卷積中,提高了C3D卷積對(duì)空間特征的利用率.
本文的融合模型框架如圖1所示. 首先對(duì)視頻數(shù)據(jù)進(jìn)行預(yù)處理,采用SSD目標(biāo)檢測(cè)方法對(duì)視頻序列幀進(jìn)行人體目標(biāo)識(shí)別并分割. 然后將分割后的人體目標(biāo)序列幀作為局部特征提取網(wǎng)絡(luò)的輸入數(shù)據(jù)用于提取局部運(yùn)動(dòng)特征,而原視頻序列幀作為全局特征提取網(wǎng)絡(luò)的輸入數(shù)據(jù)用于提取全局運(yùn)動(dòng)特征. 最后將全局特征和局部特征融合并進(jìn)行分類得到最終的人體動(dòng)作分類結(jié)果.

圖1 融合注意力機(jī)制的3D卷積網(wǎng)絡(luò)動(dòng)作識(shí)別框架Fig.1 3D convolutional network action recognition framework with attention mechanism
相機(jī)自身輕微的抖動(dòng)和鏡頭的拉伸都會(huì)造成拍攝出的整個(gè)視頻中存在運(yùn)動(dòng)信息,而這些運(yùn)動(dòng)信息并不是需要識(shí)別的人體運(yùn)動(dòng)信息,會(huì)影響神經(jīng)網(wǎng)絡(luò)訓(xùn)練的結(jié)果,所以局部信息的提取將會(huì)起到至關(guān)重要的作用. 本文采用SSD目標(biāo)檢測(cè)方法直接對(duì)視頻序列幀的人體目標(biāo)進(jìn)行檢測(cè)并分割作為局部信息. SSD采用VGG16作為特征提取的主干網(wǎng)絡(luò),在VGG16的基礎(chǔ)上新增了卷積層來獲得更多的特征圖以用于檢測(cè). SSD采用多尺度特征圖用于檢測(cè),比較大的特征圖可以用來檢測(cè)相對(duì)較小的目標(biāo),而小的特征圖用來檢測(cè)大目標(biāo). 借鑒文獻(xiàn)[18]每個(gè)單元設(shè)置尺度或者長(zhǎng)寬比不同的先驗(yàn)框,預(yù)測(cè)的邊界框是以這些先驗(yàn)框?yàn)榛鶞?zhǔn)的,在一定程度上減少訓(xùn)練難度.
從卷積層中提取出作為檢測(cè)所用的6個(gè)特征圖,同一個(gè)特征圖上每個(gè)單元設(shè)置的先驗(yàn)框是相同的,但不同的特征圖設(shè)置的先驗(yàn)框數(shù)目是不同的. 先驗(yàn)框的設(shè)置需要確定其大小和長(zhǎng)寬比. 先驗(yàn)框的大小隨著特征圖大小的降低成線性增加:
(1)
式中,k∈[1,m],m表示特征圖個(gè)數(shù);sk指先驗(yàn)框大小相對(duì)于圖片的比例;smin和smax表示先驗(yàn)框與圖片比例的最小值和最大值.m設(shè)置為5,因?yàn)樘崛〉牡谝粋€(gè)特征圖是單獨(dú)設(shè)置的,第一個(gè)特征圖的先驗(yàn)框大小設(shè)置為30.smin和smax的值分別為0.2和0.9. 對(duì)于長(zhǎng)寬比,實(shí)驗(yàn)選取1,2,3,1/2和1/3.
本文的特征提取網(wǎng)絡(luò)由兩個(gè)部分組成:全局特征提取網(wǎng)絡(luò)和局部特征提取網(wǎng)絡(luò). 這兩個(gè)網(wǎng)絡(luò)的基本框架相同,但對(duì)應(yīng)輸入的視頻幀的維度不一樣,全局特征提取網(wǎng)絡(luò)的輸入為112×112×16×3,表示輸入的視頻幀大小為112×112,每批次輸入的視頻幀數(shù)量為16,通道為3,而局部特征提取網(wǎng)絡(luò)輸入的視頻幀大小為64×64;全局特征提取網(wǎng)絡(luò)中的Pool 1采用的最大池化窗口為2×2×1,步長(zhǎng)為2×2×1,而局部特征提取網(wǎng)絡(luò)中Pool 1采用的最大池化窗口為2×2×2,步長(zhǎng)為2×2×2. 所有的3D卷積Conv1,Conv2,…Conv5都采用3×3×3大小的卷積核和1×1×1的步長(zhǎng),激活函數(shù)則使用Relu函數(shù). 本文的融合模型在C3D網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行改進(jìn),將原C3D網(wǎng)絡(luò)中Conv3b、Conv4b和Conv5b層分別替換為ConvLSTM1、ConvLSTM2和ConvLSTM3層,并舍棄FC7層. 詳細(xì)的網(wǎng)絡(luò)結(jié)構(gòu)模型如圖2所示.

圖2 融合3D-CBAM注意力機(jī)制的3D卷積網(wǎng)絡(luò)模型Fig.2 3D convolutional network model with 3D-CBAM attention mechanism fusion
與LSTM不同,ConvLSTM的輸入變換和循環(huán)變換是通過卷積實(shí)現(xiàn)的,即輸入與各個(gè)門之間的連接、狀態(tài)與狀態(tài)之間由前饋式替換成卷積運(yùn)算,ConvLSTM的工作原理如下:
it=σ(Wxi*Xt+Whi*Ht-1+Wci°Ct-1+bi),
(2)
ft=σ(Wxf*Xt+Whf*Ht-1+Wcf°Ct-1+bf),
(3)
Ct=ft°Ct-1+it°tanh(Wxc*Xt+Whc*Ht-1+bc),
(4)
ot=σ(Wxo*Xt+Who*Ht-1+Wco°Ct-1+bo),
(5)
Ht=ot°tanh(ct).
(6)
式中,*表示卷積操作,°表示乘積操作,X1,…,Xt為輸入數(shù)據(jù),C1,…,Ct為單元輸出,H1,…,Ht為隱藏層,it、ft和ot分別為網(wǎng)絡(luò)中的輸入門、遺忘門和輸出門,W和b分別表示對(duì)應(yīng)門控的權(quán)重和偏置量,σ為sigmoid激活操作.
本文融合模型使用的ConvLSTM層都選擇3×3大小的卷積核,進(jìn)行卷積操作時(shí)保留邊界處的操作結(jié)果,對(duì)視頻幀的所有像素點(diǎn)進(jìn)行處理,使得輸出的shape和輸入的shape相同,采用tanh作為激活函數(shù). ConvLSTM1層將一個(gè)人體動(dòng)作樣本分為8個(gè)時(shí)間點(diǎn)輸入即(X1,X2,…,Xt),此時(shí)t的值為8,而ConvLSTM2層和ConvLSTM3層將一個(gè)人體動(dòng)作樣本分別分為4個(gè)和2個(gè)時(shí)間點(diǎn)輸入,每個(gè)時(shí)間點(diǎn)都有相應(yīng)的輸出,所有的ConvLSTM層都是將所有時(shí)間點(diǎn)的結(jié)果輸出并拼接作為整個(gè)ConvLSTM層的輸出.
CBAM注意力機(jī)制是可以直接應(yīng)用于前饋卷積神經(jīng)網(wǎng)絡(luò)的簡(jiǎn)單而有效的注意模塊,由通道注意模塊和空間注意模塊兩個(gè)部分組成[19]. 對(duì)于卷積神經(jīng)網(wǎng)絡(luò)生成的特征圖,CBAM從通道和空間兩個(gè)維度計(jì)算特征圖的注意力圖,然后將注意力圖和特征圖的對(duì)應(yīng)元素相乘進(jìn)行特征的自適應(yīng)學(xué)習(xí). CBAM是一種輕量級(jí)的通用模塊,目前研究者嘗試過將其應(yīng)用到諸如VGG、Inception和ResNet等2D卷積網(wǎng)絡(luò)中進(jìn)行端到端的訓(xùn)練. 本文為了提高3D卷積網(wǎng)絡(luò)的空間特征利用率,提出3D-CBAM注意力機(jī)制,具體集成方式如圖3所示.

圖3 3D-CBAM結(jié)構(gòu)Fig.3 The structure of 3D-CBAM
與2D卷積網(wǎng)絡(luò)不同的是3D卷積網(wǎng)絡(luò)多出一個(gè)深度維度,在每一次提取空間特征時(shí),需要考慮到深度參數(shù)的變化. 對(duì)于一個(gè)中間3D卷積層的特征圖:F3D∈RW×H×D×C,3D-CBAM會(huì)按照順序推理出寬度、高度和深度都為1的通道注意力特征圖Mc3D∈R1×1×1×C,以及通道為1的空間注意力特征圖Ms3D∈R1×H×W×D. 其中,W、H、D、C分別表示特征圖的寬度、高度、深度和通道. 整個(gè)過程公式如下所示:
F′3D=Mc3D(F3D)?F3D.
(7)
F″3D=Ms3D(F′3D)?F′3D.
(8)
3D-CBAM的通道注意力模塊關(guān)注哪些通道對(duì)融合3D網(wǎng)絡(luò)的最后分類結(jié)果起到作用,即選擇出對(duì)預(yù)測(cè)起決定性作用的特征,具體步驟如圖4所示.首先將輸入的特征圖F3D分別經(jīng)過基于寬度W、高度H和深度D的最大值池化和均值池化,然后對(duì)分別經(jīng)過MLP的特征進(jìn)行基于對(duì)應(yīng)元素的加和操作,再經(jīng)過sigmoid激活操作,將生成的通道特征圖Mc3D(F3D)與輸入的特征圖F3D進(jìn)行相乘操作生成最終的通道特征圖F′3D,公式為:

圖4 3D-CBAM的通道注意力模塊Fig.4 Channel attention module of 3D-CBAM

(9)
式中,W0∈RC/r×C,W1∈RC×C/r,σ為sigmoid操作,W0需要經(jīng)過Relu函數(shù)激活. 本文減少率r取值為8,即在最大值池化和均值池化時(shí)將通道C變換為C/8,減少參數(shù)量,最后再使用全連接變換為原來的通道C.


圖5 3D-CBAM的空間注意力模塊Fig.5 Spatial attention module of 3D-CBAM
(10)
實(shí)驗(yàn)證明,7×7的卷積操作得到的實(shí)驗(yàn)效果優(yōu)于3×3的卷積. 因?yàn)槭菓?yīng)用于3D卷積且視頻序列幀的通道排序格式為channel-last,所以在進(jìn)行合并操作時(shí)需要將張量中axis=4的通道串接,然后進(jìn)行卷積操作保證axis=4的特征數(shù)為1.
為了證明本文融合模型的有效性且考慮實(shí)驗(yàn)GPU運(yùn)行內(nèi)存等因素,在KTH數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),該數(shù)據(jù)集包含光照變換和相機(jī)自身運(yùn)動(dòng)的情況,貼合生活場(chǎng)景.
KTH數(shù)據(jù)集為人類行動(dòng)數(shù)據(jù)集,一共有600個(gè)視頻,視頻數(shù)據(jù)包含6種類型的人類動(dòng)作,分別是步行、慢跑、奔跑、拳擊、揮手和拍手. 由25個(gè)對(duì)象在4種不同的情況下進(jìn)行的拍攝,分別是戶外s1、戶外包含尺度變化s2、戶外穿著不同衣服s3以及室內(nèi)s4,如圖6所示.

圖6 KTH數(shù)據(jù)集示例圖Fig.6 Sample diagram of KTH dataset
實(shí)驗(yàn)選擇每個(gè)類別中16個(gè)對(duì)象的視頻作為訓(xùn)練集,剩余的9個(gè)對(duì)象的視頻作為驗(yàn)證集,每完成一次全部樣本的訓(xùn)練就進(jìn)行一次驗(yàn)證,總共進(jìn)行50次操作,獲得局部特征提取網(wǎng)絡(luò)的權(quán)重和全局特征提取網(wǎng)絡(luò)的權(quán)重,測(cè)試時(shí)調(diào)用模型權(quán)重提取特征并融合通過SVM分類獲得最終的識(shí)別準(zhǔn)確率. 本文將最終的識(shí)別準(zhǔn)確率A作為動(dòng)作識(shí)別的評(píng)估標(biāo)準(zhǔn),公式如下:
(11)
式中,NTP為將正類樣本預(yù)測(cè)為正類個(gè)數(shù),NTN表示將負(fù)類樣本預(yù)測(cè)為負(fù)類個(gè)數(shù),NFP表示將負(fù)類樣本預(yù)測(cè)為正類個(gè)數(shù),NFN為將正類樣本預(yù)測(cè)為負(fù)類個(gè)數(shù).
3.2.1 數(shù)據(jù)處理
獲取每一個(gè)視頻的橫縱比以及視頻幀的總數(shù),依次讀取視頻的每一幀,將每一幀由BGR格式轉(zhuǎn)換為RGB格式,幀數(shù)據(jù)轉(zhuǎn)換為數(shù)組形式并進(jìn)行歸一化處理. 加載SSD300的權(quán)值文件,利用其模型與權(quán)重對(duì)每一幀中的人體目標(biāo)進(jìn)行分割,最后將原視頻幀和分割后的視頻幀分別統(tǒng)一尺寸并保存,實(shí)驗(yàn)中原視頻幀的大小為112×112,分割后的視頻幀大小為64×64. SSD300的權(quán)重文件是以VOC數(shù)據(jù)集訓(xùn)練的,能夠檢測(cè)20種目標(biāo),實(shí)驗(yàn)只需檢測(cè)人體目標(biāo)即可.
選取16人作為訓(xùn)練數(shù)據(jù),每個(gè)視頻選擇4段連續(xù)幀,每段共有16幀,則訓(xùn)練數(shù)據(jù)集一共有1 536組連續(xù)幀,剩余的9人作為驗(yàn)證集,每個(gè)視頻選擇1段連續(xù)幀,同樣是每段有16幀,一共有215組連續(xù)幀.
3.2.2 模型訓(xùn)練參數(shù)設(shè)置
在Linux系統(tǒng)搭建的keras平臺(tái)下進(jìn)行試驗(yàn). 實(shí)驗(yàn)中使用訓(xùn)練集中的全部樣本訓(xùn)練次數(shù)epoch為50,考慮訓(xùn)練時(shí)GPU內(nèi)存的情況,每一批次訓(xùn)練選取的樣本數(shù)量為10,實(shí)驗(yàn)訓(xùn)練優(yōu)化器采用SGD隨機(jī)梯度下降,SGD使用nesterov動(dòng)量,動(dòng)量參數(shù)為0.9,用于驗(yàn)證模型是否快速收斂;初始學(xué)習(xí)率lr為0.005,訓(xùn)練時(shí)通過自定義回調(diào)函數(shù)的方法對(duì)學(xué)習(xí)率進(jìn)行衰減,epoch為20、30和40時(shí)學(xué)習(xí)率分別為lr/10、lr/100和lr/1 000,在訓(xùn)練開始時(shí)使用較大的學(xué)習(xí)率可以使訓(xùn)練快速收斂,隨著訓(xùn)練的過程逐漸降低學(xué)習(xí)率有助于找到最優(yōu)解. 為了避免過擬合,對(duì)每一層卷積層使用L2正則化,并且在全連接層前采用值為0.5的dropout.
3.2.3 模型測(cè)試
局部特征提取網(wǎng)絡(luò)和全局特征提取網(wǎng)絡(luò)訓(xùn)練后的結(jié)果都保存在二進(jìn)制文件中,該文件包含模型的結(jié)構(gòu)、模型的權(quán)重、訓(xùn)練配置(損失函數(shù),優(yōu)化器等)和優(yōu)化器的狀態(tài). 通過遷移學(xué)習(xí)的方法將測(cè)試所用的樣本經(jīng)過文件存儲(chǔ)的模型和權(quán)重處理獲得測(cè)試集人體動(dòng)作特征,然后將訓(xùn)練得到的局部特征和全局特征進(jìn)行融合,采用(歐幾里德)L2范數(shù)對(duì)融合的特征進(jìn)行歸一化處理,最后用SVM進(jìn)行特征分類獲得最終的動(dòng)作分類結(jié)果. 其中,SVM是構(gòu)建的軟間隔分類器. 分類器的懲罰系數(shù)設(shè)置為10,對(duì)邊界內(nèi)的噪聲容忍度比較小,分類準(zhǔn)確高;采用線性核函數(shù)進(jìn)行計(jì)算分類;啟用啟發(fā)式收縮方式,能夠預(yù)知哪些變量對(duì)應(yīng)著支持向量,只需要在這些樣本上進(jìn)行訓(xùn)練即可,其他樣本可以不予考慮,這種方式不僅不影響訓(xùn)練結(jié)果,還降低了問題的規(guī)模有助于迅速求解,起到一個(gè)加速的效果. 停止訓(xùn)練的誤差精度設(shè)置為0.001. 采用一對(duì)多法,即訓(xùn)練時(shí)依次把某個(gè)類別的樣本歸為一類,其他剩余的樣本歸為另一類,這樣n個(gè)類別的樣本就構(gòu)造出n個(gè)分類器,分類時(shí)將未知樣本分類為具有最大分類函數(shù)值的那類.
本文方法采用的是3D卷積網(wǎng)絡(luò)對(duì)動(dòng)作進(jìn)行識(shí)別,相較于目前典型的雙流網(wǎng)絡(luò)減少了前期對(duì)視頻的預(yù)處理操作,不需要單獨(dú)提取出視頻中的光流特征. 從表1中可以看出本文提出的方法與其他的方法相比取得更好的識(shí)別效果.

表1 不同方法在KTH數(shù)據(jù)集上的動(dòng)作識(shí)別準(zhǔn)確率Table 1 The action recognition accuracy of different methods on KTH dataset
表2表明是否采用局部特征和全局特征融合的方法在動(dòng)作識(shí)別中的準(zhǔn)確率結(jié)果. 從表2中可以看出本文的方法無論是局部特征網(wǎng)絡(luò)的準(zhǔn)確率、全局特征網(wǎng)絡(luò)的準(zhǔn)確率還是兩者融合后的動(dòng)作識(shí)別準(zhǔn)確率都比C3D網(wǎng)絡(luò)和ConvLSTM網(wǎng)絡(luò)的準(zhǔn)確率高,同時(shí)局部特征與全局特征融合后的準(zhǔn)確率比單獨(dú)的全局特征的準(zhǔn)確率高,這說明局部信息的提取彌補(bǔ)了單獨(dú)全局特征提取的運(yùn)動(dòng)信息不足的缺點(diǎn).

表2 網(wǎng)絡(luò)模型中局部特征和全局特征是否融合的動(dòng)作識(shí)別準(zhǔn)確率比較Table 2 Accuracy comparison of action recognition based on fusion of local and global features or not in network model %
為了證明3D-CBAM注意力機(jī)制在本文的融合模型中的有效性,實(shí)驗(yàn)分別對(duì)其是否使用注意力機(jī)制進(jìn)行了對(duì)比實(shí)驗(yàn),表3展示了是否使用3D-CBAM注意力機(jī)制的動(dòng)作識(shí)別準(zhǔn)確率的結(jié)果. 由表3可以看出3D-CBAM注意力機(jī)制的添加使得C3D網(wǎng)絡(luò)和ConvLSTM網(wǎng)絡(luò)對(duì)動(dòng)作識(shí)別的準(zhǔn)確率都得到了顯著的提升. 本文方法使用3D-CBAM注意力機(jī)制比不使用注意力機(jī)制的動(dòng)作識(shí)別準(zhǔn)確率高,該實(shí)驗(yàn)證明了3D-CBAM注意力機(jī)制對(duì)人體動(dòng)作識(shí)別任務(wù)的有效性.

表3 3D-CBAM注意機(jī)制使用與否的動(dòng)作識(shí)別準(zhǔn)確率比較Table 3 Comparison of motion recognition accuracy of 3D-CBAM in use or not %
圖7為部分實(shí)驗(yàn)訓(xùn)練過程和測(cè)試結(jié)果的可視化展示. 因?yàn)楸疚姆椒ㄖ械木植刻卣骶W(wǎng)絡(luò)和全局特征網(wǎng)絡(luò)是單獨(dú)訓(xùn)練的,且后期融合采用的是SVM,所以僅采用全局特征網(wǎng)絡(luò)準(zhǔn)確率變化曲線與其他方法對(duì)比,可以體現(xiàn)出主體網(wǎng)絡(luò)的優(yōu)勢(shì). 圖7(a)、圖7(b)和圖7(c)分別為C3D、ConvLSTM和本文融合模型中全局特征網(wǎng)絡(luò)準(zhǔn)確率變化曲線,點(diǎn)線為訓(xùn)練數(shù)據(jù)的準(zhǔn)確率變化曲線,折線則是驗(yàn)證數(shù)據(jù)集的準(zhǔn)確率變化曲線,很明顯可以看出本文的融合模型的全局特征提取網(wǎng)絡(luò)在驗(yàn)證集上的準(zhǔn)確率要高于ConvLSTM網(wǎng)絡(luò),雖然與C3D網(wǎng)絡(luò)的準(zhǔn)確率相近,但是在迭代10次內(nèi)的波動(dòng)范圍更小,說明可以更好的學(xué)習(xí)時(shí)空特征,3種網(wǎng)絡(luò)都是迭代次數(shù)在20~30次之間達(dá)到最高精確度. 圖7(d)、圖7(e)和圖7(f)為測(cè)試時(shí)C3D、ConvLSTM和本文融合模型的混淆矩陣熱圖. 從混淆矩陣熱圖中可以看出,標(biāo)簽為handwaving的準(zhǔn)確率本文提出的融合方法已經(jīng)達(dá)到100%,除了標(biāo)簽為running的準(zhǔn)確率相比于其他兩種方法低,其余的標(biāo)簽的準(zhǔn)確率都有明顯的提高,最少提高了8%,最多提高了31%.

圖7 實(shí)驗(yàn)結(jié)果數(shù)據(jù)可視化Fig.7 Data visualization of experimental results
針對(duì)人體動(dòng)作識(shí)別現(xiàn)有方法的優(yōu)缺點(diǎn),本文提出了一種融合模型. 該模型在C3D網(wǎng)絡(luò)的基礎(chǔ)上加入了ConvLSTM模塊并融合了3D-CBAM注意力機(jī)制,通過局部特征提取網(wǎng)絡(luò)和全局特征提取網(wǎng)絡(luò)提取出局部特征和全局特征并進(jìn)行融合提高動(dòng)作識(shí)別的準(zhǔn)確率. 實(shí)驗(yàn)在KTH數(shù)據(jù)集上進(jìn)行,實(shí)驗(yàn)結(jié)果表明該模型對(duì)于人體動(dòng)作識(shí)別能夠達(dá)到很好的識(shí)別效果. 本文雖然采用輕量級(jí)的3D-CBAM注意力機(jī)制,但如何縮減參數(shù)量和計(jì)算量仍然是需要進(jìn)一步研究和解決的問題.