劉瑩瑩,邱 崧,孫 力,周 梅,徐 偉
(1.華東師范大學(xué) 信息科學(xué)技術(shù)學(xué)院 上海市多維度信息處理重點(diǎn)實(shí)驗(yàn)室,上海 200241;2.上海交通大學(xué) 圖像處理與模式識(shí)別研究所,上海 200240)
人體動(dòng)作識(shí)別是計(jì)算機(jī)視覺領(lǐng)域中的主要研究方向之一,其廣泛應(yīng)用于人機(jī)交互、虛擬現(xiàn)實(shí)、智能監(jiān)控、人體運(yùn)動(dòng)分析等領(lǐng)域,因此,基于視頻的人體動(dòng)作識(shí)別具有非常重要的學(xué)術(shù)研究價(jià)值。
視頻中人體動(dòng)作識(shí)別的核心方法是從視頻序列中提取能夠有效描述動(dòng)作特征的視覺信息,再通過機(jī)器學(xué)習(xí)算法對其進(jìn)行分類,最終實(shí)現(xiàn)人體動(dòng)作識(shí)別。動(dòng)作識(shí)別的設(shè)計(jì)方法一般可以從特征設(shè)計(jì)、分類器設(shè)計(jì)2個(gè)角度出發(fā)。本文屬于后者。
動(dòng)作識(shí)別中常用的分類器設(shè)計(jì)方法主要分為基于模板的方法、基于概率統(tǒng)計(jì)的方法以及基于語法的方法。基于模板匹配的方法[1-2]較簡單,但乏魯棒性,常用于靜態(tài)姿勢或簡單動(dòng)作的識(shí)別;基于語法的方法[3]計(jì)算復(fù)雜度高,且其魯棒性依賴于底層描述;基于概率統(tǒng)計(jì)的方法[4-5]在目前應(yīng)用最廣泛,該方法用一個(gè)連續(xù)的狀態(tài)序列表示動(dòng)作,每個(gè)狀態(tài)都有自己的特征描述,用時(shí)間轉(zhuǎn)移函數(shù)表示狀態(tài)之間的切換規(guī)律。常見的基于概率統(tǒng)計(jì)的動(dòng)作識(shí)別方法有支持向量機(jī)(Support Vector Machine,SVM)[6]、條件隨機(jī)場(Conditional Random Fields,CRF)[7]等,這些方法需大量的訓(xùn)練數(shù)據(jù)來學(xué)習(xí)模型參數(shù),且未考慮訓(xùn)練樣本的學(xué)習(xí)順序?qū)W(xué)習(xí)效果的影響。
文獻(xiàn)[8]提出課程學(xué)習(xí)算法,先用簡單樣本進(jìn)行訓(xùn)練,逐步引入復(fù)雜樣本,通過該機(jī)制設(shè)置合理的學(xué)習(xí)次序,可有效地提升算法的收斂速度及局部最優(yōu)解的質(zhì)量[9]。文獻(xiàn)[10]在課程學(xué)習(xí)算法的基礎(chǔ)上提出自步學(xué)習(xí)(Self-Paced Learning,SPL)。SPL的課程由模型本身基于其已經(jīng)學(xué)到的內(nèi)容動(dòng)態(tài)生成,而非預(yù)先定義的啟發(fā)式標(biāo)準(zhǔn)。文獻(xiàn)[11]將SPL算法引入動(dòng)作識(shí)別領(lǐng)域,SPL算法具有對于有標(biāo)簽訓(xùn)練樣本需求比較低、魯棒性好等優(yōu)點(diǎn),效果遠(yuǎn)好于常規(guī)機(jī)器學(xué)習(xí)算法,尤其是對較難的數(shù)據(jù)集,課程的優(yōu)越性更加明顯,但該算法忽略了不同視角對課程的影響。對于多分類的復(fù)雜人體動(dòng)作識(shí)別,每個(gè)人的每類動(dòng)作往往有不同的顯著特征,因此,不同視角下的特征描述對所有類的區(qū)分能力不同,對應(yīng)的課程難易度各異。
針對上述算法的不足,本文提出一種多視角自步學(xué)習(xí)(Multi-view Self-Paced Learning,MSPL)算法,將不同視角下的不同課程進(jìn)行融合,學(xué)習(xí)得出更適合解決動(dòng)作識(shí)別問題的綜合課程。
本文提出一種基于MSPL的動(dòng)作識(shí)別方法。對于人體動(dòng)作二維視頻序列,提取其在多種視角下的二維特征信息后,利用多分類的SPL算法分別為各個(gè)視角訓(xùn)練課程,然后通過線性規(guī)劃增強(qiáng)(Linear Programming Boosting,LPBoost)方法計(jì)算每個(gè)視角課程的權(quán)重參數(shù),融合學(xué)習(xí)出綜合課程模型。圖1為基于MSPL的動(dòng)作分類器訓(xùn)練流程。當(dāng)獲得測試動(dòng)作序列特征時(shí),即可用訓(xùn)練好的課程模型進(jìn)行分類。

圖1 基于MSPL的動(dòng)作分類器訓(xùn)練流程
本文在對各類二維視頻特征進(jìn)行綜合評估后,選擇5種視角下適合人體二維動(dòng)作視頻的底層特征:Trajectory[12],HOG[13],HOF[14],MBHx和MBHy[15](分別用視角A、B、C、D、E表示)。為了驗(yàn)證本文多視角融合方法的有效性,將其與各類特征進(jìn)行簡單合并的多特征融合方法作對比。現(xiàn)將5種底層特征進(jìn)行簡單合并得到COM特征[12],特征提取過程如下:
1)將RGB圖片合成為.avi格式的視頻序列,一個(gè)動(dòng)作對應(yīng)一個(gè)視頻段。
2)分別提取人體動(dòng)作序列的5種底層特征Trajectory、HOG、HOF、MBHx和MBHy,并將5種底層特征進(jìn)行簡單合并得到COM特征。
3)采用基于核密度估計(jì)(Kernel Density Estimation,KDE)的特征選擇算法對上述底層特征進(jìn)行降維。
4)將訓(xùn)練樣本集中的數(shù)據(jù)進(jìn)行聚類,以每個(gè)聚類中心為一個(gè)單詞,組成字典。
5)對降維后的特征進(jìn)行稀疏編碼,生成稀疏向量。
6)使用最大值合并算法,得到稀疏向量的全局統(tǒng)計(jì)特性,最終用一個(gè)視頻集特征代表一個(gè)人體動(dòng)作序列。
輸入多個(gè)視角多種類別人體動(dòng)作數(shù)據(jù)集的特征及其所對應(yīng)的標(biāo)簽:


?

其中,Q表示訓(xùn)練數(shù)據(jù)集的特征描述及標(biāo)簽的集合;xi表示第i個(gè)觀察樣本的特征向量;yi∈(1,2,…,C)表示相應(yīng)的類別標(biāo)簽;m為訓(xùn)練數(shù)據(jù)集的長度。
參數(shù)學(xué)習(xí)對于每個(gè)視角的特征描述,采用多分類的SPL算法訓(xùn)練學(xué)習(xí)出相應(yīng)的課程,用SPL_A、SPL_B、SPL_C、SPL_D、SPL_E表示,具體過程參閱1.3節(jié)內(nèi)容。
融合用LPBoost方法計(jì)算各個(gè)課程的權(quán)重參數(shù),融合學(xué)習(xí)得出綜合的課程模型。具體過程參閱1.4節(jié)內(nèi)容。
SPL算法以人的教學(xué)過程為背景,先從簡單樣本開始進(jìn)行訓(xùn)練,逐步引入復(fù)雜樣本,并在此基礎(chǔ)上考慮“學(xué)習(xí)者的反饋”。具體的過程如下。
對于訓(xùn)練數(shù)據(jù)集:


(1)
其中,參數(shù)λ用來控制學(xué)習(xí)進(jìn)度。
式(1)表明樣本的損失值受到相應(yīng)的權(quán)重值影響。SPL目的是使E(ωK,vK;λK)值最小。
通常用交替凸搜索 (Alternative Convex Search,ACS)方法[10]來求解式(1)。
為了實(shí)現(xiàn)多視角融合,本文用LPBoost[17-18]方法學(xué)習(xí)出每個(gè)視角下課程的權(quán)重參數(shù),即通過求解下面的線性過程[16]得到權(quán)重矩陣B:
(2)
(3)
i=1,2,…,n,yj≠yi
(4)
(5)
εi≥0,i=1,2,…,n
(6)


向訓(xùn)練好的分類器輸入待識(shí)別人體動(dòng)作數(shù)據(jù)集的多視角特征向量:


?

其中,D為待識(shí)別數(shù)據(jù)集的特征描述;xi表示第i個(gè)待識(shí)別樣本的特征向量;n為待識(shí)別數(shù)據(jù)集的長度。
該過程輸出每類動(dòng)作的識(shí)別結(jié)果:
(7)
其中,fs,yi(xi)表示xi樣本在s視角下的SPL模型所預(yù)測出的yi類別的值。
為了驗(yàn)證本文方法的識(shí)別效果,利用UTKinect-Action[19]和Florence3D-Action[20]2個(gè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。UTKinect-Action數(shù)據(jù)集包括扔、推、拉、揮手、鼓掌、行走、起立、坐下、撿起、搬運(yùn)10種動(dòng)作類型。 Florence3D-Action數(shù)據(jù)集包括喝水、接電話、拍手、系鞋帶、坐下、看手表、起立、鞠躬、揮手9種動(dòng)作。這2個(gè)數(shù)據(jù)庫提供了二維圖像數(shù)據(jù)、深度信息圖以及骨骼關(guān)節(jié)的位置數(shù)據(jù)。本文實(shí)驗(yàn)僅利用數(shù)據(jù)集的二維圖像數(shù)據(jù),即RGB圖片(如圖2所示),因?yàn)樵趯?shí)際應(yīng)用中很容易由普通攝像機(jī)獲取二維圖像數(shù)據(jù)。

圖2 UTKinect-Action數(shù)據(jù)集
2.2.1 實(shí)驗(yàn)設(shè)置
分別用單視角的SPL和SVM方法,以及基于上述2種方法的多視角融合方法進(jìn)行實(shí)驗(yàn),對UTKinect-Action數(shù)據(jù)集的199個(gè)動(dòng)作樣本進(jìn)行隨機(jī)處理,其中80個(gè)用作訓(xùn)練樣本,20個(gè)用作驗(yàn)證樣本,99個(gè)用作測試樣本。對Florence3D-Action數(shù)據(jù)集采用類似的設(shè)置。
2.2.2 最優(yōu)參數(shù)的選取
SVM常用交叉驗(yàn)證方法[21]獲取最優(yōu)的懲罰系數(shù)c和核函數(shù)半徑gamma。首先在一定的范圍內(nèi)對c和gamma取值,然后利用訓(xùn)練樣本和驗(yàn)證樣本進(jìn)行5-折交叉驗(yàn)證,得到此組c和gamma下由驗(yàn)證樣本得到的分類準(zhǔn)確率,最終取使驗(yàn)證數(shù)據(jù)集分類準(zhǔn)確率最高的一組c和gamma作為最佳的參數(shù)。為了統(tǒng)一標(biāo)準(zhǔn),在對同一視角的特征進(jìn)行分類實(shí)驗(yàn)時(shí),SPL和SVM 2種方法的參數(shù)c、gamma都采用相同的最優(yōu)參數(shù)設(shè)置。
表1和表2分別是UTKinect-Action數(shù)據(jù)集和Florence3D-Action數(shù)據(jù)集在利用驗(yàn)證樣本求得最優(yōu)參數(shù)后,在5種不同單一視角下的SVM和SPL分類準(zhǔn)確率、利用COM特征的SVM和SPL分類準(zhǔn)確率以及本文LPBoost融合方法的SVM和SPL分類準(zhǔn)確率。

表1 不同方法在UTKinect-Action數(shù)據(jù)集上的識(shí)別結(jié)果

表2 不同方法在Florence3D-Action數(shù)據(jù)集上的識(shí)別結(jié)果
2.3.1 分類器效果分析
在UTKinect-Action數(shù)據(jù)集上,對SVM、SPL以及本文多視角融合方法的SVM、SPL(以MSVM、MSPL(OURS)表示)4種分類器的效果進(jìn)行比較。對SVM、SPL分類器進(jìn)行比較時(shí),在表1中選取識(shí)別效果最好的視角特征HOF。由于SPL算法按照課程學(xué)習(xí)的思路,先從簡單樣本開始進(jìn)行訓(xùn)練,逐步引入復(fù)雜樣本,并在此基礎(chǔ)上考慮分類器的學(xué)習(xí)情況,因此理論上SPL的分類效果應(yīng)該比SVM好,同理,MSPL的分類效果比MSVM好。 從圖3的實(shí)驗(yàn)結(jié)果中可以看到,在相同的字典長度和視角下,SPL的分類效果都比SVM好,SPL比SVM的分類準(zhǔn)確率平均高5%左右。在相同字典長度下,MSPL的分類效果都比MSVM好,MSPL比MSVM的分類準(zhǔn)確率平均高5.3%左右,驗(yàn)證了課程學(xué)習(xí)思路的有效性。MSVM的分類準(zhǔn)確率都高于SVM,MSPL的分類準(zhǔn)確率都高于SPL,驗(yàn)證了多視角融合方法確實(shí)可以提升分類準(zhǔn)確率,且MSPL可以學(xué)到更加適合動(dòng)作識(shí)別問題的綜合課程。在字典長度比較小的情況下,SVM和SPL分類器對視角的選取比較敏感,此時(shí)多視角融合方法可以顯著提升分類器的識(shí)別效果。選取識(shí)別效果最好的視角特征時(shí),MSVM的分類準(zhǔn)確率比SVM平均高3%左右,MSPL的分類準(zhǔn)確率比SPL平均高5%左右。

圖3 分類器對識(shí)別結(jié)果的影響
2.3.2 融合方法分析
從圖4中可以看到,在相同的字典長度下,用本文融合方法(MSVM、MSPL)得到的識(shí)別準(zhǔn)確率都高于將多視角特征進(jìn)行簡單合并的融合方法(以CSVM、CSPL表示),驗(yàn)證了本文利用LPBoost進(jìn)行多視角融合的方法更加有效,且表明MSPL可以學(xué)到更適合解決動(dòng)作識(shí)別問題的綜合課程。

圖4 融合方法對識(shí)別結(jié)果的影響
2.3.3 字典長度分析
從表1實(shí)驗(yàn)結(jié)果可以分析出,當(dāng)字典長度增大時(shí),識(shí)別率普遍會(huì)有一個(gè)顯著的提升,因?yàn)樽值溟L度越大,特征描述越全面。但在字典長度達(dá)到一定大小后,識(shí)別率提升幅度減小,甚至趨于平穩(wěn)。隨著字典長度增加,計(jì)算時(shí)間相應(yīng)增大。所以,進(jìn)行動(dòng)作識(shí)別時(shí)需要合理選擇字典長度,綜合考慮識(shí)別效果和識(shí)別過程的耗時(shí)。
2.3.4 訓(xùn)練樣本長度分析
用UTKinect-Action和Florence3D-Action 2個(gè)數(shù)據(jù)集分別對SVM、SPL、MSVM和MSPL(OURS)進(jìn)行訓(xùn)練樣本長度分析實(shí)驗(yàn),字典長度設(shè)置為500個(gè)。
UTKinect-Action數(shù)據(jù)集共199個(gè)樣本,隨機(jī)選取訓(xùn)練樣本,樣本大小分別設(shè)置為40個(gè)、50個(gè)、60個(gè)、70個(gè)、80個(gè),選取99個(gè)測試樣本,其余為驗(yàn)證樣本。對于Florence3D-Action數(shù)據(jù)集采用類似的設(shè)置。實(shí)驗(yàn)結(jié)果如圖5所示。可以看出:隨著訓(xùn)練樣本長度的增大,SPL和MSPL 2種分類器的識(shí)別率相對較高且上升幅度較小,基本趨近平穩(wěn);SVM和MSVM 2種分類器得到的識(shí)別準(zhǔn)確率都呈現(xiàn)明顯的上升趨勢,但大小仍明顯低于SPL和MSPL。實(shí)驗(yàn)結(jié)果表明,SPL和MSPL的魯棒性較好,尤其針對有標(biāo)簽的訓(xùn)練樣本比較少時(shí),仍能保持比較穩(wěn)健的性能,再次驗(yàn)證了本文MSPL分類器的識(shí)別效果優(yōu)于其他3種分類器(SVM、SPL、MSVM)。

圖5 多視角融合方法中訓(xùn)練樣本長度對識(shí)別結(jié)果的影響
2.3.5 參數(shù)敏感度分析
本文在UTKinect-Action數(shù)據(jù)集(500個(gè)單詞的字典長度)上,測試SVM、SPL、MSVM、MSPL 4種分類器對c和gamma2個(gè)參數(shù)的敏感度。從圖6可以看到,SVM分類器的識(shí)別結(jié)果隨著參數(shù)c和gamma變化的波動(dòng)范圍較大,SPL分類器的識(shí)別結(jié)果隨著參數(shù)c和gamma變化的波動(dòng)范圍減小,說明SPL較SVM對參數(shù)不敏感,自身魯棒性較好。MSVM分類器對參數(shù)的敏感性與SVM相似,MSPL分類器對參數(shù)的敏感性與SPL相似,MSPL分類器較MSVM分類器魯棒性更好。

圖6 UTKinect-Action數(shù)據(jù)集在不同分類器下的識(shí)別結(jié)果對比
本文改進(jìn)SPL動(dòng)作識(shí)別算法,提出基于MSPL模型的人體兩維視頻動(dòng)作識(shí)別方法。該方法在保留SPL本身優(yōu)良特性的基礎(chǔ)上,能夠融合各個(gè)不同視角下學(xué)習(xí)的課程,獲取更適合解決動(dòng)作識(shí)別問題的綜合課程,從而提高動(dòng)作識(shí)別的準(zhǔn)確率。在2個(gè)識(shí)別難度較高的多類復(fù)雜動(dòng)作數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明本文算法具有較高的準(zhǔn)確率與魯棒性。此外,本文選取的5個(gè)視角動(dòng)作特征僅需使用普通兩維攝像機(jī)即可獲取,無需升級現(xiàn)有視頻捕獲設(shè)備,相較于依靠三維特征信息的動(dòng)作識(shí)別方法,具有成本低廉、實(shí)時(shí)性高和數(shù)據(jù)處理量小等優(yōu)點(diǎn),可應(yīng)用于道路暴力行為監(jiān)控、商場偷竊行為監(jiān)測等領(lǐng)域。本文將各個(gè)視角下單獨(dú)學(xué)習(xí)的基礎(chǔ)課程進(jìn)行融合,但每個(gè)視角下課程的內(nèi)容有一定的聯(lián)系性,因此,后續(xù)的工作將集中于挖掘每個(gè)課程之間的聯(lián)系,同時(shí)聯(lián)合學(xué)習(xí)得出更全面高效的課程。
[1] 羅會(huì)蘭,馮宇杰,孔繁勝.融合多姿勢估計(jì)特征的動(dòng)作識(shí)別[J].中國圖象圖形學(xué)報(bào),2015,20(11):1462-1472.
[2] LIU J,ALI S,SHAH M.Recognizing Human Actions Using Multiple Features[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recog-nition.Washington D.C.,USA:IEEE Press,2008:1-8.
[3] NEVATIA R,ZHAO T,HONGENG S.Hierarchical Language-based Representation of Events in Video Streams[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition Workshop.Washington D.C.,USA:IEEE Press,2003:38-39.
[4] YAMATO J,OHYA J,ISHII K.Recognizing Human Action in Time-sequential Images Using Hidden Markov Model[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C.,USA:IEEE Press,1992:379-385.
[5] SHI Q,CHENG L,WANG L,et al.Human Action Segmentation and Recognition Using Discriminative Semi-markov Models[J].International Journal of Computer Vision,2011,93(1):22-32.
[6] 朱國剛,曹 林.基于Kinect傳感器骨骼信息的人體動(dòng)作識(shí)別[J].計(jì)算機(jī)仿真,2014,31(12):329-333.
[7] NATARAIAN P,NEVATIA R.View and Scale Invariant Action Recognition Using Multiview Shape-flow Models[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C.,USA:IEEE Press,2008:1-8.
[8] BENGIO Y,LOURADOUR J,COLLOBERT R,et al.Curriculum Learning[C]//Proceedings of the 26th Annual International Conference on Machine Learning.New York,USA:ACM Press,2009:41-48.
[9] BENGIO Y,COURVILLE A,VINCENT P.Representation Learning:A Review and New Perspectives[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(8):1798-1828.
[10] KUMAR M P,PACKER B,KOLLER D.Self-paced Learning for Latent Variable Models[C]//Proceedings of the 23th Annual Conference on Neural Information Processing Systems.Cambridge,USA:MIT Press,2010:1189-1197.
[11] JIANG L,MENG D,YU S I,et al.Self-paced Learning with Diversity[C]//Proceedings of the 27th Annual Conference on Neural Information Processing Systems.Cambridge,USA:MIT Press,2014:2078-2086.
[12] WANG H,KLASER A,SCHMID C,et al.Dense Trajectories and Motion Boundary Descriptors for Action Recognition[J].International Journal of Computer Vision,2013,103(1):60-79.
[13] DALAL N,TRIGGS B.Histograms of Oriented Gradients for Human Detection[C]//Proceedings of IEEE Con-ference on Computer Vision and Pattern Recognition.Washington D.C.,USA:IEEE Press,2005:886-893.
[14] LAPTEV I,MARSZALEK M,SCHMID C.Learning Realistic Human Actions from Movies[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C.,USA:IEEE Press,2008:1-8.
[15] DALAL N,TRIGGA B,SCHMID C.Human Detection Using Oriented Histograms of Flow and Appearance[C]//Proceedings of European Conference on Computer Vision.Berlin,Germany:Springer,2006:428- 444.
[16] GEHLER P V,NOWOZIN S.Let the Kernel Figure It out:Principled Learning of Preprocessing for Kernel Classi-fiers[C]//Proceedings of IEEE Conference on Computer Vision.Washington D.C.,USA:IEEE Press,2009:2836-2843.
[17] 許允喜,蔣云良,陳 方.基于支持向量機(jī)增量學(xué)習(xí)和LPBoost的人體目標(biāo)再識(shí)別算法[J].光子學(xué)報(bào),2011,40(5):758-763.
[18] 方育柯,傅 彥,周俊臨,等.基于選擇性集成的最大化軟間隔算法[J].軟件學(xué)報(bào),2013,34(5):1132-1147.
[19] XIA L,CHEN C C,AGGARWAL J K.View Invariant Human Action Recognition Using Histograms of 3D Joints[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition Workshops.Washington D.C.,USA:IEEE Press,2012:20-27.
[20] SEIDENARI L,VARANO V,BERRETTI S,et al.Recognizing Actions from Depth Cameras as Weakly Aligned Multi-part Bag-of-poses[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition Workshops.Washington D.C.,USA:IEEE Press,2013:479-485.
[21] 湯榮志,段會(huì)川,孫海濤.SVM訓(xùn)練數(shù)據(jù)歸一化研究[J].山東師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,31(4):60-65.