張穎 李英杰











摘要:視頻中人類行為的跟蹤和識別是計(jì)算機(jī)視覺的重要任務(wù)。視頻中特征提取和建模是識別行為的關(guān)鍵問題。研究基于時(shí)間幀差的特征提取方法和行為識別的方法。首先,對相鄰視頻幀計(jì)算幀差圖像,再計(jì)算幀差圖像的光流,形成幀差序列和光流序列;然后,從幀差序列和光流序列中提取一組特征;最后,利用隱馬爾可夫模型進(jìn)行建模和識別。方法在Weizmann數(shù)據(jù)庫和KTH數(shù)據(jù)庫上分別獲得了97.2%和85%的識別精度,驗(yàn)證了提出特征的性能,并驗(yàn)證了時(shí)間幀差圖像對行為識別的有效性。另外,通過對一些特殊動作視頻的測試,驗(yàn)證了提出方法的魯棒性。
關(guān)鍵詞:時(shí)間幀差;人類行為;光流;隱馬爾可夫模型
中圖分類號:TP311? ? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2023)35-0033-05
開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID)
0 引言
視頻中人類的行為分析是計(jì)算機(jī)視覺的一個(gè)重要領(lǐng)域,有很多潛在應(yīng)用,例如智能監(jiān)控、無人駕駛、基于內(nèi)容的視頻檢索和智能建筑等[1]。構(gòu)建一個(gè)像人類一樣,在復(fù)雜場景中具有無與倫比的識別能力,的系統(tǒng),是人工智能的夢想。
傳統(tǒng)的行為識別方法,大多數(shù)研究都集中在特征提取和描述上,例如:時(shí)空興趣點(diǎn)、外觀特征、光流等。近年來,隨著深度學(xué)習(xí)技術(shù)研究的不斷深入,其技術(shù)在視頻中人的行為識別方面的研究層出不窮。包括卷積神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)等均可應(yīng)用在行為的建模中[2-3]。當(dāng)然,傳統(tǒng)的行為識別方法的研究仍在深入進(jìn)行,并且,傳統(tǒng)方法與基于深度學(xué)習(xí)的方法也有互相補(bǔ)充和融合的趨勢。傳統(tǒng)的視頻中人的行為識別方法通常分為幾個(gè)過程,包括特征提取、行為建模和行為識別。本文基于傳統(tǒng)方法,重點(diǎn)研究在視頻中適宜行為識別的特征。
視頻是識別的數(shù)據(jù)來源。當(dāng)攝像頭固定時(shí),通過不同時(shí)間幀的差獲得的幀差圖像可用于表示運(yùn)動的差,而不是整個(gè)身體的運(yùn)動。幀差圖像中許多特征細(xì)節(jié)(如顏色、紋理和體型)都會丟失[4]。另外,當(dāng)物體停止移動時(shí),它無法檢測到物體。所以,幀差一般與其他特征相結(jié)合才可能較全面地描述運(yùn)動。然而,本文研究表明,只基于幀差圖像,能夠獲得足夠的特征,以有效地識別行為。
1 方法與相關(guān)工作
1.1 方法
本文的研究結(jié)合幀差圖像和幀差的光流提取特征,進(jìn)行視頻中行為的建模與識別,其具體的流程如圖1所示。
首先,通過連續(xù)視頻幀相減并設(shè)定閾值來獲取幀差序列。每個(gè)幀差圖像都是一個(gè)二值圖像;之后,計(jì)算連續(xù)幀差圖像的光流;再從幀差圖像和光流圖像中提取特征向量。提取的特征主要是外觀特征和運(yùn)動特征;之后,從特征向量序列中學(xué)習(xí)并建立每種行為的HMM模型。對于新的視頻片段,通過前面的步驟獲取其特征向量序列,并通計(jì)算與每類HMM模型的似然來識別其中的行為。
本文方法與已有的研究方法相比,有兩個(gè)方面不同。首先,方法中所有特征都完全從時(shí)間幀差序列中提取;其次,從時(shí)間幀差序列及其光流中分別提取的特征進(jìn)行組合,以提高行為表征的準(zhǔn)確性和魯棒性。
1.2 基于外觀表征行為的方法
多年來,基于外觀的特征在識別人類行為方面發(fā)揮著作用,而區(qū)域和輪廓是外觀的直觀表示[4]。通常,特征是從前景區(qū)域或輪廓中提取的,并表示為每個(gè)幀的姿勢[4]。
Hota 等人在監(jiān)控視頻中測試了有助于區(qū)分人與其他物體的特征[5]。其研究表明,許多基于外觀的特征有助于識別人的形狀,例如:胡不變矩、最小外接矩形(Minimum Bounding Rectangle,MBR)的高度與寬度比、填充率(MBR內(nèi)前景點(diǎn)面積與MBR面積的比率)以及周長等。當(dāng)然,基于外觀的方法可能會受視點(diǎn)、遮擋、縮放和個(gè)體變化的影響[4-5]。
1.3 基于興趣點(diǎn)的功能
空間興趣點(diǎn)提供了圖像中特殊點(diǎn)的緊湊和抽象表示,并且它們是比例不變的。它們能夠在存在遮擋和動態(tài)背景的情況下實(shí)現(xiàn)檢測事件[6-7]。Ivan Laptev等人基于Harris和Forstner的方法提出了新的興趣點(diǎn)提取方法[7]。
1.4 光流計(jì)算
光流表達(dá)兩個(gè)圖像之間的像素運(yùn)動。兩個(gè)圖像通常是視頻中兩個(gè)連續(xù)幀。光流以流表示第一張圖像中每一個(gè)像素映射到第二張圖像中對應(yīng)的像素的位移。Horn和Schunck提出了光流的計(jì)算方法,其假設(shè)像素灰度值在連續(xù)幀之間變化最小,并使用全局平滑[8]。然而,在運(yùn)動邊界、平滑區(qū)域或者大位移運(yùn)動過程的光流計(jì)算會出現(xiàn)模糊和殘留問題。因此,一些新方法和改進(jìn)方法被提出。例如,對于人體運(yùn)動問題,由于人體是多關(guān)節(jié)體和非剛性的,可能會產(chǎn)生較大的位移。Lu和Liu使用哈里斯點(diǎn)來補(bǔ)償變分光流場[9]。基于塊匹配的方法也是一種可以處理大位移的匹配方法[10]。
1.5 HMM模型
馬爾可夫鏈(Markov chain)是一種隨機(jī)過程,該過程由有限歷史約束的狀態(tài)組成。這意味下一狀態(tài)的概率分布只由當(dāng)前狀態(tài)決定,在時(shí)間序列中,再前面的事件均與下一狀態(tài)無關(guān)。隱馬爾可夫模型(Hidden Markov Model, HMM)是一種統(tǒng)計(jì)模型,其中假設(shè)正在建模的系統(tǒng)是具有隱藏狀態(tài)的馬爾可夫過程。雖然人類行為并不嚴(yán)格符合有限歷史狀態(tài)約束,但許多研究表明,HMM可以正確模擬人類行為[11]。
HMM模型由5元組指定:μ=(S,Q,∏,A,B),其中S和Q分別是狀態(tài)和觀測值的集合[12]。∏是原始狀態(tài)概率的集合。A 是表示狀態(tài)之間轉(zhuǎn)移概率的矩陣。B是一個(gè)矩陣,表示從狀態(tài)到觀測值的傳遞概率。當(dāng)觀測序列具有相同的行為標(biāo)簽時(shí),可以通過最大化概率 P(Q|μ)來訓(xùn)練模型μ。不同行為的模型,表示為 {μ1,μ2,...,μi,...},可以使用相應(yīng)的觀測值進(jìn)行訓(xùn)練。使用不帶標(biāo)簽的觀測值,可以計(jì)算最大似然將其分類。基于從視頻中獲取的特征向量序列,HMM訓(xùn)練和識別流程如圖2所示。
2 時(shí)間幀差和幀差的光流計(jì)算
2.1 Weizman行為數(shù)據(jù)庫
Weizman行為數(shù)據(jù)庫,是一個(gè)經(jīng)典的人的行為識別的視頻數(shù)據(jù)庫[13]。數(shù)據(jù)庫中的視頻有十種行為,分別是:bending, jumping jack, jumping, jumping in place (pjump), running, jumping sideways, skipping, walking, one hand waving (wave1), and two hands waving (wave2)。每個(gè)行為分別有由10個(gè)人表演的視頻段。視頻幀速度為25幀/秒,每幀144*188像素。視頻是用固定攝像機(jī)拍攝的。數(shù)據(jù)庫中提供了每個(gè)視頻的確切背景圖像,因此可以方便地使用背景減法來獲取完整的前景圖像。以下敘述中的實(shí)驗(yàn)數(shù)據(jù)來源于此數(shù)據(jù)庫中的視頻。
2.2 時(shí)間幀差
通過在包含運(yùn)動對象的視頻中的兩個(gè)相鄰幀之間相減,會在差的圖像中獲得兩組點(diǎn)。一組點(diǎn)值為正,另一組點(diǎn)值為負(fù)。經(jīng)過閾值估計(jì)過程后,它們被投影到時(shí)差圖像中的兩條邊。如果只使用一組中的點(diǎn),例如,只保留具有正值的點(diǎn),則將得到半時(shí)差圖像。如果使用二組點(diǎn)將獲得全差分圖像。為了感知前景圖像、時(shí)間幀差圖像和半時(shí)差圖像之間的差異,圖3顯示了一些樣本。
在圖3中,時(shí)間幀差圖像中檢測到動作時(shí)刻運(yùn)動部分的近似輪廓,不動的部分丟失了。半幀差圖像保留了大約一半的運(yùn)動輪廓,丟失了更多的運(yùn)動信息。但是,后面將驗(yàn)證,在半時(shí)間幀差序列中仍然包含識別行為的有效信息,并且可以簡化光流的計(jì)算。因此,半時(shí)間幀差序列將作為本文工作的基礎(chǔ)。下文中,為敘述簡潔,“半時(shí)間幀差”將簡稱為“時(shí)間幀差”,不再強(qiáng)調(diào)“半”。
2.3 幀差的光流計(jì)算
欲計(jì)算時(shí)間幀差序列的光流,前述的光流計(jì)算方法可能存在局限性,可能的原因如下:
1)時(shí)間幀差圖像是二值的。任何前景區(qū)域點(diǎn)和任何背景區(qū)域點(diǎn)之間的灰度值都是相同的。無論是通過變分方法還是基于塊的方法,這兩個(gè)區(qū)域都可能引入不正確的匹配。
2)通過全局平滑,即使涉及各向異性懲罰,運(yùn)動邊緣也會嚴(yán)重模糊。
3)時(shí)間幀差的前景范圍小于序列圖像中的前景范圍,并且時(shí)間幀差序列中沒有背景運(yùn)動問題。
所以,光流計(jì)算可以簡化。因此,提出了一種新的方法來估計(jì)相鄰時(shí)間幀差圖像之間的光流。它描述如下:
1)通過兩個(gè)質(zhì)心的位移在前景區(qū)域中建立非常原始的流動。
2)將第一個(gè)圖像和第二個(gè)圖像劃分為大小相同的網(wǎng)格,例如 9×9 網(wǎng)格。計(jì)算相應(yīng)網(wǎng)格質(zhì)心的前景位移,并通過其位移修改每個(gè)網(wǎng)格中的原始流。但是,零位移網(wǎng)格中的原始流被保留。在此過程中忽略所有背景點(diǎn)的流。
3)計(jì)算每個(gè)圖像的哈里斯角,匹配角點(diǎn),并修改匹配點(diǎn)的流。哈里斯角點(diǎn)由一階曲率估計(jì),并且對尺度和仿射變換不變[14]。一些在前一個(gè)步驟中無法反映的拐角運(yùn)動預(yù)計(jì)將通過此步驟進(jìn)行調(diào)整。
4)在前景中平滑。
圖4中,第2行顯示的是用傳統(tǒng)方法計(jì)算出的幀差的光流,可以看到其中方向和邊緣模糊。第3行顯示的是新方法計(jì)算得到的光流。可以看到,大多數(shù)流向量的方向和速度都正確,邊緣沒有模糊。
3 特征向量提取
為了減少縮放的影響,即從相機(jī)到物體的距離變化,引入了最小正接矩形(Upgrade Minimum Bounding Rectangle,UMBR)。UMBR 是一個(gè)包含所有前景點(diǎn)的框,并且與坐標(biāo)垂直。引入U(xiǎn)MBR,是假設(shè)拍攝視頻的攝像機(jī)與地面垂直。
參考人類對行為的感知,從時(shí)間幀差和相應(yīng)的光流場中定義了幾個(gè)統(tǒng)計(jì)特征,用于表征行為。提取出的特征用符號M=(m1, m2, ..., mk)表示。下標(biāo) 1, 2, ..., k,僅用于特征索引,特征順序無關(guān)緊要。光流場表示為U,其中的矢量表示為(u,v)。
3.1 四個(gè)方向的速度特征
光流表征的是前景中每個(gè)點(diǎn)的運(yùn)動方向和速度。人類可以感知運(yùn)動總量和細(xì)節(jié)。雖然捕獲所有細(xì)節(jié)可以更準(zhǔn)確地表示動作,但計(jì)算更復(fù)雜,并且可能對噪聲點(diǎn)更敏感。因此,本文的方法只計(jì)算運(yùn)動總量。首先將速度方向分為四個(gè),如圖5(1)所示。從一個(gè)光流場U中,計(jì)算四個(gè)方向的總速度的和,如公式(1)。再獲取光流場中所有前景點(diǎn)的UMBR。之后,將四個(gè)方向的總速度除以UMBR的對角線長度以進(jìn)行標(biāo)準(zhǔn)化。這樣,對于一個(gè)光流場,產(chǎn)生了前4個(gè)特征,就是m1~m4。
V1,2,3,4 =SUM(u+, u-, v+, v-)? (1)
3.2 運(yùn)動方向分布特征
人類身體不同部分的運(yùn)動方向分布可以表示不同的動作。增加身體每個(gè)部位的運(yùn)動方向分布特征可以增強(qiáng)動作識別的效果。但分割身體部位可能只在特定的場景中才能完成。從時(shí)間幀差圖像中分割身體部位更加困難。此外,收集所有方向的統(tǒng)計(jì)分布很復(fù)雜,也會產(chǎn)生高維數(shù)據(jù)。本文方法中把方向分為八個(gè),如圖5(b)所示,每個(gè)方向是一個(gè)扇區(qū)。在一個(gè)光流場U中,計(jì)算八方向直方圖以指示運(yùn)動方向分布,計(jì)算如公式(2)。再計(jì)算U的前景面積。之后,用八方向向量的點(diǎn)個(gè)數(shù)除以前景面積,進(jìn)行標(biāo)準(zhǔn)化。這樣,對于一個(gè)光流場,獲取了另外8個(gè)特征,就是m5~m12。
[dk=count(u,v)∈sectionk(u,v)]? ? (2)
到目前為止,基于一幅幀差的光流場獲得了12個(gè)特征,是m1~m12。那么,從一段視頻中可以獲得一組,具有12個(gè)特征的矢量序列。這個(gè)序列表征的是運(yùn)動特征。
3.3 基于外觀的特征
為了進(jìn)一步增強(qiáng)行為特征的可區(qū)分性,引入了一些外觀特征,這些特征將來源于幀差圖像的前景。Gupta等提出了一種用于表示閉合形狀的描述符如圖6(a)所示。其方法中以質(zhì)心與形狀的所有輪廓像素點(diǎn)之間的歐氏距離的序列來表示形狀[15]。為了避免數(shù)據(jù)維數(shù)過大,將方向劃分了8區(qū)間,如圖6的(b)所示。其中坐標(biāo)表示為(col,row),原點(diǎn)設(shè)置為前景區(qū)域的質(zhì)心。對每個(gè)區(qū)間,采集質(zhì)心與輪廓像素之間的最遠(yuǎn)距離。之后,將距離除以UMBR的對角線長度進(jìn)行標(biāo)準(zhǔn)化,得到m13~m20 。利用這些特征,可以粗略地表征身體部位的延伸和縮進(jìn)。需要說明的是,圖9中使用完整的前景圖像作為示例圖像,以清楚地表達(dá)描述符的概念。本文工作中,提取m13~m20時(shí)是取之于幀差圖像。幀差圖像是二值圖像,其中前景區(qū)塊可能有不連續(xù)問題。在計(jì)算質(zhì)心、面積和UMBR時(shí),所有前景點(diǎn)將視為一個(gè)區(qū)域。
圖6(a) 中箭頭表示從質(zhì)心到輪廓上的像素的距離。(b)完整前景圖像的行列軸及其方向分布示意圖。圖6(b) 中原點(diǎn)設(shè)置在質(zhì)心,分8個(gè)方向,三個(gè)箭頭表示 2、3 和 4 方向的最遠(yuǎn)距離。
另外,為了估計(jì)像素分布,按圖6(b)中8個(gè)方向區(qū)域劃分,計(jì)算幀差圖像中每個(gè)區(qū)域的像素計(jì)數(shù)。并將像素計(jì)數(shù)除以前景區(qū)域面積進(jìn)行標(biāo)準(zhǔn)化。結(jié)果是m21~m28。
至此,從幀差圖像序列中提取出向量m13~m28序列,用于表征外觀形狀特征;從光流序列中提取出向量m1~m12序列,用于表征運(yùn)動特征。特征向量序列m1~m28將用于HMM建模和識別行為。
4 實(shí)驗(yàn)和討論
使用本文方法,在Weizmann數(shù)據(jù)庫和KTH數(shù)據(jù)庫上進(jìn)行了一系列實(shí)驗(yàn)。實(shí)驗(yàn)包括分類測試、特征貢獻(xiàn)測試和魯棒性測試,另外,還與一些相關(guān)方法進(jìn)行了比較。
4.1 在Weizmann數(shù)據(jù)庫上的分類精度測試
Weizmann數(shù)據(jù)庫包含10個(gè)行為,每個(gè)行為由9個(gè)人表演,那么,其中有90個(gè)視頻。從實(shí)驗(yàn)上講,每個(gè)視頻段中包含15 幀,就足以識別其中的行為。因此,實(shí)驗(yàn)中將90個(gè)視頻劃分成更多的視頻段,以產(chǎn)生更多的訓(xùn)練和測試數(shù)據(jù)。對于視頻段,從中獲取28個(gè)特征的序列,每個(gè)序列的大小為 28×15。由于人類的行為是對稱的,例如:如從左到右跑,從右到左跑;揮動右手和揮舞左手等。為了在不重復(fù)的情況下獲得更多數(shù)據(jù),每個(gè)序列都生成一個(gè)逆特征序列。
下面的測試遵循留一策略:從一個(gè)行為序列中選擇一個(gè)隨機(jī)序列作為測試序列,其他序列將用于訓(xùn)練該行為的HMM。每次運(yùn)行測試,利用訓(xùn)練序列,訓(xùn)練并構(gòu)建10個(gè)行為的HMM。之后,對保留的10個(gè)序列(每種行為保留1個(gè)序列,共10個(gè)序列)進(jìn)行測試,識別它們分別屬于哪個(gè)行為。為了減少隨機(jī)因素的影響,進(jìn)行了100次運(yùn)行測試。最終,獲得了97.2%的識別準(zhǔn)確率。圖7所示的混淆矩陣展示了更多細(xì)節(jié)。從中可以看到“run”和“skip”之間混淆較大。當(dāng)然,這兩個(gè)行為在肢體的速度和運(yùn)動上非常相似。
表1展示了本文方法與相關(guān)研究的對比。對比的研究有:Saad Ali等人的方法、Kaiqi Huang等人的方法,以及Moshe Blank等人的方法[13,16-17]。表中展示的都是在Weizmann行為數(shù)據(jù)庫上的實(shí)驗(yàn)結(jié)果。可以看出,本文方法的性能與其他方法的性能相當(dāng)。盡管本文方法在分類精度上不是最好的方法。但是,本文方法的所有特征都是來源于幀差序列,計(jì)算量少于其他方法。
4.2 特征貢獻(xiàn)測試
為了測試不同特征的貢獻(xiàn),利用之前從Weizmann數(shù)據(jù)庫中獲取的特征序列集,構(gòu)造了不同特征的子集。測試了不同子集的性能,結(jié)果如圖8所示。x 軸顯示特征子集的構(gòu)成,y軸顯示相應(yīng)的分類精度。從中看出,貢獻(xiàn)最大的單個(gè)特征是像素分布,綜合的外觀特征對分類的貢獻(xiàn)也很突出。另外可以看出,對于行為識別,所有特征,即外觀特征和運(yùn)動特征的組合,與單獨(dú)的外觀特征相比并沒有更多貢獻(xiàn)。當(dāng)然,在后面的實(shí)驗(yàn)中可以看到運(yùn)動特征對魯棒性的貢獻(xiàn)。
特征有:速度(m1~m4)、運(yùn)動方向分布 (m5~m12)、運(yùn)動特征(m1~m12)、形狀(m13~m20)、像素分布(m21~m28)、外觀特征(m13~m28)和全部特征 (m1~m28)。
4.3 魯棒性試驗(yàn)
Weizmann數(shù)據(jù)庫中有一組特殊的步行視頻,其中包含一些非常規(guī)的步行活動。包括:_briefcase(拎公文包行走),_dog(與狗一起散步),_nofeet(行走時(shí)用盒子遮擋腳),_skirt(穿裙子行走),_moonwalk(像慢動作一樣行走),_limp(跛行),_bag(提個(gè)袋子行走)。HMM 使用之前的普通Weizmann數(shù)據(jù)庫進(jìn)行訓(xùn)練。在非規(guī)則行走視頻段上進(jìn)行分類測試,結(jié)果如表2所示。可以看出,運(yùn)動特征在識別上比外觀特征更魯棒。通過組合外觀特征與運(yùn)動特征,提高了識別方法的魯棒性。
4.4 KTH數(shù)據(jù)庫分類實(shí)驗(yàn)
KTH行動數(shù)據(jù)庫是另一個(gè)經(jīng)典的行為數(shù)據(jù)集,其中包含六個(gè)動作[18]。他們是: boxing,handclapping,handwaving,jogging,running和walking。每個(gè)動作由25個(gè)人在4個(gè)不同的場景中進(jìn)行。這是一個(gè)具有挑戰(zhàn)性的用于行為識別的數(shù)據(jù)集,因?yàn)槠渲械男袨楸硌輬鼍氨容^多樣,例如:穿不同服裝、帶包、光線變化、視角變化和縮放等。通過本文方法對該數(shù)據(jù)集進(jìn)行測試,識別精度達(dá)到85%,如圖9所示。
5 結(jié)論
提出一種基于時(shí)間幀差的用于識別視頻中行為識別的新方法。新方法中綜合了運(yùn)動和外觀特征。本文工作的主要貢獻(xiàn)總結(jié)如下:
1)基于時(shí)間幀差序列,提出運(yùn)動與外觀相結(jié)合的特征集,并驗(yàn)證了其識別行為的有效性。
2)提出了一種基于時(shí)間幀差序列計(jì)算光流的方法。
3)通過對非常規(guī)步行集的測試,驗(yàn)證了基于時(shí)間幀差的運(yùn)動特征比基于外觀的特征在動作識別方面魯棒性更強(qiáng)。
人類可以在復(fù)雜的場景中評估信息并快速識別行為。挖掘人類的深層意識,并開發(fā)更有效、更強(qiáng)大的動作描述方法是我們的長期目標(biāo)。
參考文獻(xiàn):
[1] 劉鎖蘭,田珍珍,王洪元,等.基于單模態(tài)的多尺度特征融合人體行為識別方法[J].計(jì)算機(jī)應(yīng)用,2023,43(10):3236-3243.
[2] 朱煜,趙江坤,王逸寧,等.基于深度學(xué)習(xí)的人體行為識別算法綜述[J].自動化學(xué)報(bào),2016,42(6):848-857.
[3] 黃勇康,梁美玉,王笑笑,等.基于深度時(shí)空殘差卷積神經(jīng)網(wǎng)絡(luò)的課堂教學(xué)視頻中多人課堂行為識別[J].計(jì)算機(jī)應(yīng)用,2022,42(3):736-742.
[4] REVATHI A R,KUMAR D.A survey of activity recognition and understanding the behavior in video survelliance[EB/OL].2012:arXiv:1207.6774.https://arxiv.org/abs/1207.6774.pdf
[5] HOTA R N,VENKOPARAO V,RAJAGOPAL A.Shape based object classification for automated video surveillance with feature selection[C]//Proceedings of the 10th International Conference on Information Technology.ACM,2007:97-99.
[6] LAPTEV I,LINDEBERG T.Velocity adaptation of space-time interest points[C]//Proceedings of the 17th International Conference on Pattern Recognition,2004.ICPR 2004.August 26,2004.Cambridge,UK.IEEE,2004.
[7] LAPTEV,LINDEBERG.Space-time interest points[C]//Proceedings Ninth IEEE International Conference on Computer Vision.October 13-16,2003.Nice,F(xiàn)rance.IEEE,2003.
[8] HORN B K P,SCHUNCK B G.Determining optical flow[J].Artificial Intelligence,1981,17(1/2/3):185-203.
[9] LU Z Y,LIU W.The compensated HS optical flow estimation based on matching Harris corner points[C]//Proceedings of the 2010 International Conference on Electrical and Control Engineering.ACM,2010:2279-2282.
[10] KITT B,RANFT B,LATEGAHN H.Block-matching based optical flow estimation with reduced search space based on geometric constraints[C]//13th International IEEE Conference on Intelligent Transportation Systems.September 19-22,2010.Funchal,Madeira Island,Portugal.IEEE,2010.
[11] AHMAD M,LEE S W.HMM-based human action recognition using multiview image sequences[C]//18th International Conference on Pattern Recognition (ICPR'06).Hong Kong,China.IEEE,2006.
[12] Kevin Murphy. Bayes net toolbox for Matlab[EB/OL].[2020-09-12].? http://www.cs.ubc.ca/~murphyk/Software/HMM/hmm_ usage.html.
[13] BLANK M,GORELICK L,SHECHTMAN E,et al.Actions as space-time shapes[C]//Tenth IEEE International Conference on Computer Vision (ICCV'05) Volume 1.October 17-21,2005.Beijing,China.IEEE,2005.
[14] HARRIS C,STEPHENS M.A combined corner and edge detector[C]//Proceedings ofthe Alvey Vision Conference 1988.Manchester.Alvey Vision Club,1988.
[15] GUPTA L,SRINATH M.Invariant planar shape recognition using dynamic alignment[C]//ICASSP '87.IEEE International Conference on Acoustics,Speech,and Signal Processing.Dallas,TX,USA.Institute of Electrical and Electronics Engineers,1987.
[16] ALI S,SHAH M.Human action recognition in videos using kinematic features and multiple instance learning[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(2):288-303.
[17] HUANG K Q,WANG S Q,TAN T N,et al.Human behavior analysis based on a new motion descriptor[J].IEEE Transactions on Circuits and Systems for Video Technology,2009,19(12):1830-1840.
[18] SCHULDT C,LAPTEV I,CAPUTO B.Recognizing human actions:a local SVM approach[C]//Proceedings of the 17th International Conference on Pattern Recognition,2004.ICPR 2004.August 26,2004.Cambridge,UK.IEEE,2004.
【通聯(lián)編輯:光文玲】