999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

人的視覺行為識別研究回顧、現狀及展望

2016-04-28 08:55:02單言虎黃凱奇
計算機研究與發展 2016年1期
關鍵詞:綜述

單言虎 張 彰 黃凱奇

(模式識別國家重點實驗室(中國科學院自動化研究所) 北京 100080)

(yanhu.shan@nlpr.ia.ac.cn)

?

人的視覺行為識別研究回顧、現狀及展望

單言虎張彰黃凱奇

(模式識別國家重點實驗室(中國科學院自動化研究所)北京100080)

(yanhu.shan@nlpr.ia.ac.cn)

Visual Human Action Recognition: History, Status and Prospects

Shan Yanhu, Zhang Zhang, and Huang Kaiqi

(NationalLaboratoryofPatternRecognition(InstituteofAutomation,ChineseAcademyofSciences),Beijing100080)

AbstractHuman action recognition is an important issue in the field of computer vision. Compared with object recognition in still images, human action recognition has more concerns on the spatio-temporal motion changes of interesting objects in image sequences. The extension of 2D image to 3D spatio-temporal image sequence increases the complexity of action recognition greatly, Meanwhile, it also provides a wide space for various attempts on different solutions and techniques on human action recognition. Recently, many new algorithms and systems on human action recognition have emerged, which indicates that it has become one of the hottest topics in computer vision. In this paper, we propose a taxonomy of human action recognition in chronological order to classify action recognition methods into different periods and put forward general summaries of them. Compared with other surveys, the proposed taxonomy introduces human action recognition methods and summarizes their characteristics by analyzing the action dataset evolution and responding recognition methods. Furthermore, the introduction of action recognition datasets coincides with the trend of big data-driven research idea. Through the summarization on related work, we also give some prospects on future work.

Key wordscomputer vision; action recognition; spatio-temporal motion; dataset evolution; survey

摘要人的行為識別是計算機視覺領域中的重點研究問題之一.相對于靜態圖像中物體識別研究,行為識別更加關注如何感知感興趣目標在圖像序列中的時空運動變化.視覺行為的存在方式從二維空間到三維時空的擴展大大增加了行為表達及后續識別任務的復雜性,同時也為視覺研究者提供了更廣闊的空間以嘗試不同的解決思路和技術方法.近年來,人的行為識別相關工作層出不窮,已成為計算機視覺研究中的熱點方向.以時間為順序,對從21世紀初至今約15年中出現的視覺行為識別研究方法進行了梳理、歸類和總結.相比其他綜述性文章,以不同時期人的行為識別數據庫的演化為線索,介紹不同時期行為識別研究所關注的研究重點問題和主要研究思路,能更清晰直觀地體現行為識別研究的發展歷程.同時,以數據庫演化歷程為順序介紹行為識別,能更好地呼應當前視覺領域愈來愈受人關注的大數據驅動的研究思路.通過對相關工作的梳理和總結,還對今后行為識別研究的發展方向做出展望,希望對各位研究者方向把握上提供一些幫助.

關鍵詞計算機視覺;行為識別;時空運動;數據庫演化;綜述

自古以來,人類就利用自身的智慧,試圖讓機器代替人類勞動.尤其是第1臺電子計算機的出現,使得人類可以有機會利用計算機完成更為復雜的計算任務.隨著計算機技術的飛速發展,讓計算機代替人類思考已經逐漸從夢想走進現實.如1997年IBM公司研制的深藍計算機在國際象棋比賽中戰勝了人類,在人工智能的發展史上記上了濃墨重彩的一筆.計算機視覺作為人工智能的重要組成部分,在人工智能的發展中起到了重要的作用.研究表明,人類從外界獲取的信息中,視覺信息占各種器官獲取信息總量的80%.“眼見為實,耳聽為虛”、“百聞不如一見”等成語都反映了視覺信息對于了解事物本質的重要性.計算機視覺技術是研究怎樣讓計算機通過攝像機去獲取外界的視覺信息,然后像人類一樣知道“看”到的是什么,并且理解“看”到的東西在哪里、在“干”什么.因而,物體識別、目標跟蹤和行為識別是計算機視覺研究的重要問題.

行為識別研究的主要內容是分析視頻中人的行為.作為計算機視覺領域的重要研究問題,行為識別具有重要的科學意義.

相對于靜態圖像中物體識別研究[1],行為識別更加關注如何感知感興趣目標在圖像序列中的時空運動變化.視覺行為的存在方式從二維空間到三維時空的擴展大大增加了行為表達及后續識別任務的復雜性,同時也為視覺研究者提供了更廣闊的空間以嘗試不同的解決思路和技術方法.近年來,人的行為識別相關工作層出不窮,已成為計算機視覺研究中的熱點方向.此外,研究人的行為對于研究大腦的視覺認知機理也具有重要的科學意義.很多行為識別方法從大腦認知的角度構建視覺行為的表達與計算模型,這類方法不僅可對大腦認知機理相關研究提供實驗證明,還通過實驗對認知科學進行反饋和促進.

除了重要理論意義外,行為識別同樣具有重要的應用價值.隨著硬件技術的發展,監控攝像頭已經非常廉價,在物聯網技術的推動下,監控攝像頭已經無處不在.在廣場、銀行、學校、公路等公共場所,攝像頭記錄著人類生活的每個角落.尤其是近幾年發生的恐怖事件,如倫敦地鐵爆炸案、美國911事件、俄羅斯火車站爆炸案以及波士頓爆炸案,這些重大公共安全事件促使全球各國政府加大設備投入,在公共場所搭建大規模視頻監控系統.據2007年英國《每日郵報》報道,約420萬個攝像頭覆蓋在英國的各個角落,每個英國公民平均每天會出現在300個不同的攝像頭錄像中.傳統的視頻監控主要是靠人對攝像頭捕獲的信息進行觀測,靠肉眼檢測視頻中的異常行為.研究表明,人眼在注視監控畫面20分鐘以后,注意力將嚴重渙散,畫面中95%以上的視覺信息將被人眼“視而不見”.對于當今如此大規模的攝像頭網絡,人力已經無法勝任視頻監控這一工作了.基于此,以計算機視覺技術為基礎的智能視頻監控系統應運而生.通過行為識別技術,計算機可以實時判斷公共區域中行人、車輛等感興趣目標的狀態變化,自動識別其中的異常行為,從而實現對威脅公共安全的行為進行預警和主動防御.在公共安全領域以外,隨著人們生活水平的提高,個體家庭中的安全防護問題也日益突出.借助網絡的普及和發展,智能監控系統已經走入了千家萬戶.智能家庭監控系統在降低由一些危險行為(如入侵、盜竊、獨居老人跌倒等)帶來的生命財產損失的工作中起著關鍵性作用.

除此之外,基于視頻的行為識別也是視頻信息檢索的關鍵技術.隨著互聯網技術的迅速發展,人類已經生活在一個信息化時代.網絡傳播速度的大幅度提升使得信息實現了全球化共享,如視頻數據現在可以較快的速度在網絡上傳輸、大量的國內外視頻網站(如YouTube、Hulu、優酷等)紛紛涌現.據統計,用戶每分鐘通過YouTube網站上傳的視頻時長超過100 h.如此大規模的視頻數據除了為我們帶來豐富的信息共享外,也給存儲和檢索帶來了巨大的挑戰.由于上傳用戶對視頻的文字描述過于簡單,不足以描述視頻中所蘊含的豐富內容,如何有效地對視頻進行壓縮而不損失用戶感興趣的內容、如何在文字描述不充分的情況下找到符合用戶要求的視頻,這些都是工業界和學術界所共同關注的問題.基于內容的視頻壓縮和檢索技術利用行為識別方法檢測視頻中用戶感興趣的行為,可有效對視頻進行壓縮和索引標注.

另外,行為識別在人機交互中也發揮著重要的作用.近幾年,隨著人機交互技術的發展,人與計算機之間的交互方式已經有了長足的進步.從傳統的按鍵式交互方式(如鼠標、鍵盤)發展到現在的觸摸式交互(如觸摸屏).然而這些交互方式都需要人與計算機接觸才能達到操作的目的,而在現實生活中,人與人之間直接通過眼神或動作就可以達到簡單的交互目的.為了實現人機之間的非接觸式交互,人們利用手勢和行為識別技術實現了人與計算機之間的信息傳遞.如微軟XBox中結合Kinect深度傳感器利用運動姿態識別技術實現了自然的人機交互和體感游戲.除此之外,很多公司也致力于研究眼球運動估計,利用眼球運動追蹤實現人與機器(如手機)的交互.

可以看出,人的行為識別具有重大的研究和應用意義.因此,該研究領域受到了越來越多研究者的關注,主要體現在以下4個方面:

1) 大量的知名期刊,如IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI),International Journal for Computer Vision (IJCV),Computer Vision and Image Understanding (CVIU),IEEE Transactions on Circuits and Systems for Video Technology (CSVT),Pattern Recognition Letter (PRL)和Image and Vision Computing (IVC)等都分別開設了行為識別相關專刊,開設時間和題目如表1所示:

Table 1 Special Issues About Action Recognition

2) 近年來很多新的行為識別工作也愈來愈多地出現在計算機視覺和模式識別領域以IEEE國際計算機視覺大會(International Conference on Computer Vision, ICCV)、IEEE國際計算機視覺與模式識別會議(IEEE Conference on Computer Vision and Pattern Recognition, CVPR)和歐洲計算機視覺會議(European Conference on Computer Vision, ECCV)三大會議為代表的重要學術會議中.

我們統計了20多年來三大會議中與行為識別相關文章的數目,如圖1所示,該圖很直觀地顯示了行為識別相關研究呈明顯的逐年上升趨勢.

3) 為了讓更多研究者了解行為識別,很多組織在一些重要的會議中進行了行為識別專題講座,這些講座追根溯源介紹了行為識別的發展以及未來的發展方向,很好地推動了行為識別領域的發展.

4) 為了促進行為識別的發展,該領域也出現了多個行為識別相關的競賽,如美國國家標準技術研究所(NIST)從2008年起到現在一直開展的TRECVID監控場景下的事件檢索[2]、CVPR2010年開展的行為識別競賽以及由美國中佛羅里達大學(UCF)牽頭的THUMOS大數據真實場景下的行為識別競賽[3]等.這些競賽不僅吸引了大量研究者對行為識別領域的關注,也極大地促進了該領域的發展.

Fig. 1 Articles about action recognition in the top-3 computer vision conferences (ICCV,CVPR,ECCV).圖1 ICCV,CVPR和ECCV三大會議上行為識別相關論文統計

Fig. 2 Typical human action recognition datasets in recent years.圖2 各個時期比較有代表性的行為數據庫

目前,行為識別的研究者已撰寫了一些行為識別相關的綜述性文章[4-13],對行為識別領域的發展進行回顧和總結.這些文章對行為識別方法進行了不同角度的方法歸類和介紹.一般來說,按照行為的復雜程度來劃分,行為由簡單到復雜可以分為姿態(gesture)、單人行為(action)、交互行為(interaction)和群行為(group activity).姿態和單人行為主要關注如何為行為主體本身的形態、位置變化建立模型;而交互行為和群行為的研究重點是如何刻畫更大時空尺度中行為主體與場景物體或行為主體之間的空間、時間和邏輯關系.本文前2類簡單行為相關工作被稱為行為識別方法,而后2種復雜的行為識別方法被稱為事件分析方法.

本文以時間為順序,以數據庫的發展歷程為線索,對不同時期的行為識別方法進行歸類.公開的行為識別數據庫對行為識別方法的評測起到了關鍵的作用,也為研究者們提供了一些研究規范.行為識別數據庫的更新和發展在行為識別領域起到了方向標的作用.每一個優秀的行為識別數據庫被發布,都會伴隨著大量的新的行為識別方法的提出.

圖2展示了2001—2014年一些引用較高被廣泛使用的公開行為識別數據庫.

早期的行為數據庫(如KTH[14]和WEIZANN[15]等)主要的出發點集中在對一些基本行為識別上.這些行為數據大多都是在可控場景下進行的單人行為,行為類別與樣本數量都比較少.很多經典的行為識別方法如文獻[16-19]等都在這些數據庫中進行了驗證.這些簡單的行為數據庫對于我們從計算機視覺角度去了解行為表達的本質做出了巨大的貢獻,這些數據庫現在仍然作為行為識別的基線數據被廣泛地使用.

隨著研究者對行為識別方法認識得不斷深入,一些特定問題被提了出來.為解決視角不變問題,法國國家信息與自動化研究所(French Institute for Research in Computer Science and Automation, INRIA)和中國科學院自動化研究所(Institute of Automation, Chinese Academy of Sciences, CASIA)等一些研究機構發布了多視角的行為數據,如IXMAS Actions[20]數據庫、CASIA[21]行為數據庫.針對此類數據庫,有些方法[22-24]通過利用多個視角信息的互補性來提高行為的表達能力;也有些工作[25-26]則是對不同視角之間的行為特征遷移進行學習,以獲得一個更為泛化的特征表達.

前面提到的包括多視角在內的行為數據庫中,行為類別主要是單人簡單行為,場景相對比較簡單和單一;但在真實生活的視頻里,行為類別是非常豐富的,并且影響行為在視頻中表達的因素也非常多,如視角、光照,攝像機運動、環境變化等.對此,網絡及多媒體視頻由于其更為自然真實,并且具有海量、多樣、易獲取等特點,成為行為識別數據庫的又一重要來源.用戶上傳的海量視頻數據為我們提供了大量真實生活中的行為素材.基于此,在2008年和2009年,有很多真實場景下的行為數據庫被發布,如Hollywood[27],UCF Sports[28],UCF YouTube[29]等.

除網絡多媒體視頻外,還有一些研究者通過模仿真實場景(考慮復雜的運動背景)構建了諸如MSR Action[30]和Collective Activity Data[31]等行為數據庫.由于局部特征對于視角和光照等變化具有很好的魯棒性,基于局部特征點的行為識別方法[14,32-36]在這類真實場景數據庫中得到廣泛的應用.

自2010年以來,隨著計算機視覺的發展,行為識別數據庫也呈現出新的特點:

1) 行為識別數據庫的規模越來越大.自2009年開始,隨著“大數據”在互聯網信息行業被推向高潮,計算機視覺領域也出現了以ImageNet[37]圖像庫為代表的超大規模數據庫.雖然當前行為識別數據庫的規模還遠遠不及圖像識別數據庫,但其行為類別和樣本數量也在迅速增加.Hollywood2在原有Hollywood數據庫的基礎上將行為類別從8類提升到12類,視頻樣本也從430個增加到2 859個.美國中弗羅里達大學(UCF)計算機視覺研究中心將UCF Sports,UCF YouTube等一些數據庫進行融合和擴展,構成了一個50類共6 680個視頻片段的UCF50[38]行為數據庫.不久前,規模更大、包含101個行為類別的UCF101[3]行為數據庫也應運而生.除此之外,布朗大學的SERRE實驗室構建了包含51類行為共6 849個視頻片段的HMDB[39]行為數據庫.英國Kingston大學和西弗吉尼亞大學分別發布的多視角行為數據庫采用8個視角的攝像機同時對一個行為進行拍攝,行為類別也從IXMAS Actions的13類增加到了17類.

2) 除數據庫規模的增加,行為識別數據庫在近期的另外一個特點是多樣化.行為識別從簡單的單人行為上升到了多人的交互行為。如2010年發布的監控場景下的UT-Interaction[40]數據庫,其研究內容是多個目標之間的交互行為.另外,借助傳感技術的發展,MSR先后發布了MSR Action 3D[41]和MSR Daily Activity 3D[42]行為數據庫,這2個數據庫利用KinectRGB-D傳感器獲取除彩色圖像以外的人體深度圖像序列,利用Kinect采集的深度數據可獲取較為精準的人體關節點骨架序列,這些包含深度和骨架結構的視頻序列為深入研究人體的運動模式提供了很好的研究數據.美國西北大學和加州大學洛杉磯分校則將深度、骨架和多視角數據融合在一起構建了Northwestern-UCLA Multiview Action 3D[43]數據庫.為了更好地研究人體運動過程中各個關節點的運動規律,CMU Graphics Lab利用8個紅外攝像頭對帶有41個標記點的人體進行重構,更為精確地估計出人體的骨架結構,并發布了CMU Motion Capture[44]行為數據庫.除此之外,隨著穿戴式智能設備(如Google Glass)的發展,近幾年來也出現了一些第1人稱視角的行為數據庫,如H.Pirsiavash構建的第1人稱視角下的Activities of Daily Living (ADL) Dataset[45]和佐治亞理工發布的First-Person Social Interactions[46]數據庫.

Fig. 3 Taxonomy of human action recognition.圖3 行為識別分類框架

通過對行為識別數據庫的介紹可以看出,在行為識別研究前期,研究對象主要是在簡單場景下的單人行為,行為類別比較少,場景比較簡單.針對這些數據庫中的行為,研究者們提出的行為識別方法大多集中在單人簡單行為的表達.在這段時間,出現了一些基于序列和基于時空體的經典行為識別算法,為后期相對復雜的行為識別打下了堅實的基礎.在后期的行為識別中,研究對象相對比較復雜.除了從單人發展到多人、場景更為復雜外,數據庫的規模逐步擴大,數據類型也隨著計算機視覺及硬件技術的進步變得更加多樣化.基于此,我們按時間順序將行為識別方法分為早期和近期2部分,分別對不同階段的行為識別方法進行綜述性介紹,通過分析不同階段行為識別方法的差異來了解行為識別這一領域的發展趨勢.圖3為整個行為識別分類的框架:首先,2001—2009年這段時間的行為數據庫主要是用來研究可控環境及規模較小的真實環境下的行為分析方法,本文將在這些數據庫上進行研究的方法歸為早期行為識別方法.這段時間的行為識別方法按照行為表達方式的不同,可以分為一般行為識別、多視角行為識別和真實場景下的行為識別.然后,2010—2014年發布的行為數據庫則著重于與實際應用相結合,在這些數據庫上進行研究的方法在本文中被稱為近期行為識別方法.按照數據類型的不同,這些方法可以分為大數據真實場景下的行為識別、基于深度圖像序列的行為識別、基于骨架序列的行為識別、基于第1人稱視角的行為識別以及多人交互行為識別.本文將按這種分類方法對行為識別的相關工作進行介紹.

1一般行為識別方法

一般行為識別方法的研究對象是包含一個簡單行為(如走、跑、揮拳等)或由這些簡單行為組合而成的復雜行為(如徘徊、打架)的視頻.按照行為復雜度,一般行為識別方法可以分為簡單行為識別方法和復雜行為識別方法.

1.1簡單行為識別方法

對于相對簡單的行為,即手勢和單人行為,這類行為通常被看作是一個物體在時間序列中的動態變化,因此,這類行為可以直接通過對圖像序列進行分析來達到行為識別的目的.簡單的行為識別方法主要包括時空體模型方法和時序方法2類.

1) 時空體模型(space-time volume model)方法

Fig. 4 MEI and MHI[16].圖4 運動能量圖和運動歷史圖

基于時空體模型的方法是將一個包含行為的視頻序列看作在時空維度上的三維立方體,然后對整個三維立方體進行建模.如Bobick等人[16]利用人體在三維立方體中沿時間軸進行投影,構造了運動能量圖和運動歷史圖,然后利用模板匹配的方法對行為進行分類.圖4給出了不同行為的運動能量圖(motion energy image, MEI)和運動歷史圖(motion history image, MHI).從圖4可以看出,運動歷史圖可以看作是人體在三維立方體中沿時間軸的加權投影,該投影不僅能反映出運動物體的姿態,還包含了不同姿態的時序性信息.為了能在更復雜的場景下對人的行為進行識別,Ke等人[17]利用層級的均值漂移算法對時空立方體進行分割并自動找到人的行為對應的時空區域,然后利用該部分時空區域對人的行為進行建模.此類將行為作為一個整體進行建模和分類的方法比較直觀,對于識別一些簡單場景的行為比較有效;但對于復雜場景的行為,由于光照、視角以及動態背景等因素的影響,此類方法的有效性將大大降低.表2列出了基于時空體模型的行為識別方法.

Table 2Space-Time Volume Model Methods for Action

Recognition

表2 基于時空體模型的行為識別方法

2) 時序方法

基于時序的行為識別方法是將視頻中的行為看作人體的不同觀測姿態的序列,通過分析行為的時序變化來提升行為的表達能力.此類方法可簡單地分為基于模本的方法和基于狀態的方法2種.

① 模本(exemplar).基于模本的方法把行為表達為一個模板序列,通過把新的圖像序列特征和模板序列特征進行比較來進行行為識別.當它們的相似度足夠高時,系統認為輸入圖像序列包含模板序列對應的行為.人們做同樣的行為可能有不同的風格和速度,因此計算相似度時需要考慮這些因素.早期語音識別方法中的動態時間歸整(dynamic time warping, DTW)算法被廣泛用于匹配2個有變化的序列[50-51],DTW算法能夠在2個序列之間尋找一個最優的非線性匹配.圖5展示了匹配2個不同速度序列的DTW的概念.

Fig. 5 Exemplar-based action recognition with DTW.圖5 基于模本DTW匹配的行為識別方法

② 狀態(state).基于狀態的方法把一種行為表示為由一組狀態組成的模型.該模型經過統計方法訓練得到,對應屬于該行為的一組特征向量序列.對每個模型,它生成觀測特征向量序列的概率是通過測量行為模型和輸入圖像序列之間的似然度計算得到的.使用最大似然估計(maximum likelihood)或者最大后驗概率(maximum posteriori probability)分類器來進行行為識別.隱Markov模型(hidden Markov model, HMM)和動態貝葉斯網絡(dynamic Bayesian networks, DBN)被廣泛用于基于狀態的方法[52-55],這2種方法都把行為表達為一組隱狀態.假設人在每幀都處于一個隱狀態,每個狀態會根據觀測概率生成一個觀測向量(例如特征向量).在下一幀,系統根據隱狀態之間的轉移概率轉移到另一個狀態.一旦轉移概率和觀測概率經訓練過程獲取后,行為識別的測試過程就是計算一個給定狀態模型生成輸入序列的概率.如果這個概率足夠高,就能夠確定該狀態模型對應的行為在輸入序列里發生了.圖6給出了一個序列HMM的示例.DBN是HMM的一個擴展,由多個在每幀直接或者間接生成觀測的條件獨立的隱節點組成.基于時序的行為識別方法能夠通過概率圖模型幫助我們更好地理解行為的內在時序、因果結構,因此,這類方法具有很好的發展前景.現在制約這類方法的關鍵是對單幀圖像的表達.怎樣獲得更好的人體結構表達和確定關鍵狀態的個數是影響這類方法性能的關鍵,同時訓練數據的規模和多樣性對模型的泛化能力影響巨大.表3列出了基于序列的行為識別方法.

Fig. 6 HMM-based state transition model for action recognition.圖6 基于HMM狀態轉移模型的行為識別方法

TypeAuthorsFromYearExemplarStateGavrilaetal.[50]CVPR1996Veeraraghavanetal.[51]CVPR2006Yamatoetal.[53]CVPR1992Bobicketal.[54]PAMI1997Oliveretal.[55]PAMI2000Aggarwaletal.[52]3DPVT2004Lvetal.[56]ECCV2006Natarajanetal.[57]WMVC2007

1.2復雜行為識別方法

對于一些由多個簡單行為組合而成的相對復雜的行為,由一般行為識別方法是無法對此類行為進行識別的.這類行為識別的思路是先識別容易建模的簡單的子行為,在此基礎上再識別高層的復雜行為.這些子行為可能被進一步分解為原子行為,因此,復雜行為識別方法常出現層級現象.經典的復雜行為識別方法可以分為統計模型方法和句法模型方法.

1) 統計模型(statistical model)

統計模型使用基于狀態的統計模型來識別行為,子行為被看作概率狀態,行為被看作這些子行為沿時間序列轉移的一條路徑.底層的一些子行為可以通過上面提到的時序方法進行識別,這些子行為進一步地構成了一個高層行為序列.在高層的模型中,每一個子行為在這個序列中作為一個觀測值.Nguyen等人[58]以及Shi等人[59]等利用HMM對子行為序列建模來進行復雜行為識別;Damen等人[60]則利用子行為構建DBN(動態貝葉斯網絡)來實現復雜行為的識別問題.利用HMM和DBN模型可以很好地對子行為序列進行建模,但對于描述一些具有空間關系的子行為,即子行為之間存在著時間的重疊,直接利用這2種模型則無法對復雜行為進行描述.為了能夠更好地描述復雜行為中子行為之間的相互關系,Tran等人[61]利用一定的先驗知識構建了Markov邏輯網絡(Markov logic networks, MLNs)來對子行為之間的時空關系進行描述.

2) 句法模型(grammar model)

句法模型把子行為看作一系列離散的符號,行為被看作這些符號組成的符號串.子行為可以通過上面提到的時空或時序方法進行識別,而復雜行為可以用一組生成這些子行為符號串的生成規則來表示,自然語言處理領域的語法分析技術可以被用來對這種生成規則進行建模,從而實現對復雜行為的識別.這一類基于語法分析技術構建的模型被稱為句法模型,常用的有上下文無關語法模型(context-free grammars, CFG)和上下文無關的隨機語法模型(stochastic context-free grammars)[62-63].一般的句法模型也只能識別子行為序列構成的復雜行為,對于處理同時發生的子行為則無能為力.為了克服這個局限,Ryoo和Aggarwal[64]在CFG的基礎上加入了描述子行為之間復雜時空關系的邏輯連接,即and,or和not,使得構建的句法模型可以解決子行為共同發生的問題.

表4列出了本文引用的復雜行為識別方法:

Table 4 Complex Action Recognition Methods

2多視角行為識別

在多視角的視頻數據庫中,如圖7所示,主要存在2種研究方式:1)利用多視角下數據的互補性對行為進行表達和識別;2)通過分析多個視角下行為表達之間的聯系來學習行為特征在多個視角下的轉移過程,從而得到更為魯棒的行為表達.基于這2種研究方式,我們將多視角行為識別分為多視角互補(multi-view information complementary)行為識別和視角不變(view invariant)行為識別.

Fig. 7   Images and 3D objects in i3DPost multi-view   action dataset.圖7 i3DPost多視角行為數據庫的圖像和三維前景

1) 多視角互補的行為識別

多數行為識別方法只是在單個視角下對行為進行分析,這里面存在一個非常強的假設,即由單個視角提取的底層特征足以描述更高層次的行為.但事實上,單個視角的圖像序列存在著自遮擋,人體只有部分的表觀數據是可用的,因此,當人體的行為朝向發生變化時,圖像序列中表觀數據的巨大差異會導致行為無法正確識別.為解決這個問題,很多研究者提出了多視角的行為識別方法,通過分析人體行為在不同視角下的互補特征來對行為進行更為完整的表達.Huang等人[22]利用來自2個正交的攝像機的圖像序列中的物體輪廓來提取一種形狀表達.Bui等人[23]通過構建抽象的HMM對來自不同角度的空間位置信息進行層級編碼,然后在每一層對行為進行更為精細的描述.還有一些方法通過多視角圖像構建三維前景,如圖7所示,然后對三維前景序列進行行為特征表達.如Huang等人[24]利用顏色信息構建前景的輪廓直方圖對三維前景進行表達,然后通過模板匹配的方式對視頻序列進行識別.

2) 視角不變的行為識別

雖然利用多視角的互補信息可以對行為進行更為完整的表達,但在實際監控場景下,一般只有一個攝像機在某一時刻記錄了人的行為,但由于視角的不同,在不同的攝像機視野下同一行為的表觀特征是不同的.為了學習視角不變的行為特征,很多研究者利用多視角下的行為數據進行跨視角行為識別.在文獻[25]中,Souvenir等人通過計算輪廓的R變換并利用流形學習來對行為進行視角不變的特征表達.Gkalelis等人利用離散傅里葉變化(discrete Fourier transform, DFT)的循環轉移不變性,并結合模糊矢量化(fuzzy vector quantization, FVQ)和線性判別分析(linear discriminant analysis, LDA)的方法對行為進行表達和識別.對于視角不變的行為表達方法,文獻[26]有較為詳細的綜述性介紹.表5列出了多視角行為識別的相關方法.

Table 5 Multi-view Action Recognition Methods

3真實場景下的行為識別

相對簡單場景下的行為,在真實場景中的行為由于存在大量的遮擋、光照變化以及攝像機運動等影響,使得提取真實場景下的前景信息非常困難,用基于前景的行為表達方法來對這類行為進行識別達不到令人滿意的效果.為了獲取更為魯棒的行為表達,受局部特征在圖像識別領域成功的啟發,很多方法試圖從時空立方體的局部出發,獲取更多的時空局部特征(local feature).局部特征可以通過構建三維時空濾波器的方式快速地提取時空立方體中的興趣點,如圖8所示,這些底層的時空局部興趣點(space-time interest point, STIP)具有旋轉和尺度不變性,可以很好地提高行為識別方法的魯棒性.基于局部特征的行為識別方法首先構建興趣點檢測子,如Harris3D檢測子[32]、Cuboid檢測子[33]和Hessian檢測子[34]檢測感興趣點;然后構建局部特征描述子,在興趣點周圍提取表觀和運動信息形成局部特征向量,如Cuboid描述子[33]、HOG3D描述子[35]、HOGHOF描述子[32,66]和ESURF描述子[34].此類方法可以直接與詞袋模型(bag of words, BoW)結合得到局部特征視覺單詞的直方圖特征,將該直方圖特征作為最終的行為特征送入分類器進行分類學習[14].

Fig. 8 STIPs of action walk[31]. 圖8 行為walk中的時空局部興趣點.

基于簡單詞頻統計的BoW模型由于丟失了特征點在視頻中的空間分布信息,使得單純的基于特征點統計的行為特征欠缺對行為內在整體結構的表達.為了解決這個問題,Kovashka和Grauman[67]利用時空上下文(context)信息挖掘出時空局部特征點緊鄰之間的顯著形狀,然后利用該形狀作為較大尺度的局部特征,并以此往上逐層進行學習,利用得到的不同層次的特征結合BoW模型進行行為表達.Hu等人[68]利用局部特征點周圍的近鄰特征點構建局部直方圖,然后用該直方圖對特征點進行特征表達以提高特征點的中層表達能力.一些其他的方法[69-72]也通過利用時空上下文關系獲取更為顯著的特征表達.

雖然時空上下文可從一定程度上提高局部特征點的全局性表達能力,但只靠上下文是無法真正對行為的全局進行描述的.受二維圖像中物體表達方法的影響,一些研究者將圖像中的基于部件模型(deformable part-based model)[73]的物體表達從二維圖像空間擴展到三維時空空間,對行為進行表達.Wang和Mori[19]利用全局和局部的運動特征結合隱狀態隨機場構建行為的部件模型.Xie等人[74]利用部件模型對每一幀的人體進行表達,然后將這些部件特征延時間方向串聯起來作為行為的表達.Tian等人[75]則直接將文獻[73]在三維空間進行擴展,構建了時空可形變部件模型.

表6列出了一些基于局部特征的真實場景下的行為識別方法:

Table 6Local Feature Based Action Recognition Methods in

Realistic Scenes

表6 基于局部特征的真實場景下的行為識別方法

4大數據真實場景下的行為識別

基于局部特征點的行為識別方法雖然可以通過加入時空上下文信息來提升局部特征的表達能力,但由于時空局部特征點本身包含大量的噪聲,這決定了基于局部特征點的行為特征的表達能力是有限的.另外,由于真實場景的復雜性,以及數據量的增加所帶來的巨大的行為類內差,使得基于部件模型的行為表達也受到限制.為了獲取更具表達性和區分性的行為表達,研究者利用行為的時序性信息和卷積神經網絡(convolutional neural network, CNN)的自學習機制提出了基于時空軌跡(space-time trajectory)和深度學習(deep learning)的行為識別方法.

1) 時空軌跡

該方法是時空局部特征點方法的擴展,通過跟蹤運動物體的關鍵點來構建更具有表達能力的時空局部軌跡特征.Messing等人[76]結合局部特征檢測方法提出了基于局部興趣點軌跡的行為識別方法.該方法利用Harris3D檢測子檢測時空興趣點,然后利用KLT跟蹤器[77]跟蹤這些興趣點以獲得軌跡.更進一步地,Wang等人[78]為了獲得更稠密的軌跡,在每幀中稠密地采樣很多特征點,然后利用光流場對這些特征點進行跟蹤.在得到原始的特征點軌跡后,這些方法一般會加入一定的約束來對軌跡進行篩選和優化,然后利用軌跡周圍的表觀信息以及軌跡之間的時空信息對每個軌跡或是多個軌跡進行表達.其中,基于稠密軌跡的行為識別方法在很多公開的真實場景行為數據庫中都達到了最好的結果.

2) 深度學習

深度學習模型是受人腦的認知機理啟發利用底層特征來學習事物高層抽象的層級式特征.深度學習方法通過構建具有分析學習能力的層級式神經網絡來對數據進行解釋,該方法已經在大數據下的圖像分類與檢測、語音識別以及文本分類等領域取得了最好的結果.CNN是生物啟發式深度學習模型的一種,也是在圖像識別和語音識別中比較常用的模型.CNN是一種前饋人工神經網絡,包含多個卷積層,該網絡利用局部感受野、權值共享以及空間聚合(pooling)來實現位移、尺度、形狀不變的特征表達.Ji等人[79]對二維圖像中的CNN作擴展,通過對多幀的局部時空體做卷積來構建一個三維CNN.該方法是深度學習模型在行為識別領域中的一次很好的嘗試,在一些真實場景數據庫中也取得了不錯的效果.Karpathy等人[80]等利用慢融合模型(slow fusion model)對視頻中不同的圖像幀進行融合,構建圖像序列的CNN模型,如圖9所示.通過這種融合方式,可以有效地將視頻的時序性信息加入到網絡中,用于提高行為特征的表達能力.

Fig. 9 Different temporal fusion methods in CNN[80].圖9 CNN網絡中不同的時序融合方法

Fig. 10 Fusion of space-time CNN[81].圖10 時空CNN融合

Fig. 11 Trajectory feature extraction based on CNN[82].圖11 基于CNN的時空軌跡特征提取方法

而Simonyan等人[81]則分別對單幀圖像和多幀的運動信息(光流)分別構建2個CNN網絡,然后在分數層上對2種網絡的輸出作融合,如圖10所示,進而提升特征的表達能力.Wang等人[82]結合時空軌跡和CNN,提出了利用CNN對軌跡進行特征表達的方法,極大地提高了行為特征的表達能力,如圖11所示.實驗表明,這種融合方法在UCF101和HMDB51兩個大數據下的真實場景行為數據庫中均達到了深度學習模型所能達到的最好結果.表7列出了大數據真實場景下的一些行為識別方法:

Table 7 Large Scale Realistic Action Recognition Methods

5基于深度圖像序列的行為識別

相比一般的投影視覺數據,深度圖可以提供一個光照不變的具有深度幾何結構的前景信息,如圖12所示:

Fig. 12 Two depth action image sequences[41].圖12 2種行為的深度圖像序列

然而,由于深度相對彩色圖片來說包含較少的紋理信息,并且深度數據中常常伴有大量噪聲,這使得直接使用一般的特征描述方法(如梯度)對深度圖像序列進行描述不能取得令人滿意的效果.針對深度數據的優勢和問題,很多研究者提出了不同的深度圖像序列表達方法用于行為識別.類似于上文簡單行為識別方法,按照對深度圖像序列處理方式的不同,深度圖像序列的表達也可分為時空體模型和時序方法2種.

Fig. 13   DMM behavior feature description based on    depth image sequence data[86].圖13 基于深度圖像序列的DMM特征表達

1) 時空體模型.基于深度圖像序列的時空體模型主要是將深度圖像構成的四維數據作為一個整體,通過提取包含時空和深度的特征對行為進行表達.Li等人[41]引入了bag-of-points的思想,用少部分從深度圖像中提取的三維點來描述身體的顯著姿態,然后結合圖模型框架利用這些顯著姿態構建一個行為圖(action graph)來對行為進行表達.該方法用1%的三維點即可在MSR Action3D數據庫中達到90%的識別率.雖然此方法非常高效,但由于缺少對時空點之間上下文信息的描述,使得該方法應對處理深度數據中遮擋、噪聲以及多視角等問題比較困難.為了解決這個問題,Vieira等人[85]提出了一種稱為時空占有模式(space-time occupancy patterns)的特征表達方法.該方法通過將深度圖像序列沿空間軸和時間軸劃分來構建一個四維網格,然后利用網格中時空塊之間的時空上下文關系構成時空占有模式.通過這種方法可以很好地解決深度圖像序列中的遮擋和噪聲問題,降低行為特征的類內差.Yang等人[86]對相鄰幀深度圖沿不同的方向投影做差值構建深度運動圖(depth motion maps, DMM)來表達深度圖像序列的時序信息,如圖13所示.通過提取各種角度DMM中的HOG特征,并將整個序列中所有的HOG特征串聯起來對行為進行表達.Oreifej和Liu[87]則通過統計深度圖形序列中的四位法向量來對行為進行表達.除此之外,Zhang等人[88]則對時空局部特征描述子進行了擴展,分別提出了一種時空和深度的四維局部特征描述子對行為進行表達.

2) 時序方法.基于序列的深度數據行為表達方法的主要思想同1.1節對簡單行為識別中的序列方法一樣,通過對每一幀的深度圖像進行特征表達,然后對構建這些特征之間的狀態轉移模型.Jalal等人[89]對深度圖像輪廓進行R變換得到前景輪廓更緊致的特征表達,然后通過對特征進行主成分分析(principal component analysis, PCA)降維,并利用HMM構建各時刻輪廓特征的狀態轉移模型.

表8列出了基于深度圖像序列的相關行為識別方法:

Table 8 Action Recognition Methods on Depth Image Sequence

6基于骨架序列的行為識別

在行為表達過程中,空間信息來源于了物體的姿態,而運動信息則反映在時間空間中.因此,時間的動態信息對于行為表達至關重要.為了更好地描述行為的運動信息,一些方法單獨對骨架序列進行分析.骨架序列提供的主要運動信息反映在骨架節點沿時間軸連接在一起形成的軌跡曲線.節點的軌跡由于能夠在更大的時間范圍內對行為的動態信息進行描述,因此可以有效地提高行為的表達能力.基于骨架節點軌跡的行為識別方法由來已久.早在1973年,Gunnar[90]就通過如圖14所示的MLD(moving light display)實驗在黑色背景中人的骨架關節點處貼亮點來獲取關節點的運動軌跡數據.這些在單個圖像中看似毫無意義的亮點在動態圖像序列中通過相互運動能夠明顯地表達人的各種動作.這些數據拋開了所有的運動獲取技術對前景帶來的噪聲,給研究者提供了更好的空間來單獨研究運動的模式.Campbel和Bobick[91]通過將一個行為的軌跡映射為一個相空間中的一條線,通過對相空間中曲線的劃分來進行行為的識別.這類方法由于對軌跡的描述比較簡單,所以只能識別一些很簡單的行為,但是這個工作展示了時空軌跡方法的潛力.Sheikh等人[92]通過將如圖15(a)中16個關節點軌跡進行仿射投影得到如圖15(b)中所示的歸一化的XYT空間中的軌跡.通過構建不同樣本軌跡之間的視角不變相似度來實現行為的識別.

Fig. 14 MLD[90] experiment.圖14 MLD實驗

Fig. 15 XYZT skeleton trajectories[91].圖15 XYZT關節點軌跡

Lv等人[57]對每個關節點的軌跡學習一個HMM作為弱分類器,然后利用Adaboost方法將這些弱的分類器組合在一起構成一個強分類器來達到行為識別的目的.與之前的方法相比,Lv提出的方法能夠更好地利用HMM描述各個節點在時間軸上的變化.以上方法都是利用一些通過運動捕獲系統(motion capture system)獲取的,但在現實應用中,獲取RGB圖像的關節點需要用到前景提取、姿態估計和跟蹤等相關技術,因此精度不能得到很好的保證.隨著硬件技術的發展,一些運動捕獲系統如文獻[93]可以利用深度攝像機(如Kinect)提供的深度信息精確地估計出人體骨架.基于此,Zhao等人[94]提出了一種基于軌跡的實時手勢識別方法.該方法利用文獻[93]中的方法估計出深度圖像序列的關節點軌跡,結合各個關節點隨時間變化的距離,利用BoW對行為進行描述,然后利用DTW的方法實現行為的在線識別.Xia等人[95]提出了一種Histogram of 3D Joint Locations (HOJ3D)的骨架描述方法,通過K-means學習出這些骨架的姿態視覺詞典作為不同時刻骨架的狀態,然后結合HMM模型對行為進行識別.

除此之外,也有一些同時使用骨架信息和深度信息的方法.如Wang等人[96]同時使用骨架和骨架節點周圍的深度點學習由不同節點特征構成的actionlet模型,然后,通過多核學習對不同的actionlet特征進行融合和分類.

表9列出了一些已發表的基于骨架的行為識別方法:

Table 9Skeleton Sequence Based Action Recognition Methods

表9 基于骨架序列的行為識別

7第1人稱視角下的行為識別

第1~6節介紹的行為識別方法都是對一般攝像機拍攝的行為視頻進行特征表達和分類學習.隨著穿戴式智能設備的興起,我們可以隨時記錄日常生活中的時間,為我們帶來了很多的視頻素材.攝像機除了記錄外界發生的情況以外,也記錄了佩戴者本身的行為動作,如倒水、做飯或者跑步等.基于第1人稱視角的行為識別方法主要是利用物體檢測和手勢識別技術,結合場景理解和語義理解等方法對第1人稱視角下的行為進行識別.通過挖掘來自第1人稱視角下行為動作所包含的固有物體、手以及物體運動的信息,Fathi等人[100]構建了一種層級模型用于行為識別,通過物體與手之間的交互行為進行表達,可以很好地反映出運動主體的行為.Pirsiavash等人[101]分別對物體圖像和物體與手勢共同出現的圖像進行建模來區分運動主體與物體的交互,然后結合時間金字塔模型來對運動主體在日常生活中的行為進行特征表達.為了判別更復雜的第1人稱視角下的運動行為,Kitani等人[102]提出了一種非監督的學習方法,使用Dirichlet過程混合模型自動學習第1人稱視角視頻中的運動直方圖詞典和不同的行為類別集.利用該方法可以非常有效和快速地對第1人稱視角下的行為進行識別.以上的第1人稱視角下的行為都是描述行為主體在干什么,而Ryoo等人[103]則研究在第1人稱視角下別人對觀察者做了什么的問題上提出了自己的方法.該方法分別提取了視頻中的全局運動表達和局部運動表達來分別描述觀測者和交互者的運動信息,然后利用多通道核方法對這2種描述進行融合,并提出一種可以準確學習行為結構的核方法對行為進行分類.

表10列出了第1人稱視角下的行為識別相關方法:

Table 10 First Person View Action Recognition Methods

8多人行為識別方法

多人行為識別方法是為了識別人與人(或物)之間的交互行為以及人的群體行為.雖然多人行為識別方法基本可以包含在前面提到的不同的行為識別方法中,但對于多人的行為識別方法本身,此類方法擁有自身的特性.本文將多人行為識別方法分為交互行為(interaction)識別方法和群體行為(crowd behavior)識別方法2類.

1) 交互行為

為了識別人與物的交互行為,首先要做的是識別物體和分析人的運動信息,然后聯合這2種信息進行交互行為的識別.最經典的交互行為識別方法[59-60,104-106]是忽略物體識別和運動估計的相互影響,即先利用物體分類方法來識別物體,然后再識別這些物體參與的運動行為.也就是說這沒有利用物體識別和運動分析兩者的相互關系,運動估計是嚴格依賴于物體檢測的.為了利用物體與動作之間的相互關系來提高物體檢測和行為識別的性能,Moore等人[107]利用簡單行為識別的結果來提升物體分類的性能.一般情況下,行為識別還是依賴于物體分類的,但當物體分類出現錯誤時,行為信息通過構建的貝葉斯網絡對物體分類進行補償.更進一步地,Gupta和Davis[108]提出了一種概率模型來整合物體表觀、人體對物體的動作以及動作對物體的反作用.這些信息通過貝葉斯網絡被整合在一起來對物體和行為進行分類和識別.

2) 群體行為

群體行為是由一個或多個人群構成的行為,其研究對象是多人形成的群體.群體行為分析根據所要獲取的知識的不同,可以分為2類:①每個個體在整個群體行為中發揮不同的作用[109-111].例如我們分析一個“做報告”的行為,我們需要分析其中報告者的行為和聽眾的行為.此類群體行為可以很自然地通過由多個個體的子行為構建的多層模型對群體行為進行表達.②所有個體的運動信息作為一個整體來進行群體行為分析,如“軍隊行軍”和“游行”等都屬于這類群體行為.在此類群體行為方法中[112],每個個體經常被當作一個點,然后利用這些點的軌跡對整體行為進行分析.

表11列出了引用的事件分析方法的相關工作:

Table 11 Multi-Person Action Recognition Methods

9總結與展望

本文對人的行為識別方法進行了系統性地介紹,以數據庫的發展歷程為線索介紹了行為識別近15年的發展狀況.通過以上的分析可以看出,由于行為數據的類別多種多樣,導致行為識別方法也各有差異.但對于每一種行為數據的行為方法來說,不管是將時間和空間作為一個整體的時空體模板、局部特征直方圖等,還是將時間和空間分開進行處理的時序方法,時空的運動變化信息對于行為的描述都是非常重要的.只用合理組織表達行為內在的時空運動變化信息,才能得到好的識別性能.

隨著數據技術和行為,行為識別的發展將呈現以下特點:

1) 行為識別將聚焦更具挑戰性的真實場景中的行為檢測問題

當前大部分行為識別工作中對行為的檢測問題進行了回避或簡化.尤其在如UCF101, HMDB51等數據庫中的行為識別工作,可看作是視頻分類問題,對其中決定行為發生的關鍵動作以及行為發生的起始、終止時刻不能準確檢測.在TRECVID監控事件檢測競賽中,當前最好的事件檢測效果也遠遠不能令人滿意.對此,研究者需要結合更多中層或高層語義特征如物體檢測、人姿態估計等結果,與底層運動特征相結合來實現對行為的語義表達建模和準確檢測.

2) 深度學習在時序數據中的應用將成為研究熱點

深度學習在許多傳統視覺任務中取得了巨大進步,但在行為識別任務中,深度學習還尚未完全取得顯著性的性能提升.原因是:相比圖像樣本,由于時間維度的引入,行為樣本的類內差異更加豐富、行為模本的特征維度更高、需要的樣本數量更多;同時在行為標注中,很難在視頻中精確標記行為發生的時空區域(如圖像中物體邊框),從而無法實現樣本對齊(alignment),導致模型訓練難度更大.因此如何從時間維度入手建立深度神經網絡模型對行為數據進行訓練,如Recurrent Neural Network是當前的一個研究熱點.

3) 新型傳感數據將為行為識別的實用化提供可能

新型的RGB-D傳感器可以有效克服光照、遮擋和視角變化的影響,獲得準確的前景位置及人體的姿態參數,因此大大降低了行為識別的難度.當前,基于RGB-D傳感器的行為識別在一些使用環境中如體感游戲,已被推向實用.未來基于RGB-D數據的行為識別技術還將進一步發展,預計在更多的領域如汽車輔助駕駛等取得令人矚目的成就.

參考文獻

[1]Huang Kaiqi, Ren Weiqiang, Tan Tieniu. A review on image object classification and detection[J]. Chinese Journal of Computers, 2014, 37(6): 1-18 (in Chinese)(黃凱奇, 任偉強, 譚鐵牛. 圖像物體分類與檢測算法綜述[J]. 計算機學報, 2014, 37(6): 1-18)

[2]Over P, Awad G, Martial M, et al. Trecvid 2014-anoverview of the goals, tasks, data, evaluation mechanisms and metrics[COL]Proc of TRECVID 2014. [2014-07-09]. http:www.nist.govitliadmigtrecvid_sed_2014.cfm

[3]Soomro K, Zamir A, Shah M. UCF101: A dataset of 101 human actions classes from videos in the wild, CRCV-TR-12-01[ROL]. (2012-12-01) [2015-04-15]. http:crcv.ucf.edudataUCF101.php

[4]Aggarwal J, Ryoo M. Human activity analysis: A review[J]. ACM Computing Surveys, 2011, 43(3): 1-43

[5]Turaga P, Chellappa R, Subrahmanian V, et al. Machine recognition of human activities: A survey[J]. IEEE Trans on Circuits and Systems for Video Technology, 2008, 18(11): 1473-1488

[6]Poppe R. A survey on vision-based human action recognition[J]. Image and Vision Computing, 2010, 28(6): 976-990

[7]Kru¨ger V, Kragic D, Ude A, et al. The meaning of action: A review on action recognition and mapping[J]. Advanced Robotics, 2007, 21(13): 1473-1501

[8]Ye Mao, Zhang Qing, Wang Liang, et al. A survey on human motion analysis from depth data[C]Proc of Time-of-Flight and Depth Imaging, Sensors, Algorithms, and Applications. New York: Elsevier Science Inc, 2013: 495-187

[9]Ke S, Thuc H, Lee Y, et al. A review on video-based human activity recognition[J]. Computers, 2013, 2(2): 88-131

[10]Vishwakarma S, Agrawal A. A survey on activity recognition and behavior understanding in video surveillance[J]. The Visual Computer, 2013, 29(10): 983-1009

[11]Chaquet J, Carmona E, Caballero A. A survey of video datasets for human action and activity recognition[J]. Computer Vision and Image Understanding, 2013, 117(6): 633-659

[12]Popoola O, Wang Kejun. Video-based abnormal human behavior recognition—A review[J]. IEEE Trans on Systems, Man, and Cybernetics, Part C: Applications and Reviews, 2012, 42(6): 865-878

[13]Huang Kaiqi, Chen Xiaotang, Kang Yunfeng, et al. Intelligent visual surveillance: A review[J]. Chinese Journal of Computers, 2015, 38(6): 1093-1118 (in Chinese)(黃凱奇, 陳曉棠, 康運鋒, 等. 智能視頻監控技術綜述[J]. 計算機學報, 2015, 38(6): 1093-1118)

[14]Schuldt C, Laptev I, Caputo B. Recognizing human actions: A local SVM approach[C]Proc of the 17th Int Conf on Pattern Recognition. Piscataway, NJ: IEEE, 2004: 1051-4651

[15]Blank M, Gorelick L, Shechtman E, et al. Actions as space-time shapes[C]Proc of the 13th IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2005: 1395-1402

[16]Bobick A, Davis J. The recognition of human movement using temporal templates[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2001, 23(3): 257-267

[17]Ke Yan, Sukthankar R, Hebert M. Spatio-temporal shape and flow correlation for action recognition[C]Proc of the 20th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2007: 1-8

[18]Jhuang H, Serre T, Wolf L, et al. A biolog-ically inspired system for action recognition[C]Proc of the 14th IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2007: 1-8

[19]Wang Yang, Mori G. Hidden part models for human action recognition: Probabilistic vs max-margin[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2011, 33(7): 1310-1323

[20]Weinland D, Boyer E, Ronfard R. Action recognition from arbitrary views using 3D exemplars[C]Proc of the 14th IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2007: 1-7

[21]Zhang Zhang, Tao Dacheng. Slow feature analysis for human action recognition[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2012, 34(3): 436-450

[22]Huang Feiyue, Di Huijun, Xu Guangyou. Viewpoint insensitive posture representation for action recognition[C]Proc of the Articulated Motion and Deformable Objects. Berlin: Springer, 2006: 143-152

[23]Bui W, Venkatesh S, West S. Policy recognition in the abstract hidden Markov model[J]. Journal of Artificial Intelligence Research, 2002, 17: 451-499

[24]Huang Peng, Hilton A. Shape-colour histograms for matching 3D video sequences[C]Proc of the 15th IEEE Int Conf on Computer Vision Workshops. Piscataway, NJ: IEEE, 2009: 1510-1517

[25]Souvenir R, Babbs J. Learning the viewpoint manifold for action recognition[C]Proc of the 21st IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2008: 1-7

[26]Ji Xiaofei, Liu Honghai. Advances in view-invariant human motion analysis: A review[J]. IEEE Trans on Systems, Man, and Cybernetics, Part C: Applications and Reviews, 2010, 40(1): 13-24

[27]Marszalek M, Laptev I, Schmid C. Actions in context[C]Proc of the 22nd IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009: 2929-2936

[28]Rodriguez M, Ahmed J, Shah M. Action mach a spatio-temporal maximum average correlation height filter for action recognition[C]Proc of the 21st IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2008: 1-8

[29]Liu Jingen, Luo Jiebo, Shah M. Recognizing realistic actions from videos in the wild world[C]Proc of the 22nd IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009: 1996-2003

[30]Yuan Junsong, Liu Zicheng, Wu Ying. Discriminative video pattern search for efficient action detection[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2011, 33(9): 1728-1743

[31]Choi Wongun, Shahid K, Savarese S. What are they doing? Collective activity classification using spatio-temporal relationship among people[C]Proc of the 15th IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2009: 1282-1289

[32]Laptev I, Lindeberg T. Space-time interest points[C]Proc of the 9th IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2003: 432-439

[33]Dollar P, Rabaud V, Cottrell G, et al. Behavior recognition via sparse spatio-temporal features[C]Proc of the 2nd Joint IEEE Int Workshop on Visual Surveillance and Performance Evaluation of Tracking and Surveillance. Piscataway, NJ: IEEE, 2005: 65-72

[34]Willems G, Tuytelaars T, Gool L. An efficient dense and scale-invariant spatio-temporal interest point detector[C]Proc of the 11th European Conf on Computer Vision. Berlin: Springer, 2008: 650-663

[35]Alexander K, Marszalek M, Schmid C. A spatio-temporal descriptor based on 3D-gradients[C]Proc of the 19th British Machine Vision Conf. Berlin: Springer, 2008: 1-10

[36]Shan Yanhu, Zhang Zhang, Zhang Junge, et al. Interest point selection with spatio-temporal context for realistic action recognition [C]Proc of the 9th Int Conf on Advanced Video and Signal-Based Surveillance. Piscataway, NJ: IEEE, 2012: 94-99

[37]Deng Jia, Dong Wei, Socher R, et al. ImageNet: A large-scale hierarchical image database[C]Proc of the 22nd IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009: 248-255

[38]Kishore K, Shah M. Recognizing 50 human action categories of Web videos[J]. Machine Vision Applications, 2013, 24(5): 971-981

[39]Kuehne H, Jhuang H, Garrote E, et al. HMDB: A large video database for human motion recognition[C]Proc of the 24th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2011: 2556-2563

[40]Ryoo M, Aggarwal J. Ut-interaction dataset, icpr contest on semantic description of human activities (sdha)[DBOL]. 2010 [2010-09-08]. http:cvrc.ece.utexas.eduSDHA2010Human_Interaction.html

[41]Li Wanqing, Zhang Zhengyou, Liu Zicheng. Action recognition based on a bag of 3D points[C]Proc of the 23rd IEEE Conf on Computer Vision and Pattern Recognition Workshop. Piscataway, NJ: IEEE, 2010: 9-14

[42]Wang Jiang, Liu Zicheng, Wu Ying, et al. Mining action-let ensemble for action recognition with depth cameras[C]Proc of the 25th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2012: 1290-1297

[43]Wang Jiang, Nie Xiaohan, Xia Yin, et al. Mining discriminative 3D poselet for cross-view action recognition[C]Proc of the IEEE Winter Conf on Applications of Computer Vision (WACV). Piscataway, NJ: IEEE, 2014: 634-639

[44]Han Lei, Wu Xinxiao, Liang Wei, et al. Discriminative human action recognition in the learned hierarchical manifold space[J]. Image and Vision Computing, 2010, 28(5): 836-849

[45]Messing R, Pal C, Kautz H. Activity recognition using the velocity histories of tracked keypoints[C]Proc of the 22nd IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009: 1550-5499

[46]Fathi A, Hodgins J, Rehg J. Social interactions: A first-person perspective[C]Proc of the 25th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2012: 1226-1233

[47]Schindler K, Gool L. Action snippets: How many frames does human action recognition require?[C]Proc of the 21st IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2008: 1-8

[48]Junejo I, Dexter E, Laptev I, et al. View-independent action recognition from temporal self-similarities[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2011, 33(1): 172-185

[49]Shan Yanhu, Zhang Zhang, Yang Peipei, et al. Adaptive slice representation for human action classification[J]. IEEE Trans on Circuits and Systems for Video Technology (T-CSVT), 2015, 25(10): 1624-1636

[50]Gavrila D, Davis L. 3D model-based tracking of humans in action: A multi-view approach[C]Proc of the 9th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 1996: 18-20

[51]Veeraraghavan A, Chellappa R, Chowdhury A. The function space of an activity[C]Proc of the 19th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2006: 959-568

[52]Aggarwal J, Park S. Human motion: Modeling and recognition of actions and interactions[C]Proc of the 2nd Int Symp on 3D Data Processing, Visualization and Transmission(3DPVT 2004). Piscataway, NJ: IEEE, 2004: 640-647

[53]Yamato J, Ohya J, Ishii K. Recognizing human action in time-sequential images using hidden Markov model[C]Proc of the 5th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 1992: 379-385

[54]Bobick A, Wilson A. A state-based approach to the representation and recognition of gesture[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 1997, 19(12): 1325-1337

[55]Oliver N, Rosario B, Pentland A. A Bayesian computer vision system for modeling human interactions[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2000, 22(8): 831-843

[56]Lv Fengjun, Nevatia R. Recognition and segmentation of 3-D human action using hmm and multi-class adaboost[C]Proc of the 9th European Conf on Computer Vision. Berlin: Springer, 2006: 359-372

[57]Natarajan P, Nevatia R. Coupled hidden semi Markov models for activity recognition[C]Proc of the IEEE Workshop on Motion and Video Computing (WMVC 2007). Piscataway, NJ: IEEE, 2007: 1-10

[58]Nguyen N, Phung D, Venkatesh S, et al. Learning and de-tecting activities from movement trajectories using the hierarchical hidden Markov model[C]Proc of the 18th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2005: 955-960

[59]Shi Yifan, Huang Yan, Minnen D, et al. Propagation networks for recognition of partially ordered sequential action[C]Proc of the 17th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2004: 862-869

[60]Damen D, Hogg D. Recognizing linked events: Searching the space of feasible explanations[C]Proc of the 22nd IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009: 927-934

[61]Tran S, Davis L. Event modeling and recognition using Markov logic networks[C]Proc of the 10th European Conf on Computer Vision. Berlin: Springer, 2008: 610-623

[62]Ivanov Y A, Bobick A F. Recognition of visual activities and inter-actions by stochastic parsing[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2000, 22(8): 852-872

[63]Joo S, Chellappa R. Attribute grammar-based event recognition and anomaly detection[C]Proc of the 18th IEEE Conf on Computer Vision and Pattern Recognition Workshop. Piscataway, NJ: IEEE, 2006: 1-11

[64]Ryoo M, Aggarwal J. Semantic understanding of continued and recursive human activities[C]Proc of the 18th Int Conf on Pattern Recognition. Piscataway, NJ: IEEE, 2006: 379-378

[65]Zhang Zhang, Huang Kaiqi, Tan Tieniu. An extended grammar system for learning and recognizing visual events in motion trajectory stream[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2011, 33(2): 240-255

[66]Laptev I, Marszalek M, Schmid C, et al. Learning realistic human actions from movies[C]Proc of the 21st IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2008: 1-8

[67]Kovashka A, Grauman K. Learning a hierarchy of discriminative space-time neighborhood features for human action recognition[C]Proc of the 23rd IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2010: 2046-2053

[68]Hu Qiong, Qin Lei, Huang Qingming, et al. Action recognition using spatial-temporal context[C]Proc of the 23rd IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2010: 1521-1524

[69]Wang Yang, Sabzmeydani P, Mori G. Semi-latent dirichlet allocation: A hierarchical model for human action recognition[C]Proc of the 2nd Workshop on HUMAN MOTION Understanding, Modeling, Capture and Animation. Berlin: Springer, 2007: 240-254

[70]Han Dong, Bo Liefeng, Sminchisescu C. Selection and context for action recognition[C]Proc of the 12th IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2009: 1933-1940

[71]Ziaeefard M, Ebrahimnezhad H. Hierarchical human action recognition by normalized-polar histogram[C]Proc of the 23rd IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2010: 3720-3723

[72]Gilbert A, Illingworth J, Bowden R. Action recognition using mined hierarchical compound features[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2011, 33(5): 883-897

[73]Felzenszwalb P, Girshick R, McAllester D, et al. Object detection with discriminatively trained part-based models[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1627-1645

[74]Xie Yuelei, Chang Hong, Li Zhe, et al. A unified framework for locating and recognizing human actions[C]Proc of the 24th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2011: 25-32

[75]Tian Yicong, Sukthankar R, Shah M. Spatiotemporal de-formable part models for action detection[C]Proc of the 26th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2013: 2642-2649

[76]Messing R, Pal C, Kautz H. Activity recognition using the velocity histories of tracked keypoints[C]Proc of the 12th IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2009: 104-111

[77]Lucas B, Kanade T. An iterative image registration technique with an application to stereo vision[C]Proc of the 1st Int Conf on Artificial Intelligence. San Francisco, CA: Morgan Kaufmann, 1981: 674-679

[78]Wang Heng, Klaser A, Schmid C, et al. Dense trajectories and motion boundary descriptors for action recognition[J]. International Journal of Computer Vision, 2013, 103(1): 60-79

[79]Ji Shuiwang, Xu Wei, Yang Ming, et al. 3D convolutional neural networks for human action recognition[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2013, 35(1): 221-231

[80]Karpathy A, Toderici G, Shetty S, et al. Large-scale video classification with convolutional neural networks[C]Proc of the 27th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2014: 1725-1732

[81]Simonyan K, Zisserman A. Two-stream convolutional net-works for action recognition in videos[C]Proc of the 28th Annual Conf on Neural Information. Cambridge, MA: MIT, 2014: 568-576

[82]Wang Limin, Qiao Yu, Tang Xiaoou. Action recognition with trajectory-pooled deep-convolutional descriptors[C]Proc of the 28th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 4305-4314

[83]Wang Heng, Klaser A, Schmid C, et al. Action recognition by dense trajectories[C]Proc of the 24th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2011: 3169-3176

[84]Wang Heng, Schmid C. Action recognition with improved trajectorie[C]Proc of the 14th IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2013: 3551-3558

[85]Vieira A, Nascimento E, Oliveira G, et al. Stop: Space-time occupancy patterns for 3D action recognition from depth map sequences[C]Proc of the 19th Iberoamerican Congress on Pattern Recognition. Berlin: Springer, 2012: 252-259

[86]Yang Xiaodong, Zhang Chenyang, Tian YingLi. Recognizing actions using depth motion maps-based histograms of oriented gradients[C]Proc of the 18th ACM Int Conf on MultiMedia Modeling. New York: ACM, 2012: 1057-1060

[87]Oreifej O, Liu Zicheng. Hon4d: Histogram of oriented 4D normals for activity recognition from depth sequences[C]Proc of the 26th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2013: 716-723

[88]Zhang Hao, Parker L. 4-dimensional local spatio-temporal fea-tures for human activity recognition[C]Proc of IEEERSJ Int Conf on Intelligent Robots and Systems. Piscataway, NJ: IEEE, 2011: 2044-2049

[89]Jalal A, Uddin M, Kim J, et al. Recognition of human home activities via depth silhouettes and transformation for smart homes[J]. Indoor and Built Environment, 2012, 21(1): 184-190

[90]Gunnar J. Discriminative video pattern search for efficient action detection[J]. Perception and Psychophysics, 1973, 14(2): 201-211

[91]Campbell L, Bobick A. Recognition of human body motion using phase space constraints[C]Proc of the 5th Int Conf on Computer Vision. Piscataway, NJ: IEEE, 1995: 624-630

[92]Sheikh Y, Sheikh M, Shah M. Exploring the space of a human action[C]Proc of the 10th IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2005: 144-149

[93]Shotton J, Fitzgibbon A, Cook M, et al. Real-time human pose recognition in parts from single depth images[C]Proc of the 24th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2011: 1297-1304

[94]Zhao Xin, Li Xue, Pang Chaoyi, et al. Online human gesture recognition from motion data streams[C]Proc of the 19th ACM Int Conf on MultiMedia Modeling. New York: ACM, 2013: 23-32

[95]Xia Lu, Chen Chiachih, Aggarwal J. View invariant human action recognition using histograms of 3D joints[C]Proc of the 25th IEEE Conf on Computer Vision and Pattern Recognition Workshop. Piscataway, NJ: IEEE, 2012: 20-27

[96]Wang Jiang, Liu Zicheng, Wu Ying, et al. Mining action-let ensemble for action recognition with depth cameras[C]Proc of the 25th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2012: 1290-1297

[97]Vemulapalli R, Arrate F, Chellappa R. Human action recognition by representing 3D skeletons as points in a lie group[C]Proc of the 27th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2014: 588-595

[98]Huang Kaiqi, Tao Dacheng, Yuan Yuan, et al. View independent human behavior analysis[J]. IEEE Trans on Systems, Man and Cybernetics, Part B: Cybernetics, 2009, 39(4): 1028-1035

[99]Huang Kaiqi, Zhang Yeyin, Tan Tieniu. A discriminative model of motion and cross ratio for view-invariant action recognition[J]. IEEE Trans on Image Processing, 2012, 21(5): 2187-2197

[100]Fathi A, Farhadi A, Rehg J. Understanding egocentric activities[C]Proc of the 13th Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2011: 407-414

[101]Pirsiavash H, Ramanan D. Detecting activities of daily living in first-person camera views[C]Proc of the 25th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2012: 2847-2854

[102]Kitani K, Okabe T, Sato Y, et al. Fast unsupervised ego-action learning for first-person sports videos[C]Proc of the 24th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2011: 3241-3248

[103]Ryoo M, Matthies L. First-person activity recognition: What are they doing to me?[C]Proc of the 26th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2013: 2730-2737

[104]Siskind M. Grounding the lexical semantics of verbs in visual perception using force dynamics and event logic[J]. Journal of Artificial Intelligence Research, 2001, 15: 31-90

[105]Vu V, Francois B, Monique T. Automatic video interpretation: A novel algorithm for temporal scenario recognition[C]Proc of the 23rd Int Joint Conf on Artificial Intelligence. San Francisco, CA: Morgan Kaufmann, 2003: 1295-1300

[106]Nevatia R, Hobbs J, Bolles B. An ontology for video event representation[C]Proc of the 17th IEEE Conf on Computer Vision and Pattern Recognition Workshop. Piscataway, NJ: IEEE, 2004: 119-119

[107]Moore D, Essa I, Hayes I. Exploiting human actions and object context for recognition task[C]Proc of the 7th Int Conf on Computer Vision. Piscataway, NJ: IEEE, 1999: 80-86

[108]Gupta A, Davis L. Objects in action: An approach for combining action understanding and object perception[C]Proc of the 20th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2007: 1-8

[109]Gong Shaogang, Xiang Tao. Recognition of group activities using dynamic probabilistic networks[C]Proc of the 9th Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2003: 742-749

[110]Zhang D, Perez D, Bengio S, et al. Modeling individual and group actions in meetings with layered hmms[J]. IEEE Trans on Multimedia, 2006, 8(3): 509-520

[111]Dai Peng, Di Huijun, Dong Ligeng, et al. Group interaction analysis in dynamic context[J]. IEEE Trans on Systems, Man, and Cybernetics, Part B: Cybernetics, 2008, 38(1): 275-282

[112]Vaswani N, Chowdhury A, Chellappa R. Activity recognition using the dynamics of the configuration of interacting objects[C]Proc of the 16th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2003: 633-642

Shan Yanhu, born in 1987. Received his PhD degree in pattern recognition and intelligent system from the National Laboratory of Pattern Recognition (NLPR), Institute of Automation, Chinese Academy of Sciences (CASIA), Beijing, China, in 2015, and received his BS degree from Beijing Information Science & Technology University (BISTU), Beijing, China, in 2009. He is currently a researcher in Samsung R&D Institute, Beijing, China. His main research interests include human action recognition, video surveillance and face recognition.

Zhang Zhang, born in 1980. Received his BS degree in computer science and technology from Hebei University of Technology, Tianjin, China, in 2002, and received his PhD degree in pattern recognition and intelligent system from the National Laboratory of Pattern Recognition (NLPR), Institute of Automation, Chinese Academy of Sciences, Beijing, China in 2008. Associate professor. Member of IEEE. His main research interests include activity recognition, video surveillance, and time series analysis (zzhang@nlpr.ia.ac.cn).

Huang Kaiqi, born in 1977. Received his MS degree in electrical engineering from Nanjing University of Science and Technology, Nanjing, China, and received his PhD degree in signal and information processing from Southeast University, Nanjing. After receiving his PhD degree, he became a postdoctoral researcher in the National Laboratory of Pattern Recognition, Institute of Automation, Chinese Academy of Sciences, Beijing, China. Professor. Senior Member of IEEE. His main research interests include visual surveillance, image and video analysis, human vision and cognition, computer vision, etc.

中圖法分類號TP391

通信作者:黃凱奇(kaiqi.huang@nlpr.ia.ac.cn)

基金項目:國家自然科學基金項目(61322209,61473290);國家“九七三”重點基礎研究發展計劃基金項目(2012CB316302);新疆維吾爾族自治區科技專項基金項目(201230122)

收稿日期:2015-05-28;修回日期:2015-11-09

This work was supported by the National Natural Science Foundation of China (61322209,61473290), the National Basic Research Program of China (973 Program) (2012CB316302), and Xinjiang Uygur Autonomous Region Science and Technology Project (201230122).

猜你喜歡
綜述
2021年國內批評話語分析研究綜述
認知需要研究綜述
氫能有軌電車應用綜述
高速磁浮車載運行控制系統綜述
5G應用及發展綜述
電子制作(2019年10期)2019-06-17 11:45:16
SEBS改性瀝青綜述
石油瀝青(2018年6期)2018-12-29 12:07:04
NBA新賽季綜述
NBA特刊(2018年21期)2018-11-24 02:47:52
深度學習認知計算綜述
JOURNAL OF FUNCTIONAL POLYMERS
Progress of DNA-based Methods for Species Identification
法醫學雜志(2015年2期)2015-04-17 09:58:45
主站蜘蛛池模板: 日本黄色不卡视频| 国模粉嫩小泬视频在线观看| 日韩精品无码免费一区二区三区 | 国产成+人+综合+亚洲欧美| 免费一级毛片完整版在线看| 亚洲黄网在线| 国产精品林美惠子在线播放| 中文字幕永久视频| 午夜精品影院| 日韩高清欧美| 日本欧美一二三区色视频| 麻豆国产精品一二三在线观看| 欧美成人精品一区二区| 91精品国产麻豆国产自产在线| 爆操波多野结衣| 日韩欧美国产成人| 国产精品欧美激情| 啪啪啪亚洲无码| 精品国产网站| 91在线国内在线播放老师| 午夜精品福利影院| 日本午夜三级| 99久久精品国产综合婷婷| 国产白浆在线| 亚洲高清中文字幕| 国产精品手机视频| 久久无码av三级| 久久免费精品琪琪| 久久综合色播五月男人的天堂| 国产精品白浆无码流出在线看| 99久久精品美女高潮喷水| 欧美啪啪精品| 国产精品国产主播在线观看| 中文字幕啪啪| 日韩精品一区二区深田咏美| 免费无遮挡AV| 99热国产这里只有精品9九 | 亚洲综合激情另类专区| 中文无码伦av中文字幕| 国产欧美又粗又猛又爽老| 青青草91视频| 97人人模人人爽人人喊小说| 欧美97色| 中文字幕丝袜一区二区| 亚洲第一国产综合| 亚洲中文制服丝袜欧美精品| 福利视频一区| 久久天天躁夜夜躁狠狠| 亚洲天堂成人在线观看| 国产精品3p视频| 99re66精品视频在线观看| 99视频在线观看免费| 国产欧美视频在线观看| 国产成人综合日韩精品无码首页| 狠狠综合久久| 波多野结衣中文字幕一区二区| 久久这里只精品热免费99| 成人夜夜嗨| 日本a∨在线观看| 无码aaa视频| 亚洲欧洲日韩综合色天使| 日韩高清成人| 亚洲中文字幕久久无码精品A| 亚洲国产成人麻豆精品| 就去色综合| 1024你懂的国产精品| 久久精品无码一区二区日韩免费| 国产高清不卡视频| 国产日韩精品欧美一区灰| 国产黄色爱视频| 在线国产毛片手机小视频| 国产精品福利在线观看无码卡| 四虎在线观看视频高清无码| 亚洲国产精品日韩欧美一区| 国产微拍一区二区三区四区| 一级成人a做片免费| 欧美日韩成人| 国产精品福利导航| 激情综合图区| 国产小视频免费观看| 2020国产精品视频| 亚洲aaa视频|