胡敦利 柯浩然 張 維
(北方工業大學現場總線及自動化北京市重點實驗室 北京 100144)
機器視覺廣泛應用于智能監控、家居安全、醫療監護、智能機器人以及運動員輔助訓練[1]等領域。但機器視覺的應用不應該只限于簡單的視頻監控,而應該以視頻中的內容為切入點,分析其中的數據,為人們提供更加智能化的服務,例如通過捕捉人的表情、動作等來預測人的行為或者意圖。
經過多年的發展,人體姿勢識別的方法大體分為模板匹配法[2]和狀態空間法[3]。另一方面,在過去幾十年的機器視覺和機器智能領域中,通常選取空間特性或者時間特性作為表征人體特征的描述性信息,再對其進行編碼分析。在第1代Kinect發布后,微軟劍橋研究院的Shotton等人[3]發表了關于利用骨骼信息進行姿勢識別方法的論文,由此引領了一大批學者開始研究基于骨骼信息的人體行為識別。2014年,微軟發布了第2代Kinect,在原有的基礎上提高了其性能,由此可以為人體姿態識別提供更加豐富和清晰的數據源。但在Linux系統和機器人操作系統(robot operating system,ROS)系統下,由于微軟對于Linux系統下開發的支持并不好,所以需要使用第三方軟件和一些中間件對Kinect V2進行開發。通過在Linux和ROS系統下開發,可以方便地在機器人上使用Kinect V2獲取人體骨架信息,為之后的人體姿態識別提供堅實基礎。目前已經有了很多人體動作識別的方法[4],它們大多數只對完整的動作做分類識別[5-7]。在日常生活中,攝像機捕捉到的人體動作往往是片段的,而非一個完整的行為動作,這就給人體動作識別帶來了很大困難,片段的動作可能代表了與完整動作完全不同的含義。……