(西華大學計算機與軟件工程學院 四川 成都 610039)
計算機視覺[1]是一個跨學科的領域,它主要解決的是如何讓計算機像人一樣可以理解圖像或者視頻中的信息,即高級、抽象的信息,視覺也是獲得信息最直觀的方式,可見其重要性。計算機視覺分為以下研究方向:場景重建、事件檢測、目標跟蹤、目標識別、姿態(tài)估計、動作估計、機器學習和圖像恢復等。目前國際上有關計算機視覺比較權威的期刊有TPAMI、IJCV、PR、TIP等,學術會議有國際計算機視覺和模式識別大會、國際計算機視覺大會、計算機視覺歐洲會議等。數(shù)字圖像處理技術加上機器學習算法,隨后隨著神經(jīng)網(wǎng)絡、深度學習的興起,直接賦予計算可以看到人類世界的能力,同樣也是人工智能的核心。數(shù)字圖像處理技術加上機器學習算法,隨后隨著神經(jīng)網(wǎng)絡、深度學習的興起,直接賦予計算可以看到人類世界的能力,也是讓機器感受世界最直觀的方式,同樣也是人工智能的核心。數(shù)字圖像處理是進行后續(xù)步驟不可缺少的步驟,計算機通過攝像頭獲取圖像,轉(zhuǎn)化為數(shù)字圖像,經(jīng)過圖像解碼、變換、去噪聲、增強或復原等一系列步驟,再通過Sobel、Haar、梯度直方圖等手段對圖片中進行特征提取,最后交由機器學習的算法,比如K-means、SVM等獲得想要的結果。讓計算機“看”懂,就是根據(jù)數(shù)據(jù)進行一些特征的提取,建立相關的數(shù)學模型,在線性空間或則非線性空間進行關系映射,輸出數(shù)據(jù)可能的值或者所屬的區(qū)域。
人體姿態(tài)估計是視頻中人體各關節(jié)點(以下稱為關鍵點)位置估計預測并對各關鍵點按層級順序連接形成完整人體骨架的過程。傳統(tǒng)的方法以人體特征和人體模型為主。Mori G等[2]在2002年提出基于形狀上下文作為特征,通過距離度量來判斷圖像的相似度;ShaKhnarovich等[3]在2003年提出的局部敏感哈希的快速高維數(shù)據(jù)的近似最近鄰查找算法,在大量數(shù)據(jù)中快速精確查找匹配人體關節(jié)姿勢圖;Agarwal等[4]在2004年提出使用輪廓上下文特征作為人體外觀特征,利用帶正則項的最小二乘作為損失函數(shù),最后用支持向量機進行回歸。Wang F,Li Y[5]在2013年提出的樹模型在人體姿態(tài)估計中可以適應場景的變化,并利用單一部位和已連接部位去估計它們在樹模型中的聯(lián)合分布,最后在已學習的隱變量樹進行推斷預測。隨著Krizhevsky 等[6]在2012年提出的AlexNet使用卷積神經(jīng)網(wǎng)絡在ImageNet中由于其高分類正確率脫穎而,隨后,深度學習成為研究的熱點。Pfister T[8]等在2015年的ICCV上提出Flowing ConvNet用于單人姿態(tài)估計,并將姿態(tài)估計問題看作為檢測問題,輸出熱度圖(heatmap),使用參數(shù)池化方法,將多張heatmap合并為一張scoremap。其創(chuàng)新點在于從CNN的第3和7層提取出來,再經(jīng)過卷積操作,用來提取關節(jié)點的內(nèi)在聯(lián)系。Wei S等[7]在2016年提出的卷積姿態(tài)機是順序化的卷積架構來表達空間信息和紋理信息,并在每一階段都采用監(jiān)督訓練。Newell A等[9]在2016年提出的堆疊沙漏網(wǎng)絡使用多尺度特征,捕捉人體各關節(jié)的空間位置信息。每一個top-down到down-top結構都是一個堆疊沙漏模塊。Cao Z等[10]在2017年提出的基于部件親和場的多人實時姿態(tài)估計,它采用自底向上的方法,框架分為兩路,一路使用卷積網(wǎng)絡,根據(jù)置信圖進行關節(jié)預測,另一路使用CNN獲取每一個關節(jié)的PAF(記錄肢干位置和方向的2D向量),兩路進行聯(lián)合學習預測。
在近五年中,人體姿態(tài)估計隨著神經(jīng)網(wǎng)絡和深度學習的發(fā)展,方法已經(jīng)取得了很大的進展,但仍有以下兩個方面需要克服:(1)基本方法的局限性。由于深度學習本身就對訓練的數(shù)據(jù)量有著很大的依賴性,模型訓練離不開大量數(shù)據(jù),前期對數(shù)據(jù)進行標準化,必將成為一個非常耗時耗人力的工作。隨著模型層數(shù)的增加,訓練的權重參數(shù)量增多,對計算資源需求增大。(2)遮擋問題。對畫面中人體進行姿態(tài)估計時,可能會出現(xiàn)人體有部分被場景中的其他物體遮擋,多人存在相互遮擋的問題,需要區(qū)分識別到的關鍵點屬于哪一個人。
二維人體姿態(tài)估計是三維人體姿態(tài)估計的基礎,其中關鍵點的個數(shù)可以由稀疏的關鍵點到稠密關鍵點的過度,進一步為三維提供實現(xiàn)的可能性。原來都是對單幀靜態(tài)圖像中的估計,現(xiàn)在越來越多的研究者將視線轉(zhuǎn)到視頻,這就為人體姿態(tài)估計進一步商用打下基礎,例如,在娛樂產(chǎn)業(yè)中的應用(基于視頻的體感游戲),安防領域(特殊場景中的特殊動作監(jiān)控,家庭中嬰兒老人的照看等),影視行業(yè)(例如在真實電影場景中加入虛擬人物、大型的三維電影)。
人體姿態(tài)估計仍是一個富有挑戰(zhàn)性的課題,雖然在二維上已經(jīng)取得了很驚艷的效果,但在實際應用中存在各種問題。該文從計算機視覺入手,簡述了其中需要以及一直需要解決的問題,并對其中的姿態(tài)估計發(fā)展方法進行歸納,最后對仍然存在的問題進行詳細地闡述,希望能對相關應用領域的工程師有所幫助。