999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的視覺手勢估計綜述

2023-02-28 16:10:46秦浩東
智能計算機與應用 2023年11期
關鍵詞:深度模型

武 勝,秦浩東

(中國電子科技南湖研究院,浙江 嘉興 314001)

0 引 言

三維手勢姿態估計是從采集的圖像或者視頻等對象中預測出手部關鍵點的位置[1],再根據手關節點的位置預測出手掌的姿態,主要包含了目標識別、分割、回歸檢測等。 傳統手勢估計受光線環境、拍攝角度、遮擋等影響,其準確性與實時性受到限制。 隨著卷積神經網絡、遞歸神經網絡、生成對抗網絡等深度學習網絡模型[2]的發展,以及GPU 算力的提升,深度學習在圖像分割、圖像識別、圖像分類方面已經取得了巨大進步,手勢估計使用深度卷積神經網絡,預測得將更加準確。 目前,基于深度學習的研究方法基本可以劃分為3 類,分別是:基于點云的深度神經網絡、基于體素的深度神經網絡以及基于多視點的深度神經網絡。

另外,隨著計算機圖形學、計算機視覺、人工智能等多學科的快速發展,蘋果、谷歌、華為、微軟等也都推出了相關的AR/VR 引擎,AR/VR 相關成果已廣泛應用于教育、醫療、軍事等領域。 虛擬與現實的交互是增強現實中不可或缺的一部分,手勢交互[3]仍然是AR/VR 最重要的交互方式,可以增強用戶的沉浸感,利用手勢可以實現遠程操作、手語識別等應用,這也推動著視覺手勢估計的進一步的發展。

本文主要對三維手勢姿態估計進行梳理與分析,闡述基于深度學習的手勢估計方法,整理相關數據集與評價指標,并對當前所面臨的問題和未來發展趨勢進行了闡述。

1 手勢估計相關工作

1.1 手勢估計方案分類

手勢估計可分為3 類:基于可穿戴設備的手勢估計、基于深度傳感器的手勢追蹤估計、基于視覺的手勢估計。

(1)可穿戴設備的數據手套[4]通過內置傳感器采集手部的運動數據,主要包括慣性、光纖以及光學三種傳感器技術數據手套。 基于慣性的數據手套雖然價格便宜,但是其漂移問題較為嚴重。 基于光學的數據手套通過多個紅外等攝像頭采集手部數據,一般具有價格昂貴、遮擋等一系列問題。 基于光纖的數據手套的數據精度以及穩定性雖然較好,但是其價格也十分昂貴,容易損壞。 通常長時間穿戴數據手套存在手部會發汗,影響操作的沉浸感等問題,因此,數據手套沒有得到大規模的應用。

(2)基于深度傳感器的手勢追蹤估計[5],如:Leap Motion 和Kinect,在內部已經封裝好手部重要信息識別算法,使用比較簡單方便,但是其采集識別準確性取決于攝像機方向,這會限制用戶的運動,而且在背景復雜、遮擋以及光線變化較大時,識別率較低。

(3)基于圖像視覺的手勢估計[6-7]可以解決價格昂貴、穿戴不方便等問題,但是仍然深受遮擋、光線等問題困擾,而就目前圖像學、人工智能等學科的快速發展,基于視覺的手勢識別仍然是研究的主流方向。 基于視覺的研究方法可以分為基于雙目的方法和基于RGB 的方法以及基于RGB-D 的方法。帶有雙攝像頭以及深度傳感器手機的普及,給視覺手勢提供了條件。 基于RGB-D 的深度圖與彩色圖融合的方法有著其它方法所不具備的優勢:

①使用單一的深度圖在超過一定距離后會出現精度下降情況,而彩色圖相機具有變焦功能,可以容易獲取較遠距離的物體。

②三維信息轉換到二維信息過程中必將丟失一些數據,丟失的數據可以經過彩色圖予以找回。

③單一的彩色圖在計算深度數據上精度會出現誤差,通過深度圖可進行補償計算。 手勢姿態估計方案如圖1 所示。

圖1 手勢姿態估計Fig. 1 Gesture pose estimation

1.2 手勢運動學分析

手部由手指、手掌以及手腕共有27 個互相連接的骨骼組成,手勢估計最核心的問題是對手腕以及手指指骨的關節、連同指尖處進行識別、分割、跟蹤以及估計,人手骨骼分布如圖2 所示。

圖2 人手骨骼分布Fig. 2 Distribution of human hand bones

人手是一個具有26 自由度的執行機構,具體包括指骨關節1 個彎曲自由度;掌骨關節1 個自由度彎曲,1 個自由度繞轉,故2 個自由度;腕骨為6 自由度,因此共有1?2?5+2?5+6 =26 個自由度,手掌26 自由度模型如圖3 所示。

圖3 手掌26 自由度模型Fig. 3 26 degree of freedom model of the palm

根據人手指骨骼關節、手掌模型以及運動分析可以得出手部參與交互的主要為手指關節、掌指關節以及手腕[8]。 因此,目前主流的手掌模型關節編碼有14、16、21 三種,大多數論文以及數據集都是采用21 關節點模型,通過估計關節點在三維空間的坐標,可預測出手姿態。 手掌不同自由度模型如圖4所示。

圖4 手掌不同自由度模型Fig. 4 Models of the palm with different degrees of freedom

1.3 識別流程

手勢估計包括人手識別、分割、跟蹤、估計四步。其中,人手識別是為了減少背景噪聲對手勢估計的影響以及降低后續處理的計算量,識別出手部的區域。 人手分割是將手部數據進行像素級別的提取,獲取手部精準的信息。 手部跟蹤是通過連續幀預測下一步的手部位置,減少手部定位的耗時。 手勢估計是從圖像中回歸出手部完整的姿態,最終獲取關節點三維坐標信息。

2 深度學習的手勢估計方法

基于視覺的三維手勢估計自首次引入深度學習以后,深度學習已經成為視覺手勢的一個主流研究領域,越來越多的科研學者通過訓練大量的樣本數據,強化了模型的性能,獲得了更加精準的特征,提高了魯棒性以及泛化能力。 基于深度學習的視覺估計可分為基于人工的神經網絡、圖神經網絡、卷積神經網絡、深度神經網絡等[9-10]。 根據Erol 等學者[11]的綜述結論,三維手勢跟蹤算法可以分為判別法、生成法[12],而為了利用二者的優點,有學者提出了混合法。

2.1 判別法

判別法又稱為數據驅動,對數據特別依賴,需要多個高質量的數據集,可學習從圖像特征空間到手勢特征空間的映射關系,進而預測出手勢。 判別法根據手勢跟蹤的檢測與估計進行區分,又可以分為基于回歸的方法與基于檢測的方法。 判別法由于可以采用離線的訓練,無需大量手掌模型,因此,更適合實時應用。

2014年,Tompson 等學者[13]首次將卷積神經網絡應用到手勢估計中,利用卷積神經網絡來提取手部圖像特征信息,并為手部關鍵點生成2D 熱圖,然后利用逆運動學原理由熱圖提取特征,再根據目標函數最小化來估計3D 手部姿態。 這也啟發了很多人使用卷積神經網絡以及熱圖進行手部姿態估計。Sinha 等學者[14]利用卷積神經網絡獲取圖像特征的方法,再結合深度數據進行最近鄰特征匹配補全手勢估計的參數。 由于手勢估計的復雜性,從圖像中估計的關節與真實關節可能出現偏差。

針對上述情況,Ge 等學者[15]先提出了一種新的基于深度圖的多視角獲取手部關節點后進行回歸融合,估算出手勢坐標。 此后Ge 等學者[16]根據Qi等學者[17]的啟發將PointNet++應用解決三維手勢估計問題,將手勢深度圖3D 點云進行采樣和歸一化輸入到PointNet 網絡中,進行點云特征提取,同時該方法還設計了一個指尖矯正網絡進行指尖位置的優化。 隨后,Ge 等學者[18]又進一步改變了網絡結構,采用編解碼器兩層架構代替分層架構的采樣,對3D 關節位置進行預測,提高手勢估計的精度。 在此之前,大多數手部估計方法止步于三維手部關鍵點的回歸,并不能精準地反映手部形態,而AR/VR 領域需要更加逼真的手部模型。 同時,圖神經網絡能夠解決復雜的結構關系,學者將圖神經網絡引入手勢中。 因此,Ge 等學者[19]提出一個全新的端到端訓練的圖卷積神經網絡,將2D 熱圖等潛在特征變量通過該網絡生成了密級手部網格,根據網格坐標最終得到三維關節坐標,原理如圖5 所示。 Fang 等學者[20]也提出了基于圖卷積網絡的聯合圖推理來估算關節的復雜關系,同時通過增強像素的能力,估算出每個像素的偏移量,再對所有的像素進行加權計算,進而估計出手部信息。

圖5 Ge 等學者[19]提出的網絡原理圖Fig. 5 Schematic diagram of the network proposed by Ge et al[19]

2.2 混合法

生成法又稱為基于模型的方法,主要是基于固定的手勢模型進行姿態估計識別,需要根據運動學原理事先創建滿足手部形態學約束的模型,再進行匹配。 主要流程如下:首先需要根據輸入圖像匹配適合的手部模型,然后進行模型參數初始化,并找到一個實際模型與輸入模型之間的損失函數,通過不斷迭代最小化損失函數得到最優手勢模型。 生成法的主要優化方法體現在目標函數最小化方法以及使用先驗手勢來匹配數據的方法,在本文不進行詳細介紹。 為了最優化地使用生成法與判別法,有學者提出了混合法,可以使用判別法對姿態進行先驗,引導對生成模型的優化,然后使用生成法細化手型與位置,降低跟蹤的誤差,提高復雜場景環境下跟蹤估計的魯棒性。

Ye 等學者[21]提出基于層次的混合手勢估計方法,通過變換輸入空間與輸出空間的方式,將多階段與多層回歸集成到CNN 中,在多層級之間,通過粒子群算法把運動學約束施加到CNN 中,該方法可以減少關節與視角的變化,糾正手勢估計的結果。

Mueller 等學者[22]先利用卷積神經網絡定位手關節,再使用深度值計算得出手的三維信息。 Zhang等學者[23]先對深度圖中的手掌進行分割,并通過預訓練的LSTM 預測當前的手勢,最后重建對象模型。

3 數據集與評價指標

3.1 數據集

大規模精準標注的數據集是手勢估計的基礎,而早期由于缺少專業相機方陣,數據集較小。 隨機光學組件相關硬件以及計算機軟件的發展,使得手勢估計數據集已經非常豐富,不僅有手動標注數據、自動標注數據、半自動標注數據,還有全自動合成數據[24],無論在數據質量、還是數據規模上已經有質的飛越。

手動標記數據有Dexter-1、MSRA14 等,由于手工標注數據是一件繁瑣的事,因此該類數據集規模相對較小,不適合用于大規模數據驅動的手勢估計。半自動標注的手勢數據有ICVL、MSRA15、NYU 等,半自動標注方法一般先估算出三維手部關節點,再使用人工標注方法進行修正或者于初始先手動標注出二維手部關節點,再使用算法預測出三維手部關節點,即使使用半自動標注,收集以及標注大數據集的手勢數據也是一個繁瑣復雜的大工程。 為了獲得更高質量、更大規模的數據集,出現了全自動以及合成數據集方法。 全自動標注數據有HandNet、BigHand2.2M 等,全自動標注數據先讓受試者帶上數據手套,在采集圖像時進行手部關節數據標注,相較于半自動標注來說自動標注效率大大提高,適合創建大型手勢標注數據集。 合成數據有MSRC、RHD 等,合成數據使用軟件先基于手勢模型生成不同姿態的仿真圖像數據,再自動標記三維關節信息。合成數據標記效率高,可以創建大規模的數據集,但合成數據很難對真實圖像的豐富紋理特征進行建模,而且因為反關節等各種原因導致數據特征丟失,同時受限于手部的多自由度以及手部膚色,因此就目前來說,合成數據質量相對不高,但隨著計算機相關學科的發展,合成數據必將是手勢標注數據的發展方向。

表1 列出了手勢估計公共數據集,隨著時間的進行,數據量整體呈現上升趨勢,從中挑選一個合成數據集、一個超大型數據集以及一個中文手語數據集進行介紹。

表1 三維手勢估計常用數據集Tab. 1 Common data set of 3D gesture estimation

(1) RHD (Rendered Hand Pose)。 是一個41 258個訓練集以及2 728 個測試集的手勢估計的圖像數據集,是由弗萊堡大學在2017年發布的合成渲染數據集,每個樣本共有深度圖、RGB 圖、分割圖,圖像像素為320 × 320。 每只手都有21 個關鍵點的精確二維以及三維注釋。

(2)FreiHand。 是一個包含32 個人進行的手部動作采集,共有32 560 個訓練樣本以及3 960 個測試樣本圖像數據集。 是由弗萊堡大學與Adobe 研究院于2019年發布的,可用于圖像檢測、分類任務。

(3)InterHand2.6M。 是第一個具有準確GT 3D雙手交互的大規模手部實拍數據集。 由Facebook Reality Lab 于2020年發布,包括260 萬張手勢圖像。 可為學者提供了一個雙手交互的手勢估計數據集。

3.2 評價指標

手勢評價的標準是指相對于標注的手勢點相差多少。 常見的評價指標可分述如下。

(1)平均關節位置誤差(Mean PerJoint Position Error,MPJPE)[36],定義為預測關節點位置與真實三維關節點位置的平均歐幾里得距離,單位為mm。指標值越小、姿態估計算法越好,計算公式如下:

其中,N表示手指節點數;pij表示預測點;表示真實標注點。

(2)端點誤差(End Point Error,EPE)[37]。 定義為手部跟關節對齊后預測的三維手部坐標與真實坐標之間的平均歐式距離,單位為mm。 計算公式如下:

其中,S為樣本數;i為關節點數;y表示真實值;表示預測值。

(3)正確關鍵點百分比(Percentage of Correct KeyPoints,PCK)[38]表示手勢估計結果預測值與真實值相差的歐氏距離在一定可接受范圍內,則認定為預測準確。Jk計算公式如下:

其中,Tk表示閾值。

(4)工作特征曲線下面積(Area Under Curve,AUC)[39]。 在手勢估計中,AUC被定義為PCK曲線與坐標軸圍成的面積,相同標準下AUC值越大表示估計誤差越小,精度越高。

不同算法在RHD 以及STB 公開數據集上執行精度對比見表2。

表2 不同算法的精度比較Tab. 2 Precision comparison of different algorithms

4 問題與挑戰

當前已經有較多的學者參與研究三維手勢估計,基于單目RGB、雙目、RGB-D 的估計在特定場景設備下已經取得了較大進步,但是在特殊環境進行復雜操作時仍然有較多的問題亟待解決,例如:環境背景與手掌膚色貼合、光照變化較大、進行復雜的自遮擋動作等[46]。

4.1 復雜場景環境

為了精準分割出手勢圖像,大部分手勢估計方法均在背景單一、且單手條件下進行,而正常環境下可能無法控制在環境光照變化較強的場景或者與手膚色相近的背景或者反光面、玻璃等背景下的多手協作。 因為,高光照在這種復雜的背景環境中無疑加大了手勢檢測、分割的難度。 例如:強光照射手部或陰影投射手部均使手與背景不明顯。 如何提高手勢估計在復雜場景背景下的手勢檢測與分割的精準性,進而提高復雜場景的手勢交互能力,將會是未來的一個研究方向。

4.2 高自由度

人手有26 個自由度,可以實現300°/s 旋轉以及5 m/s的快速運動,因此十分靈活,手勢估計姿態的復雜度隨著自由度以及運動速度的增加而呈指數的增長。 目前仍存在較多精度較低、無法貼合手部結構的運動模型。 如何在高自由度的快速運動的手部圖像序列中進行精準識別高維時序特征,快速預測手部關節值仍然是一個熱點問題。

4.3 自遮擋

因為手部的高自由度導致手部具有多樣性以及多異性。 人類很容易實現的自握拳、自握手等無疑會出現手部自遮擋、自碰撞。 而且因為膚色、年齡等差異較大,加上自遮擋問題,可能使得手部在圖像中所占面積較小,進而丟失較多手部細節信息,導致手勢估計不準確或者完全失效。

4.4 實時性與準確性

當前較多研究是在實驗室環境中使用高性能計算機進行檢測、分割,其運行速率可達90 FPS 以上,而在手機或者AR 眼鏡上,加上復雜的環境等因素,其處理速度可能達不到10 FPS,AR/VR 應用的理想運行速率不低于60 FPS。 因此,在復雜的環境下,需要實現準確性與實時性,仍然有較多問題需要解決。

5 展 望

基于深度學習的三維手勢估計方法不斷進行優化,極大地提升了手勢估計的效果,基于上文提出的問題,研究者可以從以下幾個方面進行優化。

5.1 利用時序信息

基于時間序列的手勢估計可以利用雙向長短時記憶網絡模型獲取前后幀之間的時序特征,挖掘出更加豐富的特征信息,進而輔助預測出后續手掌位置、甚至手勢關鍵節點信息,解決自遮擋等復雜環境背景下手勢識別的準確性以及手勢估計的速度問題。

5.2 優化網絡模型

深度學習的手勢估計中,網絡模型是一個重要的主題。 如何優化出輕量級的網絡模型解決復雜的場景下手勢檢測與分割以及特征提取等手勢估計的準確性問題,進而提高網絡的運行速度,是助力手勢估計研究的一個重要學術方向。

5.3 利用混合法

判別法對遮擋等有較強的魯棒性問題可以快速從錯誤中恢復,而且其運行速度較快,但是卻無法利用時序幀,導致手勢估計容易出現跟蹤丟失現象,而生成法可以利用時序幀,使用擬合模型處理高維數據和復雜環境下的手勢估計。 如何平衡使用判別法與混合法,充分利用二者的優勢,可加快手勢估計跟蹤的性能。

6 結束語

本文對基于深度學習的手勢估計算法以及數據集和評價指標進行了回顧,探討了手勢估計目前所面臨的挑戰以及未來的研究方向。 手勢交互是最重要的人機交互之一,應用在AR/VR、手語識別、遠程操控等方面,雖然不少學者在手勢估計方面的研究已經取得了一定成果,但是距離實際應用還有較長的路要走。因此,也希望相關研究學者繼續進行復雜場景的手勢研究,讓手勢估計早日在中低端設備上落地應用。

猜你喜歡
深度模型
一半模型
深度理解一元一次方程
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
深度觀察
深度觀察
深度觀察
深度觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 天堂在线亚洲| 日本高清免费不卡视频| 久久国产亚洲欧美日韩精品| 欧美亚洲一区二区三区导航| 自拍欧美亚洲| 国产精品久线在线观看| 国产凹凸视频在线观看| 国产在线视频福利资源站| 潮喷在线无码白浆| 国产日本欧美亚洲精品视| 久久精品66| 中文字幕无码av专区久久| 亚洲精品成人7777在线观看| 99资源在线| 99免费视频观看| 91精品小视频| 国产高清又黄又嫩的免费视频网站| 任我操在线视频| 99精品免费欧美成人小视频 | 国产凹凸一区在线观看视频| 国产伦片中文免费观看| 亚洲va视频| 另类欧美日韩| 97在线碰| 国内熟女少妇一线天| 亚洲一级色| 青草国产在线视频| 少妇精品在线| 亚洲国产精品VA在线看黑人| 亚洲欧美在线看片AI| 久久精品aⅴ无码中文字幕| 99ri精品视频在线观看播放| 一级在线毛片| 国产精品主播| 亚洲欧美不卡视频| 国产91高跟丝袜| 国产日韩欧美中文| 麻豆AV网站免费进入| 亚洲视频免| 色婷婷电影网| 国产日韩久久久久无码精品| 女同久久精品国产99国| 国产交换配偶在线视频| 婷婷中文在线| 国产大全韩国亚洲一区二区三区| 中文字幕调教一区二区视频| 国产精品久久久久无码网站| 午夜高清国产拍精品| 91视频99| 91在线激情在线观看| 99久久国产自偷自偷免费一区| 日本尹人综合香蕉在线观看| 9cao视频精品| 精品国产欧美精品v| 国产精品网址在线观看你懂的| 大香网伊人久久综合网2020| 亚洲激情99| 亚洲区视频在线观看| 在线综合亚洲欧美网站| 久久亚洲日本不卡一区二区| 99精品免费在线| 欧美激情成人网| 国产精品视频第一专区| 国产网站免费观看| 色窝窝免费一区二区三区| 欧美日韩国产在线人| 亚洲国产清纯| 亚洲男人天堂网址| 99免费视频观看| 久久综合五月| 热九九精品| 欧美成人综合在线| 国产浮力第一页永久地址| 久久综合结合久久狠狠狠97色| 波多野衣结在线精品二区| 国产极品粉嫩小泬免费看| 天堂在线www网亚洲| 国产99在线观看| 毛片大全免费观看| 国产一级裸网站| 久草视频一区| 国产精品夜夜嗨视频免费视频|