999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于長短時記憶和深度神經網絡的視覺手勢識別技術

2020-08-27 06:18:54廖俊杰白佳豪王偉東
圖學學報 2020年3期
關鍵詞:特征提取特征

何 堅,廖俊杰,張 丞,魏 鑫,白佳豪,王偉東

基于長短時記憶和深度神經網絡的視覺手勢識別技術

何 堅1,2,廖俊杰2,張 丞2,魏 鑫2,白佳豪2,王偉東1,2

(1. 北京市物聯網軟件與系統工程技術研究中心,北京 100124;2. 北京工業大學信息學部,北京 100124)

針對基于視覺的動態手勢識別易受光照、背景和手勢形狀變化影響等問題,在分析人體手勢空間上下文特征的基礎上,首先建立一種基于人體骨架和部件輪廓特征的動態手勢模型,并采用卷積姿勢機和單發多框檢測器技術構造深度神經網絡進行人體手勢骨架和部件輪廓特征提取。其次,引入長短時記憶網絡提取動態人體手勢中骨架、左右手和頭部輪廓的時序特征,進而分類識別手勢。在此基礎上,設計了一種空間上下文與時序特征融合的動態手勢識別機(GRSCTFF),并通過交警指揮手勢視頻樣本庫對其進行網絡訓練和實驗分析。實驗證明,該系統可以快速準確識別動態交警指揮手勢,準確率達到94.12%,并對光線、背景和手勢形狀變化具有較強的抗干擾能力。

手勢識別;空間上下文;長短時記憶;特征提取

手勢是人與人之間非語言交流的最重要方式。由于手勢具有自然、形式多樣等特征,其識別是人機交互研究的一個重要領域[1]。依據手勢識別設備是否與身體接觸,其識別技術可分為接觸式手勢識別和基于視覺的手勢識別[2-3]。其中,接觸式手勢識別使用的設備(如數據手套)復雜、價格高,需用戶熟悉相應設備后才能進行手勢識別,限制了手勢的自然表達,不利于自然交互。基于視覺的手勢識別無需高昂的設備,且具有操作方便、自然等優點,更符合自然人機交互的大趨勢,有廣泛的應用前景[2]。

基于視覺的手勢識別過程主要包括手勢分割與檢測、手勢建模與特征提取和手勢識別3個步驟。其中,手勢分割檢測方法有基于運動信息的檢測分割[4]、基于表觀特征的檢測分割[5]和基于多模式信息的檢測分割[6]。基于多模式信息的檢測分割技術克服了復雜環境下單一手勢分割方法的局限,代表手勢分割與檢測的發展趨勢。手勢建模通過分析手勢圖像序列特征來表示手勢,其可分為基于表觀特征的手勢表示和基于三維模型的手勢表示。其中,基于表觀特征的手勢表示通常采用手勢圖像屬性(如結構、邊界、圖像特征向量以及區域直方圖特征等)對手勢建模。三維手勢表示又可以分為紋理模型、網絡模型、幾何模型以及骨架模型。基于骨架的三維模型適合于所有手勢,代表著手勢建模的發展趨勢,但從高維空間中恢復手勢面臨實時性挑戰。

手勢識別采用的技術可分為模板匹配方法、概率統計方法和機器學習方法。其中,模板匹配方法將輸入圖像與模板(點、曲線或形狀)進行匹配,并依據匹配相似度進行分類。例如,TRIESCH等[7-8]依據Gabor特征采用彈性圖匹配方法識別靜態手勢。LI和WACHS[9]使用分層結構的彈性圖匹配識別手勢。BOBICK和DAVIS[10]以運動能量圖和運動歷史圖作為模板識別人體運動。劉江華等[11]采用動態時間規整等方法識別出9種動態手勢。模板匹配法具有簡單快速,不受光照、背景和姿態變化影響等優點。但其可識別手勢種類有限[12],適用于小樣本、外形等變化不大的情況[13]。因此研究人員將概率統計模型應用于手勢識別。例如,CORREA等[14]在統計手的位置和速度基礎上使用貝葉斯分類器實現動態手勢識別。BURGER等[15]在機器人Jibo平臺上使用離散HMM識別動態手勢。文獻[5]提出一種HMM-FNN模型結構對復雜手勢進行建模,并通過模糊規則推理來提高手勢識別性能。PISHARADY等[16]基于邊緣與紋理特征使用支持向量機進行手勢識別。王西穎等[17]結合HMM和模糊神經網絡實現復雜環境下的動態手勢識別。程光[18]采用AdaBoost算法訓練手勢識別分類器,并識別5種靜態手勢。

近年來,研究人員探索將深度學習應用于手勢識別中。WEI等[19]將卷積網絡引入姿勢機框架,直接從圖像中學習人體姿勢和空間上下文之間的關系,進而跟蹤識別人體姿態。CAO等[20]使用部件親和字段(part affinity fields,PAF)學習圖像中人體部件間的關聯關系,設計了一種通過同一預測過程的2個分支來共同學習部件位置及部件間關聯關系的體系結構。FRAGKIADAKI等[21]構造3層長短時記憶網絡(long short term memory,LSTM)進行人體活動檢測識別。上述研究成果表明卷積網絡可有效提取人體活動的空間特征,而LSTM等循環卷積網絡可以有效提取人體活動的時序關系。

已有手勢識別系統通常僅針對人體手部形狀或動作進行識別。手作為身體重要的部件,其手勢的含義通常與人體的骨架姿態、頭部的形狀及運動朝向相關,因此手勢的正確識別與理解需要一個包含人體骨架姿態、頭和手部動作形態特征的通用描述框架支持。受三維人體模型啟發,本文提出融合人體骨架以及頭和手等部件輪廓特征的通用視覺手勢描述框架;此外,引入卷積姿勢機[19](convolutional pose machine,CPM)和提取手勢中人體骨架以及頭和手的輪廓等空間上下文特征,最后將這些特征輸入LSTM提取動態手勢的時序特征,進而實現動態視覺手勢分類識別。

1 骨架和部件輪廓融合的動態手勢建模

在采用手勢交互時,動態手勢的形態主要由人體骨架形態與手、頭部輪廓構成,其本質是基于骨架關節點與各骨架段的相對位置(如骨架的長度、角度)以及手和頭部外部形態的組合。其中,人體骨架由骨架的關鍵節點互相鏈接構成。本文中“人體骨架關鍵節點”指代人體骨架鏈接結構所包含關鍵節點,而“部件”特指具有形狀輪廓特征的手、頭和腳。本節借鑒三維人體模型思想,首先建立融合人體骨架、手和頭等部件輪廓特征的通用手勢模型。然后分別引入CPM和SSD[22]提取動態手勢的空間上下文特征和LSTM提取手勢時序特征。

1.1 動態手勢建模

圖1(a)為通用人體手勢模型。為了識別該手勢,需要識別人體骨架(圖1(b))及其頭部和左右手部件輪廓特征(圖1(c))。

圖1 通用手勢描述框架

由式(1)可知,從圖像中提取人體骨架關鍵點是提取人體骨架特征的基礎。對此,借鑒文獻[24]思想,剪裁CPM網絡層數,構建人體骨架關鍵節點提取網絡(key-point extracting network,KEN)。

計算出人體骨架中的每個關鍵節點的位置,基于式(2)可建立初步的人體骨架形態。

1.2 手勢空間上下文特征提取

SSD以卷積層取代了傳統卷積網絡中的全連接層,相較其他單階段對象檢測算法擁有更少的網絡參數和更快的運行速度,且其識別精度高,因此本文借鑒SSD思想設計了手勢部件輪廓特征提取網絡(gesture part extracting network,GPEN)。

GPEN在多尺度的卷積特征圖上對部件輪廓特征進行檢測與分類。其中,對每一尺度卷積特征圖上的每個單元,GPEN利用不同尺度和長寬比的預測框對框內的手勢部件進行預測,生成錨定框的位置以及不同手勢部件輪廓的類別置信度。設為GPEN從圖像中識別出的部件輪廓特征值(,)的集合,其中為部件輪廓預測框的位置信息,由預測框中心點的坐標(,)、預測框寬度和高度構成;表示將預測框中包含的對象輪廓預測為不同部件輪廓類別的置信度集合。如,c為部件輪廓屬于第類部件輪廓的置信度,即c∈。

對于每個部件輪廓(f∈),其位置信息為l,類別置信度集合為C;假設C中置信度值最大的部件輪廓對應類別為,則將的類別設定為,其置信度值為c(cC),此時f的特征值為(lc)。以此類推,對于圖像中所有部件輪廓的特征值集合為(LC)。根據預設的置信度閾值c從中去除掉c低于c的部件輪廓,同時將中的元素按照置信度值降序排序,其構成了最終的部件輪廓集合。重復以下3個步驟:

(1) 取中置信度值c最高的部件,將該部件輪廓的位置特征l分別與中的其他部件的位置特征l按照式(6)進行計算,得到重疊度,即

(2) 若識別同一部件輪廓的重疊度閾值為J,當(l,other)高于J時,將other對應的部件特征other從中刪除。

(3) 當對排序后的部件集合完成以上操作后,將l對應的部件特征f從中刪除,并輸出f對應的(l, c)值。所屬類別確定了該部件輪廓屬于左手輪廓特征(或為右手輪廓特征或為頭部輪廓特征)。

重復上述步驟,直至集合為空,最終得到左手、右手和頭部部件輪廓特征,和。在此基礎上,通過式(7)將上述手勢人體骨架特征與左手輪廓()、右手輪廓()和頭部輪廓()特征拼接構成了手勢的空間上下文特征,即

1.3 動態手勢時序特征提取

在動態手勢識別中,手勢類型不僅與當前手勢特征有關,還與之前的手勢特征有關。設f為手勢分類函數,當前手勢類型依據式(8)求得,即

式(8)說明了準確識別當前動態手勢類別,需要一種結構來保存此前手勢的空間上下文特征。因此,本文引入LSTM網絡將動態手勢中的空間特征與時間順序相關聯。LSTM依據式(9)保存記憶內。

其中,h為輸出的時間特征;e用于記憶保存,并作為下一個循環神經網絡的輸入。在保存記憶的同時,LSTM也依據式(10)計算輸出向量h,即

其中,為sigmoid函數;?為向量拼接;為矩陣乘法;×為點乘;為當前時間;F為在時間時的手勢空間上下文空間特征;和為神經網絡中可訓練全連接層的權重和偏置。

2 動態手勢識別機

空間上下文與時序特征融合的動態手勢識別機框架如圖3所示,即由人體骨架特征提取網絡、輪廓特征提取網絡和手勢時序特征提取網絡構成。框架中人體骨架關鍵節點提取網絡KEN采用文獻[24]所述人體骨架特征提取方法構建,其他部分網絡構建方法在本節逐一介紹。

圖3 動態手勢識別框架

2.1 手勢部件輪廓特征提取網絡

由于數據集中的標注數據相對較少,直接使用SSD網絡進行訓練易導致過擬合現象。為了緩解過擬合現象的發生,減少網絡模型的參數量,本文采用參數量更少的MobileNet替換SSD中的特征提取網絡VGGNet,進而構建手勢部件輪廓特征提取網絡GPEN。圖4為GPEN的網絡結構。

圖4中,GPEN中特征提取網絡(Conv1~Conv13)基于深度可分離卷積的堆疊技術構建,其將通道相關性和空間相關性分離,并用深度可分離卷積核代替傳統卷積核,因此大大減少了網絡的參數量,其完整卷積過程如圖5所示。

圖5中,為輸入通道數;為輸出通道數;D×D為卷積核大小,D×D為輸入特征圖的大小;D×D為輸出特征圖的大小。深度可分離卷積核與傳統卷積核的特征參數比值由式(11)計算可得

其中,為網絡的第個卷積層。

GPEN網絡訓練的損失函數由分類損失和定位損失構成為

其中,為樣本的數量;為當前預測框的類別匹配信息;為類別預測信息;為預測框的位置信息;為檢測框的真實值;L為分類損失函數;L為預測框的定位損失函數;為權重系數。

2.2 手勢空間上下文特征提取

依據KEN輸出的關鍵節點及節點間的關聯關系,根據式(4)和式(5)可分別計算出人體骨架中各骨架段的相對長度及其與重力加速度間的夾角,同時結合GPEN輸出的左右手和頭部輪廓類別可以生成時刻的人體手勢空間上下文特征F。圖6為計算手勢空間上下文特征的偽代碼。

圖6 人體手勢空間上下文提取偽代碼

2.3 動態手勢時序特征提取網絡

LSTM網絡被用來提取動態手勢的時序特征。圖7為本文所用LSTM網絡的架構。在圖7中,e?1,h?1和F是LSTM網絡的輸入。其中,F是在時

圖7 LSTM架構

刻人體骨架中各骨架的相對長度及其與重力加速度夾角以及左右手和頭部輪廓類別合成的特征值。

3 網絡訓練

3.1 數據采集

本文參考中國交通人體手勢規范,選擇了8種交警指揮手勢對應的左右手和頭部輪廓(表1)。此外,將8種交警手勢之外的手勢歸類為“待機”姿勢。

表1 8種中國交警手勢對應的左右手和頭部輪廓

4名志愿者按照中國交警手勢規范錄制了8種交警指揮手勢和“待機”姿勢,其中,每位志愿者針對9種姿勢分別錄制了50組視頻,視頻為1024×768分辨率、15 fps的標準高清格式。這些視頻經過清洗后分別劃分成訓練、驗證和測試樣本集。圖8為部分交警手勢數據集樣本。

圖8 交警手勢數據集樣本示例

該數據集中,每組視頻的背景、光線強弱、人物與鏡頭間的距離等試驗場景不盡相同。例如,包括室內和傍晚時刻光照較弱的場景,也包括背景有流動車輛和人員、以及含有眾多樹干和樹枝的復雜背景場景。同時,為了進一步提高模型魯棒,避免深度神經網絡訓練中出現過擬合現象,課題組對采集的視頻幀數據集進行了隨機數據增強操作。

3.2 數據增擴

本文針對每組視頻幀同時采用表2中的5種數據增強操作,得到1組新的數據樣本,在增強操作時隨機選擇變換區間的取值,每種操作彼此獨立。圖9為部分數據增強操作后生成的樣本示例。

表2 數據增強操作

圖9 數據增強后的部分視頻幀示例

3.3 人體骨架關鍵節點提取網絡KEN訓練

本文采用AI Challenger公開的人體關鍵節點數據集作為訓練樣本來訓練KEN網絡。在人體骨架特征提取網絡KEN的訓練中,batch值取15;梯度下降采用了Adam優化器,其學習率為0.000 8,每20 000步的指數衰減率為0.8。

3.4 手勢部件輪廓特征提取網絡GPEN訓練

GPEN在進行網絡訓練前需依據人體手勢中手和頭部輪廓特征優化SSD錨定框。并采用式(15)對錨定框進行歸一化,即

已標注視頻樣本的左右手和頭部輪廓尺度比例的散點圖如圖10所示。其橫坐標表示部件輪廓標注框寬度占整幅圖像寬度的比例;縱坐標表示標注框高度占整幅圖像高度的比例。由圖10發現,部件輪廓標注框高度與原圖像高度比小于0.25、寬度與原圖像寬度比小于0.20,部件輪廓標注框歸一化尺度介于0.05~0.25之間。為了訓練GPEN,課題組將錨定框的歸一化尺度取值介于0.05~0.3之間。GPEN含有6層包含了錨定框的特征層,每個特征層上的錨定框歸一化尺度可按照式(16)求得(表3)。

表3 錨定框尺寸系數

圖10 特征尺寸比例散點圖

3.5 時序特征提取網絡LSTM訓練

本文采用截斷反向傳播算法訓練LSTM網絡。訓練中,交警手勢特征被隨機切分成長度為90 s的小視頻,128個小視頻組裝成一個batch。累計訓練50 000步。

上述3類網絡訓練完成后,訓練好的KEN和GPEN構成了空間上下文特征提取網絡,其和時序特征提取網絡LSTM相連接構成了動態手勢識別機GRSCTFF。GRSCTFF以包含動態手勢的視頻作為輸入,輸出為交警手勢的類別。

4 實驗與結果分析

4.1 編輯距離實驗

本文采用編輯距離(edit-distance)計算GRSCTFF模型準確率,即模型預測識別的手勢信息轉成真實標注手勢信息所需的最少編輯次數,Edit距離為

其中,為視頻中姿勢總數;為視頻中插入姿勢的總數;為系統中刪除姿勢的總數;為系統中替換姿勢的總數。

使用訓練好的GRSCTFF模型對測試集中的視頻進行逐幀預測,得到手勢預測序列。將預測序列與標注序列按照式(17)計算出基于編輯距離的系統識別準確率(表4)。

表4 GRSCTFF手勢識別系統的編輯距離

表4中,文件列包含手勢測試集的視頻文件編號,不同編號的視頻文件其測試場景不同,每個視頻文件時長為5~10 min;預測列包含視頻文件的預測手勢總數;為視頻文件實際出現的手勢總數;其余列意義與式(17)相同。由表4可知,GRSCTFF 針對10組交警手勢測試樣本的識別準確率達到94.12%。

此外,為了驗證空間上下文多特征融合能否提高手勢分類的準確率,課題組移除GRSCTFF中的手勢部件輪廓特征提取網絡,構造了一種僅含人體骨架和時序特征的手勢識別機(KEN+LSTM)與GRSCTFF 進行對比。KEN+LSTM使用與本實驗相同的訓練樣本和測試樣本,其編輯距離見表5。

表5 KEN+LSTM手勢識別算法編輯距離

對比表4和表5,KEN+LSTM的識別準確率為91.18%,GRSCTFF相較KEN+LSTM的識別準確率總體提高了約3%。其中,視頻文件004和008中,交警位于平整路面中央,背景為車輛、簡單樹木或規整建筑,光源位于被試側前方且亮度充足,故這2組測試視頻的識別率最高,GRSCTFF和KEN+LSTM的識別準確率均超過98.76%,GRSCTFF略微有提高。視頻文件002為光線較暗的室內環境,且背景包含較多雜物,GRSCTFF相較KEN+LSTM準確率提升約1.8%。視頻文件010的背景為木質崗亭以及枯萎草木的室外環境,對KEN+LSTM造成干擾導致其識別準確率較低,但加入部件輪廓特征提取的GRSCTFF準確率提升約16%,升幅較大。視頻文件012背景為紅色建筑和灌木綠化帶,由于視頻中光源充足人物清晰,2種模型的識別率均較高,相差不大。視頻文件014背景為繁華馬路,包含有大量移動人物及穿梭的汽車;此外馬路周圍包含眾多樹木且樹枝橫縱交叉;人物距離鏡頭遠且逆光,背景雜項對識別算法造成較大干擾,故其識別率均較低。視頻文件016與014背景相似,路面平整且行人穿過背景的情景較少,GRSCTFF相較KEN+LSTM模型的手勢識別準確率提升約15%。視頻文件102與104背景皆為無干擾雜項的白色墻面,光源位于被試側前方,被試距離鏡頭較近。該視頻GRSCTFF的識別準確率較高。由上述分析可知,融合手勢骨架和部件輪廓特征的GRSCTFF可以有效提高手勢識別的準確率。

4.2 本算法與已有深度學習手勢識別算法對比

最后,本文實現了文獻[22,24-29]中的人體手勢識別算法,并采用相同的訓練和測試樣本進行實驗(表6),并對實驗結果進行了分析,表6中,序號1~2為融合了人體骨架特征與部件輪廓特征進行手勢識別的技術,序號3~6為基于人體骨架特征進行手勢識別的技術。其中,文獻[23]采用VGGNet卷積提取部件輪廓特征,其基于編輯距離的手勢識別準確率為87.04%。文獻[24]為骨架和時序特征結合的手勢識別系統,其準確率為91.18%。文獻[25]在骨架特征提取基礎上采用雙向LSTM提取時序特征,其準確率比本文算法低近3.1%;文獻[26-27]分別采用ResNet與DenseNet卷積提取骨架特征并結合時序網絡進行分類與識別,二者手勢識別準確率分別為89.66%和81.02%;文獻[28]采用無人體骨架特征的3D卷積網絡進行手勢識別,其識別準確率為81.02%;文獻[30]采用卷積LSTM網絡,其手勢識別準確率為80.77%。上述結果證明GRSCTFF在提取手勢輪廓基礎上,包含了手勢空間上下文特征,并融合動態手勢的時序特征,具有較高的手勢識別準確率,并對復雜應用場景具有較強的抗干擾能力。

表6 不同姿勢識別算法對比

5 結束語

本文借鑒CPM思想構造人體手勢骨架特征提取網絡KEN,并依據人體手勢中左右手和頭部輪廓特征構造基于SSD的手勢部件檢測網絡GPEN;其次,融合KEN和GPEN網絡提取人體手勢的空間上下文特征,并結合LSTM網絡提取人體動態手勢的時序特征;最后,基于上述成果構造動態手勢識別機GRSCTFF,并應用于交警手勢識別,實驗中GRSCTFF對交警手勢的識別準確率達到94.12%,證明本算法能適應于光線較弱、背景復雜的應用場景。由于人體骨架與部件輪廓特征具有通用性,本文算法可應用于更廣泛的手勢識別應用場景,滿足實時識別動態手勢的需要。課題組將進一步研究復雜多人場景下的動態手勢識別技術。

[1] YIN X M, XIE M. Hand posture segmentation, recognition and application for human-robot interaction[M]//Human Robot Interaction. Vienna, Austria: I-Tech Education and Publishing, 2007: 498-520.

[2] HASAN H, ABDUL-KAREEM S. Retraction note to: human–computer interaction using vision-based hand gesture recognition systems: a survey[J]. Neural Computing and Applications, 2017, 28(4): 849.

[3] RAUTARAY S S, AGRAWAL A. Vision based hand gesture recognition for human computer interaction: a survey[J]. Artificial Intelligence Review, 2015, 43(1): 1-54.

[4] HACKENBERG G, MCCALL R, BROLL W. Lightweight palm and finger tracking for real-time 3D gesture control[C]//2011 IEEE Virtual Reality Conference. New York: IEEE Press, 2011: 9-26.

[5] 王西穎, 戴國忠, 張習文, 等. 基于HMM-FNN模型的復雜動態手勢識別[J]. 軟件學報, 2008, 19(9): 2302-2312. WANG X Y, DAI G Z, ZHANG X W, et al. Recognition of complex dynamic gesture based on HMM-FNN model[J]. Journal of Software, 2008, 19(9): 2302-2312 (in Chinese).

[6] 劉杰, 黃進, 田豐, 等. 連續交互空間下的混合手勢交互模型[J]. 軟件學報, 2017, 28(8): 2080-2095. LIU J, HUANG J, TIAN F, et al. Hybrid gesture interaction model in the continuous interaction space[J]. Journal of Software, 2017, 28(8): 2080-2095 (in Chinese).

[7] TRIESCH J, VON DER MALSBURG C. A system for person-independent hand posture recognition against complex backgrounds[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001, 23(12): 1449-1453.

[8] TRIESCH J, VON DER MALSBURG C. Robust classification of hand postures against complex backgrounds[C]//Proceedings of the 2nd International Conference on Automatic Face and Gesture Recognition. New York: IEEE Press, 1996: 170-175.

[9] LI Y T, WACHS J P. HEGM: a hierarchical elastic graph matching for hand gesture recognition[J]. Pattern Recognition, 2014, 47(1): 80-88.

[10] BOBICK A F, DAVIS J W. The recognition of human movement using temporal templates[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001, 23(3): 257-267.

[11] 劉江華, 程君實, 陳佳品. 基于視覺的動態手勢識別及其在仿人機器人交互中的應用[J]. 機器人, 2002, 24(3): 197-200, 216. LIU J H, CHENG J S, CHEN J P. Vision based dynamic gesture recognition and its application in human-humanoid robot interaction[J]. Robot, 2002, 24 (3): 197-200, 216 (in Chinese).

[12] 武匯岳, 張鳳軍, 劉玉進, 等. 基于視覺的手勢界面關鍵技術研究[J].計算機學報, 2009, 32(10): 2030-2041. WU H Y, ZHANG F J, LIU Y J, et al. Research on key issues of vision-based gesture interfaces[J]. Chinese Journal of Computers, 2009, 32(10): 2030-2041 (in Chinese).

[13] YANG H D, PARK A Y, LEE S W. Gesture spotting and recognition for human-robot interaction[J]. IEEE Transactions on Robotics, 2007, 23(2): 256-270.

[14] CORREA M, RUIZ-DEL-SOLAR J, VERSCHAE R, et al. Real-time hand gesture recognition for human robot interaction[EB/OL]. [2019-10-11]. https://link.springer.com/chapter/10.1007%2F978-3-642-11876-0_5.

[15] BURGER B, FERRANé I, LERASLE F, et al. Two-handed gesture recognition and fusion with speech to command a robot[J]. Autonomous Robots, 2012, 32(2): 129-147.

[16] PISHARADY P K, VADAKKEPAT P, LOH A P. Attention based detection and recognition of hand postures against complex backgrounds[J]. International Journal of Computer Vision, 2013, 101(3): 403-419.

[17] 王西穎, 張習文, 戴國忠. 一種面向實時交互的變形手勢跟蹤方法[J]. 軟件學報, 2007, 18(10): 2423-2433. WANG X Y, ZHANG X W, DAI G Z. An approach to tracking deformable hand gesture for real-time interaction[J]. Journal of Software, 2007, 18(10): 2423-2433 (in Chinese).

[18] 程光. 人機交互系統中手勢和姿勢識別算法的研究[D]. 北京:清華大學, 2014. CHENG G. Research on gesture and posture recognition in human computer interaction system[D]. Beijing: Tsinghua University, 2014 (in Chinese).

[19] WEI SHIH-EN, RAMAKRISHNA V, KANADE T, et al. Convolutional pose machines[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 4724-4732.

[20] CAO Z, SIMON T, WEI S, et al. Realtime multi-person 2D pose estimation using part affinity fields[EB/OL]. [2019-11-28]. https://arxiv.org/abs/1611.08050.

[21] FRAGKIADAKI K, LEVINE S, FELSEN P, et al. Recurrent Network Models for Human Dynamics[C]// IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2015: 4346-4354.

[22] LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot MultiBox detector[M]//Computer Vision – ECCV 2016. Cham: Springer International Publishing, 2016: 21-37.

[23] RAMAKRISHNA V, MUNOZ D, HEBERT M, et al. Pose machines: articulated pose estimation via inference machines[C]//European Conference on Computer Vision (ECCV). Heidelberg: Springer, 2014: 33-47.

[24] HE J, ZHANG C, HE X, et al. Visual recognition of traffic police gestures with convolutional pose machine and handcrafted features[J]. Neurocomputing, 2019, 390(5): 248-259.

[25] PIGOU L, ARON V D O, DIELEMAN S, et al. Beyond temporal pooling: recurrence and temporal convolutions for gesture recognition in video[J]. International Journal of Computer Vision, 2016, 126(10): 430-439.

[26] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 770-778.

[27] HUANG G, LIU Z, LAURENS V D M, et al. Densely connected convolutional networks[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 4700-4708.

[28] JI S, XU W, YANG M, et al. 3D convolutional neural networks for human action recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(1): 221-231.

[29] SHI X J, CHEN Z R, WANG H, et al. Convolutional LSTM network: a machine learning approach for precipitation nowcasting[EB/OL]. [2019-11-28]. https:// arxiv.org/abs/1506.04214.

Visual gesture recognition technology based on long short term memory and deep neural network

HE Jian1,2, LIAO Jun-jie2, ZHANG Cheng2, WEI Xin2, BAI Jia-hao2, WANG Wei-dong1,2

(1. Software and System Engineering Technology Center, Beijing 100124, China; 2. Faculty of Information, Beijing University of Technology, Beijing 100124, China)

Aiming at the problem that visual gesture recognition is susceptible to light conditions, background information and changes in gesture shape, this paper analyzed the spatial context features of human gestures. First, this paper established a dynamic gesture model based on the contour features of human skeleton and body parts. The convolutional pose machine (CPM) and the single shot multibox detector (SSD) technology were utilized to build deep neural network, so as to extract the contour features of human gesture skeleton and body parts. Next, the long short term memory (LSTM) network was introduced to extract the temporal features of skeleton, left and right hand, and head contour in dynamic human gestures, so as to further classify and recognize gestures. On this basis, this paper designed a dynamic gesture recognizer based on spatial context and temporal feature fusion (GRSCTFF), and conducted network training and experimental analysis on GRSCTFF through the video sample database of traffic police command gestures. The experimental results show that GRSCTFF can quickly and accurately recognize the dynamic traffic police command gestures with an accuracy of 94.12%, and it has strong anti-interference ability to light, background and gesture shape changes.

gesture recognition; spatial context; long short term memory; feature extraction

TP 391

10.11996/JG.j.2095-302X.2020030372

A

2095-302X(2020)03-0372-10

2019-11-21;

2019-12-28

國家自然科學基金項目(61602016);北京市科技計劃項目(D171100004017003)

何 堅(1969-),男,副教授,博士,碩士生導師。主要研究方向為智能人機交互、普適計算和物聯網等。E-mail:Jianhee@bjut.edu.cn

張 丞(1993-),男,博士研究生。主要研究方向為智能人機交互、模式識別等。E-mail:18618135402@163.com

猜你喜歡
特征提取特征
抓住特征巧觀察
特征提取和最小二乘支持向量機的水下目標識別
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
抓住特征巧觀察
Bagging RCSP腦電特征提取算法
基于MED和循環域解調的多故障特征提取
主站蜘蛛池模板: 一级在线毛片| 五月天久久婷婷| 波多野结衣视频一区二区| 三上悠亚一区二区| 无码福利视频| 亚洲日韩AV无码一区二区三区人| 亚洲无码高清一区二区| 国产精品视频导航| 国产sm重味一区二区三区| 天天干伊人| 亚洲中文字幕国产av| 国产成在线观看免费视频| 久久香蕉国产线看精品| 国产亚洲精品97在线观看| 国产好痛疼轻点好爽的视频| 91毛片网| 亚洲精品777| 国产一区二区三区在线观看视频| 亚洲资源在线视频| 午夜精品国产自在| 久久亚洲国产视频| 69精品在线观看| 精品撒尿视频一区二区三区| 蜜臀av性久久久久蜜臀aⅴ麻豆 | 香蕉eeww99国产精选播放| 午夜限制老子影院888| 精品一區二區久久久久久久網站| 亚洲午夜综合网| 久久这里只有精品66| 成人小视频在线观看免费| 精品夜恋影院亚洲欧洲| 精品黑人一区二区三区| 免费一级毛片完整版在线看| 亚洲一级毛片在线观播放| 精品国产Av电影无码久久久| 国产精品熟女亚洲AV麻豆| 91热爆在线| 欧美色综合久久| 国产精品漂亮美女在线观看| 丝袜国产一区| 亚洲天堂区| 亚洲最大福利网站| 福利国产微拍广场一区视频在线 | 久久精品视频一| 香蕉精品在线| 亚洲视频免费在线看| 天堂中文在线资源| 久久99国产乱子伦精品免| 91精品最新国内在线播放| 中国国产A一级毛片| 色丁丁毛片在线观看| 日韩免费毛片| 激情六月丁香婷婷四房播| 538精品在线观看| 日本福利视频网站| 911亚洲精品| 三上悠亚精品二区在线观看| 成人va亚洲va欧美天堂| 欧美日韩中文国产va另类| 精品乱码久久久久久久| 久久国语对白| 四虎精品黑人视频| 91免费国产在线观看尤物| 亚洲永久视频| 亚洲免费毛片| www.精品国产| 综合亚洲色图| 久久这里只有精品免费| 亚洲欧美日韩中文字幕在线一区| 国产真实自在自线免费精品| 亚洲成在人线av品善网好看| 亚卅精品无码久久毛片乌克兰| 国产视频自拍一区| 亚洲永久色| 欧美成人日韩| 国产白浆一区二区三区视频在线| 日韩在线视频网| 欧美午夜视频在线| 久久精品国产在热久久2019| 亚洲免费三区| 中文字幕在线日韩91| 亚洲性视频网站|