999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于RGB-D視頻的多模態(tài)手勢識別①

2019-01-07 02:41:26馬正文蔡堅(jiān)勇歐陽樂峰
關(guān)鍵詞:模態(tài)特征模型

馬正文,蔡堅(jiān)勇,2,3,4,5,劉 磊,歐陽樂峰,李 楠

1(福建師范大學(xué) 光電與信息工程學(xué)院,福州 350007)

2(福建師范大學(xué) 醫(yī)學(xué)光電科學(xué)與技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,福州 350007)

3(福建師范大學(xué) 福建省光子技術(shù)重點(diǎn)實(shí)驗(yàn)室,福州 350007)

4(福建師范大學(xué) 福建省光電傳感應(yīng)用工程技術(shù)研究中心,福州 350007)

5(福建師范大學(xué) 智能光電系統(tǒng)工程研究中心,福州 350007)

1 引言

人們對手勢識別技術(shù)的研究已有幾十年的歷程,經(jīng)歷了不同的發(fā)展階段.手勢識別開始于1983年,來自AT&T的Grimes[1]發(fā)明了數(shù)據(jù)手套,其通過數(shù)據(jù)線與計(jì)算機(jī)相互連接來進(jìn)行手勢定位跟蹤和時(shí)序信息的檢測處理.采用數(shù)據(jù)手套的方法數(shù)據(jù)量小、穩(wěn)定性和識別準(zhǔn)確性高,但由于需要穿戴昂貴的硬件設(shè)備,操作不方便的同時(shí)也對人體進(jìn)行了限制,因而難以得到有效的推廣,這也迫使研究者尋求更為自然的方法.隨后的彩色相機(jī)的出現(xiàn),基于視覺的方式成為主流.傳統(tǒng)的動(dòng)態(tài)手勢識別方法主要基于動(dòng)態(tài)時(shí)間規(guī)整(DTW)[2]和基于隱馬爾可夫模型(HMM)[3].2010年微軟推出的Kinect傳感器為計(jì)算機(jī)視覺提供了全新的數(shù)據(jù)類型,即深度信息,它包含著物體到攝像頭的距離信息,深度信息的利用使得視覺處理中較困難的分割過程更為容易,正是由于可以提供這種有用的深度信息,使得RGB-D相機(jī)在手勢識別研究被廣泛使用.

近年來,深度學(xué)習(xí)在圖像分類[4]、目標(biāo)檢測[5]、語義分割[6]、場景理解[7]等計(jì)算機(jī)視覺領(lǐng)域得到廣泛使用,該技術(shù)可以對特征進(jìn)行分層抽象學(xué)習(xí),通過網(wǎng)絡(luò)訓(xùn)練自動(dòng)提取特征.利用深度學(xué)習(xí)技術(shù)進(jìn)行手勢的識別是目前主流的研究方法,國內(nèi)外研究人員在各種手勢數(shù)據(jù)集上進(jìn)行了研究工作.李宇楠等[8]利用手勢RGB圖像序列及通過RGB圖像序列計(jì)算出的光流序列,分別使用 3DCNN(3D Convolutional Neural Networks)網(wǎng)絡(luò)進(jìn)行特征提取,然后對提取的特征進(jìn)行融合,利用支持向量機(jī)(SVM)來進(jìn)行手勢識別;清華大學(xué)的Chen X等[9]提出一種運(yùn)動(dòng)特征增強(qiáng)的RNN網(wǎng)絡(luò),對基于骨架結(jié)構(gòu)的手勢序列進(jìn)行動(dòng)態(tài)手勢識別;Molchanov等[10]等利用3DCNN網(wǎng)絡(luò)對手勢時(shí)空域進(jìn)行特征提取,配合時(shí)空特征增強(qiáng)方法,在VIVA數(shù)據(jù)集上達(dá)到77.5%的識別率.目前絕大部分的研究都采用了深度學(xué)習(xí)技術(shù)處理基于視頻的手勢識別.

本文是對SKIG RGB-D多模態(tài)的孤立手勢視頻進(jìn)行手勢識別研究.對采樣出的32幀RGB圖像序列和Depth圖像序列,分別利用本文提出的稠密連接的3DCNN組件學(xué)習(xí)短期的時(shí)空域特征,然后將提取的時(shí)空域特征輸入到卷積GRU網(wǎng)絡(luò)進(jìn)行長期的時(shí)空域特征學(xué)習(xí),最終對單模態(tài)訓(xùn)練好的網(wǎng)絡(luò)進(jìn)行多模態(tài)融合,提升網(wǎng)絡(luò)識別準(zhǔn)確率.本文在SKIG數(shù)據(jù)集上取得了99.07%的識別準(zhǔn)確率.

2 模型架構(gòu)

基于視頻的手勢識別涉及到時(shí)間和空間因素,因而不僅要考慮手勢的空域特征,還要考慮時(shí)域特征.對時(shí)空域的特征學(xué)習(xí)是手勢乃至其它人體行為識別[11]的重點(diǎn).LRCN[12]將CNN與LSTM結(jié)合用來提取時(shí)空域特征,先對視頻采樣出的幀,通過CNN進(jìn)行空域特征提取,然后對按序提取出來的空域特征,利用LSTM來學(xué)習(xí)其時(shí)域特征.雙流CNN網(wǎng)絡(luò)利用兩條分支分別從RGB圖像中提取空域特征和堆疊的光流圖像中提取時(shí)域特征,對最終的分類進(jìn)行融合.這兩種具有代表性的方式,前者采用分階段學(xué)習(xí)時(shí)空域特征,而后者是對時(shí)空域特征各自獨(dú)立學(xué)習(xí).考慮到手勢背景復(fù)雜多變,對時(shí)空域特征同時(shí)學(xué)習(xí),是更為有效的方式.3DCNN網(wǎng)絡(luò)就是基于這種理念,利用三維卷積核對時(shí)域和空域同時(shí)處理,這種方式比前兩種更為有效,因而被眾多研究者用來對視頻進(jìn)行時(shí)空域特征的提取.GRU對時(shí)間序列數(shù)據(jù)有很好的學(xué)習(xí)效果,但是采用全聯(lián)接的方式,對空域特征的學(xué)習(xí)能力較弱.利用卷積GRU網(wǎng)絡(luò)可以學(xué)習(xí)長期的時(shí)空域特征.利用本文提出的稠密連接的3DCNN學(xué)習(xí)視頻短期的時(shí)空域特征,進(jìn)而使用卷積GRU從短期時(shí)空域特征來學(xué)習(xí)視頻長期的時(shí)空域特征是合理的組合方式.本文采用的單模態(tài)的網(wǎng)絡(luò)模型結(jié)構(gòu)見圖1.

圖1 單模態(tài)的網(wǎng)絡(luò)模型結(jié)構(gòu)

如圖1所示,單模態(tài)的網(wǎng)絡(luò)模型結(jié)構(gòu)分為五個(gè)部分:(1)預(yù)處理好的32幀圖像序列,作為網(wǎng)絡(luò)的輸入部分;(2)本文提出的稠密連接的3DCNN結(jié)構(gòu),用于對輸入的序列提取短期時(shí)空域特征;(3)雙層卷積GRU網(wǎng)絡(luò),更進(jìn)一步對提取的短期時(shí)空域特征進(jìn)行長期時(shí)空域特征的學(xué)習(xí);(4)空間金字塔池化層用于降維;(5)全連接FC層的輸出使用Softmax分類器得到概率向量,對最終的網(wǎng)絡(luò)輸出進(jìn)行分類預(yù)測.具體各部分將依次介紹。

2.1 稠密連接的3DCNN組件

稠密卷積網(wǎng)絡(luò)[13](DenseNets)使用合適的特征尺寸,將所有層的特征都進(jìn)行相互聯(lián)接,來獲取網(wǎng)絡(luò)各層間的最大信息,為了保持前饋性,每層都對之前的所有層的輸出進(jìn)行拼接后作為本層輸入,得到的輸出特征圖傳遞給后續(xù)所有層.依據(jù)DenseNets網(wǎng)絡(luò)Dense block的思想,將其應(yīng)用到3DCNN,本文提出稠密連接的3DCNN結(jié)構(gòu)用于對手勢視頻進(jìn)行短期時(shí)空域特征提取.對提出稠密連接的3DCNN結(jié)構(gòu)一些參數(shù)的情況加以說明:

(1)規(guī)定網(wǎng)絡(luò)輸入的層的輸入圖像序列的格式以及特征圖的格式按“通道數(shù)@長度×高度×寬度”方式標(biāo)記.

(2)3D卷積核和3D池化核的大小為d×k×k,其中d表示時(shí)間長度,k為空間大小.每個(gè)卷積核大小為3×3×3,卷積核步長大小均為 1×1×1,Padding 方式選用‘SAME’.

(3)3D池化核使用是最大值池化.

如圖2所示的結(jié)構(gòu)中,輸入部分是對視頻采樣出的32幀組成的圖像序列.通過64個(gè)3D卷積核進(jìn)行卷積操作得到64@32×112×112的特征圖,空間尺寸保持不變,然后利用 1×2×2 池化操作,保持時(shí)間維度不變,空間尺寸縮小為原來的1/4.稠密連接部分每個(gè)卷積層的3D卷積核個(gè)數(shù)為32,通過跨層拼接的方式,依次得到的特征圖個(gè)數(shù)為:32,64+32=96,64+32+32=128,64+32+32+32=160,然后通過32個(gè)3D卷積核卷積操作,提取特征后利用 2×2×2池化進(jìn)行降維得到32@16×56×56的最終輸出特征,作為后續(xù)雙層卷積GRU的輸入.

(2)規(guī)模化集約化效益明顯。河北省在“礦產(chǎn)資源整合”、“露天礦山整治”等專項(xiàng)行動(dòng)中關(guān)、停、取締了一些高耗能、低產(chǎn)出,開采技術(shù)設(shè)備落后、污染重、規(guī)模小的礦山企業(yè);關(guān)小促大、保優(yōu)壓劣促使礦業(yè)結(jié)構(gòu)進(jìn)一步優(yōu)化,“三率”提高,礦山企業(yè)規(guī)模化集約化效益明顯,這是河北省礦山企業(yè)健康發(fā)展、創(chuàng)新發(fā)展和綠色發(fā)展的開端。

圖2 稠密連接的 3DCNN 結(jié)構(gòu)

2.2 雙層卷積GRU

傳統(tǒng)的GUR輸入到狀態(tài),狀態(tài)到狀態(tài)之間的轉(zhuǎn)換是采用全連接的方式,而全連接方式對空間維度沒有進(jìn)行有效利用,因而本文使用卷積GRU,將全連接方式使用卷積操作代替,用來對長期的時(shí)空域特征同時(shí)提取,具體如公式(1)所示:

其中,x1,···,xt為不同時(shí)刻的輸入信息,h1,···,ht對應(yīng)不同時(shí)刻的隱藏狀態(tài),zt是更新門,用來控制當(dāng)前的狀態(tài)需要遺忘多少的歷史信息和接受多少的新信息,rt重置門,用來控制候選狀態(tài)中有多少信息是從歷史信息中得到,是候選隱含狀態(tài),ht是當(dāng)前時(shí)刻的隱含狀態(tài),W?和U?均是2維卷積核,σ為Sigmoid激活函數(shù),′°′表示矩陣Hadamard積.

本文使用雙層的卷積GRU,第一層的卷積核數(shù)目為256,第二層的卷積核數(shù)目設(shè)為384,卷積核的大小均為 3×3,卷積核步長大小均為 1×1,Padding 方式選用‘SAME’.將第二層最終學(xué)習(xí)到的特征作為雙層卷積GUR 的輸出,384@1×28×28,其中 384 指特征圖個(gè)數(shù),28×28為每個(gè)特征圖的空間大小,時(shí)間長度為1.

2.3 空間金字塔池化層

雙層卷積GRU輸出為384@1×28×28,總的維度太高,要先進(jìn)行降維處理,本文使用了4種層次的SPP,分別是 1×1、2×2、4×4、7×7 結(jié)構(gòu),如圖3所示,最終生成1+4+16+49=70個(gè)384維的特征,Flatten變平化為1維向量后的結(jié)果為1×70×384=26880,再與全連接層相連.采用多層SPP降維的同時(shí)對同一特征圖多種尺度的提取特征,對網(wǎng)絡(luò)識別精度有所提高.

圖3 空間金字塔池化層

2.4 模型融合

多模態(tài)融合是常用的提升模型準(zhǔn)確度的方法,本文融合模型是對訓(xùn)練好的兩種模態(tài)網(wǎng)絡(luò)的Softmax層輸出的概率向量進(jìn)行相加除以2,選取最終得到的融合概率向量中數(shù)值最大的概率所對應(yīng)的類別作為分類的結(jié)果,融合模型如圖4所示.

圖4 多種模態(tài)的融合模型結(jié)構(gòu)

3 實(shí)驗(yàn)驗(yàn)證及結(jié)果分析

3.1 數(shù)據(jù)集

本文基于 Sheffield Kinect Gesture (SKIG)Dataset[14]RGB-D孤立手勢視頻數(shù)據(jù)集,對提出的手勢識別網(wǎng)絡(luò)模型進(jìn)行實(shí)驗(yàn),數(shù)據(jù)集類別共10類,如圖5所示,圖中展示了RGB圖像及所對應(yīng)的Depth圖像.

SKIG數(shù)據(jù)集包含手勢的RGB視頻及Depth視頻兩種模態(tài),該手勢數(shù)據(jù)集是利用微軟Kinect設(shè)備的RGB攝像頭和深度攝像頭,同步采集人體手勢而得到,數(shù)據(jù)集沒有劃分訓(xùn)練集與測試集.具體細(xì)節(jié)如下:

圖5 SKIG 前后 5 種手勢類別

(1)一共采集了6人(subject)的手勢,每個(gè)手勢的RGB視頻有相應(yīng)的Depth視頻.(2)包含10個(gè)手勢類別:Circle(畫圓)、Triangle(畫三角形)、Up-down(上下移動(dòng))、Right-left(右左移動(dòng))、Wave(揮手)、‘Z’(畫Z 字形)、Cross(畫十字形)、Come here(招喚動(dòng)作)、Turn around(翻轉(zhuǎn))以及 Pat(輕拍).(3)每種手勢分別使用3種手形執(zhí)行:握拳、伸食指和張開手掌.(4)采用3 種背景:木板、白紙和報(bào)紙.(5)2 種光照:較亮和較暗.(5)總視頻數(shù)2160,RGB視頻和Depth視頻各占一半 (6×10×3×3×2=1080 個(gè)).

3.2 實(shí)驗(yàn)環(huán)境

(1)硬件環(huán)境:NVIDIA Tesla P40 24 GB 顯卡 8 核32 GB CPU

(2)軟件環(huán)境:CentOS7 操作系統(tǒng) Python 3.5.2 版TensorFlow 1.2.1 版 TensorLayer 1.6.5 版 CUDA8.0 cuDNN5.0

3.3 模型參數(shù)

因?yàn)閷?shí)驗(yàn)用到的網(wǎng)絡(luò)模型是第一次提出,整個(gè)網(wǎng)絡(luò)從頭開始訓(xùn)練,RGB模態(tài)和Depth模態(tài)數(shù)據(jù)集各自獨(dú)立訓(xùn)練,兩種模態(tài)的網(wǎng)絡(luò)訓(xùn)練參數(shù)設(shè)為一致.批次大小為18;學(xué)習(xí)率初值設(shè)為0.001;權(quán)重衰減系數(shù)設(shè)為0.0004;每 6000 次迭代,學(xué)習(xí)率下降為原來的 1/10;網(wǎng)絡(luò)訓(xùn)練時(shí)每迭代500個(gè)批次,就對測試集進(jìn)行一次測試;訓(xùn)練的周期數(shù),設(shè)為 300 個(gè)周期,對應(yīng) 12000 左右的迭代次數(shù).

3.4 實(shí)驗(yàn)及結(jié)果分析

數(shù)據(jù)集沒有劃分訓(xùn)練集與測試集,采用文獻(xiàn)[15]中的 3 折交叉驗(yàn)證,將 6 個(gè) subjects,劃分成三個(gè)子集,其中子集 1 為:subject1+subject2;子集 2 為:subject3+subject4;子集 3 為:subject5+suject6.

分組1:訓(xùn)練集為子集1和子集2,測試集為子集3,結(jié)果如圖6所示,經(jīng)測試選取的兩個(gè)訓(xùn)練好的單模態(tài)網(wǎng)絡(luò)模型參數(shù)為:RGB數(shù)據(jù)集11 000次迭代時(shí)測試準(zhǔn)確度為98.33%的模型參數(shù)和Depth數(shù)據(jù)集10 000次迭代時(shí)測試準(zhǔn)確度為99.17%的模型參數(shù).

圖6 分組 1 的測試結(jié)果

分組2:訓(xùn)練集為子集1和子集3,測試集為子集2,結(jié)果如圖7所示,經(jīng)測試選取兩個(gè)訓(xùn)練好的單模態(tài)網(wǎng)絡(luò)模型參數(shù)為:RGB數(shù)據(jù)集10 000次迭代時(shí)測試準(zhǔn)確度為96.94 %的模型參數(shù)和Depth數(shù)據(jù)集10 500迭代時(shí)準(zhǔn)確度為97.78 %的模型參數(shù).

分組3:訓(xùn)練集為子集2和子集3,測試集為子集1,結(jié)果如圖8所示,經(jīng)測試選取的最優(yōu)的兩個(gè)訓(xùn)練好的單模態(tài)網(wǎng)絡(luò)模型參數(shù)為:RGB數(shù)據(jù)集11500次迭代時(shí)準(zhǔn)確度為93.06%的模型參數(shù)和Depth數(shù)據(jù)集9000迭代時(shí)準(zhǔn)確度為99.17 %的模型參數(shù).

對每個(gè)分組單模態(tài)網(wǎng)絡(luò)各自訓(xùn)練好的模型,按本文所用的方法進(jìn)行模型融合,得到各分組多模態(tài)融合后的準(zhǔn)確率,如表1所示.

圖7 分組 2 的測試結(jié)果

圖8 分組 3 的測試結(jié)果

將本文方法結(jié)果與近幾年在SKIG數(shù)據(jù)集上相關(guān)實(shí)驗(yàn)的結(jié)果進(jìn)行對比,如表2所示,本文提出的方法具有更高的準(zhǔn)確率,達(dá)到99.07%.其中RGGP+RGB-D方法使用受限圖形遺傳編程(RGGP)方法,從視頻中自動(dòng)提取具有鑒別性的時(shí)空特征,對RGB和Depth信息的融合來進(jìn)分類,識別率為88.7%,與本文準(zhǔn)確率相差10.37%.MRNN方法利用2DCNN對視頻的空間特征進(jìn)行學(xué)習(xí),學(xué)習(xí)到的特征輸入到MRNN網(wǎng)絡(luò)進(jìn)行手勢分類,與本文準(zhǔn)確率差了1.27%.3DCNN+CLSTM利用3DCNN結(jié)合CLSTM的方法來進(jìn)行時(shí)空域的學(xué)習(xí),達(dá)到了98.89%的準(zhǔn)確率,它使用的是傳統(tǒng)的3DCNN,與本文提出的稠密連接的3DCNN在特征的處理上并不相同,本文的模型參數(shù)少于其一半,約 930 萬,大幅降低模型參數(shù)的同時(shí)保持相對應(yīng)的性能,本文模型提升了約0.2%.

表2 不同方法在 SKIG 上的比較

4 結(jié)語

本文提出的稠密連接的3DCNN結(jié)構(gòu),實(shí)現(xiàn)對多層特征圖進(jìn)行重復(fù)利用,使得參數(shù)利用效率更高,更加容易進(jìn)行網(wǎng)絡(luò)的訓(xùn)練.通過對不同層的特征進(jìn)行稠密的組合,可以對后續(xù)層的輸入增強(qiáng)多樣性,在提升網(wǎng)絡(luò)的性能的同時(shí),降低網(wǎng)絡(luò)模型的參數(shù)量.利用卷積GRU相比傳統(tǒng)的GRU而言增加了對空間信息的處理能力,因而能更好的對長期時(shí)空域特征進(jìn)行提取.本文模型參數(shù)及卷積核個(gè)數(shù)的設(shè)置并不是最優(yōu),雙向卷積GRU可能會(huì)進(jìn)一步提升模型準(zhǔn)確率.后續(xù)計(jì)劃將注意力機(jī)制引入,期望有更好的性能提升.

猜你喜歡
模態(tài)特征模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
如何表達(dá)“特征”
不忠誠的四個(gè)特征
抓住特征巧觀察
3D打印中的模型分割與打包
國內(nèi)多模態(tài)教學(xué)研究回顧與展望
基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
由單個(gè)模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
主站蜘蛛池模板: 97免费在线观看视频| 亚洲一级毛片| 国产在线观看91精品亚瑟| 亚洲欧美激情小说另类| 久久综合九色综合97网| 天天色天天综合网| 伊人久久综在合线亚洲91| 97超碰精品成人国产| 婷婷六月综合| 国产原创第一页在线观看| 亚洲欧美色中文字幕| 国产黑丝一区| 色香蕉影院| 精品久久高清| 国产男人天堂| 99国产精品免费观看视频| 日日拍夜夜操| 曰韩免费无码AV一区二区| 欧美日韩成人| 国产小视频在线高清播放 | 毛片a级毛片免费观看免下载| 免费Aⅴ片在线观看蜜芽Tⅴ| 国产成人精彩在线视频50| 色综合天天娱乐综合网| 国产欧美日韩综合一区在线播放| 香蕉久久国产超碰青草| 久久99久久无码毛片一区二区| 亚洲无线视频| 少妇露出福利视频| 国产成人福利在线视老湿机| 99热这里只有精品久久免费| 亚洲天堂自拍| 亚洲天堂伊人| 亚洲天天更新| 国产另类乱子伦精品免费女| 久久香蕉国产线看观| 天天操精品| 日韩久久精品无码aV| 久久综合丝袜长腿丝袜| 无码视频国产精品一区二区 | 无码粉嫩虎白一线天在线观看| 亚洲日韩国产精品无码专区| 亚洲va在线∨a天堂va欧美va| 欧美成人亚洲综合精品欧美激情| 亚洲九九视频| 美女免费精品高清毛片在线视| 国产毛片不卡| 亚洲精品少妇熟女| 1024国产在线| 在线播放91| 欧美天堂在线| 一级香蕉视频在线观看| 成人福利在线免费观看| 国产综合无码一区二区色蜜蜜| 国产激爽大片在线播放| 国产午夜福利片在线观看| 精品一区二区无码av| 亚洲bt欧美bt精品| AV不卡在线永久免费观看| 免费国产一级 片内射老| 免费看a级毛片| 午夜国产在线观看| 在线免费亚洲无码视频| 在线播放精品一区二区啪视频| 国产乱码精品一区二区三区中文 | 乱系列中文字幕在线视频| 77777亚洲午夜久久多人| 亚洲高清中文字幕| 少妇露出福利视频| 天天摸夜夜操| 亚洲精品福利网站| 1769国产精品视频免费观看| 欧美国产在线一区| 国产欧美高清| 99久久精品国产自免费| 99视频国产精品| 日韩高清在线观看不卡一区二区| 国产成人精品亚洲日本对白优播| 国产福利影院在线观看| 青青操视频免费观看| 视频国产精品丝袜第一页| 噜噜噜久久|