999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

深度視頻下的人體動作識別研究

2023-02-09 09:28:38邢蒙蒙楊鋒辛在海魏國輝
中國醫療設備 2023年1期
關鍵詞:分類深度動作

邢蒙蒙,楊鋒,辛在海,魏國輝

1.中國康復研究中心 設備處,北京 100071;2.山東中醫藥大學附屬醫院 資產設備處,山東 濟南 250011;3.山東第一醫科大學第一附屬醫院 醫學工程部,山東 濟南 250000;4.山東中醫藥大學 智能與信息工程學院,山東 濟南 250300

引言

人體動作識別(Human Action Recognition,HAR)的目的是確定人體動作類別,以獲取人體行為信息,被廣泛應用于視頻監控[1]、生活輔助[2]、遠程醫療[3]、機器人技術[4]等領域。HAR的研究一直是通過基于RGB視頻形式進行動作識別和分類,并建立了相關的動作類別數據庫[5]。但攝像機在捕捉人體動作數據的同時不可避免的會受到背景環境和外部光線的干擾,因此研究人員在基于RGB視頻實現動作識別時首先要將人體與復雜的背景空間進行分割或對圖像進行預處理。RGB視頻數據僅能從單視圖和多視圖的角度實現人機交互,但單視圖的RGB視頻無法解決人體自身遮擋問題[6]。

隨著深度傳感器的發展,深度相機的出現解決了基于RGB視頻進行人體動作識別的弊端,同時深度數據具有以下特點:① 對光照強度不敏感,能夠不受活動空間光線的干擾;② 僅記錄距離數據,因此在運動數據捕捉時不記錄人體的面部特征,能夠保護隱私;③ 深度數據可以后續處理為骨骼框架數據,方便進一步的研究。此外,深度相機還有成本低、易操作等特點,所以基于深度視頻的人體動作識別要優于基于RGB視頻的人體動作識別。研究人員基于深度視頻進行人體動作識別已進行了大量的研究[7-10]。基于深度動作的特征提取也做了大量的研究,如時空興趣點[11]、聯合軌跡圖(Joint trajectory map,JTM)[12]、3D點云[13]、骨骼關節[14]等方式。Ji等[15]提出將骨骼點信息嵌入到深度圖中,將人體劃分為不同的運動部分,通過局部時空縮放金字塔的方式來獲取人體不同運動部分的特征,同時引入了簡化的Fisher向量編碼方法,將粗糙特征聚合為具有統一形式的判別特征。Wang等[16]提出了對骨骼關節軌跡進行編碼的方法,其將從深度相機中獲得3D骨架序列數據表示為3個2D圖像,并將動態信息轉換JTM,采用了CNN學習識別人類動作的區別性特征。Mutabazi等[17]將視頻轉換為幀圖像,利用物體的顏色和運動信息的組合來獲得區域物體,使用背景扣除方法提取前景對象,以及提取直方圖定向漸變特征,最后使用多類支持向量機作為分類的分類器,在Weizmann dataset數據集上獲得了96.88%的準確率。

深度學習在分類識別領域具有強大的分類識別性能,大量研究者開始應用深度學習來實現HAR,如Jalal等[18]通過顏色和強度變化來分割人體輪廓,從顏色關節和深度輪廓信息中獲得時空特征,并處理分化特征,在MSE Action3D dataset和IM-Daily Depth Activity dataset上分別達到了88.9%和66.7%的準確率。Kamel等[19]提出了一種使用CNN從深度圖像和姿勢數據中識別人類動作的方法,使用不同的數據集分別訓練3個CNN頻道,第1通道使用深度運動圖像訓練,第2通道使用深度運動圖像和運動關節描述符一起訓練,第3通道使用移動關節描述符進行訓練,最后實現3個CNN通道融合得到最終的動作分類結果。Arif等[20]提出了一個3D-CNN和長短期記憶網絡(Long Short-Term Memory Network,LSTM)結合的新框架,通過使用深度3D-CNN將視頻中信息整合到運動圖中,生成整個視頻的運動圖,使用線性加權融合方案將網絡特征圖融合為時空特征,在UCF101和HDMB51 benchmark datasets數據集上分別達到了92.9%和70.1%的準確率。雖然深度動作序列的特征提取方法很多,但是不同類別的動作持續時間不同,且不同的個體展示不同的動作持續時間也不同。所以在進行動作識別時,計算機的計算效率也會降低,并要求強大的分類模型來應對不同長度的輸入數據。基于此,本研究對深度視頻數據進行數據處理,提出借助CNN網絡作為特征提取器來提取其深度特征,使用分類器模型進行動作識別,以期為臨床醫生提供標準化的數據。

1 材料與方法

1.1 數據集介紹

在動作識別中,德州大學達拉斯分校多模態人類動作數據集UTD-MHAD數據集[21]被廣泛用于檢驗識別算法,UTD-MHAD數據集同時采用Microsoft Kinect傳感器和可穿戴式慣性傳感器在室內環境中進行人體動作捕捉。數據集內包括RGB視頻序列、深度視頻序列、骨骼關節位置序列和慣性傳感器信號序列4個模態的數據。采集了包含8名受試者(女性4名、男性4名)執行的27個動作,動作類型包括運動動作、手勢、日常動作和訓練練習4種類型。每名受試者重復每個動作4次。除去3個損壞的樣本后,數據集包含861個數據序列,數據集的27種動作類別如表1所示。圖1中給出了深度視頻序列和RGB視頻序列的關鍵幀圖像對比,由圖1可知,深度視頻能夠同RGB視頻一樣記錄數據同時能夠模糊人體紋理信息。

圖1 RGB視頻序列(a)與深度視頻序列(b)對比

表1 UTD-MHAD數據集中的27種動作

1.2 深度視頻序列處理

1.2.1 深度運動歷史圖

深度視頻序列記錄的時間跨度較大,且不可避免地會有冗余信息,因此直接對深度視頻序列進行分類識別不僅計算量大,準確率也不高。而將深度視頻序列處理成MHI的形式,不僅能夠有效提高運算效率而且能夠提高準確率。MHI是在運動能量圖(Motion Energy Image,MEI)[22]基礎上的改進,都是一種基于視覺的灰度圖像。MHI能夠將檢測目標的運動變化情況以不同的亮度展示在圖像中,MHI是利用幀間差分法實現將運動目標與復雜背景的分離,與基于光流的分隔算法相比,具有較強的穩定性。

假設H為MHI中的強度值,Hτ(x,y,z)可以由更新函數(1)計算得出。

式中,(x,y)和t代表當前像素點的位置和時間數據;τ為持續時間,決定了MHI中運動的持續時間;δ為衰退參數,若MHI中的像素值沒有發生變化則該點的灰度值減少δ;取值一般設為1。Ψ(x,y,t)為更新函數,在本文中應用基于幀間差法的定義方式,計算方式如公式(2)所示。

式中,I(x,y,t)為視頻序列第t幀坐標(x,y)像素點的強度值;Δ為兩幀圖像間的距離;ξ為差異閾值,可以根據不同的視頻場景而人為調整大小。

圖2給出了不同參數的MHI效果,從圖2中可以看出,差異閾值ξ,取值為0.05時,得到的MHI則會出現雜亂的噪點,則獲得的圖像無法區分前景和背景;取值為0.4時,MHI中的像素強度值較小的部分則會消失,圖像中損失部分動作信息。當τ值取20時,則無法獲得完整的目標人體的動作軌跡,τ值取60時,動作軌跡的強度變化一致,進而無法從圖中獲得動作軌跡的先后順序,圖像中損失了動作的時序信息。本文經過實驗選取了最佳的參數為δ=1,ξ=0.2,τ=40,此時可獲得有價值的動作軌跡信息,如圖3所示,動作發生時間越早灰度值越高越接近于黑色背景,人體發生動作部位的運動軌跡的輪廓都被保留了下來,說明本文選取的參數使MHI中動作軌跡信息和人體輪廓信息很好的保留。

圖2 不同參數設置MHI對比

圖3 部分動作樣本MHI展示

1.2.2 偽彩色編碼

偽彩色編碼主要是將灰度圖像轉換成彩色圖像。目前應用最廣泛的偽彩色編碼方法有密度分割法、濾波法以及灰度級的彩色變換。本文中應用的偽彩色編碼是基于灰度級的彩色變換,首先設定RGB三色通道的變換函數,見公式(3)~(5)。

式中,R(x,y)、G(x,y)、B(x,y)分別表示紅、綠、藍3種色的亮度值,f(x,y)表示對應灰度圖像上像素點(x,y)處的灰度值,TR、TG、TB為映射函數。偽彩色編碼如公式(6)所示。

圖4給出了對深度歷史圖進行彩虹編碼前后效果對比圖,由圖4可見,經過偽彩色處理之后的圖像對動作軌跡細節表現力更強。

圖4 偽彩色編碼前(a)和偽彩色處理后(b)效果圖

2 實驗分析

2.1 深度特征向量提取及選擇

2012年 AlexNet[23]在 ILSVRC(ImageNet Large-Scale Visual Recognition Challenge)比賽中以80.2%的top-5識別率取得了冠軍,證明了卷積神經網絡在圖像分類中的有效性,CNN開始廣泛應用于計算機視覺領域的分類識別中。CNN并不適用于小數據集的圖像分類中,但是可以借助CNN作為黑匣子提取圖像的深度特征向量。

本文利用AlexNet網絡提取深度運動歷史圖的深度特征向量,AlexNet是一個8層的CNN網絡,包括5個卷積層和3個全連接層,每個卷積層引進了線性整流函數(Rectified Linear Unit,ReLU)代替Sigmoid作為激活函數,采用最大池化層(Max-Pooling)處理。輸入層輸入224×224×3的RGB圖像,最后全連接層輸出圖像的類別,AlexNet的卷積層利用固定維度的卷積核來提取圖像的局部感知信息,包括圖像的方向、梯度、顏色、頻率等特征向量,并通過多次卷積運算最后形成有判別能力的深度特征向量。本文使用經過預訓練AlexNet網絡結構作為MHI的特征提取器來提取深度特征向量。

本研究選取AlexNet網絡通過ImageNet數據集進行預訓練,最后AlexNet訓練次數設置為1000,每批數據量大小設置為100,學習率設為0.00005,衰減率為0.1,優化算法選擇Adam,最后提取AlexNet的fc6和fc7層特征作為深度特征向量。fc6和fc7層的深度特征向量的維度為4096維,特征提取過程如圖5所示。

圖5 AlexNet提取深度特征

2.2 分類模型構建

本文使用UTD-MHAD數據集中的深度視頻序列作為動作識別的樣本,本文將深度視頻序列生成MHI,并對其進行偽彩色編碼,處理之后的圖像樣本70%作為訓練集,用30%的樣本作為測試集。訓練集用于訓練分類器模型,測試集用于驗證分類效果,分類器模型分類流程如圖6所示。本文所用的分類器模型包括支持向量機(Support Vector Machines,SVM)、k近鄰(k Nearest Neighbors,kNN)、隨機森林(Random Forest,RF)、極限學習機(Extreme Learning Machine,ELM)。SVM本質上是將分類數據映射到一個更高維的向量空間,尋找一個最優分類面進行分類。kNN主要是通過判斷k個樣本中何種類別的樣本數最多,則該樣本便屬于此類。RF是將多個決策樹集成的一種算法。ELM本質上是一個單隱層的神經網絡。分類器分類的流程圖如圖6所示。

圖6 分類器分類流程圖

本實驗在DELL Precision 5820,Inter(R) Core(TM)i9-9820X CPU,NVIDIA GeForce RTX 2080 Ti GPU,Windows 10,MATLAB R2019a環境下完成。

2.3 度量標準

本文為了評價分類算法的有效性采用準確率(Precision,P)、召回率(Recall,R)和 F 值(F-measure,F)來進行衡量,具體如公式(8)~(10)所示。

式中,TP代表被分類器正確分類的正樣本數;FP代表被分類器錯誤分類為正樣本的負樣本數;FN為被分類器錯誤分類為負樣本的正樣本數。此類評價標準最初應用于樣本二分類中,但目前可以應用到多分類器的評估中。

2.4 實驗結果分析

為使分類器模型達到最好的分類結果,還需對上述診斷模型的參數進行設置。其中,SVM分類器模型通過10倍交叉驗證得到泛化誤差是0.1256。kNN分類器中最優k值為5,ELM隱含層的節點個數為3500。RF參數選擇105層。最終SVM、kNN、RF、ELM以及AlexNet網絡等實驗結果如表2所示,分類器使用fc6層的特征分類效果普遍要優于fc7層,SVM、kNN、ELM使用fc6層的特征進行分類準確率均在80%以上,不同分類器分類結果對比顯示在ELM上分類效果最好,fc6分類準確率達到了90.02%,每個動作的統計度量結果如表3所示,由表3可以看出,本文方法在UTDMHAD數據集上獲得了較高的準確率,僅有少數動作由于類間相似性類別分錯,度量結果顯示本文提出的方法分類性能良好,具有一定的魯棒性。

表2 不同分類器分類準確率對比(±s)

表2 不同分類器分類準確率對比(±s)

分類器 特征層 準確率/%kNN fc6 82.78±2.75 fc7 79.33±2.79 RF fc6 76.16±1.91 fc7 77.52±2.37 SVM fc6 89.67±2.46 fc7 83.42±2.83 ELM fc6 90.02±1.8 fc7 84.52±2.86

表3 ELM分類器統計度量結果

2.5 對比分析

為了進一步驗證本文所提方法的有效性,選擇應用同一數據集UTD-MHAD進行人體動作識別的文獻進行對比,三種分類方法準確率對比如表4所示。通過分類結果對比,本文所提方法比3DHOT-MBC識別方法的準確率高5.61%,并遠高于數據集提出者的Kinect識別方法,表明本文的方法分類準確率較高,具有一定的可行性。

表4 不同方法的對比結果

3 討論與結論

HAR一直是計算機視覺領域的研究熱點,現在越來越多的應用在醫療康復鍛煉領域,但基于普通RGB視頻進行人體動作識別難以保護患者的隱私,本文提出了一種基于深度視頻序列的人體動作識別方式,使用UTD-MHAD數據集進行實驗,在預處理階段,通過將深度視頻序列灰度化處理轉化為MHI來表征整個深度視頻序列的動作信息,并對MHI進行偽彩色編碼來增強圖像的細節信息,與前人研究中[11-14]采用傳統特征來進行特征提取不同,本文選擇借助AlexNet作為特征提取器來提取MHI的特征,將AlexNet的fc6和fc7層特征作為深度特征向量,并使用RF、KNN、ELM、SVM作為分類器模型進行動作識別。結果表明,本文提出的方法能夠在ELM分類器上取得了90.02%的準確率,對比Kinect[21]和3DHOT-MBC[24]方法分別高出了23.91%和5.61%的準確率,說明本文利用CNN網絡提取的深度特征更具代表性,能夠更大程度保留動作類別的特征信息,提高動作識別的準確率。本實驗基于深度視頻進行人體動作識別取得了較高的準確率,而且借助深度視頻在識別過程中保護了被識別動作人的面部紋理信息,最大程度上保護了人的隱私,能夠應用在醫療康復鍛煉領域實現無監督鍛煉及健康監護。

但本研究仍存在一定的局限性,深度相機的監控范圍有一定的限制,同時人體活動空間范圍較廣,無法實現全方位的健康監護。基于單一模態人體動作識別一直無法取得較高的準確率,僅用單一模態的動作捕捉方式并不適用于所有的人體活動范圍,所以利用多模態信息融合進行動作識別將是未來的研究方向。同時在未來的研究中,將探索識別更復雜以及不同運動程度的人體動作,并進行臨床康復跟蹤實驗,以期將本文提出的方法應用于健康監護、無監督鍛煉中。

猜你喜歡
分類深度動作
分類算一算
深度理解一元一次方程
分類討論求坐標
深度觀察
深度觀察
深度觀察
數據分析中的分類討論
動作描寫要具體
教你一招:數的分類
畫動作
主站蜘蛛池模板: 毛片视频网| 日韩小视频在线播放| 欧美特级AAAAAA视频免费观看| a级毛片免费看| 国产成人a毛片在线| 亚洲 欧美 中文 AⅤ在线视频| 久久精品国产一区二区小说| 欧美天堂在线| 久热中文字幕在线| 中文字幕 91| AV无码国产在线看岛国岛| 国产精品视频白浆免费视频| 在线观看免费AV网| 国产精品一区不卡| 在线网站18禁| julia中文字幕久久亚洲| 日本不卡在线视频| 一级毛片a女人刺激视频免费| 无码日韩人妻精品久久蜜桃| 操国产美女| 色久综合在线| 国产一区二区三区在线观看视频| 波多野结衣一区二区三区88| 99热这里只有精品免费国产| 玖玖免费视频在线观看| 欧美日韩资源| 亚洲日本www| 亚洲无码视频图片| 亚洲制服丝袜第一页| 色视频国产| 国产欧美精品一区aⅴ影院| 在线一级毛片| 99视频在线免费| 免费国产在线精品一区| 国产精品成人AⅤ在线一二三四| 免费观看国产小粉嫩喷水| 黄色网在线免费观看| 成人综合在线观看| 欧美高清国产| 欧美a级在线| 少妇极品熟妇人妻专区视频| 日本黄色a视频| 亚洲精品无码抽插日韩| 成人午夜网址| 亚洲最大福利视频网| 67194亚洲无码| 久久夜色撩人精品国产| 超碰精品无码一区二区| 人妻丰满熟妇αv无码| 国产又黄又硬又粗| 久久国产高清视频| 在线观看国产精品一区| 国产精女同一区二区三区久| 日本91在线| 91久久精品国产| 天天色天天综合| 中文字幕首页系列人妻| 免费国产黄线在线观看| 亚洲精品在线91| 五月天天天色| 日本午夜影院| 国产一级在线播放| 91无码视频在线观看| 亚洲一级毛片免费观看| 五月激情婷婷综合| 玖玖精品视频在线观看| 久久无码av三级| 国产成人高清精品免费软件| 色婷婷色丁香| 一级福利视频| 免费国产无遮挡又黄又爽| 欧美精品不卡| 色亚洲激情综合精品无码视频| 激情无码字幕综合| 成人综合在线观看| 亚洲系列中文字幕一区二区| AV天堂资源福利在线观看| 99精品国产自在现线观看| 国产亚洲精品va在线| 中文字幕乱码二三区免费| 国语少妇高潮| 亚洲人成在线精品|