馬亞彤,王 松,2,劉英芳
(1.蘭州交通大學(xué) 電子與信息工程學(xué)院,蘭州 730070;2.甘肅省人工智能與圖形圖像處理工程研究中心,蘭州 730070)
人體動作識別是指根據(jù)傳感器捕獲的行為數(shù)據(jù)識別人類執(zhí)行的動作[1]。人體動作識別技術(shù)被廣泛應(yīng)用于各個領(lǐng)域,主要包括監(jiān)控、視頻分析、輔助生活、機器人技術(shù)、遠(yuǎn)程醫(yī)療和人機交互,同時它也是健身訓(xùn)練和康復(fù)醫(yī)療的一部分[2]。
早期的人體動作識別研究的數(shù)據(jù)主要采用RGB攝像機、Kinect 傳感器和可穿戴慣性傳感器等單模態(tài)傳感器收集。其中,利用傳統(tǒng)的RGB 攝像機獲取2D 圖像,對光照條件、復(fù)雜的背景和部分遮擋等影響因素非常敏感,并且RGB 攝像機獲取的2D 圖像包含被拍攝者大量的隱私信息。與RGB 相機相比,深度傳感器提供了3D 動作數(shù)據(jù),在采集時對光線變化和照明程度不太敏感,所需的資源較少,并且可以很好地保護(hù)被監(jiān)視人員的隱私信息,如室內(nèi)監(jiān)控系統(tǒng),保護(hù)隱私信息是一個需要考慮的問題。但是,在深度圖像的采集過程中,如視點變化、噪聲等都對采集結(jié)果存在一定影響[3],而這些缺點可以在多模態(tài)人體動作識別中通過使用可穿戴慣性傳感器采集的數(shù)據(jù)來解決。可穿戴慣性傳感器的主要部件包括加速度計和陀螺儀,主要用于提供加速度信號數(shù)據(jù)和角速度信號數(shù)據(jù)。與深度傳感器類似,可穿戴慣性傳感器以高采樣率的形式提供3D 動作數(shù)據(jù),可以在環(huán)境復(fù)雜的條件下工作,其局限性主要是傳感器采集數(shù)據(jù)的漂移[4]。因此,單一傳感器模式很難滿足實際應(yīng)用需求。
針對單模態(tài)存在RGB 圖像遮擋、深度傳感器環(huán)境噪聲、可穿戴傳感器數(shù)據(jù)漂移等問題,本文提出一種基于深度和慣性傳感器的多級多模態(tài)融合的人體動作識別框架,從不同模態(tài)中獲取互補信息,找到不同模態(tài)的最佳融合階段。在此基礎(chǔ)上,采用特征級融合,在每個模態(tài)中分別增加一個附加模態(tài)提取互補特征,來彌補兩種類型傳感器的不足,以準(zhǔn)確地執(zhí)行分類任務(wù),從而提高人體動作識別的性能。
為滿足人體動作識別在實際應(yīng)用場景中的要求,提高人體動作識別效率,國內(nèi)外學(xué)者聚焦于多模態(tài)感知融合,通過對兩種或兩種以上的不同傳感器模式進(jìn)行融合,以達(dá)到提高識別率的目的。
CHEN 等[2,5-6]提出基于深度相機和慣性傳感器兩種不同模態(tài)傳感器的融合方法,并采用協(xié)同表示分類器對特征級融合和決策級融合進(jìn)行了研究。DAWAR 等[7-9]提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的傳感器融合系統(tǒng),從連續(xù)動作流中檢測和識別感興趣的動作,最后使用決策級融合實現(xiàn)動作識別。LIU 等[10]在隱馬爾科夫模型框架內(nèi)融合慣性傳感器和視覺傳感器的數(shù)據(jù),提高手勢識別的準(zhǔn)確性。TU 等[11]提出一種新穎的基于人類相關(guān)區(qū)域的多流卷積神經(jīng)網(wǎng)絡(luò),其中通過改進(jìn)前景檢測,可以在現(xiàn)實情況下穩(wěn)健地檢測與演員的外觀和運動相對應(yīng)的感興趣區(qū)域。HWANG 等[12]利用單個固定攝像機的RGB 圖像和單個手腕慣性傳感器獲取的數(shù)據(jù)進(jìn)行傳感器與人體動作識別的融合,通過這兩種不同信息的互補,彌補基于RGB 和基于慣性傳感器的人體動作識別方法的不足。KAMEL 等[13]在3 個卷積神經(jīng)網(wǎng)絡(luò)通 道分別使用深度運動圖像、深度運動圖像和關(guān)節(jié)點、僅使用關(guān)節(jié)點進(jìn)行訓(xùn)練,并將3 個通道生成的動作預(yù)測相融合用于最終的動作分類。LI 等[14]實現(xiàn)了在不同傳感器采集的實驗數(shù)據(jù)中提取特征信息融合,指出使用單個傳感器的性能限制,并且通過組合異構(gòu)傳感器的信息提高系統(tǒng)的整體性能。
多模態(tài)融合的方法主要是對模型的數(shù)據(jù)級(原始級)、特征級和決策級(評分級)之間進(jìn)行模態(tài)的融合[15]。數(shù)據(jù)級的缺點是對傳感器提供的數(shù)據(jù)未進(jìn)行任何處理即組合到一起;決策級的缺點是需要多個分類器來訓(xùn)練和測試多個模態(tài),且決策級所需的相關(guān)數(shù)據(jù)不能在早期階段進(jìn)行組合。由于特征級包含了比數(shù)據(jù)級或分類器輸出的決策級更豐富的輸入特征信息,因此特征級的模型融合效果更好。同時,特征級融合了從模式中收集和集成相關(guān)的并發(fā)信息,而這些信息是分類器做出正確決策所必須的。AHMAD 等[16-17]在提出的深度多模態(tài)融合框架上通過訓(xùn)練深度和信號圖像,將提取的特征相融合形成共享的特征層,將這些特征反饋給分類器,并利用多級融合的優(yōu)勢提高人體動作識別的精度。EHATISHAM 等[18]提出一種基于特征級融合的人體動作識別方法,該方法利用視覺和慣性兩種不同感知方式的數(shù)據(jù),采用有監(jiān)督的機器學(xué)習(xí)方法,融合從單個感知模式中提取的特征來識別動作。RADU等[19]采用深度學(xué)習(xí)算法來解釋多傳感器系統(tǒng)捕獲用戶活動的上下文的優(yōu)點。
本文提出的多模態(tài)網(wǎng)絡(luò)融合框架是建立在僅通過卷積神經(jīng)網(wǎng)絡(luò)處理的單模態(tài)模型上,利用殘差網(wǎng)絡(luò)充當(dāng)特征提取器,執(zhí)行兩階段的特征拼接,最后進(jìn)行基于判別相關(guān)分析[20](Discriminant Correlation Analysis,DCA)的多級特征融合。多模態(tài)融合框架如圖1 所示。ResNet101 從深度運動投影圖[21](Depth Motion Maps,DMM)和經(jīng)過局部三值模式[22](Local Ternary Patterns,LTP)處理過的深度運動投影圖中提取特征。同理,ResNet101 從信號圖像和經(jīng)過LTP 處理過的信號圖像中提取特征,分別對提取到的特征進(jìn)行特征級聯(lián)。然后將特征級聯(lián)得到的兩個特征進(jìn)行基于DCA 的融合,并與簡單的特征向量拼接相比,DCA 將會產(chǎn)生高度區(qū)分的特征。最后將該特征向量作為支持向量機(Support Vector Machine,SVM)的輸入,以實現(xiàn)對人體動作識別的研究。

圖1 多級多模態(tài)融合框架Fig.1 Multi-level multimodal fusion framework
可穿戴慣性傳感器中的慣性測量單元為加速度計和陀螺儀,用來測量加速度信號和角速度信號。加速度計和陀螺儀的組合比單獨使用加速度計能獲得更好的結(jié)果[23]。慣性傳感器以多變量的時間序列生成數(shù)據(jù)。在UTD-MHAD 中有6 個信號序列,圖2所示為角速度信號和加速度信號,其中,G-X、G-Y、G-Z 分別表示X、Y、Z 的角速度,A-X、A-Y、A-Z 分別表示X、Y、Z 的加速度。

圖2 三軸加速度信號和三軸角速度信號Fig.2 Tri-axis acceleration and tri-axis angular velocity signals
在文獻(xiàn)[23]算法的基礎(chǔ)上,本文將可穿戴慣性傳感器采集到的6 個信號序列逐行堆疊以形成信號圖像。在形成的信號圖像中,任何一個信號序列都與其他5 個信號序列相鄰,使殘差網(wǎng)絡(luò)可以提取各個相鄰信號序列之間的隱藏相關(guān)性,并且可以充分利用各個信號序列之間的時間相關(guān)性。其中,6個信號序列的行堆疊順序為:123456135246141525364326。
在上述堆疊順序中,數(shù)字1~6 表示原始信號中對應(yīng)的6 個序列號。序列號的順序表明每個序列都和其他序列相鄰以形成信號圖像,每個信號在修改后的信號圖像中出現(xiàn)4 次,所以信號圖像的最終寬度是24。
信號圖像的長度通過數(shù)據(jù)集中信號數(shù)據(jù)的采樣率確定,而數(shù)據(jù)的采樣率為50 Hz。為保證能夠準(zhǔn)確捕捉信號圖像的運動,本文將信號圖像的長度確定為50,則最終確定的信號圖像的大小為24×50 像素。圖3 所示分別對應(yīng)不同動作的信號圖像,每一個類別的信號圖像都不同于其他類別的信號圖像,這些圖像中的視覺差異表明卷積神經(jīng)網(wǎng)絡(luò)可能提取有區(qū)別的圖像特征進(jìn)行人體動作識別。

圖3 不同動作的信號圖像Fig.3 Signal images of different actions
人體動作視圖中的深度視頻是一組深度圖像序列,包含了相當(dāng)豐富的時空信息。根據(jù)深度視頻序列對人體動作進(jìn)行識別,不僅要考慮人體動作在每一時刻的信息,還要考慮人體動作的累加效果的影響。深度圖像用來捕捉人體的三維結(jié)構(gòu)信息,使用DMM 表達(dá)人體動作的幾何形狀和特點。YANG等[24]提出的深度序列圖像投影到3 個正交笛卡爾平面上,用于表示人體動作的運動過程。本文計算的DMM 為兩個連續(xù)幀之間的差值,對于具有N幀的深度視頻序列由式(1)計算獲得:

其中:i表示每一幀圖像的索引;表示第i幀人體動作圖像在平面v下的投影圖,v∈{f,s,t},f、s、t分別表示正面、側(cè)面和水平投影圖。
本文實驗中形成的DMM 并不是深度序列圖像中的所有幀。數(shù)據(jù)集中的不同人體動作視頻序列形成的大小不相同,因此利用雙三次插值將人體動作視頻序列形成的所有調(diào)整為大小相同,以減少每個組內(nèi)的變化。圖4 所示為一組“由坐到站”深度幀序列到合成DMM 的過程,其中左邊是深度序列圖像,右邊依次是DMM 的前視圖、側(cè)視圖和頂視圖。

圖4 DMM 的形成過程Fig.4 The formation process of DMM
TAN 等[22]提出一種新的紋理算子LTP 對噪聲更加魯棒。應(yīng)用LTP 為數(shù)據(jù)集創(chuàng)建了一個附加模態(tài),附加模態(tài)的目的是使ResNet101 網(wǎng)絡(luò)能夠進(jìn)一步提取不同模態(tài)的互補性和鑒別性的特征,豐富特征的可用性并且有助于分類器準(zhǔn)確執(zhí)行人體動作的分類任務(wù)。其中,在寬度范圍內(nèi)的灰度量化為0,高于此范圍的灰度量化為+1,低于此范圍的灰度值量化為-1,LTP 的數(shù)學(xué)表達(dá)式如式(2)和式(3)所示:

其中:gc表示圓的中心像素的灰度值;gb表示分布在半徑為R的圓的相鄰像素的灰度值;t為設(shè)定的閾值。
典型相關(guān)分析[25](Canonical Correlation Analysis,CCA)是一種將兩個多維變量之間的線性關(guān)系進(jìn)行相關(guān)分析的方法。由于CCA 融合中忽略了樣本之間的類結(jié)構(gòu),因此消除了特性之間的關(guān)系。為了解決基于CCA 的多模態(tài)融合中存在的問題,本文提出了基于DCA 的多級多模態(tài)融合框架。DCA 是一種特征級融合技術(shù),在類融合中考慮了類結(jié)構(gòu),并且將類中的關(guān)聯(lián)信息納入特征級相關(guān)分析中,同時消除了類間相關(guān)性并將相關(guān)性限制在類內(nèi),有助于在人體動作識別中融合由不同傳感器捕獲的數(shù)據(jù)之間的相關(guān)性信息,并且最大化兩個特征級之間的成對相關(guān)性。

通過映射Q→ΦbxQ獲得Sbx的r個特征向量,如式(7)所示:

設(shè)Wbx=ΦbxQΛ-1 2是將Sbx白化并將數(shù)據(jù)矩陣X的維數(shù)由p降為r的變化,如式(8)和式(9)所示:

其中,X′是X的空間投影;I為類分散矩陣。
與上述方法類似,計算第2 個特征集Y和變換矩陣Wby,Wby使第2 個模態(tài)Sby的類間散度矩陣單位化,并將Y的維數(shù)由q降為r,且矩陣是嚴(yán)格對角占優(yōu)矩陣。將變換后的特征集的集合間相關(guān)矩陣使用奇異分解值(SVD)對進(jìn)行對角化,即,使一個集合中的特征與另一個集合中相應(yīng)的特征具有非零相關(guān)性,如式(10)所示:

其中:X′和Y′的秩為r;是非退化矩陣;Σ是一個主對角元素非零的對角矩陣。設(shè)Wcx=UΣ-1 2和Wcy=VΣ-12,則有:

因此,對特征集進(jìn)行如下轉(zhuǎn)換,如式(12)和式(13)所示:

DCA 的特征級融合與CCA 類似,通過對變換后的特征向量進(jìn)行拼接或求和實現(xiàn)。由于變換后的特征向量求和時,特征向量維數(shù)較少,計算簡單方便,因此本文實驗采用基于DCA 求和的方法進(jìn)行特征級融合。
本文實驗環(huán)境為:Windows 10.0 操作系統(tǒng),Intel?Xeon?Gold 5115 CPU@2.40 GHz,顯卡NVIDIA Quadro P4000 GPU,采用Matlab 2019b 作為開發(fā)環(huán)境。
為驗證所使用的多模態(tài)融合技術(shù)在人體動作識別方面的識別效率,本文使用UTD 多模態(tài)人類行為數(shù)據(jù)集[26](UTD-MHAD)和UTD Kinect V2 多模態(tài)人類行為數(shù)據(jù)集[27](UTD Kinect V2 MHAD)兩個公開的數(shù)據(jù)集進(jìn)行實驗驗證,并與最新的研究進(jìn)行比較,同時采用消融實驗驗證本文提出的多模態(tài)融合框架的有效性。
UTD-MHAD 是使用Microsoft Kinect 傳感器和可穿戴慣性傳感器在室內(nèi)環(huán)境中收集的。由8 名受試者(4 名女性和4 名男性)執(zhí)行的27 個動作,每個受試者對每個動作重復(fù)4 次。去除3 個損壞的序列后,數(shù)據(jù)集共有861 個數(shù)據(jù)序列,包含深度傳感器數(shù)據(jù)和慣性傳感器數(shù)據(jù)。
UTD Kinect V2 MHAD是使用第2 代Kinect 捕獲的新數(shù)據(jù)集,包括6 名受試者(3 名男性和3 名女性)執(zhí)行的10 個動作,每個受試者重復(fù)每個動作5 次,包含深度傳感器數(shù)據(jù)和慣性傳感器數(shù)據(jù)。采用深度傳感器數(shù)據(jù)生成的深度圖像大小為424×512 像素。
本文選擇UTD-MHAD 和UTD Kinect V2 MHAD兩個數(shù)據(jù)集。首先使用的兩個數(shù)據(jù)集用于涉及融合或同時使用深度傳感器和慣性傳感器。其次使用的兩個數(shù)據(jù)集中的動作包含了比較全面的人體動作類別,如運動動作(籃球投籃,打保齡球,棒球揮桿,網(wǎng)球揮桿和網(wǎng)球發(fā)球)、手勢動作(手臂向左滑動,手臂向右滑動,右手揮手,拍手,投擲,胸前手臂交叉,畫x,畫三角形,畫勾,順時針畫圓,逆時針畫圓,手臂卷曲,雙手推,右手抓住物體和右手撿起東西并投擲)、日常動作(敲門,慢跑,步行,由坐到站和由站到坐)和訓(xùn)練動作(拳擊,弓步,深蹲)。
由于UTD-MHAD 和UTD Kinect V2 MHAD 數(shù)據(jù)集中視頻序列的前5 幀和后5 幀大多處于靜止?fàn)顟B(tài),動作比較輕微,對提取到的特征影響比較小,并且在轉(zhuǎn)換為DMM 時,微小的動作會導(dǎo)致大量的重建誤差。因此,在生成DMM 時需要刪除影響較小的開始5 幀和最后5 幀的運動幀序列,使用剩余幀生成DMM。生成的DMM 圖像與信號圖像如圖5所示。

圖5 UTD-MHAD 和UTD Kinect V2 MHAD 數(shù)據(jù)集預(yù)處理后生成的DMM 和信號圖像Fig.5 DMM and signal images generated after pre-processing of UTD-MHAD and UTD Kinect V2 MHAD datasets
為克服UTD-MHAD 和UTD Kinect V2 MHAD數(shù)據(jù)集中訓(xùn)練樣本較少的問題,本文對原始數(shù)據(jù)生成的DMM 和信號圖像分別進(jìn)行數(shù)據(jù)增強[17],并將增強的數(shù)據(jù)集按照80%和20%的比例分為訓(xùn)練集和測試集。表1 所示為UTD-MHAD 和UTD Kinect V2 MHAD 的訓(xùn)練集和測試集的樣本。

表1 UTD-MHAD 和Kinect V2 MHAD 在數(shù)據(jù)增強后的訓(xùn)練集和測試集Table 1 Training and test sets of UTD-MHAD and Kinect V2 MHAD after data enhancement
通過隨機選擇相同百分比的訓(xùn)練和測試樣本進(jìn)行20 次實驗,并計算平均精度。為了對ResNet101 進(jìn)行訓(xùn)練,將圖像大小調(diào)整為224×224像素,直到驗證損失停止。此外,為了和AHMAD等[16]的實驗相比,訓(xùn)練過程中的詳細(xì)實驗參數(shù)如表2 所示。

表2 訓(xùn)練參數(shù)Table 2 Training parameters
本文以圖6 所示的融合框架為基礎(chǔ),驗證本文中提出的多級多模態(tài)融合框架中各個部分的有效性,以及使用基于DCA 多模態(tài)融合的有效性。

圖6 消融實驗融合框架Fig.6 Ablation experimental fusion framework
3.3.1 深度運動投影圖和信號圖像
本文在如圖6 所示的基礎(chǔ)多模態(tài)融合中分別與使用DMM 和信號圖像融合的實驗進(jìn)行比較。從表3 可以看出,在UTD-MHAD 和Kinect V2 MHAD 數(shù)據(jù)集中DMM 和信號圖像的融合識別精度更高,因此DMM 相比深度序列圖像能得到較高的識別準(zhǔn)確率。

表3 DMM 和深度序列圖像與信號圖像的CCA 融合Table 3 CCA fusion of DMM and depth sequence image with signal image %
3.3.2 局部三值模式
2.3 節(jié)提出的基于LTP 處理的DMM 和信號圖像,在圖像預(yù)處理階段增加一個通用的模態(tài),使輸入模態(tài)進(jìn)一步成為多模態(tài)。從表4 的實驗結(jié)果可以看出,創(chuàng)建的附加模態(tài)使ResNet101 進(jìn)一步提取互補性和鑒別性的特征,因此更豐富的特征有利于提高SVM 分類器的準(zhǔn)確率。

表4 DMM、深度序列圖像和信號圖像的LTP模態(tài)Table 4 DMM,depth sequence image and signal image with LTP modality respectively %
3.3.3 判別相關(guān)分析
基于DCA 的特征級融合消除了類間相關(guān)性并將相關(guān)性限制在類內(nèi),有利于不同傳感器捕獲數(shù)據(jù)信息之間的融合。從表5 的實驗結(jié)果可以看出,基于DCA 的多模態(tài)融合相較于CCA 的多模態(tài)融合,進(jìn)一步證明了基于DCA 的特征級融合在多模態(tài)融合中的優(yōu)勢。

表5 DCA 與CCA 的實驗結(jié)果Table 5 Experimental results of DCA and CCA %
對于UTD-MHAD 中的27 個動作類別在多級多模態(tài)融合后的混淆矩陣如圖7 所示。從圖7 可以看出,盡管多模態(tài)融合會誤判個別動作類別,但是整體表現(xiàn)較好。因為在錯誤分類的動作中,除了極為相似的動作外,其余動作的識別率為100%。不同方法對UTDMHAD 中深度和慣性分量融合的精度對比如表6 所示。其中AHMAD 等[16]采用基于CCA 的特征級融合對不同模態(tài)的特征進(jìn)行融合。相比之下,本文所使用的多級多模態(tài)融合識別率更高,證明DCA 對多模態(tài)融合的人體動作識別性能更好。

表6 UTD-MHAD 中不同方法融合方式的識別準(zhǔn)確率對比Table 6 Comparison of recognition accuracy of different method fusion modes in UTD-MHAD %

圖7 多級多模態(tài)融合在UTD-MHAD 數(shù)據(jù)集上的混淆矩陣Fig.7 Confusion matrix of multi-level multimodal fusion on the UTD-MHAD dataset
對于Kinect V2 MHAD 中的10 個動作類別在多級多模態(tài)融合后的混淆矩陣如圖8 所示。在融合UTD Kinect V2 MHAD 數(shù)據(jù)集中的深度和慣性數(shù)據(jù),本文方法與其他不同方法的比較如表7 所示。與AHMAD 等[16]提出的方法相比,本文提出的多級多模態(tài)融合方法識別性能更好,相較于最新的研究識別進(jìn)度有所提高,證明了該方法的有效性。UTD Kinect V2 MHAD 與UTD-MHAD 數(shù)據(jù)集相比,不同類間區(qū)分度更高。這也是UTD Kinect V2 MHAD 的識別精度高于UTD-MHAD 的原因。在訓(xùn)練樣本較少的情況下,基于深度學(xué)習(xí)的分類模型通常會有潛在的過擬合影響,導(dǎo)致模型在訓(xùn)練集上的誤差很小,而在測試集上的誤差不夠理想。因此,本文首先在數(shù)據(jù)預(yù)處理階段對數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強處理,然后通過ResNet101 訓(xùn)練深度模態(tài)和慣性模態(tài),在模型中使用BN、L2 正則化和Dropout 層用來抑制過擬合。在兩個數(shù)據(jù)集上的訓(xùn)練與測試誤差如圖9 所示,從圖9 可以看出,本文的實驗沒有出現(xiàn)過擬合。

圖9 UTD-MHAD 和UTD Kinect V2 MHAD 數(shù)據(jù)集的損失變化曲線Fig.9 Loss variation curves for UTD-MHAD and UTD Kinect V2 MHAD datasets

表7 Kinect V2 MHAD 中不同方法融合方式的識別準(zhǔn)確率對比Table 7 Comparison of recognition accuracy of different method fusion modes in Kinect V2 MHAD %

圖8 多級多模態(tài)融合在Kinect V2 MHAD數(shù)據(jù)集上的混淆矩陣Fig.8 Confusion matrix for multi-level multimodal fusion on the Kinect V2 MHAD dataset
UTD-MHAD 對訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)主要有以下3 個局限:1)可穿戴慣性傳感器佩戴在志愿者的右手腕或者右大腿上,而傳感器僅佩戴在兩個位置上,用于收集27 個動作的數(shù)據(jù),不足以捕獲所有數(shù)據(jù)的相關(guān)性和特征;2)當(dāng)使用UTD-MHAD 訓(xùn)練深度網(wǎng)絡(luò)時,由于數(shù)據(jù)集的樣本數(shù)據(jù)較少,可能導(dǎo)致訓(xùn)練結(jié)果不夠準(zhǔn)確;3)在UTD-MHAD 中,有部分動作的區(qū)分度不明顯,例如,右臂向左滑動和右臂向右滑動,由坐到站和由站到坐具有很高的相似性。
為解決單模態(tài)人體動作識別方法在實際應(yīng)用場景中的局限性和CCA 融合忽略樣本間類結(jié)構(gòu)等問題,本文提出一種基于DCA 的多級多模態(tài)融合的人體動作識別方法。該識別方法從不同模態(tài)或者特征集捕獲與其他模態(tài)或者特征集互補的信息,找到不同模態(tài)的最佳融合階段,多模態(tài)融合的人體動作識別可有效解決單模態(tài)方法的局限。實驗結(jié)果表明,本文提出的多模態(tài)融合方法具有較高的識別準(zhǔn)確率。下一步把神經(jīng)架構(gòu)搜索技術(shù)應(yīng)用到多模態(tài)融合動作識別中,利用其可以對不同時期網(wǎng)絡(luò)自動確定網(wǎng)絡(luò)結(jié)構(gòu)的特性,將通過卷積神經(jīng)網(wǎng)絡(luò)提取到的不同模態(tài)的特征,利用神經(jīng)架構(gòu)搜索技術(shù)自動搜索其融合結(jié)構(gòu),從而提高多模態(tài)人體動作識別的效率。