999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

視頻動(dòng)作質(zhì)量評(píng)估

2021-02-24 05:11:32曾令安鄭偉詩
關(guān)鍵詞:動(dòng)作特征信息

曾令安,鄭偉詩

(中山大學(xué),廣州 510275)

1 引言

近年來,隨著通訊技術(shù)和互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,更直觀和包含內(nèi)容更豐富的視頻已經(jīng)成為人們記錄和分享生活內(nèi)容的主流媒體形式。這些海量的視頻一方面需要巨大的人力進(jìn)行視頻處理與分析,另一方面又提供了寶貴的資源用于探索計(jì)算機(jī)如何理解人體行為。針對(duì)視頻行為理解與分析的研究也在近年來成為一大熱門領(lǐng)域,并且發(fā)展迅速。在該領(lǐng)域中,旨在通過計(jì)算機(jī)對(duì)視頻中人體行為進(jìn)行分?jǐn)?shù)評(píng)估的視頻動(dòng)作質(zhì)量評(píng)估任務(wù)也受到越來越多的關(guān)注。視頻動(dòng)作質(zhì)量評(píng)估可以作為實(shí)時(shí)監(jiān)測和評(píng)估人體行為質(zhì)量的自動(dòng)化技術(shù),因而在實(shí)驗(yàn)操作規(guī)范監(jiān)測、康復(fù)醫(yī)療和體育訓(xùn)練等領(lǐng)域有著重要的應(yīng)用價(jià)值。

視頻動(dòng)作質(zhì)量評(píng)估問題最早由Gordon 在1995年提出[1],而后隨著計(jì)算機(jī)技術(shù)的發(fā)展和所評(píng)估的視頻內(nèi)容的復(fù)雜性和多樣性,研究者們提出了許多新穎的視頻動(dòng)作評(píng)估方法[2-16]。視頻動(dòng)作質(zhì)量評(píng)估方法根據(jù)采用的技術(shù)可以大致劃分成人工設(shè)計(jì)特征傳統(tǒng)算法[1-2,10-11]和深度學(xué)習(xí)算法[3-9,12-16]兩類,如圖1 所示。傳統(tǒng)方法受限于當(dāng)時(shí)計(jì)算機(jī)技術(shù)局限性,主要通過追蹤每個(gè)時(shí)刻目標(biāo)(包括人體部位比如手、腳和腰以及相關(guān)器材)的位置,從而獲目標(biāo)的位置、速度、方向等信息,而后通過手工設(shè)計(jì)規(guī)則或者通過貝葉斯網(wǎng)絡(luò)來評(píng)估最終分?jǐn)?shù)。傳統(tǒng)方法可以歸納為一下三個(gè)步驟:追蹤位置、特征提取和分?jǐn)?shù)預(yù)測。深度學(xué)習(xí)興起使得研究者們可以對(duì)動(dòng)作進(jìn)行更加細(xì)致建模和評(píng)估,視頻動(dòng)作質(zhì)量評(píng)估的深度學(xué)習(xí)方法主要通過神經(jīng)網(wǎng)絡(luò)對(duì)視頻幀或者視頻段提取特征,而后通過時(shí)序信息建模網(wǎng)絡(luò)和分?jǐn)?shù)預(yù)測網(wǎng)絡(luò)進(jìn)行融合視頻中的時(shí)序信息和預(yù)測最終分?jǐn)?shù)。根據(jù)神經(jīng)網(wǎng)絡(luò)所使用的輸入數(shù)據(jù),視頻動(dòng)作質(zhì)量評(píng)估的深度學(xué)習(xí)方法可以分為基于人體骨架的方法和基于RGB 視頻流的方法。

圖 1 視頻動(dòng)作質(zhì)量評(píng)估方法分類

視頻動(dòng)作質(zhì)量評(píng)估是一個(gè)需要對(duì)動(dòng)作具有深層次理解的比較具有挑戰(zhàn)性的任務(wù)。不同于動(dòng)作識(shí)別、動(dòng)作檢測與定位等視頻行為分析任務(wù),視頻動(dòng)作質(zhì)量評(píng)估是需要對(duì)動(dòng)作本身具有更深層次的理解,其不僅需要識(shí)別動(dòng)作,更需要理解動(dòng)作之間的細(xì)微差異。比如對(duì)于體操中高抬腿這個(gè)動(dòng)作而言,抬腿高度上的小幅度變化并不會(huì)影響對(duì)于高抬腿這個(gè)動(dòng)作類別的識(shí)別,但在動(dòng)作質(zhì)量評(píng)估任務(wù)中,抬腿的高度會(huì)直接影響動(dòng)作的質(zhì)量。雖然視頻行為分析領(lǐng)域近十年來發(fā)展迅速,但由于視頻動(dòng)作質(zhì)量評(píng)估任務(wù)本身的難度較高,導(dǎo)致該方向發(fā)展比較緩慢。

雖然目前已經(jīng)有了不少關(guān)于視頻動(dòng)作質(zhì)量評(píng)估任務(wù)的相關(guān)文獻(xiàn),但這些論文在都是國外會(huì)議、期刊或者雜志上發(fā)表的,國內(nèi)目前還沒有介紹視頻動(dòng)作質(zhì)量評(píng)估的文章。因此本文將致力于介紹視頻動(dòng)作質(zhì)量評(píng)估任務(wù)的定義和簡要地梳理相關(guān)的前沿工作,以便于國內(nèi)學(xué)者快速了解這個(gè)領(lǐng)域的發(fā)展情況。本文已經(jīng)介紹了視頻動(dòng)作質(zhì)量評(píng)估任務(wù)的定義以及相應(yīng)研究挑戰(zhàn),而后將分別介紹有關(guān)該任務(wù)的傳統(tǒng)的和基于深度學(xué)習(xí)的前沿視頻動(dòng)作質(zhì)量評(píng)估方法,并分析這些方法的優(yōu)劣之處,最后本文將介紹視頻動(dòng)作質(zhì)量評(píng)估任務(wù)在現(xiàn)實(shí)中的應(yīng)用價(jià)值與意義。

2 傳統(tǒng)方法

傳統(tǒng)的視頻動(dòng)作質(zhì)量評(píng)估方法受限于當(dāng)時(shí)計(jì)算機(jī)技術(shù)局限性,無法對(duì)視頻或者圖像提取更具有代表性的特征,更無法分析動(dòng)作上的細(xì)微差異,導(dǎo)致傳統(tǒng)方法只能局限于某些動(dòng)作模式差異明顯并且評(píng)分方式簡單的運(yùn)動(dòng)。

2.1 基于人體中心軌跡追蹤的方法

Gordon[1]提出了結(jié)合軌跡追蹤技術(shù)來評(píng)估跳馬動(dòng)作質(zhì)量的方法。為了記錄可以捕獲跳馬表演的第一次飛行、支撐、第二次飛行和著陸階段,相機(jī)的視軸被放置在垂直于跳板和馬的方向。而后使用運(yùn)動(dòng)跟蹤算法[17]對(duì)圖像進(jìn)行分析,該算法可以有效地計(jì)算一系列連續(xù)幀中運(yùn)動(dòng)對(duì)象的中心。所得數(shù)據(jù)表示體操運(yùn)動(dòng)員在每幀中以圖像坐標(biāo)表示的位置,如圖2 所示,這些數(shù)據(jù)可用于計(jì)算在跳高表演過程中與體操運(yùn)動(dòng)員的位置有關(guān)的記分規(guī)則中的得分點(diǎn),比如跳馬過程中那些不正確的飛行路徑軌跡和不足的高度和不足的距離的扣分。然后,Gordon 根據(jù)跳馬的官方評(píng)分規(guī)則構(gòu)造邏輯規(guī)則來評(píng)估最終的分?jǐn)?shù)。

圖 2 通過分析軌跡來評(píng)估跳馬動(dòng)作的質(zhì)量[1]

2.2 基于貝葉斯網(wǎng)絡(luò)的團(tuán)體行為質(zhì)量評(píng)估方法

Pervse 等[2]則是沿著結(jié)合軌跡追蹤技術(shù)的思路,將視頻動(dòng)作質(zhì)量評(píng)估從單人運(yùn)動(dòng)擴(kuò)展到多人的籃球運(yùn)動(dòng),并對(duì)籃球運(yùn)動(dòng)中的進(jìn)攻行為進(jìn)行質(zhì)量評(píng)估。該方法首先通過視頻技術(shù)和檢測器追蹤每個(gè)運(yùn)動(dòng)員在場上的位置信息,而后將運(yùn)動(dòng)員在場上的行為劃分成移動(dòng)(Move)和掩護(hù)(Screen,籃球進(jìn)攻的戰(zhàn)術(shù)之一)兩種基本的行為,并通過相應(yīng)的規(guī)則將事件之間的時(shí)間關(guān)聯(lián)信息劃分成先后發(fā)生(Before)、接連發(fā)生(Within)和同時(shí)發(fā)生(Simultaneously)三種關(guān)系。Pervse 等根據(jù)上述基本行為和基本行為關(guān)系分別分析籃球比賽中每個(gè)活動(dòng),并使用貝葉斯網(wǎng)絡(luò)實(shí)現(xiàn)有關(guān)活動(dòng)的最終評(píng)估推理。其中,貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)是從籃球?qū)<沂褂玫臉?biāo)準(zhǔn)活動(dòng)模板自動(dòng)獲得的,從活動(dòng)模板獲得的貝葉斯網(wǎng)絡(luò)可以用于識(shí)別所執(zhí)行的活動(dòng)。基于建?;顒?dòng)類型和網(wǎng)絡(luò)類型匹配度的思路,Pervse 等通過貝葉斯網(wǎng)絡(luò)評(píng)估籃球比賽中個(gè)人或者團(tuán)體的活動(dòng)質(zhì)量,貝葉斯網(wǎng)絡(luò)樣例圖參見圖3。

圖3 籃球比賽中雙人掩護(hù)行為的貝葉斯網(wǎng)絡(luò)[2]

3 深度學(xué)習(xí)方法

深度學(xué)習(xí)興起使得研究者們可以對(duì)動(dòng)作進(jìn)行更加細(xì)致的建模和評(píng)估,不再局限只能通過追蹤運(yùn)動(dòng)員位置來評(píng)估動(dòng)作質(zhì)量[3-9,12-16]。視頻動(dòng)作質(zhì)量評(píng)估的深度學(xué)習(xí)方法主要通過神經(jīng)網(wǎng)絡(luò)對(duì)視頻幀或者視頻段提取特征,而后通過時(shí)序信息建模網(wǎng)絡(luò)和分?jǐn)?shù)預(yù)測網(wǎng)絡(luò)以融合視頻中的時(shí)序信息和預(yù)測最終分?jǐn)?shù)。根據(jù)神經(jīng)網(wǎng)絡(luò)所使用的輸入數(shù)據(jù),視頻動(dòng)作質(zhì)量評(píng)估的深度學(xué)習(xí)方法可以分為基于人體骨架的方法[3-4]和基于RGB 視頻流的方法[5-9,12-16]。

3.1 基于人體骨架的方法

基于人體骨架的視頻動(dòng)作質(zhì)量評(píng)估算法主要是先通過對(duì)視頻中人體骨架進(jìn)行檢測,而后在時(shí)間和空間上建模人體關(guān)節(jié)點(diǎn)間的關(guān)聯(lián)信息,從而實(shí)現(xiàn)對(duì)人體運(yùn)動(dòng)的建模并對(duì)動(dòng)作進(jìn)行動(dòng)作質(zhì)量評(píng)估。這類方法在關(guān)節(jié)點(diǎn)準(zhǔn)確時(shí),可以較好的評(píng)估人體的運(yùn)行信息并具有良好的可解釋性。然而在很多運(yùn)動(dòng)中(比如跳水、體操、跳馬和花樣滑冰等),由于運(yùn)動(dòng)員的身體很多時(shí)候都處于折疊或者彎曲較大的非常見姿態(tài),這導(dǎo)致人體關(guān)節(jié)點(diǎn)檢測模型在這種體育運(yùn)動(dòng)的數(shù)據(jù)上效果有較大的折扣。

3.1.1 基于離散余弦變換提取關(guān)節(jié)點(diǎn)運(yùn)動(dòng)信息的方法

Pirsiavash 等[3]通過傳統(tǒng)的人體骨架自動(dòng)檢測器來獲取運(yùn)動(dòng)員的骨架信息,而后通過離散余弦變換從關(guān)節(jié)點(diǎn)序列中提取重要特征,再使用支持向量機(jī)來預(yù)測最終得分。令pj(t)為視頻第t幀中人體第j個(gè)關(guān)節(jié)的x分量。為了使關(guān)節(jié)點(diǎn)的特征信息是平移不變的和與人在圖片中的位置無關(guān)的,因此將所有關(guān)節(jié)點(diǎn)按相對(duì)于頭部位置進(jìn)行歸一化,歸一化公式參見式(1)。其中p0(t)代表第t幀中頭的位置。因?yàn)閜j(t)是一個(gè)關(guān)于時(shí)間的函數(shù),所以通過離散余弦變換來表示其在頻率上的特征信息,參見式(2)。其中矩陣A是離散余弦變換矩陣。最后使用頻率域上的前k個(gè)低頻信息的絕對(duì)值來創(chuàng)建最終特征,參見式(3)。而后為每個(gè)關(guān)節(jié)點(diǎn)的x和y分量分別計(jì)算φj,并將它們連接起來以創(chuàng)建最終特征向量Φ。另外對(duì)于較長的視頻,需要將其細(xì)分為多個(gè)片段,并連接特征以為整個(gè)視頻生成一個(gè)特征向量。

而后,Pirsiavash 等將視頻動(dòng)作質(zhì)量評(píng)估看作有監(jiān)督的回歸問題,通過采用線性支持向量回歸在訓(xùn)練集進(jìn)行訓(xùn)練,從而預(yù)測從特征到分?jǐn)?shù)的映射。

3.1.2 基于圖卷積神經(jīng)網(wǎng)絡(luò)建模關(guān)節(jié)點(diǎn)運(yùn)動(dòng)信息的方法

Pan 等[4]沿著人體骨架建模的思路,通過運(yùn)動(dòng)共性建模的身體部位動(dòng)力學(xué),以及通過運(yùn)動(dòng)差異建模的關(guān)節(jié)協(xié)調(diào)性,以進(jìn)行動(dòng)作評(píng)估。這個(gè)方法首先使用基于深度學(xué)習(xí)的人體關(guān)節(jié)點(diǎn)檢測算法Mask-RCNN[18]來檢測關(guān)節(jié)點(diǎn)。與之前方法不同的是,Pan等專注于通過運(yùn)動(dòng)共性建模身體部位的動(dòng)力學(xué)信息,以及通過運(yùn)動(dòng)差異建模的關(guān)節(jié)協(xié)調(diào)性。因?yàn)橄噜応P(guān)節(jié)的運(yùn)動(dòng)共性表示某個(gè)身體部位的總體運(yùn)動(dòng),而這些相鄰關(guān)節(jié)之間的運(yùn)動(dòng)差異則反映了動(dòng)作的協(xié)調(diào)性。此外,執(zhí)行良好的動(dòng)作也需要各個(gè)關(guān)節(jié)之間進(jìn)行良好的協(xié)調(diào)。為了對(duì)關(guān)節(jié)運(yùn)動(dòng)之間的關(guān)系進(jìn)行建模,Pan 等提出了一個(gè)基于圖的動(dòng)作評(píng)估網(wǎng)絡(luò),其中圖的節(jié)點(diǎn)與關(guān)節(jié)相對(duì)應(yīng)。第一個(gè)圖用于在一個(gè)時(shí)間步長內(nèi)建模關(guān)節(jié)點(diǎn)關(guān)系的空間關(guān)系圖,第二個(gè)圖用于在相鄰兩個(gè)時(shí)間步長內(nèi)建模關(guān)節(jié)點(diǎn)關(guān)系的時(shí)間關(guān)系圖。這兩個(gè)圖的建模方法參見圖4,其中把人體關(guān)節(jié)點(diǎn)看作節(jié)點(diǎn),在相鄰的關(guān)節(jié)點(diǎn)之間建立邊,而后在時(shí)間上有關(guān)聯(lián)的節(jié)點(diǎn)上通過建立邊。這兩個(gè)圖中的邊權(quán)都是由網(wǎng)絡(luò)學(xué)習(xí)自動(dòng)調(diào)整的,最開始的賦值是從區(qū)間[0-1]中取的隨機(jī)數(shù)。最后通過圖卷積操作在圖上聚合節(jié)點(diǎn)之間信息,從而實(shí)現(xiàn)對(duì)人體關(guān)節(jié)點(diǎn)運(yùn)動(dòng)信息的建模。

圖4 Pan 等[4]提出的關(guān)于人體關(guān)節(jié)點(diǎn)的時(shí)空關(guān)系圖

3.2 基于RGB 視頻流的方法

基于RGB 視頻流的視頻動(dòng)作質(zhì)量評(píng)估算法通過深度學(xué)習(xí)模型如C3D(3D Con-volution Networks)[19], I3D(Inflated 3D Convolution Network)[20], TSN(Temporal Seg-ment Networks)[21]等直接從視頻幀中提取特征,而后利用LSTM(Long Short-Term Memory Networks)[22]、平均池化等方法在時(shí)間上提取最終特征,最后通過全連接神經(jīng)網(wǎng)絡(luò)進(jìn)行分?jǐn)?shù)預(yù)測。此類方法利用視覺活動(dòng)信息來評(píng)估動(dòng)作質(zhì)量,但模型的可解釋性比較差。下面將介紹主要的幾種RGB視頻流的算法。

3.2.1 基礎(chǔ)的基于RGB 視頻流的方法

Parmar 和Morris 首先提出了使用RGB 視頻流的動(dòng)作質(zhì)量評(píng)估方法[5]。這種方法不是顯式地使用人體姿勢(shì)信息,而是利用視覺活動(dòng)信息來評(píng)估動(dòng)作質(zhì)量。由于體育運(yùn)動(dòng)的動(dòng)作質(zhì)量評(píng)估需要關(guān)注整體動(dòng)作的情況,因此第一階段使用C3D 網(wǎng)絡(luò)從視頻中提取時(shí)空特征。C3D 可以從視頻段的前幾幀中捕獲場景信息,從視頻段的后續(xù)幀中提取其中的運(yùn)動(dòng)信息。在特征提取之后,有三種不同的時(shí)序信息融合方法:

(1)對(duì)特征在時(shí)域取平均值,而后使用SVR 預(yù)測最終得分。但通過這種在時(shí)間維度上取平均值的操作會(huì)導(dǎo)致動(dòng)作的時(shí)序信息和運(yùn)動(dòng)變化信息大量丟失。

(2)使用LSTM 建模特征之間的時(shí)序關(guān)系,而后使用全連接神經(jīng)網(wǎng)絡(luò)預(yù)測最終分?jǐn)?shù)。這種方法利用視頻段內(nèi)容之間的連續(xù)性關(guān)系,是一種比較自然建模時(shí)序信息的方式。

(3)基于上面兩種方法的融合,使用LSTM 建模視頻段之間的時(shí)序關(guān)系,最后使用SVR 預(yù)測最終得分。這種架構(gòu)通過LSTM 提供了顯式的序列動(dòng)作建模和時(shí)間建模,同時(shí)利用了SVR 來面對(duì)有限的訓(xùn)練數(shù)據(jù)進(jìn)行泛化。

3.2.2 基于動(dòng)作階段分割的方法

Li 等[6]采用將跳水運(yùn)動(dòng)過程劃分成多個(gè)階段的思路,提出了ScoringNet 網(wǎng)絡(luò)來預(yù)測跳水視頻的階段劃分,再剔除掉無關(guān)的視頻幀后再對(duì)關(guān)鍵視頻段進(jìn)行特征提取和分?jǐn)?shù)預(yù)測。ScoringNet 的網(wǎng)絡(luò)結(jié)構(gòu)如圖5 所示,該網(wǎng)絡(luò)由關(guān)鍵片段分割模塊(Key Fragment Segmentation, KFS)和分?jǐn)?shù)預(yù)測模塊(Score Prediction, SP)組成,由這兩個(gè)主要模塊實(shí)現(xiàn)對(duì)跳水運(yùn)動(dòng)的動(dòng)作質(zhì)量評(píng)估。由于體育視頻通常是未修剪的,因此從未修剪的視頻中提取特征會(huì)影響動(dòng)作質(zhì)量評(píng)估的準(zhǔn)確性。而且并非所有修整后的視頻片段都對(duì)得分有所貢獻(xiàn)(例如運(yùn)動(dòng)員準(zhǔn)備跳水的片段)。ScoringNet 采用關(guān)鍵片段分割模塊來對(duì)視頻內(nèi)容進(jìn)行執(zhí)行語義視頻分割,以剔除無關(guān)內(nèi)容。然后使用3D 卷積神經(jīng)網(wǎng)絡(luò)從保留的視頻內(nèi)容中提取特征。最后ScoringNet 不是簡單只預(yù)測最終得分,而是通過分?jǐn)?shù)預(yù)測模塊生成動(dòng)作的難度分、執(zhí)行得分和最終得分,從而更準(zhǔn)確地評(píng)估運(yùn)動(dòng)員的表現(xiàn)。

圖5 ScoringNet 的網(wǎng)絡(luò)結(jié)構(gòu)圖[6]

3.2.3 基于空間注意力網(wǎng)絡(luò)的方法

Li 等[7]將空間注意力機(jī)制引入到提取特征的骨架網(wǎng)絡(luò)中以從視頻關(guān)注于重要的視頻區(qū)域。Li 等提出的空間注意力網(wǎng)絡(luò)考慮了先前幀的累積注意力狀態(tài)以及有關(guān)正在執(zhí)行任務(wù)的高級(jí)知識(shí)。整個(gè)模型網(wǎng)絡(luò)結(jié)構(gòu)如圖6。該方法先將視頻切分成N 個(gè)片段,并在每個(gè)片段中隨機(jī)采樣一幀以形成整個(gè)視頻的稀疏采樣。在每個(gè)時(shí)間步長處,網(wǎng)絡(luò)都將RGB圖像和相應(yīng)的堆疊光流圖像作為輸入,并將從中提取深層運(yùn)動(dòng)特征。然后通過結(jié)合深層運(yùn)動(dòng)特征的低級(jí)視覺信息和正在執(zhí)行任務(wù)的高級(jí)信息,并且考慮了注意力之間的時(shí)間關(guān)系,從而將空間注意力子模塊用于生成注意力圖。根據(jù)估計(jì)的注意力圖,通過加權(quán)融合深層特征來生成關(guān)注的特征向量。而后將特征向量輸入到循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)中來建模運(yùn)動(dòng)在時(shí)間的變化。最后使用最終時(shí)間步的RNN 網(wǎng)絡(luò)輸出用于產(chǎn)生最終分?jǐn)?shù)。

圖6 空間注意力網(wǎng)絡(luò)[7]

3.2.4 多尺度卷積LSTM網(wǎng)絡(luò)

Xu 等[8]針對(duì)于時(shí)間較長的花樣滑冰視頻動(dòng)作質(zhì)量評(píng)估和如何從視頻中提取具有鑒別力的視頻片段問題,提出了一個(gè)基于LSTM 的動(dòng)作質(zhì)量評(píng)估網(wǎng)絡(luò)。如圖7 所示,基于LSTM 的動(dòng)作質(zhì)量評(píng)估網(wǎng)絡(luò)可以分為兩個(gè)互補(bǔ)的子網(wǎng)絡(luò):自注意LSTM(Self-Attentive, S-LSTM)和多尺度卷積LSTM(Multi-scale Convolutional Skip LSTM, M-LSTM)。 在 自 注 意LSTM 網(wǎng)絡(luò)中,通過自我關(guān)注的特征嵌入以有選擇地學(xué)習(xí)以壓縮特征表示。這樣的表示可以有效地對(duì)本地信息建模,通過使用簡單的自我關(guān)注注意力機(jī)制來選擇重要的片段特征,這些特征代表了局部的信息。在多尺度卷積LSTM 網(wǎng)絡(luò)中,通過在時(shí)間維度上對(duì)特征進(jìn)行多尺度卷積LSTM 來建模局部信息和全局信息。而后,通過將兩個(gè)子網(wǎng)絡(luò)的輸出特征結(jié)合到一起,輸入進(jìn)最終的全局連接神經(jīng)網(wǎng)絡(luò)進(jìn)行分?jǐn)?shù)預(yù)測。

圖7 多尺度卷積LSTM 網(wǎng)絡(luò)[8]

3.2.5 基于非對(duì)稱交互式行為的動(dòng)作評(píng)估方法

Gao 等[9]指出現(xiàn)有的動(dòng)作評(píng)估方法大多局限于單個(gè)人的動(dòng)作,尤其是缺乏對(duì)對(duì)象主體之間(例如人與物之間)非對(duì)稱關(guān)系建模的方法。因?yàn)樵谠S多交互式動(dòng)作中對(duì)象主體之間始終存在從屬關(guān)系,這種局限性破壞了它們?cè)u(píng)估包含非對(duì)稱交互式動(dòng)作的能力。為解決這個(gè)問題,Gao等對(duì)主體之間的非對(duì)稱交互關(guān)系進(jìn)行建模,從而進(jìn)行動(dòng)作評(píng)估(模型框架如圖8)。特別地,Gao等提出了一種非對(duì)稱交互模塊(AIM),顯式地模擬一個(gè)動(dòng)作中對(duì)象主體之間的非對(duì)稱交互。在該動(dòng)作中,將這些對(duì)象主體分為主要對(duì)象主體(例如人)和次要對(duì)象主體(例如物體);然后利用同一個(gè)潛在空間中的主要對(duì)象和次要對(duì)象之間的差異,并利用嵌入該差異的主要對(duì)象來學(xué)習(xí)時(shí)域中的交互關(guān)系。使用此模塊,該方法可以顯式地學(xué)習(xí)交互關(guān)系評(píng)估的潛在標(biāo)準(zhǔn)。然后構(gòu)建了一個(gè)注意力融合模塊,對(duì)整個(gè)場景特征和AIM特征進(jìn)行不同程度的關(guān)注和融合。

圖8 基于非對(duì)稱交互式行為的動(dòng)作評(píng)估網(wǎng)絡(luò)[9]

4 應(yīng)用場景

視頻動(dòng)作質(zhì)量評(píng)估問題針對(duì)的是評(píng)估人體動(dòng)作或者行為的質(zhì)量,因?yàn)橐曨l動(dòng)作質(zhì)量評(píng)估算法可以某些特定的情況下充當(dāng)教練或者裁判的位置,因而在現(xiàn)實(shí)生活中有許多應(yīng)用場景:

(1)在體育運(yùn)動(dòng)領(lǐng)域中,視頻動(dòng)作質(zhì)量評(píng)估算法可以用作輔助裁判和輔助教練。通過計(jì)算機(jī)來進(jìn)行動(dòng)作質(zhì)量評(píng)估,將不需要教練在現(xiàn)場陪同訓(xùn)練即可獲得實(shí)時(shí)反饋,這不僅可以節(jié)省請(qǐng)教練的費(fèi)用開支,更有望為運(yùn)動(dòng)員設(shè)計(jì)量身定制訓(xùn)練計(jì)劃。例如,在2021年8 月的東京奧運(yùn)會(huì)中便采用了如圖9所示的自動(dòng)評(píng)分系統(tǒng)對(duì)運(yùn)動(dòng)員動(dòng)作進(jìn)行分?jǐn)?shù)評(píng)估[23]。

圖9 2020年東京奧運(yùn)會(huì)采用的自動(dòng)動(dòng)作評(píng)分系統(tǒng)

(2)在實(shí)驗(yàn)教學(xué)領(lǐng)域中,視頻動(dòng)作質(zhì)量評(píng)估算法可以用于實(shí)時(shí)監(jiān)測和指導(dǎo)學(xué)生進(jìn)行實(shí)驗(yàn)。通過視頻動(dòng)作評(píng)估可以檢測出潛在的危險(xiǎn)實(shí)驗(yàn)操作,并通過及時(shí)的提醒以避免意外事故的發(fā)生。

(3)在康復(fù)醫(yī)療領(lǐng)域中,視頻動(dòng)作質(zhì)量評(píng)估算法可監(jiān)測和協(xié)助患者進(jìn)行康復(fù)訓(xùn)練。醫(yī)生通常需要通過觀察病人進(jìn)行康復(fù)訓(xùn)練時(shí)的動(dòng)作質(zhì)量進(jìn)行分析和評(píng)估康復(fù)狀態(tài),但這需要花費(fèi)醫(yī)生的大量時(shí)間。通過視頻動(dòng)作質(zhì)量評(píng)估技術(shù),有望可以通過計(jì)算機(jī)來替代醫(yī)生進(jìn)行自動(dòng)化的動(dòng)作質(zhì)量評(píng)估。

5 總結(jié)

本文調(diào)研了視頻動(dòng)作質(zhì)量評(píng)估方向近年來的研究和發(fā)展情況。本文首先介紹了視頻動(dòng)作質(zhì)量評(píng)估任務(wù)的定義和研究挑戰(zhàn),而后系統(tǒng)地梳理了相關(guān)的研究工作,介紹了基于傳統(tǒng)方法的和基于深度學(xué)習(xí)的視頻動(dòng)作質(zhì)量評(píng)估方法,并詳細(xì)分析這兩類方法的優(yōu)缺點(diǎn),最后本文介紹了視頻動(dòng)作質(zhì)量評(píng)估在現(xiàn)實(shí)生活中的應(yīng)用價(jià)值。期望本文的內(nèi)容可以促進(jìn)國內(nèi)對(duì)于視頻動(dòng)作質(zhì)量評(píng)估任務(wù)的研究和,推動(dòng)國內(nèi)視頻理解技術(shù)的發(fā)展。

猜你喜歡
動(dòng)作特征信息
如何表達(dá)“特征”
不忠誠的四個(gè)特征
動(dòng)作描寫要具體
抓住特征巧觀察
畫動(dòng)作
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
動(dòng)作描寫不可少
非同一般的吃飯動(dòng)作
展會(huì)信息
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 青青青国产免费线在| 亚洲国产天堂久久九九九| 亚洲最大情网站在线观看 | 91毛片网| av午夜福利一片免费看| 四虎影视8848永久精品| 亚洲精品色AV无码看| 日本人妻丰满熟妇区| 综合色区亚洲熟妇在线| 无码免费视频| 久久人妻xunleige无码| 美女高潮全身流白浆福利区| 国产亚洲高清在线精品99| 国产在线自乱拍播放| 亚洲成人播放| 欧美激情视频一区| 欧美日韩va| 国产精品分类视频分类一区| 国产欧美精品专区一区二区| 熟妇人妻无乱码中文字幕真矢织江 | 老熟妇喷水一区二区三区| 91蜜芽尤物福利在线观看| 最新国产网站| 欧美色视频网站| 97国产在线观看| 无码不卡的中文字幕视频| 在线高清亚洲精品二区| 欧美亚洲欧美| 欧美成人午夜影院| 国产内射在线观看| 国产精品亚洲日韩AⅤ在线观看| 国产精品19p| 国产va免费精品| 欧美在线视频不卡| 亚洲人在线| 精品国产三级在线观看| Jizz国产色系免费| 国精品91人妻无码一区二区三区| 人人看人人鲁狠狠高清| 亚洲天堂网在线播放| 国产永久在线视频| 九九线精品视频在线观看| swag国产精品| www.av男人.com| 国产成人精品视频一区二区电影 | 中文天堂在线视频| 毛片一区二区在线看| 亚洲首页在线观看| 激情影院内射美女| 99国产在线视频| 在线观看亚洲精品福利片 | 国产成人无码久久久久毛片| 中文字幕有乳无码| 欧洲欧美人成免费全部视频| 欧美成人精品一区二区| 久久77777| 99这里只有精品在线| 亚洲第一av网站| 青青青亚洲精品国产| 国模在线视频一区二区三区| 黄色a一级视频| 成年女人18毛片毛片免费| 亚洲av综合网| 成人在线不卡视频| 国内精品视频区在线2021| 色成人亚洲| 婷婷在线网站| 老司国产精品视频91| 九九热精品视频在线| 米奇精品一区二区三区| 成人在线不卡| 亚洲日韩高清在线亚洲专区| 综合色亚洲| 亚洲精品麻豆| 99手机在线视频| 亚欧美国产综合| 国产亚洲精品在天天在线麻豆 | 亚洲天堂视频在线观看免费| 国产成人亚洲欧美激情| 久久这里只有精品免费| 亚洲日本精品一区二区| 国产又爽又黄无遮挡免费观看|