999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

雙流運動建模-循環(huán)一致性對齊小樣本動作識別算法

2025-03-11 00:00:00胡正平董佳偉王昕宇
燕山大學(xué)學(xué)報 2025年1期

摘要:針對不同場景下動作時空分布不同導(dǎo)致視頻對齊困難,進而影響視頻識別準確度問題,提出對雙流特征進行運動建模和循環(huán)一致性對齊的小樣本動作識別方法,能夠在全局幀和局部塊雙尺度特征建模和對齊高維運動表示。首先基于雙流特征設(shè)計了運動建模框架,重塑視頻序列中動作表示的時空聯(lián)系,實現(xiàn)對視頻動作的準確定位和語義性捕獲;然后,為幫助模型學(xué)習(xí)動作間時空對應(yīng)關(guān)系,引入循環(huán)一致性對齊機制,利用軟最近鄰查詢的方法,高效對齊視頻動作,顯著改善了視頻動作的錯位問題;最后,結(jié)合基于注意力機制的時域交叉匹配模塊,對動作類別進行推理分類。實驗結(jié)果表明,該算法在SSv2、HMDB51、UCF101上分別達到68.6%、77.7%和96.9%的識別精度,實現(xiàn)了對視頻動作的有效識別。

關(guān)鍵詞:小樣本學(xué)習(xí);動作識別;雙流網(wǎng)絡(luò);注意力機制;循環(huán)一致性對齊

中圖分類號: TP391.41 文獻標識碼: A DOI:10.3969/j.issn.1007-791X.2025.01.009

0 引言

隨著數(shù)字化多媒體技術(shù)快速發(fā)展,視頻已經(jīng)成為互聯(lián)網(wǎng)時代數(shù)據(jù)的主要載體形式,如何使計算機等設(shè)備獲得與人類相似的視覺理解能力顯得極為重要。視頻理解中的動作識別憑借其在安防監(jiān)控、自動駕駛、運動檢測、醫(yī)療保健等諸多領(lǐng)域的廣闊應(yīng)用前景[1],得到研究人員的廣泛關(guān)注,逐漸成為深度視頻理解領(lǐng)域[2-3]的研究熱點。

傳統(tǒng)深度學(xué)習(xí)動作識別方法[4]憑借大規(guī)模數(shù)據(jù)集和網(wǎng)絡(luò)大模型等手段,已經(jīng)取得豐富的研究成果。例如Simonyan等[5]提出雙流網(wǎng)絡(luò),將視頻分成空間(RGB)和時間(光流)兩個部分并分別送入兩個卷積神經(jīng)網(wǎng)絡(luò)中,使模型可以同時兼顧視頻的時間流和空間流特征。但雙流網(wǎng)絡(luò)嚴重依賴光流特征建模時間信息,不僅難以利用展開動作的長距離依賴,光流估計本身也面臨高昂的計算成本。為了實現(xiàn)直接訓(xùn)練視頻數(shù)據(jù),簡化訓(xùn)練流程,Tran等[6]首次提出在視頻動作識別中使用的三維神經(jīng)網(wǎng)絡(luò)C3D,利用3D時空卷積從RGB幀序列中直接建模時空信息,能夠更準確地捕捉視頻中的動態(tài)變化,提高模型的訓(xùn)練效率和泛化能力。該方法雖然獲得一定的性能提升,但由于3D卷積龐大的參數(shù)量,對硬件設(shè)備的計算資源要求較高。進一步地,Carreira等[7]提出的I3D,將2D預(yù)訓(xùn)練模型直接擴充后應(yīng)用于3D卷積,有效地拓展了時間維度上的特征表示,顯著降低參數(shù)量和運算資源占用量。但其受限于大批量訓(xùn)練數(shù)據(jù),即在訓(xùn)練時需要大量的標注視頻作為訓(xùn)練樣本。

前面這些方法較好地利用視頻中的時空信息,取得良好的性能表現(xiàn),但仍存在嚴重依賴大規(guī)模且強標記視頻數(shù)據(jù)集的問題。在一些特殊應(yīng)用場景中,可能會有視頻數(shù)據(jù)無法滿足模型訓(xùn)練的情況出現(xiàn),而采集和標記數(shù)據(jù)集難度大且物力和人力成本較高。因此,如何使模型在保證精度的前提下,降低其對大型數(shù)據(jù)集的依賴變得尤為重要。為解決視頻數(shù)據(jù)稀缺的問題,小樣本學(xué)習(xí)[8]逐漸開始被應(yīng)用到視頻動作識別研究中。小樣本學(xué)習(xí)從人類僅利用少量示例數(shù)據(jù),可以快速分辨新類別樣本的能力中提煉演化。它旨在讓運算設(shè)備在有限標注數(shù)據(jù)的情況下,實現(xiàn)有效學(xué)習(xí)和分類推理。

小樣本學(xué)習(xí)在訓(xùn)練過程中參考的數(shù)據(jù)樣本有限,這對建模動作表示提出不小的挑戰(zhàn)。同時,與圖像數(shù)據(jù)[9-10]不同,視頻數(shù)據(jù)[11-13]包含豐富時序信息,實現(xiàn)這些關(guān)鍵信息的高效利用,對于提升小樣本學(xué)習(xí)方法的精度也至關(guān)重要。綜合上述分析,小樣本動作識別目前主要面臨如何高效利用有限數(shù)據(jù)樣本特征和視頻不對齊的動作偏移問題。

為了高效利用有限數(shù)據(jù)樣本特征,Girdhar等[14]使用聚類算法(K-means)對視頻幀特征進行聚類,學(xué)習(xí)視覺詞匯,同時利用聚合向量對視頻幀特征與視覺詞匯作關(guān)系編碼,捕獲動作的時空信息。然而,作為基于聚類的方法,使用過細的粒度為視頻中每幀分配軟聚類,計算復(fù)雜度高,識別效率較低。Wang等[15]提出時域分割網(wǎng)絡(luò)模型(Temporal Segment Networks,TSN),利用雙流網(wǎng)絡(luò)與堆疊RGB差值、堆疊光流場和可變形光流場融合的方法增強動作識別能力。雖然這樣的雙流架構(gòu)結(jié)合空間和時序信息,有助于高效訓(xùn)練深度動作識別模型,但TSN僅關(guān)注幀級建模,無法捕獲細粒度的時序動態(tài)變化。Fu等[16]使用深度引導(dǎo)的自適應(yīng)實例歸一化模塊,能夠根據(jù)每個時間段的重要程度自適應(yīng)地融合不同特征,從而更好捕捉視頻中的關(guān)鍵信息。但是,該方法對深度信息的質(zhì)量要求嚴苛,普通低光照條件或使用一般RGB相機獲得的深度信息無法用于模型訓(xùn)練。Zheng 等[17]提出多層匹配模型,構(gòu)建了全局、時域、空間三級匹配機制,結(jié)合自監(jiān)督對比學(xué)習(xí)和循環(huán)一致性學(xué)習(xí),在1-shot任務(wù)上取得了具有競爭力的性能指標。該方法分層地建立視頻間由粗到細的匹配,高效利用訓(xùn)練數(shù)據(jù)。但其在豐富單個類別信息的同時,也引入了過多冗余信息。

另一方面,為改善動作視頻的不對齊問題,TARN(Temporal Attentive Relation Network)[18]引入時序注意力機制,構(gòu)建關(guān)系模塊和用于學(xué)習(xí)幀級對齊表示距離的深度網(wǎng)絡(luò),展現(xiàn)了在小樣本和零樣本動作識別任務(wù)上的優(yōu)越性能。Cao等[11]提出時序?qū)R模塊,通過對每個視頻獨立提取特征,結(jié)合動態(tài)時間規(guī)劃算法,沿著特征空間的時序?qū)R路徑,計算最短距離,進而尋找潛在的查詢-支持幀對。TA2N(Two-stage Action Alignment Network)[19]則從動作時長錯位和動作演化錯位兩個方面提出一種兩段式動作對齊網(wǎng)絡(luò),并引入多層注意力機制,在不同時間尺度上對動作序列建模,同時關(guān)注到細節(jié)和整體的動作信息,提高對復(fù)雜動作的識別能力。Cao等[20]提出隱式對齊模塊,使用長短記憶網(wǎng)絡(luò)搭配3D卷積嵌入層進行序列建模和語義對齊,有效緩解時間序列變化和不對齊影響視頻相似性比較的問題。上述方法中的對齊僅關(guān)注時序特征,忽視了空間內(nèi)偏移,模型容易受到劇烈變化的動作背景影響,導(dǎo)致分類困難。

為此,本文提出基于雙流運動建模和循環(huán)一致性對齊(Two-Stream Motion Modeling and Cycle Consistency Alignment,TSM2C2A)的小樣本動作識別算法。其中,分別設(shè)計了運動編碼模塊和運動捕獲模塊建模運動的動態(tài)時空表示,進一步提升模型對運動高維表示的感知能力;為解決視頻動作的不對齊問題,引入時空循環(huán)一致性對齊,在全局幀和局部塊雙維度特征上由粗粒度到細粒度逐級對齊,梳理嵌入特征空間,幫助模型學(xué)習(xí)視頻動作的對應(yīng)關(guān)系。同時還引入了時域交叉匹配模塊,將融合后的查詢樣本與支持集樣本間特征信息交互,利用構(gòu)建的特定類原型,實現(xiàn)原型-查詢樣本匹配,以此改善時序偏移對動作分類的影響。

1 雙流運動建模和循環(huán)一致性對齊

1.1 問題提出

為使模型可以較好地泛化到每類只有少量標記訓(xùn)練樣本的新任務(wù),這里采用基于距離度量[21]的元學(xué)習(xí)策略,結(jié)合情景訓(xùn)練,在一組基礎(chǔ)任務(wù)上訓(xùn)練魯棒的小樣本行為識別模型。按照情景訓(xùn)練的方法,可以將每個情景任務(wù)看做是一個C-way K-shot分類問題。每個任務(wù)由支持集S和查詢集Q構(gòu)成。其中,支持集S包含C類動作視頻樣本,且每類中有K個樣本,如Sck={sck1,sck2,…,sckL}(c∈{1,2,…,C}),查詢集Q={q1,q2,…,qL},L表示隨機抽取的視頻幀數(shù)。特別地,在小樣本學(xué)習(xí)中的基礎(chǔ)動作集Dbase和新動作集Dnovel相互獨立,不包含公共動作類。如此,情景任務(wù)訓(xùn)練的目標就是將一個類別未知的查詢視頻判定為支持集N個動作類別之一。

1.2 模型框架

1.3 運動建模

TSM2C2A中運動建模部分主要包含運動編碼模塊和運動捕獲模塊。視頻動作序列中全局幀特征包含有關(guān)運動的豐富時間信息,運動編碼模塊對全局幀的時間上下文進行跨幀建模。局部塊特征編碼組成幀內(nèi)空間外觀,包含運動的局部關(guān)鍵信息,加入運動捕獲模塊對塊特征建模,幫助模型快速定位動作關(guān)鍵區(qū)域。

1.3.1 運動編碼模塊

全局幀F(xiàn)作為視頻的離散表征,無法表達原動作的時序連續(xù)性。因此,為了建立動作的時序聯(lián)系,引入分別由通道MLP和向量MLP[23]組成運動編碼模塊(MEM)。向量MLP在輸入特征向量上操作,有助于捕獲局部特征向量的重要信息,幫助模型學(xué)習(xí)輸入序列的復(fù)雜模式。通道MLP則在輸入特征通道維度上操作,使模型能夠?qū)W習(xí)全局信息以及特征間的區(qū)別性。

Px=APX(P),"""""""""""(3)

Py=APY(P),"""""""""""(4)

式中,APX(·)、APY(·)分別是水平和垂直均值池化操作,Px∈Rp×1×D、Py∈R1×p×D是局部塊特征P沿水平和垂直兩個方向均值池化成的方向感知特征圖,每個特征圖都保存了輸入特征的空間位置信息,即坐標信息嵌入。為凸顯對局部塊中關(guān)鍵信息的重視程度,加入坐標注意力生成機制。初始化權(quán)重值Wx,Wy,Wa∈RD×D,并將相應(yīng)形式的特征圖映射為query-key-value三元組:

1.4 循環(huán)一致性對齊

為了降低視頻不對齊對于視頻度量的影響,這里提出基于數(shù)據(jù)分布的時空循環(huán)一致性對齊,主要包含TCCA和SCCA兩部分。TCCA和SCCA通過循環(huán)對齊查詢樣本與同類動作的支持集樣本,高效利用樣本數(shù)據(jù),學(xué)習(xí)動作視頻序列上的對應(yīng)關(guān)系。

1.4.1 時間循環(huán)一致性對齊

學(xué)習(xí)一個更好的嵌入空間。

1.4.2 空間循環(huán)一致性對齊

運動捕獲模塊的空間運動嵌入采集了動作實例的關(guān)鍵區(qū)域,為SCCA提供動作的高維空間表示。SCCA在支持集和查詢集樣本中分別查詢各自的軟最近鄰,在一維相對空間位置上實現(xiàn)對齊。

函數(shù),最大程度地對齊視頻序列中具有空間循環(huán)一致性的局部塊。

綜上,時空循環(huán)一致性對齊從粗粒度的全局幀到細粒度的局部塊特征對齊,高效學(xué)習(xí)動作間時空聯(lián)系和有效梳理特征嵌入空間,提高類內(nèi)動作相似性與類間動作差異性。

1.5 時域交叉匹配器

為改善視頻中動作偏移和時序依賴的問題,提出TCM模塊,采用注意力機制將查詢樣本幀對與特定類支持集樣本幀對進行交叉匹配,構(gòu)建特定類查詢原型。在TCM前,先將SCCA和TCCA對齊后的時空特征作融合操作,定義融合后特征為

為了構(gòu)建特定類查詢樣本,如圖6所示比較查詢樣本對表示與所有支持集樣本,初始化queryvalue-key的三元組矩陣:

計算查詢樣本Q∈RL×D與支持集視頻k的第m樣本對Skm∈RL×D的相關(guān)程度:

Ckmp=LayerN(Y·Qp)·LayerN(K·Skm),(20)

這里的LayerN(·)是層正則化操作。接著應(yīng)用Softmax操作獲得注意力圖:

把Value矩陣與支持集樣本組合,構(gòu)造查詢樣本的特定類原型:

最終計算動作類原型與初始動作特征的距離:

綜合以上,本文提出的TSM2C2A算法主要包含運動建模、時空循環(huán)一致性對齊和時域交叉匹配,使用以下聯(lián)合損失函數(shù)進行訓(xùn)練,改善視頻嵌入空間的不對齊問題和重建運動的時空聯(lián)系:

L=LTCM+λ0LTCCA+λ1LSCCA,"""""""(26)

這里λ0和λ1兩個超參數(shù),主要用于平衡TCM的元訓(xùn)練與循環(huán)對齊損失值,關(guān)于這兩個超參數(shù)的數(shù)值設(shè)置,會在后面的實驗中探究。

2 實驗

2.1 實驗細節(jié)

這里在三個數(shù)據(jù)集上對模型進行了驗證實驗: Something-Something v2(SSv2)、HMDB51、UCF101。關(guān)于訓(xùn)練集、驗證集、測試集的劃分,SSV2按照OTAM[11]的類別劃分協(xié)議,以64/24/12的比例抽取的100類動作視頻;HMDB51和UCF101也按照ARN[28]的類別劃分協(xié)議,以31/10/10、70/10/21的比例分別抽取51、101類動作視頻。

輸入的視頻序列尺寸調(diào)整為256×256。按照TSN[15]的視頻采樣規(guī)則,從原始視頻中均勻抽取視頻圖像幀數(shù)L=8。在訓(xùn)練階段,針對數(shù)據(jù)集作隨機裁剪224×224像素和隨機水平翻轉(zhuǎn)的方式等數(shù)據(jù)增強手段。在驗證階段,只使用中間部分。實驗中使用基于ImageNet預(yù)訓(xùn)練的ResNet50卷積神經(jīng)網(wǎng)絡(luò),作為特征提取器,特征維度D=2 048,p=4。CSA輸入的局部空間塊,數(shù)目設(shè)為16。運動編碼模塊和運動捕獲模塊中所有可學(xué)習(xí)的權(quán)重矩陣都是全連接層,H(·)也是由3個全連接層構(gòu)成。時空特征融合中的權(quán)重φ0和φ1分別設(shè)為0.7、0.3,TCCA和SCCA的損失函數(shù)中的正則化參數(shù)設(shè)為0.000 1。TCM中的q-k-v矩陣尺寸均設(shè)為1 152。優(yōu)化器的學(xué)習(xí)率設(shè)定為0.001,訓(xùn)練75 000個任務(wù)次數(shù),同一情景任務(wù)每迭代16次,進行平均梯度并反向傳播。

2.2 對比實驗與分析

為驗證方法的有效性,在表1中展示TSM2C2A與現(xiàn)有小樣本動作識別算法在SSv2、HMDB51和UCF101數(shù)據(jù)集上分別針對“5-way 1-shot”和“5-way 5-shot”任務(wù)的準確率對比并給出相關(guān)算法的時空特征應(yīng)用情況。其中,加粗的是當(dāng)前任務(wù)下最佳指標,括號內(nèi)是TSM2C2A與最佳指標的差值。OTAM[11]和TA2N[19]是與本文最相關(guān)的方法,相較于它們,TSM2C2A更有效地利用了時空特征,分別對全局幀和局部塊對齊,豐富了動作的高維表示。TSM2C2A在HMDB51和UCF101上的5-shot情況下要強于這兩者,分別達到了77.7%和96.9%。HMDB51和UCF101的場景信息對于理解動作類別非常有幫助,TCCA和SCCA對齊視頻的同時還掌握了有價值的場景信息。在SSv2數(shù)據(jù)集上效果也十分理想,5-shot時達到了68.6%的分類準確度,相較于STRM[13]有0.5%的提升。1-shot情況下,只在UCF101上與STRM[13]持平,另外兩個數(shù)據(jù)集上要落后于目前表現(xiàn)最好的HCL[17]和TA2N[19]。由于單shot不利于構(gòu)造類原型,因此TCM會更適合多shot任務(wù)。值得注意的是,表1 中數(shù)據(jù)反映越來越多的方法關(guān)注于時空特征的關(guān)系建模并且都達到了較好的效果。這說明,TSM2C2A的雙特征流的運動建模和循環(huán)對齊對于提升動作識別分類精度的思路是正確的。綜合以上分析,TSM2C2A能夠有效提升動作識別的性能指標。

2.3 消融實驗

2.3.1 TSM2C2A的可插性研究

為了驗證算法中對齊模塊的可插性,在表2中總結(jié)TSM2C2A中TCCA和SCCA對于ProtoNet[21]和TRX[27]等基線方法插入影響。從表中數(shù)據(jù)不難發(fā)現(xiàn),這兩個關(guān)鍵模塊的插入都對模型性能有明顯提升。特別地,當(dāng)只有TCCA或SCCA其中一個時,TCCA的表現(xiàn)要明顯強于SCCA。例如,在ProtoNet[21]的1-shot和5-shot上,TCCA要高出0.8%和0.4%。這應(yīng)歸結(jié)為SSv2包含了大量有關(guān)動作持續(xù)時間、速度、節(jié)奏等時序變化,TCCA可以高效地利用這些信息,對嵌入空間進行有效梳理,降低度量視頻間相似性的誤差。另外,TCCA和SCCA的堆疊也會進一步地提升分類效果,在TRX[27]的5-shot上分別提升了1.8%、3.9%。這表明這兩個關(guān)鍵模塊在適應(yīng)宿主算法的同時,具有很好的互補性和兼容性。

2.3.2 損失函數(shù)的不同權(quán)重對比

為了解聯(lián)合損失函數(shù)中權(quán)重的取值對模型性能的影響以及尋找合適的權(quán)重組合,這里對TCCA和SCCA分別使用不同的權(quán)重值,通過實驗對比,最終在SSv2驗證集上的分類準確率統(tǒng)計結(jié)果如圖7所示。從變化趨勢來看,TCCA權(quán)重值相對越大時,性能就越好,而SCCA則相反。值得注意的是,λ0保持不變時,只關(guān)注λ1的取值,它的變化對于模型的影響更明顯。例如,若分別固定λ0和λ1其中的一個值,而觀察另一個值在0.01到0.5的范圍內(nèi)變化時,SCCA的對性能影響的變化幅度達到9.3%,而TCCA僅為5.5%。因此,綜合比較不同取值組合的性能表現(xiàn),在后續(xù)實驗中設(shè)定λ0=0.5、λ1=0.01。

2.3.3 不同注意力建模對比

為了深入研究運動捕獲模塊中CSA對幀內(nèi)空間語義建模的影響,這里對坐標自注意力(CSA)、自注意力[31](Self-Attention,SA)、多頭注意力[31](Multi Head Attention,MHA)在SSv2和UCF101上進行對比,實驗中MHA的頭數(shù)分別設(shè)置為8、16、32。表3中數(shù)據(jù)顯示,SA與CSA的性能相近,在SSv2上1-shot和5-shot中兩者相差不超過0.3%;UCF101上1-shot中,CSA相較SA高出0.9%,5-shot中指標相同。這0.9%的差距是因為CSA中雙角度池化使其能夠捕獲一個空間方向上的長距離依賴關(guān)系,還保留了另一空間方向上的位置信息,而處理UCF101的數(shù)據(jù)時主要依靠空間特征,這有助于CSA更準確定位興趣區(qū)域。相比之下,MHA則表現(xiàn)欠佳,三種多頭注意力的性能都低于40%,極易出現(xiàn)過擬合問題。因此,在當(dāng)前實驗環(huán)境下,MHA并不適合完成動作建模任務(wù),而CSA更適合用來定位動作區(qū)域。

2.3.4 TSM2C2A增益分析

為了探索TSM2C2A中模塊的增益影響,下面以TRX[27]為基線,具體分析TSM2C2A的模塊性能增益。首先,在圖8中利用t-SNE可視化了框架加入前后,query和support set的嵌入特征空間,每種顏色代表一個獨立的類別。圖8(a)中,數(shù)據(jù)交錯分布,多個類別混雜在一起,難以直接劃分開來。而在對齊后的圖8(b),這種情況得到明顯改善:相同類別更加聚集,不同類別則更加遠離。這表示TSM2C2A可以很好地對齊視頻,使模型學(xué)得更一致的特征表示。接著,在圖9中還進行了TCM中查詢和支持集匹配程度可視化。圖9(a)是TRX[27],匹配程度較為平均,區(qū)分度不高。而圖9(b)的TSM2C2A,在全局范圍內(nèi)都有區(qū)分度極高的元組對匹配,顯著提升了query與support set的匹配效率。例如,TSM2C2A在2-4和4-5的元組對上有最大的匹配值,這表示TSM2C2A可以對視頻動作建立長距離的聯(lián)系,可以有效解決動作的時間偏移問題。關(guān)于TSM2C2A在SSv2數(shù)據(jù)集上部分動作類的分類提升,如圖10所示。TSM2C2A在圖中的動作類別上(包含但不僅限于)相較于TRX[27]都有明顯提升,尤其pushing something next to something、opening something、holding something next to something等類別上,分類效果增強15%以上。這說明TSM2C2A的運動建模和循環(huán)一致性對齊能夠幫助模型學(xué)得高維動作表示和增強對視頻的理解,從而提升小樣本分類的性能。

2.4 算法分類效率對比

為了解TSM2C2A與其他小樣本動作識別方法在分類效率上的差異,在表4中,將TSM2C2A分別與OTAM[11]、TRX[27]在SSv2數(shù)據(jù)集上的5-way 3-shot任務(wù)設(shè)置下,就模型參數(shù)量、每秒浮點運算次數(shù)(FLOPS)、訓(xùn)練耗時、推理耗時和精確度等指標進行了比較實驗。由表4中數(shù)據(jù)可以看出,與另外兩種方法相比,TSM2C2A由于引入了額外的參數(shù)(MEM和MCM)和大量的對齊操作(TCCA和SCCA),直接導(dǎo)致模型在模型參數(shù)量和計算復(fù)雜度上的表現(xiàn)不佳。盡管如此,從推理時間和分類準確度兩項指標來看,TSM2C2A顯然表現(xiàn)更加均衡。例如,以ResNet-50為特征提取器時,TSM2C2A相較TRX[27]推理耗時慢4.2 ms,但識別精度卻要高出2.6%,達到了51.3%。因此,綜合兩項數(shù)據(jù)來看,TSM2C2A更有競爭力。

2.5 循環(huán)一致性對齊可視化

為了直觀展示TCCA和SCCA的對齊效果,在圖11和圖12中分別可視化了SCCA、TCCA。其中,圖11對SCCA在UCF101上可視化了對齊效果,框選區(qū)域就是對齊的空間軟最近鄰。SCCA集中在空間內(nèi)不同局部塊特征間檢索軟最近鄰,鎖定動作主體的空間區(qū)域,如圖11(a)“投籃”的查詢集中第1、3幀與支持集中的第1、3幀。在圖12中對TCCA在SSv2上進行了對齊可視化,可以看出,TCCA能夠克服時間偏移,準確查詢到軟最近令鄰,實現(xiàn)對齊。例如圖12(a)“將某物從左側(cè)移到右側(cè)”中雙向箭頭指向的第3、6、7、8幀和圖12(b)“合上某物”中第1、5、8幀。由以上實驗結(jié)果可以看出,循環(huán)一致性對齊在全局幀和局部塊兩個特征維度上對齊視頻,解決了動作視頻的對齊問題。盡管TCCA可以有效對齊查詢樣本的最近鄰幀,但依然存在問題。例如,由于動作類內(nèi)差異不足或視頻采樣幀序列方法的缺,在圖12中多次出現(xiàn)單查詢樣本對應(yīng)多個軟最近鄰的情況。針對這些問題,需要展開深入研究。

3 結(jié)論

針對小樣本動作識別中由于視頻不對齊的動作錯位導(dǎo)致度量學(xué)習(xí)不可靠的問題,提出雙流運動建模和循環(huán)一致性對齊算法,從全局幀和局部塊兩個特征流分別運動建模和循環(huán)對齊。實驗結(jié)果表明,TSM2C2A中的運動建模能有效重塑動作的時空關(guān)系;循環(huán)一致性對齊的方法則可以有效梳理特征嵌入空間,具有較好的兼容性和可移植性,能夠快速移植到其他方法中,并顯著提升宿主算法性能。本文提出的動作識別方法在運動特征建模和視頻對齊上效果顯著,對于小樣本動作識別算法研究具有借鑒意義。

主站蜘蛛池模板: 日韩毛片基地| 在线无码九区| 亚洲aⅴ天堂| 欧美黑人欧美精品刺激| 精品一区二区三区无码视频无码| 欧美19综合中文字幕| 亚洲AV电影不卡在线观看| 国产视频只有无码精品| 日韩A∨精品日韩精品无码| 久久综合九色综合97网| 久草网视频在线| 成人午夜免费视频| 欧美视频在线不卡| 99re在线免费视频| 特级做a爰片毛片免费69| 国产精品第一区| 日韩av在线直播| AV在线天堂进入| 亚洲欧美日韩综合二区三区| 这里只有精品在线播放| 国产一区二区三区免费| 成·人免费午夜无码视频在线观看| 无码一区18禁| 国产精品欧美亚洲韩国日本不卡| 亚洲伊人电影| 国产一级毛片网站| 色精品视频| 三上悠亚精品二区在线观看| 国产性生大片免费观看性欧美| 国产美女精品一区二区| 国产在线啪| 亚亚洲乱码一二三四区| 亚洲男人在线| 亚洲成人播放| 欧美人与牲动交a欧美精品| 国产日韩欧美在线视频免费观看| 国产成人免费| 欧美午夜在线播放| 国产成人做受免费视频| 国产精品视频a| 国产微拍一区二区三区四区| 国产精品美女网站| 成人免费网站久久久| 99人妻碰碰碰久久久久禁片| 国产亚洲视频免费播放| 女同久久精品国产99国| 国产精品久久自在自线观看| 青草视频免费在线观看| 亚洲人免费视频| 国产美女免费网站| 午夜精品一区二区蜜桃| 波多野结衣一区二区三区四区视频| 国产精品夜夜嗨视频免费视频| 五月天香蕉视频国产亚| 国产免费久久精品99re丫丫一| 亚洲天堂网在线播放| 一级毛片免费观看久| 亚洲国产成人久久精品软件| 国产精品久久久久久久伊一| 国产精品嫩草影院视频| 草草影院国产第一页| 国产黄在线免费观看| 大学生久久香蕉国产线观看| 精品精品国产高清A毛片| 亚洲国产成人综合精品2020| 日韩经典精品无码一区二区| 在线精品欧美日韩| 日韩欧美中文在线| 亚洲中文字幕无码爆乳| 国产99免费视频| 曰AV在线无码| 亚洲品质国产精品无码| 国产JIZzJIzz视频全部免费| 波多野结衣在线se| 国产在线精品99一区不卡| 美女黄网十八禁免费看| 国产成人综合日韩精品无码不卡| 四虎亚洲国产成人久久精品| 亚洲中文字幕日产无码2021| 国产在线八区| 91伊人国产| 国产成人综合亚洲网址|