999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

注意力機制的TS-PVAN雙流動作識別

2024-02-27 09:02:14郭佳樂胡天生史士杰陳恩慶
小型微型計算機系統 2024年2期
關鍵詞:動作特征模型

郭佳樂,胡天生,史士杰,陳恩慶

(鄭州大學 電氣與信息工程學院,鄭州 450001)

0 引 言

近年來,基于深度神經網絡的視頻級人體動作識別作為計算機視覺領域的研究熱點,已經取得了巨大進展.不同場景下與視頻動作識別相關的應用也越來越廣泛[1],例如視頻監控、自動駕駛、智慧醫療等.

目前,基于卷積神經網絡的動作識別主要通過兩種方法實現,一種是使用雙流網絡,分別將RGB幀與光流數據作為兩流的輸入以提取動作的時空信息.另一種是使用3D卷積[2]或時間卷積[3]從RGB幀學習運動特征,然而這種方式通常會帶來較高的計算成本.

雙流網絡是動作識別領域中識別效果較好的一種方法.Simonyan[4]等人首先提出了具有時空結構的雙流網絡,以RGB幀作為空間流的輸入,以堆疊的連續幾幀光流作為時間流的輸入,分別提取動作發生過程中的空間信息和時間信息,空間信息包括外觀特征、位置等,時間信息則包括通過光流表示的相鄰幀之間的運動特征.然而,雙流網絡無法利用視頻長期時間信息,Wang[5]等人提出一種時間分割網絡(TSN)以對視頻長時間結構建模,但該網絡僅在最后階段進行了時間融合,同樣未能捕獲更精細的時間結構,TSN網絡模型結構如圖1所示,將視頻分為3段,分別經過空間流與時間流網絡,最后進行雙流融合.此外,傳統的雙流方法通常采用相同的卷積網絡對RGB與光流數據進行處理,忽略了不同卷積網絡對不同模態數據的處理能力不同,Bai[6]等人提出了一種時空異構雙流網絡模型,為雙流設計不同的卷積網絡.

圖1 TSN網絡結構Fig.1 TSN Network Structure

3D卷積的方法也通常用于視頻動作識別任務中,三維卷積主要是對二維卷積在時間維度上進行擴展,能夠同時從視頻中獲取視頻動作的空間和時間特征.C3D是一種經典3D卷積網絡,該網絡中所有3D卷積核的大小均為3×3×3,并通過實驗證明將卷積核設置為三維的情況下提取特征的能力更強.由于ResNet網絡的發展,提出一種三維殘差網絡3DResNet,將三維卷積神經網絡結合殘差網絡ResNet而構成,將ResNet中的殘差模塊引入到三維卷積網絡中,并通過實驗驗證了模型的有效性.

在深度學習領域中,模型通常需要接收和處理大量的數據,然而在特定的某個時刻,往往只有少部分的某些數據是重要的,這種情況就非常適合使用注意力機制來解決問題,能夠關注有用的信息而忽略無效內容.近年來,注意力機制也被廣泛應用在動作識別領域中,根據注意力施加的維度大致可以劃分為通道注意力和空間注意力兩種,典型的通道注意力網絡如SENet[7]、GCNet[8]等,通過對各個特征通道的重要程度建模,針對不同的任務增強或抑制不同的通道,CBAM[9]雙重注意力機制將通道注意和空間注意相結合,能夠顯著提升模型的性能.此外,目前基于雙流網絡的研究工作有,Liu[10]等人提出一種殘差時空注意網絡(R-STAN),使網絡更加關注區分性的時間和空間特征.Huang[11]等人提出一種壓縮視頻識別的壓縮域雙流網絡(IP TSN),大大提高效率和精度.Du[12]等人基于主成分分析方法,提出一個交互感知自我注意模型(ISTPAN),能夠有效學習注意圖.Shou[13]等人針對光流提供的運動表示,提出一種能實現更具辨別力運動線索的生成器網絡.

由于雙流網絡與注意力機制的發展,本文發現兩個不足之處:1)TSN雙流網絡中簡單地使用卷積網絡提取特征,僅關注于動作的局部特征,忽略了視頻動作中空間長距離依賴關系的重要性,比如在打籃球的動作中,需要關注手部和腳步的同步變化,如果缺乏長距離動作變化關系,則可能被誤判為打招呼或跑步,而注意力機制的引入有利于獲取動作的長距離依賴關系;2)卷積網絡處理RGB幀時空間維度的降低通常會帶來特征損失,視頻背景噪聲也會對動作識別的準確性造成影響,而噪聲信息也可以通過注意力的方式弱化其不良影響.因此,如何利用注意力機制,設計更加高效的網絡以提取豐富的動作空間特征對于視頻動作識別任務具有重要意義.

本文針對以上兩個問題,提出一種注意力機制的TS-PVAN雙流動作識別模型.在TSN雙流框架的基礎上,為空間流設計P-VAN網絡作為空間主干網絡,主要由視覺注意網絡[14](Visual Attention Network,VAN)與極化自注意力模塊[15](Polarized Self-Attention,PSA)構成,結合異構的思想,時間主干網絡仍選取卷積網絡BN-Inception[16]處理光流數據.該模型能夠捕獲空間上的長距離依賴關系,有利于動作特征的提取,同時減少空間維度降低造成的特征損失,降低視頻背景噪聲對識別效果的影響,最終提升動作識別模型的準確率.此外,在兩個數據集HMDB51[17]和UCF101[18]上的實驗結果驗證了本文所提模型的有效性.下面首先介紹VAN網絡,其次介紹極化自注意力模塊PSA,然后介紹基于注意力機制的TS-PVAN雙流動作識別模型,最后給出實驗結果和分析.

1 注意力機制的TS-PVAN雙流動作識別

本文提出一種注意力機制的TS-PVAN雙流動作識別模型,其網絡結構如圖2所示.其中,處理RGB幀的空間流主干網絡P-VAN由視覺注意網絡[14](VAN)與極化自注意力模塊[15](PSA)構成,結合異構的思想,時間流仍選用BN-Inception[16]卷積網絡處理光流數據.本文將給定的動作視頻均勻分成k段(設置k=5),再抽取其視頻幀作為網絡的輸入,然后提取動作特征并分類,最后融合雙流網絡的時空特征,得到動作的最終識別準確率.本節首先介紹視覺注意網絡VAN的優點及基本結構,再介紹極化自注意力模塊PSA的構成,最后介紹P-VAN網絡以及注意力機制的TS-PVAN雙流動作識別模型.

圖2 注意力機制的TS-PVAN雙流動作識別模型Fig.2 TS-PVAN two-stream action recognition model based on attention mechanism

1.1 視覺注意網絡(VAN)

近年來,由于卷積神經網絡具有強大的特征提取能力,成為計算機視覺領域的主干網絡之一,應用于各種視覺任務中能顯著提升模型性能,包括目標檢測[19]、圖像分類[20]、姿態估計和語義分割等領域.最近的研究表明,注意力機制可以看作是一種自適應選擇輸入特征的過程.文獻[21]最早提出將注意力機制應用于視覺領域中,進行圖像分類任務.文獻[22]將注意力機制應用在自然語言處理領域,通過構建注意力模型來進行機器翻譯,并且取得了效果的提升.此外,自注意力模型[23](Transformer)的提出完全舍棄了RNN和CNN這樣的卷積網絡結構,只使用注意力機制進行機器翻譯,達到的效果也不錯.自注意力機制的關鍵問題是生成注意圖,以表示不同點的重要性,得益于其強大的建模能力,基于Transformer[23]的視覺主干網絡迅速應用到各類計算機視覺領域中,并取得了不錯的效果,比如在ViT[24]方法進行圖像分類任務時,當訓練數據集足夠大時,分類準確率能夠超過resnet網絡的最好結果,在VAN網絡做圖像分類任務時,準確率相比resnet提升了6.3%,驗證了自注意力機制相比卷積網絡的有效性.

針對第一個問題,如何能夠避免由忽略長距離動作特征關系而引起的誤判問題,研究發現卷積神經網絡與自注意力模型中的不足之處,卷積方法主要提取局部特征,缺乏適應性和長程依賴性,而自注意力方法雖然能夠捕獲長程依賴關系并具有空間維度的適應性,但是忽略了局部特征及通道適應性,結合兩者的優點能夠有效地解決所提問題.Guo[14]等人提出一種視覺注意網絡(Visual Attention Network,VAN),主要由大核注意模塊(Large Kernel Attention,LKA)構成,通過分解一個大核卷積運算以捕獲長程關系,該模塊結合了卷積網絡與自注意力的特點,同時具有局部感受野、長程依賴性、空間適應性及通道適應性等優點,能夠在視覺任務中達到更好的性能.

因此,本文考慮使用視覺注意網絡VAN替換原來采用的卷積網絡模型,以解決卷積網絡僅關注動作的局部特征,忽略長距離特征信息而帶來的相似性動作誤判問題.值得注意的是,本文改進的部分僅針對用于提取動作特征的空間主干網絡.VAN網絡主要具有4個階段的層次結構,其中一個階段的基本結構如圖3所示.

圖3 VAN網絡結構Fig.3 Network structure of VAN

由圖3網絡結構可知,該網絡結構由底部輸入數據,依次向上傳輸,其中L表示一個階段中虛線框中所選部分模型結構的疊加次數.在VAN的每級結構中,首先對輸入數據進行下采樣操作,并使該階段中的其他層均保持相同的輸出大小,即空間分辨率和通道的數量總和不變,當輸入數據的形狀尺寸為H×W×C時,每級網絡的輸出空間分辨率分別降低為H×W的1/4,1/8,1/16和1/32倍,同時輸出通道數量隨著分辨率的降低而增加,其中,H和W分別表示輸入圖像的高度和寬度.然后,再將輸出部分經過BN(Batch Normalization)層、GELU激活函數、大核注意模塊LKA和卷積前饋網絡CFF(Convolutional Feed-Forward)按L組順序疊加的結構以提取特征.最后,在每個階段的末端應用Layer Norm層.

VAN網絡中最關鍵的部分是LKA模塊,其結構如圖4所示.其中DW-Conv(Depth-Wise Convolution)深度卷積即空間局部,可以利用圖像局部上下文信息,用于提取視頻動作的局部特征,DW-D-Conv(Depth-Wise Dilation Convolution)深度擴展卷積即空間長程卷積,提供了深度方向的擴張卷積,有利于捕獲動作中長距離的依賴關系,Attention注意力機制和1×1 Conv的結合實現了網絡的空間適應性及通道適應性.LKA模塊可以表示為:

圖4 LKA網絡結構Fig.4 Network structure of LKA

Attention=Conv1×1(DW-D-Conv(DW-Conv(F)))

(1)

Output=Attention?F

(2)

其中F∈RC×H×W是輸入特征,Attention∈RC×H×W表示注意力圖,圖中的值代表每個特征的重要性,?代表元素乘積.

如上所述,LKA模塊結合了卷積與自注意力模型的優點,能夠獲取空間動作的長距離關系,利于解決本文所提出的卷積網絡忽略動作長距離依賴關系進而導致誤判的問題.

1.2 極化自注意力模塊(PSA)

針對第2個問題,本文發現在卷積操作提取RGB幀信息的過程中,通常會降低空間維度以提高通道維度,然而空間維度的降低不可避免地會造成空間特征損失,同時視頻背景噪聲也可能會對動作識別的準確性造成消極影響,因此本文考慮在將動作視頻輸入視覺注意網絡VAN進行特征提取之前,首要處理好特征損失的問題以及減少背景噪聲帶來的負面影響.

研究發現像素級任務中能夠對高分辨率輸入或輸出特征的遠距離依賴關系進行建模,并且能估計其高度非線性的像素語義,是計算機視覺領域的一項重要任務[25].其中,像素回歸問題中相同語義的像素外觀和圖片形狀是高度非線性的,目標是將具有相同語義的每個圖像像素映射到相同的分數,例如將背景像素分別映射到0,將所有前景像素分別映射到它們的類索引.受此啟發,本文認為像素級任務中更關注于圖像的細節內容,回歸任務可以有效增強或抑制部分特征,因此本文考慮利用像素級任務中的方法解決視頻動作識別中的問題.

Liu[15]等人提出一種極化注意力模塊(Polarized Self-Attention,PSA),用于突出或抑制部分特征信息,這與光學透鏡過濾光的作用相似,由于攝影中橫向總會有隨機光的產生影響圖像質量,而極化濾波僅能通過與橫向正交的光,這樣便可以提高照片的對比度.極化注意力模塊PSA中主要有兩個重要設計部分,第1點是極化濾波,使得圖像在一個方向上的特征能夠完全折疊,同時在其正交方向上保持高分辨率,其主要作用是在通道和空間兩個分支中,分別保持較高的分辨率,降低由空間維度降低帶來的特征損失.第2點是增強部分,采用Softmax進行歸一化,再使用Sigmoid函數增加注意力的動態范圍,能夠更加真實的擬合輸出分布.本文使用并聯形式的PSA模塊,主要有兩部分組成,左邊為通道分支,右邊為空間分支,分別以C×H×W作為輸入特征,其結構如圖5所示.

圖5 PSA模塊結構Fig.5 Module structure of PSA

由圖5可知,PSA模塊主要有通道和空間兩個分支.在通道分支中,先將輸入特征X經過1×1的卷積后轉換為Q和V,Q的通道被全部壓縮,而V的通道保持C/2.經過Softmax函數后對Q的信息進行增強,并增加注意力的范圍,然后將Q和V做矩陣乘法運算,再經過1×1卷積、LN層將通道數量升為C,最后使用Sigmoid函數進行動態映射,使所有參數保持在0~1之間.在空間分支中,不同的是將Q特征的空間維度壓縮為1×1的大小,而V特征的空間維度保持為H×W,同樣采用Softmax增強Q的信息,以及Sigmoid使得參數在0~1之間.

如上所述,極化自注意力PSA模塊能夠降低由空間維度降低造成的特征損失,同時可以實現減小圖像的背景噪聲,對于有效解決本文所提視頻動作識別任務中的問題起著重要作用.

1.3 注意力機制的TS-PVAN雙流動作識別

由于傳統的卷積神經網絡主要提取動作的局部特征信息,缺乏通道、空間的適應性及長程依賴性,雖然在卷積網絡中加入通道和空間注意力可以實現通道及空間適應性,但同樣缺乏長程依賴性.有關研究表明自注意力模型能夠對長程依賴關系進行建模,這在視覺任務中非常重要.同時本文注意到2.1節介紹的VAN網絡結合了卷積網絡與自注意力模型的優點,不僅能夠提取動作的局部特征、實現通道及空間的適應性,還能捕獲空間長距離依賴關系,適用于各類計算機視覺任務,并有利于解決處理視頻動作識別時只關注局部特征,忽略動作長距離關系而導致的誤判問題.

受此啟發,本文基于TSN雙流模型的框架,首先設計了一種時空特征融合的TS-VAN模型.模型采用VAN網絡替換簡單的卷積網絡作為空間流的主干網絡,目的是處理RGB幀從而提取視頻動作中更豐富的空間特征.結合異構的思想,模型時間流部分仍采用BN-Inception卷積網絡處理光流數據提取時間信息.最后融合雙流網絡的時空特征.模型可以通過提高對RGB幀中空間特征信息的利用,更好地融合時空特征,從而提高動作識別準確率.其中,VAN網絡的四級結構信息設置如表1所示,C為該級的通道數,L為部分結構的疊加次數.

表1 VAN結構設置Table 1 Structural settings of VAN

此外,本文注意到使用VAN網絡處理RGB視頻幀時,通常需要降低空間維度、提高通道維度,這種方式可能會造成特征信息的丟失.其次,空間網絡主要提取的是RGB幀的外觀、位置及形狀特征,而這些信息對圖像背景噪聲比較敏感.

針對以上問題,本文引入極化自注意力機制,從而提出一種注意力機制的TS-PVAN雙流動作識別模型.本文將2.2節介紹的極化自注意力PSA模塊插入VAN網絡的前端,構成P-VAN作為空間流的主干網絡.由于PSA模塊包括通道分支和空間分支兩個部分,并采用自注意機制獲取注意力權重,因此可以視為是對VAN網絡的增強注意.TS-PVAN動作識別模型在捕獲長距離動作特征信息的同時,可以在空間網絡中提取高空間分辨率下的動作特征,減少由空間維度降低造成的特征損失,同時減小視頻背景噪聲對識別結果的影響,實現在空間流中提取更豐富的視頻動作空間特征,以達到增強時空特征融合的效果,最終提高動作識別準確率.

TS-PVAN模型結構如圖2所示.本文采用與TSN相同的時間分割策略,并利用異構的方式,在空間網絡中,經過實驗驗證后將給定的視頻v按其時間長度平均分為k段(本文設置k=5),再從每段截取的視頻中隨機抽取1幀,組成短片段{s1,…,sk}.時間網絡的抽幀方式與其相同,只是每段抽取的是連續5幀光流作為輸入.然后將短片段中的si分別作為雙流網絡的輸入,得到其動作類別得分,再將s1~sk的類別得分進行均值融合.最后使用Softmax函數,計算整個視頻分別對應于每個類別的概率.計算過程可以表示為:

(3)

其中,S表示為Softmax函數,M表示均值融合函數,F(si;W)表示以W為參數的網絡模型函數,計算得到si的初始分類得分.融合結果的損失函數定義如下:

(4)

其中,n表示動作類別總數,yi∈{0,1}表示第i類動作的真實標簽,mi為該類動作的初始得分.反向傳遞誤差時,可得損失函數L相對網絡參數W計算的梯度可表示為:

(5)

在模型訓練時,將視頻數據輸入到網絡模型中,然后使用k個片段的融合結果通過反向傳遞誤差以更新網絡的參數,最終訓練得到視頻級動作識別網絡參數值,以相同的方式對訓練后得到的模型進行測試,得到該動作識別模型的準確率.

2 實驗分析

本節首先介紹實驗所用數據集,其次詳述實驗的訓練與測試過程,最后與現有雙流動作識別方法的結果進行比較,驗證了所提模型的有效性.本文所有實驗均在一臺Linux服務器上進行,其操作系統為Ubuntu 16.04,搭載4塊RTX2080Ti GPU,所用軟件包括python開發環境和pytorch框架等.

2.1 數據集

本文在HMDB51和UCF101兩個大型動作識別數據集上驗證所提模型的有效性,這兩個數據集常用于雙流網絡的動作識別任務中,包含RGB及光流兩種模態的數據,本文所對比的雙流方法也均給出這兩個數據集的實驗結果.Kinetics數據集多用于單流網絡的方法,只對RGB數據進行處理的情況,對本文而言缺乏可對比性.因此,本文選用HMDB51和UCF101數據集進行實驗,便于對比分析模型性能.

其中,UCF101數據集包含101個動作類別,共有13320個視頻,視頻來自YouTube中注釋的視頻片段,每個視頻時長約在10秒內.HMDB51數據集包含51個動作類別,共有6766個視頻,主要來自YouTube、Google視頻等,可分為5個大類:1)常見面部動作:如微笑、交談;2)復雜面部動作:如吃、喝;3)常見肢體動作:如爬、倒立;4)復雜肢體動作:如騎馬、射弓;5)多人交互動作:如擁抱、握手等,其部分動作示意圖如圖6所示.本節實驗按照文獻[5]中的標準評估協議將數據集劃分為訓練集與測試集.

圖6 HMDB51數據集部分動作示意圖Fig.6 Schematic diagram of actions of the HMDB51 dataset

2.2 實驗設置

預訓練策略:近年來,大量研究證實,使用預訓練模型的權重初始化訓練網絡的參數能夠有效提高網絡的識別準確率,因此,本文使用在ImageNet[26]數據集上經過預訓練得到的VAN模型及BN-Inception模型的參數對雙流網絡的權重進行初始化,對于RGB數據,VAN網絡的預訓練模型輸入的卷積層的卷積核尺寸為三通道的,所以可以直接初始化網絡權重,而光流數據的通道數為10,不能直接初始化,光流數據有兩個方向即水平和垂直,采用的是連續5幀光流數據作為網絡的輸入,因此,首先將卷積核的三通道經過復制改為通道數為10的卷積核,再使用修改后的模型參數對網絡模型進行初始化.

訓練:本文將數據集劃分為3個部分,分別進行訓練,最后取得3部分的平均值作為最終準確率.本文所有實驗均采用小批量隨機梯度下降法訓練網絡參數,其中空間網絡的batch_size設置為16,時間網絡的batch_size設置為32,視頻分段數均設置為k=5.在空間網絡中,設置初始學習率為0.001,共80個epoch,當epoch分別為30和60時將學習率衰減為原來的1/10,dropout設置為0.8以防止過擬合.在時間網絡中,設置初始學習率也為0.001,共340個epoch,當epoch分別為190和300時將學習率衰減為原來的1/10,dropout設置為0.7.每個epoch結束后保存一次訓練模型參數,并在訓練過程中更新最優模型的參數.此外,為避免數據集樣本量過小可能導致過擬合的問題,實驗中還采用了數據增強方法,保證模型的性能.

測試:本文按照文獻[5]中的測試方案對訓練得到的模型進行測試.首先以等間隔的劃分方式分別對RGB及光流數據采樣25幀,其次對抽取的視頻幀以裁剪4個角及1個中心的方式處理,再進行水平翻轉后輸入訓練得到的模型中.在對分段的數據進行特征融合時,采用平均融合的方法,將所分的25段圖像幀的分類結果取平均值作為最終的分類結果.然后采用加權融合的方式并通過遍歷搜索權重值來對空間網絡與時間網絡的分類得分進行融合,遍歷搜索權重值的方法能夠有效獲取模型的最優性能,最后得到本文所提模型的最終識別率.

2.3 實驗比較分析

下面首先分析由VAN網絡構成空間主干網絡的TS-VAN模型的動作識別準確率,再對由P-VAN作為空間主干網絡的TS-PVAN模型的實驗結果進行分析,最后將本文所提模型與目前的一些主流方法進行對比,驗證所提模型的有效性.TSN網絡中將視頻數據分為3段,為提高模型識別精度,本文經過實驗分別將視頻段數分為3、5、7,發現當視頻分為5段時識別準確率最高,考慮到段數越高數據冗余越明顯,為了便于做對比分析,本文所有實驗都將視頻分段數設置為5.

2.3.1 TS-VAN模型實驗結果

為了捕捉空間長距離依賴關系,提取視頻動作更豐富的動作特征,本文將VAN視覺注意網絡引入到處理RGB幀的空間主干網絡中,光流數據仍采用BN-Inception卷積網絡處理,構成TS-VAN模型.本文在HMDB51與UCF101兩個數據集上進行實驗以體現模型的泛化能力,實驗結果如表2、表3所示,表中分別給出了基線TSN與TS-VAN兩種方法處理RGB單流數據的識別準確率以及雙流融合后的準確率的對比結果.

表2 HMDB51在TS-VAN模型的識別準確率(%)Table 2 Performance comparison of HMDB51 in TS-VAN model(%)

表3 UCF101在TS-VAN模型的識別準確率(%)Table 3 Performance comparison of UCF101 in TS-VAN model(%)

由上述實驗結果對比可知,空間主干網絡采用VAN網絡與TSN中使用卷積網絡相比,在兩個數據集上提取空間特征的能力分別提高6.0%和2.6%,雙流融合后的結果分別提高了4.8%和1.1%,證明了視覺注意網絡VAN相比原有卷積網絡能夠捕獲空間范圍上更豐富的動作特征,驗證了本文設計的TS-VAN模型的有效性.

2.3.2 TS-PVAN模型實驗結果

由于VAN網絡處理空間網絡中視頻RGB幀時降低空間維度可能會帶來特征損失,且視頻動作的背景噪聲也會對識別結果造成影響,本文又在TS-VAN結構的基礎上,將極化自注意力PSA模塊插入VAN網絡的前端以構成P-VAN網絡作為TS-PVAN模型的空間網絡,以增強空間流網絡提取動作空間特征的能力,時間流網絡同樣選取BN-Inception卷積網絡.最后,通過對比HMDB51與UCF101兩個數據集分別在TSN及TS-PVAN模型上的實驗結果及對比如表4、表5所示.

表4 HMDB51在TS-PVAN模型的識別準確率(%)Table 4 Performance comparison of HMDB51 in TS-PVAN model(%)

表5 UCF101在TS-PVAN模型的識別準確率(%)Table 5 Performance comparison of UCF101 in TS-PVAN model(%)

由表中結果可知,TS-PVAN方法相比TSN在空間網絡提取特征的性能在HMDB51數據集上達到58.8%,提高了7.6%,在UCF101數據集上達到89.0%,提高了3.8%,雙流融合后的準確率分別提高5.7%和1.7%.此外,TS-PVAN與TS-VAN相比,在兩個數據集上提取空間特征的能力分別提升了1.6%和1.2%.可見,本文設計的兩種空間網絡能夠提高對RGB幀的處理能力,有利于改善時空特征融合的性能,驗證了本文所提模型的有效性.

為了清晰地觀察模型訓練過程中性能的變化,本文分別給出本文所提TS-PVAN模型對HMDB51與UCF101兩個數據集,在空間網絡中訓練RGB單流數據提取動作特征的過程中,識別準確率的變化趨勢如圖7、圖8所示,橫坐標表示為epoch的數目,總計80,縱坐標為該輪次對應的識別準確率.

圖7 HMDB51上RGB單流準確率變化圖(%)Fig.7 RGB single-stream accuracy change chart on HMDB51

圖8 UCF101上RGB單流準確率變化圖(%)Fig.8 RGB single-stream accuracy change chart on UCF101

2.3.3 同主流方法的性能對比

本節將所提雙流動作識別TS-PVAN模型的性能與目前幾種比較先進的雙流網絡方法進行比較,并分別給出在兩種HMDB51與UCF101數據集上的識別準確率對比結果如表6所示.

表6 兩種數據集上本文方法同現有方法對比Table 6 Comparison of the method proposed in this paper and existing methods on the HMDB51 and UCF101 dataset

由表中數據可知,對于HMDB51數據集,所提方法與TSN雙流方法相比提升了5.7%,與基于時空特征乘法交互的Mul-ResNet[27]方法和時空金字塔模型ST-pyramid[28]相比提升5.3%,與殘差時空注意模型R-STAN[10]相比提升5.5%,與IP TSN[11]模型和ISTPAN[12]模型相比分別提升5.1%和4.6%,相比DMC-Net[13]網絡提升了2.4%.此外,對于UCF101數據集,與這幾種雙流網絡相比,識別準確率大約提升0.6%~3.1%.實驗表明本文所提TS-PVAN模型的有效性及泛化性,同時說明該模型在相對較小的數據集上能達到更好的識別效果.

3 結 論

本文提出一種注意力機制的TS-PVAN雙流動作識別模型.首先給出模型整體架構,介紹了視覺注意網絡VAN和極化自注意力模塊PSA的特點及網絡結構.其次將VAN網絡引入動作識別雙流模型中,作為空間主干網絡處理RGB數據以捕獲視頻動作在空間上的長距離依賴性,充分利用豐富的空間特征.最后將PSA模塊插入VAN網絡的前端,構成P-VAN作為空間主干網絡,減少了空間維度降低造成的特征損失且降低視頻背景噪聲對特征提取的影響.在HMDB51和UCF101兩個數據集上進行實驗,實驗結果驗證了本文所提模型的有效性,同時具有一定的泛化能力.此外,在本文已完成工作的基礎上,未來將進一步考慮對時間網絡的改進,如何高效地建模長范圍時間結構,提取豐富的長期時間信息,是下一步將要重點展開研究的工作內容.

猜你喜歡
動作特征模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
動作描寫要具體
抓住特征巧觀察
畫動作
動作描寫不可少
3D打印中的模型分割與打包
主站蜘蛛池模板: 日韩一级二级三级| 亚洲最大看欧美片网站地址| 有专无码视频| 国产精品lululu在线观看| 一本综合久久| 国产女人在线视频| 精品亚洲麻豆1区2区3区| 久久精品人妻中文系列| 国产精品性| 国产成人综合亚洲欧美在| 美女裸体18禁网站| 蜜桃臀无码内射一区二区三区| 国产精品嫩草影院av| 日韩国产黄色网站| 国产亚洲精久久久久久久91| 538精品在线观看| 2018日日摸夜夜添狠狠躁| 在线播放国产99re| 亚洲无限乱码一二三四区| 一级毛片免费高清视频| 激情国产精品一区| 强奷白丝美女在线观看| www亚洲精品| 国产精品自拍露脸视频| 国产精品视频导航| 欧美精品三级在线| 国产人免费人成免费视频| 欧美日韩动态图| 国产日本一线在线观看免费| 另类专区亚洲| 99这里只有精品免费视频| 亚洲第一视频免费在线| 久久99热66这里只有精品一| 国产综合色在线视频播放线视 | 国产精品爽爽va在线无码观看| P尤物久久99国产综合精品| 成人国产一区二区三区| 在线看片中文字幕| 72种姿势欧美久久久大黄蕉| 第九色区aⅴ天堂久久香| 免费不卡视频| 日韩中文字幕亚洲无线码| 中文无码毛片又爽又刺激| 成人蜜桃网| 国产微拍一区二区三区四区| 亚洲国产欧美自拍| 欧美日韩综合网| 国产正在播放| 亚洲午夜福利精品无码不卡| 欧美色亚洲| 日韩免费毛片| 欧美在线一二区| 成年网址网站在线观看| 国产在线观看91精品| 亚洲一区网站| 国产青青操| 亚洲另类国产欧美一区二区| 亚洲香蕉在线| 最新日本中文字幕| 国产人碰人摸人爱免费视频| 亚洲欧美人成电影在线观看| 最新日本中文字幕| 97亚洲色综久久精品| 国产小视频在线高清播放| 国产自无码视频在线观看| 中文无码毛片又爽又刺激| 国产视频你懂得| 成人免费午间影院在线观看| 中文字幕色在线| 国产性生交xxxxx免费| 欧美www在线观看| 国产超碰在线观看| 亚洲码在线中文在线观看| 国产美女精品人人做人人爽| 亚洲色图欧美一区| 黄色污网站在线观看| 亚洲国产成人自拍| 国产福利不卡视频| 国产丝袜啪啪| 免费看a毛片| 91无码人妻精品一区二区蜜桃| 欧美日韩北条麻妃一区二区|