999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

時域非填充網絡視頻行為識別算法研究

2023-01-13 11:58:02司亞中
計算機工程與應用 2023年1期
關鍵詞:特征

劉 釗,楊 帆,司亞中

河北工業大學 電子信息工程學院,天津 300401

作為計算機視覺領域的一項基礎任務,對行為識別的研究已經進行了很長時間。如今隨著移動互聯網時代信息的爆炸式增長,來自監控攝像頭、自媒體、自動駕駛等系統的視頻數據也變得龐大而復雜。對網絡或本地視頻中人類的行為進行識別與分類在智能監控、視頻推薦、輔助駕駛系統等領域都有很大的需求,因此行為識別算法逐漸成為機器視覺中的一個研究熱點。

進行行為識別的關鍵是提取視頻中的時空信息,近年來深度學習技術的發展使得研究者可以利用卷積神經網絡自動提取圖像的空間特征,從而完成目標識別、圖像分類、語義分割等不同場景下的任務。與2D的圖像任務不同,由于人的動作具有明顯的時間連續性,處理視頻除了空間信息外還需要關注時間維度的信息。因此視頻識別和圖像識別的一個重要差別就是對時間的建模,這對識別的效果有很大影響[1]。

分析視頻中行為的方法有很多種,最直接的是使用2DCNN進行特征提取,但是這種方式忽略了幀與幀之間的時間關系,在時間關聯性強的動作中無法得到準確的結果。另一種方法是使用雙流網絡,光流是描述物體運動的一種有效表征,它提供了與RGB圖像間的正交信息。將視頻的光流作為時間建模信息,和空間數據一同輸入到網絡中可以有效提升行為識別的準確率,但是光流需要進行預計算,耗費計算資源大,同時需要較多存儲空間,在速度和實時性方面無法取得理想結果。事實上,將一段視頻看作一個具有兩個空間維度和一個時間維度的三維張量是最自然的做法。因此,使用3D卷積神經網絡同時提取視頻中的時空信息受到研究者的歡迎,在2DCNN的基礎上,添加時間維度進行時域建模,同時空間維度保持不變,就可以很方便地分析視頻片段的時空特征。增加一個維度同樣帶來了算力的消耗,但是端到端的優勢,使3DCNN方法成為了研究的熱點。

在過去的十年中,隨著網絡視頻的積累,研究人員制作了各種高質量的行為識別數據集,而且視頻數量和行為類別的數量都在快速增長。典型的數據集HMDB51[2]、

UCF101[3]、ActivityNet[4]、Sports1M[5]、Kinetics[6]、You-Tube8M[7]、Something-Something[8]等都有對應的SOTA方法。由于大規模數據集有充分的訓練數據,可以在訓練時避免過擬合的發生,從而提高測試時的性能,所以往往被看作行為識別的基準。一些通用的行為識別模型在經過預訓練后可以在這些數據集上取得很好的效果,但是訓練過程十分依賴硬件設施,需要強大的算力支持。此外,完成一次大數據集上的訓練,可能需要幾周甚至一個月以上的時間。為解決此問題,本文提出了一種適用于小型數據集的3D卷積神經網絡模型,在兼顧參數量和計算量的前提下,與一些主流的網絡相比有較為明顯的精度提升。在某些特定的行為識別場景中,可以在較小算力下(比如性能較差的GPU)進行訓練。

1 研究現狀

首先將3D CNN用于行為識別的是Ji等人[9],他們設計的網絡包含1個硬線層、3個卷積層、2個下采樣層和1個全連接層。硬線層生成灰度通道、梯度通道和光流通道。在每個通道中應用卷積和下采樣,最后通過結合所有通道的信息計算得到行為識別的結果。此開創性工作的成功使得更多的研究者開始探索3D CNN的潛力。最直接的工作是對經典2D卷積的拓展,即將2D卷積核以及對應的輸入輸出映射到3D。Tran等人[10]提出了一個更深的3D卷積網絡,稱之為C3D。C3D網絡實際上是將VGG[11]網絡擴展到了3D,可以看作是3D版本的VGG16。Hara等人[12]直接使用3D卷積核來代替2D ResNet[13]中的卷積核,并嘗試使用大規模數據集Kinetics來訓練此3D ResNet,希望可以達到2D CNN在ImageNet[14]上的效果。

對于3D卷積網絡,增加時間維度的長度可能捕獲到更多的時間關聯信息。為了進行長時間建模,Varol等人[15]開發了一種長時間卷積結構(LTC),該結構使用較多的視頻幀(比如60或者100幀)作為輸入,但與此同時帶來了更多的計算量。為了減少網絡參數的數量,緩解高復雜度和訓練視頻數據不足的多種困難,Sun等人[16]提出了一種分解時空卷積網絡FstCN,將原始的三維卷積核學習分解為先學習低層的二維空間卷積核,然后再學習上層的一維時間卷積核。

為了降低訓練時的復雜度,一些研究者考慮對3D卷積核進行分解。比如,一個3D卷積核(尺寸為3×3×3)可以看作是為一個2D的空間卷積核(1×3×3)與一個1D時間卷積核(3×1×1)的組合。如圖1展示了這個分解的過程。

圖1 3D卷積核的分解Fig.1 Decomposition of 3D convolution kernel

Qiu等人[17]提出了一種名為P3D的類似3D Resnet50的結構,使用2D和1D卷積核的組合來替代ResNet中的連接部分。R2+1D[18]也采用了這種分解方式,它與P3D的不同之處在于殘差塊的構建方式。

由于3D卷積網絡參數量較大,為了追求訓練速度,降低部署難度,大部分研究者開始探索高效的視頻模型。Lin等人[19]引入了一種新的方法,稱為時域移位模塊(TSM),TSM將移位操作擴展到視頻理解中。它將部分通道沿時間維度移動,從而促進相鄰幀之間的信息交換以獲取更完整的時間信息。還有一些方法使用注意力機制來對時域建模,STM方法[20]提出了一個基于通道的時空模塊來提取時空特征以及一個基于通道的運動模塊來高效地編碼運動特征。TEA方法[21]與STM類似,但TEA使用運動特征重新校準時空特征以增強運動模式。

以上提到的方法中主要關注點都是網絡的輸入或者網絡本身:要么是對2D卷積的擴展,要么單純地降低模型復雜度。考慮到在卷積計算過程中不同的padding方式會對3D卷積中的時域信息進行不同的處理,而其中有些處理方法會帶來時間維度上的誤差,本文對時域上的padding方式進行了調整,并根據此結構提出了一種新的網絡模型,可以充分利用到特征圖中的時空信息。

2 基于時域非填充卷積的行為識別模型

在3D卷積行為識別模型中,時間信息的提取和有效利用是保證識別準確率的重要因素。而網絡的輕量化需要從網絡深度,卷積形式以及節點尺寸等方面考慮。為了在不降低模型準確率的前提下減少參數量,我們提出了一種新型的網絡結構。設計思路主要包括:

(1)改變在3D卷積過程中時間維度的填充方法,不引入可能影響時間信息的無關元素,即使用不填充的卷積方式。

(2)適當降低網絡深度并拆分3D卷積核來降低參數量。

(3)為了最大限度地利用提取到的時空信息,將時間3D卷積重組為2D卷積。

將此網絡命名為時域非填充網絡(temporal none padding network,TNP-Net)。網絡的整體結構如圖2所示。

圖2 整體結構圖Fig.2 Overall structure

對于原始的不定時長的視頻信息,使用TSN方法[22]提出的稀疏時間采樣策略進行采樣。首先將視頻的所有幀等分為T個片段,然后在每個片段中隨機取一個視頻幀,并按照片段的時間順序組合這些幀,這樣就得到了時長為T的輸入視頻序列。在Head以及Stem模塊中堆疊時域非填充結構的3D卷積層和下采樣層,由于時域非填充結構可以自然地縮小時間域上的尺度,因此可以令時間維度的步長一直保持為1。最后在Tail模塊中對網絡進行重組:將原有的空間維度合并為一個維度,從而得到一個2D的卷積神經網絡。之后在此2D網絡中繼續卷積以完成特征的提取。整體的行為識別過程如圖3所示。

圖3 行為識別流程Fig.3 Action recognition flow

2.1 時域非填充結構

在卷積過程中為了保持當前卷積層的前后一致性,通常的做法是對進行卷積的矩陣的邊緣部分進行填充[23],填充的方法包括零填充(使用0)和復制填充(使用邊界數據)。對于二維的圖像特征圖,由于整體像素點較多,填充引入的數值并不會帶來太大的誤差。在處理包含動作的視頻片段時,往往會將提取到的表示動作的連續視頻幀進行維度變換:由T×C×H×W變為C×T×H×W,其中T、C分別表示時間維度以及特征通道。H和W對應空間的形狀。對此四維矩陣進行卷積時,會使用C個三維卷積核對T×W×H維的特征圖進行卷積。如上所述,有時為了保證維度不變,可以在空間維度進行填充操作,但是表示動作的視頻幀往往是有限的,比如16幀或24幀[24]。如果同樣在時間域上進行填充,就會在時間維度的兩端添加一整張全零或者與最外側完全一樣的二維特征圖,而對于對幀間的時間信息比較敏感的行為識別任務,這會引入較大的誤差,從而有可能影響最終的檢測精度。

對于網絡中正常填充的3D卷積,給定一個輸入特征圖X∈Rc×t×h×w,當設定卷積的步長step為1時,使用m個3×3×3的3D卷積核計算的過程為:

時空維度的變化由公式(2)決定,其中k和p分別代表卷積核大小和填充大小。

在同樣條件下將時域填充變為0就可得到時域非填充結構,此時的計算過程為:

本網絡的時域非填充層全部集中在Head和Stem模塊,且這兩個模塊中的所有3D卷積在時間維度都不進行填充。其中Head模塊的結構如圖4所示。

圖4 Head模塊結構Fig.4 Head module structure

Head模塊由三個卷積層組成,首先在時間和空間維度都進行卷積計算,然后分別提取時間和空間信息。由于低層層特征圖包含的時間特征相對較少,為了獲取較多未經過處理的時間信息,在第二層單獨進行時間卷積并使用維度為5的卷積核。如此便在網絡的底層進行了兩次空間和時間上的特征提取。

Stem模塊中的所有卷積層都使用了時域非填充的設計,同時采用了大量的卷積分解操作來降低參數量,圖5為此模塊的結構。

圖5 Stem模塊結構Fig.5 Stem module structure

2.2 網絡重組結構

如上所述,使用時域非填充結構后時間域尺度會自然地下降至4,同時空間維度也隨著卷積的進行而變為14×14。此時常規的做法是繼續在這個三維結構中實施3D卷積。為了融合網絡學習到的時空特征,獲得更好的模型表現,對這部分的3D特征圖做了結構上的調整:保持時間維度不變,將空間維度轉換成一維,即把14×14的二維空間展平為196的一維空間。變換過程以及元素排列如圖6所示。

圖6 3D特征圖到2D特征圖的轉換Fig.6 Conversion from 3D to 2D feature map

Tail模塊中網絡重組之前也使用時域非填充來降低時間維度,為了在網絡重組前后找到最合適的通道數,設置了planes以調整相關的卷積核,planes是一個包含4個元素的列表,4個元素分別對應4個卷積核的數量(即其后面特征圖的通道數)。Tail模塊的細節如圖7所示。

圖7 Tail模塊結構Fig.7 Tail module structure

3 實驗

3.1 數據集

本文致力于在較小數據集上提高行為識別的性能,從而減小在某些特定場景下的任務對硬件設備的依賴。目前較流行的Kinetics、Something-Something系列數據集包含較多的動作類別以及視頻數量,適合通用行為識別模型的訓練。龐大的數據使其可以較好地擬合模型,但同時也帶來了訓練時算力的大量消耗。但在特定的場景下(比如駕駛員行為檢測),往往只需要在特定的數據集上訓練,因此本文使用較小的UCF-101以及HMDB51數據集,希望可以接近某些真實場景下的數據量。其中UCF-101數據集包含101個動作類別,共13 320個視頻,HMDB51數據集包含51個動作類別,大約有7 000個視頻片段。

3.2 訓練及結果

對于每個原始的視頻序列,分別從時間和空間維度處理,以進行數據增強并得到適合網絡訓練的樣本。如上所述,首先使用稀疏時間采樣的方法抽取16幀圖像,如果視頻長度不足16幀,則循環此視頻以滿足幀長的要求;接下來使用數據增強,由于每個樣本是連續的幀,因此應保證對這16幀圖像做同樣的處理:將所有圖像進行中心裁剪后以0.5的概率在水平方向翻轉,同時實施歸一化并調整圖像大小為112×112像素;最后轉置通道和時間維度就得到了尺寸為3×16×112×112的輸入樣本。為了準確地進行歸一化,對所有的訓練數據做了數據分析并得到了所有數據的標準差以及方差。本文使用交叉熵損失來作為實驗的誤差函數,訓練時使用帶動量的批處理隨機梯度下降優化算法,批處理大小為32。設置初始學習率為0.01,學習率衰減因子為0.1。在訓練epoch為80、140、180時進行學習率衰減,優化器的具體參數設置為:Momentum:0.9;Weight_decay:0.001;Dampening:0。

為驗證本文方法的有效性,與當前主流3D卷積行為識別方法進行對比,包括C3D[10](ICCV’15)、3DResnet[12](ICPR’18)、R2P1D[18](CVPR’18)、P3D[17](ICCV’17)等。涉及到的實驗使用了相同的數據處理方法,且在相同的環境下進行,本文所有實驗都基于Ubuntu20.04系統,配備2塊1080Ti顯卡,軟件環境為Pytorch 1.3。表1展示了在UCF101和HMDB51數據集中不同模型的對比結果,所有模型均使用RGB圖像作為輸入,不使用光流信息。

表1 不同算法性能對比Table 1 Performance comparison of different algorithms

表1中的實驗除了C3D模型都采取同樣的實驗配置,以保證比較的公平性。為了能正常進行反向傳播過程,將C3D模型訓練時的初始學習率設置為0.1。同時,所有模型都未使用預訓練權重,即都從零開始訓練。可以看到,在其他條件基本相同的情況下,在兩個數據集上TNP網絡可以獲得最高的Top-1準確率。同時TNP網絡在犧牲了一定計算量的條件下,擁有最少的參數量,這使得它在訓練時不需要占用過多的計算資源,同時節約計算時存儲成本。雖然其他網絡也使用了3D卷積,但得益于時域非填充和網絡重組結構,TNP網絡較為充分地提取并利用了視頻中的時空信息,從而在參數量較少的情況下獲得了較好的性能。圖8給出了部分視頻采樣后的視頻幀的預測結果。

圖8 部分視頻的采樣及預測結果Fig.8 Sampling and prediction results of part video

3.3 消融實驗

為評估時域非填充和網絡重組方法對模型性能的影響,分別改變部分卷積層的時域填充方式和Tail部分的卷積方式,對比前后的識別準確率來進行可行性分析。

3.3.1 時域填充對結果的影響

分別將Stem模塊中的2、4、6個卷積的時域填充方式轉換為0填充來驗證非填充方法的有效性,填充卷積層為0時表示全部使用時域非填充結構。表2展示了在兩個數據集上實驗的結果。

表2 不同填充卷積層的性能對比Table 2 Performance comparison of different padding layers

應用了0填充方式的網絡模型由于改變了降低時間維度的方式,使得網絡的參數量有所降低;然而隨著使用0填充卷積層數量的減少,對應的準確率呈上升趨勢。此現象可以證明時域非填充結構確實可以提高3D卷積網絡行為識別任務的準確率。

3.3.2 重組網絡對結果的影響

在Tail模塊中,將3D卷積核重新組合成2D卷積核來充分利用時空信息,為對比其與不使用此種方式的結構的差別,直接利用3D卷積完成了Tail部分的訓練。同時改變了Planes列表的元素組合以找到最佳的通道數設置,Planes的不同組合如表3所示。

表3 Planes的組合Table 3 Combination of Planes

最后將測試的結果總結到表4。

表4 不同卷積類型性能對比Table 4 Performance comparison of different convolution types

在Tail模塊中全部使用3D卷積核時,相比于使用3D卷積核雖然獲得了參數量的降低,但是會損失較多的精度,由此可證明將網絡最后的3D特征圖轉換為2D特征圖可以在一定程度上提高行為識別的準確率。而在進行網絡重組的條件下,使用不同的卷積核數量也會影響識別的速度和精度,在卷積核數量較少時可以達到最好效果。

4 結束語

本文針對3D卷積過程中的填充方式設計了一種在時間維度不進行填充的3DCNN網絡,還根據此種填充方式提出了3D網絡到2D網絡的網絡重組結構,可以有效地提取并利用視頻中的時空信息,提高行為識別的準確率。由于輕量化的結構設計,使得網絡訓練不需要依賴強大的算力,適用于特定的行為識別場景。在公開數據集UCF-101上的實驗表明,本文設計的時域非填充卷積神經網絡在準確率以及參數量方面優于一些主流的算法。

猜你喜歡
特征
抓住特征巧觀察
離散型隨機變量的分布列與數字特征
具有兩個P’維非線性不可約特征標的非可解群
月震特征及與地震的對比
如何表達“特征”
被k(2≤k≤16)整除的正整數的特征
中等數學(2019年8期)2019-11-25 01:38:14
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
詈語的文化蘊含與現代特征
新聞傳播(2018年11期)2018-08-29 08:15:24
抓住特征巧觀察
基于特征篩選的模型選擇
主站蜘蛛池模板: 亚洲高清中文字幕| 午夜久久影院| 亚洲视屏在线观看| 欧美成人免费一区在线播放| 香蕉色综合| 日韩高清在线观看不卡一区二区| 亚洲欧美色中文字幕| 国产9191精品免费观看| 亚洲综合九九| 亚洲婷婷丁香| 91娇喘视频| 国产成人精品无码一区二| 欧美日韩在线亚洲国产人| 在线观看国产黄色| 国产成本人片免费a∨短片| 亚洲国产日韩欧美在线| 99在线视频免费| h视频在线观看网站| 国产成人精品高清不卡在线 | 国产高清国内精品福利| 亚洲V日韩V无码一区二区| 色综合a怡红院怡红院首页| 五月天久久综合| a毛片免费看| 国产免费黄| 一本久道久综合久久鬼色 | 国产精品视频系列专区| 亚洲欧洲一区二区三区| 亚洲天堂日韩在线| 蜜臀av性久久久久蜜臀aⅴ麻豆| 成人午夜久久| 成年网址网站在线观看| 国产AV毛片| 她的性爱视频| 国产成人一区免费观看| 精品无码一区二区三区在线视频| 亚洲激情99| 亚洲综合中文字幕国产精品欧美| 99视频在线免费| 久草热视频在线| 91福利在线观看视频| 毛片网站在线看| 国产一区二区三区视频| 精品黑人一区二区三区| 亚洲欧美日韩中文字幕在线一区| 精品一区二区三区波多野结衣| 日韩中文无码av超清| 人妻21p大胆| 亚洲午夜片| 999国产精品| 国产精品一区二区不卡的视频| 青草视频久久| 免费99精品国产自在现线| 农村乱人伦一区二区| 亚洲Av激情网五月天| 麻豆国产精品一二三在线观看| 亚洲毛片一级带毛片基地| 国产69精品久久| 国产精品亚洲一区二区三区z| 青青青国产精品国产精品美女| 精品国产成人国产在线| 国产原创自拍不卡第一页| 精品国产网| 99久久国产综合精品2020| 国产日本视频91| 久久香蕉国产线看精品| 五月天在线网站| 一区二区自拍| 国产av色站网站| 久久久久人妻一区精品色奶水| 91年精品国产福利线观看久久 | 国产va在线观看免费| 99草精品视频| 免费a在线观看播放| 久久综合国产乱子免费| 亚洲无码一区在线观看| 亚洲欧美成人综合| 国产精品网址你懂的| 美女视频黄又黄又免费高清| 亚洲最大综合网| 国产网站在线看| 青青久视频|