999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多流3D融合網絡的人體行為識別

2020-03-18 09:42:40張天雨
智能計算機與應用 2020年10期
關鍵詞:特征融合方法

戎 煒, 張天雨

(合肥工業大學 計算機與信息學院, 合肥 230601)

0 引 言

行為識別是指從視頻幀序列中提取出與目標行為相關的有用信息,并采用合適的方式進行數據表達,通過解釋這些行為視覺信息,達到對人的行為模式分析和識別的目的。行為識別按識別對象區分為個體行為識別與群組行為識別。研究者針對個體行為識別任務,提出了一些方法。受到在靜態圖像上成功使用卷積神經網絡的鼓舞,許多研究人員開發了用于視頻理解和行為識別的方法[1]。最近的大多數作品都受到Simonyan等人提出的雙流卷積神經網絡的啟發,其中合并了從RGB圖像和光流圖像中提取的空間與時間信息;另一方面,對于視頻行為識別,3D卷積網絡亦是該領域的重要研究熱點,已被廣泛應用于行為識別任務中。但是,3D卷積網絡的預訓練過程不僅需要大量的視頻數據,而且還需要大量的硬件資源。

對于行為識別中雙流網絡與3D卷積網絡各自的局限性,本文提出了一個新的網絡模型。該網絡模型將雙流網絡與3D卷積網絡的特性結合,同時重新設計網絡結構,以彌補兩種網絡的缺陷,使得該網絡模型能出色地完成個體行為識別任務。

1 多流3D融合網絡

本文提出的改良多流3D融合網絡(Multi-stream 3D Fusion Network,M3DFN)模型將雙流網絡和3D卷積網絡的特性結合,并加以改良,以提升在群體中個體行為識別的性能。多流3D融合網絡的結構如圖1所示。網絡由輸入采樣模塊,目標定位提取模塊,多流3D卷積模塊,分類LSTM模塊等主要部分組成。在視頻行為識別任務中,對于輸入視頻序列,采用時序分割方法,將視頻序列分為若干幀一個片段,在每個片段中隨機采樣一幀圖像,之后使用Faster R-CNN網絡對圖像中的人物進行目標定位。取人物幀圖像前后若干幀組成圖像序列,對其進行光流提取后得到光流信息特征圖;將輸入的圖像分為多幀圖像序列,采樣得到的單幀圖像以及多幀光流圖序列,輸入多流3D卷積模塊中,輸出的個體特征進行特征連接操作得到全局特征;將各個多流3D卷積模塊輸出的個體特征輸入到分段LSTM模塊中,輸出的融合特征再次與全局特征融合;最后,經由全連接層與softmax分類操作得到最終個體行為識別結果。

圖1 多流3D融合網絡結構圖

2 視頻特征的多流提取與處理

2.1 膨脹3D卷積網絡

多流3D卷積模塊的結構如圖2所示。雙流網絡部分沿用經典的時序分割網絡,而膨脹3D卷積網絡部分則是在已有的2D ResNet101上進行2D膨脹操作,將其擴充為3D卷積網絡。膨脹3D卷積網絡的輸入是以隨機采樣得到的單幀RGB圖像為中心的RGB圖像序列,輸出則是個體特征。為了與2D卷積輸出的特征維度匹配,膨脹3D卷積網絡的輸出特征將會被壓縮為2D尺寸。

圖2 多流3D卷積模塊結構圖

殘差神經網絡(Residual neural Network, ResNet)最早是由He等人提出的,并在圖像識別任務有出色表現[2]。代替直接擬合的基礎映射H(x),殘差網絡將原始映射改良為F(x)+x以擬合殘差映射。這類研究表明了這種連接之前輸入的方式十分有效[3]。殘差連接方式可以表示為式(1)和式(2):

yi=xi+F(xi,W),

(1)

xi+1=f(yi).

(2)

其中,xi與xi+1代表第i層的輸入和輸出;F(xi,W)代表殘差映射;f()代表ReLU過濾函數。對于多于50層的網絡,殘差映射F(xi,W)則是由3層一組的形式組成。

由于3D卷積網絡在空間卷積結構上與對應的2D卷積很相似。因此可以將ImageNet預先徐連的2D參數視為3D內核的一部分。可以沿時間維度將2D參數直接復制到3D內核中,這就是2D膨脹操作。但是由于參數不足以支撐起多出來的時間維度,仍然需要重新設計時間結構。受到I3D網絡提出的擴展操作的啟發,本文采用2D膨脹操作,用于引導ImageNet預訓練參數。具體的思想是用3個2D卷積核來組成一個3D卷積核,這些2D卷積核是從對應的ImageNet預訓練的2D卷積層的同一通道中復制的。于是參數的尺寸可以由正方形轉換為立方體。這些操作可以描述為公式(3)和公式(4):

(3)

(4)

本文提出的多流3D卷積模塊中的膨脹3D卷積網絡是由2D的ResNet101經由2D膨脹操作變化得到的。具體操作如圖3所示:將輸入卷積的大小由7×7卷積變為3×7×7卷積。padding的尺寸由3×3變為1×3×3。3×3卷積包括最大池化卷積變為3×3×3卷積,1×1卷積變為1×1×1卷積。時間維度的步長均設為1,空間維度的步長保持不變,最大池化卷積在的時間與空間維度的步長也都保持不變。膨脹3D卷積網絡的預訓練參數由ImageNet預訓練的對應2D卷積網絡提供,因此不需要如Kinetics之類的數據集預訓練,節省了大量的時間與計算開銷。

圖3 2D 膨脹操作示意圖

2.2 雙流卷積網絡

雙流卷積網絡由兩個獨立的空間流卷積網絡和時間流網絡構成。空間流網絡將RGB圖像作為輸入,而時間流網絡則使用堆疊的光流圖像作為輸入。大量文獻表明,較深的卷積網絡可以提高雙流網絡的整體性能。特別是VGG-16,GoogleNet和BN-Inception在空間流和時間流上的性能都得到了驗證。但ResNet101展示了其捕獲靜態圖像特征的能力,因此選用ResNet101作為空間流和時間流的基準網絡。空間流輸入方面,采用單幀RGB圖像已被證實十分有效。時間流輸入方面,采用標準的10幀連續光流圖像序列。Feichtenhofer等人的實驗證明了融合特征的重要性,后期融合特征可以達到最佳融合,而早期的融合雖然需要的參數較后期少,但達到的性能不如后期融合。因此,本文采用最后一層融合特征的方式構造雙流網絡。在最后的融合中,本文采用了特征串聯的方式,不僅串聯時間流和空間流,也讓膨脹3D卷積網絡的輸出特征參與串聯過程。串聯融合得到的特征成為分段LSTM的輸入。雙流ResNet101由ImageNet網絡預訓練,鑒于膨脹3D卷積網絡的特性,可以從雙流網絡中共享參數。因此只需預訓練雙流網絡,便可為膨脹3D卷積網絡提供參數。

3 時間信息處理與特征融合

3.1 分段LSTM網絡

視頻內每個圖像幀的變化都可能包含其他信息,這些信息可能對確定整個視頻的人體行為有所貢獻。最能直接提取并利用這些信息的模型之一是循環神經網絡(RNN)。RNN可以通過隱藏狀態單元設計學習時間動態信息。但是由于RNN存在的長時依賴問題,使用LSTM代替RNN是較好的選擇。然而,更深的LSTM層不一定有助于獲得更好的動作識別性能,因為之前的雙流卷積網絡與3D卷積網絡已經提供了足夠強大的學習性能。

本文采用LSTM單元與時間池化層的結合來提取時間動態信息,構造分段LSTM網絡,如圖4所示。輸入特征為串聯的3種特征序列。經過與采樣階段相同數量的分段后,經過BN(Batch Normalization)操作后,使用時間池化層從每個片段中提取區別特征,再輸入LSTM中提取嵌入特征。時間池化層可以是平均池化層或者最大池化層,本文選用最大池化層。時間池化層從3D,空間和時間流串聯的特征向量中提取區別特征。而LSTM將提取整個視頻的嵌入特征。其本質上是學習非線性特征組合及其隨時間變化的分段表示的機制。

圖4 分段LSTM結構圖

3.2 分支特征融合

經過各個模塊的提取輸出的分支特征需要按照順序進行匯總。本文評估了3種特征融合方法,如圖5所示。

最簡單直接的方法便是圖5中左側的直接連接。將每個分支特征向量按時間順序連接到組合的特征向量中,之后直接輸入全連層和分類層。聚合信息的第二種方法是圖5中間的操作,添加了全連接層和Dropout操作,全連接層能進一步處理組合的特征向量,進一步提高識別的準確率。圖5中右側的是基于第二種方法的第3種方法殘差連接,添加了殘差全連接層,從而聚合從視頻中提取的特征。本文采用第三種方法,公式(5)和公式(6)為

xc={x0,x1,...,xn-1},

(5)

xt=Hc(WcXc+xc).

(6)

其中,xc為各個分支特征xn合并而成,并進行殘差連接操作,Wc代表殘差連接層的權重,Hc代表ReLU函數與Dropout的結合操作。實驗結果表明,組合特征向量的殘差連接處理是有益的,連接輸入特征向量豐富了特征中的信息,提升了識別性能。

圖5 3種特征融合方法示意圖

4 實驗結果及分析

4.1 數據集介紹

為了證明本文提出的網絡模型能有效完成個體行為識別任務,本文在volleyball數據集上對模型進行驗證。該數據集是用于群體行為識別的數據集,但因為對場景中的每個個體的動作及位置都設置了標簽,因此也適用于個體行為識別。Volleyball數據集的視頻均為排球比賽,收集自YouTube視頻網站。該數據集包含了55場排球比賽的實況錄像,并且制作者為其中的4830幀制作了位置與行為標注。每個運動員個體都以一個邊界框的坐標和9種個體動作之一進行標注,而這9種個體動作對應8種群體行為,表明在場景中的某個群組發生的群組行為類別。本文將volleyball數據集的2/3用于訓練,1/3用于測試。

4.2 評價指標

文中選擇準確率(Accuracy)指標來評價方法和模型的性能。準確率是群組行為識別任務廣泛采用的指標,準確率計算方法如式(7):

(7)

其中,nij指真實標簽是i,分類預測結果標簽是j的樣本數量。njj是nij的特殊情況,代表真實標簽和分類結果標簽均為j。N代表參與測試和評價的樣本總數量,Acc代表準確率。準確率越高代表方法和模型的效果越好。

4.3 實驗環境

本文在64位系統Ubuntu16.04上安裝了pytorch深度學習框架,該計算機GPU由兩塊NVIDIA GeForce GTX 1080與一塊NVIDIA GeForce TITAN xp組成,共有四塊GPU。CPU采用Intel Core i7-8700k型號。內存大小為48G,編程環境選擇python3.6環境。

4.4 實驗方法

本文的實驗方法選擇標注幀的前五幀與后四幀,包括標注幀在內的10幀時序連續圖像作為輸入。在消融實驗中,將調整包括標注幀在內的時序連續圖像的數量,比如調整為25幀時序連續圖像。本文中的卷積神經網絡采用殘差網絡與密集網絡的3D膨脹版本,該網絡的特性是不需要預訓練也能表現出較好的性能,省去了龐大的預訓練開銷。輸入圖像需統一調整分辨率為224×224,并經過數據擴充處理。本文的數據擴充方法為多尺度隨即裁切,即裁切由最小長度與尺度乘積定義的區域,比例從1.0,0.875,0.75,0.66中隨機選擇。同時,對每3幀圖像,執行水平翻轉操作的概率為50%。之后分別提取裁剪視頻幀的外觀特征與運動特征以滿足時序分割部分輸入的需要。本文的LSTM部分采用單層LSTM網絡,輸入的特征向量為4096維,LSTM隱藏單元為512個。

本文實驗采用Faster R-CNN網絡作為目標檢測方法,并對檢測出的場景中的個體目標提取外觀信息和運動信息,并送入空間流與時間流網絡。在空間流與時間流網絡中,經過膨脹3D卷積層提取融合操作,輸出的特征經過連接操作,進入LSTM網絡提取跨時間信息,并得到個體行為的特征表達,經過softmax層分類,作出最終的行為預測結果。同時本文也將使用真實位置標注的實驗結果作為對比。

本文網絡模型的優化算法選用Adam優化算法,Dropout參數的值設置為0.5,以防止過擬合現象。模型的初始學習率設置為0.001,衰減設置為每個周期的學習率衰減為上個周期的0.75。這是因為傳統的梯度下降策略將導致損失的持續增長,并且過快的梯度更新更容易過擬合。批處理數據大小為128,即網絡每個周期處理128段視頻序列。訓練周期為340個周期,即網絡對整個數據集訓練340次。

4.5 對比實驗結果分析

為了研究本文提出的多流3D融合網絡在個體行為識別任務中的提升效果,本文在volleyball數據集上進行了模塊遞進的消融實驗,各方法消融實驗結果見表1。

表1 Volleyball數據集上的消融實驗結果

在表1中,將本文方法與各方法進行了對比,該對比實驗未使用真實位置標簽,而是利用Faster-RCNN網絡對群組中個體進行空間定位,同時對輸入視頻段的采樣設置為3幀一段。表1中Two-Stream表示傳統時序分割雙流網絡方法;Inflated-3D表示經過膨脹操作后的3DresNet101網絡方法;Two_Stream+LSTM與Inflated+LSTM代表為這兩種網絡添加LSTM層后形成的網絡方法;Ours代表本文提出的方法。由表1可知,雙流網絡的識別準確率要高于膨脹3D卷積網絡,而在加入LSTM層后,這兩種方法的識別準確率也都有所上升,不過雙流網絡方法的識別準確率依然要高于膨脹3D卷積方法的識別準確率。而本文提出的方法由于融合了這幾種網絡的特點,其識別準確率均高于這幾種網絡的識別準確率。

表1中的方法的損失與準確率收斂曲線如圖6所示。圖6(a)中,雙流網絡的時間流需要對光流圖提取時間信息,導致整體訓練速度較慢,損失震蕩較明顯,需要較長時間收斂。而膨脹3D網絡將時間信息作為一個維度的信息進行提取,訓練速度較雙流網絡要快,損失對比雙流網絡收斂較快,但最終收斂損失比雙流網絡要高。添加分段LSTM模塊的雙流網絡與膨脹3D網絡損失收斂更快,這是LSTM網絡更好地提取時間信息的緣故。本文提出的方法結合了多種網絡的優點,損失下降最快,且震蕩較小,最終收斂損失也最低。圖6(b)中也能看出,本文提出的方法的準確率最高,對比雙流LSTM網絡與膨脹3D網絡的準確率,分別提高了1.7%和4.6%。

(a) 損失收斂曲線

(b) 準確率收斂曲線

不同融合方法的對比實驗結果見表2。3種融合方法在volleyball數據集上的實驗準確率如圖7所示,Direct-Connection代表直接連接融合,Fully-Connection代表全連接融合,Residual-Connection代表基于全連接融合的殘差連接融合。其中殘差連接融合準確率最高,對比直接連接融合與全連接融合分別提升了2.6%和1.9%。實驗證明,使用殘差連接融合處理組合特征向量豐富了特征中的信息,提升了識別性能。

表2 不同融合方法的對比實驗結果

圖7 3種融合方法的準確率收斂曲線

4.6 與其他方法對比分析

將本文提出的方法與Bagautdinov提出的方法進行了對比,實驗結果見表3。

表3 Volleyball數據集上的對比實驗結果

Bagautdinov-single代表輸入圖像幀數為1幀;Bagautdinov-temporal代表輸入圖像幀數為10幀序列;Ours代表本文提出的方法,3S代表輸入視頻分割方法為3幀一段,5S則代表以5幀一段進行分割,GT代表使用真實位置標簽進行目標定位,否則代表使用Faster R-CNN網絡進行目標定位。由表3可知,本文提出的方法在不使用真實位置標注的情況下,識別準確率要低于Bagautdinov提出的方法。而使用了真實位置標注后,本文的方法的識別準確率則高于Bagautdinov方法。另外,5幀分割方法的識別準確率要高于3幀分割方法,這是因為獲得了更多的輸入幀,從輸入中提取的時間信息更加豐富。而對于可能出現的模糊、遮擋情況,Faster R-CNN網絡檢測極易出現偏差,且對于某些實際邊界框個數少于真實邊界框標簽個數的場景,本文采用將其特征置0的處理方式,這同樣也會影響個體行為識別結果,而真實位置標注也不會存在這樣的問題。

4.7 混淆矩陣分析

使用Faster R-CNN定位與真實位置標注定位的實驗混淆矩陣如圖8與圖9所示。可以看出,使用真實位置標注定位的準確率要高于使用Faster R-CNN定位的準確率。兩者在setting,jumping,moving等動作的識別準確率上有較大差異。這是因為Faster R-CNN定位的目標位置與真實位置有偏差,以及忽略某些人物的位置預測所造成的。如圖10所示,藍框為Faster R-CNN檢測到的人物位置框,黃圈中則為未檢測的人物。由于場景與人物互相遮擋,以及實際邊界框個數與標簽不匹配等問題,會造成人物定位的偏差與遺漏,從而導致識別準確率下降。

圖8 Faster R-CNN定位的混淆矩陣

圖9 真實位置標注的混淆矩陣

圖10 Faster R-CNN檢測失敗對比圖

5 結束語

本文主要介紹了結合了雙流網絡與3D卷積網絡特性并改良的網絡模型,該網絡模型提取視頻幀的外觀特征與運動特征,并經過膨脹3D卷積模塊,雙流卷積網絡與長短期記憶網絡提取跨時間信息。最終學習視頻時序變化的全局描述,達到進行精確的個體行為識別的目的。在volleyball數據集上的實驗證明了本文提出的模型在群組中個體行為識別任務中的有效性。考慮到現實場景任務中的復雜性,如何在更加復雜的場景中更有效快速地完成人體行為識別任務,正是未來工作的重點之一。

猜你喜歡
特征融合方法
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
從創新出發,與高考數列相遇、融合
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 国产黄在线免费观看| 日韩一级二级三级| 亚洲av中文无码乱人伦在线r| 国产精品视频第一专区| 国产精品13页| 欧美日本视频在线观看| 成年人国产网站| 国产99精品久久| 特级aaaaaaaaa毛片免费视频| 黄色网在线免费观看| 亚洲大学生视频在线播放| 亚洲国产午夜精华无码福利| 青青草原国产av福利网站| 国产亚洲成AⅤ人片在线观看| 一级爆乳无码av| 国产在线一区视频| 九色视频一区| av尤物免费在线观看| 亚洲最新网址| 精品无码专区亚洲| 国产不卡网| 免费一极毛片| 狂欢视频在线观看不卡| 亚洲欧美极品| 成·人免费午夜无码视频在线观看 | 免费无码AV片在线观看中文| 人妻精品全国免费视频| 亚洲精品色AV无码看| 手机在线看片不卡中文字幕| 国产91线观看| 国产精品人成在线播放| 99热这里只有精品免费| 久久精品国产999大香线焦| 国产精品白浆在线播放| 精品国产成人av免费| 国产嫩草在线观看| 呦女亚洲一区精品| 欧美成人亚洲综合精品欧美激情| 鲁鲁鲁爽爽爽在线视频观看| 在线观看欧美国产| 婷五月综合| 找国产毛片看| 日韩在线播放欧美字幕| 亚洲视频二| 免费毛片视频| 狠狠色噜噜狠狠狠狠色综合久| 无码综合天天久久综合网| 亚洲床戏一区| 国产人人射| 中国国语毛片免费观看视频| 久久婷婷五月综合97色| 日韩精品无码免费专网站| 国产超碰在线观看| 久久精品国产电影| 色综合手机在线| 71pao成人国产永久免费视频| 亚洲一区网站| 免费一级无码在线网站| 99热这里只有精品免费国产| 欧美午夜理伦三级在线观看| 亚洲人妖在线| 婷婷久久综合九色综合88| 黄色网址免费在线| 久久黄色免费电影| 色婷婷丁香| 婷婷色一二三区波多野衣| 精品国产免费观看| 精品国产自在在线在线观看| 在线精品视频成人网| 中文国产成人精品久久| 少妇高潮惨叫久久久久久| 国产区在线看| 亚洲人成人伊人成综合网无码| 国产黑丝一区| 亚洲天堂福利视频| 国产精品欧美日本韩免费一区二区三区不卡 | 四虎永久免费网站| 天天综合网在线| 波多野衣结在线精品二区| 国产成人AV综合久久| 日本精品视频一区二区| 91久久偷偷做嫩草影院电|