999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于雙流卷積神經網絡的人體行為識別方法①

2019-08-16 09:11:16王傳旭
計算機系統應用 2019年7期
關鍵詞:特征

劉 云,張 堃,王傳旭

(青島科技大學 信息科學技術學院,青島 266000)

1 引言

隨著各種攝像監控設備的快速發展,視頻和圖像的數據量在不斷增加.如何分析視頻圖像中的信息也成為一個熱門的研究內容,視頻分析中的一個重要分支就是行為識別.人體行為識別的目標是從一個未知的視頻或者是圖像序列中自動分析其中正在進行的行為,目前對于行為識別的研究熱點主要是對短視頻中單個行為的識別,而在實際生活及應用中,更多的視頻數據是包含多個不同行為的復雜長視頻.這就需要使用另一種識別算法:時序行為檢測(temporal action localization).這種算法任務要求檢測出長視頻中每個行為的類別,同時要標注出每個行為的開始時間和結束時間.這種算法可以應用到許多方面,比如自動檢索和智能監控等.

時序行為檢測通常可以分為兩個階段,提議生成階段和分類識別階段.提議生成階段的主要目標是生成可能含有行為動作的視頻片段,視頻片段稱為行為提議,而分類識別階段的任務則是對提議生成階段產生的行為提議進行識別分類,并且進一步確定行為類別和起止時間.盡管目前傳統的行為識別已經達到較高的準確度,但是在確定行為起止時間上仍然不盡如人意[1,2].因此,如何產生高質量的行為提議,成為該內容的一個重點研究方向[3-6].為了獲得高質量的提議,提議生成階段產生的提議在持續時間上需要靈活可變,用于應對視頻片段持續時間長短不一并且差距較大的問題,同時產生的提議應具有精確的時間邊界.最近的一些提議生成方法[3-5,7]利用不同長度的滑動窗口來生成提議,然后使用訓練好的模型來評估提議的置信度,但是,這種預先定義持續時間和間隔時間來產生提議的方法有一些明顯的缺點:(1) 起止時間的精確度不足;(2) 固定的行為片段長度無法處理不同持續時間的行為動作,而在不同行為動作持續時間差距較大時,更會出現無法滿足不同持續時間的要求,而增多滑動窗口的數量又會帶來大量冗余的計算.

最近的研究[7-9]將深度神經網絡應用到檢測框架中并且獲得了較好的性能表現.S-CNN[7]提出了一個多階段的卷積神經網絡,該算法通過使用定位網絡提高了識別精度.然而,S-CNN 使用滑動窗口產生行為提議,C3D[10]作為特征提取器最初用于單元分類器,只能容納16 幀作為輸入,在應對時序行為檢測任務時,需要消耗大量的時間進行計算.另一項研究[8]使用遞歸神經網絡(RNN)來學習預測動作的起點和終點的一種策略.這種順序預測對于處理長視頻通常非常耗時,并且它不支持用于特征提取的逐幀CNN 的聯合訓練.

本文在上述背景下,為了克服滑動窗口的缺點,生成高質量的行為提議,本文提出了基于雙流卷積神經網絡[11]的時序行為檢測模型.該模型基于雙流卷積神經網絡提取的特征,產生覆蓋時間靈活可變的行為提議,之后送入多層感知機中進行邊界迭代回歸,然后將行為提議擴展為三段式的特征序列設計,最后輸入分類器中進行動作分類.

2 識別模型

本文提出一種基于雙流卷積神經網絡的模型,如圖1所示.首先使用雙流卷積神經網絡提取長視頻的特征序列,然后將該特征序列作為模型的輸入,使用Temporal Actionness Grouping (TAG)[12]方法在特征序列上靈活地生成行為提議.利用多層感知機對每一個行為提議的起止邊界進行迭代操作,這一過程可以更為精細地處理行為提議的邊界,使之更加貼近真實的邊界信息.每一個行為提議都會使用三段式特征描述重新設計,三段式設計將行為提議劃分為開始區間、進行區間和結束區間,按照前后順序對應拼接相應的特征序列.最后對包含目標動作的行為提議進行行為識別,獲得分類結果.

圖1 基于雙流卷積神經網絡的人體行為識別模型

2.1 問題描述

一個未分割的長視頻可以表示為X=其中xn表示視頻X中的第n幀.視頻X的動作標注由一組動作實例組成,An是視頻X中真實動作實例的數量,ts,n,te,n分 別是動作實例 φn的開始時間和結束時間.本文算法的任務就是自動定位每段行為的起止位置并識別它們的行為屬性.

2.2 特征序列提取

為了提取雙流卷積神經網絡特征,將視頻劃分為T個連續等長且無重疊的單元,則視頻可以表示為T表示視頻中單元的數量,一個單元st=xtn,otn表示兩部分的內容,xtn是視頻X中的第tn個RGB 幀,otn是 以xtn幀為中心,附近的堆疊光流場.為了減少計算損耗,使用規律的幀間隔提取單元.本任務所用數據集中的視頻數據量大,相鄰的幀信息冗余度較高,密集采樣耗時且不必要,因此使用規律的幀間隔提取單元,在每個單元上獲取特征,可以在保證信息完整度的前提下降低計算損耗.

給定一個單元st,在空間和時間網絡的頂層連接輸出分數以形成編碼特征向量ftn=(fS,tn,fT,tn) ,其中fS,tn,fT,tn分別表示空間網絡和時間網絡的輸出向量.因此給定一個長度為ls的單元序列S,可以提取出特征序列雙流卷積特征序列將被送入TAG 網絡中生成行為提議.

2.3 行為提議

相比較于滑動窗口而言,TAG 方法能靈活的生成不同長度的動作提議,同時并不需要大量的計算.TAG 方法使用了一個行為分類器來評估每個單元中發生動作的概率,這個行為分類器是一個二元分類器.該方法的基本思想是找到高動作概率的連續區域,為了實現這個目的,該方法重新設計了一個經典的分水嶺算法,并把它應用到了一維的動作概率值上.該方法通過設置不同的“水位”可以得到一系列的“盆地”,每一個盆地對應了時域范圍內一段高動作概率區域.

給定一系列的盆地G,選用了一種類似于文獻[13]的聚類方法,這種方法試著連接小盆地變成行為提議區域.該方案的工作流程如下:先從一個種子盆地開始,并且連續吸收隨后的盆地,直到盆地部分在整個持續時間內(即從第一個盆地開始到最后一個盆地結束)的部分下降到某個閾值Y以下.通過這種方法,可以從不同的種子盆地開始產生一組區域,用G′(τ,γ)來表示.注意 τ 和 γ并不是選擇好的特定組合,而是均勻地從(0,1)之間采樣,步長為0.05.這兩個閾值的組合將會產生多組區域.然后,將他們結合起來,并使用非極大值抑制的方法過濾重疊度高的區域,設置IoU 閾值為0.95.生成的行為提議將被送入多層感知機中邊界回歸.

2.4 邊界回歸

時域上進行邊界回歸的基本思路是利用神經網絡推斷行為提議的邊界.本文使用多層感知機作為回歸網絡,將行為提議作為輸入,輸出坐標回歸偏移量,具體計算如式(1).

其中,sclip,eclip分別是輸入的行為提議的開始和結束坐標,sgt,egt分別是與之對應的真實數據的開始和結束坐標.本文使用的坐標回歸模型有兩個優點:第一,使用單元級坐標回歸,這與雙流卷積神經網絡基于單元提取特征的方式相匹配,計算消耗也比較小;第二,不使用坐標參數化,直接使用起始坐標的偏移量作為回歸結果.這是因為行為提議的坐標回歸在時域進行,而空間坐標回歸在空間域進行,由于相機投影,目標可以在圖像中重新縮放,因此需要先將邊框坐標標準化為某個標準尺度.而時域坐標可以依靠時域本身作為標準尺度,不需要進行參數化.

在訓練邊界回歸網絡時,需要給行為提議分配標簽用以判斷該行為提議中是否包含行為.對于一個行為提議,計算它和所有標定好的真實數據的tIoU(temporal Intersection over Union)重疊值,如果其中的最大值超過了0.5,則將最大值對應的真實數據的邊界和類別信息賦予該行為提議.并將該行為提議視為正樣本,即含有行為,否則視為負樣本.

如圖2所示,本文的邊界回歸任務由多層感知機使用迭代的方式完成,邊界回歸的輸出結果作為輸入再次送入多層感知機中進行計算,重復多次以獲得更為精確的結果.該回歸模型將行為提議作為輸入,輸出時域上的坐標回歸偏移量,計算之后得到回歸后的邊界坐標值.對于該層網絡,給定一個候選提議的邊界數據輸入值pc=[ts,te],輸出數據p1c=[t1s,t1e]會作為輸入進行第二輪的邊界回歸計算,第二輪的輸出為p2c=[t2s,te2].迭代過程總共進行K次,最后的邊界結果為:

2.5 提議特征

為了建立如圖3所示的提議特征 φ,對于一個行為提議,將提議本身的范圍定義為進行區間pc=[ts,te],提議 φ的持續時間為d=te-ts.與它相關的開始區間和結束區間分別為ps=[ts-d/4,ts+d/4]和pe=[te-d/4,te+d/4].對應選擇開始、結束和進行區間三部分對應的特征序列,將這些向量前后拼接,即可獲得候選提議 φ的提議特征fφ=(fps,fpc,fpe).該提議特征具有很好的魯棒性,在引入開始區間和結束區間后,使得行為提議特征 具備了上下文信息.

圖2 邊界回歸網絡處理行為提議邊界

圖3 行為提議特征構建

2.6 行為分類

深度學習網絡常用的分類器,本文選擇使用多層感知機網絡作為特征構建后的多分類器.對于時序行為檢測任務,多層感知機網絡輸出n+1 個概率值,其中n表示數據集中行為的數量,1 表示背景類.在ActivityNet v1.3 中,n=200,在THUMOS 2014 中,n=20.每個概率值表示屬于某一類行為的概率,將最大概率值對應的行為作為行為分類的結果.

為了獲取較好的實驗結果,本文使用一個多任務損失函數來聯合訓練邊界回歸和行為分類網絡.損失函數如式(3)所示.時序行為檢測任務需要對行為定位和識別,這兩個任務息息相關,如果單獨訓練網絡會降低識別的泛化能力,可能會出現對某一任務的過擬合現象.而聯合訓練可以較好的解決這個問題,聯合訓練可以在有限的數據集內完成訓練,由于引入了額外的相關訓練數據,有助于網絡學習到更適合任務需求的參數,可以提高模型的泛化能力.行為的類別和發生時間是個體屬性的不同方面,具有較強的相關性,使用聯合訓練可以使得定位與識別任務真正地結合起來,學習到的內容彼此受益,提高時序行為檢測的準確率.

其中,Lcls是分類損失函數,對于本文中多分類任務而言,使用多分類交叉熵函數作為損失函數.Lreg是邊界回歸損失函數,λ是超參數.回歸損失函數為:

其中,R是曼哈頓距離,N是batch size,n是行為類別的總數量,是標簽,當第i個樣本屬于z類時,=1,否則,lzi=0.o′是回歸偏移量,o是真實數據.學習率設置為0.005,batch size 設置為128.

3 實驗

為了驗證本文算法的有效性,本文在ActivityNet v1.3[1]和THUMOS 2014[2]數據集上進行實驗.ActivityNet v1.3 數據集是常用的時序行為檢測數據集,包括200 類不同的動作,同時提供了邊界和種類信息標注.THUMOS 2014 中沒有訓練集,有20 類行為帶有標注.本文分別在兩個數據集上進行實驗,在各自提供的數據子集上訓練網絡,并使用預訓練的網絡進行測試,將實驗結果與現有方法進行對比分析.

3.1 數據集

ActivityNet v1.3[1]是一個用于時序行為檢測的大型數據集,其中包含19994 個帶有200 類動作標注的長視頻,在2017年和2018年的ActivityNet 挑戰中使用了該數據集.ActivityNet 按照2:1:1 的比例分為訓練集、驗證集和測試集.

THUMOS 2014[2]有1010 個視頻用于驗證,1574個視頻用于測試.這些視頻中包含20 類帶有行為標注的目標動作.該數據集沒有訓練集,使用UCF101數據集作為訓練集.由于訓練集沒有提供時間注釋,本文在驗證集上訓練模型并在測試集上進行實驗測試.因此將帶有20 類行為標注的220 個視頻用于訓練.在本文的實驗中,將本文提出的方法與THUMOS 2014和ActivityNet v1.3 上的現有技術進行比較,并進行結果分析.

3.2 實驗網絡參數設置

本文實驗環境選擇深度學習框架Caffe 平臺實現.使用SGD 方法學習模型中的參數,batch size 為128,momentum 為0.9.雙流卷積神經網絡采用ResNet 網絡用作空間網絡,BN-Inception 網絡用作時間網絡.空間網絡和時間網絡的初始學習率分別設置為0.001 和0.005.在ActivityNet v1.3 中,空間網絡和時間網絡迭代訓練次數分別為9500 次和20 000 次,學習率分別在迭代每4000 次和1000 次后縮小0.1.在THUMOS 2014 中,空間網絡和時間網絡分別進行1000 次和6000 次的迭代訓練,學習率在每400 和2500 次時縮小0.1.在特征提取過程中,單元間隔均被設置為16.在TAG 方法中使用的二元行為分類器使用每個數據集的訓練集進行訓練.在邊界回歸過程中,K=3.

3.3 實驗結果分析

評價標準:AvtivityNet v1.3[1]和THUMOS 2014[2]都有統一的評價標準,因此按照它們的評價標準測試不同IoU 閾值的平均預測精度mAP.在ActivityNet v1.3 數據集中,所需測試的IoU 閾值為{0.5,0.75,0.95},IoU 閾值范圍[0.5:0.05:0.95]的mAP 的平均值用于比較不同方法之間的性能.在THUMOS 2014 數據集中,所需測試的IoU 閾值為{0.1,0.2,0.3,0.4,0.5}.閾值為0.5 時得出的平均預測精度用于比較不同方法的實驗結果.

將本文算法與其它時序行為檢測方法在THUMOS 2014 數據集和ActivityNet v1.3 數據集上進行比較,如表1、表2所示.從表1、表2中可以發現,在這兩個數據集上,本文提出的算法識別準確率優于其它算法,識別效果較好.本文使用雙流卷積神經網絡所獲取的特征結合了運動表層特征和時序信息兩部分,更好的發掘了視頻所包含的信息.行為提議在經過多層感知機迭代處理后邊界信息更為準確,之后的三段式特征設計融合了上下文信息,一方面建立了較為全面的行為描述,另一方面提高了行為識別準確率.

4 結論與展望

為了充分獲取視頻中的時空信息,使用雙流卷積神經網絡構建特征描述符,之后通過TAG 方法產生候選行為提議,經過多次迭代處理后獲取更為準確的邊界信息,將行為提議擴展為三段式特征設計,并對目標行為進行識別.該方法在結合時序信息的基礎上,生成了質量較高的動作提名,時序邊界更為準確,識別率也有所提升.實驗結果表明該方法能在THUMOS 2014 數據集合ActivityNet v1.3 數據集上得到較好的效果.但是行為提議生成和回歸的方法著眼于局部信息,缺少與行為提議全局特征的結合分析,時序定位的準確度仍有不足.下一步的研究將會引入行為提議的特征共同分析定位準確度,獲得更為準確的時序邊界.

表1 不同時序行為檢測算法在THUMOS 2014 數據集上 的準確率(%)

表2 不同時序行為檢測算法在ActivityNet v1.3 數據集上的準確率(%)

猜你喜歡
特征
抓住特征巧觀察
離散型隨機變量的分布列與數字特征
具有兩個P’維非線性不可約特征標的非可解群
月震特征及與地震的對比
如何表達“特征”
被k(2≤k≤16)整除的正整數的特征
中等數學(2019年8期)2019-11-25 01:38:14
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
詈語的文化蘊含與現代特征
新聞傳播(2018年11期)2018-08-29 08:15:24
抓住特征巧觀察
基于特征篩選的模型選擇
主站蜘蛛池模板: 91在线视频福利| 精品国产中文一级毛片在线看| 国产高清色视频免费看的网址| 在线观看欧美国产| 亚洲性一区| 国产aaaaa一级毛片| 日韩在线1| 亚洲中久无码永久在线观看软件| 国产在线一区视频| а∨天堂一区中文字幕| 亚洲精品国产精品乱码不卞| 国产成人AV大片大片在线播放 | 久久精品人人做人人爽97| 国产人成在线观看| 视频一区亚洲| 国产成人91精品| 女人爽到高潮免费视频大全| 黄片在线永久| 亚洲h视频在线| 中文字幕 91| 亚洲全网成人资源在线观看| 欧美第一页在线| 黄片在线永久| 欧美日本在线| 国产中文在线亚洲精品官网| 波多野结衣AV无码久久一区| 综合色亚洲| 55夜色66夜色国产精品视频| 欧美精品v| 精久久久久无码区中文字幕| 日韩在线观看网站| 中文字幕av一区二区三区欲色| 久久中文字幕不卡一二区| 在线一级毛片| 视频在线观看一区二区| 欧美精品1区2区| 99精品一区二区免费视频| 精品国产免费观看| 色欲色欲久久综合网| 无码AV日韩一二三区| 女同久久精品国产99国| 国产精品熟女亚洲AV麻豆| 亚洲精品国产精品乱码不卞| 亚洲国产日韩欧美在线| 99在线观看国产| 亚洲欧美精品日韩欧美| 国产精品免费p区| 超级碰免费视频91| 无遮挡一级毛片呦女视频| 97精品久久久大香线焦| 不卡无码网| 欧美日韩国产在线播放| 日韩一区精品视频一区二区| 亚洲视屏在线观看| 欧美黄网在线| 99热这里只有精品免费| 2020国产免费久久精品99| 亚洲美女久久| 久热re国产手机在线观看| 亚洲人成高清| 一区二区三区成人| 色吊丝av中文字幕| 中文字幕欧美日韩| 色吊丝av中文字幕| 麻豆精品久久久久久久99蜜桃| 亚洲无码A视频在线| 亚洲日韩精品伊甸| 女高中生自慰污污网站| 99r在线精品视频在线播放| 在线免费a视频| 亚洲精品午夜天堂网页| 国产激情无码一区二区APP| 欧美www在线观看| 欧洲免费精品视频在线| 国产精品久久自在自2021| 一区二区自拍| 国产美女免费| av午夜福利一片免费看| 国产美女人喷水在线观看| 88国产经典欧美一区二区三区| 日本一区高清| 白浆免费视频国产精品视频|