999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合的三維卷積神經網絡的視頻流分類研究

2018-10-17 12:25:36裴頌文楊保國顧春華
小型微型計算機系統 2018年10期
關鍵詞:分類動作融合

裴頌文,楊保國,顧春華

1(上海理工大學 光電信息與計算機工程學院,上海 200093)

2(復旦大學 管理學院,上海 200433)

1 引 言

在過去的幾年里,圖像分類以深度學習的方式引起人們廣泛關注.研究人員相繼設計了眾多先進模型(如AlexNet、VGGNet、ResNet、Inception-v3),它們都能有效地識別靜態圖像.分類圖像的重要基礎是開源免費的高分辨率大規模圖像數據庫和相對便宜成本的GPU提供的高吞吐量的運算.深度學習模型的預測準確率接近甚至超過人類的表現.靜態圖像識別由于只包含二維信息,優秀的訓練模型基本取得了較好的識別效果.這個方向的下一步不是靜態圖像中的對象識別,而是動作識別、視頻分類的三維信息.給出一段包含了時間、空間信息的視頻,根據這些信息來判斷人或者感興趣的物體在進行什么行為,稱為視頻行為識別[1,2,4].事實上,成功的動作識別方法與目標識別采取類似的技術,通過本地視頻描述符的統計模型來表示動作.然而與靜止對象不同,動作的特征在于由運動控制并隨時間變化.與這現象一致,基于運動的視頻描述符(如HOF和MBH)以及最近的基于CNN的運動表征已經在實踐中顯示出動作識別帶來的經濟效益.

卷積神經網絡(CNN)的興起展示了學習視覺表征的力量.CNN在大規模的數據集中訓練,迅速占據了大多數靜態圖像識別任務如對象、場景和人臉識別.近期的研究工作已經提出了CNN對視頻中動作識別的擴展[3,5].然而這種方法目前僅顯示對早期使用手工制作的視頻特征方法進行適度改進.目前的動作識別方法通常面向靜態圖像的擴展CNN架構,學習1到16幀的短視頻間隔動作行為[7].

集成學習(Ensemble Learning)方法采樣規則常見的Boosting、Bagging、Stacking,原理是把各個學習結果進行整合從而獲得比單個學習器更好的學習效果的一種機器學習方法.本文使用Tensorflow作為后端的Keras框架的merge融合也是集成學習的一種,建立3DConvNet_Ensemble模型在UCF-101數據集上進行視頻流分類研究.

2 相關研究

視頻分類問題已經研究了很多年,使用手工特征的方式提出了許多解決問題的方法.GPU的應用和Krizhevsky等人在ImageNet競賽中獲勝使得深度學習方法廣受歡迎[12].Inception-v3模型獲得僅0~3%的top-5錯誤率.Ding等人提出了3D深度學習方法應用于超分辨圖像重建[6,17,18].Karpathy等人提出在Sports-1M,UCF-101等數據集上使用多分辨率CNN模型方法[16].Jeff等人在UCF-101基準測試中提出了長期遞歸循環卷積(LRCNs)架構[13].Zhou等人提出訓練更深層次的圖像特征進行場景識別任務研究[ [14],Girshick等人提出豐富特征層次方法進行分類[15].Wu,Wang等人提出多維度視頻流的方式,即使用時間維度、空間維度、聲音三個通道[8,9].早期關于動作識別的研究工作主要集中于本地視頻功能與Bagof-特征直方圖或Fisher矢量表示相結合的方法.盡管典型的流水線和早期的用于對象識別的方法類似,但是已經發現使用局部運動特征,特別是運動邊界直方圖在實踐中對于動作識別非常重要.對動作的時間結構的顯式表示很少被用于一些例外情況,如使用時間因子進一步提取特征用來表征視頻外觀和動作的評估.使用CNN學習視覺表征與靜態圖像中許多識別任務的“手工提取”特征相比,顯示出明顯的優勢.文獻[10,11]已經提出了CNN對視頻中動作識別表示的擴展,其中一些方法使用靜態CNN功能對單個視頻幀進行編碼.對視頻幀被視為2D CNNs的多通道輸入的短視頻剪輯的擴展也研究.針對原始像素輸入和預先計算的光流特征已經解決了動作識別學習的CNN表示.與前期使用手工表示獲得結果一致,基于運動的CNN通常優于針對RGB輸入學習的CNN表示.研究運動和外觀的多分辨率表示,其中基于運動的CNN模型證明高質量光流估計的重要性.最近已經證實類似的發現,研究人員將從高質量光流算法轉移到運動矢量編碼表示[10].

目前的CNN方法大多數都使用具有2D卷積的架構,從而在圖像平面中實現了位移不變的表示.由于動作的開始和結束一般是未知的,時間維度的轉換不變性對于動作識別也很重要.具有3D時空卷積[11,16]的CNN解決了這個問題,并且向視頻提供2DCNN的自然延伸.3DConvNet已被廣泛研究而逐漸獲得認可.然而,所有這些方法都學習RGB輸入的視頻表示.此外,它們通常考慮非常短的視頻幀間間隔.本文將3DConvNet進行融合集成,能夠做到接近全部時間尺度上實現動作表示;還探討了光流輸入對動作識別的影響.實驗證明,采用本文擴展后的方法具有明顯的優勢.

3 模型架構

3.1 3DConvNet_Ensemble模型

基于3DConvNet[1]模型,本文提出融合的三維卷積神經網絡模型3DConvNet_Ensemble.3DConvNet模型是由輸入層、3D卷積層、3D最大池化(Maxpool)層、DropOut層、Flatten層、Dense層、Activation層構成,如圖1所示.通過構建10個3DConvNet模型序列,把10個輸出結果merge再次進行輸出而構成3DConvNet_Ensemble模型,如圖2所示.

圖1 3DConvNet模結構與參數Fig.1 Structure and parameters of 3DConvNet model

圖2 3DConvNet_Ensemble模型Fig.2 3DConvNet_Ensemble model

3.2 模型分析

1)輸入層

模型輸入是連續的視頻序列,所以需要對他們進行規范化.本文用最近鄰插值的方法來刪除或者重復一些幀,從而構建出32個幀的視頻序列.

2)3D卷積層

三維卷積對三維的輸入進行滑動窗卷積,當使用該層作為第一層時,應提供輸入層的輸入參數.考慮一個視頻段輸入,其大小為 c*h*w*l,其中c為圖像通道(3為彩色視頻圖像,1為黑白圖像),h和w分別為視頻的寬與高,l為視頻序列的長度.圖3中in_depth(同depth)代表一個sample輸入幾個幀,每幀代表一個圖片.由圖1可知,初始3D卷積層輸入參數為1*32*32*10.圖中的None為batch,可以通過運行時傳入參數,不傳默認為128.進行一次kernel size為3*3*3,stride為1,濾波器個數為32的3D 卷積后,輸出的大小為32*32*32*10.因為3D卷積是對空間和時間的維度進行處理,當輸入視頻列的長度為10幀,代表截取10張圖片.經過cv的一系列函數來提取時間維度的信息,光流場是圖片中每個像素都有一個x方向和y方向的位移.得到x方向的光流和y方向的光流,所以些光流計算結束后得到的光流flow是個和原來圖像大小相等的雙通道圖像,如圖3所示.實線路徑為單張圖片通道,包含空間信息;虛線路徑提取視頻時間維度,包含時間信息,即虛實線構成卷積層的雙通道.

圖3 conv3d原理圖Fig.3 Schematic diagram of conv3d

3)DropOut層

Dropout層將在訓練過程中每次更新參數時隨機斷開一定百分比(rate)的輸入神經元,Dropout用于防止過擬合.Dropout 的思想其實就是把深度神經網絡模型當作一個集成模型來訓練,之后取所有值的平均值,而不只是訓練單個模型.網絡模型將Dropout率設置為 p,即一個神經元被保留的概率是 1-p.當一個神經元被丟棄時,無論輸入或者相關的參數是什么,它的輸出值就會被設置為0.DropOut_1和DropOut_2層的p值設置為0.25,DropOut_3層的p值設置為0.5.

4)Maxpool3d層

Maxpool3d層的目的為3D信號(一般為空域或時空域)施加最大值池化.池化尺寸為長為3的元組,代表在三個維度上的下采樣因子.模型中的pool_size為(3,3,3)將使信號在每個維度都變為原來的三分之一長,所以經過這一層后,輸出為32*11*11*4,32是特征圖的數量,保持不變.

5)Flatten層

Flatten層的目的是將輸入平鋪,即把多維的輸入一維化,一般用在從具有多個map的層級到全連接層的過渡.Flatten不影響batch大小,因此輸出變為一個維度,為64*32=2048.

6)Merge層

Merge層的目的是用來合并多個model的,因此提供了一系列用于融合兩個層或兩個張量的層對象和方法.Merge是一個層對象,是層級類,而merge是張量的函數,張量函數在內部實際上是調用了Merge層.論文模型使用的是ave函數.

3.3 算法描述

輸入:input_shape,nb_classes //輸入形狀、分類類別

輸出:model

1. model= Sequential()//建立順序模型

2. for k=0,1 do //循環兩次

3. model.add(Convolution3D());//3D卷積層1

4. model.add(Convolution3D());//3D卷積層2

5. model.add(MaxPooling3D());

6. model.add(Dropout(0.25));

7. model.add(Flatten())

8. model.add(Dense());

9. model.add(Dropout(0.5));

10. model.add(Dense());

11. model.add(Activation(′softmax′));

12. model.add(Merge(models,mode=′ave′))//融合(集成)模型13. return model;

模型對3D卷積層、Maxpool3d層、Dense層進行relu優化.融合后的模型使用adm優化器.算法設置的詳細參數如表1所示.

表1 超參數配置表Table 1 Configuration tables of super parameter

4 實驗結果

4.1 實驗環境

實驗運行在8G內存、GTX 750Ti的機器上.本文用Keras搭建模型,使用 TensorFlow平臺作為后端,Python3.5的環境下開展研究.需要安裝的Python庫分別為Keras,Tensoflow.由于要處理視頻序列,安裝的是opencv3(-with ffmpeg)版本,還需要numpy,tqdm庫的支持.TensorFlow使用的是r1.0.1版.環境的搭建主要通過pip命令進行安裝.

4.2 UCF-101數據集

UCF-101是包括真實動作視頻的動作識別數據集,來自YouTube,具有101個行為類別.這組數據是具有50個動作類別UCF-50數據集的擴展.UCF-101數據集中的101個動作類別含有13320個視頻,在動作方面提供了最大多樣性.該數據集在相機運動、物體外觀和姿勢、目標尺度、視點、雜亂背景、照明條件等方面存在著較大變化.UCF101旨在鼓勵通過學習和探索新的切實可行的動作類別來進一步研究動作識別.101個動作類別的視頻被分成25組,其中每組可由4-7個動作視頻組成.從同一組中的視頻可以共享一些共同的特征,如相似的背景,同樣的視點等.

4.3 實驗分析

1)10類場景的實驗

UCF-101數據集為101類的場景動作視頻集合,本文在101類場景中隨機選擇10類動作場景視頻用于對提出的3DConvNet模型做分類識別準確率實驗研究.分別對2DConvNet 和3D ConvNet模型進行了實驗分析.實驗結果如圖4、圖5所示,標注加號的曲線為訓練的精確度,標注四邊形的曲線刻畫了評估測試的精確度,下同.本文取數據集的80%的用作訓練,剩下的20%用作對訓練后的模型進行評估.可以有效防止模型出現訓練過好,未經過測試評估過程造成的模型泛化能力(新樣本的適應能力)較差的問題.

圖4、圖5的訓練均差不多在30個epoch就逐漸趨于穩定.訓練模型具有充分地數據進行訓練,表現都越來接近1,然而訓練的結果不能很好地判斷一個模型的好壞.將模型未見過的數據來進行評估,能很好地了解模型的適應能力.所以將評估的準確率作為判斷模型的標準,下同(不同的另行敘述).

圖4 2DConvNet在10類場景分類的識別率Fig.4 Ten scenes classification rate of 2DConvNet

圖5 3DConvNet在10類場景分類的識別率Fig.5 Ten scenes classification rate of 3DConvNet

由表2可知,3DConvNet在數據集上的表現比2DConvNet的分類精確度高5%~6%.在場景少的情況下,還有一定程度的數據提高,顯示出3DConvNet對時空信息的特征提取與訓練是比較充分與有效的.而2DConvNet則丟失時間維度的信息,在少類別的場景下,差距還不是非常明顯.接下來本文就對完整的UCF-101數據集來進行分類,對比各模型的表現.

表2 10類場景分類結果Table 2 Result of 10 types scene classification

2)101類場景的實驗

101類的場景由于包含的種類繁多,數據規模增加9倍,先使用2DConvNet、3DConvNet模型進行分類.隨著訓練的不停迭代,loss逐漸下降,然而無法下降到較小的值.2DConvNet模型的loss為0.43,3DConvNet模型的loss為0.54,均無法接近0.因此模型在數據集上的效果不好,分類的準確率也無法得到一個滿意的結果,實驗結果如圖6、圖7所示.對比10類場景,兩個模型在101類的場景下的訓練差不多在80個epoch上才趨于穩定,達到模型的最好狀態.這說明數據量的提高對執行時間復雜度有著直接的影響.圖6為2DConvNet在101類視頻上的表現,基本說明2D的模型無法適應這種多維度信息的訓練.而3DConvNet由于包含了對時間維度上的訓練,比2DConvNet模型的分類精確度提高了13%.然而在這種視頻大數據下,單模型的訓練會充分暴露訓練的不充分性,會丟失大量幀與幀之間的關聯信息.這時融合模型的優勢就完全得以體現,顯示其多樣性和強大的適應面.但是多少個模型的融合才是最優的方式,需要實驗的驗證判斷選擇.

圖6 2DConvNet在101類場景分類的識別率Fig.6 101 scenes classification rate of 2DConvNet

圖7 3DConvNet在101類場景分類的識別率Fig.7 101 scenes classification rate of 3DConvNet

3DConvNet_Ensemble模型是在UCF-101數據集上進行兩次模型融合實驗對比,分為10個3DConvNet和20個3DConvNet模型融合而成的實驗.模型也都進行100次周期的迭代,隨著每次的迭代,識別率會不斷的提升.最后會逐漸穩定在一個值,達到了穩定狀態.本文發現10個以上的模型融合效果與10個3DConvNet融合的結果相差無幾,且較10個執行時間還偏長,因此選擇10個模型進行融合即可.因此下面的實驗執行10次,nmodel參數設為10,訓練結果如圖8所示.對比單模型的3DConvNet,3DConvNet_Ensemble在60個epoch就趨于穩定達到平衡,而且分類準確率得到很大的提升,提高了17%.實驗結果表明,融合模型能夠有效地挖掘并訓練數據之間的關聯信息,增強了3DConvNet模型的適應能力.如圖8所示,本文選取的是訓練的精確度,與前文都選擇評估的曲線的方式不一致.原因在于本文模型的構建就是在一些模型訓練完的基礎上進行的合并融合,這時的單模型訓練精確度的泛化性較高,整體對多種數據的輸入也就能很好地進行分類.而且模型本身均通過訓練評估階段,這樣使用100%的完整數據訓練完,才能進行高效一致性的評比.表3顯示了3種模型在101類場景分類下的結果.2DConvNet在101類的場景下分類效果很差,使用3DConvNet的方式有效地提高了分類效果,接近70%的比率.與LRCN等模型方法比較,效果還是相差很遠.本文的3DConvNet_Ensemble集成模型經過模型的融合,并再次進行訓練,達到了87.7%的分類準確率.對比傳統單模型3DConvNet的訓練過程,3DConvNet_Ensemble模型則并行執行10次后,再將結果合并訓練.采用2G顯存的GPU加速計算,3DConvNet的執行時間為4小時30分鐘.而3DConvNet_Ensemble執行時間為19小時40分鐘,本文模型的執行時間比3DConvNet模型的執行時間增加了4.37倍.

圖8 3DConvNet_Ensemble的最優與最差的實驗結果Fig.8 Optimal/worst results of 3DConvNet_Ensemble model

表3 101類場景分類結果Table 3 Result of 101 types scene classification

實驗結果還表明了,采用本文算法的分類準確率低于采用長期時間卷積(LTC)模型[2]所獲得的92.7%的分類準確率.文獻[2]使用了Titan X GPU和8核CPU進行長期時間卷積模型訓練,模型增添時間的區段,因此實驗過程中訓練的時間較長.而本文的融合模型通過提取幀與幀的關聯特征,減少時間區段的累積訓練以減少訓練時間.

5 結束語

本文主要在Tensorflow平臺上對UCF-101數據集研究視頻分類及評估方法,并對不同類別、不同卷積計算模型進行實驗對比.由于UCF數據集10分類類別少于101分類類別,故執行速度較快,且對它采用2DconvNet、3DConvNet模型的分類準確率也都是比較高的.而101類的視頻場景分類,用2DConvNet、3DConvNet模型進行分類的準確率明顯偏低,而采用3DConvNet_Ensemble模型對于UCF數據集101類的視頻場景分類準確率有顯著提高.下一步工作計劃嘗試用不同結構類型的卷積計算模型進行多維度視頻分類研究.

猜你喜歡
分類動作融合
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
分類算一算
從創新出發,與高考數列相遇、融合
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
分類討論求坐標
數據分析中的分類討論
動作描寫要具體
教你一招:數的分類
畫動作
主站蜘蛛池模板: 国产三级精品三级在线观看| 国产精品成人观看视频国产 | 一级做a爰片久久免费| 亚洲熟女偷拍| 亚洲精品视频免费| 久久伊人操| 国产精品主播| 最近最新中文字幕在线第一页| 亚洲日本中文综合在线| 波多野结衣二区| 一级做a爰片久久毛片毛片| 成人国产精品2021| 一区二区三区精品视频在线观看| 国产精品丝袜在线| 香蕉99国内自产自拍视频| 日韩亚洲综合在线| 亚洲Av激情网五月天| 在线视频精品一区| 久久大香香蕉国产免费网站| 国产精品亚洲日韩AⅤ在线观看| 91成人在线免费观看| 国产青榴视频| 亚洲国产一区在线观看| 91久久偷偷做嫩草影院电| 国产av剧情无码精品色午夜| 国产欧美在线观看一区| 99这里只有精品免费视频| 精品人妻一区二区三区蜜桃AⅤ| 本亚洲精品网站| 国产三级视频网站| 日韩精品一区二区三区中文无码 | 国产精品国产主播在线观看| 日本成人精品视频| 国产成人精品2021欧美日韩| 91破解版在线亚洲| 欧美精品H在线播放| 一区二区在线视频免费观看| 激情国产精品一区| 亚洲最大综合网| 免费不卡视频| 日韩精品成人在线| 熟妇人妻无乱码中文字幕真矢织江 | 国产va欧美va在线观看| 女人18毛片久久| 欧美特黄一免在线观看| 精品视频第一页| 一区二区三区毛片无码| 国产91色| 久久综合婷婷| 国产成人你懂的在线观看| 中文字幕 日韩 欧美| 色哟哟国产精品| 色偷偷一区二区三区| 一级毛片在线播放免费观看 | 亚洲无线视频| 欧美三級片黃色三級片黃色1| 久久这里只精品热免费99| 国产精品hd在线播放| 最新国产精品第1页| 亚洲欧美不卡中文字幕| 9丨情侣偷在线精品国产| 最新国产高清在线| 亚洲国产综合第一精品小说| 88av在线播放| 中文字幕亚洲电影| 国产美女一级毛片| 无码粉嫩虎白一线天在线观看| 青青国产成人免费精品视频| 呦女亚洲一区精品| 中文天堂在线视频| 精品一区二区三区中文字幕| 国产亚洲精品资源在线26u| 国产午夜精品一区二区三| 免费在线色| 国产黑丝一区| 成人无码一区二区三区视频在线观看 | 国产欧美日韩免费| 国内精品久久九九国产精品| 无码精油按摩潮喷在线播放| 国产不卡网| 精品视频在线观看你懂的一区| 麻豆精品国产自产在线|