999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于神經網絡和遷移學習的視頻人體行為識別

2021-03-01 08:45:08吳松平王天一
智能計算機與應用 2021年12期
關鍵詞:記憶

吳松平,王天一

(貴州大學 大數據與信息工程學院,貴陽 550025)

0 引 言

大數據、人工智能的快速發展,產生了大量的視頻數據,對這些視頻數據進行智能分析、視頻摘要、視頻信息檢索、運動分析等方面有重要的意義[1]。行為識別作為視頻分析的一個重要領域,相比傳統人體行為識別方式[2]。基于深度學習的人體行為識別方法能夠實現端到端的識別,深度學習算法的研究推動了行為識別研究的進步。

基于深度學習的人體行為識別的基本原理是通過構建具有提取非線性特征的卷積神經網絡、具有時間序列建模的循環神經網絡結構,并利用數據對網絡進行訓練,得到效果最好的網絡參數,提取數據集與人體行為最相關的本質特征。目前,相對于在圖像分類、人臉識別、圖像分割等方面的任務中的表現,深度學習在人體行為識別的表現依然欠佳,其原因在于視頻數據相比圖像數據還多了時間維度信息[3]。一般的神經網絡只能處理靜態圖像數據,而不能充分利用人體運動信息[4]。雙流(Two-Stream)卷積神經網絡是目前運用最廣泛的方法之一,與主要依靠圖像數據信息進行視頻分析的傳統方法相比,雙流卷積神經網絡在以圖像數據為信息的基礎上加入了時間光流信息,兩種信息分別送入卷積神經網絡,最后將兩路信息進行特征融合[5]。在雙流卷積神經網絡的基礎上,Du Tran 等人提出了3D 卷積,將2D 卷積核替換成3D 卷積核,直接對視頻幀處理[6];Feichenhofer 等人探索了雙流卷積神經網絡的融合時機[7]。

以上方法雖然綜合了時間光流信息和圖像信息,取得了較高的識別精度,卻付出了復雜度的代價,同時對長時間人體行為分析往往并不準確[8]。循環神經網絡對長時序列建模有很好的效果,但對長時間的時間建模容易產生梯度爆炸和梯度消失等問題。長短期記憶神經網絡能夠解決循環神經中出現的梯度爆炸和梯度消失的問題,被廣泛用于機器翻譯、語言識別等具有時間序列的任務中[9]。視頻數據相較于圖片數據來說具有時間先后順序的屬性,Donahue 等人提出將長短期記憶神經網絡應用于視頻數據的描述與識別,取得了較好的識別效果[10]。一般意義上的長短期記憶循環神經網絡只能處理一維向量數據,視頻幀經過特征提取網絡得到特征圖,在進入長短期記憶循環神經網絡前都要把數據降維成一維向量數據,該操作將使數據喪失空間特征。

為解決以上問題,本文將卷積長短期記憶神經網絡運用到視頻行為識別中,在對視頻幀進行時間序列建模的同時,還能夠兼顧空間信息。本文先利用卷積長短期記憶網絡對基礎網絡提取到的視頻幀特征進行一次時間序列建模,得到具有空間信息的視頻描述,對視頻描述進行下采樣,將下采樣結果送入長短期記憶神經網絡進行二次時間序列建模。得到識別效果能夠與現存算法相媲美。

1 識別網絡

1.1 識別網絡圖

本文識別網絡如圖1 所示。對輸入的視頻幀先做特征提取,得到視頻幀中層特征,對中層特征做兼顧空間信息的初次時間序列建模,獲得初級視頻描述,將視頻描述做注意力操作。

圖1 識別網絡圖Fig.1 Identification network diagram

1.2 視頻幀提取模塊

該部分使用resnet50 網絡提取特征,殘差網絡相對于其他神經網絡能夠解決梯度消失、梯度爆炸等問題。

resnet50 的網絡參數,見表1。resnet50 卷積核有7×7、3×3、1×1 3 種,resnet50 網絡有5 個部分,除了第一個部分由卷積核為7×7 卷積層和3×3最大池化層組成,其他的部分由多個殘差單元組成[11]。隨著卷積層一層層的運算,卷積核輸出的內容越來越抽象,保留的空間信息也越來越少,卷積層后經過平均池化操作減少特征圖的尺寸。平均池化完成后將特征圖打平為一維數據,作為全連接層的輸入,連接層由1 000個神經元組成。

表1 resnet50 網絡參數表Tab.1 resnet50 network parameters

本文使用除了最后全部連接層以外其余部分作為基礎特征提取網絡。基礎網絡對視頻幀做特征提取,通過網絡訓練提取到利于識別任務的中高層特征。

1.3 兼顧時空信息的初次時間序列建模

為充分利用人體行為視頻中的時空信息,該部分使用卷積長短期記憶神經網絡。與長短期記憶神經網絡相比,保留了長短時記憶神經網絡的優點的同時,還可以處理視頻幀的空間信息[12]。卷積長短期記憶神經網絡與長短期記憶神經網絡相比在運算公式上有所不同,卷積長短期記憶神經網絡的運算公式是在長短期記憶神經網絡上的改進,把長短期記憶神經網絡中的乘法運算換成卷積運算,因此能夠保留空間信息同時做時間序列建模。

長短期記憶神經網絡只能夠對一維數據做時間序列建模,對圖像數據做時間建模時,必須將圖像數據處理為一維數據,處理過程使圖像數據失去空間信息。卷積長短期記憶神經網絡處理數據時,不必打平具有位置信息的視頻幀圖像,在保留空間信息的前提下做時間序列建模。該網絡運用多維度信息比使用單維信息在識別效果上有很大的改進。

1.4 注意力機制

視覺注意力機制是人眼看到物體時的信息處理過程。在觀察一個物體時,人眼和大腦會自動給重要的特征更多的注意力,對于不同的物體,注意力的中心區域也會發生變化[13]。視頻圖像幀中有很多背景信息,背景信息會給識別過程帶來干擾,引入注意力機制有助于去除干擾信息、提高識別精度。

本文使用的注意力機制原理圖如圖2 所示。平均注意力機制,對空間位置取平均,并失去空間位置。通道注意力機制對上一個模塊的輸出在通道維度進行平均值操作,在空間上進行卷積操作,通過最大激活函數在空間維度上計算,得到注意力權重圖,最后將注意力權重圖運用到特征圖中。線性注意力機制是使用線性操作對通道維度進行處理,得到注意力圖,將注意力圖和原始特征圖相乘得到最終注意力機制的特征圖。將3 種注意力機制的輸出分別經過長短期記憶神經網絡做二次時間序列建模,將二次時間序列建模結果送入全連接層,最終將全連接層的輸出取平均值,得到最終的輸出結果。

圖2 注意力機制原理圖Fig.2 Schematic diagram of attention mechanism

1.5 遷移學習

遷移學習的目標是把源域學習到的信息應用到目標域中。在深度學習中,訓練數據決定模型的訓練效果[14]。然而,在大多數任務中,缺乏訓練數據,導致識別的效果不理想。另外,大量沒有進行標注的數據樣本,無法直接使用,需要耗費大量的人力去標注。而遷移學習可以解決訓練數據缺乏、數據標注難度大等問題。將在相似數據集上訓練得到的網絡權重遷移到目標網絡,能夠更快更好地進行參數的訓練,而不必從頭訓練。

本文采用的遷移方式使用imagenet 數據集的權重參數,凍結全連接層之前的所有權重參數,進行其他參數的訓練。

2 基于遷移學習的神經網絡模型

2.1 數據集以及圖像預處理

本文采用公開數據集UCF101,包含13 320個視頻(共27 h),利用OpenCV 對UCF101 中的視頻保持結構不變,逐幀分解得到圖像,UCF101 主要包括5 大類動作,人與物體交互,單純的肢體動作,人與人交互,演奏樂器,體育運動。該視頻數據集是行為識別領域較常用的通用數據集,由于視頻幀中對最終分類任務有效果的只是極少數的視頻幀圖像,大多數視頻幀對最終識別任務是無效的,因此對視頻幀采樣,可以在減少訓練時間的同時達到較為理想的識別效果。利用OpenCV 來做視頻預處理得到三通道圖像視頻幀,將視頻幀的大小裁剪為224×224,送入基本特征提取網絡中高層特征。

考慮到人體行為識別并不一定要用到視頻中所有的幀,本論文截取每個視頻的前40 幀代表每個視頻;相鄰視頻幀之間的特征差別并不大,為了找到效果最好的視頻間隔,本論文在40 幀之間分別隔2幀、隔4 幀、隔6 幀、隔7 幀采樣進行實驗。

2.2 神經網絡深度遷移模型

本文使用imagenet 數據集上訓練得到的參數來初始化基本網絡,并凍結該網絡。雖然這些參數并不是由人體行為數據集圖像訓練得到的,但是人體行為識別圖像都是普通的圖像,沒有特別難以理解圖像,這些參數對該視頻數據圖像能夠兼容,理論上此遷移學習會有很好的結果。

將resnet50 網絡最后的平均池化層、全連接層和激活函數去掉,得到基本網絡。在基本網絡后連接卷積長短期記憶神經網絡,對基本網絡的輸出做具有空間信息的時間序列建模,得到具有空間、時間信息的視頻描述。用注意力機制對卷積長短期記憶神經網絡的輸出做注意力操作,對輸出特征圖打平操作得到一維數據,一維數據送入長短期記憶神經網絡,對一維數據進行二次時間序列建模。

遷移識別模型如圖3 所示。基本網絡使用在imagenet 數據集上,訓練參數來訓練人體行為識別視頻數據集的三維圖像幀。卷積長短期記憶神經網絡、注意力機制、長短期記憶神經網絡、全連接層使用隨機參數初始化方法。卷積長短期記憶神經網絡使用一層網絡結構做第一次帶空間信息的時間序列建模,使用512 個卷積核對特征圖卷積,特征圖空間大小不變。長短期記憶神經網絡使用三層網絡結構對打平后的數據做二次時間序列建模,并同時將數據維度減半,取最后一個時間步驟的輸出作為視頻高級特征,經過二層全連接層得到最后的視頻描述。

圖3 遷移識別模型Fig.3 Migration identification model

視頻圖像幀為3 特征通道,像素大小224×224。圖像特征圖大小剛好與預訓練參數模型大小相符合。

3 實驗結果分析

本論文實驗均在Ubuntu18.04.4LTS 操作系統上進行,采用Pytorch 深度學習框架,i7-9700 處理器,RTX2080Ti 顯卡,32GB 內存。實驗采用resnet50模型作為基本特征提取網絡,損失函數默認使用Cross Entropy Loss,Adam 優化器,Batch Size 為30,學習率為1×10-5,每組實驗訓練120 個epochs。本論文將UCF101 視頻數據集按3:1 的比例劃分為訓練集和測試集,即將UCF101 的13 320 個視頻中的9 990個視頻數據作為訓練集,3 330 個視頻數據作為測試集。

3.1 在神經網絡上的識別效果

為驗證本文方法,做3 組實驗:

(1)在基本網絡后連接卷積長短期記憶神經網絡;

(2)在基本網絡后連接長短期記憶神經網絡;

(3)在基本網絡后連接卷積長短期記憶神經網絡、注意力機制、長短期記憶神經網絡。

使用基本網絡的基礎上加上卷積長短期記憶神經網絡、注意力機制、長短期記憶神經網絡的訓練結果對比圖如圖4 所示,橫坐標為訓練次數,縱坐標分別為準確率和損失值。可以看出,無論是準確率還是損失值,相比于其他網絡,基礎網絡加上卷積長短期記憶神經網絡和長短期記憶神經網絡收斂的更快且更加平穩。

圖4(a)中綠色曲線為使用卷積長短期記憶神經網絡和長短期記憶神經網絡雙重時間序列建模的測試集識別精度曲線,曲線顯示在第36 個epochs以后趨于平穩,此時的識別精度為93.39%,在第108 個epochs 時達到最高識別精度94.77%;橙色曲線為使用長短期記憶神經網絡而沒有使用卷積長短期記憶神經網絡的測試集識別精度曲線,該識別精度曲線在第92 個epochs 以后趨于平穩,此時的識別精度為88.01%,在第120 個epochs 時達到最好識別精度;藍色曲線為使用卷積長短期記憶神經網絡而沒有使用長短期記憶神經網絡的識別精度曲線,可以看到該曲線明顯比其他曲線差,沒有明顯的收斂;通過對比雙重時間序列建模模型使得人體行為識別較快的到達收斂,識別精度也比單重時間序列建模高出幾個點,綠色曲線雖然在幾個時間點波動較大,但是其始終在其他曲線的上方,總體效果比其他曲線理想。

在圖4(b)中,綠色曲線為使用卷積長短期記憶神經網路和長短期記憶神經網路雙重時間序列建模的損失曲線,可以看出,綠色曲線在收斂速度、波動幅度上都比只使用長短期記憶神經網絡和只使用卷積長短期記憶神經網絡的損失曲線效果好。綠色曲線在第40 個epochs 以后趨于平穩,而橙色曲線在第100 個epochs 以后才趨于平穩。和識別精度曲線一樣,雙重曲線在幾個時間點上波動較大,但絕大多數都在單重曲線下方。

圖4 神經網絡識別結果Fig.4 Recognition results

3.2 基于遷移的神經網絡不同采樣間隔識別結果

視頻是由一張張圖像幀組成,相鄰的視頻幀相似度很高,視頻幀全部送入網絡將帶來時間復雜度。對視頻圖像幀采樣能夠兼顧時間和精確度,對視頻幀不同的采樣幀的實驗結果如圖5 所示。

圖5 不同采樣幀數的識別結果Fig.5 Recognition results of different sampling frames

圖5(a)和圖5(b)分別是視頻幀不同的采樣幀在精度和損失兩方面的實驗結果。隔6 幀采樣的識別精度曲線大部分區域都是在其他曲線的上方,而損失曲線的大部分都是在其他曲線的下方。雖然識別效果不是很明顯,在識別精度略有提高的同時訓練時間上有很大優勢。

間隔6 幀采樣能夠兼顧精度和時間的要求,采樣幀數越大,每個視頻采樣到的視頻幀數越小,訓練所需要的時間越少,見表2。在間隔6 幀之前識別精度都在前列的基礎上略有提高,訓練所需要花費的時間逐漸減小,而在間隔7 幀采樣時,識別精度開始有明顯下降,其主要原因是間隔太密集視頻幀有很多相似的空間特征,使得在人體行為識別過程中錯誤識別為其他行為,識別率較低;間隔幀數超過6幀以后,視頻幀空間特征相似度減小,喪失有區別的空間特征,網絡不能夠提取關鍵信息,以至于識別效果下降。

表2 不同采樣間隔的精度和時間表Tab.2 Accuracy and schedule of different sampling intervals

4 結束語

目前,深度學習模型都依賴大量的訓練數據,數據量不夠會出現網絡無法訓練或者欠擬合等問題。本文采用resnet50 的前49 層網絡作為基礎網絡,結合遷移學習的方法提取視頻幀的基本特征,將得到視頻幀特征送入卷積長短期記憶神經網絡進行兼顧空間信息的第一時間序列建模;將得到的視頻描述在空間上進行下采樣,得到喪失空間信息的視頻幀特征;最后送入普通長短期記憶神經網絡做二次時間序列建模。對視頻數據集進行提幀和采樣工作,隔6 幀采樣能夠兼容訓練時間和識別精確度。

猜你喜歡
記憶
記憶的永恒
現代裝飾(2021年6期)2021-12-31 05:29:04
記憶樹
在水一方 相城的非遺記憶
華人時刊(2020年15期)2020-12-14 08:10:44
夏天的記憶
穿越四十年的高考記憶
華人時刊(2017年13期)2017-11-09 05:38:52
記憶中的他們
端午記憶
絲綢之路(2016年9期)2016-05-14 14:36:33
兒時的記憶(四)
兒時的記憶(四)
記憶翻新
海外文摘(2016年4期)2016-04-15 22:28:55
主站蜘蛛池模板: 综合网天天| 免费一级毛片在线播放傲雪网| 欧美www在线观看| 天堂在线www网亚洲| 在线观看无码a∨| 欧美成人精品一级在线观看| 中文字幕人妻av一区二区| 精品小视频在线观看| 伊人久久久久久久| 亚洲欧洲一区二区三区| 性喷潮久久久久久久久| 在线观看91精品国产剧情免费| 亚洲国产精品VA在线看黑人| 国产91丝袜在线播放动漫| 亚洲日韩精品无码专区| 99视频精品全国免费品| 欧美不卡在线视频| 精品無碼一區在線觀看 | 亚洲精品手机在线| 91系列在线观看| 又污又黄又无遮挡网站| 久久semm亚洲国产| 精品久久蜜桃| 日韩欧美国产精品| 国产精品深爱在线| 日韩人妻少妇一区二区| 亚洲国产在一区二区三区| 久久99蜜桃精品久久久久小说| 国产黑丝一区| 丁香六月激情婷婷| 免费看美女毛片| 日本影院一区| 伊人查蕉在线观看国产精品| 国产超薄肉色丝袜网站| 欧美啪啪网| www欧美在线观看| 国产男女免费完整版视频| 色综合久久无码网| 国产精品浪潮Av| 999在线免费视频| 免费一级成人毛片| 国产精品久久久久久久久kt| 亚洲人成色77777在线观看| 在线日韩一区二区| 国产成人区在线观看视频| 996免费视频国产在线播放| 欧美自拍另类欧美综合图区| 91欧美亚洲国产五月天| 91精品综合| 婷婷开心中文字幕| 亚洲美女久久| 国产高清在线观看| 欧美在线观看不卡| 欧美日本视频在线观看| 四虎影视库国产精品一区| 精品视频一区在线观看| 久久婷婷五月综合色一区二区| 人妻21p大胆| 一级成人a做片免费| 四虎永久在线视频| 日本黄色a视频| 任我操在线视频| 国产精品无码作爱| 国产在线拍偷自揄拍精品| 免费Aⅴ片在线观看蜜芽Tⅴ| 日韩国产精品无码一区二区三区 | 亚洲第一精品福利| 九九视频在线免费观看| 粗大猛烈进出高潮视频无码| 亚洲国产一区在线观看| 91视频99| 无码一区18禁| 午夜福利免费视频| 久久香蕉国产线看观看精品蕉| 国产美女人喷水在线观看| 免费人成又黄又爽的视频网站| 性69交片免费看| 五月婷婷综合色| 国产精品美女免费视频大全 | 欧美性久久久久| 国产亚洲精品在天天在线麻豆| 欧美日韩国产系列在线观看|