999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于ResNet-LSTM的具有注意力機制的辦公人員行為視頻識別

2020-12-22 11:14:34張傳雷武大碩向啟懷劉麗欣
天津科技大學(xué)學(xué)報 2020年6期
關(guān)鍵詞:特征提取特征模型

張傳雷,武大碩,向啟懷,陳 佳,劉麗欣

(天津科技大學(xué)人工智能學(xué)院,天津 300457)

基于視頻的人體行為識別技術(shù)作為計算機視覺領(lǐng)域研究熱點之一,具有較高的科學(xué)研究價值和應(yīng)用價值,包括對視頻中圖像序列自動進行人體行為檢測、識別和理解等相關(guān)內(nèi)容.目前而言,關(guān)于人體行為識別的研究較多,但很少涉及辦公領(lǐng)域.通過對辦公大廳內(nèi)的監(jiān)控視頻進行分析,能夠有效了解辦公人員工作狀態(tài)、工作習(xí)慣等,從而可以制定合理規(guī)章制度,督促人員合理安排工作時間,提高工作效率和服務(wù)質(zhì)量.因此,進行基于視頻分析的辦公人員行為識別研究具有重要的應(yīng)用價值.

關(guān)于人體行為識別的研究最早開始于 19世紀(jì)70年代左右,科學(xué)家在動物行為方面展開了機械學(xué)研究,但是由于當(dāng)時計算機發(fā)展水平較低,計算資源有限,無法支持大量的科學(xué)計算,人體行為分析沒有得到相應(yīng)的重視[1].到了 20世紀(jì) 90年代,為了對戰(zhàn)場以及日常民用視頻監(jiān)控等場景下的視頻進行分析和理解,美國國防部高級研究計劃局、麻省理工學(xué)院和卡內(nèi)基梅隆大學(xué)等多所高校參與了視覺監(jiān)控系統(tǒng)研究.在法國,由國家信息與自動化研究所成立WILLOW 小組,主要致力于研究分析人體行為的分類和復(fù)雜場景識別等,而其成立的 PRIMA小組主要研究單個個體或者人群的行為識別.歐盟也設(shè)立了ADVISER項目,致力于研究智能交通管理系統(tǒng)、人機交互和人體行為分析與理解等[1].國內(nèi)也有很多高校和研究機構(gòu)進行人體行為識別的相關(guān)研究,包括清華大學(xué)、北京大學(xué)、中科院自動化模式識別國家重點實驗室、北京航空航天大學(xué)等[2].

在深度學(xué)習(xí)應(yīng)用到行為識別領(lǐng)域前,國內(nèi)外研究學(xué)者對基于手工特征的行為識別方法進行了廣泛研究.Bobick等[3]提出基于輪廓剪影進行特征提取,通過輪廓剪影建立運動能量圖來描述人體步態(tài)動作.這種方法在簡單背景下的描述能力較強,但在背景相對較復(fù)雜的情況下效果不佳.Peng等[4]提出基于時間序列引入對背景光流和軌跡的消除方法——iDT方法,使特征更加集中于人體運動的描述.iDT方法是深度學(xué)習(xí)進入該領(lǐng)域前效果、穩(wěn)定性、可靠性最高的方法,不過算法復(fù)雜度很高.傳統(tǒng)的行為識別方法不具有普適性,基于深度學(xué)習(xí)從數(shù)據(jù)中自動學(xué)習(xí)特征的方法效果更優(yōu).

近年來,基于計算機深度學(xué)習(xí)模型的特征學(xué)習(xí)引起研究人員的廣泛關(guān)注,基于深度學(xué)習(xí)模型的特征提取也成為一個重點的研究對象.在傳統(tǒng)的機器學(xué)習(xí)中,往往是通過傳統(tǒng)算法提取特征,這樣會使結(jié)果更偏向于局部特征的表現(xiàn),忽略了全局特征,從而造成局部特征提取對縮放、角度變換等因素不敏感.近幾年,作為深度學(xué)習(xí)模型之一的卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)在圖像識別、語音識別、視頻處理等領(lǐng)域取得了巨大成功,基于卷積神經(jīng)網(wǎng)絡(luò)的特征提取,可直接以圖像矩陣作為模型的輸入,避免了像傳統(tǒng)機器學(xué)習(xí)那樣前期對圖像數(shù)據(jù)的各種復(fù)雜的預(yù)處理,實現(xiàn)了監(jiān)督式的學(xué)習(xí),由局部到全局、由低級到高級的特征提取.CNN一般由輸入層、輸出層和多個隱藏層組成,隱藏層一般包括卷積層、池化層、激活層和全連層.

CNN在視頻中應(yīng)用的一個方法是對每一幀用CNN進行識別,但這種方法只考慮到了空間上的視覺效果,沒有考慮到行為運動是一個序列,在時間維度上還有關(guān)聯(lián),連續(xù)幀之間有一定耦合,是相互關(guān)聯(lián)的[5].因此,Simonyan等[6]提出了Two-Stream結(jié)構(gòu)的CNN,此網(wǎng)絡(luò)不僅包括空間維度還包括時間維度,空間流處理靜止的圖像幀,得到形狀特征;而時間流處理連續(xù)數(shù)幀稠密光流[7],可以提取動作信息,利用多任務(wù)訓(xùn)練的方法把這兩個數(shù)據(jù)集結(jié)合起來,但是兩個流都是2D卷積操作,不能很好地提取時間特征.

針對 2D卷積不能很好地提取時間特征,Tran等[8]提出了一個比較經(jīng)典的 C3D網(wǎng)絡(luò)來提取視頻的空間特征和時域特征.這是首次提出 3D卷積網(wǎng)絡(luò),讓3D卷積網(wǎng)絡(luò)逐漸成為研究熱點.相比于2D卷積網(wǎng)絡(luò),3D卷積網(wǎng)絡(luò)能夠更好地提取空間特征和時間特征,而且只需要配合簡單的分類器就能有很好的表現(xiàn).其使用 3×3×3的卷積核在實驗中比其他幾個結(jié)構(gòu)都要好,得出的結(jié)構(gòu)特征通過線性分類器后,幾乎可以達(dá)到當(dāng)時最好的精度.3D卷積雖然能很好擬合時間域和空間域上的特征,但在時空兩個維度同時反向傳播進行權(quán)重修正時,也很容易造成兩個維度上一定程度的特征提取混亂.同時,3D卷積網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)的參量和運算成本相對于 2D卷積網(wǎng)絡(luò)而言要大的多.

Carreira等[9]提出了 I3D 網(wǎng)絡(luò),I3D 用于圖像分類的 2D卷積網(wǎng)絡(luò)變形成可以提取時空特征的特征提取器,彌補了 3D卷積網(wǎng)絡(luò)參數(shù)多以及需要從零開始訓(xùn)練的不足,相較于 C3D網(wǎng)絡(luò)有顯著提升.Donahue等[10]提出長時循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(longterm recurrent convolutional network,LRCN),其將CNN與LSTM相結(jié)合,通過CNN提取單幀圖像的卷積特征并將其按時間順序輸入 LSTM 中,最終得到視頻數(shù)據(jù)的行為特征.

本文針對視頻分析中空間和時間兩個維度的特征,提出一種卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和注意力模型的融合模型(ResNet-LSTM-Attention).對于空間維度,將單幀圖像輸入 ResNet模型,提取空間維度特征;對于時間維度,將多幀疊加后的空間維度特征作為輸入,輸入到循環(huán)神經(jīng)網(wǎng)絡(luò)(LSTM)和注意力(Attention)模型的融合網(wǎng)絡(luò)模型;然后將 ResNet-LSTM-Attention模型的輸出經(jīng)過 Softmax輸出作為結(jié)果,得到一個多模型融合的視頻人體行為識別的網(wǎng)絡(luò)模型.最后將本文網(wǎng)絡(luò)模型結(jié)構(gòu)應(yīng)用到辦公領(lǐng)域人員行為視頻分析.本文提出網(wǎng)絡(luò)模型優(yōu)勢在于將空間域和時間域的特征分開提取.首先在靜止的圖片上提取特征,隨后在時間序列上分別進行擬合.該模型的兩層神經(jīng)網(wǎng)絡(luò)相互獨立,訓(xùn)練過程分開進行,所以提取時間域的 LSTM 的反向傳播不會貫穿到ResNet,從而一定程度上避免造成時間域和空間域上特征提取的混淆.

1 網(wǎng)絡(luò)模型理論分析

1.1 ResNet神經(jīng)網(wǎng)絡(luò)模型

深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural networks,DCNN)在數(shù)據(jù)分類領(lǐng)域應(yīng)用廣泛并且取得了巨大的突破,例如語音和文字、視頻和圖像方面,這是因為DCNN具有3個重要特征:局部區(qū)域感知、時空域上采樣和權(quán)重共享.但是深度卷積神經(jīng)網(wǎng)絡(luò)也存在 3個問題:(1)常規(guī)的網(wǎng)絡(luò)并不是隨著網(wǎng)絡(luò)層數(shù)增加,堆疊效果會更好;(2)網(wǎng)絡(luò)層數(shù)越深,會出現(xiàn)梯度消失問題,使得訓(xùn)練效果不會很好;(3)層數(shù)較淺的網(wǎng)絡(luò)通常不會使識別效果明顯提升[11].

為了解決上述 3個問題,He等[12]提出了殘差網(wǎng)絡(luò)ResNet,引入了殘差塊(residual block)構(gòu)建深層網(wǎng)絡(luò),殘差塊結(jié)構(gòu)如圖 1所示.其中 x為輸入,H(x)為輸出,F(xiàn)(x)為殘差映射函數(shù),weight layer為卷積層.

圖1 ResNet殘差塊結(jié)構(gòu)Fig. 1 Residual block structure of ResNet

構(gòu)建深層網(wǎng)絡(luò)的基本約束條件,使堆疊后的網(wǎng)絡(luò)模型誤差應(yīng)比基礎(chǔ)的淺層模型更低,因此在實際中采用恒等映射的方法構(gòu)建深層模型,即用 H(x)=x作為最佳解映射.當(dāng)層數(shù)較深時,模型難以直接擬合實際映射 H(x),因此 ResNet引入了“shortcut”快捷連接,這就使問題轉(zhuǎn)換為擬合殘差映射F(x),此時實際映射 H(x)表示為 H(x)=F(x)+x.當(dāng) F(x)=0時,就構(gòu)成了一個恒等映射 H(x)=x,模型只需最小化殘差函數(shù) F(x)=H(x)-x來逼近實際映射以解決網(wǎng)絡(luò)層堆疊的性能退化問題[13].

現(xiàn)假設(shè)有共計 L層殘差塊連接,x(l)表示第 l個殘差塊的輸入,x(l+1)表示該殘差塊的輸出,也是第l+1個殘差塊的輸入.可得第l個殘差塊的輸出為

由式(1)可見,每層殘差網(wǎng)絡(luò)都在累積上層的殘差特征,保證了 l+1層始終比 l層擁有更多的特征信息,第 L層始終擁有最多信息.在反向傳播過程中,根據(jù)鏈?zhǔn)角髮?dǎo)法則,誤差損失項 loss對于網(wǎng)絡(luò)前端的第l個殘差塊的梯度計算式為

本文針對視頻分析中空間維度的特征,采用ResNet模型.

1.2 LSTM神經(jīng)網(wǎng)絡(luò)模型

在深度學(xué)習(xí)中能良好表達(dá)時序的網(wǎng)絡(luò)結(jié)構(gòu)是循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN),其中表現(xiàn)最優(yōu)的是LSTM.由于LSTM是對序列進行操作,多層的 LSTM 堆疊可使輸入的抽象級別增加,當(dāng)時間增大即可分塊觀察,或在不同的時間尺度上表示問題,使得網(wǎng)絡(luò)能提取出更加抽象的特征,所以本文通過堆疊多層 LSTM 進行時間域的特征提取.本文所研究的辦公人員視頻分析問題是典型的時序問題,即某一個時刻的值受前一個時刻或幾個時刻的影響[14],因此選擇LSTM模型.

LSTM屬于時序卷積神經(jīng)網(wǎng)絡(luò),是由循環(huán)神經(jīng)網(wǎng)絡(luò)衍生而來的,通過引入門函數(shù),可以挖掘時間序列中相對較長間隔和延遲等的時序變化規(guī)律[7].圖2為LSTM 內(nèi)部結(jié)構(gòu).圖中:xt為第 t個輸入序列元素值;c為細(xì)胞狀態(tài)或稱為記憶單元,控制信息的傳遞,也是網(wǎng)絡(luò)的核心;i為輸入門,它決定了當(dāng)前xt保留多少信息給當(dāng)前狀態(tài)ct;f為遺忘門,它決定保存多少前一時刻的細(xì)胞狀態(tài)ct?1至當(dāng)前的ct;o為輸出門,它決定ct傳遞多少至當(dāng)前狀態(tài)的輸出ht;ht?1指代在t-1時刻的隱藏層狀態(tài)[15].

圖2 LSTM內(nèi)部結(jié)構(gòu)圖Fig. 2 LSTM internal structure diagram

上述過程對應(yīng)式(3)—式(8).

輸入門it、遺忘門 ft和輸出門ot的結(jié)果均為當(dāng)前輸入序列xt和前一狀態(tài)輸出ht?1乘以相對應(yīng)權(quán)重加上對應(yīng)偏移量,最后經(jīng)過 sigmoid激活函數(shù)所得.而當(dāng)前時刻單元的即時狀態(tài)則使用 tanh激活函數(shù)激活,見式(6).

而新的單元狀態(tài)ct則由當(dāng)前記憶和長期記憶ct-1結(jié)合而成,按式(7)計算.

則LSTM單元的輸出ht的計算式為

上述公式中,Wxi、Wxf、Wxo、Wxc分別是輸入層到輸入門、遺忘門、輸出門與細(xì)胞狀態(tài)的權(quán)重向量;而Whi、Who、Whf、Whc分別是隱藏層到輸入門、輸出門、遺忘門與細(xì)胞狀態(tài)的權(quán)重向量;bi、bo、bf、bc分別是遺忘門、輸入門、輸出門與細(xì)胞狀態(tài)的偏移量;σ(·)為sigmoid激活函數(shù);tanh為雙曲正切激活函數(shù);·表示向量元素乘.

圖3為LSTM分類模型.

圖3 LSTM分類模型Fig. 3 LSTM classification model

圖3中的輸入層是對應(yīng)的視頻幀特征向量,在輸入層上層是正向的 LSTM 層,由一系列的 LSTM 單元構(gòu)成.再將全部時刻的 LSTM 輸出進行加權(quán)平均操作后的結(jié)果作為上層的表示.最后通過 softmax層,進行全連接的操作,最終可以得到預(yù)測結(jié)果的類別 y[16].

1.3 Attention機制

Attention機制即注意力機制,通常被運用在圖像處理和自然語言處理領(lǐng)域.學(xué)者們提出了不同種類的注意力機制,識別效果比較明顯.針對辦公人員行為識別問題,本文對LSTM模型引入了注意力機制,它能對輸入序列提取特征信息,尋找特征信息之間的時序內(nèi)在聯(lián)系,并通過加權(quán)平均方式給出識別結(jié)果,從而提高模型的識別準(zhǔn)確度.對于一系列權(quán)重參數(shù),Attention機制主旨思想是從序列中學(xué)習(xí)到每一個元素的重要程度,并按其重要程度將元素合并.加入Attention機制可以使模型的性能得到顯著提升;另外,使用 Attention機制也可以觀察到輸入序列中的信息是怎樣影響最后的輸出序列,有助于更好地理解模型的內(nèi)部運作機制,更便于對一些預(yù)設(shè)的輸入與輸出進行參數(shù)調(diào)試.因此,在模型構(gòu)建中本文在 LSTM后接入一層 Attention網(wǎng)絡(luò)進行時序特征提取.圖 4為LSTM-Attention分類模型.

圖4 LSTM-Attention分類模型Fig. 4 LSTM-Attention classification model

圖 4中輸入序列 x0,x1,x2,…,xt表示視頻幀空間特征的向量,將輸入依次傳入到 LSTM 單元后,得到對應(yīng)隱藏層的輸出 h0,h1,h2,…,ht.同時,在隱藏層中引入 Attention機制,計算每個輸入分配的注意力概率分布值α0,α1,α2,…,αt,其思想是計算該時刻的隱藏層輸出與視頻幀空間特征向量的匹配得分占總體得分的比重[17],設(shè)hi為第i個時刻隱藏層的輸出狀態(tài),為比視頻幀高一級的特征表示向量.將進行隨機初始化,作為一個參數(shù)在訓(xùn)練過程中逐步更新,αi, i ∈ [ 0 , t]的計算式[18]為

其中:βi表示第i個隱藏層輸出hi在視頻幀表示向量中所占的分值,βi越大,說明這個時刻的輸入在整體中的注意力越大,它的計算公式為

式中:V、W、U為權(quán)值矩陣;b為偏置量;tanh為非線性激活函數(shù).

各個時刻的注意力概率分布值經(jīng)計算得出后,再計算包含特征信息的特征向量ε,公式為

最后,經(jīng)softmax分類函數(shù)后可得預(yù)測類別y,計算式為

本文訓(xùn)練模型的迭代方法采用梯度下降法,通過計算損失函數(shù)的梯度并更新模型的參數(shù),最終到達(dá)收斂.為了使目標(biāo)函數(shù)更加平穩(wěn)地收斂,同時也為了提高算法的效率,每次只取小批量樣本進行訓(xùn)練.模型使用的損失函數(shù)為交叉熵,計算式為

2 數(shù)據(jù)處理及模型設(shè)計

2.1 數(shù)據(jù)獲取及預(yù)處理

2.1.1 數(shù)據(jù)獲取

本文所用的包括訓(xùn)練集、測試集和驗證集數(shù)據(jù)均是實驗室自行采集.獲取數(shù)據(jù)的步驟:(1)將所有動作錄制成視頻;(2)將視頻每10幀抽1幀,即每秒抽取約 3幀圖片;(3)將圖片中主要表現(xiàn)的人體行為部分進行裁剪.

所采集的視頻數(shù)據(jù)共分為 8類,分別是打電話、吃東西、離崗、玩手機、睡覺、抽煙、工作和交流,數(shù)據(jù)集示例圖片如圖5所示.

為了充分利用計算資源,本文將所有數(shù)據(jù)集做成了隊列的形式,分批讀入內(nèi)存緩沖區(qū),訓(xùn)練數(shù)據(jù)依次從緩沖區(qū)里讀取,使用的方法為 TFRecord,它是TensorFlow提供的一種數(shù)據(jù)存儲辦法.TFRecord理論上可以保存任何格式的信息,可以將任何類型數(shù)據(jù)轉(zhuǎn)化為Tensorflow所支持的格式,這種方法可以讓數(shù)據(jù)集和網(wǎng)絡(luò)模型更容易相互適應(yīng)匹配,此外利用TFRecord可以很方便實現(xiàn)隊列.

圖5 數(shù)據(jù)集圖片F(xiàn)ig. 5 Dataset image

2.1.2 數(shù)據(jù)增強及預(yù)處理

首先對圖片進行了分類,將截取下來的圖片進行了手工標(biāo)注,標(biāo)注為同一動作的圖片序列歸于同一文件夾中.隨后,對圖片進行了分組.將現(xiàn)有數(shù)據(jù)集分為兩組,其中一組從中抽取部分有代表性的關(guān)鍵幀進行 CNN網(wǎng)絡(luò)訓(xùn)練,訓(xùn)練集每個動作抽取 1000張圖片,驗證集每個動作抽取 200張圖片,共計 9600張圖片,并使用 OpenCV進行圖片的預(yù)處理以固定圖片大小為 283×240,在訓(xùn)練的時候進行隨機裁剪和圖片增強.另一組數(shù)據(jù)集每 16幀為一組,每個動作分出若干組序列幀,將圖片統(tǒng)一大小為224×224.由于本組圖片直接用于已經(jīng)訓(xùn)練好的CNN模型提取概率特征,隨后進一步提取時間特征,所以不需要隨機裁剪.這樣共有 7066組訓(xùn)練集,1347組驗證集,共計134608張圖片.

此外針對C3D模型的訓(xùn)練,將圖片每16幀分為一組,每張圖片裁剪為 171×128,在訓(xùn)練的時候進行隨機裁剪和增強,同樣也得到 7066組訓(xùn)練集與1347組驗證集.

最后,對數(shù)據(jù)集進行增強與歸一化處理.在實際的訓(xùn)練過程中,數(shù)據(jù)集偏少,所以使用在線增強數(shù)據(jù)集的方式來擴充訓(xùn)練數(shù)據(jù),即應(yīng)用模型進行訓(xùn)練時,首先獲得一個 batch數(shù)據(jù),然后對這個 batch的數(shù)據(jù)進行隨機增強,同時通過GPU優(yōu)化計算.此外,由于圖像數(shù)據(jù)是0~255的uint數(shù)據(jù),本文對圖像進行歸一化處理,使圖像數(shù)據(jù)轉(zhuǎn)化為介于 0~1之間分布的數(shù)據(jù),若原始圖像數(shù)據(jù)為x,則本文使用最常用的最大最小值歸一化方法按式(14)計算.

其中:xi表示圖像像素點的值;xmax和 xmin分別表示圖像像素的最大值和最小值.通過歸一化的方法,可以有效防止仿射變換的影響,減小集合變換的影響,同時加快梯度下降求最優(yōu)解的速度[19].

2.2 深度神經(jīng)網(wǎng)絡(luò)模型設(shè)計

本文設(shè)計的ResNet-LSTM-Attention網(wǎng)絡(luò)模型的網(wǎng)絡(luò)結(jié)構(gòu)共兩層,分別為圖像特征提取層和時序特征提取層,圖像特征提取層提取圖片在二維空間上的特征,時序特征提取層提取圖像序列之間的時序特征.

2.2.1 圖像特征提取層

圖像特征提取層本文使用的殘差網(wǎng)絡(luò)(ResNet),該網(wǎng)絡(luò)結(jié)構(gòu)能很好地解決CNN增加深度會造成梯度彌散或者梯度爆炸的問題.本文在網(wǎng)絡(luò)模型構(gòu)建中使用的為50層的ResNet網(wǎng)絡(luò),其結(jié)構(gòu)參數(shù)和數(shù)據(jù)流圖如圖6所示.

圖6 殘差網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)和數(shù)據(jù)流圖Fig. 6 Residual network structure parameters and data flow diagram

網(wǎng)絡(luò)分為 5個隱藏層,分別為 conv1、conv2_x、conv3_x、conv4_x和 conv5_x.ResNet-50首先輸入7×7×64的卷積,隨后經(jīng)過 3+4+6+3=16個building block,每個 block為 3層,即有 16×3=48層,最后連接全連接層,所以共 1+48+1=50層(這里僅僅指的是卷積層或者全連接層,激活層或池化層并沒有計算在內(nèi)).

本文輸入圖片的大小為 224×224×3,首先經(jīng)過第一個卷積核為7×7,步長為2的卷積層,圖片降維度到 112×112×64,然后經(jīng)過一個核為 3×3,步長為 2的最大池化層,之后依次進入 block1、block2、block3、block4這 4個殘差塊,每個殘差塊有 3層卷積層,輸出 7×7×2048的向量,隨后連接上一層平均池化層,輸出 1×1×2048的特征向量,最后連接一層全連接層,輸出得分向量(未歸一化的概率向量).由于本文一共進行 8類動作的分類,所以最終圖像特征提取層的輸出為8個概率特征向量.

2.2.2 時序特征提取層

時序特征提取是在已有的概率特征向量序列上進行時域上的特征提取,包括輸入層(in)、LSTM層、Attention層和輸出層(out),下面將結(jié)合圖 7的LSTM-Attention數(shù)據(jù)流圖逐層進行闡述.

圖7 LSTM-Attention數(shù)據(jù)流圖Fig. 7 LSTM-Attention data flow diagram

in層的輸入是圖像特征提取層的輸出,目的在于對圖像概率特征向量進行放大處理.隨后為兩層具有 128個單元的 LSTM,第一層 LSTM 的輸出作為第二層 LSTM 的輸入,即LSTM 層后緊跟Attention網(wǎng)絡(luò),通過引入 Attention對序列進行權(quán)重分配.網(wǎng)絡(luò)模型的最后為 out層,Attention層輸出為加權(quán)后的得分向量,輸出每個元素的維度為 1*128,最后再連接 out層,對得分向量進行降維,最后的輸出為 1*8的未歸一化的概率向量.即最開始輸入時序提取層的維度為batch_size*16*8,至輸出層輸出的維度為batch_size*8.

本文對于圖像特征提取層和時序特征提取層的具體步驟總結(jié)如下:

(1)截取視頻中動作的關(guān)鍵幀,訓(xùn)練出準(zhǔn)確率較高的 ResNet模型,從而使得每幀圖片的行為類別的可能性體現(xiàn)在最后的得分向量中.

(2)整理序列幀,將序列中每一幀分別輸入訓(xùn)練好的ResNet模型,得到logits序列,即未歸一化的概率序列.

(3)對每幀的得分向量進行特征放大,隨后進入時序提取層,通過連接輸出層將softmax概率歸一化.

3 實驗與結(jié)果分析

將數(shù)據(jù)進行預(yù)處理后,對 ResNet-LSTM-Attention模型與 C3D模型進行實驗結(jié)果分析和對比.本文代碼基于 TensorFlow實現(xiàn),運行環(huán)境:操作系統(tǒng)Windows 10,Python 版本 Python3.6,TensorFlow 版本 Tensorflow-1.11.0,GPU驅(qū)動為 CUDA9.0與CUDNN7.1.

實驗步驟分為定義階段、訓(xùn)練階段和評估階段.其中:定義階段包括對于模型結(jié)構(gòu)、損失函數(shù)及優(yōu)化器等的定義[20],具體定義指標(biāo)見表 1,其中Dropout參數(shù)取的是0.8,L2正則化lambda值取的是0.005,最大 batch值為 200000,收斂閾值為 0.01,即當(dāng)訓(xùn)練集損失低于 0.01時視為完全收斂,并記錄此時模型收斂時間與batch數(shù).訓(xùn)練階段使用3個模型對相同的數(shù)據(jù)進行訓(xùn)練與測試,本文提出的 ResNet-LSTM-Attention模型作為實驗組,C3D和沒有Attention機制的ResNet-LSTM模型作為對照組.

表1 模型定義指標(biāo)Tab. 1 Model parameters

首先將數(shù)據(jù)訓(xùn)練 C3D模型,C3D模型損失率及準(zhǔn)確率變化如圖 8所示,其中橙色的線代表訓(xùn)練操作,藍(lán)色的線代表驗證操作.在 C3D模型中,大約經(jīng)過3000個batch后模型開始收斂,準(zhǔn)確率逐漸上升,損失逐漸下降.經(jīng)過 130000個 batch后,訓(xùn)練集的損失收斂到 0.007左右,準(zhǔn)確率達(dá)到 1;驗證集的損失收斂在1~3,準(zhǔn)確率達(dá)到0.55左右.

然后,使用 ResNet-LSTM 模型對同一數(shù)據(jù)集進行訓(xùn)練和驗證.ResNet-LSTM 模型損失率和準(zhǔn)確率變化如圖 9所示.在大約 2000個 batch后開始收斂,準(zhǔn)確率逐漸上升,損失逐漸下降.經(jīng)過200000個batch后,訓(xùn)練集的損失收斂到0.002左右,準(zhǔn)確率達(dá)到 1;驗證集的損失收斂在 1.56左右,準(zhǔn)確率達(dá)到0.73左右.

最后,將同樣的數(shù)據(jù)驗證本文提出的 ResNet-LSTM-Attention模型,由于Attention機制的引入,將圖像特征提取層和時序特征提取層分開來看.圖像特征提取層損失率和準(zhǔn)確率變化如圖10所示.

圖8 C3D模型的損失率和準(zhǔn)確率變化Fig. 8 Loss change and accuracy change in C3D model

圖9 ResNet-LSTM模型的損失率和準(zhǔn)確率變化Fig. 9 Loss change and accuracy change in ResNet-LSTM model

在圖像特征提取層中,大約經(jīng)過 2000個 batch后模型開始收斂,準(zhǔn)確率逐漸上升,損失逐漸下降.經(jīng)過全部 200000個 batch后,訓(xùn)練集的損失收斂到0.008左右,準(zhǔn)確率達(dá)到1,即對訓(xùn)練集的分類全部正確;而對驗證集的損失收斂到 1左右,準(zhǔn)確率達(dá)到0.75左右.

圖10 本文模型圖像特征提取層損失率和準(zhǔn)確率變化Fig. 10 Loss change and accuracy change in image feature extraction layer of the new model

經(jīng)過時序特征提取層后,損失率和準(zhǔn)確率變化如圖 11所示.在時序特征提取層,約經(jīng)過 7000個batch后模型開始收斂,準(zhǔn)確率逐漸上升,損失逐漸下降.經(jīng)過200000個batch,訓(xùn)練集的損失收斂到0.09左右,準(zhǔn)確率達(dá)到0.96左右;對驗證集的損失收斂到1左右,準(zhǔn)確率達(dá)到0.8左右.

上述實驗結(jié)果表明ResNet-LSTM-Attention的網(wǎng)絡(luò)結(jié)構(gòu)最終對驗證集可以達(dá)到0.8左右的準(zhǔn)確率,高于無 Attention機制的模型 7個百分點,并且遠(yuǎn)遠(yuǎn)高于經(jīng)典的 C3D模型,證明了本文提出方法的可行性.無 Attention機制的模型相較于本文提出模型,雖然在訓(xùn)練集的損失較低,精度較高,但驗證集卻全面落后,證明了其稍微出現(xiàn)過擬合現(xiàn)象,而本文模型由于Attention機制的加入,能夠更好提取重點特征,魯棒性加強,驗證集精度為所有模型中最高,表現(xiàn)最好.

從計算速度方面看,C3D 用時 348min,遠(yuǎn)高于ResNet-LSTM 模型(294min)和 ResNet-LSTMAttention模型(266min),后兩個模型雖同為2D卷積模型,但本文提出的具有注意力機制的模型用時比無注意力機制的模型少28min.

圖11 本文模型時序特征提取層損失率和準(zhǔn)確率變化Fig. 11 Loss change and accuracy change in time series feature extraction layer of the new model

4 結(jié) 語

本文提出了一種基于ResNet-LSTM-Attention網(wǎng)絡(luò)結(jié)構(gòu)的辦公人員行為智能識別方法,并通過實驗對比證明了使用2D卷積神經(jīng)網(wǎng)絡(luò)ResNet結(jié)合LSTM進行時序分類要比 3D模型用時少,精度高;而注意力機制的加入使得模型魯棒性增強,減少過擬合程度,并且訓(xùn)練用時和精度都有提升,論證了本文提出的方法具備一定的意義與價值.在后續(xù)的研究中,本文將針對復(fù)雜環(huán)境下(如光線不良、有遮擋等)的視頻數(shù)據(jù)進一步提升方法的性能,可以通過在多種復(fù)雜環(huán)境下采集數(shù)據(jù)集用以擴張訓(xùn)練集,同時通過對訓(xùn)練集進行圖片增強的方式嘗試解決泛化能力不足的問題.

猜你喜歡
特征提取特征模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
如何表達(dá)“特征”
基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識別算法
3D打印中的模型分割與打包
基于MED和循環(huán)域解調(diào)的多故障特征提取
主站蜘蛛池模板: 手机看片1024久久精品你懂的| 国产91蝌蚪窝| 婷婷久久综合九色综合88| 国产网站免费观看| 日韩欧美视频第一区在线观看| 精品国产成人高清在线| 欧美综合激情| 欧美成一级| 欧美色伊人| 亚洲精品成人福利在线电影| 日韩精品亚洲一区中文字幕| 精品日韩亚洲欧美高清a| 久久久久久久97| 国产区成人精品视频| av色爱 天堂网| av尤物免费在线观看| 黄色三级网站免费| 狠狠色丁婷婷综合久久| 国产精品香蕉| 亚洲swag精品自拍一区| 丁香婷婷久久| 欧美国产在线看| 国产第一页免费浮力影院| 日韩国产综合精选| 亚洲第一综合天堂另类专| 99精品视频九九精品| 久久久精品国产亚洲AV日韩| 无码啪啪精品天堂浪潮av| 欧美成人免费一区在线播放| 国产精品亚洲va在线观看| 欧美人与牲动交a欧美精品 | 精品视频一区在线观看| 精品国产Av电影无码久久久| 激情综合五月网| 国产区人妖精品人妖精品视频| 亚卅精品无码久久毛片乌克兰| 五月综合色婷婷| 久久夜色撩人精品国产| 国产噜噜噜| 国产91九色在线播放| 热这里只有精品国产热门精品| 无码一区二区三区视频在线播放| 日韩免费中文字幕| 色老头综合网| 免费国产黄线在线观看| 欧洲免费精品视频在线| 欧美亚洲欧美| 国产亚洲欧美在线视频| jizz国产视频| 国产二级毛片| 国产视频久久久久| 免费人欧美成又黄又爽的视频| 无码aaa视频| 极品尤物av美乳在线观看| 国内自拍久第一页| 国产迷奸在线看| 无码av免费不卡在线观看| 亚洲开心婷婷中文字幕| 国产精品尹人在线观看| 精品久久久久久成人AV| 在线免费看黄的网站| 日本不卡在线播放| 毛片基地视频| 亚洲国产成人在线| 亚洲精品福利视频| 国产91丝袜在线观看| 91在线视频福利| 无码中文字幕加勒比高清| 国产激情无码一区二区免费| 国产手机在线ΑⅤ片无码观看| 国产福利拍拍拍| 日韩国产精品无码一区二区三区| 国产一在线观看| 日韩AV无码一区| 国产欧美日韩一区二区视频在线| 亚洲美女一级毛片| 亚洲精品视频在线观看视频| 久久久久人妻一区精品| 久久精品国产在热久久2019| 国产精品19p| 国产成人高清精品免费| 国产国语一级毛片|