999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進NeXtVLAD的視頻分類

2021-03-23 09:13:58意,黃
計算機工程與設計 2021年3期
關鍵詞:特征模型

陳 意,黃 山

(四川大學 電氣工程學院,四川 成都 610065)

0 引 言

視頻分類不同于靜態圖像的分類,視頻會隨著時間的變化引起行為動作變化、場景變化和光線變化。目前基于深度學習的視頻分類的代表性方法大致分為4種:基于雙流的卷積神經網絡模型[1-3]、三維卷積神經網絡模型[4,5]、二維卷積與三維卷積結合的神經網絡模型[6,7]和基于局部特征融合的神經網絡模型[8-10]。文獻[1]基于雙流的思想提出TSN(temporal segment networks)模型,對視頻稀疏采樣的RGB圖像和光流圖像分別提取空間域和時間域的特征。為了對視頻的時序信息建模,文獻[5]提出P3D(pseudo-3D)模型。P3D利用三維卷積來實現對視頻時間序列的建模,但是三維卷積需要消耗大量的顯存和計算量。文獻[6]將二維卷積和三維卷積相結合提出高效的ECO(efficient convolutional network for online video understan-ding)模型,即保證了模型的精度又降低了計算成本。以上方法都致力于時間序列的建模,文獻[11]將傳統的局部聚合描述子向量(vector of locally aggregated descriptors,VLAD)結構嵌入到卷積神經網絡中得到可訓練的特征融合模型NetVLAD(CNN architecture for weakly supervised place recognition),NetVLAD模型將視頻的采樣幀進行特征融合從而實現視頻分類。NetVLAD編碼后得到的特征維度太高導致網絡參數量太大,于是文獻[10]利用ResNext[12]的思想結合NetVLAD模型提出了參數量更少的NeXtVLAD模型。相比于前3種方法,基于特征融合的神經網絡模型更加適合于時長較長的視頻數據。本文主要針對時間長度不定的幾分鐘到幾十分鐘的視頻進行分類研究,對NeXtVLAD算法進行改進,設計出一個精度更高的視頻分類網絡。

1 NeXtVLAD算法

NeXtVLAD算法是由NetVLAD算法改進而來,NetVLAD算法利用局部聚合子向量將視頻幀的深度特征進行特征融合后得到視頻級特征,然后利用視頻級特征進行分類輸出。NeXtVLAD針對NetVLAD編碼后特征維度太高導致分類輸出層參數量龐大的缺點,將輸入數據x進行升維后再進行分組,最終減少編碼后的維度從而大大減少參數量。

1.1 局部聚合子向量

局部聚合描述子向量最初用于圖像檢索領域,通過統計特征描述子與聚類中心的累計殘差,將若干局部特征壓縮為一個特定大小的全局特征。在視頻分類任務中,可以將視頻的一個采樣幀所提取的深度特征看作一個局部特征,那么利用局部聚合描述子向量即可獲得視頻的全局特征。假設每個視頻隨機采樣N幀作為視頻表達,利用特征提取模塊提取每一幀圖像的深度特征得到F維度的局部特征,那么傳統局部聚合描述子向量做法是將N*F的局部特征進行K-Means聚類得到K個聚類中心,記為Ck,則全局特征V如式(1)所示

(1)

式中:k∈{1,…K},j∈{1,…F},xi代表第i個局部特征,Ck為第k個聚類中心,αk(xi) 為一個符號函數,當且僅當αk(xi) 屬于聚類中心Ck時,等于1,否則為0。可見式(1)累加了每個聚類中心的特征的殘差,得到一個K*F維度的全局特征。

1.2 NeXtVLAD算法

顯然式(1)中αk(xi) 不可微從而不能進行反向傳播訓練且最終全局特征維度過大會導致參數量大,NeXtVLAD將αk(xi) 函數可微化且將特征分為G組從而減少參數量,于是將全局特征表達為式(2)

(2)

(3)

(4)

NeXtVLAD算法簡要流程如圖1所示。輸入x的維度為Nsample*F,代表Nsample張采樣幀的F維特征向量,經過NeXtVLAD特征融合后得到的全局特征向量維度為2F*K/G。

圖1 NeXtVLAD流程

2 算法的改進

2.1 整體網絡設計

本文基于NeXtVLAD算法進行改進提出GNeXtVLAD算法,實現對局部特征進行特征融合,設計出一個端到端訓練視頻分類網絡如圖2所示。本文模型主要由3個模塊組成:特征提取模塊、特征融合模塊和分類輸出模塊。

圖2 網絡整體設計

特征提取模塊使用經典的圖像分類模型ResNet-50[13],該算法通過學習殘差,解決了傳統卷積神經網絡或全連接層在進行信息傳遞時存在的信息丟失問題,使得模型能更好學習圖像的深度特征。本文為提取視頻采樣幀的深度特征,使用了ImageNet數據集在ResNet-50模型上進行預訓練,預訓練后去掉ResNet-50最后的全連接層使得特征提取模型輸出為一個2048維度的深度特征,若視頻采樣幀數為Nsample,則特征提取模塊輸出為Nsample×2048維度的局部特征向量。

特征融合模塊首先使用一個全連接層對特征進行降維,本文降維后維度為1024,然后使用對NeXtVLAD進行改進的GNeXtVLAD算法對Nsample×1024維的深度特征進行特征融合,從而得到視頻級的深度特征。

分類輸出模塊將特征融合模塊的視頻級特征輸出作為輸入,通過對視頻級特征的學習得到最終的分類輸出。分類輸出模塊由兩個全連接層和一個注意力機制模塊組成,其中的注意力機制模塊由兩個全連接層和一個Sigmoid函數組成。

模型在訓練過程中對特征提取模塊的參數進行凍結,從而減少大量參數的反向傳播,使得網絡訓練占用顯存小、計算量小,從而保證在有限的資源條件下能訓練大量視頻采樣幀。

2.2 視頻采樣策略

當處理未經裁剪的小視頻數據時,這些視頻鏡頭多變且場景信息復雜,對視頻稀疏采樣固定幀來描述視頻信息效率不高,對時長較短的視頻采樣大量幀效率低下且影響性能,對時長較長的視頻采樣少量幀則會使得采樣幀過少造成對視頻信息的描述不足。本文提出多尺度的采樣策略,假設視頻總幀數為Ntotal,設置最小采樣數和最大采樣數分別記作Nmin,Nmax。 則采樣幀數如式(5)所示

(5)

式中:λ1、λ2分別為最小幀數和最大幀數閾值。式(5)確定了對每個視頻的采樣幀數,在采樣過程中,本文首先將所有視頻幀等分為Nsample段,然后在每一段中隨機采樣一幀,從而對視頻隨機采樣Nsample幀。

2.3 GNeXtVLAD

NeXtVLAD算法雖然對NetVLAD算法進行改進后參數量減少且精度有一定提升,但NeXtVLAD對所有的聚類中心一視同仁,不能很好地避免采樣幀中無關特征的干擾。對于長視頻的分類,采樣幀中會存在一些與分類標簽無關的特征,而NeXtVLAD算法依然會將每一個特征聚類到一個聚類中心。

文獻[14]在人臉識別領域提出GhostVLAD算法,該算法在NetVLAD的基礎上加入ghost聚類中心來降低低質量人臉圖像的權重,同時提高高質量人臉圖像的聚合權重。GNeXtVLAD在NeXtVLAD的K個聚類中心上增加了H個ghost聚類中心,那么網絡的聚類中心數為K+H,但是此時的H個ghost聚類中心是假設存在但實際并不使用的聚類中心點,在計算輸入的局部特征與聚類中心殘差時只取K個聚類中心,即忽略ghost聚類中心的計算,主要目的就是讓低質量的無關的局部特征歸類到這個類中心點上。經過端到端的訓練,GNeXtVLAD特征聚合模塊可把一些無關特征聚類到ghost聚類中心,從而使得網絡更加關注于與任務相關的局部特征。

GNeXtVLAD的計算公式如式(6)所示

(6)

(7)

在式(6)的基礎上并結合神經網絡的特點,設計出GNeXtVLAD特征聚合模塊結構如圖3所示。首先對比圖1的NeXtVLAD結構可得,GNeXtVLAD在計算VLAD時多加入了H個聚類中心,然而在向后進行計算時又將這H個聚類中心去掉從而去除不重要的采樣圖片幀。

圖3 GNeXtVLAD結構

3 實驗與分析

為驗證本文改進算法在視頻分類任務上的有效性,本研究使用VideoNet-100數據集作為實驗數據集,在搭載NVIDIA 2080Ti顯卡的64位Ubuntu 16.04系統上搭建pytorch環境進行實驗,通過一系列對比實驗驗證了本文改進算法在特定數據集上的有效性。

3.1 實驗數據集

為驗證本文算法對長視頻的分類效果,實驗采用VideoNet數據集[15]的前100個分類進行研究,簡稱數據集為VideoNet-100。VideoNet-100有3DPainting、3DPrinter、ACappella、accordionPerformance、acrobatics等100個類別。數據集中視頻是未經裁剪的視頻,其中每段視頻時長不定,時長分布在幾秒鐘與幾十分鐘之間,大多數視頻時長為幾分鐘。

VideoNet-100數據集中視頻鏡頭數不固定,部分視頻為單鏡頭拍攝,部分視頻由多個鏡頭剪輯而成,圖4為數據集中acrobatics類別的部分視頻幀展示,可見隨機采樣幀中前后兩幀場景可能完全發生變化,可能人物發生變化,也可能采樣的某一幀的內容與主題無關。本文使用VideoNet原始切分的訓練集和驗證集,其中訓練集視頻個數17 798、驗證集視頻個數4580,訓練集用于模型訓練,驗證集用于測試模型性能。

圖4 VideoNet-100數據集中acrobatics類的部分視頻幀展示

3.2 實驗與分析

由于VideoNet-100數據集視頻時長差異大,實驗采用多尺度的采樣策略與固定采樣幀兩種方法對視頻幀采樣,實驗中設置多組不同的λ1、λ2、Nmin、Nmax參數和固定采樣幀數進行對比實驗以說明多尺度采樣策略的有效性。由于網絡輸入的大小需要固定,其中采樣幀數不足Nmax的用零進行填充。采樣幀輸入大小固定在224×224,每一采樣幀經過特征提取模塊即可得到一個2048維度的特征向量。在特征向量送入GNeXtVLAD進行特征融合之前先加入一個全連接層和Relu激活函數對特征向量進行降維,降維后的特征向量維度設置為1024。實驗中GNeXtVLAD網絡設置多組K聚類中心數、ghost聚類中心數進行對比實驗,其中分組數G分別設置為8和16。實驗采用Adam優化算法,初始學習率設置為0.001,每5個epoch將學習率降為原來的0.1倍,總共訓練16個epoch。

表1對比了采用多尺度采樣策略和不采用多尺度采樣策略對視頻分類準確率的影響。其中模型使用NeXtVLAD,設置默認參數G=8,K=128。 由表1數據可得,當設置最小采樣幀數Nmin=32,最大采樣幀數Nmax=128時正確率達到最高的0.908。當采用固定采樣幀數時,最終測試正確率隨著采幀數的增加而增加。通過對比固定采樣幀數為128的識別正確率與采用多尺度采樣且最大采樣幀數為128的識別準確率可得:采用多尺度的采樣策略能在減少采樣幀數的情況下獲得更高的正確率。

為驗證視頻長短對正確率的影響,本文按照視頻時長對測試集分別切分短視頻和長視頻各500個,其中的500個短視頻的時長不超過1 min,500個長視頻時長均超過5 min,在不同采樣策略上對比長視頻和短視頻的正確率,對比結果見表2。根據表2可以看出,當固定采樣幀數較小時會影響時長較長的視頻分類正確率,當固定采樣幀數較大時對短視頻分類正確率有一定的影響,而采用多尺度的采樣策略效果最佳。

表1 不同采樣策略識別正確率

表2 不同采樣策略對長視頻和短視頻精度影響

表3對比了多個不同的ghost聚類中心數值對GNeXtVLAD算法的影響,實驗使用本文提出的多尺度采樣策略對視頻采樣,設置默認參數λ1、λ2、Nmin、Nmax、K、G分別為750、7500、32、128、128、8。當ghost聚類中心數為0時,此時的特征聚合模塊即為NeXtVLAD。由表3可以看出,加入ghost聚類中心的GNeXtVLAD相對于NeXtVLAD有著明顯的提升。

表3 不同ghost聚類中心的分類準確率

VideoNet-100數據集不同于UCF101和HMDB51等行為動作識別數據集,VideoNet時長遠高于此類數據集。由于UCF101等行為識別數據集中視頻鏡頭單一、時長較短,在一些經典的基于深度學習的行為識別算法中,一般對視頻稀疏采樣8幀或16幀即可達到不錯的精度。對于VideoNet-100數據集中時長較長的視頻來說,隨機抽取8幀或者16幀可能對視頻信息表達不完整,導致精度下降。本文對文獻[1]提出的TSN模型進行復現,僅使用RGB圖像在VideoNet-100數據集上進行實驗對比。由于TSN模型對GPU顯存的要求遠高于GNeXtVLAD模型,故實驗在TSN模型中對視頻采樣8幀和16幀,其余參數使用該文獻的默認參數。表4為稀疏采樣8幀和采樣16幀的TSN模型和本文提出的網絡在VideoNet-100上的實驗結果。由表4可以看出,在稀疏采樣8幀和16幀的情況下本文算法與TSN模型在VideoNet-100數據集上準確率相當,但是與表3中實驗結果相比準確率較低,可見對于VideoNet-100數據集而言采樣幀數會直接影響最終準確率。

表4 TSN模型與本文模型對比

表5對比了不同采樣策略的GNeXtVLAD模型在訓練時的占用顯存大小以及TSN模型訓練的占用顯存大小。由于TSN模型在訓練時需要對所有網絡參數進行反向傳播,故在batch_size大小為4,采樣幀數為8時占用顯存10 G。由表5可得,在占用顯存相當的情況下,GNeXtVLAD模型相對于TSN在訓練時單批次能處理更多的采樣幀,當GNeXtVLAD模型采用多尺度采樣策略并設置λ1=32、λ2=128時能在相同batch_size下減少一定的顯存占用。GNeXtVLAD模型由于特征提取網絡只需要前向傳播而不需要計算梯度,在訓練時大大減少GPU計算量和顯存。

表5 TSN模型與本文模型訓練占用顯存大小對比

4 結束語

本文主要針對不同于行為動作識別數據集的VideoNet-100數據集進行研究,對NeXtVLAD算法進行改進并提出一個多尺度的采樣策略,設計出一個端到端訓練的視頻分類模型。VideoNet-100數據集中視頻時長較長,需要采樣大量幀才能更好表達視頻信息,而當前主流的基于深度學習的視頻分類模型在采樣幀數過大時需要龐大的計算資源才能進行訓練。本文模型在訓練時不需要對特征提取網絡進行訓練從而節約大量計算資源,解決了在計算資源有限的情況下采樣幀數與計算資源之間的矛盾。本文在VideoNet-100數據集上進行對比實驗,驗證了本文所設計模型的有效性,在VideoNet-100數據集上達到了92.5%的準確率。本文方法在VideoNet-100數據集上采樣幀最多達到了128幀,從而導致在訓練和推理階段需要花費大量時間在視頻預處理上,下一步的研究工作就是探索新的特征融合網絡,在少量采樣幀的情況下得到良好的視頻級特征進行分類輸出,提高長視頻分類準確率。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 成人噜噜噜视频在线观看| 久久黄色毛片| 全裸无码专区| 国产一二三区在线| 亚洲欧洲日韩国产综合在线二区| 欧美色图久久| 国产精品精品视频| 欧美成人午夜影院| 欧美 国产 人人视频| 久久久久久尹人网香蕉 | 国产三级国产精品国产普男人| 首页亚洲国产丝袜长腿综合| 波多野结衣国产精品| 国产91在线|日本| 色综合久久88色综合天天提莫| 国产成人综合亚洲网址| 高清无码手机在线观看| 蜜臀av性久久久久蜜臀aⅴ麻豆| 国国产a国产片免费麻豆| 国产SUV精品一区二区6| 91精品情国产情侣高潮对白蜜| 亚洲首页在线观看| 91啪在线| 宅男噜噜噜66国产在线观看| 久久免费视频6| 国产尤物视频在线| 在线精品视频成人网| 毛片久久久| 久久99国产综合精品女同| 91精选国产大片| 91精品国产情侣高潮露脸| 日韩毛片在线播放| 午夜丁香婷婷| 亚洲欧美日韩中文字幕在线| 国产精品视屏| 国产噜噜噜视频在线观看| 成年片色大黄全免费网站久久| 国产美女一级毛片| 国产丝袜啪啪| 国产肉感大码AV无码| 自偷自拍三级全三级视频| 91精品人妻一区二区| 久久久久青草线综合超碰| аⅴ资源中文在线天堂| 欧美日韩北条麻妃一区二区| 欧美精品成人| 伊人无码视屏| 中美日韩在线网免费毛片视频| 欧美在线观看不卡| 日韩精品成人在线| 在线观看国产精品第一区免费| 国产精品福利导航| 亚洲欧美极品| 国产在线自揄拍揄视频网站| 日本色综合网| 国产精品女同一区三区五区| 99热这里都是国产精品| 国产精品极品美女自在线| 欧美日本激情| 在线毛片网站| 国产精品短篇二区| 亚洲国产综合自在线另类| 欧美激情,国产精品| 国产精品林美惠子在线观看| 91视频免费观看网站| 精品在线免费播放| 亚洲天堂伊人| 亚洲精品成人片在线播放| 欧美午夜在线观看| 国产真实二区一区在线亚洲| 精品无码国产自产野外拍在线| 日本午夜网站| 青草午夜精品视频在线观看| 亚洲无码不卡网| 欧美日韩中文国产| 激情乱人伦| 精品久久综合1区2区3区激情| 日韩欧美国产三级| 亚洲 成人国产| 亚洲无码在线午夜电影| 日本免费福利视频| 亚洲日韩AV无码一区二区三区人|