999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的雙流程短視頻分類方法

2022-07-14 13:11:46張璦涵石蘊玉劉思齊
計算機工程 2022年7期
關鍵詞:分類特征

張璦涵,劉 翔,石蘊玉,劉思齊

(上海工程技術大學電子電氣工程學院,上海 201620)

0 概述

視頻分類是指給定一個視頻片段并對其中包含的內容進行分類,廣泛應用于視頻點播、網絡演示、遠程教育等互聯網信息服務領域[1-2]。隨著深度學習[3-4]技術的發展,通常將視頻每一幀視為一幅單獨的圖像并利用二維卷積神經網絡(Convolutional Neural Networks,CNN)進行圖像分類。該方法將視頻分類問題簡化為圖像分類問題,對比圖像分類僅多了一個維度的時序特征。KARPATHY等[5]將時序語義融合分為識別動作靠場景和識別場景靠物體的單融合、相鄰固定幀的兩幀做卷積而全連接接受時序信息的后融合、在二維卷積中增加深度的前融合、在前融合中增加長度和步長的緩融合4 類。根據3D卷積神經網絡(3D Convolutional Neural Network,3DCNN)保留時序特征的特點,TRAN等[6]在UCF101 數據集上的分類準確率最高為85.2%,每秒傳輸幀數(Frame Per Second,FPS)為313.9。研究人員對3D 卷積神經網絡進行大量研究,CARREIRA等[7]提出增加網絡寬度的I3D 網絡,在單一數據集RGB 流中的分類準確率為84.5%,但需使用64 個GPU 并行訓練,且計算量難以應用于現實場景。為解決現實生活場景下的視頻分類問題,楊曙光等[8-11]分別對3D 卷積提取進行改進并將其運用于人體動作識別、體育運動分類等任務,獲得了較高的分類準確 率。HARA等[12]將ResNet網絡[13]從2D 擴展到3D,并將其與ResNeXt 網絡[14]、DenseNet網絡[15]在Kinetics 數據集上進行分類準確率對比,證明了預訓練的簡單3D 體系結構優于復雜2D 體系結構。陳意等[16]改進了NeXtVLAD,并且在VideoNet-100 數據集中的分類準確率最高為85.4%。

由于目前常用的UCF101[17]、Kinetics[7]、HMDB51等數據集主要是以人物動作進行分類,然而在現實生活場景中還有純風景、純文字、卡通動漫等識別類型,此類基于人物動作的分類數據集并不適用,因此本文構建來源于抖音、快手、今日頭條等平臺的短視頻數據集,并提出一種雙流程短視頻分類方法。在主流程中,通過考慮短視頻在時間維度的連續性、平衡性與魯棒性,設計更適合短視頻分類的A-VGG-3D 網絡模型和采樣策略。在輔助流程中,將幀差法判斷鏡頭切換抽取出的若干幀通過人臉檢測進行人物類和非人物類的二分類,以進一步提升短視頻分類準確性。

1 雙流程短視頻分類原理

針對實際生活場景下的短視頻分類問題,本文提出一種雙流程分類方法。主流程采用A-VGG-3D 網絡結構,通過對特征的精準提取并結合視頻時序特征實現短視頻分類。輔助流程通過鏡頭判別和人臉檢測進行輔助分類。將輔助流程的分類結果與主流程分類結果進行分析,得出最終的分類結果。該分類方法不局限于人物動作,可將生活中的短視頻進行更好的分類,適用于視頻推薦、視頻監管、視頻查詢等任務。

1.1 短視頻采樣策略

在采樣過程中,為充分保留視頻的時序性,并且考慮到2D 卷積網絡在每次卷積運算后都會丟失輸入的時間信息,而3D 卷積網絡除了2D 卷積網絡原有特征之外,還會保留輸入的時間信息,因此選擇3D 卷積用于視頻的相關特征提取。給定一個短視頻,將其按相等間隔分為k段,其中相等的間隔所獲取到的幀數即為網絡中3D 卷積采樣深度,采樣得到的片段序列T1,T2,…,Tk表示如下:

2D 和3D 卷積操作如圖1 所示,其中,L、H、W分別表示為短視頻的時間長度、通道數、高和寬,k、d、K表示卷積核的尺寸。

圖1 2D 和3D 卷積操作Fig.1 2D and 3D convolution operations

1.2 VGG 網絡

牛津大學的SIMONYAN等[18]提出的VGG16 卷積神經網絡模型在ImageNet 數據集中的Top-5 測試精確率達到92.7%。VGG16 網絡模型利用深度學習技術,使得每個神經元只能感覺到局部圖像區域,而全局信息則通過整合不同敏感的神經元獲得,減少了卷積神經網絡訓練所需的參數量和權值。

1.3 注意力機制

注意力機制是一種大腦信號處理機制,通過計算概率分布突出某個關鍵輸入對輸出的影響[19]。軟注意力機制考慮所有輸入,為每一個特征分配不同概率的注意力權重值,相對發散。硬注意力機制較為隨機,在某一時刻只關注一個位置的信息,相對專注。通道注意力模塊通過對特征圖的各個通道之間的依賴性進行建模,提高了對于重要特征的表征能力。HU等[20]提出SENet block,其核心思想在于網絡根據loss 學習特征權重,有選擇性地通過權重分配加強有關特征或抑制無關特征。BAHDANAU等[21]將注意力機制引入循環神經網絡(Recurrent Neural Network,RNN),實現機器翻譯。

本文在VGG16 網絡模型的基礎上,引入壓縮注意力模塊(SENet block),SENet block 主要包含Squeeze 和Excitation 兩部分,如 圖2所示,其中X為輸入,C為通道數,W為權重參數,Ftr為標準的卷積形式轉換操作,Fsq為壓縮操作,Fex為激勵操作,Fscale為通道上的乘積操作。

圖2 SENet block 結構Fig.2 SENet block structure

壓縮操作(Squeeze)是一個全局平均池化操作,將C個大小為H×W的特征圖(H×W×C)的輸入轉換成的輸出,輸出結果為全局信息,如式(2)所示:

其中:UC代表2D 矩陣的數值。

激勵操作(Excitation)是一個全連接層操作,位于壓縮操作得到的結果Z后。權重參數W被用來學習顯式地建模特征通道間的相關性,經過一個ReLU層,輸出的維度不變,與W2相乘也是一個全連接層的過程,再經過sigmoid 函數得到S,如式(3)所示:

其中:S用來刻畫U中C個特征圖的權重,該權重是通過前面的全連接層和非線性層學習得到的。激勵操作中兩個全連接層的作用是融合各通道的特征圖信息。

規模化操作(Scale)是在得到S后對U進行的操作,如式(4)所示:

其中:SC代表2D 權重的數值。

2 雙流程短視頻分類流程

短視頻分類流程如圖3 所示,在主流程中選取網絡輸出的前5 類,從高到低設置為5 分至1 分,輔助流程輸出結果各占1 分,采用投票法計算出最終分值后進行短視頻類別排序,最終輸出總排名第1的短視頻類別作為最終分類結果,進一步提升短視頻分類準確率。

圖3 短視頻分類流程Fig.3 Procedure of short video classification

2.1 自建的短視頻數據集

選取典型短視頻,構建C1 和C2 兩類數據集,其中,C1 是僅包含人物動作類的數據集,細分為訪談、劇情、樂器、舞蹈、穿搭5 類短視頻,C2 數據集在C1數據集的基礎上增加了文字類和動畫類短視頻,每類包括10~25 組短視頻,每組包括3~7 個短視頻。C1 和C2 數據集標簽層級結構關系如圖4 所示。

圖4 C1 和C2 數據集標簽層級結構關系Fig.4 C1 and C2 dataset label hierarchy relationship

通過觀察創作者的短視頻,自制數據集中的短視頻時長為15 s 至1 min,主要集中在30 s 左右,分別選取對應的388 條和504 條短視頻,以防止過擬合。本文提出的短視頻分類方法以短視頻實際展示內容為視頻標簽,在短視頻分類上更具實用性和魯棒性。C2 數據集中的部分短視頻如圖5 所示。

圖5 C2 數據集部分短視頻Fig.5 Part of short videos of the C2 dataset

2.2 短視頻分類流程

短視頻分類主流程如圖6 所示,首先分割選取短視頻片段,保證幀圖像規格相同并確保相應數量的片段樣本,然后把視頻段輸入A-VGG-3D 網絡進行特征提取、訓練和測試,最后網絡預測出前5 類分類結果。

圖6 短視頻分類主流程Fig.6 Main procedure of short video classification

目前,短視頻分辨率一般為720×1 280 像素。通過降采樣處理,將短視頻分割為224×224×3×15 的片段輸入A-VGG-3D 網絡特征提取部分,將Conv 3-3特征圖輸入短視頻分類部分,將調整特征圖做上采樣處理為112×112×3×15 的片段輸入A-VGG-3D 網絡分類部分,其中采樣深度為15,通道數為3,最終輸出為該短視頻類別。短視頻深度選擇方法主要分為給定固定值和選擇所有幀2 類,本文選擇所有視頻幀,這樣能減少特殊樣本對數據的影響。在式(5)中,Nframe為在視頻中被抽取的首幀序號、Nnframe為短視頻文件的總幀數、Ndepth為需要抽取的總幀數,x(x=0,1,…,Ndepth)為從0 開始依次遞增的整數。

A-VGG-3D 網絡架構分為特征提取部分和短視頻分類部分,其中特征提取部分為增加注意力機制的VGG 網絡,短視頻分類部分為改進的C3D 網絡。A-VGG-3D 網絡模型的創新之處在于:1)特征提取部分在VGG-16 網絡淺層增加注意力機制,可模擬人腦對感興趣區域合理分配權重;2)短視頻分類部分減少了卷積層和池化層,在幾乎不影響準確度的情況下降低了計算復雜度,加快了分類速度,并具有較高的分類魯棒性;3)短視頻分類部分新增3 個BN層,解決了因網絡層數加深而產生的收斂速度慢甚至消失的問題;4)短視頻分類部分增加了級聯融合模塊,將小尺度圖像放大至所需尺度,實現了多級特征融合。

A-VGG-3D 網絡架構如圖7 所示,彩色效果見《計算機工程》官網HTML 版。在特征提取部分,卷積層為粉色(Convolution+ReLU)、池化層為藍色(max pool)、全連接層為黃 色(Fully connected+ReLU)、深橙色為注意力機制模塊(SENet block),最后輸出層為綠色(softmax)。該網絡在VGG 網絡Conv 1-1 和Conv 1-2 之間加入SENet block,主要包含Squeeze 和Excitation 兩部分,通過在淺層進行學習并分配注意力權重從而選擇性地加強有關特征或抑制無關特征。然后將特征以Conv 3-3 特征圖作為短視頻分類部分輸入。在短視頻分類部分,綠色部分為本文加入的歸一化層,通過兩個跳躍連接的上采樣模塊(淺橙色)融合多尺度特征進行預測,從而加強對局部特征的學習,其中32@3×3×3為32個3×3×3的卷積核。

圖7 A-VGG-3D 網絡架構Fig.7 A-VGG-3D network architecture

短視頻分類輔助流程主要包括鏡頭判別和人臉檢測兩部分輔助流程。由于短視頻拍攝可分為航拍、弧型運動、銜接等鏡頭,因此不同類別短視頻采用的鏡頭拍攝方法存在差異。劇情類和訪談類短視頻的拍攝視角和場景切換頻率存在很大不同,以相同方式選取短視頻的46 幀,劇情類前景與背景均存在較多變化,如圖8(a)中黑框區域,訪談類前景背景幾乎不變,如圖8(b)所示。

圖8 短視頻鏡頭拍攝差異圖Fig.8 Lens shot difference images in the short videos

在鏡頭判別輔助流程中,采用幀差法來判斷鏡頭切換,根據視頻序列具有連續性的特點:如果拍攝鏡頭內沒有較大變化,則連續幀的變化很微弱;如果存在鏡頭切換,則連續的幀與幀之間會有明顯變化,即為本文選取的變換鏡頭幀。將相鄰兩幀圖像對應像素點的灰度值進行相減并取絕對值,fn(x,y)為當前幀的直方圖特征,fn-1(x,y)為上一幀的直方圖特征,得到差分圖像Dn,如式(6)所示:

設定閾值T,按照式(7)逐個對像素點進行二值化處理得到二值化圖像

其中:灰度值為255 的點,即為前景點;灰度值為0 的點,即為背景點。

為進一步提升短視頻分類準確性,將幀差法抽取出的若干幀通過人臉檢測輔助流程進行人物類和非人物類的二分類。采用滑動窗口機制與級聯分類器融合的方式進行多尺度人臉檢測,若抽取的短視頻幀中存在人臉,則將人臉框出作為人物類短視頻依據。因為人物類短視頻部分帶有人物特征,所以將改進的行為識別網絡作為分類網絡進行分類。最終根據分類網絡得到的分類結果進行分析優化,并與前幾次分類結果進行比對,得到最優分類結果。

3 實驗與結果分析

3.1 實驗參數設置

實驗操作系統為Windows 10 64 位旗艦版。實驗環境GPU 為4 塊NVIDIA GeForce GTX 1080Ti 顯卡。A-VGG-3D以keras為框架,batch size設置為128,初始學習率為0.003,每經過1.5×105次迭代,學習率除以2,在第1.9×106次迭代(大約13 個epoch)時停止,共訓練100 個epoch。鏡頭判別采用灰度幀差法,其中鏡頭邊界閾值為0.5。人臉檢測采用Python腳本在鏡頭幀中進行自動檢測。

3.2 評價指標

采用Top-1 準確率和FPS 作為評價視頻分類方法主流程的性能指標。Top-1 準確率和FPS 計算公式分別如式(8)和式(9)所示:

其中:A表示準確率;T表示分類正確的樣本數;F為分類錯誤的樣本數;NFrameNum表示每秒處理的圖像幀數;Ttime表示時間間隔,取值為1 s。

選擇查準率(ATR)和查全率(APR)作為評價視頻分類方法輔助流程的性能指標。ATR和APR計算公式分別如式(10)和式(11)所示:

其中:AFP表示誤檢的數量;AFN表示漏檢的數量。

3.3 結果分析

由于數據集數量有限,在較多的短視頻樣本中選取少量推薦率高、代表性強的短視頻作為實驗數據集。UCF101[17]為包含時間短于10 s的13320條實際動作短視頻的公開數據集,共分為101 類,其中每類有25 個人,每人做4~7 組刷牙、擊鼓、蛙泳等動作。由于UCF101 數據集與短視頻分類研究數據集在時間上有相似性,因此選取UCF101 數據集和自建數據集以解決短視頻分類問題。選擇C1、C2 和UCF101 數據集進行5 類、7 類、101 類短視頻分類,并按照4∶1 的比例劃分為訓練集和測試集。為確保結果的一致性,實驗選取視頻的隨機性保持不變,使用RGB 幀輸入。在輔助流程中,鏡頭判別在C1、C2 數據集中進行鏡頭切換數量判定,在表示訪談類、劇情類、卡通類鏡頭切換數量與視頻幀總數量的關系中:訪談類鏡頭切換數量基本保持在5 次左右,在視頻總幀數中占比不足5%;劇情類鏡頭切換數量基本大于10 次,集中于20~70 次,在視頻總幀數中占10%~20%;卡通類鏡頭切換數量并不穩定,在切換數量上與劇情類更為相似,通過人臉檢測輔助流程可較好地將兩者進行分類。在輔助流程中,人臉檢測準確率高達99%,表明輔助流程在短視頻分類中具有較大作用。由于訪談類和劇情類在鏡頭切換數量上存在較大區別,因此以鏡頭數量判別非訪談類和非劇情類效果較好,也可降低網絡對短視頻分類的誤判。為保證較高的查準率與查全率,設置鏡頭切換數量閾值為10,查準率與查全率結果如表1 所示。

表1 鏡頭判別查準率與查全率Table 1 Precision and recall of lens discrimination %

通過雙流程權重設置,主流程A-VGG-3D 網絡判定中存在粗分類問題,在分類層得出的前5 名分類結果得分從高到低為5 分至1 分,輔助流程結果各占1 分,采用投票法計算出最終分值作為分類結果,進一步提升短視頻分類準確率。由于鏡頭判別僅針對輔助訪談類和劇情類提升準確率,最終分類準確率主要依據A-VGG-3D 網絡結果,因此本文權重設置較為合適。不同視頻分類方法的消融實驗結果如表2 所示。由表2 可以看出,與主流程A-VGG-3D 網絡分類相比,增加人臉檢測可提升人物類和非人物類的分類準確率,在C2 數據集上提升了3.2 個百分點,增加鏡頭判別在C1 數據集上提升了4.5 個百分點,可見本文方法中的輔助流程可提升現實生活場景短視頻的分類準確率。

表2 消融實驗結果Table 2 Ablation experiment results %

不同視頻分類方法的對比實驗結果如表3 所示。由表3 可以看出,與基于C3D 的分類方法相比,本文方法的準確率在UCF101 數據集上提升了9.7 個百分點,在C1 和C2 數據集上表現也較為突出。綜上,本文方法針對不同數據集能快速高效地進行短視頻分類,并且對于人物類和非人物類短視頻均具有較強的魯棒性。

表3 對比實驗結果Table 3 Comparative experiment results %

4 結束語

本文提出一種針對生活場景的雙流程短視頻分類方法,構建A-VGG-3D 網絡模型,采用帶有注意力機制的VGG 網絡提取特征,利用優化的3DCNN 網絡進行短視頻分類,并結合鏡頭判別和人臉檢測進一步提高短視頻分類準確率。實驗結果表明,該方法相比基于2D 網絡的視頻分類方法可以更好地保留時間信息,并且在UCF101 數據集和自建的生活場景短視頻數據集上的分類效果均優于傳統短視頻分類方法。后續將優化A-VGG-3D 分類模型,通過匹配鏡頭判別和人臉檢測輔助流程進一步提升分類效果。

猜你喜歡
分類特征
抓住特征巧觀察
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 免费在线a视频| AV天堂资源福利在线观看| 91美女视频在线观看| 国内丰满少妇猛烈精品播| 四虎影视库国产精品一区| 国产浮力第一页永久地址| 不卡网亚洲无码| 97超爽成人免费视频在线播放| 国内精品视频在线| 激情综合网址| 永久天堂网Av| 亚洲午夜天堂| 一级毛片视频免费| 国内精品九九久久久精品| 欧美精品一二三区| 国产另类视频| 欧美在线综合视频| 日韩欧美在线观看| 四虎影视国产精品| 欧美第一页在线| 中文字幕免费在线视频| 日韩一级毛一欧美一国产| 亚洲精品在线观看91| 精品国产香蕉在线播出| 亚洲第一视频区| 天天躁狠狠躁| 四虎国产成人免费观看| 欧美在线中文字幕| 国内精品小视频福利网址| 无码视频国产精品一区二区| 欧美成人a∨视频免费观看| 欧美三级不卡在线观看视频| 日韩色图区| 亚洲精品麻豆| 成人国产免费| 久久精品国产999大香线焦| 香蕉色综合| 国产精品密蕾丝视频| 午夜性爽视频男人的天堂| 五月激激激综合网色播免费| 亚洲色图综合在线| 国内精品自在自线视频香蕉| 2021国产精品自产拍在线观看| 国产精品亚洲一区二区三区在线观看| 91色在线视频| 国产美女在线免费观看| 国产高清自拍视频| 久久综合九色综合97婷婷| 伊人91在线| 高清欧美性猛交XXXX黑人猛交 | 青青青伊人色综合久久| 91久久偷偷做嫩草影院电| 国产欧美日韩精品综合在线| 国产亚洲视频免费播放| 精品综合久久久久久97超人| 国产色婷婷视频在线观看| 国产精品男人的天堂| 一区二区三区四区精品视频| 欧美乱妇高清无乱码免费| 东京热一区二区三区无码视频| 99这里只有精品免费视频| 国产精品永久在线| 亚洲男人在线天堂| 亚洲一区二区精品无码久久久| 四虎AV麻豆| 黄色网在线| 国产女同自拍视频| 亚洲成人高清无码| 五月六月伊人狠狠丁香网| 精品人妻无码区在线视频| 国产精品亚洲综合久久小说| 国产99欧美精品久久精品久久| 毛片一区二区在线看| 免费看的一级毛片| 色AV色 综合网站| 九九免费观看全部免费视频| 色婷婷电影网| 亚洲婷婷丁香| 国产毛片基地| 亚洲人视频在线观看| 囯产av无码片毛片一级| 国产亚洲成AⅤ人片在线观看|