999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

復(fù)雜場景下抽煙、打電話動作識別算法

2022-07-25 09:42:26趙緒言
現(xiàn)代計算機(jī) 2022年9期
關(guān)鍵詞:動作方法

趙緒言

(西南交通大學(xué)計算機(jī)與人工智能學(xué)院,成都 611756)

0 引言

現(xiàn)今,智能安防領(lǐng)域在城市智能化過程中成為越來越不可或缺的一部分,其改變了傳統(tǒng)監(jiān)控功能單一,沒有基于視頻主動分析功能的缺陷。國內(nèi)外越來越多的技術(shù)性企業(yè)正在全力發(fā)展基于智能安防的行為分析等核心技術(shù)。為了使計算機(jī)能夠更好地監(jiān)控和分析視頻數(shù)據(jù),對于視頻中目標(biāo)行為的檢測與識別是一項基本能力。如今在深度學(xué)習(xí)快速發(fā)展的背景下,利用視頻數(shù)據(jù)進(jìn)行人物行為識別變得越來越容易,但是在很多特定場景下,基于深度學(xué)習(xí)的行為識別依舊有非常多可以深究的部分。

生活中某些特定的場景常常會對人物的行為做出特定的限制,如加油站禁止抽煙和打電話,駕駛過程中禁止打電話等。近年來在加油站、駕駛過程中抽煙、打電話引發(fā)的安全事故屢見不鮮,對社會造成很大的危害。因此,設(shè)計一種基于深度學(xué)習(xí)的抽煙、打電話動作識別算法是十分有必要的。

早期的行為識別算法的輸入是圖片,輸出是行為的類別,然而行為的發(fā)生往往伴隨著時序的關(guān)系,如果網(wǎng)絡(luò)的輸入僅僅是圖片那么時序關(guān)系將會被忽略。本文選擇工程環(huán)境下的復(fù)雜場景,研究基于時序信息的抽煙、打電話識別算法。

1 相關(guān)工作

動作的發(fā)生常常伴隨著先后順序,例如人抽煙這個動作會先抬手,然后再吸煙。為了在行為識別網(wǎng)絡(luò)中加入時序信息,輸入單張圖片是不夠的,而是需要將覆蓋整個動作的視頻片段輸入網(wǎng)絡(luò)進(jìn)行訓(xùn)練。因此需要在網(wǎng)絡(luò)中設(shè)計加入時序特征。

Donahue 等提出的LRCN 使用CNN 提取空間特征,使用LSTM 提取時序特征,進(jìn)行行為識別。但是LSTM 的固有順序阻礙了訓(xùn)練樣本的并行化,導(dǎo)致訓(xùn)練效率很低,并且它可感知的時序性范圍也是有限的。而RGB-Based 的方法可以一定程度上解決這些問題。

RGB-Based 行為識別可以分為Two-Stream、3D-based、2D-based、Video Transformer 這幾個類別。

其中Two-Stream 將動作識別中的特征提取分為兩個分支:一個是RGB分支提取空間特征、另一個是光流分支提取時間上的光流特征,最后結(jié)合兩種特征進(jìn)行動作識別,代表性方法如TwoStream及其擴(kuò)展。

3D-Based 的方法將2D 卷積添加了時間維度,擴(kuò)展到3D,直接提取包含時間和空間兩方面的特征,這一類方法也是目前做的比較多的話題。代表方法如開山之作C3D及其之后的擴(kuò)展SlowFast等。目前3D-Based 的方法在大規(guī)模的Scene-Based 數(shù)據(jù)集(如Kinetics400)上相對于2D 的方法取得了更好的效果,但是3Dbased 也存在一些明顯的問題:其網(wǎng)絡(luò)參數(shù)量大,計算開銷大,推理速度明顯慢于2D-Based的方法。

2D-Based 的出現(xiàn)是為了解決以上3D-based的缺點,近年來也有比較高效的2D-based 的時序建模方法,包括TSN,TPN等輕量級的時序建模方法。

基于卷積的主干網(wǎng)絡(luò)長期以來一直主導(dǎo)著計算機(jī)視覺中的視覺建模任務(wù),然而目前圖像分類的主干網(wǎng)絡(luò),最近正在進(jìn)行從CNN 到Transformer的 轉(zhuǎn) 變。這 一 趨 勢 始 于Vision Transformer(ViT)和Swin Transformer的引入,在視覺分類任務(wù)上取得了SOTA 的效果。Swin Transformer 不同于ViT 一來就下采樣16 倍的策略,提出了具有層次性的特征圖,利用SWMSA(shifted-window multi head self attention)進(jìn)行窗口之間的通訊。Transformer 系列在圖像分類上的巨大成功促成了一些基于Transformer 結(jié)構(gòu)的視頻識別任務(wù)研究的出現(xiàn)。例如本文用到的方法Video Swin Transformer。

另外還有Skeleton-Based 的方法,例如STGCN。這種方法基于骨架的行為識別以關(guān)鍵點檢測算法的結(jié)果作為網(wǎng)絡(luò)輸入進(jìn)行行為識別。骨架的信息使得行為識別的準(zhǔn)確性得到提升,但對輸入的要求比較嚴(yán)格,需要先對視頻數(shù)據(jù)進(jìn)行預(yù)處理得到骨架數(shù)據(jù),這使得該類算法的中間步驟較多,不利用工程化應(yīng)用。

2 算法原理

2.1 抽煙、打電話動作識別

基于Transformer 系列強(qiáng)大的特征提取能力,本文在Video Swin Transformer的基礎(chǔ)上,對視頻片段進(jìn)行抽煙、打電話動作識別。Video Swin Transformer 嚴(yán)格遵循原始Swin Transformer 的層次結(jié)構(gòu),但將局部注意力計算的范圍從空間域擴(kuò)展到時空域。由于局部注意力是在非重疊窗口上計算的,因此原始Swin Transformer 的滑動窗口機(jī)制也被重新定義了,以適應(yīng)時間和空間兩個域的信息。

整體結(jié)構(gòu)中的主要組件是Efficient Video Swin Transformer Block,如圖1(b)所示。這個模塊是基于Swin Transformer Block,其中Swin Transformer Block 是 將Transformer 中Multi Head Self Attention(MSA)替換成了基于3D 滑動窗口的MSA 模塊。具體地說,一個Video Transformer Block 由一個基于3D 滑動窗口的MSA 模塊和一個前饋網(wǎng)絡(luò)(FFN)組成,其中FFN 由兩層的MLP 和激活函數(shù)GELU 組成。Layer Normalization(LN)被用在每個MSA 和FFN 模塊之前,殘差連接被用在了每個模塊之后。

圖1 Efficient Video Swin Transformer

本文在Swin Transformer Block 的基礎(chǔ)上,參考DynamicViT提 出 了Efficient Swin Transformer Block。即在FFN 之后添加了一層Sparsification Module(SPM)對整個網(wǎng)絡(luò)進(jìn)行分層稀疏化,通過消除信息較弱patch 而節(jié)省計算開銷,加速模型推理速度。patch 的稀疏化是分層執(zhí)行的,網(wǎng)絡(luò)在計算的過程中會逐步刪除無用信息的patch。兩個Efficient Swin Transformer Block 之間的計算如下所示:

2.2 在線動作識別框架

考慮到目前數(shù)據(jù)集(3.1 介紹)大部分是以人為中心,視頻中人的目標(biāo)是比較大且清晰的。若實際遷移到工程攝像頭角度下,場景信息會更加多樣化和復(fù)雜,其中“人”的目標(biāo)可能會較小,如果直接將整個畫面?zhèn)魅雱幼髯R別網(wǎng)絡(luò),網(wǎng)絡(luò)可能會因為抽煙、打電話的視覺特征不明顯,周圍無用的視覺信息較多,造成分類效果不理想。因此本文考慮在動作識別模型(Efficient Video Swin Transformer)前,加入一系列前處理操作,盡可能在動作分類前過濾掉周圍無用的視覺信息,且保證動作識別模型的在線處理實時性。詳細(xì)的處理流程如圖2所示。

圖2 在線動作識別框架

①接入實時流解碼得到連續(xù)的單幀圖片。②通過YOLO V5目標(biāo)檢測算法,檢測到“人”這個類。③利用多目標(biāo)跟蹤算法SORT,對多幀之間的目標(biāo)檢測結(jié)果進(jìn)行跟蹤,得到帶ID 的跟蹤序列。④將跟蹤后的序列送入Online Video Understanding 算法。維護(hù)保證實時性的待檢測序列。⑤對上一步中的序列接入Efficient Video Swin Transformer 動作識別模型進(jìn)行動作分類,得到最終結(jié)果。

其中第④步的Online Video Understanding 算法參考ECO。因為動作識別模型在訓(xùn)練時的輸入通常都是一段裁剪好的視頻。在實際工程中的輸入通常是通過解碼視頻流,形成一幀一幀連續(xù)的圖片呈現(xiàn)的。那么如何將視頻流解碼后的多幀圖片轉(zhuǎn)換成動作識別模型的輸入,且保證識別結(jié)果的實時性是一個問題。目前一般的做法是固定一個大小為的滑動窗口,輸入連續(xù)幀畫面,進(jìn)入動作識別網(wǎng)絡(luò)判斷結(jié)果。但是這樣做會有兩個缺陷:①會造成長期語義信息的缺失;②無法保證動作識別的實時性,可能會造成較長的延遲。因此需要一個在線的處理框架保證網(wǎng)絡(luò)的實時性。

如圖2中右側(cè)中間部分所示,這個框架中主要維護(hù)了兩個圖像的隊列,其中Q表示存放較舊圖像的工作記憶隊列,Q表示存放新解碼得到的未處理圖像隊列。當(dāng)新的一組序列到來時,需要從上述兩個隊列中各采樣一半得到即將推理隊列Q,同時更新工作記憶隊列。然后將Q作為動作識別網(wǎng)絡(luò)的輸入得到當(dāng)前的預(yù)測結(jié)果。同時將當(dāng)前的預(yù)測結(jié)果和平均預(yù)測結(jié)果進(jìn)行平均后得到最終的輸出。這個框架在以當(dāng)前畫面為主的基礎(chǔ)上,通過工作記憶隊列和平均輸出兩個方面維護(hù)了較長的時序信息。

3 實驗設(shè)置與結(jié)果分析

3.1 數(shù)據(jù)集

本文在兩大公開數(shù)據(jù)集的基礎(chǔ)上,構(gòu)建抽煙、打電話的視頻數(shù)據(jù)集。其中Kinetics400 包含抽煙視頻,Moments in time包含抽煙和打電話視頻。選擇Kinetics400 中所有的抽煙視頻+網(wǎng)上額外爬取的抽煙視頻,Moments in time 中所有的打電話視頻,形成視頻數(shù)據(jù)集。每個視頻時長大概為10 秒。最后形成的數(shù)據(jù)集包含三個類別:抽煙、打電話和其他。數(shù)據(jù)集詳細(xì)情況如表1所示。

表1 抽煙、打電話數(shù)據(jù)集

其中抽煙視頻870 個,打電話視頻1959 個,其他視頻800個(“其他”為Kinectics400中除開抽煙的其他類別,隨機(jī)抽取得到)。按照二八的比例劃分為驗證集和訓(xùn)練集。

3.2 實驗設(shè)置

實現(xiàn)上,實驗采用Swin Base 的基礎(chǔ)結(jié)構(gòu),使用ImageNet 21K的預(yù)訓(xùn)練模型。訓(xùn)練參數(shù)patch 設(shè)置為224 × 224,學(xué)習(xí)率采用CosineAnnealing 的策略,初始學(xué)習(xí)率為3e-4,采用線性warm up 策略,優(yōu)化器采用AdamW,權(quán)重衰減設(shè)置為0.05,batch size 設(shè)置為16,總迭代次數(shù)為30個epoch。

3.3 結(jié)果分析

本文將實驗結(jié)果與動作識別的其他方法在驗證集上進(jìn)行了對比,形成的實驗結(jié)果如表2所示。其中第四行(已加粗)是本文采用方法的實驗結(jié)果。可以看出本文提出的Efficient Video Swin Transformer,與傳統(tǒng)基于RGB 的方法TSN、TPN 相比,精度有非常大的提升,與Video Swin Transformer 相比,在加入SPM(Keeping Ratio 設(shè)置為0.8)后精度只下降0.3%,但是推理速度提升26%,約10 秒的視頻片段推理時間可達(dá)到3.4秒。

表2 實驗結(jié)果對比

同時,本文提出的方法通過集成在線動作識別框架,可以將抽煙、打電話的動作識別在真實工程系統(tǒng)環(huán)境下做到很高的實時性和準(zhǔn)確性。其中YOLO V5 和SORT 能保證檢測和跟蹤的效率,通過Online Video Understanding 可以實時地平滑出當(dāng)前的結(jié)果,區(qū)分出畫面中人抽煙、打電話或者其他的行為。

4 結(jié)語

本文基于Video Swin Transformer 和Dynamic-ViT,提出了Efficient Video Swin Transformer,在Swin Transformer Block 中加入SPM 模塊,在保證一定精度的同時,大幅提升了動作識別網(wǎng)絡(luò)的推理速度。在Kinetics400 和Moments in time 混合的抽煙、打電話數(shù)據(jù)集中,與現(xiàn)有方法相比取得了速度與精度最為平衡的結(jié)果。同時,本文提出了一套在線動作識別框架,將Efficient Video Swin Transformer 集成在其中。框架從視頻流中解碼得到單幀圖片,到目標(biāo)檢測、跟蹤、實時在線平滑隊列,最后傳入動作識別網(wǎng)絡(luò)得到分類結(jié)果,整個過程可保持結(jié)果的實時性和準(zhǔn)確性。

猜你喜歡
動作方法
下一個動作
學(xué)習(xí)方法
動作描寫要具體
畫動作
讓動作“活”起來
動作描寫不可少
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
非同一般的吃飯動作
主站蜘蛛池模板: 欧美成人一级| 亚洲无码高清视频在线观看| 中国一级特黄大片在线观看| 国产日韩欧美在线播放| 国产成人精品男人的天堂| 夜精品a一区二区三区| 国产黄网永久免费| 国产精品性| 精品天海翼一区二区| 午夜精品区| 狠狠综合久久| 伊人久久精品亚洲午夜| 久久99精品久久久大学生| 亚洲国产精品成人久久综合影院| 免费一级大毛片a一观看不卡| 国产精品手机视频| 亚洲第一黄色网址| 无码免费的亚洲视频| 欧洲日本亚洲中文字幕| 国产亚洲精品自在久久不卡| 99精品免费在线| 欧美不卡在线视频| 18黑白丝水手服自慰喷水网站| 人妖无码第一页| 久久99精品久久久久纯品| 亚洲欧洲日产无码AV| 亚洲成年人网| 曰韩人妻一区二区三区| 找国产毛片看| 老色鬼欧美精品| 国产微拍一区二区三区四区| 日本成人在线不卡视频| 亚洲国产日韩视频观看| 夜精品a一区二区三区| 国产亚洲成AⅤ人片在线观看| 久久久精品无码一区二区三区| AⅤ色综合久久天堂AV色综合| 一区二区三区国产| 亚洲成人精品| 一区二区三区国产| 亚洲精品老司机| 久久久久人妻一区精品| 国产一级做美女做受视频| 日本一区二区三区精品AⅤ| 国产美女精品人人做人人爽| 2020极品精品国产| 一本大道东京热无码av| 国产无码高清视频不卡| 97se综合| 久久综合九色综合97网| 亚洲欧美激情小说另类| 老司机aⅴ在线精品导航| 国产精品播放| 好紧太爽了视频免费无码| 亚洲综合香蕉| 国产在线自在拍91精品黑人| 欧美a√在线| 日韩毛片在线视频| 91青青在线视频| 国产视频 第一页| 国产91特黄特色A级毛片| 精品国产中文一级毛片在线看| 日本五区在线不卡精品| 91网红精品在线观看| 最新国语自产精品视频在| 在线视频一区二区三区不卡| 久久青草热| 日韩欧美网址| 高清免费毛片| 亚洲一级毛片在线观播放| 少妇极品熟妇人妻专区视频| а∨天堂一区中文字幕| 亚洲欧美天堂网| 国产成人AV综合久久| 综合社区亚洲熟妇p| 婷婷伊人五月| 欧美午夜一区| 久久亚洲中文字幕精品一区| 亚洲全网成人资源在线观看| 国产偷国产偷在线高清| 欧美成人h精品网站| 欧美在线网|