復(fù)雜場景下抽煙、打電話動作識別算法

2022-07-25 09:42:26趙緒言

現(xiàn)代計算機(jī) 2022年9期

關(guān)鍵詞：動作方法

趙緒言

（西南交通大學(xué)計算機(jī)與人工智能學(xué)院，成都 611756）

0 引言

現(xiàn)今，智能安防領(lǐng)域在城市智能化過程中成為越來越不可或缺的一部分，其改變了傳統(tǒng)監(jiān)控功能單一，沒有基于視頻主動分析功能的缺陷。國內(nèi)外越來越多的技術(shù)性企業(yè)正在全力發(fā)展基于智能安防的行為分析等核心技術(shù)。為了使計算機(jī)能夠更好地監(jiān)控和分析視頻數(shù)據(jù)，對于視頻中目標(biāo)行為的檢測與識別是一項基本能力。如今在深度學(xué)習(xí)快速發(fā)展的背景下，利用視頻數(shù)據(jù)進(jìn)行人物行為識別變得越來越容易，但是在很多特定場景下，基于深度學(xué)習(xí)的行為識別依舊有非常多可以深究的部分。

生活中某些特定的場景常常會對人物的行為做出特定的限制，如加油站禁止抽煙和打電話，駕駛過程中禁止打電話等。近年來在加油站、駕駛過程中抽煙、打電話引發(fā)的安全事故屢見不鮮，對社會造成很大的危害。因此，設(shè)計一種基于深度學(xué)習(xí)的抽煙、打電話動作識別算法是十分有必要的。

早期的行為識別算法的輸入是圖片，輸出是行為的類別，然而行為的發(fā)生往往伴隨著時序的關(guān)系，如果網(wǎng)絡(luò)的輸入僅僅是圖片那么時序關(guān)系將會被忽略。本文選擇工程環(huán)境下的復(fù)雜場景，研究基于時序信息的抽煙、打電話識別算法。

1 相關(guān)工作

動作的發(fā)生常常伴隨著先后順序，例如人抽煙這個動作會先抬手，然后再吸煙。為了在行為識別網(wǎng)絡(luò)中加入時序信息，輸入單張圖片是不夠的，而是需要將覆蓋整個動作的視頻片段輸入網(wǎng)絡(luò)進(jìn)行訓(xùn)練。因此需要在網(wǎng)絡(luò)中設(shè)計加入時序特征。

Donahue 等提出的LRCN 使用CNN 提取空間特征，使用LSTM 提取時序特征，進(jìn)行行為識別。但是LSTM 的固有順序阻礙了訓(xùn)練樣本的并行化，導(dǎo)致訓(xùn)練效率很低，并且它可感知的時序性范圍也是有限的。而RGB-Based 的方法可以一定程度上解決這些問題。

RGB-Based 行為識別可以分為Two-Stream、3D-based、2D-based、Video Transformer 這幾個類別。

其中Two-Stream 將動作識別中的特征提取分為兩個分支：一個是RGB分支提取空間特征、另一個是光流分支提取時間上的光流特征，最后結(jié)合兩種特征進(jìn)行動作識別，代表性方法如TwoStream及其擴(kuò)展。

3D-Based 的方法將2D 卷積添加了時間維度，擴(kuò)展到3D，直接提取包含時間和空間兩方面的特征，這一類方法也是目前做的比較多的話題。代表方法如開山之作C3D及其之后的擴(kuò)展SlowFast等。目前3D-Based 的方法在大規(guī)模的Scene-Based 數(shù)據(jù)集（如Kinetics400）上相對于2D 的方法取得了更好的效果，但是3Dbased 也存在一些明顯的問題：其網(wǎng)絡(luò)參數(shù)量大，計算開銷大，推理速度明顯慢于2D-Based的方法。

2D-Based 的出現(xiàn)是為了解決以上3D-based的缺點，近年來也有比較高效的2D-based 的時序建模方法，包括TSN，TPN等輕量級的時序建模方法。

基于卷積的主干網(wǎng)絡(luò)長期以來一直主導(dǎo)著計算機(jī)視覺中的視覺建模任務(wù)，然而目前圖像分類的主干網(wǎng)絡(luò)，最近正在進(jìn)行從CNN 到Transformer的轉(zhuǎn) 變。這一趨勢始于Vision Transformer（ViT）和Swin Transformer的引入，在視覺分類任務(wù)上取得了SOTA 的效果。Swin Transformer 不同于ViT 一來就下采樣16 倍的策略，提出了具有層次性的特征圖，利用SWMSA（shifted-window multi head self attention）進(jìn)行窗口之間的通訊。Transformer 系列在圖像分類上的巨大成功促成了一些基于Transformer 結(jié)構(gòu)的視頻識別任務(wù)研究的出現(xiàn)。例如本文用到的方法Video Swin Transformer。

另外還有Skeleton-Based 的方法，例如STGCN。這種方法基于骨架的行為識別以關(guān)鍵點檢測算法的結(jié)果作為網(wǎng)絡(luò)輸入進(jìn)行行為識別。骨架的信息使得行為識別的準(zhǔn)確性得到提升，但對輸入的要求比較嚴(yán)格，需要先對視頻數(shù)據(jù)進(jìn)行預(yù)處理得到骨架數(shù)據(jù)，這使得該類算法的中間步驟較多，不利用工程化應(yīng)用。

2 算法原理

2.1 抽煙、打電話動作識別

基于Transformer 系列強(qiáng)大的特征提取能力，本文在Video Swin Transformer的基礎(chǔ)上，對視頻片段進(jìn)行抽煙、打電話動作識別。Video Swin Transformer 嚴(yán)格遵循原始Swin Transformer 的層次結(jié)構(gòu)，但將局部注意力計算的范圍從空間域擴(kuò)展到時空域。由于局部注意力是在非重疊窗口上計算的，因此原始Swin Transformer 的滑動窗口機(jī)制也被重新定義了，以適應(yīng)時間和空間兩個域的信息。

整體結(jié)構(gòu)中的主要組件是Efficient Video Swin Transformer Block，如圖1（b）所示。這個模塊是基于Swin Transformer Block，其中Swin Transformer Block 是將Transformer 中Multi Head Self Attention（MSA）替換成了基于3D 滑動窗口的MSA 模塊。具體地說，一個Video Transformer Block 由一個基于3D 滑動窗口的MSA 模塊和一個前饋網(wǎng)絡(luò)（FFN）組成，其中FFN 由兩層的MLP 和激活函數(shù)GELU 組成。Layer Normalization（LN）被用在每個MSA 和FFN 模塊之前，殘差連接被用在了每個模塊之后。

圖1 Efficient Video Swin Transformer

本文在Swin Transformer Block 的基礎(chǔ)上，參考DynamicViT提出了Efficient Swin Transformer Block。即在FFN 之后添加了一層Sparsification Module（SPM）對整個網(wǎng)絡(luò)進(jìn)行分層稀疏化，通過消除信息較弱patch 而節(jié)省計算開銷，加速模型推理速度。patch 的稀疏化是分層執(zhí)行的，網(wǎng)絡(luò)在計算的過程中會逐步刪除無用信息的patch。兩個Efficient Swin Transformer Block 之間的計算如下所示：

2.2 在線動作識別框架

考慮到目前數(shù)據(jù)集（3.1 介紹）大部分是以人為中心，視頻中人的目標(biāo)是比較大且清晰的。若實際遷移到工程攝像頭角度下，場景信息會更加多樣化和復(fù)雜，其中“人”的目標(biāo)可能會較小，如果直接將整個畫面?zhèn)魅雱幼髯R別網(wǎng)絡(luò)，網(wǎng)絡(luò)可能會因為抽煙、打電話的視覺特征不明顯，周圍無用的視覺信息較多，造成分類效果不理想。因此本文考慮在動作識別模型（Efficient Video Swin Transformer）前，加入一系列前處理操作，盡可能在動作分類前過濾掉周圍無用的視覺信息，且保證動作識別模型的在線處理實時性。詳細(xì)的處理流程如圖2所示。

圖2 在線動作識別框架

①接入實時流解碼得到連續(xù)的單幀圖片。②通過YOLO V5目標(biāo)檢測算法，檢測到“人”這個類。③利用多目標(biāo)跟蹤算法SORT，對多幀之間的目標(biāo)檢測結(jié)果進(jìn)行跟蹤，得到帶ID 的跟蹤序列。④將跟蹤后的序列送入Online Video Understanding 算法。維護(hù)保證實時性的待檢測序列。⑤對上一步中的序列接入Efficient Video Swin Transformer 動作識別模型進(jìn)行動作分類，得到最終結(jié)果。

其中第④步的Online Video Understanding 算法參考ECO。因為動作識別模型在訓(xùn)練時的輸入通常都是一段裁剪好的視頻。在實際工程中的輸入通常是通過解碼視頻流，形成一幀一幀連續(xù)的圖片呈現(xiàn)的。那么如何將視頻流解碼后的多幀圖片轉(zhuǎn)換成動作識別模型的輸入，且保證識別結(jié)果的實時性是一個問題。目前一般的做法是固定一個大小為的滑動窗口，輸入連續(xù)幀畫面，進(jìn)入動作識別網(wǎng)絡(luò)判斷結(jié)果。但是這樣做會有兩個缺陷：①會造成長期語義信息的缺失；②無法保證動作識別的實時性，可能會造成較長的延遲。因此需要一個在線的處理框架保證網(wǎng)絡(luò)的實時性。

如圖2中右側(cè)中間部分所示，這個框架中主要維護(hù)了兩個圖像的隊列，其中Q表示存放較舊圖像的工作記憶隊列，Q表示存放新解碼得到的未處理圖像隊列。當(dāng)新的一組序列到來時，需要從上述兩個隊列中各采樣一半得到即將推理隊列Q，同時更新工作記憶隊列。然后將Q作為動作識別網(wǎng)絡(luò)的輸入得到當(dāng)前的預(yù)測結(jié)果。同時將當(dāng)前的預(yù)測結(jié)果和平均預(yù)測結(jié)果進(jìn)行平均后得到最終的輸出。這個框架在以當(dāng)前畫面為主的基礎(chǔ)上，通過工作記憶隊列和平均輸出兩個方面維護(hù)了較長的時序信息。

3 實驗設(shè)置與結(jié)果分析

3.1 數(shù)據(jù)集

本文在兩大公開數(shù)據(jù)集的基礎(chǔ)上，構(gòu)建抽煙、打電話的視頻數(shù)據(jù)集。其中Kinetics400 包含抽煙視頻，Moments in time包含抽煙和打電話視頻。選擇Kinetics400 中所有的抽煙視頻+網(wǎng)上額外爬取的抽煙視頻，Moments in time 中所有的打電話視頻，形成視頻數(shù)據(jù)集。每個視頻時長大概為10 秒。最后形成的數(shù)據(jù)集包含三個類別：抽煙、打電話和其他。數(shù)據(jù)集詳細(xì)情況如表1所示。

表1 抽煙、打電話數(shù)據(jù)集

其中抽煙視頻870 個，打電話視頻1959 個，其他視頻800個（“其他”為Kinectics400中除開抽煙的其他類別，隨機(jī)抽取得到）。按照二八的比例劃分為驗證集和訓(xùn)練集。

3.2 實驗設(shè)置

實現(xiàn)上，實驗采用Swin Base 的基礎(chǔ)結(jié)構(gòu)，使用ImageNet 21K的預(yù)訓(xùn)練模型。訓(xùn)練參數(shù)patch 設(shè)置為224 × 224，學(xué)習(xí)率采用CosineAnnealing 的策略，初始學(xué)習(xí)率為3e-4，采用線性warm up 策略，優(yōu)化器采用AdamW，權(quán)重衰減設(shè)置為0.05，batch size 設(shè)置為16，總迭代次數(shù)為30個epoch。

3.3 結(jié)果分析

本文將實驗結(jié)果與動作識別的其他方法在驗證集上進(jìn)行了對比，形成的實驗結(jié)果如表2所示。其中第四行（已加粗）是本文采用方法的實驗結(jié)果。可以看出本文提出的Efficient Video Swin Transformer，與傳統(tǒng)基于RGB 的方法TSN、TPN 相比，精度有非常大的提升，與Video Swin Transformer 相比，在加入SPM（Keeping Ratio 設(shè)置為0.8）后精度只下降0.3%，但是推理速度提升26%，約10 秒的視頻片段推理時間可達(dá)到3.4秒。

表2 實驗結(jié)果對比

同時，本文提出的方法通過集成在線動作識別框架，可以將抽煙、打電話的動作識別在真實工程系統(tǒng)環(huán)境下做到很高的實時性和準(zhǔn)確性。其中YOLO V5 和SORT 能保證檢測和跟蹤的效率，通過Online Video Understanding 可以實時地平滑出當(dāng)前的結(jié)果，區(qū)分出畫面中人抽煙、打電話或者其他的行為。

4 結(jié)語

本文基于Video Swin Transformer 和Dynamic-ViT，提出了Efficient Video Swin Transformer，在Swin Transformer Block 中加入SPM 模塊，在保證一定精度的同時，大幅提升了動作識別網(wǎng)絡(luò)的推理速度。在Kinetics400 和Moments in time 混合的抽煙、打電話數(shù)據(jù)集中，與現(xiàn)有方法相比取得了速度與精度最為平衡的結(jié)果。同時，本文提出了一套在線動作識別框架，將Efficient Video Swin Transformer 集成在其中。框架從視頻流中解碼得到單幀圖片，到目標(biāo)檢測、跟蹤、實時在線平滑隊列，最后傳入動作識別網(wǎng)絡(luò)得到分類結(jié)果，整個過程可保持結(jié)果的實時性和準(zhǔn)確性。