








摘要:現有的煤礦井下帶式輸送機區域違規行為(如攀爬、跨越、倚靠帶式輸送機等)識別方法對特征提取不充分、難以考慮到行為時間差異,導致違規行為識別準確率不高。針對該問題,基于ResNet50 模型,提出了一種基于多特征融合時差網絡(MFFTDN)的帶式輸送機區域違規行為識別方法,將多特征融合和時間差分進行結合,對不同時間段的行為進行多特征融合。首先在原始模型ResNet50 的第2 和第3 階段引入短期多特征融合(STMFF) 模塊,將來自多個連續幀的時間和特征拼接在一起,再對融合后的特征進行時間差分計算,即相鄰幀的特征差值,以在短期內捕捉局部動作變化。然后在原始模型ResNet50 的第4 階段引入長期多特征融合(LTMFF) 模塊,將來自連續幀的短期多特征拼接在一起,再對相鄰時間點的特征進行時間差分計算,以獲取行為的長期多特征。最后將融合后的特征進行分類,輸出識別結果。實驗結果表明:① 該方法的平均精度和準確率較原始模型ResNet50 分別提高了8.18% 和8.47%,說明同時引入STMFF 和LTMFF 模塊能夠有效提取到不同時間段的多特征信息。② 該方法在自建煤礦井下帶式輸送機區域違規行為數據集上的準確率為89.62%,平均精度為89.30%,模型的參數量為197.2 ×106。③ Grad?CAM 熱力圖顯示,該方法能夠更有效地關注到違規行為的關鍵區域,精確捕捉到井下帶式輸送機區域的違規行為。
關鍵詞:帶式輸送機;不安全行為;違規行為識別;短期多特征融合;長期多特征融合;多特征融合時差網絡;時間差分
中圖分類號:TD634 文獻標志碼:A
0 引言
大量的數據統計表明,由于煤礦井下作業人員的違規行為所引發的死亡事故占煤礦安全事故的80% 以上, 其中帶式輸送機區域的安全事故占27%[1]。識別帶式輸送機區域的違規行為可減少人員傷亡,具有重要的實際意義。通過參考煤礦安全管理條例,概括出幾種帶式輸送機區域頻繁發生的典型礦工不安全行為:攀爬、跨越、倚靠帶式輸送機等。當前對礦工違規行為的識別主要通過人工觀看視頻的方式,極易造成工作人員視覺疲勞而引發漏判或誤判現象。隨著計算機技術的發展,使用計算機技術代替人工識別違規行為成為研究熱點之一。
目前井下違規行為的主要識別方式包括物聯網監測[2-3]和計算機視覺識別。物聯網監測是通過在礦工身上佩戴傳感器,采集由不同行為引發的運動數據,然后分析數據的差異來進行識別。但傳感器隨著使用次數的增加會逐漸老化,礦井下復雜的環境會導致傳感器信號帶有許多噪聲,從而影響識別結果,不能滿足實際需求?;谟嬎銠C視覺的井下行為識別以端到端的方式從數據中學習特征,再進行分類。按照網絡結構的不同可分為基于卷積神經網絡(Convolution Neural Networks,CNN)的行為識別[4-5],基于循環神經網絡(Recurrent Neural Networks,RNN)的行為識別[6]、基于雙流卷積神經網絡的行為識別[7-8]和基于混合深度學習網絡的行為識別[9-10]。這些方法能更準確地識別復雜行為模式,具有更高的識別準確性和可靠性。按照卷積的不同,將CNN 分為2D 卷積網絡和3D 卷積網絡,其中,2D 卷積網絡提取空間特征,但對時間信息不夠敏感,而3D 卷積網絡則在保留通道信息的同時處理時間信息,能更有效地捕捉視頻動態行為。基于RNN 的行為識別方法能夠有效地捕捉各幀之間的相關性,但數據量較大時,調參的過程相對復雜。雙流卷積神經網絡可以有效地融合2 個獨立網絡的輸出,但融合過程可能增加模型設計的復雜性?;旌仙疃葘W習網絡結合了不同網絡模型的優點,提高了模型的適應性和泛化性,但也面臨著計算成本的挑戰。在井下行為識別中,不同場景的行為識別需求和挑戰有所不同,而帶式輸送機通常處于狹窄、通風條件有限的環境中,容易受到煤塵、光照等因素的影響,現有方法在識別該區域的行為時可能會對部分行為的特征提取不完全,從而影響識別效果。
針對帶式輸送機區域,文獻[11]提出了一種基于改進運動歷史圖描述礦工行為過程的方法,該方法的識別準確率較高,但只適合較為簡單的場景,當存在遮擋時會影響準確率。在解決帶式輸送機區域復雜多變的環境和動作問題時,使用單一特征建模可能會面臨一些限制,沒有考慮到動作的多樣性、動作變化的實時性,導致難以捕捉到動作的更細粒度的特征。使用多特征融合建模時,能夠很大程度地提高模型的準確率。文獻[12]提出了一種組合注意力機制和密集殘差的方法來改進模型,以識別礦工安全、違規乘坐帶式輸送機,在行為較相似時也能夠較好地識別出來。然而,這種方法在制作基于關鍵點的行為識別數據集時存在一定的難度。文獻[13]提出了基于雙流模式的高層場景特征融合方法,對Gist 特征進行更高層次的學習并實現對原始圖像的語義抽象,對井下帶式輸送機區域的拋扔雜物、跨越、攀爬等不安全行為進行識別,該方法具有較高的識別率,但需要將多種網絡進行融合,復雜度較高,處理速度不足以滿足要求,且未能考慮到動作在不同時間內的變化差異,使用單一的時間尺度不能進行更加精細的區分。
針對目前煤礦井下帶式輸送機區域違規行為識別方法在特征提取方面存在的不足,且難以有效考慮行為的時間變化,本文提出一種基于多特征融合時差網絡(Multi-feature Fusion for Time-difference Networks,MFFTDN)的帶式輸送機區域違規行為識別方法,將多特征融合[14]和時間差分[15]結合,對不同時間段的行為進行多特征融合。首先在原始模型Res-Net50 的第2 和第3 階段引入短期多特征融合(ShorttermMulti-featur Fusion,STMFF)模塊,將來自多個連續幀的時間和特征拼接在一起,再對融合后的特征進行時間差分計算,即相鄰幀的特征差值,以在短期內捕捉局部動作變化。然后在ResNet50 的第4 階段引入長期多特征融合(Long-term Multi-feature Fusion,LTMFF)模塊,將來自連續幀的短期多特征拼接在一起,再對相鄰時間點的特征進行差分計算,以獲取行為的長期多特征。最后將融合后的特征進行分類,輸出識別結果。
1 MFFTDN 架構
單特征建模忽略了全局信息,無法徹底捕捉到動作特征。MFFTDN 則能充分利用完整的視頻信息來學習動作的多個特征,并使用視頻幀均勻采樣來提高效率,結構如圖1 所示。MFFTDN 基于ResNet50模型,在stage0 到stage4 這5 個階段中插入STMFF和LTMFF 模塊。其中,stage0 階段和stage3 階段為ResNet50 網絡的原始模塊,stage0 階段由7×7 的卷積層和最大池化層組成, stage3 階段由1×1 的卷積層和3×3 的卷積層堆疊而成(這種堆疊重復6 次)。在stage1 階段和stage2 階段中,將第1 個1×1 的卷積層替換為STMFF 模塊,其余保持不變,并分別重復堆疊3 次和4 次。將stage4 階段替換為LTMFF,并重復堆疊3 次。
首先,對于一組給定的行為幀序列,經stage0 階段對視頻幀進行下采樣并降低維度。其次, 經stage1 和stage2 階段提取行為的短期多特征,再將這種特征輸入到stage3 階段提取更深層次的信息。然后,將更深層次的信息輸入到stage4 階段以提取行為的長期多特征信息。最后,將所提取的特征信息經全局平均池化層和全連接層輸出行為預測結果。
1.1 STMFF 模塊
由于相鄰幀在局部窗口中差別不大,模型對視頻中的幀進行了采樣,平均每8 幀采樣1 幀。STMFF在網絡的早期提取局部的短期多特征信息, 如圖2 所示。
首先將大小為H ×W ×C ×T的特征圖Fin沿著通道進行分裂,其中H 為高度,W 為寬度,T 為時間。設沿著c1方向的分裂系數為r1, 分裂后的特征為F1 = r1 · Fin。沿著c2方向的分裂系數為r2, 使用3×1×1的卷積核對特征圖的高度?寬度特征進行建模,得到FH×W。使用3×1×1的卷積核對特征圖的高度?時間進行建模,得到FH×T。使用1×1×3的卷積核對特征圖的寬度?時間進行建模, 得到FW×T。將FH×W,FH×T,FW×T融合, 得到初步融合后的特征F2 ∈ RH×W×C×T,接著將F2與F1融合得到幀的細節融合特征Fcon ∈ RH×W×C×T。
式中:KH×W,KH×T,KW×T分別為特征圖在高度?寬度、高度?時間、寬度?時間方向上的卷積核;i 為特征圖幀數;concat 為拼接操作。
其次,為了解決相鄰幀之間位置不對齊的問題,使用跨段信息來增強幀之間的關聯。使用1×1的卷積將Fcon及其前后幀的特征維度壓縮為RH×W×C/r。計算第i-1幀特征圖Fi-1和第i 幀特征圖Fi之間的對齊時間差D(Fi-1,Fi)、第i幀特征圖Fi 和第i+1幀特征圖Fi+1 之間的對齊時間差D(Fi,Fi+1),并使用1×1 的卷積核計算第i 幀特征圖Fi 與第i-1幀特征圖Fi-1 和第i+1幀特征圖Fi+1 之間的對齊卷積G(Fi-1)和G(Fi+1)。
D(Fi-1,Fi) = Fi -G(Fi-1) (6)
D(Fi,Fi+1) = Fi -G(Fi+1) (7)
然后,使用時間對齊的多尺度模塊來提取短距離運動信息。這一過程主要包括多尺度模塊融合操作、卷積和激活卷積結果。多尺度融合模塊由conv3×3和“Pooling+Conv1+upSample”構成,其中Conv1×1代表1×1 的卷積,Pooling代表平均池化,up-Sample 代表雙線性上采樣,在多尺度融合之后特征維度變為RC×H×W。再將RC×H×W的特征使用“Conv2+sigmoid” 進行壓縮和激活卷積結果, 即可得到第i?1 幀特征圖Fi-1 和第 幀特征圖Fi 的短期運動的多尺度運動信息M(Fi-1,Fi) ∈ RC×1×1、第i 幀特征圖Fi 與第i+1 幀特征圖Fi+1 的短期多尺度運動信息M(Fi,Fi+1) 2 RC×1×1。
式中:s(·) 為sigmoid 函數;N(·) 為1×1 的卷積;Hj 為從不同的感受野j 提取的運動信息。
最后,將短距離運動信息和細節融合特征Fcon融合,得到短期多特征融合信息F ∈ RH×WC×T。
F = Fcon ⊙1=2 [M(Fi-1,Fi)+M(Fi,Fi+1)] (10)
式中⊙為同或運算。
1.2 LTMFF 模塊
STMFF 模塊能夠有效捕捉動作序列的短期特征,但在捕捉動作序列的長期特征時會受到限制。在網絡后期,不同行為的時間尺度和空間特征差異更為明顯,而LTMFF 模塊能夠將不同時空段的特征相關聯,以更好地利用上下文信息,將該模塊同時作用于空間和時間上,對局部多特征進行增強,通過全局角度學習每個特征點的時空信息。為了適應變化粒度更大的時空尺度,將卷積重新設置為自適應時空卷積,如圖3 所示。
首先,將大小為H ×W ×C ×T的幀通過時間平均池化和空間平均池化計算得到2 種不同的幀描述向量Vt = P(Xt) Vs = P(Xs)。其中, Xt和Xs分別為第 i幀原始的時間和空間特征,P(·)為全局平均池化,Vt ∈ RC×T Vs ∈ RH×W。
其次,通過采用2 層一維卷積將局部上下文向量Vt和Vs進行堆疊,并以比率r進行維度壓縮。同時為了能夠獲取更大的感受野,進一步納入全局時空信息,將線性映射函數A(g)添加到局部向量中,得到全局時間信息B(Xt,g)和全局空間信息B(Xs,g),其中g為空間和時間維度上的全局平均集合值。
B(Xt,g) = N(δ(m(N(Vt + A(g))))) (11)
B(Xs,g) = N(δ(m(N(Vs + A(g))))) (12)
式中 (·) 和m(·) 分別為ReLU 函數和batchnorm 函數。
將全局時間信息B(Xt,g)和全局空間信息B(Xs,g)中最后一個卷積的權重初始化為0,再添加常數1,即可得到校準權重αt和αs。
αt = 1+ B(Xt,g) (13)
αs = 1+ B(Xs,g) (14)
然后,將校準權重αt和αs分別與基本權重θb乘,即可得到第i幀的時間權重θt∈RT×C×k2和空間權θs∈RH×W×k2。
Xt = θtXt = (αtθb)Xt (15)
?Xs = θsXs = (αsθb)Xs (16)
式中Xt和X s分別為校準之后時間和空間特征。
最后,將校準后的時間特征、空間特征和原始特征融合,得到長期多特征融合信息B ∈ RH×W×C×T。
2 實驗分析
2.1 數據集構建
數據集來源于煤礦現場的攝像視頻, 涵蓋了3 類動作,其中一類是正常行為,另外兩類是頻繁出現的違規行為,包括攀爬、跨越和倚靠帶式輸送機。共采集到460 個視頻,如圖4 所示。為了解決類別間不平衡的問題,采用隨機擦除、色彩抖動和鏡像翻轉對數據集進行增強處理,獲得1 230 個視頻樣本。每個視頻的時長為4~7 s,以確保每個行為類別的樣本相對平衡。對每個視頻進行了分類標注,并按照6∶2∶2 的比例將數據集劃分為訓練集、驗證集和測試集。
2.2 實驗設置
選擇具有簡單和模塊化結構的ResNet 作為主干網絡,將STMFF 集成到ResNet 的第2 和第3 階段,以提取行為的短期多特征信息。將LTMFF 集成到ResNet 的第4 階段, 以提取行為的長期多特征信息。為了加快模型的訓練速度,在多特征融合模塊中使用可分離卷積。選擇PyTorch 框架作為實驗的訓練模型,并在RTX 3090 硬件平臺上進行訓練。
訓練過程中,設置學習率為0.01,進行25 輪訓練, 每隔10 輪學習率衰減為原來的50%, 共進行150 輪訓練。為了優化訓練過程,采用動量為0.9、動量衰減為10?4 的SGD 優化器,并且每個GPU 處理一小批包含8 個視頻剪輯的數據。為了提高訓練速度,在視頻的時間軸上均勻采樣多個片段,并使用softmax 概率的平均值作為最終預測結果,采用準確率和參數量來衡量模型的性能。其中,top1_acc 表示與實際結果相符的類別準確率,mean_acc 表示平均精度,params 表示模型的參數量。
2.3 消融實驗
為了證明本文引入STMFF 和LTMFF 模塊的有效性,進行消融實驗,結果見表1??煽闯鰡为毺砑覵TMFF 模塊時, mean_acc 和top1_acc 較原始模型ResNet50 分別提升了4.07% 和4.23%,這是由于在早期使用STMFF 模塊能有效提取到短期多特征。單獨添加LTMFF 模塊時,mean_acc 和top1_acc 較原始模型ResNet50 分別提升了6.98% 和7.15%,這是由于在網絡后期關聯了上下文特征信息,擴大了感受野。當同時添加STMFF 和LTMFF 模塊時,mean_acc 和top1_acc 較原始模型ResNet50 分別提高了8.18% 和8.47%,達到89.30% 和89.62%,這是由于同時引入STMFF 和LTMFF 模塊能夠有效提取不同時間段的多特征信息。
2.4 對比實驗
為了驗證本文方法的性能,選擇現階段具有代表性的行為識別方法進行比較,包括三維卷積網絡(Convolutional 3D,C3D)[16]、僅慢速網絡(Slow-OnlyNetwork, SlowOnly) [17]、快慢速網絡 (SlowFast Network,SlowFast) [18]、時間偏移網絡(Temporal ShiftModule, TSM) [19]、時間敏感變壓器 (Time-SensitiveTransformer, TimesFormer)[20]、時間金字塔網絡(TemporalPyramid Network,TPN)[21]。各行為識別方法對比結果見表2。
由表2 可看出,本文的參數量為C3D 的1/3,這是因為C3D 同時對動作的三維特征進行建模,提高了識別精度,但需要大量參數,增加了計算量。本文方法的mean_acc 和top1_acc 較SlowFast 方法分別提高了9.72% 和10.39%,參數量較SlowFast 方法減少了25.93%,這是因為SlowFast 方法雖然結合了慢速路徑和快速路徑的特征,但其時間尺度選擇可能不適合井下行為的識別。本文方法的參數量較Slow-Only 減少了28.6%,這是因為SlowOnly 方法使用了較多的卷積層和更大的卷積核,以更高的分辨率來捕捉空間和時間信息。本文方法的mean_acc 和top1_acc 較TimesFormer 方法分別提高了34.72% 和34.6%, 參數量較TimesFormer 方法減少了71.99%,這是因為TimesFormer 方法需要大量的數據集進行訓練,本文的數據集無法適應該模型。本文方法的mean_acc 和top1_acc 較TPN 和TSM 方法分別提高了21.22%,15.94% 和21.11%,15.67%,這是因為TPN和TSM 方法主要對空間特征進行建模,而對時間特征的提取很弱。本文方法能夠有效將多特征融合和時間差分結合,在提高行為識別準確率的同時,還能保持較低的參數量,更適用于帶式輸送機區域的違規行為識別。
2.5 可視化結果
選用可視化工具Grad?CAM 對本文方法和C3D,SlowOnly,TPN 方法進行可視化展示,如圖5 所示。
從圖5 可看出,對于行走和跨越行為,本文方法、C3D 和SlowOnly 的熱力圖顯示模型主要關注在人物動作上,其中本文方法覆蓋范圍較為集中,C3D和SlowOnly 覆蓋范圍較為分散。對于倚靠行為,本文方法的熱力圖顯示其關注點集中在倚靠的姿勢上,而TPN 的關注區域相對分散,無法準確捕捉到倚靠動作的細節。這說明本文方法能夠更有效地關注到違規行為的關鍵區域,更精確地捕捉到井下帶式輸送機區域的違規行為。
3 結論
1) 針對目前煤礦井下帶式輸送機區域違規行為識別方法準確率不高的問題, 提出了一種基于MFFTDN 的帶式輸送機區域違規行為識別方法。在早期使用STMFF 模塊提取行為的短期多特征,在后期使用LTMFF 模塊提取行為的長期多特征,這2 種模塊采用可分離卷積的設計方式,從而提高了識別準確率并降低了計算量。
2) 所提方法在自建井下帶式輸送機區域違規行為數據集上的準確率為89.62%,平均精度為89.30%;與代表性方法C3D,SlowOnly,TPN 和TSM 等相比,該方法能夠更有效地識別出帶式輸送機區域的違規行為;Grad?CAM 熱力圖顯示,該方法能更有效地關注違規行為的關鍵區域,精確捕捉井下帶式輸送機區域的違規行為。
3) MFFTDN 在捕捉幀與幀之間動作關聯性時的計算時間較長,下一步將研究使用更少的時間來捕捉幀之間的關聯特征,在更短的時間內分析出時間差。
參考文獻(References):
[ 1 ]張培森,李復興,朱慧聰,等. 2008—2020 年煤礦事故統計分析及防范對策[J]. 礦業安全與環保, 2022,49(1):128-134.
ZHANG Peisen, LI Fuxing, ZHU Huicong, et al.Statistical analysis and prevention countermeasures ofcoal mine accidents from 2008 to 2020[J]. Mining Safety & Environmental Protection, 2022, 49(1) :128-134.
[ 2 ]趙小虎,黃程龍. 基于Kinect 的礦井人員違規行為識別算法研究[J]. 湖南大學學報(自然科學版),2020,47(4):92-98.
ZHAO Xiaohu, HUANG Chenglong. Research onidentification algorithm of mine person's violationbehavior based on Kinect[J]. Journal of HunanUniversity(Natural Sciences),2020,47(4):92-98.
[ 3 ]PIENAAR S W, MALEKIAN R. Human activityrecognition using visual object detection[C]. IEEE 2ndWireless Africa Conference, Pretoria,2019:1-5.
[ 4 ]梁晨陽,華鋼. 基于信道狀態信息的井下人員行為識別方法研究[J]. 煤炭技術,2022,41(11):182-186.
LIANG Chenyang, HUA Gang. Research onidentification method of underground personnel behaviorbased on channel state information[J]. CoalTechnology,2022,41(11):182-186.
[ 5 ]ZHANG Xin, ZHU Yan, DENG Li, et al. A slowfastbehavior recognition algorithm incorporating motionsaliency[C]. 2nd International Conference on ComputerGraphics, Artificial Intelligence, and Data Processing,Guangzhou,2022. DOI:10.1117/12.2674969.
[ 6 ]王璇,吳佳奇,陽康,等. 煤礦井下人體姿態檢測方法[J]. 工礦自動化,2022,48(5):79-84.
WANG Xuan, WU Jiaqi, YANG Kang, et al. Humanposture detection method in coal mine[J]. Journal ofMine Automation,2022,48(5):79-84.
[ 7 ]黨偉超,張澤杰,白尚旺,等. 基于改進雙流法的井下配電室巡檢行為識別[J]. 工礦自動化,2020,46(4):75-800.
DANG Weichao,ZHANG Zejie,BAI Shangwang,et al.Inspection behavior recognition of underground powerdistribution room based on improved two-stream CNNmethod[J]. Industry and Mine Automation, 2020,46(4):75-80.
[ 8 ]LIU Xiaoyang, LIU Jinqiang, ZHENG Haolin. Gaitrecognition method of coal mine personnel based ontwo-stream neural network[J]. Journal of MiningScience and Technology,2021,6(2):218-227.
[ 9 ]劉斌,侯宇輝,王延輝. 基于井下軌跡數據的煤礦人員違規行為識別[J]. 煤炭與化工,2021,44(10):82-85.
LIU Bin, HOU Yuhui, WANG Yanhui. Recognition ofillegal behavior of coal mine personnel based onunderground trajectory data[J]. Coal and ChemicalIndustry,2021,44(10):82-85.
[10]WANG Zheng, LIU Yan, DUAN Siyuan, et al. Anefficient detection of non-standard miner behavior usingimproved YOLOv8[J]. Computers and ElectricalEngineering, 2023, 112. DOI: 10.1016/J.COMPELECENG.2023.109021.
[11]仝澤友,[11] 丁恩杰. 礦井皮帶區礦工違規行為識別方法[J]. 河南科技大學學報(自然科學版),2020,41(2):40-46,6-7.
TONG Zeyou, DING Enjie. Identification method ofminer violation behavior in mine belt area[J]. Journal ofHenan University of Science and Technology(NaturalScience),2020,41(2):40-46,6-7.
[12]李善華,肖濤,李肖利,等. 基于DRCA?GCN 的礦工動作識別模型[J]. 工礦自動化, 2023, 49(4) : 99-105,112.
LI Shanhua, XIAO Tao, LI Xiaoli, et al. Miner actionrecognition model based on DRCA-GCN[J]. Journal ofMine Automation,2023,49(4):99-105,112.
[13]陳天,閆雨寒,徐達偉,等. 基于改進雙流算法的礦工行為識別方法研究[J]. 河南科技大學學報(自然科學版),2021,42(4):47-53,7.
CHEN Tian, YAN Yuhan, XU Dawei, et al. Researchon miner behavior recognition method based onimproved two-stream algorithm[J]. Journal of HenanUniversity of Science and Technology(NaturalScience),2021,42(4):47-53,7.
[14]WU Wenhao, HE Dongliang, LIN Tianwei, et al.MVFNet: multi-view fusion network for efficient videorecognition[C]. AAAI Conference on ArtificialIntelligence,Vancouver,2021. DOI:10.48550/arXiv.2012.06977.
[15]XIE Zhao, CHEN Jiansong, WU Kewei, et al. Globaltemporal difference network for action recognition[J].IEEE Transactions on Multimedia,2023,25:7594-7606.
[16]TRAN D, BOURDEV L, FERGUS R, et al. Learningspatiotemporal features with 3D convolutionalnetworks[C]. IEEE International Conference onComputer Vision,Santiago,2015:4489-4497.
[17]FEICHTENHOFER C, FAN Haoqi, MALIK J, et al.SlowFast networks for video recognition[C]. IEEE/CVFInternational Conference on Computer Vision, Seoul,2019:6201-6210.
[18]LIN Ji,GAN Chuang,HAN Song. TSM:temporal shiftmodule for efficient video understanding[C]. IEEE/CVFInternational Conference on Computer Vision, Seoul,2019:7082-7092.
[19]WANG Limin, XIONG Yuanjun, WANG Zhe, et al.Temporal segment networks:towards good practices fordeep action recognition[C]. Computer Vision andPattern Recognition,Amsterdam,2016:20-36.
[20]BERTASIUS G, WANG Heng, TORRESANI L. Isspace-time attention all you need for video understanding?[C]. International Conference on Machine Learning,Vienna,2021. DOI:10.48550/arXiv.2102.05095.
[21]YANG Ceyuan, XU Yinghao, SHI Jianping, et al.Temporal pyramid network for action recognition[C].IEEE/CVF Conference on Computer Vision and PatternRecognition,Seattle,2020:588-597.
基金項目:國家重點研發計劃項目(2021YFB4000905);國家自然科學基金項目(62101432,62102309);陜西省自然科學基礎研究計劃項目(2022JM-508)。