李 駿,程雅儒,謝 昭,孫永宣,吳克偉,2,武金金
(1合肥工業大學 計算機與信息學院,合肥 230601;2 合肥工業大學 工業安全與應急技術安徽省重點實驗室,合肥 230601)
群體行為識別,是通過對人員密集場所的視頻分析,并對其突發性群體行為進行識別,有利于維護公共場所安全,避免人員傷亡和財產損失,已被廣泛應用于視頻監控、視頻摘要、視頻檢索等領域。個體行為識別模型只需要識別個體的單獨行動,而群體行為識別,需要依據個體的行為,推斷出個體之間的群體活動。視頻中,個體的關系是隱藏的,且行為特征具有復雜的時序信息,個體之間的行為會相互干擾,影響多人關系的估計結果,而解析個體的時序信息具有一定的挑戰性。
群體的外觀特征通常使用卷積神經網絡來提取,但無法提取群體的時序信息。實驗表明,雖然可以利用長短期記憶網絡(LSTM)提取個體的時序信息,但會導致網絡性能下降。現有的圖模型結構只專注于群體的外觀信息和位置信息,不能夠很好地表達群體關系,導致群體行為識別效果欠佳。
針對上述問題,本文提出了一種時間上下文模塊,用來解決個體特征缺乏時序信息的問題。通過通道級的時間位移方法,每個個體的時序信息都得到增強。為了保證群體建模的完整性,構建了基于融合通道級時間上下文特征的空間圖模型,該圖模型使用外觀和位置信息,實現對空間關系的編碼。在增強時序信息的基礎上,通過建立多個個體關系圖來模擬個體之間的相互關系,將每個個體的全部特征描述為圖模型的每個節點,通過圖模型的推理,完成行為分類。
早期的視頻特征學習主要采用傳統手工制作的視覺特征,或采用與概率圖模型結合的方法。在圖模型的基礎上,多尺度模型And-or通過對不同的群體粒度進行建模,對群組行為分類。雙流卷積神經網絡還可以額外學習視頻幀的光流圖像特征,進一步識別不同的行為。時間分段網絡在雙流的基礎上做出改進,通過稀疏采樣和加權池化來識別行為特征。膨脹三維卷積網絡通過將2D CNN參數膨脹拓展為3D CNN,可以解決TSN單一視頻權重的問題。
群體行為分析的細節存在于群體結構中。與個體行為識別不同,群體行為識別更重要的是分析個體之間交互關系。層次關系網絡(HRN)使用固定的群體結構,來學習個體之間的相互關系強度。卷積關系機(CRM)使用多階段的群體結構誤差,來優化群體行為識別結果。時空注意力圖網絡stagNet被用于估計圖結構中,用于表達目標之間的關系。
圖卷積網絡(GCN)在結構化數據的表示和推理方面具有優勢。圖注意力交互模型(GAIM)將群體節點加入圖模型,并利用自注意力同時學習個體之間和個體與群體之間的關系。在圖模型中引入LSTM可以增強時序信息。置信度能量循環網絡(CERN)在LSTM的動態特征基礎上構建圖模型,在圖模型構建階段,可以獲得群體的時序信息。本文在模型的設計中應用了圖卷積網絡,將個體的信息作為圖模型一個節點。為了保證群體建模的完整性,在圖構建的過程中引入了多圖策略。
本文使用Inception-v3對視頻序列提取特征,通過RoIAlign從幀特征圖中提取每個個體的邊界框特征,將對齊的特征通過全連接層得到每個個體的原始特征。原始特征經過通道級時間上下文模塊,與圖卷積特征相加得到多圖融合特征,最終融合特征通過群體分類器和個體分類器完成行為的分類。整體網絡框架如圖1所示。

圖1 融合時間和空間上下文特征的群體行為識別網絡Fig.1 The group activity recognition model based on temporal and spatial context features
本文設計了通道級時間上下文模塊,該模塊通過對個體特征的多個通道進行時間平移,可以讓視頻幀獲得相鄰幀的時序信息,在圖模型的建立過程中增強模型的時序信息,并最終影響行為分類的結果。
通道級位移策略如圖2所示,對于個體特征的通道位移,本文分別采用時間延遲后移、時間雙向移動、時間循環雙向移動策略來實現。
圖2中描述了本文設計的3種位移方式,考慮了不同的位移方式對于模型性能的影響,并最終選擇時間循環雙向移動作為模塊內特征位移的方式。

圖2 通道級位移策略Fig.2 Channel-wise shift strategies
通過時間循環雙向移動的位移策略,既增強了時序信息,也確保個體特征不會丟失,保證了圖模型構建過程中建模的完整性。
由于圖模型能夠實現結構化數據的表示和推理,本文在建模中利用圖模型來模擬群體行為中的成對個體關系。圖定義為:{,},其中,節點{v},邊{e},節點編號為1,2,…,,1,2,…,,這里表示群體中個體的數量;節點有外觀特征和位置特征;表示圖模型節點之間的相互關系。通過估計邊上的關系取值,構成關系矩陣,表示個體和個體的關聯性。
在考慮上下文建模時,對2個個體的特征使用線性變換來學習投影特征,在投影的基礎上,通過點積和歸一化來估計2個個體的關系。使用α來表示學習到的2個個體上下文特征關系值,計算方式如下:






本文建立了一組多圖的關系矩陣進行圖推理。使用圖卷積網絡實現了圖的推理過程,對于圖中的目標節點,根據其周圍全部個體的權重進行更新。研究中使用X來表示圖模型輸出的特征,其數學表述見如下:






將多圖融合特征通過Max Pooling池化層減少維度,得到群體行為特征。并將群體行為特征與權重參數矩陣做線性變化,可以得到每一幀的結果,將視頻序列的平均預測結果作為群體行為識別的結果。群體行為的預測標簽y數學計算公式具體如下:

整個模型可以通過反向傳播的方式,進行端到端的訓練,使用損失函數來評價預測值和真實值偏差的程度,損失函數的運算公式可寫為:


本文在Volleyball數據集和Collective Activity數據集上分別進行了實驗。對此擬做闡釋分述如下。
(1)Volleyball數據集。由55場排球比賽中收集的4 830個視頻片段組成,其中包括3 493個訓練片段,1 377個測試片段。在每個視頻片段中,視頻的中間幀標注了個體的邊界框、個體行為標簽和群體行為標簽。總地說來,群體行為標簽有8種,分別是Right set、Right spike、Right pass、Right winpoint、Left set、Left spike、Left pass、Left winpoint;個體行為標簽 有9種,分 別 是Blocking、Digging、Falling、Jumping、Moving、Setting、Spiking、Standing、Waiting。實驗中,使用一個長度為10的時間窗口,對應于標注幀的前5幀和后4幀。未被標注的個體邊界框數據從該數據集提供的軌跡信息數據中獲取。
(2)Collective Activity數據集。由低分辨率相機拍攝的44個視頻片段組成,總共約為2 500幀。每個視頻片段每10幀有一個標注,標注包含個體行為和群體行為標簽,以及個體的邊界框。共5個群體活動標簽,分別為Crossing、Waiting、Queueing、Walking、Talking;6個個體行為標簽,分別為NA、Crossing、Waiting、Queueing、Walking、Talking。實驗中的2/3視頻用于訓練,其余用于測試。
本文采用多類正確率(Multi-Class Accuracy,)作為評價標準,先求出所有類別的正確樣本數,并除以所有類別的樣本總數來獲得多類正確率。
本文實驗使用Inception-v3提取視頻特征,RoIAlign為每個個體提取1 024維度特征,這些特征是在每個個體邊界框約束下提取的。數據集參數設定如下:
(1)Volleyball數據集。網絡超參設置為:為8,參數為0.3,學習率初始設置為1e-4,權重參數為圖片寬度的1/5,網絡訓練180個周期,每30個周期學習后變為之前的0.5倍,學習率在4次衰減后停止衰減。
(2)對于Collective Activity數據集。網絡超參設置為:為16,參數為0.5,初始學習率為1e-3,權重參數為圖片寬度的1/5,網絡訓練80個周期,每10個周期學習率變為之前的0.1倍,學習率在4次衰減后停止衰減。
實驗在64位Ubuntu16.04上進行,編程環境選擇Python3.7,實驗采用Pytorch1.4深度學習平臺。計算機配置英特爾Xeon(R)W-2133處理器,內存為64 G,配有2塊GeForce RTX 2080Ti顯卡。
在Volleyball數據集上,本文方法與其它方法對比的結果見表1。由表1可以看出,本文方法的效果優于其它方法,其識別準確率相比于VC模型提高了1.0%。在個體行為準確率識別中,也表現出了最佳的性能,相比于AT模型提高了0.4%。

表1 在Volleyball數據集上與其它方法的對比Tab.1 Comparison with the state-of-the-art methods on Volleyball dataset
在Collective Activity數據集上,本文方法與其它方法對比的結果見表2。由表2可知,本文方法性能優于現有的行為識別方法。在群體行為識別準確率上,本文模型相對于VC模型提高了0.4%;在個體行為識別準確率上,相對于GLIL模型提高了0.2%。

表2 在Collective Activity數據集上與其它方法的對比Tab.2 Comparison with the state-of-the-art methods on Collective Activity dataset
為了驗證本文方法的有效性以及各個模塊的效果,在Volleyball數據集上進行消融實驗分析。設計了一種特征通道位移的時間上下文模塊,討論了通道位移策略對于識別準確率的影響。實驗效果數據見表3。

表3 在Volleyball數據集上不同位移方式的效果Tab.3 Effects of different shift modes on Volleyball dataset
由表3可見,在使用時間循環雙向移動時,既得到完整的時序信息,也保證了個體特征的完整性,且正確率得到了明顯的提升。因此,本文最終選擇時間循環雙向移動策略。
實驗中使用t-SNE來可視化不同模型的標簽分離度。其可視化結果如圖3所示。
從圖3中可以看出,相對于VC模型,本文方法在Right pass和Right winpoint這2類群體行為中有著更好的分離度,其它行為的分離度也優于VC和MLIR模型,驗證了使用本文方法學習到的場景特征有更好的分離效果。

圖3 在Volleyball數據集上t-SNE可視化Fig.3 t-SNE visualization on Volleyball dataset
本文提出了一種新的通道時間上下文模塊,通過在特征通道層面進行通道時間位移,使用時間循環雙向移動作為位移策略,有效增強了個體的時序信息。其次,本文構建了基于融合通道級時間上下文特征的空間圖模型,實現多復雜空間關系的編碼。通過在2個公開的數據集上進行試驗分析,結果顯示本文方法優于現有群體行為識別方法,驗證了本文方法的有效性。