焦暢 吳克偉 于磊 謝昭 李文中



摘 要:為解決群組行為識別中復雜個體關系描述不準確,造成的個體關系推理不可靠的問題,關注于面向個體、群體、場景三個方面來構建場景關系圖,提出場景關系圖網絡用于實現群組行為識別。該網絡包括特征提取模塊、場景關系圖推理模塊以及分類模塊。特征提取模塊通過卷積神經網絡提取個體特征、群組特征、和場景特征。為了充分描述場景對于個體和群組描述的影響,場景關系圖推理模塊通過使用兩分支網絡分別建立個體—場景關系圖以及群組—場景關系圖幫助學習個體特征和群組特征。場景關系圖推理同時考慮了個體特征對群組特征的影響,并引入了跨分支關系。分類模塊用于將個體特征和群體特征進行分類預測。實驗結果顯示該方法在volleyball和collective activity數據集上的群組識別準確率分別提升了1.1%和0.5%,證實了提出的場景關系圖在描述個體特征和群組特征上的有效性。
關鍵詞:群組行為識別;場景關系圖;關系建模;行為識別
中圖分類號:TP391 文獻標志碼:A 文章編號:1001-3695(2023)10-045-3173-07
doi:10.19734/j.issn.1001-3695.2022.12.0828
Scene relation graph network for group activity recognition
Jiao Chang,Wu Kewei,Yu Lei,Xie Zhao,Li Wenzhong
(School of Computer Science & Information Engineering,Hefei University of Technology,Hefei 230601,China)
Abstract:To solve the problem of inaccurate description and unreliable relation inference in group activity recognition,this paper focused on constructing a scene relationship graph for three aspects:individual,group,and scene,and proposed a scene relationship graph network(SRGN) for group activity recognition.This method included a feature extraction module,a scene relation graph inference module,and a classification module.The feature extraction module extracted individual features,group features,and scene features by convolutional neural network.To fully explore the impact of scene on individual and group descriptions,the scene relation graph inference module learnt individual features and group features by building individual-scene and group-scene relationship graphs in a two-branch framework.Scene graph inference took into account the influence of individual on group and introduced a cross-branch module.It used
the classification module to classify individual features and group features for prediction.The experimental results show that the group recognition accuracy of the proposed method on volleyball and collective activity data sets is improved by 1.1% and 0.5%,respectively.It verifies the validity of the scene graph in describing individual feature and group feature.
Key words:group activity recognition;scene relation graph;relation modeling;action recognition
0 引言
群組行為識別是視頻理解中的一個重要問題,這個任務是對多人組成的群組進行集體活動的分析,它是很多視覺應用的基礎任務,如公共監控視頻分析、體育視頻分析以及社交場景分析等。傳統方法直接提取個體邊界框的深度特征作為群組特征[1~3],這導致個體特征在訓練過程中缺少來自其他相關個體的影響信息,最終識別結果的精度也較低。盡管一些方法通過引入輔助信息,如標簽語義[4]和人體骨架[5]等來幫助增強場景中一些重要個體的特征表達,但都未取得明顯效果。
與面向視頻分類的人體行為識別不同,群組行為識別需要對多個成員的互動以及他們周圍的環境(如其他成員和物體)進行分析。因此近年來大部分的群組行為識別方法[6,7]不光考慮了個體特征提取,還從關系建模的角度來為個體特征添加補充信息來解決問題。這些工作使用RNN[8]或者LSTM[9]構建個體的關系,但這種方式不能計算關系權重,為所有個體提供的補充信息是沒有區分度的。為了進一步挖掘個體間的關系,一些方法[10~14]引入了Transformer來計算注意力關系。其中AT[11]使用Transformer為個體特征計算自注意力關系,GF等工作[12,14]將個體先聚類然后計算類間的注意力,Dual-AI[13]構造了時空Transformer,分別學習時間和空間的個體注意力,但Transformer模型復雜度較高,關系推理能力也較弱。隨著圖卷積網絡的興起,Wu等人[15]看中了其高效的關系推理能力,將其應用在群組行為識別領域,提出了個體關系圖ARG。后續大部分的工作[16~22]將其作為關系建模的重要手段。其中MLIR等工作[16,20]構建了不同層次的個體關系圖,DIN等工作[21,22]將關系圖擴展到時間維度,為整個視頻建立時空個體關系圖。
上述關系圖模型都只考慮到了個體與個體之間的互動關系,忽略了視頻圖像中重要的場景信息。一些方法[23~28]嘗試過使用場景特征來增強個體特征。StagNet[26]將動作標簽作為場景語義特征加入到關系推理,沒有考慮到場景的視覺特征。GAIM[27]將整張圖像壓縮成一個代表全局信息的節點特征,卻因此丟失了場景的完整空間信息。
到目前為止,盡管基于關系圖的群組行為識別的方法研究有了很大的進展,但仍然存在一些問題。圖1以一個群組行為右邊二傳(r-set)為例。首先,現有依靠邊界框定位提取個體特征,會由于某些動作相似度較高導致個體關系描述不準確的問題。例如圖1(a)中雙手舉起的球員的動作被識別成攔網(blocking),而跳起球員的動作被識別成跳起(jumping)。模型不能準確描述個體間的關系,導致群組行為識別錯誤。其次,現有方法一般采用個體特征取最大池作為群組特征,存在群組特征描述不準確的問題。例如圖1(b)中,在兩種個體動作spiking和setting同時出現時,模型無法確定將哪一個作為群組行為的代表,將r-set識別成了r-spike。
造成上述問題的主要原因在于現有方法忽略了圖像場景信息。場景中存在大量未被定位的物體,它們與群組以及個體之間有著潛在關系,有利于群組行為識別。如圖1(c)所示,在場景信息的輔助下,模型修正了圖1(a)和圖1(b)中的識別錯誤。
針對上述問題,本文提出了以下解決方案:為了解決個體關系描述不準確的問題,本文建立了個體—場景關系圖,按照關系權重來為個體特征加入場景信息作為增強特征。為了解決個體關系描述不準確的問題,本文使用聯合注意力機制計算個體對場景像素點的注意力,為個體特征提供像素級別的特征增強,此方法可以精確地從場景的每個像素收集各個區域可能存在的相關信息。為了解決群組特征描述不準確的問題,本文建立了群組—場景關系圖,并采用雙分支結構處理個體和群組的場景關系圖。群組—場景關系圖先初始化群組行為特征,然后賦予群組特征不同的位置坐標,借助協同注意力的方式在坐標位置附近收集群組特征相關信息。在群組特征的學習過程中,為使個體特征得到加強,本文在雙分支結構中加入了跨分支關系,計算個體與群組的關系,將個體特征按關系權重加入到群組特征。
本文的貢獻可以總結如下:a)在傳統的個體關系圖中使用像素級別的場景特征來增強個體特征,用于解決群組行為識別中個體關系描述不準確以及關系推理不可靠的問題;b)本文的場景關系圖網絡(scene relationship graph network,SRGN)采用雙分支結構,分別建立個體—場景關系圖與群組—場景關系圖來學習準確的個體特征和群組特征;c)本文在雙分支結構中加入了一種跨分支關系,使用個體—場景關系圖學習的個體特征來改善群組特征。
1 場景關系圖網絡
視頻圖像中包含豐富的場景信息,有利于群組行為識別。為了學習圖像中潛在的場景關系,本文設計了一個場景關系圖網絡,解決了以往方法對于場景信息利用不足的問題。網絡框架如圖2所示,它包含特征提取模塊、場景關系圖推理模塊以及分類模塊。特征提取模塊對圖像特征生成個體特征、場景特征以及群組特征,作為第二階段的輸入。場景關系圖推理模塊解決了個體和群組與場景的關系建模問題。對于一段輸入視頻,模型首先對每一幀圖像進行前兩個階段的單獨處理,最后在時間維度取平均池化作為視頻特征。分類模塊對多幀圖像的特征進行時間池化,然后輸入到分類器中得到標簽。
1.1 特征提取模塊
特征提取模塊為后續建立場景關系圖提供場景特征、個體特征以及群組特征的準備工作。使用Inception-v3[29]提取場景特征Xscene∈Euclid Math TwoRAph×w×d。接著對場景特征應用RoIAlign[30]裁剪出NI個群組成員的邊界框,得到個體特征Xind∈Euclid Math TwoRApNI×d。然后Xind和Xscene進行個體—場景關系圖推理來學習新的個體特征。為了生成群組特征,本文利用Xscene和Xind生成NG個群組行為token作為初始化群組特征Xgroup∈Euclid Math TwoRApNG×d。具體地,對場景特征應用一個1×1的2D卷積將特征維度由d匯聚到NG。對降維后的特征使用線性變換函數加softmax得到一個空間注意力權重As∈
1.2 場景關系圖推理模塊
在缺失場景信息時,個體關系描述不準確會導致關系推理不可靠,從而得到不準確的群組特征。為了學習個體特征和群組特征對場景的注意力關系,本文設計了場景關系圖推理模塊。該模塊采用雙分支結構,分別進行個體—場景關系圖推理與群組—場景關系圖推理。具體地:a)個體—場景關系圖推理將Xind和Xscene作為輸入,加入對應位置編碼得到個體節點ind和場景節點scene,并使用這兩種節點建立了個體—場景關系圖GIS={ind∪scene,EIS},其中EIS是兩種節點的連接邊,它的值代表了個體—場景關系;b)群組—場景關系圖推理先將群組token特征Xgroup轉換成群組節點group,然后使用group和場景節點scene一起建立群組—場景關系圖GGS={group∪scene,EGS}來學習新的群組特征,其中EGS是場景節點與群組節點的連接邊,它的值代表群組—場景關系;c)在雙分支結構中,為了讓群組—場景關系圖推理過程中獲得個體特征的增強,本文還使用了跨分支關系來學習得到融合群組特征Xfusegroup。
1.2.1 個體—場景關系圖推理
個體—場景關系圖推理模塊通過建立個體—場景關系圖來幫助改善個體特征,通過聯合注意力機制來計算個體對場景各個區域的關注程度,作為個體與場景的相互關系。然后使用圖推理為個體特征更新包含場景關系的信息,輸出新的個體特征。
圖3上半部分展示了該分支的結構。它包含三個模塊,黃色部分是節點嵌入模塊,粉色部分是關系圖推理模塊,藍色部分是前饋網絡模塊(參見電子版)。為了在后續的場景關系計算中保留位置信息,節點嵌入模塊將輸入特征的位置編碼特征和原始特征一起嵌入到節點特征空間中。對于個體節點,將Xind加上位置編碼后使用一個線性變換函數得到個體節點特征ind。接著對個體節點進行一次基于自注意力的節點更新。這是為了捕捉不同位置不同個體之間的相關關系,使所有個體特征先在內部根據注意力權重相互傳遞信息。對于場景節點,為Xscene加上位置編碼后將特征維度降到d′,并且將空間維度拉平,得到場景節點特征scene。
考慮到個體節點和場景節點之間可能會有多種類型的相關關系,例如球員與觀眾,球員與教練,甚至球員與裁判之間的聯系??梢圆捎枚囝^協同注意力機制,每個注意頭專門處理一種場景關系類型。假設使用單個注意頭計算個體特征表示為X″ind=attention(ind,scene),則使用多頭注意力表示如下:
1.2.2 群組—場景關系圖推理
群組—場景關系圖推理模塊通過群組—場景關系圖來學習群組特征。圖3的下半部分展示了群組—場景關系圖分支,它的結構與個體—場景關系圖推理類似。群組—場景關系圖推理同樣經過節點嵌入層、場景關系圖推理層以及前饋網絡層這三個模塊來建立群組—場景關系圖并進行推理。節點嵌入模塊使用了群組特征Xgroup生成群組節點group。具體地,為了讓Xgroup從場景中獲得不同區域的相關上下文,本文將群組行為特征的位置編碼加入,然后嵌入到了場景圖的節點空間,得到群組節點。
接著將scene和group交給場景關系圖推理模塊建立群組—場景關系圖,在場景中收集與群組行為相關的上下文信息。本文的群組節點是不同種類群組行為的查詢,這些查詢之間并沒有相關關系,而是與場景各區域特征有著強烈的聯系,所以只需要學習群組節點與場景節點的相關關系即可。
場景關系圖推理模塊計算群組節點group和場景節點scene的所有節點之間的協同注意力作為群組場景關系圖的邊EGS={eGSi,j|i=0,1,…,NG;j=0,1,…,hw}。其中eGSi,j代表第i個群組節點groupi和第j個場景節點scenej的注意力關系。在群組和場景的聯合注意力中,將groupi當做查詢,scenej當做鍵和值,計算群組節點與場景節點的聯合注意力,并通過注意力權重對場景像素特征加權求和來更新群組節點特征:
其中:X″group是圖推理過后的群組特征。群組—場景關系有多種不同類型,這同樣可以使用不同的注意力頭學習不同類型群組場景上下文關系。因此,也可以使用多頭注意力形式來學習X″group:
1.2.3 跨分支關系模塊
群組行為會受到其中個體動作的影響,并且身處群組中的每個個體對群組行為的影響并不相同。因此,為了在群組特征的學習過程中使用個體特征來增強群組特征表示,本文設計了一個跨分支關系模塊來建立每個個體與不同群組之間的關系。圖3中,紫色方框是跨分支關系模塊。它位于兩個分支的每層圖推理輸出位置之間,在編碼過程中通過加強與群組行為相關的個體特征來改善群組節點特征。
具體地,為了得到不同群組行為對于場景中每個個體的注意力關系,本文先根據個體特征X″ind和群組特征X″group計算一個相似度分數矩陣。接著使用
1.3 訓練損失
對于一個T幀的輸入視頻片段,一共得到T×NI個個體特征,以及T×NG個群組特征。以往的方法一般先學習個體特征,然后對個體特征取最大池作為群組分類器的輸入,而本文單獨構造了群組特征,對群組行為數量NG取最大池得到的才是真正的群組特征表示。最后將兩種特征在時間維度T上取平均池化后分別輸入到兩種分類器。分類器是兩個全連接層,最終輸出個體動作預測標簽Y^ind和群組行為預測標簽Y^group。本文模型是以端到端的方式進行訓練的,損失函數使用的是標準的交叉熵損失函數,表述如下:
其中:Lgroup和Lind分別是群組行為識別和個體動作識別的損失函數;Ygtgroup和Ygtind分別是群組行為和個體動作的真實標簽;Y^group和Y^ind則是模型的預測標簽;λ是一個超參數,它起到平衡兩種損失函數的作用。
2 實驗
2.1 數據集與評價標準
本文在本領域兩個廣泛使用的數據集上進行了大量實驗,它們分別是volleyball dataset(VD)[1]以及collective activity dataset(CAD)[31]。
1)volleyball dataset 該數據集包含55場排球比賽的視頻,每個視頻被分為數量不同的若干片段,總共4 830個片段(其中3 493段作為訓練集,1 337段作為測試集),每一視頻片段的中間一幀有人工標注,包括個體邊界框的坐標、個體動作的真實標簽、群組動作的真實標簽。個體動作標簽有九類,包括waiting,setting,digging,falling,spiking,blocking,jumping,mo-ving,standing。群組行為標簽有八類,包括right set,right spike,right pass,right win-point,left set,left spike,left pass,left win-point。
2)collective activity dataset 該數據集包含44個手持攝像機拍攝的視頻,拍攝場景包括街道和室內,總共被分為2 481個片段(其中80%作為訓練集,20%作為測試集)。每個片段的中間幀標注個體邊界框和對應的個體動作。每幀圖像的邊界框數量不一,最大為13。個體動作包括NA,crossing,wai-ting,queuing,walking and talking。群組行為標簽根據場景中最多的個體動作標簽決定。
3)評價指標 本文在兩個數據集上的評價指標均采用多類分類精度(multi-class classification accuracy,MCA),本文使用群組行為MCA(group)以及個體動作MCA(individual)。
2.2 實驗細節
對于volleyball dataset,輸入視頻圖像幀數T=10幀,輸入圖像大小調整至720×1 080。個體邊界框數量NI=12,群組token特征數量NG=8。所有輸入特征的維度d=1 024,轉換成節點特征的維度d′=128,后續輸出特征采用同樣的特征維度。個體分類器采用(128,9)的全連接層,群組分類器采用(128,8)的全連接層。訓練期間,網絡超參數設置如下:批量訓練樣本容量為8,dropout 比率為0.8,學習率初始化為10-4,網絡訓練周期設置為150個周期,期間每經過30個周期,將學習率下降到之前的1/2,經歷4次衰減后會停止衰減學習率。
對于collective activity dataset,同樣輸入T=10幀的視頻圖像,將圖像大小調整為480×720。個體邊界框取最大數量NI=13,如果場景中的個體數量不足13個,則缺少的部分使用全零的特征向量代替。群組token特征數量NG=5。所有輸入的特征維度為d=1 024,節點嵌入層以及輸出的特征維度為d′=128。群組分類器采用(128,5)的全連接層。訓練期間,網絡的超參數設置如下:批量訓練樣本容量為16;dropout比率為0.5;學習率初始化為10-3;網絡訓練周期設置為50個周期,不采用學習率衰退策略。
兩個數據集的場景關系圖建立過程都使用了多頭聯合注意力模塊,本文將注意力頭的數量設置為m=4。兩個數據集都使用了Adam優化器,參數設置分別為β1=0.9,β2=0.999和ε=10-8。所有實驗的系統平臺為Ubuntu18.04操作系統,使用深度學習框架PyTorch,GPU為兩張GTX 1080Ti顯卡。
2.3 對比實驗
表1展示了在volleyball dataset數據集上的對比實驗結果,其中extra表示是否使用額外模態信息。
本文將對比方法主要分為非場景圖方法和場景圖方法兩類。非場景圖中,HDTM是傳統的深度學習方法,沒有使用關系建模加強特征。HRN和SRNN使用RNN關系建模。ARG、MLIR和DIN則使用了個體關系圖。AT、GF和Dual-AI使用了組合的Transformer學習個體關系。這些方法都沒有使用場景信息來增強個體特征表示。場景圖方法中,StagNet使用語義標簽作為場景信息,GAIM則把整個場景特征壓縮成單個節點建立場景關系圖。
從表1中可以看出,本文方法在群組行為和個體動作識別準確率超越了其他方法,說明本文方法學習到了準確的群組特征和個體特征。與非場景圖方法相比,本文的場景關系圖方法能夠提供其所不能關注到的場景特征。具體地,傳統方法是因為沒有使用關系建模,而其他關系建模的方法是因為沒有將場景特征作為關系推理的對象,所以本文方法的識別性能更好。與其他的場景關系圖方法相比,本文方法可以提供更豐富的增強特征。而其他方法只利用了場景特征的一部分,忽略了所有像素級特征和個體特征存在的潛在關系,造成了其模型性能甚至不如某些個體關系圖方法。
表2展示了在collective activity數據集上的對比實驗結果,其中extra表示是否使用額外模態信息。結果顯示,沒有使用關系建模的方法性能較差,例如HDTM。這可能是由于沒有計算關系權重,個體間也無法傳遞相關信息。CAD的群組行為識別是由場景中多數個體動作共同決定的,構造具有區分度的個體特征是很重要的。
加入額外模態特征可以幫助模型取得較好的識別效果,例如AT和GF的識別準確率得到了提高,但同時可能引入不必要的額外噪聲。基于圖方法的模型可以學習個體關系作為特征更新的權重,同樣可以增強個體特征。其中ARG學習個體的個體關系,DIN則是時空關系一起學習。只是這些方法缺失了圖像中的場景信息,使用了場景圖的方法。StagNet沒有使用圖像特征作為場景特征,GAIM將圖像壓縮成單個節點。這些方法設計的場景特征都丟失了圖像的空間信息,因此沒有取得明顯的提升。本文的場景圖方法在沒有加入額外模態特征的前提下,充分利用了場景特征本身包含的上下文信息。與其他方法相比,本文方法在群組行為識別準確率上有所提升,已經具備與先進方法相當的模型性能。
2.4 消融實驗
本節將在volleyball dataset上對本文所提出的模型進行一系列消融實驗,以驗證各個模塊方法的有效性和貢獻。
1)節點類型對模型的影響 本文的場景關系圖使用了多種類型的節點,通過消融實驗來驗證不同節點的有效性。結果如表3所示。當只使用ind,場景圖退化成個體關系圖ARG[15],并采用圖卷積建立個體關系。個體節點特征僅提取了個體邊界框內的特征,本文將其當做Base Model。在此基礎上可以加入場景上下文節點scene,并且使用GCN建立ind與scene的關系以進行節點間的信息交換,結果顯示模型性能并未提升,這可能是因為GCN將場景圖像特征壓縮到低維度空間,無法給個體節點提供詳細的場景空間信息。本文使用了場景關系圖(SRGN),取場景特征中的每個像素作為場景節點,并且使用協同注意力機制建立個體節點與場景節點的關系。從結果來看模型性能有所提升,尤其是個體識別精度提升幅度較大。這是因為個體特征在圖推理過程中在場景節點中收集自身關注區域的場景上下文信息,加強了個體特征表示。以上三種方案將個體特征取最大池化作為群組行為特征交給分類器,而本文引入了一組獨立的群組節點特征group,在場景特征圖中收集相關群組行為信息。結果顯示模型的群組行為識別性能提升明顯。這是由于群組節點的特征不僅來自個體節點,同時還來自場景中相關區域的上下文特征,所以群組特征得到了增強。
2)關系邊對模型的影響 場景關系圖有個體—場景關系圖分支和群組—場景關系圖分支。兩個分支的關系邊連接節點不同,學習到的關系類型也不同。為了證明不同類型關系建模的有效性,本文對場景圖的關系邊進行了消融實驗,實驗結果如表4所示。
根據實驗結果可以得到以下結論:a)不加入場景關系邊,此時SRGN只能學習個體間的相關關系,關系的計算方法使用的是自注意力,相比于Base Model,模型性能提升較少;b)只使用個體—場景關系邊,相當于模型只有個體—場景關系圖,此時個體節點可以利用場景特征信息加強個體特征,群組節點雖然無法獲得場景信息的加強,但由于本身由場景特征和個體特征生成,所以模型的群組行為識別性能也得到了提升;c)加入群組—場景關系邊,相當于采用了雙分支結構,此時場景圖可以建立群組和場景的關系。從結果可以看出,群組行為識別準確率得到較大的提升,但是加入群組—場景關系圖對個體動作識別性能影響較小,這是因為兩個分支在特征學習的過程中沒有傳遞增強信息。本文將跨分支關系當做個體與群組的連接邊加入,從結果可以看出,群組行為的識別準確率得到大幅提升,這說明個體特征對于群組特征的學習指導起到了作用,而個體動作的識別準確率提升較小。
3)多頭注意力對模型的影響 場景關系圖主要靠聯合注意力層對上下文信息進行聚合,它采用多頭形式。在這里本文對注意力頭的個數進行消融實驗,同時對是否使用位置編碼也進行了研究。表5中,head表示注意力頭數,PE表示是否使用位置編碼。從表5的實驗結果來看,注意力頭的個數并不是越多越好,經過驗證,注意力頭數設置為4個最好,這是因為場景與場景中的實例(個體節點或者群組節點)關系不會有很多種類型,比如在排球比賽的視頻圖像中,場景信息包括觀眾、裁判、教練以及一些媒體記者等,一般不會出現更多更復雜的場景。因此設置更多的注意力頭學習到的場景關系都很相似,對模型性能提升不大。對于位置編碼信息,它在場景關系建模的過程中提供了坐標信息,將實例節點的關注范圍縮小,更精確地收集了場景相關上下文信息,因此,位置編碼的使用是十分必要的。表5中,本文設置了一個未采用位置編碼的4頭注意力模塊,結果顯示識別準確率相比使用了位置編碼的有所下降。
2.5 可視化結果分析
本文的場景圖根據場景像素節點與個體節點以及群組節點的注意力關系來為它們提取場景的上下文特征作為特征增強信息。為了驗證場景關系有助于這兩種節點關注圖像中與自身相關的場景特征,本文將場景關系可視化,通過可視化圖分析兩種特征對場景中的哪些實例關注度更高。本文將不同方法對于群組行為的預測結果標注在圖像上,紅色標簽表示錯誤的預測結果,綠色標簽表示正確的預測結果(參見電子版)。
1)個體—場景關系可視化 圖4中,展示了各方法在識別個體動作時對整個場景的注意力關系。圖4第一行是l-spike的示例,第二行是l-set的示例,從左至右三列分別是ARG、GAIM和本文的SRGN對圖像的注意力可視化圖。為方便展示,本文將所有個體對場景的注意力取平均,然后可視化在場景圖像中。該可視化圖以熱圖的形式呈現,紅色的程度越深代表個體對這一場景區域關注度越高,則從該區域獲得場景上下文信息就越多。
從圖4中可以看出,ARG和GAIM的關注區域主要集中在球員身上,而忽略了球場周圍的場景信息。第一行l-spike活動中,ARG主要關注左側在網前蹲下的球員,這使模型認為這是l-pass活動。而GAIM關注左側后撤的白衣球員,這導致模型認為這是一個l-set活動。第二行l-set活動中,本文方法和GAIM捕捉到了排球在左邊二傳球員的正上方,因此判斷這是l-set活動,而ARG卻將其忽略導致判斷錯誤得到l-pass。總結本文方法中個體特征對場景信息的關注重點主要為以下兩個方面:a)對場景中其他個體的關注,尤其是在群組互動中起到關鍵作用的個體,在以往的工作中也提出過,關鍵個體對其他個體的影響更大,例如第一行l-spike活動中正在做扣球動作的球員,她的扣球動作引起了整個群組行為的改變;b)場景中其他非球員的因素,例如第二行l-set活動中的排球,以及場邊教練組對場上球員的指揮,這些場景上下文信息都是以往方法中沒有重視的,而本文將這些信息作為個體的增強信息,使用場景關系圖捕捉這些信息,并且取得了良好的效果。
2)群組—場景關系可視化 圖5展示了各方法在群組特征的注意力可視化圖,其中第一行是r-spike的示例,第二行是r-winpoint的示例。本文將群組特征對場景的注意力取平均然后可視化在場景圖像中。本文設置的群組特征由個體特征和場景特征共同初始化,在場景關系圖推理過程收集圖像中的相關信息。
從圖5中可以看到,ARG和GAIM都有不同程度的識別錯誤。第一行r-spike活動中,ARG將右邊蹲下球員當做關鍵人物,得到了r-pass的識別結果。GAIM關注到左側三名球員的動作,于是判斷成l-pass。第二行r-winpoint活動中,活動的主體應該是場上慶祝的球員,但由于場邊觀眾參與慶祝,導致ARG和GAIM關注區域偏移到左側,都識別錯誤得到l-winpoint。而本文的SRGN能夠準確地定位發生區域,得到準確的群組行為特征。本文方法中群組特征與場景關系的特點主要是:a)參與群組行為的個體以及周圍區域的場景,即相比于個體—場景關系,群組—場景關系對個體特征關注范圍更大,因為一個群組行為需要多個個體參與,所以一個群組行為需要關注的成員個數也更多;b)與個體特征相比,對場外信息的關注減弱,更關注場內提供的場景特征,這也是因為群組行為本身的特點,即個體動作以及它們之間相互作用構成了群組行為。在個體—場景關系圖中已經為個體特征融入了其他區域的場景信息,所以群組行為只需要關注個體特征。相比于其他方法采用個體特征最大池來代表群組特征,本文方法直接從整個圖像收集群組行為的相關信息可以得到準確的群組特征。
3 結束語
本文提出了基于場景關系圖的群組行為識別方法,構建了一個場景關系圖網絡(SRGN)。該網絡通過建立個體特征與場景像素點的關系解決了個體關系描述不準確以及個體關系圖推理不可靠的問題。SRGN還使用了群組特征生成模塊得到獨立的群組特征,幫助提高群組行為識別準確率,解決了群組特征描述不準確的問題。對比實驗證實了本文方法的有效性,后續工作可以考慮將場景關系圖拓展到時間維度,實現時空場景關系建模。
參考文獻:
[1]Ibrahim M S,Muralidharan S,Deng Zhiwei,et al.A hierarchical deep temporal model for group activity recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:1971-1980.
[2]Goyal A,Bhargava N,Chaudhuri S,et al.Hierarchical deep network for group discovery and multi-level activity recognition[C]//Proc of the 11th Indian Conference on Computer Vision,Graphics and Image Processing.New York:ACM Press,2018:1-7.
[3]戎煒,蔣哲遠,謝昭.基于聚類關聯網絡的群組行為識別[J].計算機應用,2020,40(9):2507-2513.(Rong Wei,Jiang Zheyuan,Xie Zhao.Clustering relational network for group activity recognition[J].Journal of Computer Applications,2020,40(9):2507-2513.)
[4]Li Xin,Chuah M C.SBGAR:semantics based group activity recognition[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:2895-2904.
[5]Zappardino F,Uricchio T,Seidenari L,et al.Learning group activities from skeletons without individual action labels[C]//Proc of the 25th International Conference on Pattern Recognition.Piscataway,NJ:IEEE Press,2021:10412-10417.
[6]Ibrahim M S,Mori G.Hierarchical relational networks for group activity recognition and retrieval[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2018:742-758.
[7]Shu Xiangbo,Tang Jinhui,Qi G J,et al.Hierarchical long short-term concurrent memory for human interaction recognition[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2019,43(3):1110-1118.
[8]Biswas S,Gall J.Structural recurrent neural network(SRNN) for group activity analysis[C]//Proc of IEEE Winter Conference on Applications of Computer Vision.Piscataway,NJ:IEEE Press,2018:1625-1632.
[9]Shu Xiangbo,Zhang Liyan,Sun Yunlian,et al.Host-parasite:graph LSTM-in-LSTM for group activity recognition[J].IEEE Trans on Neural Networks and Learning Systems,2020,32(2):663-674.
[10]張天雨,許飛,江朝暉.基于時空自注意力轉換網絡的群組行為識別[J].智能計算機與應用,2021,11(5):77-81,87.(Zhang Tianyu,Xu Fei,Jiang Chaohui.Spatio-temporal transformer network for group activity recognition[J].Intelligent Computer and Applications,2021,11(5):77-81,87.)
[11]Gavrilyuk K,Sanford R,Javan M,et al.Actor-transformers for group activity recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:836-845.
[12]Li Shuaicheng,Cao Qianggang,Liu Lingbo,et al.GroupFormer:group activity recognition with clustered spatial-temporal Transformer[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:13648-13657.
[13]Han Mingfei,Zhang D J,Wang Yali,et al.Dual-AI:dual-path actor interaction learning for group activity recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2022:2980-2989.
[14]王傳旭,劉冉.基于交互關系分組建模融合的組群行為識別算法[J].計算機與現代化,2022(1):1-9.(Wang Chuanxu,Liu Ran.Group activity recognition algorithm based on interaction relationship grouping modeling fusion[J].Computers and Modernization,2022(1):1-9.)
[15]Wu Jianchao,Wang Limin,Wang Li,et al.Learning actor relation graphs for group activity recognition[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:9956-9966.
[16]劉繼超,劉云,王傳旭.基于核心人物和交互關系建模的群組行為識別[J].青島科技大學學報:自然科學版,2022,43(3):98-106.(Liu Jichao,Liu Yun,Wang Chuanxu.Group activity recognition based on relationship network and core person modeling[J].Journal of Qingdao University of Science and Technology:Natural Science,2022,43(3):98-106.)
[17]Pei Duoxuan,Li Annan,Wang Yunhong.Group activity recognition by exploiting position distribution and appearance relation[C]//Proc of International Conference on Multimedia Modeling.Cham:Springer,2021:123-135.
[18]Hu Guyue,Cui Bo,He Yuan,et al.Progressive relation learning for group activity recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:977-986.
[19]李駿,程雅儒,謝昭.融合時間和空間上下文特征的群體行為識別[J].智能計算機與應用,2022,12(9):45-49,55.(Li Jun,Cheng Yaru,Xie Zhao.Group activity recognition based on temporal and spatial context features[J].Intelligent Computer and Applications,2022,12(9):45-49,55.)
[20]Lu Lihua,Lu Yao,Wang Shunzhou.Learning multi-level interaction relations and feature representations for group activity recognition[C]//Proc of the 27th International Conference on Multimedia Mo-deling.Berlin:Springer-Verlag,2021:617-628.
[21]Yuan Hangjie,Ni Dong,Wang Mang.Spatio-temporal dynamic infe-rence network for group activity recognition[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:7456-7465.
[22]劉斯凡,林國丞,秦建偉.基于選擇性融合及關系推理的群組行為識別[J].計算機應用研究,2023,40(3):914-918,924.(Liu Sifan,Lin Guocheng,Qin Jianwei.Group activity recognition based on selective fusion and relational reasoning[J].Application Research of Computers,2023,40(3):914-918,924.)
[23]黃江嵐,卿粼波,姜雪.融合場景及交互性特征的多人行為識別[J].四川大學學報:自然科學版,2022,59(6):77-88.(Huang Jianglan,Qing Linbo,Jiang Xue.Multi person behavior recognition based on scene and interactive feature[J].Journal of Sichuan University:Natural Science Edition,2022,59(6):77-88.)
[24]Tang Yansong,Wang Zian,Li Peiyang,et al.Mining semantics-preserving attention for group activity recognition[C]//Proc of the 26th ACM International Conference on Multimedia.New York:ACM Press,2018:1283-1291.
[25]Tang Yansong,Lu Jiwen,Wang Zian,et al.Learning semantics-preserving attention and contextual interaction for group activity recognition[J].IEEE Trans on Image Processing,2019,28(10):4997-5012.
[26]Qi Mengshi,Qin Jie,Li Annan,et al.StagNet:an attentive semantic RNN for group activity recognition[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2018:104-120.
[27]Lu Lihua,Lu Yao,Yu Ruizhe,et al.GAIM:graph attention interaction model for collective activity recognition[J].IEEE Trans on Multimedia,2019,22(2):524-539.
[28]Yuan Hangjie,Ni Dong.Learning visual context for group activity re-cognition[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2021:3261-3269.
[29]Szegedy C,Vanhoucke V,Ioffe S,et al.Rethinking the inception architecture for computer vision[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:2818-2826.
[30]He Kaiming,Gkioxari G,Dollár P,et al.Mask R-CNN[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:2961-2969.
[31]Choi W,Shahid K,Savarese S.What are they doing? Collective acti-vity classification using spatio-temporal relationship among people[C]//Proc of the 12th IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2009:1282-1289.
收稿日期:2022-12-28;修回日期:2023-02-20基金項目:安徽省重點研究與開發計劃資助項目(202004d07020004);安徽省自然科學基金資助項目(2108085MF203);中央高?;究蒲袠I務費專項資金資助項目(PA2021GDSK0072,JZ2021HGQA0219)
作者簡介:焦暢(1998-),男,安徽黃山人,碩士,主要研究方向為計算機視覺、群組行為識別;吳克偉(1984-),男(通信作者),安徽合肥人,副教授,碩導,博士,主要研究方向為計算機視覺(wu_kewei1984@163.com);于磊(1972-),男,安徽合肥人,講師,碩士,主要研究方向為計算機視覺;謝昭(1980-),男,安徽合肥人,副教授,碩導,博士,主要研究方向為計算機視覺;李文中(1995-),男,河南信陽人,碩士,主要研究方向為計算機視覺.