潘陳聽



摘? ?要:快速有效地識別出視頻中的人體動作,具有極其廣泛的應用前景及潛在的經濟價值,深度學習的火熱給視頻動作自動識別帶來了巨大的發展。提出了一種基于深度學習和非局域平均法的自注意時間段網絡,作用于剪切好的視頻片段。通過構造非局域模塊并將其加入到以ResNet為基本模型的時間段網絡,可以得到新模型。經過在TDAP數據集上驗證,該模型可較為精確地識別出人體動作,與原有模型相比在不增加時間復雜度的前提下有一定程度的提升。
關鍵詞:動作識別;非局域模塊;時間段網絡
中圖分類號:TP391.4? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A
Application of Deep Learning in Video Action Recognition
PAN Chen-ting
(Collegeof Computer Science and Technology,Nanjing University of Aeronautics and Astronautics,Nanjing,Jiangsu 211106,China)
Abstract:Recognizing human actions in videos quickly and effectively,has broad application prospects and potential economic value. Deep learning has been widely used for action recognition. We proposed self-attention temporal segment networks,whose inputs are clipped video clips. This network is based on deep networks and non-local means. By adding non-local modules to temporal segment networks with ResNet as the basic model,we can get our new model. Verified on TDAP dataset,our new model can recognize human actions more accurately than the original model,without increasing much time complexity.
Key words:action recognition;non-local module;temporal segment network
視頻動作識別在計算機視覺領域占據著重要的一席之地,由于廣泛的應用場景,近年來其吸引了大量的目光。隨著人工智能的迅速發展,特別是隨著對機器學習與深度學習的深入研究分析,激發了國內外研究學者對人體動作識別問題的研究,已經有了大量的研究成果。基于卷積神經網絡的方法在圖像分類上取得了很大的成就而且相比視頻數據集有更多的圖像數據集可用于訓練網絡。基于以上兩點,目前出現的很多視頻分類方法都是基于原有的圖像分類方法。然而視頻不僅包含大量與目標動作無關的無關信息而且在幀之間還隱含著大量重要的時序信息。
為了解決上述問題,提出了自注意時間段網絡。該方法將圖像處理中經典的非局域平均法引入時間段網絡。我們的工作類似于機器翻譯領域的自注意力(self-attention)方法[1]。自注意力模塊關注特征圖中所有位置并在嵌入空間中計算它們的加權平均以此得到序列中某個位置的響應。正如接下來討論的,自注意力可以被視為一種非局域平均[2]。使用非局域方法有幾個優點[3]:(a)與卷積神經網絡和循環神經網絡的先進效果相比,非局域方法通過直接計算任意兩個點的聯系來獲取長遠依賴關系;(b)就像實驗中展示的,非局域方法效果很好并且在網絡層數相近的情況下達到了較好的結果;(c)最后,非局域方法支持不同的輸入規模并且能輕易地與其它方法相結合。
1? ?相關工作
1.1? ?基于手工設計特征的人體動作識別
在深度學習出現前數十年已經出現了許多動作識別技術。這些方法大多關注的是是局部時空特征的有效表示,例如HOG3D[4],SIFT3D[5],HOF[6]和MBH[7]等,而前幾年提出的IDT[8]則是在這之中最先進的手工特征。盡管有著不錯的表現,但手工特征有幾個不可避免的缺陷,例如計算復雜度高,很難獲取語義信息以及缺少判別能力和擴展性。因此這類方法逐漸失去了吸引力或只是作為深度方法的補充。
1.2? ?基于深度學習的人體動作識別
自2012年深度網絡開始火熱,用于圖像表示的架構取得了極大的進展,然而目前仍然沒有視頻領域的權威架構。目前視頻架構之間主要有以下區別:網絡的輸入只包含RGB視頻還是包含了預處理的光流,卷積核是采用2d(基于圖像)還是3d(基于視頻),以及在2d網絡的基礎上幀間信息如何整合。
雙流神經網絡(Two-Stream ConvNet)[9]在動作識別領域是一類很常用的方法,該方法簡單卻有相當優異的效果。雙流網絡顧名思義由時間流與空間流兩路網絡組成,空間流網絡將視頻單幀或堆疊幀輸入卷積網絡學習空間域上的視頻信息,時間流網絡將光流圖以多通道的形式輸入卷積網絡學習時間域上的視頻信息。兩路網絡各自對視頻輸出屬于各類的概率,最后平均兩個概率向量得到最終的分類結果。
3D神經網絡[10]是另一類很常用的方法。隨著近年來計算力的進一步提升以及數據集規模的進一步增加,3D神經網絡發展迅速,從最開始的不如傳統方法到如今與雙流網絡并駕齊驅。3D網絡在設計之初就是一種端到端的網絡架構,它可以直接將視頻作為輸入,并輸出最終分類類別。由于網絡結構復雜,3D網絡需要很大的數據集才能得到較好的結果,并且網絡層數不能過深。
RNN可以處理時域信息,因此將CNN與RNN相結合也可以學習視頻中時間維度的信息。LSTM(Long Short-Term Memory)[11]和GRU(Gated Recurrent Unit)[12]是RNN中兩類常用的變種架構。它的基本思想是用RNN對CNN最后一層在時間軸上進行整合。這里,它沒有用CNN全連接層后的最后特征進行融合,是因為全連接層后的高層特征進行池化已經丟失了空間特征在時間軸上的信息。目前效果最好的此類方法為長時遞歸卷積神經網絡(Long-term recurrent convolutional network,LRCN)[13]。
2? ?網絡模型
將詳細介紹非局域時間段網絡的設計原理和實現細節,具體地展示該網絡模型如何對視頻動作進行有效識別。
2.1? ?非局域方法
類似非局域平均法,定義了一種在深度網絡中更通用的非局域方法:
yi = ■■f(xi,xj)g(xj)? ? ? (1)
這里i是需要計算響應的輸出位的索引,j是枚舉了所有可能位置的索引。x是輸入信息(圖像,序列,視頻;通常是他們的特征圖),y是x的同等規模的輸出信息。匹配函數f計算i和所有j之間的標量。一元函數g計算位置j的輸入信息的表示。最后再將所得通過因子C(x)歸一化。
公式(1)中的非局域方法是基于考慮了所有位置j的事實。作為對比,卷積方法在某個區域計算了加權輸入,循環方法在t時刻通常只考慮當前以及接下來的一段時間。非局域方法與全連接層也不同。公式(1)計算了不同位置間基于關系的響應,然而全連接層使用學會的權重。換句話說,全連接層中xi和xj間的關系不是輸入數據的函數,不像在非局域層中。另外,公式(1)支持不同規模的輸入,并維持對應規模的輸出。相反,一個全連接層需要固定規模的輸入/輸出。
非局域方法是一個很靈活的構造模塊并且可以與卷積/循環層很簡單地一起使用。它可以被添加到深度網絡的底層中而不像全連接層只能添加到頂層。可以構造同時包含非局域和局域信息的更深層網絡。
2.2? ?非局域模塊
把公式(1)中的非局域方法嵌入到非局域模塊就可以使之成為許多現有的網絡的一部分。如下定義非局域模塊:
zi = Wz yi + xi? ? ? (2)
yi由公式(1)給出,而“+”表示殘差連接。殘差連接允許把一個新的非局域模塊插入任何預訓練過的模型。圖1為非局域模塊的一個例子。
當用于高層次采樣的特征圖時,非局域模塊的匹配運算是很輕量的。舉個例子,圖1中傳統參數為T=4,H=W=14或7。由矩陣相乘實現的匹配計算相當于基礎網絡中傳統的卷積層。另外采取了以下措施使之更高效。
將以Wg,Wθ和W?準表示的通道數設置為 的通道數的一半。這里使用了瓶頸設計并把一個模塊的計算量減少了一半。還采用了一個次采樣技巧來減少計算量。將公式(1)修改為yi = ■■f(xi,■j)
g(■j),■是x的次采樣(如通過池化)。在空間域實現可將匹配運算的計算量減少到1/4。這個技巧不會改變非局域操作,但可以使計算更稀疏。它可以通過在圖1的?準和g函數后添加一個最大池化層實現。
考慮將f函數設置為嵌入高斯函數:
f(xi,xj) = e■? ? ? (3)
這里θ(xi) = Wθ xi以及φ(xj) = Wφ xj是兩個嵌入。再設置C(x) =■f(xi,xj)。
注意到最近機器翻譯領域的自注意力模型是非局域方法在嵌入高斯函數下的一個特殊情況。可以看到給定I,就是對于維度j的softmax運算。所以有y = soft max(xT WθTWφ x)g(x),即自注意力的形式。同樣,揭示了自注意力模型與計算機視覺領域傳統的非局域均值法的內在聯系,并且將序列自注意力網絡拓展為計算機視覺中視頻動作識別的更通用的時空非局域網絡。
2.3? ?非局域時間段網絡
雙流神經網絡的一個很明顯的問題是其現有形式在建模長期時序結構的羸弱能力。這主要歸咎于其對時序上下文的處理方法有限,因為它本身是為單幀(空間域網絡)或一小段時間內的堆疊幀(時間域網絡)而設計。然而復雜行為例如運動包含相當長時間內的多個階段。如若無法將利用這些動作的長期時序結構訓練卷積網絡,那將產生相當大的損失。為了處理這個情況,使用時間段網絡,一個視頻級別的框架,可建模整個視頻的動態變化,如圖2所示。
特別地,時間段網絡是為了利用整個視頻的時序信息來進行視頻級別的預測。它也是由空間流卷積網絡和時間流卷積網絡組成。并非處理單幀和堆疊幀,時間段網絡處理從整個視頻中進行稀疏采樣所得的切片序列。序列的每個切片會對動作類進行初步預測,然后對這些預測進行整合得到整個視頻級的預測。在訓練過程中,迭代優化視頻級預測的損失值,而不是切片級的預測。
給定一個視頻V,把它分成相同時間的K段{S1,S2,1,SK},然后時間段網絡將對序列切片進行如下建模:
TSN(T1,T2,L,TK) =
H(G(F(T1;W),F(T2;W),L,F(TK;W)))
(4)
這里(T1,T2,1,TK)是切片序列。每個切片在其對應時間段SK內隨機采樣得到。F(Tk;W)是以參數W表示的處理切片TK并生成每類的分數的網絡函數。段融合函數G整合所有切片的輸出并取得其類別假設。基于此融合,預測函數H對整個視頻預測其對每個動作類別的可能性。這里選擇選擇廣泛使用的softmax函數。與基礎的類交叉熵損失相結合,最后關于段融合的損失函數為:
L(y,G) = -■yiGi - log■exp Gj? ? ? (5)
C為動作類別的數量而yi為關于類Ⅰ的真實標簽。融合函數G的形式仍是個問題,使用最簡單的形式,Gi = g(Fi(T1),…,Fi(TK))。這里類別分Gi由對所有切片關于同一類的分數采用聚合函數g所得。評估了幾種不同形式的聚合函數g,包括平均法,最大值法以及加權平均。在以上方法中,平均法取得了最好的結果。
以ResNet-50[14]作為基準模型,此模型可以在ImageNet上進行預訓練,唯一包含時間域的操作是池化層。換句話說,此基準簡單地融合了時序信息。將非局域模塊插入ResNet使之成為非局域網絡并嘗試了增加1,2,4或8個模塊。
3? ?實驗及結果分析
3.1? ?數據集和實現細節
為了驗證模型的性能,在TDAP數據集進行了實驗。TDAP數據集包含6個手勢動作類別以及684個剪切好的視頻片段。使用隨機梯度下降(SGD)算法來更新網絡參數,批大小(batchsize)設置為16。網絡在ImageNet上進行預訓練。空間流網絡的學習率初始值為0.001,每迭代100次減小到原來的1/10,整個訓練過程迭代250次。時間流網絡的學習率初始值為0.001,每迭代150次減小到原來的1/10,整個訓練過程迭代350次。也使用了抖動,水平翻轉,角裁剪等技術進行數據增廣。采用了TVL1算法進行光流圖像抽取。在預訓練后,凍結所有批正則化層的均值方差參數。
3.2? ?對比實驗
表1比較了將非局域模塊加入ResNet的不同階段的效果。非局域模塊被插入到某個階段的最后一個殘差塊之前。從表2中可以看出,插入res2,res3以及res4的效果是相似的,而插入res5的效果偏低。可能的解釋是res5的空間規模很小所以它提供的空間信息不充分。
表2比較了添加更多非局域模塊的結果。分別嘗試在ResNet-50網絡中添加1個模塊(res4),2個模塊(res3和res4),4個模塊(每層1個)以及8個模塊(每層2個)。在ResNet-101中也將其添加到相應的殘差塊。從表3可以看出并不是添加越多的非局域模塊越好,可能的解釋是數據量太少以及網絡結構過深導致其過擬合。
4? ?結? ?論
針對近幾年來提出的視頻動作自動識別問題,引入了計算機視覺中經典的非局域均值法,提出了自注意時間段網絡,并分析了其與機器翻譯領域先進的自注意力方法的內在聯系。為了驗證模型的性能,在TDAP數據集上進行了相關實驗。實驗結果表明本模型擁有較好的性能并且產生極少的額外訓練時間。
參考文獻
[1]? ? XU K,BA J,KIROS R,et al. Show,attend and tell:neural image caption generation with visual attention[C]// Proceedings of the International Conference on Machine Learning. 2015:2048-2057.
[2]? ? BUADES A,COLL B,MOREL J M. A non-local algorithm for image denoising[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2005,2:60-65.
[3]? ? WANG X,GIRSHICK R,GUPTA A,et al. Non-local neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018:7794-7803.
[4]? ? KLASER A,MARSZALEK M,SCHMID C. A spatio-temporal descriptor based on 3D-gradients[C]//Proceedings of the British Machine Vision Conference. 2008:275:1-10.
[5]? ? SCVANNER P,ALI S,SHAH M. A 3-dimensional sift descriptor and its application to action recognition[C]// Proceedings of the 15th ACM international conference on multimedia. 2007:357-360.
[6]? ? CHAUDHRY R,RAVICHANDRAN A,HAGER G,et al. Histograms of oriented optical flow and binet-cauchy kernels on nonlinear dynamical systems for the recognition of human actions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2009:1932-1939.
[7]? ? WANG H,KLASER A,SCHMID C,et al. Dense trajectories and motion boundary descriptors for action recognition[J].? International Journal of Computer Vision,2013,103(1):60-79.
[8]? ? WANG H,SCHMID C. Action recognition with improved trajectories[C]//Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. 2013:3551-3558.
[9]? ? SIMONYAN K,ZISSERMAN A. Two-stream convolutional networks for action recognition in videos[C]//Advances in Neural Information Processing Systems. 2014:568-576.
[10]? TRAN D,BOURDEV L,FERGUS R,et al. Learning spatiotemporal features with 3d convolutional networks[C]//Proceedings of the IEEE International Conference on Computer Vision. 2015:4489-4497.
[11]? HOCHREITER S,SCHMIDHUBER J. Long short-term memory[J].? Neural Computation,1997,9(8):1735-1780.
[12]? CHUNG J,GULCEHRE C,CHO K H,et al. Empirical evaluation of gated recurrent neural networks on sequence modeling[J].? arXiv preprint arXiv:1412.3555,2014.
[13]? DONAHUE J,ANNE HENDRICKS L,GUADARRAMA S,et al. Long-term recurrent convolutional networks for visual recognition and description[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015:2625-2634.
[14]? WANG L,XIONG Y,WANG Z,et al. Temporal segment networks:towards good practices for deep action recognition[C]//Proceedings of the European Conference on Computer Vision,2016:20-36.
[15]? HE K,ZHANG X,REN S,et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:770-778.