李倫欽 劉波濤



摘要:人體動作識別相關研究一直是計算機視覺的研究熱點,并且在現實生活中有著廣泛且重要的應用。大部分的研究從運動目標檢測、動作特征提取和動作特征理解三個方面著手,基本解決了簡單場景下的人體動作的識別問題。但在籃球技術動作識別領域幾乎沒有研究,該文結合深度學習以及前人在人體動作識別的積累,將其與視頻中籃球技術動作識別結合進行探究。
關鍵詞:深度學習;卷積神經網絡;動作識別;籃球技術;視頻識別
中圖分類號:TP183? ? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)01-0016-03
Abstract: Human action recognition related research has always been a research hotspot of computer vision, and it has a wide range of important applications in real life. Most of the research started from three aspects: moving target detection, action feature extraction and action feature understanding, and basically solved the problem of human action recognition in simple scenes. But there is almost no research in the field of basketball technical action recognition. This article combines deep learning and the accumulation of predecessors in human body action recognition, and combines it with basketball techniques action recognition in video to explore.
Key words: deep learning; convolutional neural network; action recognition; basketball techniques; video recognition
1引言
近幾年,諸如卷積神經網絡的深度學習方法在圖像識別、語音識別、時序學習等任務中顯示出優異的性能。圖像識別方面,通常使用經典結構AlexNet、VGG、GoogleNet、Resnet等CNN網絡結構替換傳統方式,成為圖像特征提取的主要工具。時序學習方面,經典結構RNN、LSTM、GRU等網絡結構能夠記錄時序數據的上下文信息,從而成為處理時序數據的重要手段。運動類視頻中的技術動作檢測是計算機視覺領域在體育方面的重要應用,通過智能檢測運動類視頻,為運動員、教練或分析人員提供動作技術方面的指導意見,或者輔助運動場上裁判人員進行更為合理有效的判斷。
籃球在我國國內是很流行的運動,在高水平籃球運動員中,所用到的技術動作有著明顯的特點。而這些技術動作,對于籃球愛好者、專業籃球運動員、教練等人士來說,一眼就能識別出這個動作,而且它們有著公認的稱呼。平時愛好者在觀看這些視頻往往是某些作者自己挖掘這些素材做成精彩集錦,抑或是自己被動地接收視頻門戶的推送,如果主動去搜特定動作,雖然會有相關視頻,但是資源不多且存在無關資源。
所以,開展利用深度學習的方法來識別籃球技術動作這方面的工作,并將其應用起來有著現實意義。對于視頻門戶,有利于加強籃球社區版塊的用戶黏性,提高用戶體驗;對于教練運動員,使得他們能快速找到相關視頻資料,對運動員進行有針對性的指導和訓練;對于用戶,有助于用戶快速找到感興趣的體育視頻節目或片段。
2相關技術
2.1深度學習
深度學習是機器學習的一個研究方向,通過模擬生物神經元,基于感知機構成的神經網絡,用來學習大量樣本數據中的潛在規律。通過神經網絡訓練得到的權重模型,使得機器擁有像人一樣的識別文字、圖像、視頻等數據的能力。
2.2卷積神經網絡
卷積神經網絡(ConvolutionalNeuralNetwork)是引入了很多新特征的一種神經網絡,相較于傳統神經網絡,卷積神經網絡中主要在中間層引入了卷積層進行卷積運算,引入了池化層保證數據降維的情況下提取更為重要的特征。
(1)Conv層主要作用是對圖像數據進行特征提取。層次淺的卷積層提取圖像中物體的邊際或者局部圖像塊等的“低級”信息,接下來的卷積層對圖像紋理有反饋,隨著卷積計算的層次越高,提取的信息越抽象,再后面的卷積層對目標的復雜部位有反應。隨著層次的加深,感知機提取的信息變得更加復雜,從簡單的形狀到“高級”信息方向變化。
(2)ReLU層是激活層。激活函數是以閾值為界,當輸入數據超過閾值,就切換輸出。具有類似作用的函數還有sigmoid函數。
(3)Pooling層。池化層在連續的卷積層之間,在保證盡量不改變特征的情況下用來壓縮數據和減少參數的量。當數據產生微小偏差,通過池化運算后仍會得到相同的結果。因此,池化對輸入數據的微小偏差具有健壯性。
(4)Affine層。全連接層,將相鄰層的每一個神經元都連接到一起。
(5)Softmax層。經過Affine層,得到的結果是一個得分,而Softmax是將這個得分換算成概率,通過使用Softmax函數,研究者可以通過使用概率統計的方法來處理問題。
神經網絡中通過這些層將數據正向和反向地傳播,可以高效地計算權重參數的梯度。將這些層模塊化,研究人員可以自由地組裝,構建出解決領域問題的網絡。
2.3 視頻分類技術
卷積神經網絡在圖像分類領域的成功使得研究者把目光投向視頻分類。最簡單視頻分類算法是基于單幀視頻圖片實現的,而采用CNN做圖片分類是目前最好的算法,所以在視頻分類算法中使用CNN是較為合適的選擇。由于視頻存在大量的圖像序列幀,相鄰幀之間存在關聯性,如果直接使用CNN做分類不是更好的選擇,將一般卷積神經網絡進行擴展或者將其與其他算法結合起來的分類算法,可以獲得理想的結果。
3 籃球技術動作特點
3.1Crossover
“Crossover”,國內街球場俗稱“變向”。視覺效果進攻者把防守者欺騙,使防守者向進攻者反方向失位。在進攻者突破防守者時,該動作通過較長時間展球制造與防守者0.5到0.75的肩寬身位,再通過膝蓋指向和身體發力的爆發以右腳掌蹬地向左順帶帶動左腿向左,達到突破防守者的目的。
3.2 Fake Hesitation
“Fake Hesitation”字面翻譯是“假猶豫”,由于其視覺效果仿佛要雙手合十,國內街球場上俗稱“拜佛”。拜佛這個動作的特點是進攻者利用在突破運球過程中的停頓猶豫,使對位的防守者誤以為進攻者會進行跳投或傳球的一個欺騙動作,本質是利用假動作破壞防守者重心和節奏使其失位,再找到時間差進行突破。
3.3 Shamgod
“Shamgod”名字是來源于一個使用者,因為該動作花哨廣為籃球愛好者所知,所以以他的名字作為該動作的名字,最早出現于街球動作中,動作華麗,在球場上適用廣泛。往往進攻者做出一次成功的shamgod并得分,既可以在球場上呈現出令觀眾驚艷叫絕的觀賞性,又可以起到提高我方士氣、打壓對方的作用。動作視覺效果是以左手送球在左側,以右手拉回,動作大開大合,需要球員有著很強的球感和熟練的重心轉移。Shamgod與變向類似,都是通過一步假動作欺騙誘導讓防守者產生錯誤判斷導致防守重心轉移,使其喪失防守位置,進而攻擊弱側,達到突破。
4動作識別算法
視頻分析中的動作分類任務可以看作圖像理解和時序學習的結合,因此有大量研究人員采用深度學習方法研宄動作分類任務。許多研究者對這些經典結構進行改進或者創新來進行動作分類的研究,首先通過卷積網絡和遞歸網絡獲取視頻中的每幀圖像特征和時序信息,然后構造動作分類識別框架。
4.1多核3D-CNN
單核3D-CNN只能從視頻立方體中提取一種類型的特征,特征表示過于片面。文獻[5]提出基于多核3D-CNN,如圖5,三個立體代表不同特征,分別是灰度特征、梯度特征、光流特征,3個立方體用來描述視頻連續幀的不同屬性。此外,不同于單個卷積核只能提取一種特定特征,采用多個卷積核可以提取更為合理的深度特征,對后續籃球動作識別具有重要意義。
(1)圖片序列檢測與跟蹤。將連續的7個視頻幀圖像輸入,對輸入的圖像序列進行目標檢測與跟蹤,并對目標運動區域進行提取。
(2)視頻圖片幀底層特征提取。每幀提取5個特征,分別為水平梯度特征、垂直梯度特征、灰度特征、水平光流特征和垂直光流特征。其中水平梯度特征、垂直梯度特征、灰度特征可以有一個相同大小的特征矩陣表示,水平光流特征和垂直光流特征由6個相同大小的特征矩陣表示,共有33個特征用作卷積輸入。
(3)第一次卷積操作。為了提取多種特征,選用3種不同的卷積核進行卷積操作,其中,對灰度特征、梯度特征、光流特征分別選用不同的卷積核。
(4)第一次降采樣。池化操作,給前一層卷積操作輸出特征圖做降維處理。
(5)第二次卷積操作。同樣通過對3組特征采用不同的卷積核分別進行卷積操作,從輸入數據中提取多種特征。
(6)第二次降采樣。同樣也是數據降維處理。
(7)全連接層。對每個特征圖進行2D卷積操作,得到最終的深度特征。分類的人體動作數與輸出層的單元數一致,通過最后的線性分類器進行動作識別。
4.2多分辨率3D-CNN
由于CNN在GPU上訓練大規模數據集所需時間過長,一種方法是減少網絡層數和神經元數,但是這會降低神經網絡性能,文獻[6]提出采用多分辨率3D-CNN的架構,目的使視頻在一個低分辨率下圖像序列和一個高分辨率圖像序列達到一致。這樣設計的原因是視頻中存在大量攝影偏見,而主要檢測的動作目標往往占據圖像中心。將兩個圖像流通過相同的3D-CNN后得到的特征向量合并為新的特征表示,再通過softmax分類器得到結果。
(1)輸入層。將連續的7個視頻幀圖像經過歸一化和二值化等的圖像處理操作后,得到灰度圖像。
(2)第一次卷積。對輸入圖像進行卷積運算。
(3)子采樣層。經過池化操作壓縮特征圖的分辨率,提高對輸入視頻幀畸變的容忍能力。
(4)第二次卷積。為了獲得更多抽象特征,在每相鄰3個幀圖像采用2個不同卷積核,得到2組不同的特征圖。
(5)下采樣。進一步得到更小的特征圖。
(6)第三次卷積。此階段,時間維度上的幀數較小,僅需作空間維度上的卷積運算。
(7)全連接層。多次經過卷積和下采樣后,合并由雙流結構得到的特征向量。由最后一層softmax線性分類器達到動作分類的結果。
5結論
本文介紹了深度學習在圖像、視頻領域上的應用,介紹了卷積神經網絡相關技術,并針對籃球視頻技術動作識別的需求特點,利用前人在人體動作識別方面的積累,提出兩種適用于籃球技術動作的算法。其中基于多核的3D-CNN可以提取到視頻圖像序列更多的組合特征,基于多分辨率3D-CNN用來保證不損失性能的情況下提高網絡訓練速度。
參考文獻:
[1] 朱云鵬,黃希,黃嘉興.基于3D CNN的人體動作識別研究[J].現代電子技術,2020,43(18):150-152,156.
[2] 許澤珊.基于深度神經網絡的視頻動作識別研究[D].廣州:華南理工大學,2019.
[3] 李松齡.基于卷積神經網絡的人體動作識別研究[D].成都:電子科技大學,2019.
[4] Zhang Hong-Bo,Zhang Yi-Xiang,ZhongBineng,et,al. A Comprehensive Survey of Vision-Based Human Action Recognition Methods[J]. Sensors (Basel, Switzerland),2019,19(5).
[5] 劉宇琦.視頻人臉及人體行為識別關鍵技術研究[D].長春:吉林大學,2018.
[6] 耿馳.基于深度學習的人體動作識別[D].南京:南京郵電大學,2016.
[7] An-An Liu,NingXu,Yu-Ting Su,et,al. Single/multi-view human action recognition via regularized multi-task learning[J]. Neurocomputing,2015,151.
[8] Ju Zhong,Hua Wen Liu,Chun Li Lin. Human Action Recognition Based on Hybrid Features[J]. Applied Mechanics and Materials,2013,2594.
[9] XiaoyuDeng,XiaoLiu,MingliSong,et,al. LF-EME: Local features with elastic manifold embedding for human action recognition[J]. Neurocomputing,2013,99.
[10] Tseng Chienchung, Chen Juchin, Fang Chinghsien, et al. Human action recognition based on graph-embedded spatio-temporal subspace[J]. Pattern Recognition,2012,45(10).
【通聯編輯:代影】