黎明
(四川文理學院,體育學院, 四川,達州 635000)
衡量球員的標準往往是依據他的數據,例如每場比賽的得分和籃板[1-2],然而這些指標并不能反映出教練可能想要用來評估他在未來球隊中的潛在影響的每一個方面。教練和球探們渴望通過觀看一個籃球運動員的大量籃球視頻來捕捉他能力的每一個細微差別,因此在青訓中,尋找最佳球員的任務變得更具挑戰性,成本更高,勞動強度也更大。更重要的是,這些衡量標準都是基于個人的主觀評價。更主要的是,目前用于自動評估運動員在特定運動中表現的計算模型方面進展有限[3-5]。所以,為了解決以上問題,本文提出了一種基于第一人稱的籃球運動員評估方法(BPA),該方法首先使用卷積LSTM[6]從第一人稱視頻中檢測元籃球事件。這些元事件通過高斯混合產生一個高度非線性的視覺時空籃球評估特征。最后,通過最小化一個鉸鏈損失函數,從標記的第一人稱籃球視頻中學習籃球評估模型,從而實現對球員的評估。
在這里使用第一人稱視頻定義球員評估指標,具體如式(1):
(1)


圖1 評估預測的框架
這里的第一個目標是使用第一人稱籃球視頻來建立一個強大的特征表示,可以用于有效的球員的表現評估。從第一人稱籃球視頻中識別出3個與構建這種表現形式相關的關鍵挑戰:①提出的系統需要處理嚴佩戴攝像頭的人的頭部運動;②需要根據其原子事件來解釋籃球表現;③這里的特征表示對于球員的性能預測任務必須具有高度的區分性。
為了解決這些問題,建議將分段視頻的視覺特征Vt表示如式(2):
?(Vt,x)=fgm(fevent(fcrop(Vt),x))
(2)
其中,fcrop是一個函數,它通過放大重要區域生成裁剪的視頻來處理嚴重的攝像機佩戴者的頭部運動,fevent是一個計算元籃球事件概率的函數,fgm是一個高斯混合函數,它計算視頻的高度非線性視覺特征。
1.1.1 縮放
fcrop的一個關鍵特性是能夠縮放到相關像素,這使得學習一個有效的視覺表現來進行籃球成績評估。使用這種區域性的裁剪,將第一人稱視頻的不穩定的影響降到最低,這會導致視覺數據的更大變化。在實驗部分,證明在提出的模型中使用fcrop可以大大提高預測性能。因此,最初處理第一人稱視頻以生成裁剪視頻:
(3)

通過使用完全卷積網絡學習wcrop來預測裁剪窗口的中心[5]。為了做到這一點,通過訓練網絡來預測球的位置,這通常是大多數球員看到的地方。對于視頻中的每一幀,計算XY位置坐標的加權平均值,然后在該加權平均位置周圍裁剪一個固定大小的面片。
1.1.2 元籃球事件檢測
為了建立元籃球事件的可解釋性表征,分別預測了身體投籃、持球者持球、投籃命中的籃球事件。注意,裁剪后的視頻聚焦于籃球及其視覺環境,這樣可以更有效地學習每個元事件的視覺語義。為此,使用一個多路徑卷積LSTM網絡,其中每個路徑預測其各自的元籃球事件??梢宰⒁獾剑@樣的多路徑架構是有益的,因為它允許每個路徑專注于學習單個元籃球概念。相比之下,可以觀察到用單一路徑訓練一個類似的網絡并不能對所有三個元事件產生準確的預測。給定一個裁剪過的視頻,提出的多徑網絡被聯合訓練,從而最小化交叉熵損失,如式(4):
(4)


將4個籃球事件預測在時間維度上分成兩半,并對8個區塊中的每一個進行時間最大池化。然后將所有合并值串聯成一個矢量bt,如式(5):
(5)
1.1.3 高斯混合
為了建立一個有區別但可以概括的表示,構造了一個高度非線性的特征,它可以很好地與線性分類器一起工作。為了實現這些目標,使用高斯混合,將元籃球事件特征轉化為復雜的籃球評估特征。形式上,給定Ts上的向量bt,計算給定視頻片段的視覺時空評估特征如式(6):
(6)

在后面章節,將根據前職業籃球運動員對運動員的比較評估,得出式(1)中的線性權重w。盡量減少以下鉸鏈損耗,如式(7):
(7)


圖2 學習框架說明
對于所有涉及CNNs的實驗,在這里使用了Caffe庫。這兩個網絡都基于DeepLab[7]的架構,經過4 000次迭代訓練,學習率為10-8,動量為0.9,權重衰減為5×10-5,每批30個樣本。元籃球事件網絡內部的LSTM層在視頻輸入中跨越了10個連續幀。元籃球事件網絡中的每個路徑由2個1 024維的核,大小為1×1的卷積層和1個1 024維的LSTM層組成。網絡使用標準數據擴充進行訓練。為了學習權重w,使用了0.001的學習率,并進行了100次迭代的梯度下降優化。
數據集由48.3小時的籃球運動員組成,每段視頻約13分鐘長,由GoPro Hero 3黑色版安裝頭條拍攝。它的記錄速度為1 280×960,每秒100幀。在這兩天里,錄制了48段視頻,每天都有不同的人在播放。使用前24個視頻作為訓練和后24個視頻作為測試。這里以每秒5幀的速度提取視頻幀,得到98 452幀用于訓練,87 393幀用于測試。
在這請一位籃球球員根據一些第一人稱視頻來標注哪個球員表現更好。總共使用500對,250對用于訓練,250對用于測試。注意,在訓練和測試之間沒有球員重疊。
將3個簡單的籃球項目列為:①有人投籃;②持球者持球,③投籃命中。這些是推動籃球比賽的關鍵元事件,分別為這三個事件獲得了3 734、4 502和2 175個注釋。
此外,為了訓練一個球探測器,在5 073張圖像上標記一個球的位置,只需點擊一次這個位置。在這些位置周圍放置一個固定大小的高斯函數,并將其用作基本真實性標簽。在這里通過手動檢查與最大籃球評估模型權重w相關的高斯混合體對籃球活動進行可視化。
圖3中每行描述一個單獨的事件,每列說明事件的時間推移(從左到右),從圖中可知,2個最正的高斯混合分別對應于一個球員的2分球和3分球(前兩排),而最負權重的混合體捕捉了一個球員錯過2分球(最后一行)的事件。

圖3 多個籃球活動的檢測
3.1.1 元籃球事件檢測
在表1中,首先說明元籃球事件檢測任務的結果。根據最大F分數(MF)度量,對預測的元事件概率進行小間隔閾值化,然后計算精度和召回曲線。首先,將模型的預測與最近的幾個第一人稱活動識別baseline[9-11]以及成功的視頻活動識別baseline C3D[8]進行比較。得出結果:對于每個元事件,提出的模型都優于所有這些baseline。

表1 數據集上定量檢測的結果
此外,為了證明提出的模型的設計選擇,在表1中還包括了幾個實驗,研究了多路徑體系結構、LSTM層和放大方案的效果。實驗表明,這些組件中的每一個都是實現元事件識別精度的關鍵,也就是說,當這三個組件都包含在模型中時,系統達到了最佳的性能。
3.1.2 籃球評估結果
在表2中,展示了對測試數據集中的24名籃球運動員的評估結果。為了檢驗方法的準確性,對250對有標簽的球員進行了評估,其中籃球專家提供的標簽表明球員中哪一個更好。對于每個球員,本文的方法產生一個評估指標,指出哪個球員更好(越高越好)。為了獲得準確度,計算了所有250對中正確預測的分數。
由于目前還沒有相關研究,因此對于這項任務,沒有現成的基準。因此,將以下baseline列表作為比較。
首先,包括2個籃球活動baseline:2分球和3分球。實驗中標記數據集中發生這些活動的所有實例,并發現大約100個這樣的實例。請注意,如此少的實例并不是數據集的缺陷,而是本文任務的固有特性。這類籃球活動屬于長尾數據分布,很少發生,因此很難訓練有監督的分類器進行這類此外,為了證明在模型中提出的每個組成部分的合理性,在表2中還包括幾個ablation baselines。首先,研究了高斯混合(GM)和權值的學習過程對能力評估準確性的影響,在這里用本文預測的和真實的元事件來做這件事。實驗表明,在這兩種情況下提出的每一個組成部分都是有益的。此外還觀察到提出的方法對元事件識別錯誤具有很強的魯棒性,當使用基本真實元事件時,其準確度僅比原始模型提高2.8%。

表2 BPA評估結果
活動識別。然后,將LRCN[12]模型訓練為2分投籃探測器,3分投籃探測器。由于訓練數據量很少,在所有情況下,網絡都嚴重過度擬合訓練數據,沒有學習到任何有意義的模式.
當從系統中移除四個元事件中的一個時,實驗也給出了性能評估結果。實驗表明,當使用所有四個元事件時,提出的方法執行得最好,這表明每個元事件都是有用的。最后,作為兩個額外的baseline,在這里手動選擇2個權重最大的高斯混合體,并獨立使用它們的每一個預測(在表2中表示為單個GM-top1,2)。因此可以證明,本文的完整模型優于所有其他基線,因此提出的模型中的每一個組成部分對于準確地評估球員表現至關重要。
3.2.1 BPA實際評估結果
此外,在圖4中,還包含了評估模型如何隨時間變化的更動態可視化。為了做到這一點,隨機選擇4對籃球運動員,提出的模型隨著時間的推移評估每個球員。每對中的紅色圖表示更好的選手,而藍色的圖則表示較差的選手。圖中的y軸說明了對球員第一人稱視頻中特定時間發生的事件的預測性能度量。
此外,在圖5中,還包括了一些短序列的例子,說明了一個球員的行為對他/她的能力評估貢獻最大與對他/她的能力評估貢獻最大的行為。通過選擇第一人稱視頻序列來選擇這些動作序列,第一人稱視頻序列在式(1)的總和中具有最大的正負值(這也對應于圖4中的正負峰)。這些術語描述了每個視頻片段對整個籃球技能評估指標的貢獻。在圖5(b)中,負面事件定義為投籃不進。

圖5 BPA模型檢測的結果

圖4 隨機4名球員的評估結果
需要指出的是,將這些結果包含在圖像格式中是相當困難的,因為圖像是靜態的,它們無法捕獲視頻的全部內容且與原始的480×640視頻相比,論文中的圖像以非常低的分辨率出現,這使得更難理解什么是事件在這些圖像中描繪的。
3.2.2 對特征表示的理解
高斯混合會產生高度非線性的特征表示,為了更好地了解它所代表的內容,分析學習到的權重w,然后手動檢查與w中最大量級權重相關聯的高斯混合。這樣做后,發現當佩戴相機的人分別拍攝2分和3分時,具有最大正權重的2個混合體學習捕捉籃球活動。相反,具有兩個最負權重的混合體表示相機錯過2分鏡頭的活動,以及相機佩戴者的防守者分別進行拍攝的活動。在圖3中,包含了與這些發現的活動相對應的幾個序列。
本文介紹了一個籃球評估模型,從一個球員的第一人稱籃球視頻中評估他/她的表現。研究表明,可以從第一人稱視頻中學習到強大的視覺時空評估特征,然后利用這些特征從弱標記的第一人稱籃球視頻中學習提出的技能評估模型。結果證明,盡管不知道他人的評估標準,但提出的模型能夠準確地評估球員。此外,使用提出的模型可以發現相機佩戴者對其能力評估有積極或消極影響的活動。