劉天彪, Hohmann Andreas, 陳 丘, 雷天悟, 薛 俊
(1.北京師范大學 體育與運動學院,北京100875;2.德國拜羅伊特大學 體育系,拜羅伊特95447; 3.德國波恩大學 發展研究中心(ZEF),波恩D-53113; 4.河北工業大學 計算機科學與軟件學院,天津300401; 5.惠州學院 體育系,廣東 惠州516007)
基于Apriori算法的高水平女足比賽進攻模式
——以2012年“阿爾加夫杯”決賽為例
劉天彪1, Hohmann Andreas2, 陳 丘3, 雷天悟4, 薛 俊5
(1.北京師范大學 體育與運動學院,北京100875;2.德國拜羅伊特大學 體育系,拜羅伊特95447; 3.德國波恩大學 發展研究中心(ZEF),波恩D-53113; 4.河北工業大學 計算機科學與軟件學院,天津300401; 5.惠州學院 體育系,廣東 惠州516007)
為解決足球比賽中“頻繁出現的球員組合”問題,發現足球比賽中球員之間的關系,以數據挖掘為基礎的比賽分析技術開始應用。本研究使用的比賽診斷分析方法改進了以往研究中的算法的數據結構,使之能夠發現與創造得分機會有關的球員或球員關聯,即“最佳球員(組合)”。以2012年“阿爾加夫杯”決賽中的德國女足和日本女足所有技戰術行為發生的時間、區域以及涉及球員等特征為研究對象,利用比賽診斷分析方法對這2支球隊進行診斷分析,發現其“頻繁出現的球員組合”以及和得分機會有關的“最佳球員(組合)”。
女足比賽; 進攻模式; Apriori算法; 數據挖掘; 阿爾加夫杯
Author’s address 1. School of Sports and Physical Education,Beijing Normal University, Beijing 100875, China;2. Institute of Sports Science, University of Bayreuth, Bayreuth 95447, Germany; 3. Center for Development Research, University of Bonn (ZEF),D-53113 Bonn, Germany;4. School of Computer Science & Engineering, Hebei University of Technology, Tianjin 300401, China; 5. Department of Physical Education, Huizhou University, Huizhou 516007, Guangdong, China
比賽分析是訓練科學研究的問題之一,它包含對參賽主體在比賽中表現的診斷和診斷后的分析。沒有科學的診斷,對運動訓練過程的有效控制是不可能實現的[1]。對比賽的診斷基于比賽表現數據,從數據中發現比賽中存在的問題并提出診斷結果,基于診斷結果并結合實際情況對參賽主體進行有針對性的分析。球類比賽的分析與診斷既是賽前訓練的一個重要環節,又是下一輪訓練工作的起點,其在整個球類項目的訓練過程中起著極其重要的作用[2]。長期以來對足球比賽中球員和球隊的觀察和分析大都使用傳統的描述統計方法[3-5],這些方法多采用百分比統計指標,可以在宏觀上描述隊員和比賽,但是足球比賽是比賽雙方相互影響的動態過程[6],僅僅使用百分比進行描述統計的方法無法發現比賽中球員之間的關系,也難以根據分析出的結論協助教練員直接修改比賽安排。
潘昌磊[7]、Li等[8]提出了使用數據挖掘技術對足球比賽的戰術行為進行分析,以期解決尋找“最佳球員組合”的問題;Liu等[9]則應用了購物籃分析技術分析了2011年歐洲冠軍聯賽決賽雙方的進攻行為。以上這些研究均基于Apriori算法,使用這一經典算法的目的在于挖掘現在數據集中的頻繁模式;但是這些研究并未完全解決“最佳球員組合”問題,在足球場上,最頻繁的傳球并不一定是最有效的進攻手段。如在不考慮對手的情況下,后衛和守門員在本方球門區內頻繁地互相傳球并不能創造任何得分機會。故出現頻率很高的組合不一定是“最佳球員組合”,而“最佳球員組合”也并不一定經常出現。
本文將球員與得分機會放在一起進行分析,對經典的Apriori算法進行了修改并建立模型,將結果通過網絡圖(tendency network)進行直觀展示。同時以2012年女足“阿爾加夫杯”決賽德國女足對日本女足為例,使用數據結構改進后的Apriori算法并建立模型,有針對性地分析兩隊“頻繁出現的球員組合”和“最佳球員(組合)”。其中,“最佳球員(組合)”被定義為與攻入進攻三區(前場35 m區域)有關的球員組合或單個球員。研究這類國際頂級女足球隊之間的比賽有助于了解世界女足的最新發展,并為我國女足項目的開展提供參考。
1.1 研究對象 2012年女足“阿爾加夫杯”決賽中所有技戰術行為發生的時間、區域以及涉及球員等特征。
1.2 研究方法
1.2.1 錄像觀察法 使用來自德國足球協會(DFB)技術部門的比賽錄像,2名獨立觀察者使用系統的結構化比賽觀察方法[10]完整記錄整場比賽。本場比賽的視頻為現場的技術人員錄制,經檢查保證所有的技戰術動作能夠被清晰和精確地觀察和回放。
1.2.2 數理統計法 使用SPSS19、Excel2013以及微軟數據挖掘套件等軟件進行數據的存儲與處理。
1.2.3 專家訪談法 電話訪談了北京體育大學張廷安教授、李春滿教授以及浙江大學張輝教授和女足國家隊助理教練員、北京師范大學女足教練員畢妍等專家,對比賽診斷分析有關的理論和實踐進行探討。
1.3 比賽場地 如圖1所示,本文將足球場劃分為30個區域,其中,整個球場被均分為等長的3部分,即前場、中場和后場,每部分長35 m,占整個球場長度(105 m)的1/3,之后確定進攻方向(圖1為從右向左)。
2.1 比賽觀察模型 通過球員觀察系統[11]對比賽進行分析(圖2)。足球是傳球的運動,球員之間通過球的移動被聯系在一起,在比賽中,每名球員都代表一個狀態。比賽就是由雙方一系列控球過程組成的,每一個控球過程被稱作序列(鏈),包含若干個狀態(球員)。序列(鏈)起始于得到控球權,終止于失去控球權。例如,一個控球鏈起始于守門員發球門球,經過若干狀態,最后終止于在對方前場35 m區域內控球權丟失。控球權丟失于射門偏出、傳球失誤或其他情況。

圖1 場地劃分

圖2 球員觀察系統
2.2 數據分析方法
2.2.1 數據記錄、清理和預處理 通過設置在球場主席臺區域的攝像機對比賽進行錄制,球員的技術和戰術行為以及隊員號碼等信息均會被編號并詳細記錄。筆者追蹤球和球員所經過的路徑,記錄他們每一次技戰術行為所處的區域,并記錄在一個控球鏈末端該進攻是否進入了進攻三區(創造了得分機會)。在這一過程結束之后,為了得到需要的結果,數據需要被清理并進行預處理。本文每一個控球鏈保留最后5個狀態,然后進行數據處理。
2.2.2 數據處理 在數據清理和預處理之后,使用數學以及分析性統計方法進行數據文件的分析,在此使用的是基于優化過的Apriori算法。
2.2.3 Apriori算法 足球是團隊項目,球員之間通過傳球產生關聯。每個球隊都會有自己的核心隊員以及相對固定的行為模式或傳球模式,故本文引入Support和Probability(即Confidence)分別表示出現的頻率以及置信度。Support代表一個關聯規則出現的頻率,而Probability代表此關聯規則的強度或效率,計算方法(詳細算法請參考Han J等[12]的方法)如下:
偽代碼如下:
//Data:訓練樣本
//S:Data中的一條進攻序列
//item:S中的一條記錄
//Item:單個序列
//N:待挖掘的序列長度
//Pack_N:序列長度為N的背包
//Count:背包中元素的個數(統計結果)
for(SinData)
{
n=N;for(iteminS)
{
Item.clear();
Item.append(item)
Pack_N.append(Item);
n--;
while(n--)
{
if(item->next)
{
Item.append(item->next);
if(IteminPack_N)
{
Count[Pack_N.find(Item)]++;
}
else
{
Pack_N.append(Item);
Count.append(1);
}
item=item->next;
}
}
}
}
2.3 數據的有效性 在2名獨立觀察者通過球員觀察系統分別對比賽進行統計之后,進行了Cohen’sKappa檢驗,結果為κ=0.53(對于球員系統)。這一結果表明,球員比賽觀察系統具有較好的客觀性,統計數據可以用于分析研究[13]。
3.1 德國女足上半場比賽 表1顯示了德國女足上半場球員之間的典型關聯,這些關聯的頻率和強度分別用Support和Probability值表示。其中,德國女足14號、4號以及進球機會組合出現在同一個進攻鏈中的頻率是1.45%;但是,當在一個進攻鏈中同時包含14號和4號隊員時,該進攻鏈能創造得分機會的可能性是86%,即86%的可能性進入前場35 m。這是一個比較高的值。同樣,當13號隊員和7號隊員共同出現時,創造得分機會的可能性為83%。

表1 德國女足上半場球員關聯
圖3顯示的是根據計算出的關聯規則結果得到的德國隊上半場進攻趨勢的關聯網絡圖,它不僅可以直觀地反映球員之間的一般關聯,而且可以反映比賽中重要的關聯。圖3中有3種箭頭:虛線箭頭表示一般的球員關聯[14],可以看出德國女足所有隊員的一般關聯;黑色箭頭表示球員之間的強關聯,而最粗的黑色箭頭則表示非常強的、與創造得分機會有關的球員之間的聯系。由圖3可見,德國女足在上半場是活躍的、能夠創造得分機會的隊員以及這些進攻主要來自左路的4名球員(4號、14號、13號和7號)之間的聯系,包括20號→4號、13號→4號、7號? 4號,還有13號? 7號以及4號? 14號。其中重要的、能夠創造得分機會的關聯為13號? 7號以及4號? 14號,這類關聯需要在后面的比賽中提高使用頻率。盡管關聯規則7號? 4號出現頻率很高,但是該規則的強度并不高,因為其與創造得分機會幾乎無關。

圖3 上半場德國女足進攻趨勢關聯網絡
3.2 德國女足下半場比賽 表2顯示了德國女足球員在下半場比賽中的關聯規則以及規則的頻率和強度,17號、2號球員以及進球機會共同出現在同一個控球鏈中的可能性是1.96%,而當2號和17號球員同時出現在一個控球鏈中時,在該控球鏈中出現進球機會的可能性為71%。同樣當9號和2號隊員同時出現時,接下來出現球進入前場35 m區域的可能性達到71%。

表2 德國女足下半場球員關聯
德國女足在下半場比賽中的表現如圖4所示,可以看出德國隊的一般關聯較上半場頻率少,并且比較分散。強關聯有7號? 9號以及 4號→7號,均與左路7號隊員有關,而能夠創造得分機會的關聯均與右路2號球員有關,2 號? 9號和2號? 17號。這就產生了一個矛盾,出現頻率較多的左路強關聯并沒有與創造得分機會的右路強關聯產生聯系,即德國女足在下半場的進攻主要是左路,然而效率并不是很高;相反,雖然右路的進攻數量較少,但是效率更高。同時也可以看到德國女足隊員之間在下半場的橫向聯系較少,尤其是中場。
3.3 日本女足上半場比賽 日本女足在上半場受德國女足壓制,從表3可以看出,日本女足在上半場只有為數不多的與攻入對方危險區域有關的關聯,分別是7號→35和17號→35,支持度分別是1.49%和1.24%,強度分別只有43%和42%。
這一結果意味著日本女足在上半場比賽中整體處于下風。通過反應關聯規則強度的Probability值可以看到,日本女足進入前場35 m區域的機會較少。反之,在上半場日本女足的進攻鏈中有一些典型的球員組合,只要出現這些球員,那么這次進攻有較大的可能無法進入對方危險區域內,特別如表4中的規則1:當日本女足6號和13號同時出現在一條進攻鏈中,那么可以確定這次進攻100%無法進入前場35 m(36代表沒有進入前場35 m區域)。

圖4 下半場德國女足進攻趨勢關聯網絡

表3 日本女足上半場球員關聯(1)

表4 日本女足上半場球員關聯(2)
由圖5可以看出,日本女足在中后場的傳球和右路傳球頻率較高(虛線箭頭代表日本女足控球的一般關聯),但是在圖4中并沒有強關聯和創造得分機會的關聯,說明日本女足并未通過球員之間的配合獲得良好的得分機會。

圖5 上半場日本女足進攻趨勢關聯網絡
3.4 日本女足下半場比賽 從表5可以看出,日本女足下半場比上半場有更多的和攻入前場35 m有關的球員組合,這些關聯規則有9號? 17號、8號? 9號、8號? 17號以及9號? 13號。這些組合都意味著在包含這些球員的控球鏈中,有超過60%的機會攻入對手的防守三區。此外,日本女足9號隊員與創造得分機會一起出現在同一個進攻鏈的概率占所有進攻鏈總數的4.58%,說明在下半場其9號隊員非常活躍。

表5 日本女足下半場球員關聯
日本女足在下半場更換了球員并改變了陣型,球員之間出現了更多的關聯。圖6所示為日本女足下半場的比賽情況,球員之間的一般聯系更多,并且橫向聯系加強,同時出現了強關聯以及和得分機會相關的重要關聯(9號? 17號、8號? 9號、8號? 17號),這些球員之間的重要關聯構成了下半場日本女足的進攻三角,這些球員之間的關系總是能和攻入對手防守三區并帶給對手威脅相聯系。

圖6 下半場日本女足進攻趨勢關聯網絡
足球比賽以傳球為主要的比賽方式,故在球場上最重要的是球員間的關聯。本文提出了一種新的足球比賽表現分析的方法和手段,該方法基于Apriori算法,并在應用算法進行計算前對數據進行了清理和預處理。分析了2012年女足“阿爾加夫杯”決賽德國隊與日本隊的比賽,得出了球員觀察系統的關聯規則,找出了“最佳球員組合”以及“頻繁出現的球員組合”,其中,“頻繁出現的球員組合”這一結果得到了以往研究[14]的支持。
在本研究中,首先定義了得分機會的概念,進球數與前場控球率有非常顯著的相關性[15]。現代足球的發展使得在前場35 m區域內(進攻三區)射門得分的概率越來越大;因此,當一方球隊的進攻進入了前場35 m區域,就意味著極有可能取得進球,即攻入35 m區域是加大進球概率的前提,因此將得分機會定義為控球鏈進入前場35 m。
有研究表明,在本方獲得控球權后,進球的概率隨傳球次數的增多而下降,在5次傳球之后進球的概率很小[16-18]。本文認為,控球鏈的終止也與其前5步之內的狀態關聯度更高,故本文對已有的Apriori算法進行了修改,縮短了控球鏈的長度,目的是使購物籃模型中的球員和得分機會之間的關聯度更高。
本文將球員與事件(創造得分機會)放在一起進行數據挖掘,這樣不但可以發現“頻繁出現的球員組合”,同時也可以發現球員或球員組合與得分機會的關聯。頻繁與得分機會產生聯系的球員或球員組合一定是在進攻中最有效率的“最佳球員組合”(即教練員需要在比賽中發現的核心球員或核心球員組合)。在進行數據挖掘時,須盡可能尋找既頻繁又高效率的組合,并將信息提供給教練員。
基于Apriori的數據挖掘算法對2012年女足“阿爾加夫杯”決賽雙方球隊的進攻模式進行了分析,上半場德國隊位于左路的球員(4號、7號、13號、14號)制造了更多的進攻并得分的機會,典型的和創造得分機會有關的球員組合為14號和 4號,13號和7號;而下半場德國隊只有右邊后衛(2號)與創造得分機會有關。反之,在德國隊的壓力下,日本隊上半場的進攻效率不高,很少出現高效率的進攻模式;下半場日本隊更改了比賽陣型、調整了球員位置,打出了更多的進攻,并創造出了更多的得分機會。特別是日本隊前場3名球員(8號、9號、17號)互相之間的聯系是日本隊下半場多次威脅德國隊后防的重要原因。這也是日本隊下半場進攻的主要模式。
近年來,隨著中國足球水平的提升,各種足球數據相關的分析軟件和視頻軟件也逐漸被應用于國內比賽中,如中超聯賽使用的Amisco?等,教練員也意識到了數據對于球隊的重要性;但是對于數據的利用目前還是短板,數據的價值還未被完全體現。教練員需要的正是數據背后的信息,對數據進行挖掘則可以發現這些信息,幫助教練員更好地使用數據和分析比賽。
數據挖掘應用于體育比賽的研究是一個新興的領域,故算法和數據結構需要不斷改進以模擬真實比賽,進而優化比賽分析;此外,在視頻分析中,如果有更加清晰的錄像,比賽診斷分析的結果將更加理想。
[1]田麥久.運動訓練學[M].北京:人民體育出版社,2000:73
[2]張輝,霍赫曼·安德烈亞斯.球類比賽數學模擬競技診斷的理論與實踐——以乒乓球比賽分析為例[J].體育科學,2005,25(8):39-44
[3]全濤,孫雪翰.2008年中國足球超級聯賽成績與技術統計的因子分析[J].數理統計與管理,2011,30(2):370-380
[4]Bangsbo J,Reilly T,Hughes C.Science and football[M].Spon Press,1997:209-266
[5]Alcock A.Analysis of direct free kicks in the women’s football World Cup 2007[J].European Journal of Sport Science,2010,10(4):279-284
[6]Camerino O F,Chaverri J,Anguera M T,et al.Dynamics of the game in soccer:Detection of T-patterns[J].European Journal of Sport Science,2012,12(3):216-224
[7]潘昌磊.Apriori算法在足球技戰術分析中的應用[J].電腦知識與技術,2010,31(6):8835-8837
[8]Li Y,Luo H,Luo J.Research on data mining technology in football tactics[J].Advances in Information Sciences & Service Sciences,2012,4(10):374-381
[9]Liu T,Hohmann A.Applying data mining to analyze the different styles of offense between Manchester United and FC Barcelona in the European Champions League Final[J].International Journal of Sports Science and Engineering,2013,7(2):67-78
[10]Lames M.Systematische spielbeobachtung[M].Münster:Philippka,1994:6-7
[11]Liu T,Hohmann A.Applying the markov chain theory to analyze the attacking actions between FC Barcelona and Manchester United in the European Champions League Final[J].International Journal of Sports Science and Engineering,2013,7(2):79-86
[12]Han J,Kamber M,Pei J.Data mining:Concepts and techniques[M].Amsterdam:Elsevier,2011:246
[13]Landis J R,Koch G G.The measurement of observer agreement for categorical data[J].Biometrics,1977:159-174
[14]Liu T,Hohmann A,Castro C,et al.Systematische spielanalyse im frauenfu?ball - finale des algarve cups 2012 Deutschland - Japan[J].Zeitschrift für Angewandte Trainingswissenschaft,2014,21(2):172-193
[15]Bate R.Football chance:Tactics and strategy[J].Science and Football,1988:293-301
[16]Anderson C,Sally D.The numbers game:Why everthing you know about football is wrong[M].London:Penguin UK,2013:173
[17]Garganta J,Maia J,Basto F.Analysis of goal-scoring patterns in European top level soccer teams[J].Science and Football III,1997:246-250
[18]薛俊,李陽,郭長久.第18屆世界杯足球賽決賽階段各隊進攻進球特征研究[J].中國體育科技,2007,43(1):36-40
Apriori-based Performance Analysis on Offense Models of Elite Women’s Football Games: A Case Study of Algarve Cup 2012
LIU Tianbiao1, Hohmann Andreas2, CHEN Qiu3, LEI Tianwu4, XUE Jun5
In order to find out the "frequent player combinations" and connections between players in a football match, the data mining-based football game research has recently been developed. The performance analysis of this study based on updated data structure of previously used Apriori algorithm can help to identify a player or players in relation to chances of scoring. With a focus on time, zones, and related players of all the tactics and techniques of both teams in the final game of Algarve Cup 2012, the paper directed a performance analysis and found the "frequent player combinations" as well as the "Best players (combinations)" with chances of scoring.
women’s football games; offense models; Apriori; data mining; Algare Cup
2016-06-10;
2016-09-05
教育部留學回國人員科研啟動基金資助項目;中央高校基本科研業務費專項資金資助項目(北京師范大學青年教師基金資助項目,SKXJS2014013)
劉天彪(1983-),男,河北秦皇島人,北京師范大學講師,博士;Tel.:15901019831,E-mail:LTB@bnu.edu.cn
薛俊(1963-),男,安徽合肥人,惠州學院教授,中國足協職業聯賽比賽監督;Tel.:13692824942,E-mail:13692824942@163.com
G843
A
1000-5498(2017)01-0077-06
DOI 10.16099/j.sus.2017.01.013