林慶陽 孫海濤 續衍法



在足球比賽中,射門進球是決定比賽勝負的關鍵。然而為球隊打破僵局的第一進球、鎖定勝局的進球與錦上添花的進球價值顯然不同。區別于簡單依靠進球個數的進失球、射手榜等數量統計,本文基于2012-2018中超聯賽歷史數據,通過分類匯總、曲線擬合等方法量化表示足球比賽進球與積分的關系,并以2018賽季中超聯賽進球數據為例,分析不同進球所獲得的積分,進而量化球隊鋒線球員為球隊帶來的進球價值貢獻。
1 引言
隨著足球世界的相互交流和融合,足球比賽攻防轉換速度加快,對抗越來越激烈。射門進球作為攻防的焦點,是足球比賽最直接的表現方式,決定一場比賽的勝負。在現代職業足球一場比賽中一支球隊最常見的分數就是1,其次是0,即在一場比賽中攻入數粒進球是相當不容易的,所以進球才令人欣喜若狂。因此,人們熱衷記錄、反復計算和比較總進球、場均進球、凈勝球、射手榜等與進球相關的數據指標,并從多個維度進行詳細的數據統計研究。
目前,在足球比賽進球研究方面,國內外文獻大部分聚焦在進球特征分析方面。賀斌等人通過文獻資料法、錄像統計法對2013賽季中超聯賽的射門和進球方式、身體部位、距離、時間和區域5個方面特征進行分析研究。鐘云越等人在此基礎上對2018賽季中超聯賽進球特征進行分析。周哺心采用文獻資料法、專家訪談法、錄像分析法和數理統計法對以及邏輯分析法對2014-2017賽季歐洲冠軍聯賽皇家馬德里隊的共計38場比賽的射門及進球情況進行了研究。胡俊則對第21屆世界杯足球賽決賽階段169粒進球的進球數量、進球時間、獲得球權方式、進球前傳遞次數與傳遞時間、進球前最后一傳方式與屬性、進球球員場上位置、射門方式、射門部位、射門區域與球進門區域等特征進行統計分析。
近年來,隨著信息技術的迅速發展,云計算、超算等技術的應用普及,以大數據為核心的信息處理和分析技術在眾多行業領域深化應用,促進了行業技術發展水平的飛速提升。目前,在信息化較早、數據積累較多的行業,如互聯網、電信、金融等領域,大數據技術已經顯示出對行業發展的重大影響。如何合理利用大量數據進行競技體育分析是近年來關注的熱點。
足球是世界上非常受歡迎的運動之一,在全球范圍內吸引了眾多的參與者。成千上萬的職業足球運動員參與到專業的足球比賽中,許多重大的足球賽事(如國際足聯世界杯等)受到數以百萬計的球迷的關注。足球比賽數據主要包括統計數據、事件數據和軌跡數據等。在足球比賽中,統計數據可以細分為球隊統計數據和球員表現統計數據。其中,針對球隊的統計數據主要包括每場比賽的進球數、失球數、射門次數、犯規次數、紅黃牌次數、角球次數、撲救次數等,以及每場比賽后球隊的凈勝球數、球隊積分、球隊排名等。針對球員的統計數據主要包括出場次數、出場時間、球員位置、進球數、助攻數、紅黃牌次數、跑動距離、高強度跑距離、沖刺跑距離等。
在足球比賽中,積分和進球二者之間有密切的聯系。為球隊打破僵局的第一進球、鎖定勝局的進球與錦上添花的進球為球隊帶來的積分顯然不同。因此,衡量每個進球為球隊帶來的積分可以針對性的量化進球價值。本文首先對大量的中超歷史進球數據進行分類匯總,換算得出不同進球數與積分的關系,進而基于中超歷史數據進行積分與進球關系多項式曲線擬合,具體計算得出每個進球所對應的積分,最后再進行球隊鋒線球員進球價值分析。
2 分析方法
2.1 分類匯總
分類匯總用于交叉性研究,將變量按照一定規則進行分組匯總。在日常工作中,我們離不開要整理匯總數據,分類匯總就是快速解決這一問題的最好方法。結合自變量x的放置情況以及匯總類型的選擇情況,分為四種情況,如表1所示。
Excel中的數據透視表是個交互式的透視表,具有最快、最靈活的數據匯總功能,可快速合并和比較大量基礎數據,且可以旋轉行、列以查看基礎數據的不同匯總結果,還可顯示用戶感興趣部分的明細數據等。首先按照列屬性整理需要處理的基礎數據表,創建“數據透視表”框架,然后在創建的“數據透視表”框架中添加需要分類匯總的 內容則可以進行簡單數據項匯總和多重數據項匯總。
2.2 多項式曲線擬合
最小二乘法(又稱最小平方法)是一種數學優化技術。它通過最小化誤差的平方和尋找數據的最佳函數匹配。利用最小二乘法可以簡便地求得未知的數據,并使得這些求得的數據與實際數據之間誤差的平方和為最小。作為一種比較常用的曲線擬合方法,最小二乘法經常應用在科學研究和工程技術領域內,處理實驗數據并確定變量之間的關系,所謂“擬合”就是找到數據的基本趨勢,而不要求所作的曲線完全通過所有的數據點,其中應用最為廣泛的是多項式擬合。
從本質上講,多項式曲線擬合也是一個廣義的線性模型,其數學表達式為:
(式1)
其中M是多項式自變量的最高次數,xj代表的是x的j次冪,? 是xj的系數。
假設樣本的數目為N,則對于每一個樣本xn,其對應的輸出為tn,用平方誤差和作為損失函數,那么損失函數可以表示為:
(式2)
當式2損失函數達到可以接受的誤差范圍得到的多項式即滿足條件的多項式。
3 分析實例
為考慮中超聯賽每個進球的價值,我們首先匯總中超聯賽2012-2018賽季的場均進球數及其對應的積分,分析不同進球數與積分的關系,直觀量化不同進球的價值。隨后計算出每個進球對應的積分值,用于計算2018賽季中超聯賽鋒線球員在一個賽季中的進球為球隊貢獻的積分。
以[賽季,場次,球隊,進球,積分]為數據項屬性整理2012-2018賽季中超2880條數據,利用Excel中的透視表匯總得出每個進球下的平均積分,如表2所示。對表2數據進行多項式擬合,得出的多項式函數F曲線如圖1所示。
結果顯示,在2012-2018賽季中超聯賽的一場比賽中一個進球基本相當于得到一個積分,打入兩粒進球后贏球概率更大。相對于一粒進球,打入三個進球并不能帶來三倍的積分。根據球隊已經完成的進球數的不同,每個進球的積分轉化率是大相徑庭的,具體結果如圖2所示。
通過積分與進球曲線換算2012-2018賽季中超聯賽每一個進球產生的相應的積分(如上圖),結果表明第一粒進球和第二粒進球通常被視為關鍵進球;第三粒進球可以換取0.67個積分,也是非常重要的;包括第四個進球在內的更多進球則只能換取不足0.4個積分,球隊的第五粒進球只能換取大約0.15個積分。
通過分析足球比賽中每個進球影響力不同可知簡單以進球數衡量射手價值的方法存在局限性。本文根據比賽中每個進球貢獻積分,計算2018賽季中超聯賽中每個進球球員為球隊所貢獻的積分。按照[輪次,球隊,第幾個進球,進球球員姓名,是否為烏龍球]數據屬性匯總2018賽季所有球隊的所有進球,刪除烏龍球數據后按照每個進球的積分進行本賽季球員進球積分/價值計算,得出的賽季進球價值積分榜如表3所示。
結果表明,2018賽季中超聯賽上海上港隊的武磊不僅在進球數上最多,而且為球隊創造的積分也最多。其次為球隊貢獻積分較多的射手是長春亞泰的伊哈洛和廣州富力的扎哈維。
進球數量相同的射手進球價值積分卻可能相差較大。進球數為16的射手中,山東魯能泰山隊的佩萊比廣州恒大的塔利斯卡高出3.51分。進球數為13的射手中,江蘇蘇寧的特謝拉獲得了12.05個積分,廣州恒大的高拉特的10個積分,上海上港的胡爾克和廣州恒大的保利尼奧約獲得9.7個積分,而廣州恒大的阿蘭僅獲得9個積分。2018賽季為上海上港的攻入12球的奧斯卡只獲得8個積分,未能躋身這份榜單。
(作者單位:1.國網山東省電力公司體育文化分公司;2.山東魯軟數字科技有限公司)