全濤
足球在《運動訓練學》項群訓練理論中屬于技能主導類同場對抗性運動項目,其評定方法屬于命中類項目[1],進球的結果直接影響著比賽成績的好壞[2]。在現代足球的發展歷史上,歐洲足球五大聯賽代表世界足壇的頂尖水平,引領世界足球運動的發展方向。進球的特征和規律,從一定程度上體現職業聯賽足球技戰術打法體系的形成與革新,同時反映國家地區的足球水平和民族精神的文化特色。
近些年,統計學方法在足球相關研究中的運用逐漸增多,從簡單的計量統計,到卡方檢驗、t檢驗,再到復雜的回歸分析、因子分析[3]。時間序列分析是數理統計中的一個重要分支,主要通過隨機過程理論和數理統計方法來揭示數據的特點和規律,構建不同的模型和未來預測,以解決社會生活中的實際問題。通過中國知網關于“時間序列分析”的計量可視化分析結果表明:(1)發文量在近20年出現逐年遞增的趨勢,并在近10年保持穩定的狀態;(2)主題分布在時間序列、數學模型、ARIMA模型、實證分析、小波分析等;(3)學科分類主要集中在數量經濟、數學、金融、計算機、地球物理、測繪、環境、臨床醫學、公共衛生與預防醫學、國民經濟、控制工程、大氣、交通運輸、區域經濟與農業經濟上。總之,時間序列分析已經廣泛運用于各個領域,吳懷宇認為它在經濟領域的研究和應用一直很活躍,并擴展到社會、氣象、水利、交通、信息、農業、工業、教育等領域[4]。張美英和何杰強調時間序列的研究在理論及應用中都取得了極其豐碩的成果,但還有待于完善其理論及開辟新的應用領域,對于實際數據來說,沒有最好的模型,只有最適合的模型,新時間序列模型的建立仍然是今后學者要繼續研究的問題[5]。在體育方面,張小龍從理論的角度討論了其可行性,通過實例分析進一步證實了在體育中應用時間序列分析的優越性[6];任波和戴俊通過時間序列計量分析我國城鄉居民消費支出與體育產業發展的互動關系[7];辛馳和趙雪晴通過SAS和E-view對NBA球員林書豪進行了實例分析,建立時間序列模型并定量評價[8];陳頗等人先后運用了時間序列分析方法,研究中國體育事業財政投入與經濟增長的關系[9-10]。總之,時間序列分析具有足球賽事數據研究的可行性,既可以通過數據直觀分析其特點,又可以豐富足球運動訓練理論體系。
本文按照時間序列分析的方法對歐洲足球五大聯賽進行多項賽事的模型構建與趨勢預測,客觀探索高水平足球比賽進球的特點和規律。
歐洲足球五大聯賽2000—2001賽季至2016—2017賽季的場均進球。
1.2.1 文獻資料法
通過電子資源數據庫查閱了有關時間序列分析、足球比賽進球分析的論文30余篇,閱讀學習了《時間序列數據分析》《世界優秀統計工具SPSS-高級篇》《應用統計學》相關教程與學術著作[11-15],并在足球數據庫網站上查找了關于歐洲足球五大聯賽進球的數據統計與評論文章。
1.2.2 數理統計法
通過500彩票網[16]和足球之夜數據庫[17]收集了歐洲足球五大聯賽2000—2001賽季至2016—2017賽季共17年的年場均進球數據,并逐一核對,確定原始數據庫。利用SPSS22.0軟件在計算機上對數據進行了時間序列分析,構建歐洲五大聯賽的進球ARIMA模型并預測。
1.2.3 對比分析法
在數理統計的基礎上,利用比較分析、邏輯歸納等對歐洲五大聯賽的進球特征進行分析。
首先把數據錄入到SPSS中(見圖1),共有1個字符串型“賽季”、5個數值型“進球”變量,其中數值保留兩位小數。

圖1 歐洲五大聯賽進球數據集(2000/2001—2016/2017)Figure 1 Goal Data of the Big Five European Football Leagues(2000/2001-2016/2017)
由于歐洲足球五大聯賽受到地中海氣候或海洋性氣候的影響,賽制實行跨年度舉行,如“2001—2002賽季意大利足球甲級聯賽”這一稱謂,因此軟件系統或者分析中的“2000年”等同于“2000—2001賽季”,其他依次類推。
2.1.1 離群點的檢驗
離群點是指一個時間序列中,遠離序列一般水平的極端大值和極端小值。而形成離群點的系統外部干擾是多種多樣的,可能是采樣中的誤差,也可能是被研究現象本身由于受各種偶然非正常的因素影響而引起的[18]。為此,運用SPSS對五大聯賽17個賽季的場均進球進行了探索性分析,用箱圖檢驗離群點,以便提高構建模型的準確性(圖2)。

圖2 進球數據箱圖Figure 2 Goal Data Boxplot
從圖2可以看出,法甲、英超不存在離群點,德甲、西甲、意甲存在離群點現象。由圖1數據對應后得到:德甲 2013年數值 3.16,西甲 2005、2006年數值2.47、2.48和 2016年數值 2.94,意甲 2016年數值2.96,共計5個數值存在不同程度的離群。
2.1.2 平穩性的判定
時間序列分析的前提條件是數據必須具有平穩性特征,在統計學上可以運用序列圖觀察和自相關、偏相關分析圖判定時間序列平穩性[19]。為判斷該數據是否平穩,原始數據的序列圖包含5個變量。
從圖3可以看出,從2001—2002賽季開始不同程度的出現下滑現象,2005—2006賽季逐漸回升,在2009—2010賽季開始處于2~3年的平穩狀態,之后隨著球員轉會自由市場和足球商業化的日益發展,五大聯賽進球對比日益縮小。

圖3 歐洲足球五大聯賽進球序列圖Figure 3 Goal Sequence Diagram of the Big Five European Football Leagues
2.2.1 序列圖
從原始序列圖(3)來看,場均進球數隨著時間的推移在起初下降后逐步上升,該序列線性特征明顯。現對五大聯賽的原始數據進行1階差分,序列圖(4)圍繞均線上下波動,狀態基本平穩,差分效果良好。

圖4 歐洲足球五大聯賽原始數據與1階差分序列對比圖Figure 4 Comparison of the Raw Data and 1st Order Difference Sequence in the Big Five European Football Leagues
2.2.2 自相關與偏自相關分析
為了更好地把握五大聯賽進球特點,通過自相關系數(ACF)、偏自相關系數(PACF)分析圖進一步識別模型和目標序列定階。運用SPSS對數據進行了自相關分析,輸出結果如圖5。

圖5 歐洲足球五大聯賽進球自相關與偏自相關分析圖(0,1)Figure5 Analysis of Autocorrelation and Partial Autocorrelation of Goals in the Big Five European Football Leagues(0,1)
總體上隨著延遲數目的增加,自相關系數并沒有顯著的趨近于0,且有近一半數值落在了置信區間之外,同時,偏自相關系數也逐漸減弱,說明該時間序列并非平穩。為了更好確認數據的平穩性,對原始數據進行1階差分處理,得到自相關系數、偏自相關系數大多數進入置信區間。
2.2.3 假設檢驗
假設 H0:原始時間序列 Xi平穩,H1:序列 Xi不平穩;采用顯著性格水平α=0.05進行檢驗。從表1來看,原始數據P<0.01,具有很強的顯著性差異,則拒絕H0假設接受H1假設,證明該數列不平穩;進行1階差分后,P>0.05,相反則接受H0假設判定該數列為平穩序列,且數值逐漸增大總體態勢為上升,與序列圖的分析一致。
這里只列出法國足球聯賽自相關和偏相關函數的Box-Ljung統計量情況,其他聯賽可以采用類似的方法確定其初步模型。
2.2.4 p,q取值
Box-Jenkins方法是根據時間序列模型ACF和PACF圖的識別規則,建立相應的ARIMA模型[20]。序列ACF、PACF性質及其與模型參數之間的關系[21],整理如表2。
依據函數特征表的識別規則,對五大聯賽ACF、PACF函數分析圖進行了詳細分析,統計了1階差分后的ACF和PACF落在置信區外、內的數量,并對非常接近的特殊分布作了不確定、可能認定,用來初步識別模型,分布和模型情況。
由表3得到初步模型,其中德甲為ARIMA(0,1,3)或 ARIMA(2,1,3),法甲為 ARIMA(0,1,0)或ARIMA (0,1,1),西 甲 為 ARIMA(1,1,2)或 ARIMA(1,1,3),意甲為 ARIMA(0,1,1)或 ARIMA(0,1,2),英超為 ARIMA(1,1,1)或 ARIMA(1,1,2)。 值得注意的是,在這個過程中,充分考慮了離群點(值)的影響,運用加權的方法將特定的時間點作為離群值來建模。

表1 法甲進球自相關和偏相關函數對比表(原始與1階差分)TableⅠComparison of the Autocorrelation and Partial Correlation Functions of the French Armor Goals(Raw and 1st Order Difference)

表2 零均值平穩序列的自相關函數和偏自相關函數特征表Table II Characteristics of Autocorrelation Function and Partial Autocorrelation Function of Zero-mean Stationary Series

表3 歐洲五大聯賽進球ACF、PACF分布和p,d,q取值一覽表(1階)Table III List of ACF,PACF Distribution and p,d,q Values of Goals in the Big Five European Football Leagues(1st Order)
運用SPSS22.0軟件計算,得到五大聯賽的模型結果分析見表4。
模型的適用性檢驗按白噪音獨立性檢驗準則,其基本思想是:若由估計模型擬合的殘差純粹由干擾產生,則該模型是適用的,可用于外推預測;否則,估計模型不合適[22]。為此,對進球殘差自相關和偏相關進行了檢驗,結果如圖6。
通過建立ARIMA模型對歐洲足球各大聯賽的均進球數據進行擬合,并對2017-2020賽季的進球數值進行了結果預測,形成模型擬合及預測圖(圖7)。
同時,根據命令輸出了2017—2020年的預測值、UCL、LCL值詳見表5,以供參考。

表4 歐洲足球五大聯賽進球模型參數表(d=1)Table IV Goal Model Parameter Table of the Big Five European Football Leagues(d=1)

圖6 歐洲足球五大聯賽進球殘差自相關和偏相關檢驗圖Figure 6 Autocorrelation and Partial Correlation Test Card of Goal Scores in the Big Five European Football Leagues

圖7 歐洲足球五大聯賽進球模型及預測圖(2017—2020)Figure 7 Predicted Value of the Goal Model of the Big Five European Football Leagues(2017-2020)

注:對于每個模型,預測都在請求的預測時間段范圍內的最后一個非缺失值之后開始,在所有預測值的非缺失值都可用的最后一個時間段或請求預測時間段的結束日期(以較早者為準)結束
在體育運動項目的模型構建過程中,原始數據本身具有隨機性,非穩定性特征比較常見,這就需要采用合適的方法進行序列分析,以保證研究結果的正確性。前期對離群點的分析和平穩性的判定非常重要,否則會直接影響模型的擬合精度,得到一些虛假的信息,對后續的時間序列分析會造成一定影響。
對“五個離群點”的進一步分析發現:德甲2013年場均3.16個進球,說明德甲保持較高的場均進球,一直是崇尚進攻的聯賽。西甲2005和2006年出現的2.47、2.48兩個最低的進球數值,原因在于那個時期西甲球員出現新老交替,進攻能力下降;意甲2016年的場均進球為2.96,這與意甲改變傳統保守的技戰術打法有關。另一方面,從進球序列圖的走勢來看,表現出單一賽事不同時期的波動性和不同賽事之間的橫向差異性特征。五大聯賽場均進球的數據隨著時間的推移上下波動,并有上升的趨勢。在作時間序列分析時,首先初步判斷該序列的穩定性特征,如果不穩定需要對數據進行自相關函數、偏相關函數、特征根的檢驗,采取1階或2階差分處理,直至數據平穩,才能繼續進行模型的識別,以期構建合理的模型和預測,探索歐洲足球五大聯賽的進球特點和規律。路云亭把第五種足球描述為“盛傳于世界各地且帶有本民族文化傳統意味的多元化的足球”[23],筆者認為歐洲五大聯賽具備不同的差異,反映著一個國家的民族精神和區域文化特色。如法甲最講究“思想性”與“公平性”,其競爭力有待于提升;意甲受到經濟的影響較大,表現出傳統保守的特點;英超的商業化最為成熟,比賽更加注重身體對抗、比賽節奏較快,觀賞性高;西甲聯賽注重技術與進攻,具有很強的觀賞性;德甲的民族特點突出,注重整體配合。
由于足球比賽中的場均進球序列不存在季節性周期趨勢,這里的模型識別沒有考慮季節問題。在模型識別時,則是通過序列圖和自相關與偏相關的1階差分處理,為的是保證數據的平穩性,使ACF和PACF進入95%的置信區間,進一步確定d=1,同時為下一步的參數估計做好準備。
在這里需借助于自相關函數(ACF)和偏自相關函數(PACF)以及其相關分析圖來識別時序特性,如法甲(表1)運用BOX-JENKINS預測法假設檢驗,采用顯著性格水平0.05進行1階的前后對比檢驗,統計量由小于0.01到大于0.05,表明效果良好,證明這一方法的可行性。在確定p,q值時,需根據自相關函數(ACF)和偏自相關函數(PACF)圖的拖尾、截尾兩個特征,內外部的分布情況,參數之間的關系3個方面,初步建立相應的ARIMA模型。運用SPSS軟件的“分析—預測—創建模型”命令,自動輸出的統計量和相關信息,包括平穩的(R方)、離群值、參數估計、SE、t、Sig。 主要是通過比較平穩的 (R 方)、P值、觀測值和擬合值的曲線擬合度情況,來確定各大聯賽的最終進球模型。分析如下:德甲:平穩R方分別為 0.715和 0.707,P值分別為 0.966和 0.866,第一個模型的兩項數值比第二模型高,所以模型定為ARIMA (0,1,3)。法甲:兩個模型的常數估計值為0.008和 0.010,P值分別為 0.605和 0.776,ARIMA(0,1,0)擬合度高于 ARIMA(0,1,1),加上 R 方相差不大,取 P值為 0.776,模型確定為 ARIMA(0,1,0)。西甲:因ARIMA(0,1,2)迭代在優化期間不收斂,可能不可靠數據放棄。另兩個模型的平穩R方分別為0.404和0.362,P值分別為0.474和0.696,結合模型的擬合情況確定為ARIMA (1,1,3)。同樣的方法推斷意甲模型為 ARIMA(0,1,2),英超模型為ARIMA(1,1,2)。
通過自相關和偏相關的殘差檢驗表明,數值都落在95%置信區間內,與0無顯著差異,模型的檢驗效果比較好,所以殘差通過白噪聲檢驗,由此診斷模型是可行的,可用于短期預測。
從預測圖(圖7)左側可以看出,進球序列上整體上成波動狀態,擬合值和觀測值曲線在整個區間整體上擬合情況良好,擬合值的波動非常接近實際觀察值波動性。從參考線右側預測了2017—2020賽季的場均進球態勢,其中德甲趨于緩慢下降,法甲繼續穩步上升,西甲處于上下波動、上升趨勢,意甲趨于穩定,英超則呈上下波動、下降趨勢。當然,這只是單純數據的預測,不排除有其他特殊因素的影響,在前期“進球數量穩定特征”[24]的研究結論有所論述,即在常態下,場均進球應該是一個比較平穩的狀態,不會有很大的波動,當然不排除特殊情境(爭冠、降級、出線等)的影響。總之,由于足球運動是攻守平衡的一項同場對抗項目,進球總體上應該趨于穩定狀態,介于 2.5~3.0之間。
4.1足球在 《運動訓練》學具有技能和命中的雙重屬性,決定了進球是多種技戰術相互作用的結果,在現有足球規則倡導進攻的條件下,場均進球較少,有穩定增加的態勢,這符合足球競技體育項目的發展規律。
4.2歐洲五大聯賽的進球特征表現出單一賽事不同時期的波動性和不同賽事之間的橫向差異性。波動性主要是隨著時間的推移上下波動,并有上升的趨勢;差異性反映不同國家的民族精神和區域文化特色,從進球曲線表現上,依次為:德甲、西甲、英超、意甲、法甲。
4.3在建模的過程中,要充分考慮離群值、數據平穩性問題,嚴格按照時間序列分析的相關分析、假設檢驗、p與q取值等步驟建模。歐洲五大聯賽的模型是德甲為 ARIMA(0,1,3),法甲為 ARIMA(0,1,0),西甲為 ARIMA(1,1,3),意甲為 ARIMA(0,1,2),英超為 ARIMA(1,1,2)。
4.4通過模型的構建可用于短期預測,進球序列上整體上成波動狀態,擬合值和觀測值曲線在整個區間整體上擬合情況良好。