世界杯足球比賽多分類預測模型研究

2019-10-11 11:24:36雷光裕

軟件導刊 2019年7期

摘要：分類問題一直是數據挖掘、模式識別等領域的重要研究內容，應用大數據技術處理與分析海量數據可實現預測分類。數據科學研究一般過于依賴LGBM和XGBoost，但在某些情況下，線性回歸的效果比GBM樹更好。采用機器學習中的logistics回歸算法對足球比賽歷史數據進行分析處理，從而挖掘數據之間的關聯。通過對訓練集的后視檢驗得到每種結果的概率，對足球比賽結果進行預測。對決策樹和集成算法Adaboost建模，提高了預測準確率。該方法對預測世界杯足球比賽結果具有指導作用。

關鍵詞：多分類預測;機器學習;logistic回歸;決策樹;集成學習

DOI：10. 11907/rjdk. 182494 開放科學（資源服務）標識碼（OSID）：

中圖分類號：TP302文獻標識碼：A 文章編號：1672-7800（2019）007-0045-04

Multi-classification Forecasting Model Based on World Cup Competition

LEI Guang-yu

（School of Computer Science and Engineering， Wuhan University of Engineering， Wuhan 430205，China）

Abstract：Big data applications will bring about a new era of innovation and change in society. Classification problem has been an important research content in data mining， pattern recognition and other fields. Since World cup is popular， it can implement predictive classification by using big data technology to process and analyze the massive amount of data. Data science is now depend on LGBM and XGBoost much， but in some cases， the effect of linear regression is sometimes better than GBM，the others may be better. This paper mainly uses logistic regression. The historical data is analyzed and processed to excavate the correlation between the data， and the probability of each result can be obtained by the post-view test of the training set， finally， the prediction of the football match result is realized.And decision trees and integrated algorithms Adaboost are compared and the accuracy of the prediction is improved，and the actual prediction of the game has a guiding role.

Key Words：soccer game prediction; machine learning; logistic regression; decision tree; integrated learning

作者簡介：雷光裕（1998-），男，武漢工程大學計算機科學與工程學院學生，研究方向為機器學習與數據挖掘。

0 引言

將機器學習算法應用于數據挖掘不但對處理足球比賽海量數據有重要意義，還對足球彩票競技具有指導價值。足球比賽結果預測涉及的因素非常多，無法將所有因素都融入機器學習模型中，因此目前國內外將機器學習用于足球比賽預測的應用還很少。

機器學習是大數據分析的一種重要方法，機器學習算法可從原始數據中通過特征提取獲得特征數據，從特征數據中自動嘗試獲得數據的相關規律，再利用獲取的規律對未知數據集進行預測[1]。

常用的預測算法主要有支持向量機（SVM）、邏輯回歸、決策樹、隨機森林集成學習等[2]。運用上述分類方法進行模型構建，分析比較各模型的性能。支持向量機可有效調節算法復雜度與泛化能力之間的矛盾，因此在小樣本學習領域有著優于傳統模式識別方法的推廣能力[3]。然而在處理較大規模數據集時，通常需要更長的訓練時間。KNN方法是基于實例的學習方法，可生成任意形狀的決策邊界，無需建立模型，但其分類開銷很大，需逐個計算相似度。此外，當k取值較小時，對噪音也很敏感[4]。針對上述不足，研究者作了相應改進，但尚未有一個能同時實現訓練時間短、預測能力強、規則提取簡易且適應性強的分類方法，比較而言邏輯回歸性能較優。本模型采用的邏輯回歸分類方法是一種logistic方程歸一化后的線性回歸[5]，這種回歸方法一般能合理降低兩端方向的輸入，這類輸入一般對預測結果產生負面影響。同時模型易于解釋，便于提取知識集[6]。本文采用比賽主客場、凈勝球數解釋比賽勝負，提高了預測準確率，涉及的難題有機器學習的多預測問題、過擬合問題、連續值問題、模型調參問題、類不平衡問題等[7]。

實驗目的是從樣本數據抽取相應特征，并通過合適的算法模型從這些信息中找出和足球比賽結果相關性大的特性，計算下一場比賽的勝負概率、預測比賽勝負。

1 數據獲取及預處理

本文構建2018世界杯足球比賽預測模型，預測整個世界杯比賽的小組賽結果，數據挖掘流程為數據集成、特征建模和結果預測。用歷史數據分析影響因素，應用邏輯回歸模型和決策樹模型進行比較及預測。

1.1 數據清洗

分析數據來源于Kaggle，包含1872-2018年的數據，包括世界杯比賽、世界杯預選賽、亞洲杯、歐洲杯、國家之間的友誼賽等各國足球隊排名，大約有20 565場比賽數據。特征有比賽日期、主客場隊伍、主客場得分、比賽地點及比賽是否友好。

1.2 數據處理

從原始數據集選取樣本數據時，需要對數據集進行數據預處理，通過對變量缺失值和異常值等進行處理，去除不符合要求的數據。

表1 多標記數據集詳細信息

通過表1數據可以看出，整個數據集數據三分類的正負樣本較為平衡。由于足球比賽具有一定的即時性，過多或過早的數據不能很好地表示當前隊伍的表現，所以需要對數據進行清洗處理。截取自1930年第一屆世界杯以來入圍2018俄羅斯世界杯小組賽的球隊信息，共19 472行。

比賽結果有勝負平3種，這是一個三分類問題。現有多分類學習方法主要有算法適應法和問題轉化法[4]。算法適應法拓展現有單標記機器學習算法，能直接處理多標記數據;問題轉化法將多標記分類問題轉化為若干個單標記分類問題[8]。處理多分類問題的方法多數采用多標記問題轉化法思路，即將多分類問題轉換成二分類問題[9]，常用方法有one-vs-all和one-vs-one等。足球比賽勝負平3種結果是一個三元分類問題，將3個預測標簽分別映射為1（勝）、-1（負）、0（平）。

1.3 特征工程

常用的特征工程分為子集搜索與評價[10]、過濾式選擇[11]、包裹式選擇[12]和嵌入式方法[13]4種。本次實驗選用過濾式選擇方法：先對數據集進行特征選擇，然后訓練學習器，此方法采用相關統計量度量特征的重要性。

通過特征選擇保留主客場特征。由于世界杯比賽中的國家沒有主客場之分，所以這里采用FIFA世界排名代替主客場特征。把FIFA排名靠前的隊伍放到“home_teams”（主場隊伍）一列，然后根據每個隊伍的排名將他們加入到新的預測數據集中。

為使預測結果盡可能準確，應將目標差異和結果列添加到結果數據集中，在世界杯結果數據集中添加兩個特征：勝利或平局、凈勝球數。

2 邏輯回歸模型應用

2.1 邏輯回歸模型線性表示

邏輯回歸是機器學習的經典算法，是典型的概率統計分類模型，屬于有監督的學習方法，常應用于數據挖掘[14]。

線性回歸即在給定的數據集[D={（x1，y1），（x2，y2），？，][（xm，ym），}]，[ xi=（xi1;xi2;？;xid），yi∈R]中得到一個線性模型[f（xi）=ωTxi+b]，使[f（xi）≈yi]，并利用最小二乘法最小化均方誤差對[ω]和b進行估計。即

[（ω*，b*）=arg min（y-Xω）T（y-Xω）]

[？Eω？ω=2XT（Xω-y）]

令式為零可得到[ω]最優的閉式解。

通過激發函數將預測值與邏輯回歸分類聯系。預測中較常用的激發函數是Sigmoid函數：[y=11+e-z=11+e-（ωT+b）]

設某事件x發生的概率為P，不發生的概率為1-P，則[lnp1-p]為x作為正例的相對可能性。

[p=exp（α+β1x1+？+βmxm）1+exp（α+β1x1+？+βmxm）]

該模型即為邏輯回歸模型，模型中[α]為常數，[βm]為邏輯回歸系數，代表世界杯比賽各特征的相對貢獻率。通過最大似然估計計算[ω]和[b]。根據凸優化理論[15]，經典數值優化算法梯度下降法能保證每一點的擬合為最優。

2.2 邏輯算法建模及評估

logistic回歸模型的樣本自變量是連續型數據，通過設置啞變量（dummy variables），將home_team和away_team從分類變量轉換成連續輸入。

通過特征方程建立特征向量后，將樣本數據集劃分成70%的訓練集與30%的測試集進行學習及交叉驗證。

多分類任務的評估標準采用F1-score。F1-score是準確率和召回率的調和平均值，可對準確率和召回率給予不同權重，計算公式如下：

[F1=2precision×recallprecision + recall]

為防止數據過擬合而影響其泛化效果，在損失函數最后一項中加入正則項。本實驗特征向量不多，這里選取l2正則化。此數據沒有表現類不平衡，正負樣本隨機抽樣。

將數據導入邏輯回歸模型中，預測結果在訓練集中正確率為0.800，在測試集中正確率為0.793。不難看出，算法模型的泛化效果較好，比其它算法的正確率有明顯提升，見表2。

表2 邏輯回歸模型預測效果

2.3 邏輯回歸小組賽預測

將上述模型應用到小組賽預測中，檢驗每場比賽的勝負平概率。通過選擇勝率大的隊伍作為比賽勝利一方對小組賽出線隊伍進行預測。

通過學習，預測小組賽出線16支隊伍為：烏拉圭、葡萄牙、法國、克羅地亞、巴西、墨西哥、英格蘭、哥倫比亞、西班牙、俄羅斯、阿根廷、秘魯、德國、瑞士、波蘭、比利時，其中13支隊伍出線進入16強。

3 決策樹與集成學習模型比較

為了對比集成算法和單個基分類器的預測效果，本文在相同的實驗數據集上，采用基于邏輯回歸模型進行實驗，再分別使用隨機森林（RF）、ExtraTree[16]（ET）、梯度漸進決策樹[17]（GBDT）和決策樹（DT） [18]4種算法作為基分類器進行實驗，得出每個基分類器在單獨使用時的預測F1值并得出相應的Fl值。

[9] MUKAEDA TAKAYUKI，SHIMA KEISUKE. A novel HMM-based pattern recognition method with unlearned pattern detection for emg signals[J]. The Proceedings of JSME annual Conference on Robotics and Mechatronics （Robomec）， 2017（10）：16-20.

[10] SHINDO T. Artificial intelligence and human wisdom[J]. The Journal of the Institute of Electrical Installation Engineers of Japan，2017，37（11）：22-29.

[11] CHUENPRAPHANUSORN T，BOONCHART J，SNGU-ANYAT O，et al. The project evaluation for development the learning integrated model between the international program （IP） and the fundamental level curriculum in education hub project of the Ministry of Education， Thailand[J]. Mediterranean Journal of Social Sciences，2017，8（6）：991-1002.

[12] GASCóN A，SCHOPPMANN P，BALLE B，et al. Privacy-preserving dis-tributed linear regression on high-dimensional data[J]. Proceedings on Privacy Enhancing Technologies， 2017（4）：31-38.

[13] SHUANG BAI. Growing random forest on deep convolutional neural networks for scene categorization[J]. Expert Systems With Applications，2017（71）：364-371.

[14] TEISSEYRE P. Ccnet： joint multi-label classification and feature selection using classifier chains and elastic net regularization[J]. Neurocomputing，2017（5）：187-192.

[15] LOYOLA-GONZáLEZ O，MEDINA-PéREZ M A，FCO J，et al. PBC4CIP： a new contrast pattern-based classifier for class imbalance problems[J]. Knowledge-Based Systems，2017（11）：5-11.

[16] SINGH H R，BISWAS S K，PURKAYASTHA B. A neuro-fuzzy classification technique using dynamic clustering and GSS rule generation[J]. Journal of Computational and Applied Mathematics，2017（309）：452-461.

[17] CZAJKOWSKI M，KRETOWSKI M. The role of decision tree representation in regression problems-an evolutionary perspective[J]. Applied Soft Computing，2016（48）：19-22.

[18] LI Z ， MA X F， XIN X L. Feature engineering of machine-learning chemisorption models for catalyst design[J]. Catalysis Today，2017（280）：374-379.

[19] GALAR M，FERNáNDEZ A，BARRENECHEA E，et al. NMC：nearest matrix classification-a new combination model for pruning one-vs-one ensembles by transforming the aggregation problem[J]. Information Fusion，2017（36）：222-229.

[20] DUMORTIER A，BECKJORD E，SHIFFMAN S，et al. Classifying smoking urges via machine learning[J]. Computer Methods and Programs in Biomedicine，2016（137）：63-68.

[21] HAN Y M， ZHU Q X， GENG Z Q，et al. Energy and carbon emissions analysis and prediction of complex petrochemical systems based on an improved extreme learning machine integrated interpretative structural model[J]. Applied Thermal Engineering，2017（115）：202-211.

（責任編輯：杜能鋼）