999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

世界杯足球比賽多分類預測模型研究

2019-10-11 11:24:36雷光裕
軟件導刊 2019年7期
關鍵詞:機器學習

摘 要:分類問題一直是數據挖掘、模式識別等領域的重要研究內容,應用大數據技術處理與分析海量數據可實現預測分類。數據科學研究一般過于依賴LGBM和XGBoost,但在某些情況下,線性回歸的效果比GBM樹更好。采用機器學習中的logistics回歸算法對足球比賽歷史數據進行分析處理,從而挖掘數據之間的關聯。通過對訓練集的后視檢驗得到每種結果的概率,對足球比賽結果進行預測。對決策樹和集成算法Adaboost建模,提高了預測準確率。該方法對預測世界杯足球比賽結果具有指導作用。

關鍵詞:多分類預測;機器學習;logistic回歸;決策樹;集成學習

DOI:10. 11907/rjdk. 182494 開放科學(資源服務)標識碼(OSID):

中圖分類號:TP302文獻標識碼:A 文章編號:1672-7800(2019)007-0045-04

Multi-classification Forecasting Model Based on World Cup Competition

LEI Guang-yu

(School of Computer Science and Engineering, Wuhan University of Engineering, Wuhan 430205,China)

Abstract:Big data applications will bring about a new era of innovation and change in society. Classification problem has been an important research content in data mining, pattern recognition and other fields. Since World cup is popular, it can implement predictive classification by using big data technology to process and analyze the massive amount of data. Data science is now depend on LGBM and XGBoost much, but in some cases, the effect of linear regression is sometimes better than GBM,the others may be better. This paper mainly uses logistic regression. The historical data is analyzed and processed to excavate the correlation between the data, and the probability of each result can be obtained by the post-view test of the training set, finally, the prediction of the football match result is realized.And decision trees and integrated algorithms Adaboost are compared and the accuracy of the prediction is improved,and the actual prediction of the game has a guiding role.

Key Words:soccer game prediction; machine learning; logistic regression; decision tree; integrated learning

作者簡介:雷光裕(1998-),男,武漢工程大學計算機科學與工程學院學生,研究方向為機器學習與數據挖掘。

0 引言

將機器學習算法應用于數據挖掘不但對處理足球比賽海量數據有重要意義,還對足球彩票競技具有指導價值。足球比賽結果預測涉及的因素非常多,無法將所有因素都融入機器學習模型中,因此目前國內外將機器學習用于足球比賽預測的應用還很少。

機器學習是大數據分析的一種重要方法,機器學習算法可從原始數據中通過特征提取獲得特征數據,從特征數據中自動嘗試獲得數據的相關規律,再利用獲取的規律對未知數據集進行預測[1]。

常用的預測算法主要有支持向量機(SVM)、邏輯回歸、決策樹、隨機森林集成學習等[2]。運用上述分類方法進行模型構建,分析比較各模型的性能。支持向量機可有效調節算法復雜度與泛化能力之間的矛盾,因此在小樣本學習領域有著優于傳統模式識別方法的推廣能力[3]。然而在處理較大規模數據集時,通常需要更長的訓練時間。KNN方法是基于實例的學習方法,可生成任意形狀的決策邊界,無需建立模型,但其分類開銷很大,需逐個計算相似度。此外,當k取值較小時,對噪音也很敏感[4]。針對上述不足,研究者作了相應改進,但尚未有一個能同時實現訓練時間短、預測能力強、規則提取簡易且適應性強的分類方法,比較而言邏輯回歸性能較優。本模型采用的邏輯回歸分類方法是一種logistic方程歸一化后的線性回歸[5],這種回歸方法一般能合理降低兩端方向的輸入,這類輸入一般對預測結果產生負面影響。同時模型易于解釋,便于提取知識集[6]。本文采用比賽主客場、凈勝球數解釋比賽勝負,提高了預測準確率,涉及的難題有機器學習的多預測問題、過擬合問題、連續值問題、模型調參問題、類不平衡問題等[7]。

實驗目的是從樣本數據抽取相應特征,并通過合適的算法模型從這些信息中找出和足球比賽結果相關性大的特性,計算下一場比賽的勝負概率、預測比賽勝負。

1 數據獲取及預處理

本文構建2018世界杯足球比賽預測模型,預測整個世界杯比賽的小組賽結果,數據挖掘流程為數據集成、特征建模和結果預測。用歷史數據分析影響因素,應用邏輯回歸模型和決策樹模型進行比較及預測。

1.1 數據清洗

分析數據來源于Kaggle,包含1872-2018年的數據,包括世界杯比賽、世界杯預選賽、亞洲杯、歐洲杯、國家之間的友誼賽等各國足球隊排名,大約有20 565場比賽數據。特征有比賽日期、主客場隊伍、主客場得分、比賽地點及比賽是否友好。

1.2 數據處理

從原始數據集選取樣本數據時,需要對數據集進行數據預處理,通過對變量缺失值和異常值等進行處理,去除不符合要求的數據。

表1 多標記數據集詳細信息

通過表1數據可以看出,整個數據集數據三分類的正負樣本較為平衡。由于足球比賽具有一定的即時性,過多或過早的數據不能很好地表示當前隊伍的表現,所以需要對數據進行清洗處理。截取自1930年第一屆世界杯以來入圍2018俄羅斯世界杯小組賽的球隊信息,共19 472行。

比賽結果有勝負平3種,這是一個三分類問題。現有多分類學習方法主要有算法適應法和問題轉化法[4]。算法適應法拓展現有單標記機器學習算法,能直接處理多標記數據;問題轉化法將多標記分類問題轉化為若干個單標記分類問題[8]。處理多分類問題的方法多數采用多標記問題轉化法思路,即將多分類問題轉換成二分類問題[9],常用方法有one-vs-all和one-vs-one等。足球比賽勝負平3種結果是一個三元分類問題,將3個預測標簽分別映射為1(勝)、-1(負)、0(平)。

1.3 特征工程

常用的特征工程分為子集搜索與評價[10]、過濾式選擇[11]、包裹式選擇[12]和嵌入式方法[13]4種。本次實驗選用過濾式選擇方法:先對數據集進行特征選擇,然后訓練學習器,此方法采用相關統計量度量特征的重要性。

通過特征選擇保留主客場特征。由于世界杯比賽中的國家沒有主客場之分,所以這里采用FIFA世界排名代替主客場特征。把FIFA排名靠前的隊伍放到“home_teams”(主場隊伍)一列,然后根據每個隊伍的排名將他們加入到新的預測數據集中。

為使預測結果盡可能準確,應將目標差異和結果列添加到結果數據集中,在世界杯結果數據集中添加兩個特征:勝利或平局、凈勝球數。

2 邏輯回歸模型應用

2.1 邏輯回歸模型線性表示

邏輯回歸是機器學習的經典算法,是典型的概率統計分類模型,屬于有監督的學習方法,常應用于數據挖掘[14]。

線性回歸即在給定的數據集[D={(x1,y1),(x2,y2),?,][(xm,ym),}],[ xi=(xi1;xi2;?;xid),yi∈R]中得到一個線性模型[f(xi)=ωTxi+b],使[f(xi)≈yi],并利用最小二乘法最小化均方誤差對[ω]和b進行估計。即

[(ω*,b*)=arg min(y-Xω)T(y-Xω)]

[?Eω?ω=2XT(Xω-y)]

令式為零可得到[ω]最優的閉式解。

通過激發函數將預測值與邏輯回歸分類聯系。預測中較常用的激發函數是Sigmoid函數:[y=11+e-z=11+e-(ωT+b)]

設某事件x發生的概率為P,不發生的概率為1-P,則[lnp1-p]為x作為正例的相對可能性。

[p=exp(α+β1x1+?+βmxm)1+exp(α+β1x1+?+βmxm)]

該模型即為邏輯回歸模型,模型中[α]為常數,[βm]為邏輯回歸系數,代表世界杯比賽各特征的相對貢獻率。通過最大似然估計計算[ω]和[b]。根據凸優化理論[15],經典數值優化算法梯度下降法能保證每一點的擬合為最優。

2.2 邏輯算法建模及評估

logistic回歸模型的樣本自變量是連續型數據,通過設置啞變量(dummy variables),將home_team和away_team從分類變量轉換成連續輸入。

通過特征方程建立特征向量后,將樣本數據集劃分成70%的訓練集與30%的測試集進行學習及交叉驗證。

多分類任務的評估標準采用F1-score。F1-score是準確率和召回率的調和平均值,可對準確率和召回率給予不同權重,計算公式如下:

[F1=2precision×recallprecision + recall]

為防止數據過擬合而影響其泛化效果,在損失函數最后一項中加入正則項。本實驗特征向量不多,這里選取l2正則化。此數據沒有表現類不平衡,正負樣本隨機抽樣。

將數據導入邏輯回歸模型中,預測結果在訓練集中正確率為0.800,在測試集中正確率為0.793。不難看出,算法模型的泛化效果較好,比其它算法的正確率有明顯提升,見表2。

表2 邏輯回歸模型預測效果

2.3 邏輯回歸小組賽預測

將上述模型應用到小組賽預測中,檢驗每場比賽的勝負平概率。通過選擇勝率大的隊伍作為比賽勝利一方對小組賽出線隊伍進行預測。

通過學習,預測小組賽出線16支隊伍為:烏拉圭、葡萄牙、法國、克羅地亞、巴西、 墨西哥、英格蘭、哥倫比亞、西班牙、俄羅斯、阿根廷、秘魯、德國、瑞士、波蘭、比利時,其中13支隊伍出線進入16強。

3 決策樹與集成學習模型比較

為了對比集成算法和單個基分類器的預測效果,本文在相同的實驗數據集上,采用基于邏輯回歸模型進行實驗,再分別使用隨機森林(RF)、ExtraTree[16](ET)、梯度漸進決策樹[17](GBDT)和決策樹(DT) [18]4種算法作為基分類器進行實驗,得出每個基分類器在單獨使用時的預測F1值并得出相應的Fl值。

[9] MUKAEDA TAKAYUKI,SHIMA KEISUKE. A novel HMM-based pattern recognition method with unlearned pattern detection for emg signals[J]. The Proceedings of JSME annual Conference on Robotics and Mechatronics (Robomec), 2017(10):16-20.

[10] SHINDO T. Artificial intelligence and human wisdom[J]. The Journal of the Institute of Electrical Installation Engineers of Japan,2017,37(11):22-29.

[11] CHUENPRAPHANUSORN T,BOONCHART J,SNGU-ANYAT O,et al. The project evaluation for development the learning integrated model between the international program (IP) and the fundamental level curriculum in education hub project of the Ministry of Education, Thailand[J]. Mediterranean Journal of Social Sciences,2017,8(6):991-1002.

[12] GASCóN A,SCHOPPMANN P,BALLE B,et al. Privacy-preserving dis-tributed linear regression on high-dimensional data[J]. Proceedings on Privacy Enhancing Technologies, 2017(4):31-38.

[13] SHUANG BAI. Growing random forest on deep convolutional neural networks for scene categorization[J]. Expert Systems With Applications,2017(71):364-371.

[14] TEISSEYRE P. Ccnet: joint multi-label classification and feature selection using classifier chains and elastic net regularization[J]. Neurocomputing,2017(5):187-192.

[15] LOYOLA-GONZáLEZ O,MEDINA-PéREZ M A,FCO J,et al. PBC4CIP: a new contrast pattern-based classifier for class imbalance problems[J]. Knowledge-Based Systems,2017(11):5-11.

[16] SINGH H R,BISWAS S K,PURKAYASTHA B. A neuro-fuzzy classification technique using dynamic clustering and GSS rule generation[J]. Journal of Computational and Applied Mathematics,2017(309):452-461.

[17] CZAJKOWSKI M,KRETOWSKI M. The role of decision tree representation in regression problems-an evolutionary perspective[J]. Applied Soft Computing,2016(48):19-22.

[18] LI Z , MA X F, XIN X L. Feature engineering of machine-learning chemisorption models for catalyst design[J]. Catalysis Today,2017(280):374-379.

[19] GALAR M,FERNáNDEZ A,BARRENECHEA E,et al. NMC:nearest matrix classification-a new combination model for pruning one-vs-one ensembles by transforming the aggregation problem[J]. Information Fusion,2017(36):222-229.

[20] DUMORTIER A,BECKJORD E,SHIFFMAN S,et al. Classifying smoking urges via machine learning[J]. Computer Methods and Programs in Biomedicine,2016(137):63-68.

[21] HAN Y M, ZHU Q X, GENG Z Q,et al. Energy and carbon emissions analysis and prediction of complex petrochemical systems based on an improved extreme learning machine integrated interpretative structural model[J]. Applied Thermal Engineering,2017(115):202-211.

(責任編輯:杜能鋼)

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統
基于圖的半監督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
主站蜘蛛池模板: 日韩毛片免费| 亚洲国产天堂久久综合| 国产日韩欧美视频| 国产毛片一区| 曰AV在线无码| 伊人激情久久综合中文字幕| 99999久久久久久亚洲| 97影院午夜在线观看视频| 亚洲不卡无码av中文字幕| 国产日本一区二区三区| 91麻豆久久久| 国产欧美精品午夜在线播放| 亚洲国产看片基地久久1024| 99久久成人国产精品免费| 免费aa毛片| 欧美中日韩在线| 久草视频精品| 亚洲国产精品无码久久一线| 成人免费视频一区| 国产精品视频观看裸模| 亚洲欧州色色免费AV| 波多野结衣的av一区二区三区| 免费全部高H视频无码无遮掩| 精品乱码久久久久久久| 亚洲国产成人久久精品软件| 亚洲,国产,日韩,综合一区 | 无码内射在线| 国产精品13页| 中文天堂在线视频| 国产无码网站在线观看| 亚洲欧美人成电影在线观看| 精品色综合| 一级毛片高清| 东京热高清无码精品| 国产男人天堂| 一级毛片免费高清视频| 亚洲福利一区二区三区| 2021国产v亚洲v天堂无码| 国产视频欧美| 日韩欧美国产区| 乱色熟女综合一区二区| 亚洲成aⅴ人片在线影院八| 亚洲福利片无码最新在线播放| 91无码网站| 福利在线一区| 欧美成a人片在线观看| 91麻豆久久久| 欧美在线国产| 无码国产伊人| 91麻豆国产视频| 欧美精品一区在线看| 喷潮白浆直流在线播放| 久久国产精品娇妻素人| 日韩福利视频导航| 99这里只有精品免费视频| 精品综合久久久久久97| 国产精品毛片在线直播完整版 | 69免费在线视频| 国产亚洲视频在线观看| 亚洲AV免费一区二区三区| 自拍欧美亚洲| 中文毛片无遮挡播放免费| 欧美自慰一级看片免费| 五月六月伊人狠狠丁香网| 国外欧美一区另类中文字幕| 国产极品美女在线| 综合五月天网| 五月天综合网亚洲综合天堂网| 99尹人香蕉国产免费天天拍| 99免费在线观看视频| 在线看免费无码av天堂的| 亚洲国产清纯| 99在线视频免费观看| 国产理论一区| 国产一区亚洲一区| 97人人模人人爽人人喊小说| 麻豆国产原创视频在线播放| 99热最新网址| 在线免费无码视频| 秋霞一区二区三区| 国产在线第二页| 天天躁日日躁狠狠躁中文字幕|