
世界杯是球迷的盛會,亦是賭棍的狂歡節(jié)。
對科學(xué)家來說,預(yù)測是另一回事。從玄幻的量子糾纏到我們更熟知的天氣、地震預(yù)報,總的來說,研究者是通過某種或多種規(guī)律,結(jié)合海量數(shù)據(jù),獲得一些特定模型。這些模型所生成的結(jié)果,會在某些條件下觸發(fā)。這樣只要出現(xiàn)類似的條件,某個結(jié)果的概率就會浮現(xiàn)。
同樣,投行巨擘高盛新推出的《2014世界杯經(jīng)濟學(xué)》研究報告也是從大數(shù)據(jù)中找規(guī)律,一幫應(yīng)用數(shù)學(xué)的天才用一大把數(shù)據(jù)和一個玄之又玄的模型對世界杯比賽結(jié)果進行了量化分析。
工欲善其事,必先利其器。要對世界杯進行量化分析,海量且靠譜的數(shù)據(jù)是萬萬不可缺少的,而高盛所需要的就是1960年以來主要國際賽事(非友誼賽)的比賽結(jié)果,這樣一來,就有了14000多個歷史樣本,以供數(shù)學(xué)家們演算調(diào)整自己的模型。除此之外,高盛還引用了一個重要參數(shù),那就是Elo系統(tǒng)排名。
說到Elo系統(tǒng)排名,絕大多數(shù)人都會覺得有點陌生。這是一個以國家隊為單位的國際足球評分系統(tǒng),跟FIFA排名并不相同,而很顯然地,高盛覺得Elo系統(tǒng)排名要更為科學(xué)。這主要是因為FIFA排名主要著眼于最近一段時間的比賽情況,而Elo系統(tǒng)則是對1872年至今的完整歷史數(shù)據(jù)進行評估。
那么,什么是Elo系統(tǒng)排名呢?顧名思義,Elo系統(tǒng)排名背后的算法當然就是Elo評分體系,最早由物理學(xué)家阿爾帕德·埃洛(Arpad Elo)開發(fā)。埃洛出生在風(fēng)雨飄搖的奧匈帝國,在10歲的時候就跟著父母移民到了美國,他從小熱愛國際象棋,又天生對數(shù)字有天分有研究,所以自打1939年美國成立了國際象棋協(xié)會以后,他就積極熱情地參與到協(xié)會工作之中。剛好,當時美國國際象棋協(xié)會的排名算法引發(fā)了一定爭議,埃洛便自告奮勇為該協(xié)會開發(fā)出了一種更科學(xué)更合理的排名算法,也就是今天被用于多種體育競賽和電子游戲中的Elo評分體系。
這個評分體系的核心,是對于單場比賽的評判,它的算法基于幾個重要的參數(shù):賽前積分(Ro)、預(yù)期結(jié)果(We)和比賽結(jié)果(W),外加一個常數(shù)(K)。其公式為Rn= Ro + K × (W - We)——如果你看過《社交網(wǎng)絡(luò)》的話,你也許會記得電影里扎克伯格做的Facemash網(wǎng)站,對,那個網(wǎng)站用來評判女生相貌的依據(jù)就是Elo算法。
具體到國際足球的Elo系統(tǒng)排名中,每個參數(shù)都有確定的數(shù)據(jù)指標。其中,K代表著不同級別的賽事權(quán)重,比如說,世界杯決賽圈比賽權(quán)重為60,歐洲杯或者美洲杯這樣的洲際錦標賽決賽圈比賽權(quán)重為50,世界杯預(yù)選賽決賽輪為40,其他錦標賽為30,友誼賽則只有20。至于W,則分為勝平負三類,獲勝為1,戰(zhàn)平為0.5,而輸球當然就只有0了。We比較復(fù)雜,需要根據(jù)賽前兩隊積分差來判定,算式為We=1/(10 (-dr/400)+1),其中dr為賽前積分差(還要給主隊加100)。也就是說,如果賽前主隊積分1110,客隊積分1200,兩隊的We就應(yīng)該分別是0.514和0.486。
用這個算法對浩瀚的歷史數(shù)據(jù)進行遞歸演算,最終得出的結(jié)果相當合理。世界杯開賽之前,在國際足球的Elo系統(tǒng)里排名第一的是得分2113的巴西,第二位是2086分的西班牙,其后依次是德國、阿根廷、荷蘭、英格蘭和葡萄牙。高盛的報告指出,Elo系統(tǒng)排名下每支球隊的評分,是他們用來打造預(yù)測模型的“最有力武器”。
有了Elo評分這個“神隊友”,高盛就可以開始預(yù)測每支球隊在世界杯上的表現(xiàn)了。具體要怎么做呢?高盛在報告中明確寫道,他們用這些數(shù)據(jù)來進行了10萬次蒙特卡洛演算。

蒙特卡洛是歐洲小國摩納哥的一個沿海城市,素以富人聚集和博彩業(yè)繁華而著名,而所謂蒙特卡洛演算方法其實本來跟該城市毫無關(guān)聯(lián),不過是借了“賭城”的名頭,玩笑般地剖白該方法的實質(zhì):上帝也會擲骰子。
是的,蒙特卡洛方法是一種隨機模擬方法,其基本思想是對某個隨機事件進行模擬演算,最終得到各種概率分布的隨機變量,然后用統(tǒng)計方法將模型的數(shù)字特征估計出來,從而得到問題的數(shù)值解。
不熟悉的人可能會問,如果是純粹擲骰子的方法,那么雙方的勝平負概率不都是均等的嗎?這有誰不會的呢,高盛還需要數(shù)據(jù)干什么?其實非也。因為蒙特卡洛雖說是隨機模擬,它也是有不同權(quán)重的——比賽雙方的實力不同,就好比在擲骰子比總數(shù)大小的時候,雙方可以投擲的次數(shù)不同。
在競技體育里面遵循蒙特卡洛方法而進行的事件里,NBA樂透抽簽大概算是最有名的了。在NBA樂透抽簽中,主持抽簽的人會拿出編號為1-14的14個球,放入一個容器里,從中隨機拿出4個球,而這4個球的組合就決定了狀元簽的歸屬。如果不計數(shù)字的先后順序,這種抽簽可以有1001種組合,其中1種被規(guī)定為“廢票”,另外1000種組合被電腦隨機分配給14支沒有獲得季后賽資格的球隊。其中,戰(zhàn)績最差的球隊能獲得250種組合,也就是說,它贏得狀元簽的幾率為25%;戰(zhàn)績最好的球隊只有5種組合,中選幾率就只有0.5%。
為什么說它隨機呢?因為幾率終歸只是幾率,250種組合只不過讓你的機會比別人更大,卻不能確保狀元花落你家。事實上,自從NBA在1990年采用這種方法進行樂透抽簽后,以最差戰(zhàn)績抽到狀元簽的只有4支球隊;而2008年公牛抽中狀元簽的時候,他們事實上只有17種組合,也就是1.7%的中選概率。
于是讓我們回到高盛的預(yù)測模型來,他們分配權(quán)重的依據(jù)當然不像NBA就看戰(zhàn)績那么簡單。根據(jù)報告所言,除了Elo評分之外,高盛還將五個重要變量引入分析:
A:確實有人能做到成功預(yù)測每一場比賽的勝負,甚至精確到比分。并不奇怪。從另一個角度講,這與一個郵件騙局的思路是相同的。假設(shè)某騙子給90萬人發(fā)郵件,以巴西對克羅地亞開始,任選一種結(jié)果(勝平負)隨機發(fā)給30萬人。然后在這場球結(jié)果出來后,給收到正確結(jié)果的30萬人繼續(xù)發(fā)下一場的預(yù)測。再正確一場后,給其中10萬人繼續(xù)發(fā)。于是,假設(shè)最后有10個人收到郵件,發(fā)現(xiàn)這個預(yù)測帝連續(xù)猜對了前面10場球的每一場,(然后相信他能繼續(xù)正確,就把錢交給他賭一把)……因此,在一個預(yù)測帝成功的同時,千萬個預(yù)測帝倒下了。
1.每支球隊在過去10場主要國際賽事中的平均進球數(shù);
2.每支球隊在過去5場主要國際賽事中的平均丟球數(shù);
3.每支球隊的世界杯抽風(fēng)指數(shù)——這個變量主要是看某支球隊是否有在世界杯上發(fā)威或者突然啞火的傾向。當然了,要分析傾向,至少得有足夠大的樣本,所以高盛只選取了巴西、德國、阿根廷、西班牙、荷蘭、英格蘭、意大利和法國進行該指數(shù)研究;
4.每支球隊在主場比賽的表現(xiàn);
5.每支球隊在所屬大洲比賽時的表現(xiàn)。
有了這些指標,高盛就構(gòu)造了一個分子模型,然后進行10萬次的擲骰子模擬,得到每兩支球隊交鋒時最可能出現(xiàn)的結(jié)果,進而得出一個“最合理”的世界杯預(yù)測。
10萬次模擬之后,高盛的結(jié)果出爐——巴西將一路大勝到奪冠。
這其實非常好理解,我們可以挨個對照著高盛引入的6項指標來解析:在世界杯開賽前的Elo排名中,巴西隊高居榜首,評分比西班牙高了27分;最近的主要國際賽事里,巴西在去年聯(lián)合會杯中3比0大勝西班牙,4比2戰(zhàn)勝意大利,進球數(shù)不少,丟球數(shù)不多;巴西隊歷史上5奪世界杯冠軍,世界杯表現(xiàn)往往超出平時,絕不會像英格蘭一樣每逢大賽就抽風(fēng);再者,巴西是主場,根據(jù)高盛的計算,主場優(yōu)勢能讓巴西每場多進0.4個球;另外,在美洲進行比賽也是大利好,平均每個美洲球隊每場能多進0.2個球,而歐洲球隊就比較慘了,歷史上還沒有歐洲球隊在美洲舉辦的世界杯上奪冠的先例。
于是,按照這種預(yù)測,本屆世界杯上最合理的情況就是,巴西隊在小組賽分別以4比1、4比1和5比0大勝克羅地亞、墨西哥和喀麥隆,然后在第二輪3比1干掉荷蘭,1/4決賽3比1擊敗烏拉圭,半決賽2比1淘汰德國,最后在決賽里3比1贏了老冤家阿根廷奪冠。
但是高盛也知道,所謂“合理”在足球運動里是很不靠譜的。因為足球不像籃球動輒打到100分以上,全場比賽0比0結(jié)束也是常有的事,而我們也知道,這種低進球的比賽同時就意味著極高的不可預(yù)測性——哪怕你全場壓著對方打,全場射門比是50比2,射正比是25比1,結(jié)果人家門將神勇?lián)涑隽四闼械纳溟T,就靠那僅有的一腳射正以1比0贏球,這種故事發(fā)生得還不夠多么?所以,高盛認為,還是用蒙特卡洛方法計算一下每支隊晉級不同階段的概率是多大更靠譜。
于是又是一輪反復(fù)的擲骰子模擬實驗,最終高盛得出結(jié)論,巴西隊有99%的幾率小組出線,78.8%的可能性進入八強,71.7%可能進入四強,進入決賽可能性達到60.3%,奪冠概率也高達48.5%!這可是個了不得的數(shù)字,要知道,歐洲開賭球盤口的人不過也只認為巴西有25%左右奪冠幾率而已。
根據(jù)高盛的預(yù)測,除了巴西隊之外,最可能奪冠的球隊分別是阿根廷、德國和西班牙,他們分別有14.1%、11.4%和9.8%的奪冠概率。
值得一提的是,為了盡可能將預(yù)測維持在理性分析的范疇內(nèi),高盛并未考慮單個球員對比賽造成的影響,比如德國隊穆勒一到世界杯就爆發(fā),或者阿根廷的梅西的國家隊進球運勢不暢,還有裁判傾向等等,這些不可量化的影響因素統(tǒng)統(tǒng)都會被排除在考慮之外。這樣當然會讓模擬過程更簡單容易,不過,其預(yù)測效用也就會大打折扣了。
事實上,四年前南非世界杯的時候,高盛就曾經(jīng)預(yù)測過一次,其結(jié)果不算太離譜,但也有一些很失準的地方。比如說,他們當時預(yù)測巴西隊奪冠幾率最高,西班牙次之,結(jié)果是西班牙奪冠;另外,他們還認為意大利小組出線概率達到84.8%,法國隊也能有76.0%的把握出線,但這兩支球隊分別在所在小組墊底,不得不在小組賽結(jié)束后就打道回府。如果用R平方系統(tǒng)來評估他們的預(yù)測準確度,你會發(fā)現(xiàn),高盛在2010年的預(yù)測R平方值只有0.24,距離完美的1(100%準確度)還有相當遙遠的距離。