劉泓君

亞裔人會成為下任美國總統嗎?美國國債會變得一錢不值嗎?去問問大衛·羅斯柴爾德(David Rothschild)吧!
這位微軟紐約研究院研究員在第85屆奧斯卡金像獎頒獎之前,通過數學建模準確預測了本屆24項奧斯卡獎中的19項,在其余5項大獎的預測中,其預測結果亦與最終獲獎結果趨同。
“這是科學的證明。”在奧斯卡頒獎結果揭曉的當天晚上,羅斯柴爾德在Twitter上如是說。“我們可利用娛樂、體育及政治話題建立各種各樣的預測模型,以回答更難的問題,并進一步推廣到商業及經濟領域。”羅斯柴爾德對《環球企業家》說。
如此令人瞠目的預測并非孤例。2012年的美國大選,羅斯柴爾德就成功預測奧巴馬的當選。更令人匪夷所思的是,他居然用1.27億張選票建構了一個變化莫測的總統大選模型,其在51個選區中成功預測50個選區的選舉結果,最終準確率高達98%。“我總是對數據很感興趣。我一直以來都積極的參與到政治活動中。”羅斯柴爾德對《環球企業家》說。
事實上,羅斯柴爾德的數據預測博客(Predict Wise)已涉及政治、體育、娛樂、經濟等方面的十余種預測。相比于其他一成不變固定結果的預測,該預測更偏向于根據事件變化而顯示實時結果的可能性—這是其顛覆傳統預測模型的秘密所在。羅斯柴爾德會告訴你,現在邁阿密熱火隊獲得2013年NBA聯賽總冠軍的可能性最高,為43.2%。
還想期待什么榜單提前出爐?趕緊把羅斯柴爾德的博客添加在收藏夾里吧!
顛覆者
羅斯柴爾德的預測工作始于2008年的美國總統大選。當時,他找到了一種簡單聚合的方法,并自稱此法可以勝過現在所有的預測模型。
從美國大選入手源于其對政治的興趣。羅斯柴爾德至今依然清楚地記得,2004年美國總統大選時,其身邊的朋友會對大選結果進行各種猜測和八卦,各種預測數據會被廣泛傳播。很多人會拿著這些完全沒有依據的數據隨意提問,甚至還利用眾包網站尋找答案。為了參與其中,羅斯柴爾德從2006年開始每天關注此類信息并從事研究,工具之一即是微軟Xbox游戲平臺。
羅斯柴爾德起初并未想過可借助該平臺建立自己的民意調查問卷庫,甚至還能收到數百萬的反饋結果。鮮為人知的是,羅斯柴爾德在讀研究生期間,曾苦苦央求一家著名的調研公司,在其問卷調查中補充兩個由其提出的問題。雖然,他最后只拿到了1000份答卷,但這一收獲已令羅斯柴爾德興奮良久。
在美國,預測總統大選的數據機構和個人不勝枚舉,甚至由此還誕生了一批有影響力的數學家,抽樣調查方法的創始人、著名民意調查者喬治·蓋洛普(Gallup GeorgeHorace)即是其中的佼佼者。在羅斯柴爾德看來,自從蓋洛普通過在代表性人群中隨機抽樣來創建高效的數據預測起,收集民意調查數據的方法在過去的75年內幾乎沒有什么改變。
羅斯柴爾德顯然是舊傳統的顛覆者。其所建立的數據模型在Xbox的幫助下可以打破傳統的研究方法,建立更加經濟有效的數據模型。他為這種全新的預測模型建立了四個衡量指標,即相關性、實時性、準確性、成本效率。
難點之一便是相關性。例如在選舉中,人們更喜歡討論在全國范圍內預計為奧巴馬投票的人數比例,但事實上這并非大家最關心的問題,人們希望判斷誰最可能會贏,而僅憑人數比例多寡往往難以斷定輸贏。因此,在設計問題時,預測者必須考慮數據的相關性。
實時性是指預測情況是不斷更新的。例如北京時間下午兩點可能會發生重大事件,股市的情況也會隨之改變。當人們看到預測時,結果也會隨著時間而動態變化—羅斯柴爾德電腦中的預測界面顯示很像是一張股價波動的K線圖。人們可以在想要的時間點得到當時的結果,社交網站的數據引入對結果準確性影響頗大。
準確性更加偏重于事件發生的可能性。例如在奧斯卡最佳導演獎角逐中,5個提名候選人均可能得獎。大家想知道哪個人得獎的可能性最接近100%,但預測結果顯示可能性各占50%。影響準確性的三個關鍵性指標在于錯誤有多大(你對每個獲勝者的獲勝幾率預測離100%有多遠),預測的準確程度如何(若聲稱80%的可能性,其發生幾率是否就是80%),以及這一預測的未來表現如何。
羅斯柴爾德的辦法是選擇成本效益最高的方式。這將確保其準確預測其他更多的事。
此類研究的最大難點在于數據收集。在樣本采集中,四種不同類型的數據顯得頗為重要:投票數據、預測市場數據、基礎數據、用戶生成數據。羅斯柴爾德對數據的要求近乎苛刻。他表示,雖然采集新的數據源可能會花上幾個星期,但這些數據若不能令預測更加高效,他就不會讓這些數據進入預測模型。
別以為這樣就可以預測奧斯卡獎了。事實上,奧斯卡的預測迥異于政治預測。因為相對于政治數據而言,奧斯卡的原始數據非常有限,缺乏投票數據后,預測市場數據將更加艱難。另一個難點在于,奧斯卡共有24個獎項,共需預測24個類別的結果,獎項結果之間又會相互影響形成所謂的突發事件。例如最佳影片獎和最佳改編劇本獎之間有著強烈的相關性,所以《林肯》和《逃離德黑蘭》在這兩部影片的獲獎可能性趨勢波動相似。
團隊作戰是羅斯柴爾德的另一個秘笈。他慶幸沒有與其他的經濟學家一樣進行著枯燥無味的學術研究,而是來到了微軟紐約研究院,并與同事優勢互補。毫無疑問,在傳統印象中,數據預測似乎是永無止境地面對電腦,宅在辦公室。但對羅斯柴爾德而言,數據可以讓他接觸到更多的人。即使在吃午飯的時候,他也能與同事的隨意討論中,蹦出許多新鮮想法。
一個可以佐證的案例是他曾需在45天內完成75萬次采訪,提出數百個問題。如此龐大而繁瑣的數據處理令其手足無措。同事聽說后則幫他建立系統自動程序,通過編程就能輕松解決困惑。此外,團隊中還有社會學家和心理學家,能夠設計真正有效的圖形和計算機界面捕捉用戶心理,搜索專家亦會幫助其研究社交媒體數據。羅斯柴爾德甚至可以根據研究需要,與微軟雷德蒙、北京、班加羅爾等研究院同事合作,隨時組建團隊。這種輕松的氛圍極易激發創造力,微軟很多產品均誕生于微軟研究院,例如Bing搜索、Windows 8等。
模型復制
羅斯柴爾德從事預測的目的并非只為好玩。
要知道每次美國總統大選,各黨派都會投入數十億美元的競選資金。如果有更加經濟的方法提供更加準確的預測,就可以更加高效地分配資源,把這批經費用于最為需要的地方。而對奧斯卡這種娛樂項目的預測,最大的意義在于令羅斯柴爾德根據反饋結果,嘗試不同類型的數據建模。
令他興奮的理由是奧斯卡數據建模被證明是可擴展的。他可以繼續用此類方法來研究其他問題,例如Windows 8是否會大賣。此類商業化應用比預測公眾事件更加復雜,但亦是其未來的預測方向之一。雖然羅斯柴爾德并未命中本屆奧斯卡的所有獎項,但他仍然堅信自己的數據模型是同類中最好的。
“我的目的不僅是更準確地預測政治或娛樂事件,而是用這些測試來驗證我的模型。這樣我就能繼續預測難度更高的商業和經濟問題。” 羅斯柴爾德對《環球企業家》說。
與微軟其他產品的合作,亦是其將研究投入實踐的方式之一。他曾利用Xbox組織民意調查,亦曾利用Bing收集民調數據及社交網絡數據。借助微軟云計算產品Office365的數據可視化,羅斯柴爾德的研究成果已被廣泛運用。現在如果想提前知道奧斯卡最佳女主角是誰,不妨通過一款名為“奧斯卡預測器”的Excel應用瞧瞧專業預測網站PredictWise的預測結果。
上述可能引發公眾對隱私保密的憂慮。但羅斯柴爾德并不擔心。他認為微軟研究院對用戶隱私有著嚴格的保護,更重要的是類似于政治、娛樂這類公眾化問題,不會涉及用戶的私人數據。現實的情況則是羅斯柴爾德常苦惱于現有的數據資料太多而不知如何選擇,而非數據匱乏。
目前大數據仍未充分應用于回答人們未來所真正關注的問題,通常只回答過去人們關心的問題。這是從事此類數據預測最易犯的錯誤。社交媒體提供了大量的數據,但數據越多,并不代表其越有用。“的確,數據可以回答越來越難的問題,但過程會比想象中慢很多。” 羅斯柴爾德解釋說。
但顯而易見,上述問題并不會阻礙羅斯柴爾德探尋大數據的準確性和應用范圍。羅斯柴爾德希望回答的是在未來5至10年里,什么形式的數據對人們最有價值。
值得一提的是,精準數據預測也存在著社會風險,現在并沒有標準答案。未來大數據預測究竟會朝著更加精準的方向進化,還是像《連線》雜志前主編凱文·凱利(Kevin Kelly)所說的“只是由經驗規則引導的有限的前瞻”?一切尚待檢驗。