
2012年的美國總統大選讓誰聲名鵲起?從某種角度說,既不是獲選的奧巴馬,也不是落敗的羅姆尼,而是內特·希爾沃(Nate Silver)。
其原因是,在兩位候選人選情接近,誰也不敢妄下斷論時,他準確地預測出大選的結果——投票當天,希爾沃預測奧巴馬將有90.9%的機會獲得大多數選票,并非政治家們認為的所謂旗鼓相當。如果按州投票計算,希爾沃對美國50個州投票結果的預測全部正確。
“預言帝”的秘密,在于數據。他讓眾多企業看到了大數據應用的真實性和大數據行業化的希望。
大數據精彩無限?
如今,大批歐美企業對大數據應用趨之若鶩,谷歌、亞馬遜等利用收集到的大量客戶信息,為客戶量身定制各種個性化服務。不過,最典型的還是大數據招聘。即便因經濟衰退,美國的失業率高達兩位數,但還是有大量公司找不到既能勝任公司工作,又符合公司企業文化的員工。于是,大數據招聘應運而生。許多初創公司依靠強大的電腦技術以及互聯網上的數十億份簡歷信息來構建一種“獵頭算法”,它可以告訴用人單位,對于某一個特定的工作來說,什么樣的求職者才是最適合的。他們相信,這種算法會使企業的人才招聘變得既有效率,又節省成本,同時實現求職者和招聘方的雙贏。
互聯網起初的確使找工作輕松了不少。只需輕輕點擊幾次鼠標,求職者就可以同時申請十幾個職位,企業的招聘通知也能同時被很多人看到。有些大公司收到的簡歷數量甚至增長了五倍。同時它也會告訴求職者,這份工作是否適合自己。如果不適合的話,它還會告訴你為什么。
不過,很多業內人士對這項新技術持懷疑態度。他們認為,技術本身不是問題,問題是有些公司自己都不知道自己想要的是什么。有些東西就連招聘經理也不能用語言表達出來,要想量化這種無形的素質,幾乎是不可能的。即便真的可以做到這一點,用軟件來取代真人招聘,也是目光短淺的表現。經濟困難時期,向招聘者身上投入大量資金很難說得通,而且說到底,最適合招聘和評價頂級人才的,仍然是人,而不是電腦系統。
預測也能變災難
這時,我們需要希爾沃“及時”分享他的心得,他會談到總統大選時對手們的問題出在那里:大多數預判選舉的評論員并不會像希爾沃那樣仔細地去分析數據。有些人的判斷建立在自己的偏見之上,比如共和黨的評論員們會盡力找出各種各樣的證據,證明羅姆尼將贏得選舉;有些人會人云亦云,如果大家都說選情很接近,那么他們也會隨聲附和,選舉競爭一定很激烈;而有些人會刻意獨樹一幟,比如大家都認為奧巴馬會贏,那么把寶押在羅姆尼身上的人會受到更多關注。另外,評論員本身的利益驅動也使他們更愿意相信選票會很接近,因為只有在選舉還存在懸念的情況下,大眾才會不斷關注政治新聞。
希爾沃還舉例說明為何當初信用評級機構無法預判次貸危機。排除一些主觀因素,比如信用機構為自己牟利可以不顧實際情況,不負責任地給出AAA的評級等,其實真正問題在于,信用評級機構根本就沒有意識到,準確性和精準性是不同的概念。雖然其評價模型林林總總,包括了各種可能性下的各種細節,但這些模型本身就錯得離譜。這就好比在足球比賽中,有一名球員每次射門都能射中門框,這名球員的精準性可謂萬里挑一,但他對球隊的貢獻有多大呢?
很多大數據的研究者往往會忽略一個問題:數據并不能自我證明,不管數據規模有多大,數據仍是人類設計的產物。無論什么樣的大數據工具,如計算軟件框架等,并不能讓人們的思維避免偏移、中斷或出現錯誤假設。在大數據試圖反映我們的真實情況時,這些因素特別重要,然而我們經常被愚弄,“執著地”認為,計算結果比人類的觀念更客觀。
真正有用的預測,首先要收集大量信息,并作出客觀的假設,其后根據事實的發展,予以不斷調整。
事實也印證了希爾沃的說法,一些從事大數據研究的公司表示,篩查數據可以提供信息,但其前提是使用時要了解數據不能揭露的信息,大數據有大數據的偏見,因為它低估了測量不了的東西,比如直覺和感召力。由電腦系統做主是大勢所趨,但不能消除人的判斷,客觀真實的人為判斷是對系統進行修正的基礎。
希爾沃的忠告
令人鼓舞的是,近期一項對64個國家及地區1700名首席營銷官開展的調查顯示,面對大數據時代的到來,71%的企業還沒有做好充分準備來應對挑戰,這對國內的企業尤其是創新型企業來說,不啻為天賜良機。
但機遇并不等于成功,打算在大數據領域有所作為的企業管理者們應謹記希爾沃的忠告:社會的進步是一個艱辛的過程,而想要成為進步的推動者更是艱難無比。當你們著手解決一個問題時,切記保持專注。在多數情況下,我們無法處理龐雜無序的數據,擁有更多的信息并不意味著我們能更好地預測,也就是說,我們并不能夠對所有的東西進行很精準的預測,每當你給產品添加一項新功能時,你距離自己想要的回報就遠了一步。
“如果你是初創企業,不妨嘗試一些還沒有人涉足的領域,如果企業在這些領域擁有有效的數據,并可以提供相應的分析手段,那么更容易獲得成功。”希爾沃說。