999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據思維尚未形成

2014-04-29 06:37:01TimHarford
新營銷 2014年7期

Tim Harford

5年前,谷歌的一個研究團隊在著名科學期刊《自然》上發布了一項令人矚目的研究成果:不需要任何醫療檢驗結果,該小組能夠追蹤到當時擴散在全美的流感趨勢,而且追蹤速度比美國疾病控制中心(CDC)要快得多。谷歌的追蹤只比流感爆發晚了一天,而CDC卻花了一周甚至更多的時間來匯總一張流感傳播趨勢圖。顯然谷歌的速度更快,因為它通過尋找“在線搜索”和搜索“人是否患有流感”二者之間的相關性和規律,成功追蹤到流感傳播的趨勢。

谷歌流感趨勢不僅快速、準確、成本低,而且不需要任何理論支持。谷歌的工程師沒心思開發一套假設理論研究什么樣的詞條可能和疾病有關,而是挑出5000萬條最靠前的詞條,讓搜索法則自行運算,得出結果。由此,谷歌流感趨勢成為商業界、技術界、科學界具有代表意義的“大數據”成功案例。

正如許多流行語一樣,“大數據”是一個含糊不明確的詞語,經常被人們信手拈來又隨手拋去。有人會特別提到數據組的規模,例如Large Hadron Collider的電腦,一年能夠儲存15 千兆字節,相當于音樂播放1500年留下的數據。實際上,吸引了眾多公司注意力的“大數據”可以被稱作“尋獲的數據”,其發生在網絡搜索、信用卡支付、手機感應到最近的電話信號平臺。比如谷歌流感趨勢就是建立在已經被尋獲的數據上的,這樣的數據組可以更龐大。值得注意的是,相對于龐大的規模,數據的收集實際上很便宜。現代社會隨著人們的溝通、休閑和商務活動都轉移到網絡(包括移動網絡),生活在以一種十年前難以想象的方式,被記錄和被量化。數據點的隨意拼貼,收集起來用于不同的目的,同時可以實時更新。

如何捕捉大數據

大數據的擁護者們總結出了四個結論,而每一條都存在于“谷歌流感趨勢”的成功案例中:1. 數據分析產生了驚人的準確結果;2. 每一個數據點都可以被捕捉,這使得過去的統計抽樣技術顯得十分過時;3. 數據背后的原因糾結顯得過時,因為數據的相關性已經告訴了我們需要知道的信息;4. 科學或數據模型是不需要的。

雖然大數據向科學家、企業家以及政府展現出了光明前景,然而這四條理論完全是出于最樂觀、最單純的角度,如果忽略了一些過去的經驗教訓,它也注定會讓人們失望。在關于谷歌流感趨勢預測的文章發表4年以后,《自然》雜志報道了一則壞消息:在最近的一次流感爆發中谷歌流感趨勢不起作用了。雖然過去幾年的冬天,谷歌流感趨勢信心滿滿地提供了一系列迅速準確的流感爆發情況統計信息。但不知從何時開始,這個模型漸漸失去對流感的靈敏嗅覺。在谷歌的模型數據中顯示將有一場嚴重的流感爆發,但當疾病防治中心最終將漫無邊際但依舊準確可靠的數據送達時,這些數據表明谷歌對流感疾病傳播情況的預測夸大了近兩倍。

問題是谷歌不知道甚至根本無法知道是什么原因將搜索詞條和流感的傳播聯系在一起。谷歌的工程師也并沒有試圖搞清楚背后的原因,他們只是簡單地尋找數據中的規律。比起前因后果,他們更在乎數據之間的相關性。這種情況在大數據分析中相當常見,但要想搞清楚前因后果很困難,不過搞清楚哪些數據是相互關聯的則成本更低,也更容易。因而,Viktor Mayer- Sch??nberger和Kenneth Cukier在他們的著作《大數據》中寫道:“在大數據分析中針對因果關系的探究不會被丟棄,但是它正漸漸撤出數據研究的主要基石地位。”

那些沒有理論支持而只著重于數據相關性的分析必然是脆弱且站不住腳的。如果人們不明白表象相關性背后的事情,那么就不會知道什么原因會導致那種相互關聯性的破裂。關于谷歌流感趨勢失敗的一種解釋,2012年12月的新聞里總是充滿了聳人聽聞的故事,而這些故事激發了那些健康人群在線搜索的興趣。另一個可能性解釋是,谷歌自身的搜索法朝令夕改,當人們輸入信息時,系統會自動提示診斷信息。

在過去的200年里,統計學家們一直致力于弄清楚是什么阻擋了人們單純地通過數據來理解這個世界。雖然當前世界數據的量更大,傳播速度更快,但是并非意味著過去那些陷阱都已經安全處理了,因為事實上它們并沒有消失。

大數據的偏差難題

1936年,共和黨人Alfred Landon參加和總統Franklin Delano Roosevelt一起的總統競選,知名雜志《文學文摘》肩負起了大選結果的預測責任。雜志社發起了一次郵政民調活動,目的在于將測驗送達1000萬人民手中,這個數字接近真實選民數的1/4。回復如洪水般涌來,雜志社很享受這種大范圍的任務。在8月末期,報道說:“下周,1000萬名選票中的第一批人將開始經歷候選人的第一輪,進行三次檢驗,核實,五次交叉分類和匯總。”

在統計了兩個月內收回的240萬張選票后,《文學文摘》最終發布調查結果:Landon將以55:41令人信服地贏得大選,其中有少數投票傾向于第三方候選人。但是競選最終卻呈現出非常不同的結果:Roosevelt以61:37的絕對優勢大勝Landon。讓《文學文摘》更郁悶的是,由民意調查先驅人物George Gallup實施的一個小范圍調查得出的結果卻和最終投票結果非常接近,成功預測了Roosevelt將輕松獲勝。由此可見,Gallup先生理解了《文學文摘》雜志社所不能理解的一些事:當談到數據時,規模不代表一切。

大體上來說,民意測驗建立在投票人群的取樣基礎上。這就意味著,民意測驗專家通常需要解決兩件事:取樣錯誤和樣本偏差。樣本錯誤反映了通過偶然方式選擇樣本帶來的風險,一個隨機選擇的民調樣本并不能反應人們的真實觀點,而民意測驗中體現出來的“誤差幅度”也體現了這種風險。樣本越大,誤差幅度越小。1000個受訪者的樣本數據已經足夠成為很多調查目的的樣本,Gallup先生的民意測驗據說采納了3000個受訪者樣本。

如果說3000個受訪者樣本帶來的調查結果是對的,那么為什么240萬個樣本卻沒有呈現更正確的結果呢?答案是,取樣錯誤常常會伴隨著一個更危險的因素:樣本偏差。取樣錯誤是因為樣本的隨機選擇會導致該選擇樣本無法反映民眾的根本意圖;而樣本偏差則是樣本的選擇未經過篩選,而隨機選擇。George Gallup 不辭辛勞地尋到找了一個無偏差的樣本,因為他知道一個無偏差的樣本遠遠比一個數量龐大的樣本更重要。

相反,《文學文摘》卻忽略了可能產生的樣本偏差問題。一方面,它直接將調查表格寄給從汽車登記簿和電話本上獲得的人員名單,而這種方式獲得的樣本,至少當時在體現真實民意方面是比例失調的。另一方面,為了緩解問題的嚴重性,Landon的支持者們樂意于將自己的答案寄回。這兩個偏差因素結合在一起,使得《文學文摘》的民意測驗泡湯。因為收集到的數據組是那么凌亂,《文學文摘》即使想要搞清楚數據中潛伏著偏差因素也非常困難。此外,因為這些數據實在太龐大,一些數據分析師似乎認為取樣問題根本不值得擔心。

大數據思維的挑戰

《大數據》的合著者Viktor Mayer-Sch??nberger教授認為,他所傾向的大數據組的定義是:N=All。大數據前提下無需取樣,我們已擁有具備所有背景的人群。當N=All,就說明的確不存在取樣偏差,因為樣本中包含了所有人。但“N=All”是不是對大多數尋獲數據的最佳描述?也許不是。“一個人能夠擁有所有數據,我對此表示懷疑。”英國倫敦大學學院數據統計學教授、計算機科學家Patrick Wolfe如此說。

Twitter就是一個例子。原則上,通過記錄和分析Twitter上的每一條信息,并通過分析結果判斷公眾輿情是有可能的。事實上,大多數研究人員都在使用那些大數據中的一部分,但是當我們可以看到所有Twitter信息,使用者從整體來看并不具備全體民眾的代表性。所以,《數字常識》一書的作者及數據分析師Kaiser Fung提醒,不能簡單地認為我們已經將所有重要因素考慮在內了,“N=All,很多時候只是一個針對數據的假設,而不是事實”。那么,當面對一大堆雜亂五章的數據信息時,人們更應該理清頭緒。

波士頓當地研發的一款智能手機APP Street Bump,通過手機的加速度傳感器探測路面上的凹坑,而不需要城市工人通過街面巡查發現凹坑。隨著波士頓市民紛紛下載該款APP并且開著車四處轉悠,他們的手機自動提示市政廳是否需要對城市街道表面進行修復工作。這個過程通過技術解決難題,創造出了信息量龐大的“數據排放”,而這些數據正好以一種不可思議的方式解決問題。波士頓政府驕傲地宣稱:“數據為這座城市提供了實時的信息監控,而這些信息又可以用來解決城市問題和規劃城市的長期投資項目。”

實際上,Street Bump程序產生的是一張路面凹坑的城市分布圖,這些圖更多是系統地分布于富裕地區,因為這些地區有更多人擁有智能手機。可以說,Street Bump提供了一個N=All的情況,即每部手機探測到的每一個路面凹坑都能被記錄下來。這和記錄每一個路面凹坑的情況是不一樣的。微軟研究院的科學家Kate Crawford指出,尋獲數據中包含著的系統偏差,需要仔細思考才能發現和糾正。大數據組看起來具有全面綜合性,但“N=All”常常造成相當有迷惑性的錯覺。

目前,極少有案例對于大批量數據的分析最終帶來奇跡。劍橋大學教授David Spiegelhalter談到谷歌翻譯軟件,這是“機器學習能力”的一個典型例子。該軟件是在分析數以億計的已翻譯作品中,尋找其中可以復制的翻譯服務,其“學習能力”讓谷歌翻譯軟件呈現讓人難以置信的處理結果,而不需要預先編入任何語法規則。“這是一項了不起的成就。”Spiegelhalter說,因為這項成就是建立在對大數據的明智處理的基礎之上。在他看來,谷歌翻譯就是接近于無理論支撐的,完全由數據驅動的數據運算黑盒子。

但是大數據無法解決那些糾纏了統計學家和科學家們幾個世紀的問題:洞察力,情況判斷,以及如何進行正確干預,從而改善系統。通過大數據得到這些問題的答案,還需要統計學發展的大步邁進。“現在我們仿佛又回到了西大荒時代,”倫敦大學教授Patrick Wolfe說,“聰明上進的人會輾轉反側,會想盡方法利用每一種工具從這些數據中獲取有利的價值,但是我們現在有點盲目沖動。”統計學家們正在竭力研究新的方法來抓住大數據中蘊藏的秘密。這樣的新方法非常關鍵,但是需立足于過去古老的統計理論基礎之上,這樣新方法才能起作用。

回顧大數據的四個信條,如果我們忽略了主動的錯誤訊息,那么很容易高估那些讓人覺得不可思議的高準確性。“數據中的因果關系已經漸漸撤出作為數據研究基礎的基石地位”,如果有人這么宣稱,那么沒有關系,前提是我們是在一個穩定的環境中進行數據預測。但是如果世界正處于一個巨變的環境中(例如正經歷流感傳播)或者如果我們自身希望對現實世界做些改變,那就不能這么說了。“因為N=All,取樣偏差不重要”,這種想法在大多數案例中都不成立。大數據時代已經到來,但是大數據思維尚未形成。現在的挑戰在于解決新的問題,獲得新的答案,但是前提是不要在更大范圍內犯過去的統計錯誤。

主站蜘蛛池模板: 2020亚洲精品无码| 黄色在线不卡| 欧美三级视频在线播放| 啪啪国产视频| 一级做a爰片久久毛片毛片| 亚洲欧美在线综合一区二区三区| 欧美日韩国产成人在线观看| 国产成人精品一区二区三在线观看| 国产福利拍拍拍| 狠狠色噜噜狠狠狠狠色综合久 | 四虎精品国产AV二区| 亚洲欧美另类中文字幕| 国产91无码福利在线| 波多野结衣在线se| 成人亚洲视频| 国产18在线| 日韩精品免费一线在线观看| 国产在线视频欧美亚综合| 国产精品无码一区二区桃花视频| 亚洲一级色| 精品無碼一區在線觀看 | 日日拍夜夜嗷嗷叫国产| 在线综合亚洲欧美网站| 国产原创第一页在线观看| 精品91在线| 幺女国产一级毛片| 久草热视频在线| 97亚洲色综久久精品| 黄色网在线免费观看| 国产91在线|中文| 婷五月综合| 奇米精品一区二区三区在线观看| 亚洲午夜片| 国产91av在线| 麻豆国产原创视频在线播放 | 亚洲成aⅴ人在线观看| 久久夜色精品国产嚕嚕亚洲av| 欧美五月婷婷| 久久特级毛片| 114级毛片免费观看| 女人18毛片水真多国产| 欧美综合成人| 国产午夜人做人免费视频| 97成人在线观看| 免费观看精品视频999| 国产在线观看91精品亚瑟| 亚洲男人在线天堂| 欧美激情伊人| 色悠久久久久久久综合网伊人| 午夜一区二区三区| 91破解版在线亚洲| 91在线无码精品秘九色APP| 亚洲首页在线观看| 日本久久久久久免费网络| 国产亚洲精品资源在线26u| 亚洲AⅤ波多系列中文字幕| 一级毛片基地| 色窝窝免费一区二区三区| 亚洲人成日本在线观看| 精品国产免费观看| 欧美一级夜夜爽www| 丁香六月激情婷婷| 久久国产高清视频| 色哟哟色院91精品网站| 亚洲成综合人影院在院播放| 国产亚洲成AⅤ人片在线观看| 久久久久国产一区二区| 国产精品制服| 色亚洲成人| 亚洲无码熟妇人妻AV在线| 国产精品久久国产精麻豆99网站| 蜜桃臀无码内射一区二区三区| 亚洲美女一区二区三区| 色婷婷狠狠干| 国产亚洲精久久久久久久91| 国产亚洲视频在线观看| 成人日韩视频| 亚洲成人一区在线| a毛片在线免费观看| 亚洲大尺度在线| 久久亚洲精少妇毛片午夜无码| 91欧美亚洲国产五月天|