2013年,“大數據”這一概念以奪目之勢走進了我們的視野,學者在介紹,政府官員在談論,世界互聯網企業則紛紛啟動“大數據”競爭,有媒體將其稱為“大數據元年”。時至2014年,大數據正由技術熱詞變成一股社會浪潮乃至國家戰略。
今年2月,暢銷書《大數據:正在到來的數據革命》的作者——旅美華人學者涂子沛,做客鳳凰視頻世紀大講堂欄目,并預測未來5年內,大數據會在中國遍地開花。
一個真正的信息社會。首先是一個公民社會
頭一回在美國上統計課,在國內政府部門做過近10年數據統計工作的涂子沛覺得“眼前一亮”。
這一講的內容是統計學的意義。大胡子的印度裔教授一本正經地對學生們說:“我們信靠上帝。除了上帝,任何人都必須用數據來說話。”
教授大膽的觀點一下子震撼了中國學生涂子沛。在他的印象中,數據往往被當成論證工具,更像是一種“證明領導意圖的手段”。
但在這里,“數據”二字似乎有另一重含義。
2007年底,奧巴馬訪問了谷歌公司的總部。作為他的支持者,涂子沛在視頻網站上觀看了這次演講。
“人民知道得越多,政府官員才可能更加負責任。”當時這位總統候選人一上來就表達了建設開放政府的決心。
面對谷歌公司的員工,奧巴馬繼而雄心勃勃地說:“我將把聯邦政府的數據用通用的格式推上互聯網。我要讓公民可以跟蹤、查詢政府的資金、合同、專門款項和游說人員的信息。”
涂子沛記得,演講在此時被熱烈的掌聲所打斷。
這是涂子沛第一次將“公民權利”這樣的大詞與“數據”聯系起來。也正是從那時起,這個從卡內基·梅隆大學畢業、并已經在一家美國公司就職的數據庫程序員萌生了一個系統的寫作計劃。
2011年12月,涂子沛將21萬字的書稿寄給國內幾家出版社。
一家出版社的編輯對他說:“不管別人開出什么樣的條件,我們都要。”而另一家出版社的主編則給涂子沛回復了一封郵件,寫道:“這是一本中國社會需要的書。”
2012年7月,《大數據》一書出版。翻開這本以0和1的二進制代碼圖案為封面的新書,扉頁上的題記別具一格:“一個真正的信息社會,首先是一個公民社會。”
“大數據”這一概念便迅速以奪目之勢走進了我們的視野。
“什么是大數據?”初次接觸大數據的人們最好奇的就是這個問題。
涂子沛解釋,這首先是對信息爆炸時代的嶄新描述。“如果把2013年全世界預計將存儲的數據總量全部記在書里,那么這些書可以覆蓋整個美國52次。如果將這些數據存儲在只讀光盤上,這些光盤可以堆成五堆,每一堆都可以伸到月球。”
不過在涂子沛看來,僅僅用數量之大解讀大數據不夠完整,能量之大才是大數據這枚硬幣的另一面。一個經典的案例是,在甲型HINI流感爆發前幾周,谷歌公司通過觀察5000萬條美國人最頻繁檢索的詞條數據,發現“哪些是治療咳嗽和發熱的藥物”這一主題的檢索頻率大增,進而準確預測了流感的發生及傳播范圍。
“面對海量數據,誰能更好地處理、分析數據,誰就能真正搶得大數據時代的先機。”這是涂子沛對大數據威力的評價。
美國是怎樣做的
涂子沛在美國匹茲堡市一家聯邦政府的合同商公司做程序員,每天面對的東西都是數據、代碼或大大小小的表格。
但無論從哪個角度觀察,他都不是一個單純的IT行業的從業者。涂子沛愛讀劉瑜和陳丹青的書,和匹茲堡大學著名史學教授許倬云是好朋友,還會在一個人開車的時候聽幾段古典詩詞的朗誦。他的房間里,大部頭的編程書籍和不少從國內帶來的人文類圖書整齊碼放在書架上。書房的窗外,大樹的樹葉伸手可及,他喜歡對著一片新綠寫作。
上世紀70年代初,涂子沛出生在一個法官家庭。因為從小看父親斷案,他很早就開始思考什么是“正義”這樣的大問題。90年代中期,他進入當時的華中理工大學讀書。學校里有人文講堂的講座活動,這個計算機專業的學生是最忠實的擁躉之一。講座結束后,他常會在昏暗的路燈下追著講師們請教問題,直到老師的家門口。
時任中國人民大學副校長的謝韜也來過人文講堂。當時他給涂子沛簽名并留下這樣一句贈語:“要做新世紀國家的建設者。”
年已不惑的涂子沛至今仍然保留著這份情懷。他在博客上記錄匹茲堡市的學生們如何因為征稅問題質詢市長,也寫下這里的市民對阻止他們游行的匹茲堡警方怎樣提起集體訴訟。
隨后,看到奧巴馬2007年在谷歌公司的演講開始,涂子沛才意識到,原來自己一直關心的“公平正義”,竟然與每天朝夕相處的數據有著如此緊密的聯系。
在此以前,和大部分人一樣,涂子沛更愿意從技術層面去關注什么才是“大數據”——這是對信息爆炸時代的嶄新描述。它的基本單位是“太”(TB),而1000個太則等于一“拍”(PB)。打個直觀的比方,美國國會圖書館是世界上最大的圖書館之一,它所有印刷品的信息量加起來只有15太。而全美國僅在2010年一年的新增數據量就足足有350啪,這比13億中國人人手一本1500頁的書加起來的信息量還要大。
麥肯錫咨詢顧問公司曾做出估測,未來數據仍然會以每年50%的速度增長,美國還需要14萬至19萬名擁有“深度分析數據”專長的工作者。
涂子沛便是其中之一。他會在自己的專欄文章中記錄那些數據改變商業的故事:比如,沃爾瑪的研究人員通過數據挖掘,發現四成左右的年輕爸爸在購買嬰兒尿布時會順手買點啤酒犒勞自己,便對這兩種商品進行了捆綁銷售,結果銷售量雙雙增加。更夸張的事例是,一個高中女孩某天突然收到了超市寄來的嬰兒服廣告,父親大為光火,但就在超市公開道歉幾天后,這位父親發現自己的女兒真的懷孕了。原來,超市已經可以通過顧客的食品消費數據做出趨勢判斷。
數據挖掘已經在美國形成了一條完整的產業鏈,不少大學還設立了相關的碩士學位。
2009年1月17日,新任美國總統奧巴馬主持內閣的宣誓儀式并發表講話。“很長時間以來,我們已經習慣了為華盛頓這個城市蒙上一層神秘的面紗,但從今天起,我們將不再沿承舊例。”
“為了引領一個開放政府的新時代,面對信息,政府機關的第一反應必須是公開。這意味著我們必須堅定地公開信息,而不是等待公眾查詢。所有的政府機關都應該利用最新的技術推進信息公開,這種公開,應該是及時的。”
這一天,奧巴馬伏案用他標志性的左手姿勢簽署了他的首份總統備忘案《透明和開放的政府》。120天后,一個叫做Data,gov的網站正式上線發布。這是一個數據開放的門戶網站,旨在全面開放美國聯邦政府擁有的數據。
項目的負責人是維韋克·孔德勞,美國政府歷史上的第一位首席信息官。“這是一場數據民主化的運動,我們正在把信息的力量放到美國人民手中。”這個不到35歲的印度裔帥小伙同樣雄心勃勃。
事實上,作為雇用了約200萬名工作人員的全美最大雇主,聯邦政府共擁有848拍字節的數據總量。全世界最大的零售巨頭沃爾瑪,其數據庫大小還趕不上商務部下屬的美國普查局。
Data,gov的出現則為信息公開的發展注入了新的活力。截至2009年底,這個網站收到了社會各界約900項開放數據的申請。聯邦政府最后回復:16%的數據立即開放、26%將在短期內開放、36%將計劃開放,還有22%因為國家安全、個人隱私以及技術方面的限制無法開放。與此同時,行政管理預算局發布了《開放政府的指令》,命令各個聯邦部門必須在45天之內,至少再開放3項高價值的數據。
在中國。大數據會一步步改變我們的生活
《大數據》一書在國內出版后,涂子沛在一家圖書網站上看到了這樣一條推薦語:這里有中國的問題,這里有中國的財富,這里有中國的鄉愁。“當時就掉眼淚了。”曾經在邊防部隊生活過8年的涂子沛壓低聲音說,他平時車里放的歌就是羅大佑的《鄉愁四韻》。
與此同時,越來越多基于大數據技術產生的創意正在實實在在地進入中國人的生活。
涂子沛說,《大數據》出版后不久,時任中央政治局委員、廣東省委書記汪洋曾給省財政廳的全體干部推薦過《大數據》。汪洋講到馬云曾經對他說,現在數據就是競爭力:“你想不到全中國比基尼賣得最好的是哪幾個省,一般人認為肯定是廣東、海南。”
馬云隨即告訴汪洋,從淘寶數據上看,其實賣得最好的是新疆和內蒙古。他這樣解釋這種反常的相關性:估計每一個男人,都要給他的夫人、情人和對象一個美好的憧憬,“有一天我帶你去下海”。
“當然這是他的一種解釋,但是能反映什么呢,就是這些數據和你想象的不是一個概念。如果商家掌握了這個東西,其實你比基尼廣告的重點不要放在廣東做,你放到新疆、內蒙古去做啊,這效果可能就不大一樣了。”汪洋給出了自己的解讀。
曾經兩次去阿里巴巴交流的涂子沛說,阿里金融正在試圖通過大數據技術解決“小微企業融資難”的問題。“所有貸款都是通過信用貸款,不像銀行那樣需要房產或其他抵押品,也不需要走訪約談。因為他們會對客戶的所有行為數據進行挖掘分析,再決定是否放貸。”
而在最近半年余額寶橫空出世,“依靠大數據技術,IT企業也可以變成銀行,很難想象吧?”涂子沛笑著說,“在中國,大數據會一步步改變我們的生活。”
有媒體曾經報道過支付寶的數據科學家們每天的工作:他們會把客戶分成50個族群進行研究,其中有一個群體叫做都市輕熟男,還有一個群體叫千金美少女,而這些類型的劃分依據就是用戶在淘寶、天貓、支付寶和聚劃算中的付費行為數據。在能識別用戶之后,一個微妙的變化是,在寫商品推薦文字的時候,不再是過去那樣千篇一律地使用“親”作為開頭了。
類似的變化涂子沛也曾親身感受過。有一回在國內演講,他住在白天鵝賓館,賓館的信息部主任告訴他,這家賓館的信息部有收集用水量的習慣。有一年,原本平穩的用水量突然出現了大幅波動,工作人員經過分析排查發現,花壇下有個水管漏水很久,“是數據讓他們發現了問題”。
這一回,又一個與大數據有關的故事讓他眼前一亮。在華東師范大學,一名女生因為減肥,5月份的飯卡消費較少,沒想到竟然收到一條系統短信:“同學你好,發現你上個月餐飲消費較少,不知是否有經濟困難?如有困難,可電話、短信或郵件我。如無困難,也請回復一下,以便下月不再重復問詢。”
原來,這個消息來自學校的困難生預警系統,而這套系統正是基于學生飯卡消費的數據建成。涂子沛第一時間轉發評論:“華東師大用數據表達愛和關懷。”
在一次演講中,涂子沛曾這樣說道:“今天,數據已經無處不在,我們的衣食住行、喜怒哀愁、吃喝玩樂都以數據的形式存在。通過數據、網絡和軟件,我們用數據來記錄這個世界,再通過研究數據去發現這個世界。”
(本刊編輯綜合整理)