

大數據是近兩年最熱門IT概念之一。
進入2012年以來,這個領域的風潮逐漸從專業IT人士和數據分析師,擴散到所有關注科技、互聯網以及營銷領域的人群中,甚至還包括政界人士。而2013年,也被許多國外媒體和專家稱為“大數據元年”,如此看來,2012年應該是大數據正式啟蒙之年,而一系列標志性事件的發生和建立,讓人們越發感覺到大數據時代的力量。
回到2012年2月,《華爾街日報》發表文章《科技變革即將引領新的經濟繁榮》,文中罕見地做出大膽預見:“我們再次處于三場宏大技術變革的開端,它們可能足以匹敵20世紀的那場變革,這三場變革的震中都在美國,他們分別是大數據、智能制造和無線網絡革命。”
在中國硅谷之稱的中關村,大數據產業已經納入《中關村戰略性新興產業集群創新引領工程(2013-2015年)》,將開展云運營和大數據示范應用,建設云計算應用支撐平臺、虛擬化平臺,支持開展海量數據存儲、數據挖掘和分析等技術的行業應用,以及大規模云運營服務和大數據挖掘服務。甚至2012年12月13日被命名為首個“中關村大數據日”,中關村示范區接連成立大數據產業聯盟、發布三支產業投資基金,支持中國大數據產業發展。
這并不稀奇。事實上美國奧巴馬政府已經把“大數據”上升到了國家戰略的層面。今年3月,奧巴馬政府宣布投資2億美元啟動“大數據研究和發展計劃”,希望增強收集海量數據、分析萃取信息的能力。另據一份報告顯示,英國政府通過高效使用公共大數據(Big Data)每年可節省330億英鎊。這個數字相當于英國每人每年節省500英鎊。事實上在國家層面,大數據已經成為繼邊防、海防、空防之后,第四個大國博弈的空間。
一個關于大數據價值的核心的邏輯是,這種背景下,在商業、經濟、政府及其他領域中,決策行為將日益基于數據和分析而作出,而并非基于經驗和直覺;而在公共衛生、經濟預測等領域中,“大數據”的預見能力也已經嶄露頭角。
數據商業與技術爆發
關于大數據領域最經典的案例再也不是老掉牙的“啤酒與尿布”,而是來自一位美國少女。
今年年初,美國一名男子闖入了他家附近的Target店鋪(美國一家零售連鎖超市)。“你們怎么能這樣!”男人向店鋪經理大吼到,“你們竟然給我17歲的女兒發嬰兒尿片和童車的優惠券,她才17歲啊!”店鋪經理不知道發生了什么,立刻向來者道歉,表明那肯定是個誤會。然而,經理沒有意識到,公司正在運行一套大數據系統。但高潮是,一個月后,這個憤怒的父親打來電話道歉,因為Target發來的嬰兒用品促銷廣告并不是誤發,他的女兒的確懷孕了。
在這個案例中我們看到,數據的力量,不僅讓商家提升了自己的業績,還讓客戶為之心甘情愿買單。據報道,Target創建了一套女性購買行為在懷孕期間產生變化的模型,不僅如此,如果用戶從他們的店鋪中購買了嬰兒用品,Target在接下來的幾年中會根據嬰兒的生長周期情況定期給這些顧客推送相關產品,使這些客戶形成長期的忠誠度。
事實上在商業零售領域,諸如沃爾瑪、Tesco等巨頭已從數據中獲得了巨大的利益,也因此鞏固了自己在業界的長盛不衰。
在互聯網行業中,大數據更是為電商、廣告商們提供了豐厚的回報。雅虎于 2008 年初便開始啟用大數據技術,每天分析超過 200PB 的數據,使得雅虎的服務變得更人性化,更貼近用戶和客戶。它與雅虎 IT 系統的方方面面進行協作,包括搜索、廣告、用戶體驗和欺詐發現等。AOL 也設立了 300 節點的服務器集群,將在其下屬系列網站(如 AOL.com、Huffington Post、MapQuest 等)中每天 500TB 的用戶瀏覽信息收集起來,分析和預測這些用戶的行為,以便有針對性的為每個月 1.8 億獨立用戶進行個性化廣告服務。
當然,視數據為生命的不僅限于這些每天產生海量數據的零售和互聯網行業,在生物醫藥、運動產品、能源甚至政務領域,數據越來越成為最不可或缺的價值。而支持其被后爆發的,則是大數據技術的迅猛發展。
一方面,數據量的爆發增長和數據結構的多樣性,使得傳統的關系型數據庫技術已無法滿足這些需求,但上世紀末出現的NoSQL技術一開始并未得到廣泛應用,直到2009年,在搜索引擎、社交網絡等互聯網應用盛行使得數據量迅猛增加后,才開始為人們所重視并投入使用。發展到今天,NoSQL技術已經形成了一系列不同用途的數據庫管理系統,
2004年初,Google開始研發BigTable非關系型數據庫系統,它是建立在Google文件系統之上的一種壓縮的、高擴展的數據庫技術,可以讓Google對于自身新增業務處理進行低成本的擴展。而BigTable這一模型,啟發了眾多“后來者”的數據技術。目前最為火熱的Hadoop便是其中一員。這個由雅虎的前員工Doug Cutting(現任職于Cloudera公司)最初負責開發的項目,已成為大數據行業的技術中心。
在Hadoop生態中,2008年成立的Cloudera是最早將其商用的公司,它為合作伙伴提供Hadoop的商用解決方案,其中包括IBM、甲骨文(Oracle)、微軟、EMC、Teradata等行業領先的數據解決方案提供商,使得NoSQL技術成為現存SQL數據解決方案的強有力補充;同時IBM、SAP、EMC等巨頭也紛紛推出相應產品,來適應其客戶數據業務的爆發增長。時至今日,Hadoop技術以及被廣泛應用了各大互聯網公司,這個名單包括Facebook、亞馬遜、蘋果、AOL、Ebay、Twitter、Netflix、淘寶、百度等等。
數據資產與“金融風暴”
在今年年初的瑞士達沃斯論壇上,一份題為《大數據,大影響》(BigData,BigImpact)的報告宣稱,數據已經成為一種新的經濟資產類別,就像貨幣或黃金一樣。在這個邏輯下,在大數據時代,傳統的商業思想正在被顛覆。
在過去,衡量企業最重要的資產無外乎土地、流動資金和人才等幾個要素,如今,數據作為企業一項更加重要的資產將直接關系到企業的發展潛力。這意味著,在完成對企業智商和核心資產的重塑之后,數據資產正在當仁不讓地成為現代商業社會的核心競爭力。
但大數據時代數據本身的資產價值也許還不止于此。
國內資深IT人士、大數據研究專家謝文撰文稱,大數據將逐漸成為現代社會的基礎設施的一部分,和公路,鐵路,港口,水電,通訊網絡一樣不可或缺。謝文表示,就其價值特性而言,大數據卻和這些物理化的基礎設施不同,不會因為人們的使用而折舊和貶值。例如,一組DNA可能會死亡或毀滅,但數據化的DNA卻永存。所以,舍恩伯格贊同許多物理學家的看法,世界的本質就是數據。謝文認為,大數據時代的經濟學、政治學、社會學和許多科學門類會發生巨大的甚至是本質上的變化和發展,進而影響人類的價值體系,知識體系和生活方式。
2011 年 11 月,曾投資Facebook、DropBox、Cloudera、沃爾瑪等200多家公司的硅谷著名風投機構阿克塞爾合伙人公司(Accel Partners),宣布成立一個金額 1 億美金的大數據基金,專注于投資兩種類型的數據創業公司:建設包括存儲、安全和管理在內的新型架基礎構類公司,以及在基礎架構之上進行如 BI、行業應用、移動應用等開發的公司。
事實上從2008年起,美國IT領域有關數據服務相關的投資、收購案例開始迅速爆發,總價值超過千億美元,包括SAP、IBM、EMC、甲骨文等IT巨頭都在這個領域下了重注。而在2012年資本寒冬期,大數據成為唯一一個綠意盎然的領域。今年 4 月,成立于 2003 年的數據軟件公司Splunk在納斯達克以16億美元的市值上市,更是給大數據行業打了一管興奮劑。
人才市場的動向也頗具說服力。根據麥肯錫旗下研究部門麥肯錫全球學會(McKinsey Global Institute)2011年發布的一份報告顯示,預計美國需要14萬-19萬名擁有“深度分析”專長的工作者,以及150萬名更加精通數據的經理人,無論是已退休人士還是已受聘人士。而Gartner近期一份報告則預測,由于大數據熱潮的出現,全球大約會新增440萬個IT職位,這個數字十分驚人,但“不是所有需求都會滿足,數據分析人才缺口仍然很大。”
數據價值與預測未來
全球范圍來看,大數據體現的巨大經濟價值,成功地獲得了金融界和政界的親睞。
據麥肯錫報道,大數據為美國的醫療服務業每年節省3000億美元,為歐洲的公共部門管理每年節省2500億歐元,為全球個人位置數據服務提供商貢獻1000億美元,幫助美國零售業凈利潤增長60%,幫助制造業在產品開發、組裝等環節節省50%的成本。
此外,全新的、更具競爭力的商業智能服務,這也是大數據最為吸引人的地方之一。傳統數據倉庫的性能已無法應付龐大的信息,但是大數據(Big Data)技術使我們能夠訪問和使用這些寶貴的、大規模數據集以應對越來越復雜的數據分析和更好的商業決策制定——大數據將改變商業智能 (BI)的布局,并能為企業提供一種有價值的數據源,這在當下已經成為了一種趨勢。
在此之上,則是關于“預測未來”的想象空間,但這并非神話——全球復雜網絡權威巴拉巴西則認為,人類行為93%是可以預測的。
一個經典的“預測未來”案例來自在數據領域久負名氣的ParAccel。它最成功的案例之一是向美國執法機構提供數據分析能力——ParAccel通過了一些渠道獲得不少犯罪數據,并對15000個有犯罪前科的人進行跟蹤,從而向執法機構提供了參考性較高的犯罪預測。所以ParAccel也被成為“犯罪的預言者”。
5月18日Facebook上市時,社交媒體監測平臺DataSift宣布:Twitter上每一次情感傾向的轉向都會影響Facebook股價的波動,延遲情況只有幾分鐘到20多分鐘——它成功預測Facebook上市當天股價的走勢。
另一個“恐怖”的斷言是:“大數據”所能帶來的巨大商業價值,將引領一場足以匹敵20世紀計算機革命的巨大變革——這個結論并沒得到所有人的認可,但似乎沒人否認,2012年,大數據時代已經“降臨”。