大數據時代,視野可以更廣闊,請不要錯過它
谷歌、亞馬遜、Facebook,這些稱霸全球互聯網的企業成功的共同要素是什么?是商業模式的創新還是技術的領先?或許都有,但成功的共同要素是大數據以及基于大數據的數據分析能力。作為最近兩年的高出鏡率詞匯,什么是大數據呢?
舍恩伯格在《大數據時代》中對大數據的定義簡潔而清晰:所謂大數據就是大量的數據。那么,究竟多少數據才稱得上“大量”呢?日本野村綜合研究所的分析師城田真琴在《大數據的沖擊》一書中對大數據的表述是:用現有的一般技術難以管理的大量數據的集合。可見,當數據量達到“現有一般技術難以管理”時,它們就足夠“大”了。所謂“用現有的一般技術難以管理”,舉例來說,就是用目前在企業數據庫占主流地位的關系型數據庫無法進行管理、具有復雜結構的數據。
更確切地說,幾帕字節(10^15)到幾埃字節(10^18)的數據量才可謂“大”。當然,從多樣性的角度來說,除了傳統的銷售、庫存數據,現在企業所采集和分析的數據還包括網站的日志數據、呼叫中心通話記錄、微博等社交媒體中的文本數據、智能手機內置GPS所產生的位置信息,甚至還有圖片和視頻。另外,數據產生和更新的頻率,也是衡量大數據的一個重要特征。例如,日本全國公路上安裝的交通堵塞探測器和路面狀況傳感器每時每刻都在產生著龐大的數據,波音客機的引擎每秒也產生數個GB的數據。
大數據最大的用途之一是預測。大家都對航班晚點痛苦不已,怎么才能提前知道我訂的航班是否會晚點呢?FlightCaster網站可以讓你提前知道航班的晚點概率。這家美國公司的預報是基于交通統計局、聯邦航空局交通管制中心警報、美國氣象局和FlightStats(一個航班運行狀況信息的網站)的數據而發布的。FlightCaster能在航空公司正式發布晚點信息前6小時告訴你,你乘坐的航班“正點概率只有3%,輕微晚點概率14%,晚點一個鐘頭以上的概率是83%”。這家網站所采用的是過去十年上述單位保存的龐大統計數據,通過人工智能分析,得出準確率高達90%的預測。至于過去十年數據和未來某次航班是否晚點之間有何因果關系,暫時并不能解釋清楚——這便是大數據的另外一個特征:用相關關系取代因果關系。
對個人用戶而言,大數據還可以預測機票價格走勢,為自費旅游者省錢;預測交通擁堵情況,幫助人們選擇更好的時段和路線節省出行時間;也可以像亞馬遜那樣,為你提供更準確的書單,幫你發現更多好書。谷歌還通過分析用戶的搜索關鍵詞,預測出了2009年禽流感在美國本土的嚴重程度以及未來的流行趨勢,成功幫助衛生部門抑制住了疾病的大規模爆發。
現代商業環境變化十分劇烈,對于企業,在大數據時代做好準備,利用好大數據尤為重要。如著名文具制造商萬寶龍,通過分析監控攝像機的數據,將最想賣出去的商品擺到最容易吸引顧客目光的位置,使得銷售量提高了20%。
通過運用過去無法獲取的數據來催生新的服務,這才是人們對未來大數據時代的最大期望。