張開秋 段雪蓮
2012年,Twitter上每天發布超過4億條微博,Facebook上每天更新的照片超過1000萬張,Farecast公司用將近10萬億條價格記錄來預測機票價格,準確率高達75%,采用該系統購票,平均每張機票可節省50美元。2011年,麥肯錫公司對全世界大數據的分布作了一個研究和統計,中國2010年新增的數據量約為250PB,而歐洲約為2000PB,美國約為3500PB,大數據已經滲透到了人類經濟社會生活的各個方面。如何獲取、聚集、分析大數據成為廣泛關注的熱點問題。
一、大數據的概念與特點
大數據是一個較為抽象的概念,至今尚無確切、統一的定義。在維基百科中關于大數據的定義為:大數據是指利用常用軟件工具來獲取、管理和處理數據所耗時間超過可容忍時間的數據集。
(一)數據量大
數據量大是大數據的基本屬性。首先,隨著互聯網的廣泛運用,數據獲取、分享變得相對容易。其次,隨著各種傳感器數據獲取能力的大幅提高,人們獲取的數據越來越接近原始事物本身,描述同一事物的數據量激增。此外,數據量大還體現在人們處理數據的方法和理念發生了根本的改變。
(二)數據類型多樣
數據類型繁多,復雜多變是大數據的重要特性。大數據與傳統數據處理最大的不同就是重點關注非結構化信息,大數據關注包含大量細節信息的非結構化數據,強調小眾化、體驗化的特性使得傳統的數據處理方式面臨巨大的挑戰。
(三)數據處理速度快
要求數據的快速處理,是大數據區別于傳統海量數據處理的重要特性之一??焖僭鲩L的數據量要求數據處理的速度必須相應的提升,才能使得大量的數據得到有效的利用,否則不斷激增的數據不但不能為解決問題帶來優勢,反而成了快速解決問題的負擔。對不斷激增的海量數據的實時處理要求,是大數據與傳統海量數據處理技術的關鍵差別之一。
二、大數據要解決的核心問題
大數據的處理包括:獲取與特定的應用相關的有用數據,并將數據聚合成便于存儲、分析、查詢的形式;分析數據的相關性,得出相關屬性;采用合適的方式將數據分析的結果展示出來等過程。
(一)獲取有用數據
對于實際應用來說,并不是數據越多越好,獲取大量數據的目的是盡可能準確、詳盡的描述事物的屬性,對于特定的應用數據必須包含有用的信息,擁有包含足夠信息的有效數據才是大數據的關鍵。
(二)數據分析
數據分析是大數據處理的關鍵,大量的數據本身并沒有實際意義,只有針對特定的應用分析這些數據,使之轉化成有用的結果,海量的數據才能發揮作用。
(三)數據顯示
數據顯示是將數據經過分析得到的結果以可見或可讀形式輸出,以方便用戶獲取相關信息。將用戶與數據融合在一起,使用戶直接與繪制結果交互,便于用戶認識、理解數據。數據顯示以準確、方便地向用戶傳遞有效信息為目標,顯示方法可以根據具體應用需要來選擇。
三、大數據面臨的挑戰
實際上,大數據是一種新興的理論,大數據的概念、技術、方法還遠不成熟,在其發展的過程中還將面臨多種挑戰,不應過分夸大其先進性,我們還應看到其存在的不足。
(一)不能完全代替傳統數據
當前大數據尚不能完全取代傳統結構化數據,盡管大數據關注的非結構化數據的絕對數據量占總數據量的75%,但由于非結構化數據的價值偏低,有效的非結構化數據與結構化數據相比并不占絕對優勢,對于某些特定的應用,結構化數據仍然占據主導地位。
(二)數據保護
互聯網的發展使得獲取數據雖然十分便利,但也給信息安全帶來了巨大的挑戰。當前,數據安全形勢不容樂觀,需要保護的數據量增長已超過了數據總量的增長。首先,個人隱私更容易通過網絡泄露;其次,在國家層面大數據可能給國家安全帶來隱患,如果在大數據處理方面落后,就可能導致數據的單向透明。美國發布大數據研發計劃,大力發展大數據技術就有增強國家安全方面的戰略布置。
(三)相關性預知
大數據時代,數據不再是靜止和陳舊的,而是流動的、不斷更新的。大數據是人們獲得新的認知、創造新的價值的源泉,通過分析數據的相關性可能預知事物的發展方向,但不能希望通過大數據可以預知一切。
四、結語
隨著社交網絡、物聯網、云計算的飛速發展,大量非結構化數據呈指數級快速增長,數據樣式高度復雜,為人類認識世界、改造世界提供了重要資源。然而大數據的概念和相關技術還遠未成熟,尚存在著一定的爭議,面臨著諸多挑戰。我國是僅次于美國的數據大國,而我國大數據方面的研究尚處在起步階段,如何開發、利用保護好大數據這一重要的戰略資源,是我國當前亟待解決的問題。
(作者單位:西華大學經濟學院)