摘要:由于科學實驗與互聯網的飛速發展,出現了大數據。對大數據進行合理的分析和管理必將會推動科學進步和企業發展,也會為社會創造出更多、更新的成果。文章介紹大數據的概念與特征、產生源泉以及相關的技術問題。
關鍵詞:大數據;復雜性;非結構化
1.背景
近年,來自人們日常生活,特別是互聯網服務的數據量飆升。僅過去兩年間,新產生的數據就占到了全球數量總量的90%;預計到2020年,全世界需要管理的數據將達到35個ZB,其中主要包括網絡日志、音頻、視頻、圖片、地理信息等各種類型,存儲在不同地域的各類服務器中。數據是重要的戰略資源,隱含著巨大的經濟價值。通過對大量數據的交換、整合、分析與利用,我們可以發現新的知識、創造新的價值,形成大知識和大科技,帶來大利潤和大發展。因此,多國政府已將數據提升為與水、石油、煤炭一樣的高度,并將擁有數據的規模和數據分析能力視為國家的核心競爭力。
2.大數據科學與技術
2.1定義
大數據是指規模大、類型多、高變化率的數據集合。大數據的定義至少涉及容量、種類和傳輸速度三個要素。
如何快速訪問龐大的數據,如何有效處理包含數千萬個文檔、數百萬張照片或者工程設計圖的數據集等,是大數據研究者面臨的挑戰。
2.2大數據產生的源泉
大數據主要來自互聯網世界與物理世界。
1)互聯網世界。
大數據來自人類社會,尤其是互聯網的發展為數據的存儲、傳輸與應用創造了基礎與環境。……