摘要:由于科學(xué)實(shí)驗(yàn)與互聯(lián)網(wǎng)的飛速發(fā)展,出現(xiàn)了大數(shù)據(jù)。對(duì)大數(shù)據(jù)進(jìn)行合理的分析和管理必將會(huì)推動(dòng)科學(xué)進(jìn)步和企業(yè)發(fā)展,也會(huì)為社會(huì)創(chuàng)造出更多、更新的成果。文章介紹大數(shù)據(jù)的概念與特征、產(chǎn)生源泉以及相關(guān)的技術(shù)問題。
關(guān)鍵詞:大數(shù)據(jù);復(fù)雜性;非結(jié)構(gòu)化
1.背景
近年,來(lái)自人們?nèi)粘I睿貏e是互聯(lián)網(wǎng)服務(wù)的數(shù)據(jù)量飆升。僅過去兩年間,新產(chǎn)生的數(shù)據(jù)就占到了全球數(shù)量總量的90%;預(yù)計(jì)到2020年,全世界需要管理的數(shù)據(jù)將達(dá)到35個(gè)ZB,其中主要包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理信息等各種類型,存儲(chǔ)在不同地域的各類服務(wù)器中。數(shù)據(jù)是重要的戰(zhàn)略資源,隱含著巨大的經(jīng)濟(jì)價(jià)值。通過對(duì)大量數(shù)據(jù)的交換、整合、分析與利用,我們可以發(fā)現(xiàn)新的知識(shí)、創(chuàng)造新的價(jià)值,形成大知識(shí)和大科技,帶來(lái)大利潤(rùn)和大發(fā)展。因此,多國(guó)政府已將數(shù)據(jù)提升為與水、石油、煤炭一樣的高度,并將擁有數(shù)據(jù)的規(guī)模和數(shù)據(jù)分析能力視為國(guó)家的核心競(jìng)爭(zhēng)力。
2.大數(shù)據(jù)科學(xué)與技術(shù)
2.1定義
大數(shù)據(jù)是指規(guī)模大、類型多、高變化率的數(shù)據(jù)集合。大數(shù)據(jù)的定義至少涉及容量、種類和傳輸速度三個(gè)要素。
如何快速訪問龐大的數(shù)據(jù),如何有效處理包含數(shù)千萬(wàn)個(gè)文檔、數(shù)百萬(wàn)張照片或者工程設(shè)計(jì)圖的數(shù)據(jù)集等,是大數(shù)據(jù)研究者面臨的挑戰(zhàn)。
2.2大數(shù)據(jù)產(chǎn)生的源泉
大數(shù)據(jù)主要來(lái)自互聯(lián)網(wǎng)世界與物理世界。
1)互聯(lián)網(wǎng)世界。
大數(shù)據(jù)來(lái)自人類社會(huì),尤其是互聯(lián)網(wǎng)的發(fā)展為數(shù)據(jù)的存儲(chǔ)、傳輸與應(yīng)用創(chuàng)造了基礎(chǔ)與環(huán)境。……