樂(lè)佳
隨著云計(jì)算、人工智能的興起,使得數(shù)據(jù)實(shí)時(shí)準(zhǔn)確的分析成為了可能;這些都使得大數(shù)據(jù)成為了當(dāng)下最熱門(mén)的科技詞語(yǔ)之一。那么,什么是大數(shù)據(jù)?大數(shù)據(jù)到底有多大?嚴(yán)格來(lái)講,大數(shù)據(jù)是一種涉及數(shù)據(jù)的收集、存儲(chǔ)、分析、處理,從而提取數(shù)據(jù)背后價(jià)值的綜合性技術(shù),它不光包括海量的數(shù)據(jù)本身,還包括對(duì)這些數(shù)據(jù)的處理和應(yīng)用。
大數(shù)據(jù)的四個(gè)V
大數(shù)據(jù)通常被認(rèn)為具有如下四個(gè)特點(diǎn):大量(Volume),多樣(Variety),高速(Velocity),價(jià)值(Value)。由于這四個(gè)特征的英文首字母都是“V”,所以通常被稱(chēng)為大數(shù)據(jù)的“4V”特性。
大量(Volume):大量是大數(shù)據(jù)最顯著的特點(diǎn),也是很多人對(duì)于大數(shù)據(jù)最直觀的感受。根據(jù)IDC發(fā)布的《數(shù)據(jù)時(shí)代2025》白皮書(shū)中的統(tǒng)計(jì),2018年全球的數(shù)據(jù)量大約是33ZB,為了有一個(gè)更加直觀的理解我們做一個(gè)簡(jiǎn)單的換算:33ZB大約是354億TB,每天大概是9700萬(wàn)TB,我們現(xiàn)在每臺(tái)家用電腦的硬盤(pán)容量一般平均是1TB,也就是說(shuō)我們每天需要用9700萬(wàn)臺(tái)新的電腦來(lái)存儲(chǔ)我們每天產(chǎn)生的數(shù)據(jù)。而且隨著物聯(lián)網(wǎng)的興起,到2025年我們每年產(chǎn)生的數(shù)量預(yù)計(jì)可以達(dá)到175ZB,如下圖所示(注:圖片來(lái)源于《數(shù)據(jù)時(shí)代2025》)。
多樣(Variety):大數(shù)據(jù)的多樣性既包括數(shù)據(jù)來(lái)源的多樣性:個(gè)人計(jì)算機(jī)、平板、物聯(lián)網(wǎng)中的傳感器、各種智能終端等;也包括數(shù)據(jù)類(lèi)型的多樣性:文檔數(shù)據(jù)、郵件數(shù)據(jù)、視頻數(shù)據(jù)、音頻數(shù)據(jù)、圖片數(shù)據(jù)以及各種信息系統(tǒng)產(chǎn)生的數(shù)據(jù)(比如:企業(yè)內(nèi)部辦公系統(tǒng)產(chǎn)生的數(shù)據(jù)、財(cái)務(wù)系統(tǒng)產(chǎn)生的數(shù)據(jù)以及醫(yī)療系統(tǒng)產(chǎn)生的數(shù)據(jù))等。我們通常會(huì)將這些數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù):數(shù)據(jù)間有較強(qiáng)的因果關(guān)系,比如剛才提到的各種信息系統(tǒng)產(chǎn)生的數(shù)據(jù)等;非結(jié)構(gòu)化數(shù)據(jù):數(shù)據(jù)間通常沒(méi)有因果關(guān)系,比如視頻、音頻、圖片數(shù)據(jù)等;半結(jié)構(gòu)化數(shù)據(jù):數(shù)據(jù)間有較弱的因果關(guān)系,比如郵件、HTML文檔數(shù)據(jù)等。
高速(Velocity):大數(shù)據(jù)的高速特性不光體現(xiàn)在傳播速度上,還體現(xiàn)在海量數(shù)據(jù)的實(shí)時(shí)處理上。大數(shù)據(jù)是通過(guò)互聯(lián)網(wǎng)進(jìn)行傳播,所以比報(bào)紙、廣播等傳統(tǒng)數(shù)據(jù)載體傳播速度更快;同時(shí),由于每時(shí)每刻都會(huì)產(chǎn)生海量的數(shù)據(jù),而因?yàn)槌杀镜年P(guān)系,我們不可能將所有數(shù)據(jù)都永遠(yuǎn)保存下來(lái),我們通常只會(huì)保留處理和分析后那些比較重要的數(shù)據(jù)或者是最近一段時(shí)間的重要數(shù)據(jù),因此我們需要及時(shí)對(duì)海量的實(shí)時(shí)數(shù)據(jù)進(jìn)行分析和處理,從而最大限度地提高數(shù)據(jù)的利用價(jià)值,避免數(shù)據(jù)的浪費(fèi)。
價(jià)值(Value):大數(shù)據(jù)的最終目標(biāo)就是利用人工智能等先進(jìn)技術(shù)從收集到的各種不相關(guān)的海量數(shù)據(jù)中發(fā)掘數(shù)據(jù)的規(guī)律和價(jià)值,從而幫助我們更好地對(duì)未來(lái)的趨勢(shì)和模式進(jìn)行預(yù)測(cè),為我們今后的決策提供強(qiáng)有力的支撐,進(jìn)而幫助我們改善社會(huì)治理、提高生產(chǎn)效率、推進(jìn)科學(xué)研究等。這也是大數(shù)據(jù)最核心的價(jià)值。
大數(shù)據(jù)的應(yīng)用
目前,盡管大數(shù)據(jù)技術(shù)還處于發(fā)展的初期階段,但在我們生活和工作的各個(gè)方面或多或少都已經(jīng)有了大數(shù)據(jù)的應(yīng)用。相信您一定有以下的這些經(jīng)歷:您最近想買(mǎi)一款藍(lán)牙耳機(jī),你用手機(jī)上的購(gòu)物APP對(duì)比了好幾款產(chǎn)品,但并未找到合您心意的產(chǎn)品,所以您關(guān)掉購(gòu)物APP決定再考慮一下,當(dāng)您再次打開(kāi)購(gòu)物APP時(shí),您會(huì)發(fā)現(xiàn)此時(shí)您的主界面有很多藍(lán)牙耳機(jī)的推送鏈接,而且這些耳機(jī)不管是外形、價(jià)格和特點(diǎn)都與您之前看的那些耳機(jī)很接近,而且里面很有可能就有您最中意的藍(lán)牙耳機(jī);再比如您是一個(gè)軍事迷,平常喜歡用手機(jī)APP看一些軍事相關(guān)的文章和新聞,所以您會(huì)發(fā)現(xiàn)每次您打開(kāi)相同的APP,主界面里為您挑選的文章和別人APP里的不一樣,全是您喜歡的軍事題材的文章;再比如,您去銀行貸款,銀行會(huì)要求您填一張涉及個(gè)人收入、學(xué)歷等信息的表,銀行會(huì)分析并處理這張表中收集到的信息,確定您的信用值以及貸款給您的風(fēng)險(xiǎn),從而決定是否會(huì)貸款給您。
這些都還只是大數(shù)據(jù)的簡(jiǎn)單應(yīng)用,隨著物聯(lián)網(wǎng)的興起,未來(lái)的世界一定是一個(gè)高度互聯(lián)的世界,大數(shù)據(jù)的使用會(huì)使得這個(gè)世界更加“善解人意”;到那時(shí),我們要完成很多事情真的可能只需要一個(gè)眼神,余下的事情便無(wú)須操心。