喻梅
【摘要】大數(shù)據(jù)時(shí)代已經(jīng)來臨,什么是大數(shù)據(jù),大數(shù)據(jù)究竟有多大,大數(shù)據(jù)發(fā)展中將逐步實(shí)現(xiàn)多學(xué)科,多行業(yè)融合,大數(shù)據(jù)的安全和隱私持續(xù)受到關(guān)注。
【關(guān)鍵詞】數(shù)據(jù) 展望 預(yù)測(cè) 隱私
如今,大數(shù)據(jù)(big data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時(shí)代產(chǎn)生的海量數(shù)大數(shù)據(jù)時(shí)代來臨據(jù),并命名與之相關(guān)的技術(shù)發(fā)展與創(chuàng)新。它已經(jīng)上過《紐約時(shí)報(bào)》《華爾街日?qǐng)?bào)》的專欄封面,進(jìn)入美國(guó)白宮官網(wǎng)的新聞,現(xiàn)身在國(guó)內(nèi)一些互聯(lián)網(wǎng)主題的講座沙龍中,甚至被嗅覺靈敏的國(guó)金證券、國(guó)泰君安、銀河證券等寫進(jìn)了投資推薦報(bào)告。
一、什么是大數(shù)據(jù)
數(shù)據(jù)正在迅速膨脹并變大,它決定著企業(yè)的未來發(fā)展,雖然現(xiàn)在企業(yè)可能并沒有意識(shí)到數(shù)據(jù)爆炸性增長(zhǎng)帶來問題的隱患,但是隨著時(shí)間的推移,人們將越來越多的意識(shí)到數(shù)據(jù)對(duì)企業(yè)的重要性。那究竟什么是大數(shù)據(jù)呢?
著云臺(tái)的分析師團(tuán)隊(duì)認(rèn)為,大數(shù)據(jù)(Big?data)通常用來形容一個(gè)公司創(chuàng)造的大量非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫(kù)用于分析時(shí)會(huì)花費(fèi)過多時(shí)間和金錢。大數(shù)據(jù)分析常和云計(jì)算聯(lián)系到一起,因?yàn)閷?shí)時(shí)的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。
二、大數(shù)據(jù)到底有多大
“大數(shù)據(jù)”在互聯(lián)網(wǎng)行業(yè)指的是這樣一種現(xiàn)象:互聯(lián)網(wǎng)公司在日常運(yùn)營(yíng)中生成、累積的用戶網(wǎng)絡(luò)行為數(shù)據(jù)。這些數(shù)據(jù)的規(guī)模是如此龐大,以至于不能用G或T來衡量。一組名為“互聯(lián)網(wǎng)上一天”的數(shù)據(jù)告訴我們,一天之中,互聯(lián)網(wǎng)產(chǎn)生的全部?jī)?nèi)容可以刻滿1.68億張DVD;發(fā)出的郵件有2940億封之多(相當(dāng)于美國(guó)兩年的紙質(zhì)信件數(shù)量);發(fā)出的社區(qū)帖子達(dá)200萬個(gè)(相當(dāng)于《時(shí)代》雜志770年的文字量);賣出的手機(jī)為37.8萬臺(tái),高于全球每天出生的嬰兒數(shù)量37.1萬……
截止到2012年,數(shù)據(jù)量已經(jīng)從TB(1024GB=1TB)級(jí)別躍升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)級(jí)別。國(guó)際數(shù)據(jù)公司(IDC)的研究結(jié)果表明,2008年全球產(chǎn)生的數(shù)據(jù)量為0.49ZB,2009年的數(shù)據(jù)量為0.8ZB,2010年增長(zhǎng)為1.2ZB,2011年的數(shù)量更是高達(dá)1.82ZB,相當(dāng)于全球每人產(chǎn)生200GB以上的數(shù)據(jù)。而到2012年為止,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB,全人類歷史上說過的所有話的數(shù)據(jù)量大約是5EB。IBM的研究稱,整個(gè)人類文明所獲得的全部數(shù)據(jù)中,有90%是過去兩年內(nèi)產(chǎn)生的。而到了2020年,全世界所產(chǎn)生的數(shù)據(jù)規(guī)模將達(dá)到今天的44倍。
三、對(duì)大數(shù)據(jù)發(fā)展展望
對(duì)大數(shù)據(jù)發(fā)展展望做預(yù)測(cè)。這個(gè)預(yù)測(cè)的調(diào)研方式就是大數(shù)據(jù)專家委一百多位委員內(nèi)部進(jìn)行這樣的一個(gè)觀點(diǎn)征集、匯總,最后進(jìn)行投票,同時(shí)邀請(qǐng)中國(guó)大數(shù)據(jù)產(chǎn)業(yè)聯(lián)盟的會(huì)員參與到最后的投票環(huán)節(jié),2015年底總共投票的專家是116位,從這116位專家投票中形成了下述的結(jié)果。
大數(shù)據(jù)專家委列出的2016大數(shù)據(jù)產(chǎn)業(yè)技術(shù)發(fā)展的十大趨勢(shì),從這里面我們簡(jiǎn)單解讀為他出現(xiàn)了這樣四個(gè)重點(diǎn)的關(guān)鍵字,一個(gè)是民生相關(guān)的應(yīng)用,因?yàn)閼?yīng)用很多,應(yīng)用驅(qū)動(dòng)大數(shù)據(jù),因此民生相關(guān)的大數(shù)據(jù)可能會(huì)得到更快的發(fā)展,第二就是多樣性和融合性,不管是技術(shù)、產(chǎn)業(yè)等等各方面會(huì)出現(xiàn)多樣融合的狀況,另外第三個(gè)就是政策拉動(dòng),第四總是呼吁各個(gè)層面出現(xiàn)多樣的生態(tài),簡(jiǎn)單對(duì)這十各方面稍微做一個(gè)解釋。
第一,可視化技術(shù)。作為匯總整理的時(shí)候這也是給了工作組一個(gè)很大的意外,做了這樣一個(gè)解讀:可視化作為技術(shù)形態(tài)能夠排到第一,其實(shí)背后隱藏著大數(shù)據(jù)的貧民化。普通老百姓和常規(guī)的決策者能夠更好的理解大數(shù)據(jù)的效果和價(jià)值,所以能夠擺在這么重的位置,不僅僅可視化的形態(tài),也包括可視化的分析,這是排在第一的趨勢(shì)。
第二,多學(xué)科融合。大家對(duì)學(xué)科的發(fā)展非常關(guān)注,預(yù)測(cè)排在第二位是多學(xué)科融合,大家認(rèn)為數(shù)據(jù)科學(xué)的雛形已經(jīng)出現(xiàn)了,從表現(xiàn)形式來看,很多相關(guān)的數(shù)據(jù),科學(xué)的研究院,專門的實(shí)驗(yàn)室,也可以看到這樣的學(xué)科逐漸的完備,可能會(huì)逐漸的出現(xiàn),當(dāng)然本身確實(shí)也是交叉性的學(xué)科,是多學(xué)科融合的產(chǎn)物,所以從事大數(shù)據(jù)研究不僅僅是計(jì)算機(jī)領(lǐng)域的科學(xué)家,也包括數(shù)學(xué)等等方面的科學(xué)家參與到整個(gè)大數(shù)據(jù)前沿的研究中。
第三,大數(shù)據(jù)的安全和隱私持續(xù)受到關(guān)注。從現(xiàn)在大數(shù)據(jù)的發(fā)展情況來說,應(yīng)該說針對(duì)大數(shù)據(jù)的威脅和大數(shù)據(jù)所產(chǎn)生的副作用,以及大數(shù)據(jù)發(fā)展中的障礙會(huì)逐漸成為大數(shù)據(jù)領(lǐng)域所要關(guān)注的點(diǎn)。針對(duì)大數(shù)據(jù)的攻擊現(xiàn)在沒有大規(guī)模的報(bào)道,但是隱憂已經(jīng)令大家擔(dān)憂。隱私大數(shù)據(jù)所帶來的副作用,原來的隱私我們接受的程度,有了大數(shù)據(jù)之后隱私接受程度發(fā)生了很大的變化。由于大家對(duì)大數(shù)據(jù)的安全等等相關(guān)的問題的擔(dān)憂阻礙我們?cè)诖髷?shù)據(jù)的發(fā)展上的投入,這也是阻礙大數(shù)據(jù)發(fā)展的問題。
下面是一個(gè)有關(guān)大數(shù)據(jù)時(shí)代的笑話,但從中不難看出大數(shù)據(jù)時(shí)代來臨帶給我們的方便,同時(shí)也會(huì)對(duì)擔(dān)憂:我還有隱私嗎?!
您好,請(qǐng)問有什么需要我為您服務(wù)?
顧客:你好,我想要一份……
客服:先生,煩請(qǐng)先把您的會(huì)員卡號(hào)告訴我。
顧客:16846146***。
客服:陳先生,您好!您是住在泉州路一號(hào)12樓120x室,請(qǐng)問您想要點(diǎn)什么?
顧客:我想要一個(gè)海鮮比薩……
客服:陳先生,海鮮比薩不適合您。
顧客:為什么?
客服:根據(jù)您的醫(yī)療記錄,你的血壓和膽固醇都偏高。
顧客:那你們有什么可以推薦的?
客服:您可以試試我們的低脂健康比薩。
顧客:你怎么知道我會(huì)喜歡吃這種的?
客服:您上星期一在中央圖書館借了一本《低脂健康食譜》。
顧客:好。那我要一個(gè)家庭特大號(hào)比薩,要付多少錢?
客服:99元,這個(gè)足夠您一家六口吃了。但您母親應(yīng)該少吃,她上個(gè)月剛剛做了心臟搭橋手術(shù),還處在恢復(fù)期。
顧客:那可以刷卡嗎?
客服:陳先生,對(duì)不起。請(qǐng)您付現(xiàn)款,因?yàn)槟男庞每ㄒ呀?jīng)刷爆了,您現(xiàn)在還欠銀行4807元,而且還不包括房貸利息。
顧客:那我先去附近的提款機(jī)提款。
客服:陳先生,根據(jù)您的記錄,您已經(jīng)超過今日提款限額。
顧客:算了,你們直接把比薩送我家吧,家里有現(xiàn)金。你們多久會(huì)送到?
客服:大約30分鐘。如果您不想等,可以自己騎車來。
顧客:為什么?
客服:根據(jù)我們?nèi)蚨ㄎ幌到y(tǒng)的車輛行駛自動(dòng)跟蹤系統(tǒng)記錄。您登記有一輛車號(hào)為SB-748的摩托車,而目前您正在解放路東段華聯(lián)商場(chǎng)右側(cè)騎著這輛摩托車。
顧客當(dāng)即暈倒……
總之,我們需要做好充足的準(zhǔn)備迎接大數(shù)據(jù)技術(shù)給我們的機(jī)構(gòu)和自身帶來的改變。我們可以依靠大數(shù)據(jù)為我們預(yù)測(cè)信息,但是我認(rèn)為應(yīng)該先要發(fā)現(xiàn)大數(shù)據(jù)帶來的隱私泄露的問題。我們不會(huì)因?yàn)橥妒蠹善鞫s手縮腳,積極克服這些困難,讓大數(shù)據(jù)能為我們更好的服務(wù)。