唐燦
[摘要]“大數(shù)據(jù)”一詞已經(jīng)引起了產(chǎn)業(yè)界、科技界和政府部門的高度關(guān)注。本文簡要闡述了大數(shù)據(jù)的基本概念、研究現(xiàn)狀與重大意義,探討了大數(shù)據(jù)的科學(xué)問題,介紹了大數(shù)據(jù)應(yīng)用與研究所面臨的問題與挑戰(zhàn)。最后提出了作者的幾點(diǎn)思考。
[關(guān)鍵詞]大數(shù)據(jù);第四范式
[中圖分類號]F274[文獻(xiàn)標(biāo)識碼]A[文章編號]1005-6432(2014)40-0079-02
1引言
早在1980年,著名未來學(xué)家阿爾文·托夫勒便在《第三次浪潮》一書中,將大數(shù)據(jù)熱情地贊頌為“第三次浪潮的華彩樂章”。
大約從2009年開始,“大數(shù)據(jù)”才成為互聯(lián)網(wǎng)信息技術(shù)行業(yè)的流行詞匯,并引起了產(chǎn)業(yè)界、科技界和政府部門的高度關(guān)注。美國互聯(lián)網(wǎng)數(shù)據(jù)中心指出,互聯(lián)網(wǎng)上的數(shù)據(jù)每年將增長50%,每兩年便將翻一番,而目前世界上90%以上的數(shù)據(jù)是最近幾年才產(chǎn)生的。此外,數(shù)據(jù)又并非單純指人們在互聯(lián)網(wǎng)上發(fā)布的信息,全世界的工業(yè)設(shè)備、汽車、電表上有著無數(shù)的數(shù)碼傳感器,隨時(shí)測量和傳遞著有關(guān)位置、運(yùn)動(dòng)、振動(dòng)、溫度、濕度乃至空氣中化學(xué)物質(zhì)的變化,也產(chǎn)生了海量的數(shù)據(jù)信息。
2012年3月22日,奧巴馬宣布美國政府投資2 億美元啟動(dòng)“大數(shù)據(jù)研究和發(fā)展計(jì)劃(Big Data Research and Development Initiative)”。這是繼1993 年美國宣布“信息高速公路”計(jì)劃后的又一次重大科技發(fā)展部署。美國政府認(rèn)為,大數(shù)據(jù)是“未來的新石油”,并將對大數(shù)據(jù)的研究上升為國家意志,這對未來的科技與經(jīng)濟(jì)發(fā)展必將帶來深遠(yuǎn)影響。
2大數(shù)據(jù)的基本概念
人、機(jī)、物三元世界的高度融合引發(fā)了數(shù)據(jù)規(guī)模的爆炸式增長和數(shù)據(jù)模式的高度復(fù)雜化,世界已進(jìn)入網(wǎng)絡(luò)化的大數(shù)據(jù)(Big Data)時(shí)代。以數(shù)據(jù)為中心的傳統(tǒng)學(xué)科(如基因組學(xué)、蛋白組學(xué),天體物理學(xué)和腦科學(xué)等)的研究產(chǎn)生了越來越多的數(shù)據(jù)。例如,用電子顯微鏡重建大腦中的突觸網(wǎng)絡(luò),1立方毫米大腦的圖像數(shù)據(jù)就超過1PB。但近年來大數(shù)據(jù)的飆升主要還是來自日常生活,特別是互聯(lián)網(wǎng)公司的服務(wù)。據(jù)著名咨詢公司IDC的統(tǒng)計(jì),2011 年全球被創(chuàng)建和復(fù)制的數(shù)據(jù)總量為1.8ZB(10 的21 次方),其中75%來自個(gè)人(主要是圖片、視頻和音樂),遠(yuǎn)遠(yuǎn)超過人類有史以來所有印刷材料的數(shù)據(jù)總量(200PB)。谷歌公司通過大規(guī)模集群和MapReduce 軟件,每月處理的數(shù)據(jù)量超過400PB;百度每天要處理幾十PB 數(shù)據(jù);Facebook 注冊用戶超過10億,每月上傳的照片超過10 億張,每天生成300TB 以上的日志數(shù)據(jù);淘寶網(wǎng)會員超過3.7 億,在線商品超過8.8 億,每天交易數(shù)千萬筆,產(chǎn)生約20TB 數(shù)據(jù)。傳感網(wǎng)和物聯(lián)網(wǎng)的蓬勃發(fā)展是大數(shù)據(jù)的又一推動(dòng)力,各個(gè)城市的視頻監(jiān)控每時(shí)每刻都在采集巨量的流媒體數(shù)據(jù)。工業(yè)設(shè)備的監(jiān)控也是大數(shù)據(jù)的重要來源。例如,勞斯萊斯公司對全世界數(shù)以萬計(jì)的飛機(jī)引擎進(jìn)行實(shí)時(shí)監(jiān)控,每年傳送PB數(shù)量級的數(shù)據(jù)。
一般意義上,大數(shù)據(jù)是指無法在可容忍的時(shí)間內(nèi)用傳統(tǒng)IT 技術(shù)和軟硬件工具對其進(jìn)行感知、獲取、管理、處理和服務(wù)的數(shù)據(jù)集合。大數(shù)據(jù)的特點(diǎn)可以總結(jié)為4 個(gè)V,即Volume(體量浩大)、Variety(模態(tài)繁多)、Velocity(生成快速)和Value(價(jià)值巨大但密度很低)。首先,數(shù)據(jù)集合的規(guī)模不斷擴(kuò)大,已從GB 到TB 再到PB 級,甚至開始以EB 和ZB來計(jì)數(shù)。IDC的研究報(bào)告稱,未來10 年全球大數(shù)據(jù)將增加50 倍,管理數(shù)據(jù)倉庫的服務(wù)器數(shù)量將增加10 倍。其次,大數(shù)據(jù)類型繁多,包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。現(xiàn)代互聯(lián)網(wǎng)應(yīng)用呈現(xiàn)出非結(jié)構(gòu)化數(shù)據(jù)大幅增長的特點(diǎn),至2012年年末,非結(jié)構(gòu)化數(shù)據(jù)占有比例將達(dá)到整個(gè)數(shù)據(jù)量的75%以上。同時(shí),由于數(shù)據(jù)顯性或隱性的網(wǎng)絡(luò)化存在,使得數(shù)據(jù)之間的復(fù)雜關(guān)聯(lián)無所不在。再次,大數(shù)據(jù)往往以數(shù)據(jù)流的形式動(dòng)態(tài)、快速地產(chǎn)生,具有很強(qiáng)的時(shí)效性,用戶只有把握好對數(shù)據(jù)流的掌控才能有效利用這些數(shù)據(jù)。另外,數(shù)據(jù)自身的狀態(tài)與價(jià)值也往往隨時(shí)空變化而發(fā)生演變,數(shù)據(jù)的涌現(xiàn)特征明顯。最后,雖然數(shù)據(jù)的價(jià)值巨大,但是基于傳統(tǒng)思維與技術(shù),人們在實(shí)際環(huán)境中往往面臨信息泛濫而知識匱乏的窘態(tài),大數(shù)據(jù)的價(jià)值利用密度低。
3大數(shù)據(jù)研究的重大意義
大數(shù)據(jù)是與自然資源、人力資源一樣重要的戰(zhàn)略資源,是一個(gè)國家數(shù)字主權(quán)的體現(xiàn)。大數(shù)據(jù)時(shí)代,國家層面的競爭力將部分體現(xiàn)為一國擁有大數(shù)據(jù)的規(guī)模、活性以及對數(shù)據(jù)的解釋、運(yùn)用的能力。一個(gè)國家在網(wǎng)絡(luò)空間的數(shù)據(jù)主權(quán)將是繼海、陸、空、天之后另一個(gè)大國博弈的空間。在大數(shù)據(jù)領(lǐng)域的落后,意味著失守產(chǎn)業(yè)戰(zhàn)略制高點(diǎn),意味著數(shù)字主權(quán)無險(xiǎn)可守,意味著國家安全將出現(xiàn)漏洞。大數(shù)據(jù)將直接影響國家和社會穩(wěn)定,是關(guān)系國家安全的戰(zhàn)略性問題。因此,我國應(yīng)盡快研究并制定我們國家的大數(shù)據(jù)戰(zhàn)略。
大數(shù)據(jù)是現(xiàn)有產(chǎn)業(yè)升級與新產(chǎn)業(yè)誕生的重要推動(dòng)力量。“數(shù)據(jù)為王”的大數(shù)據(jù)時(shí)代的到來,產(chǎn)業(yè)界需求與關(guān)注點(diǎn)發(fā)生了重大轉(zhuǎn)變:企業(yè)關(guān)注的重點(diǎn)轉(zhuǎn)向數(shù)據(jù),計(jì)算機(jī)行業(yè)正在轉(zhuǎn)變?yōu)檎嬲男畔⑿袠I(yè),從追求計(jì)算速度轉(zhuǎn)變?yōu)殛P(guān)注大數(shù)據(jù)處理能力,軟件也將從編程為主轉(zhuǎn)變?yōu)橐詳?shù)據(jù)為中心。大數(shù)據(jù)處理的興起也改變了云計(jì)算的發(fā)展方向,使其進(jìn)入以分析即服務(wù)(AaaS)為主要標(biāo)志的云2.0時(shí)代。采用大數(shù)據(jù)處理方法,生物制藥、新材料研制生產(chǎn)的流程會發(fā)生革命性的變化,可以通過數(shù)據(jù)處理能力極高的計(jì)算機(jī)并行處理,同時(shí)進(jìn)行大批量的仿真比較和篩選,大大提高科研和生產(chǎn)效率,甚至使整個(gè)行業(yè)邁入數(shù)字化與信息化的新階段。數(shù)據(jù)已成為與礦物和化學(xué)元素一樣的原始材料,未來可能形成數(shù)據(jù)服務(wù)、數(shù)據(jù)探礦、數(shù)據(jù)化學(xué)、數(shù)據(jù)材料、數(shù)據(jù)制藥等一系列戰(zhàn)略性的新興產(chǎn)業(yè)。
大數(shù)據(jù)還引起了科技界對科學(xué)研究方法論的重新審視,正在引發(fā)科學(xué)研究思維與方法的一場革命。最早的科學(xué)研究只有實(shí)驗(yàn)科學(xué),隨后出現(xiàn)了以研究各種定律和定理為特征的理論科學(xué)。由于理論分析方法在許多問題上過于復(fù)雜,難以解決實(shí)際問題,人們開始尋求模擬的方法,導(dǎo)致計(jì)算科學(xué)的興起。海量數(shù)據(jù)的出現(xiàn)催生了一種新的科研模式,即面對海量數(shù)據(jù),科研人員只需從數(shù)據(jù)中直接查找或挖掘所需要的信息、知識和智慧,甚至無須直接接觸需研究的對象。2007 年,已故的圖靈獎(jiǎng)得主吉姆·格雷在他最后一次演講中描繪了數(shù)據(jù)密集型科學(xué)研究的“ 第四范式”(The Fourth Paradigm),把數(shù)據(jù)密集型科學(xué)從計(jì)算科學(xué)中單獨(dú)區(qū)分開來。格雷認(rèn)為,要解決我們面臨的某些最棘手的全球性挑戰(zhàn),“第四范式”可能是唯一具有系統(tǒng)性的方法。其實(shí),“第四范式”不僅是科研方式的轉(zhuǎn)變,也是人們思維方式的大變化。
4關(guān)于大數(shù)據(jù)的幾點(diǎn)思考
4.1大數(shù)據(jù)的研究目標(biāo)
計(jì)算機(jī)科學(xué)是關(guān)于算法的科學(xué),數(shù)據(jù)科學(xué)是關(guān)于數(shù)據(jù)的科學(xué)。從事數(shù)據(jù)科學(xué)研究的學(xué)者更關(guān)注數(shù)據(jù)的科學(xué)價(jià)值,試圖把數(shù)據(jù)當(dāng)成一個(gè)“自然體”來研究,提出所謂“數(shù)據(jù)界”的概念,頗有把計(jì)算機(jī)科學(xué)劃歸為自然科學(xué)的傾向。但脫離各個(gè)領(lǐng)域的“物理世界”,作為客觀事物間接存在形式的“數(shù)據(jù)界”究竟有什么共性問題還不清楚。物理世界在網(wǎng)絡(luò)空間中有其數(shù)據(jù)映像,目前一些學(xué)者認(rèn)為,數(shù)據(jù)界的規(guī)律其本質(zhì)可能是物理世界的規(guī)律(還需要在物理世界中測試驗(yàn)證)。除去各個(gè)領(lǐng)域的規(guī)律,作為映像的“數(shù)據(jù)界”還有其獨(dú)特的共同規(guī)律嗎?這是一個(gè)值得深思的問題。另外,大數(shù)據(jù)依然囿于“術(shù)”而無法進(jìn)諸“道”。
任何領(lǐng)域的研究,若要成為一門科學(xué),一定是研究共性的問題。針對非常狹窄領(lǐng)域的某個(gè)具體問題,主要依靠該問題涉及的特殊條件和專門知識做數(shù)據(jù)挖掘,不大可能使大數(shù)據(jù)成為一門科學(xué)。數(shù)據(jù)研究能成為一門科學(xué)的前提是,在一個(gè)領(lǐng)域發(fā)現(xiàn)的數(shù)據(jù)相互關(guān)系和規(guī)律具有可推廣到其他領(lǐng)域的普適性。抽象出一個(gè)領(lǐng)域的共性科學(xué)問題往往需要較長的時(shí)間,提煉“數(shù)據(jù)界”的共性科學(xué)問題還需要一段時(shí)間的實(shí)踐積累。
4.2大數(shù)據(jù)的相關(guān)關(guān)系和因果關(guān)系
大數(shù)據(jù)研究不同于傳統(tǒng)的邏輯推理研究,而是對數(shù)量巨大的數(shù)據(jù)做統(tǒng)計(jì)性的搜索、比較、聚類、分類等分析歸納,因此繼承了統(tǒng)計(jì)科學(xué)的一些特點(diǎn)。統(tǒng)計(jì)學(xué)關(guān)注數(shù)據(jù)的相關(guān)性或稱關(guān)聯(lián)性,所謂“相關(guān)性”是指兩個(gè)或兩個(gè)以上變量的取值之間存在某種規(guī)律性。“相關(guān)分析”的目的是找出數(shù)據(jù)集里隱藏的相互關(guān)系網(wǎng)(關(guān)聯(lián)網(wǎng)),一般用支持度、可信度、興趣度等參數(shù)反映相關(guān)性。兩個(gè)數(shù)據(jù)A和B有相關(guān)性,只有反映A和B在取值時(shí)相互有影響,并不能告訴我們有A就一定有B,或者反過來有B就一定有A。嚴(yán)格來講,統(tǒng)計(jì)學(xué)無法檢驗(yàn)邏輯上的因果關(guān)系。如,根據(jù)統(tǒng)計(jì)結(jié)果:可以說“吸煙的人群肺癌發(fā)病率會比不吸煙的人群高幾倍”,但統(tǒng)計(jì)結(jié)果無法得出“吸煙致癌”的邏輯結(jié)論。統(tǒng)計(jì)學(xué)的相關(guān)性有時(shí)可能會產(chǎn)生把結(jié)果當(dāng)成原因的錯(cuò)覺。如,統(tǒng)計(jì)結(jié)果表明:下雨之前常見到燕子低飛,從時(shí)間先后看兩者的關(guān)系可能得出燕子低飛是下雨的原因,而事實(shí)上,將要下雨才是燕子低飛的原因。很多人認(rèn)為只要知道“是什么”就行了,沒必要知道“為什么”,但事實(shí)上正是對事物背后原因的探求推動(dòng)了人類社會的進(jìn)步。
4.3大數(shù)據(jù)研究的社會人文問題
根據(jù)數(shù)據(jù)的來源,大數(shù)據(jù)可以粗略地分成兩大類:一類來自物理世界,另一類來自人類社會。前者多半是科學(xué)實(shí)驗(yàn)數(shù)據(jù)或傳感數(shù)據(jù),后者與人的活動(dòng)有關(guān)系,特別是與互聯(lián)網(wǎng)有關(guān)。這兩類數(shù)據(jù)的處理方式和目標(biāo)差別較大,不能照搬處理科學(xué)實(shí)驗(yàn)數(shù)據(jù)的方法來處理Web數(shù)據(jù)。
5結(jié)論
隨著云計(jì)算、物聯(lián)網(wǎng)等的發(fā)展,數(shù)據(jù)呈現(xiàn)爆炸式的增長,人們正被數(shù)據(jù)洪流所包圍,大數(shù)據(jù)的時(shí)代已經(jīng)到來。正確利用大數(shù)據(jù)給人們的生活帶來了極大的便利,但與此同時(shí)也給傳統(tǒng)的數(shù)據(jù)管理方式帶來了極大的挑戰(zhàn),期望本文的介紹能給大數(shù)據(jù)研究同行學(xué)者提供一定的參考。
參考文獻(xiàn):
[1]孟小峰.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展.2013,50(1):146-169.
[2]李國杰.大數(shù)據(jù)研究:未來科技及經(jīng)濟(jì)社會發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].中國科學(xué)院院刊,2012(6).