摘 要:傳統(tǒng)數(shù)據(jù)庫技術(shù)已無法滿足海量數(shù)據(jù)的充分利用,大數(shù)據(jù)的管理和使用成為突出問題。大數(shù)據(jù)處理使實現(xiàn)精準化和精細化管理成為現(xiàn)實。本文對大數(shù)據(jù)的概念進行了深入探討,并分析了大數(shù)據(jù)時代的解決方案與大數(shù)據(jù)科技平臺構(gòu)建的必要性及技術(shù)措施。
關(guān)鍵詞:數(shù)據(jù);科技;平臺
中圖分類號:TP30 文獻標識碼:A
1 大數(shù)據(jù)的概念
大數(shù)據(jù)是指在業(yè)務(wù)過程中產(chǎn)生的數(shù)據(jù)集合,尤指非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。關(guān)于大數(shù)據(jù),Gartner給出了這樣的定義:需要新的處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進行專業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實現(xiàn)盈利的關(guān)鍵,在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”。
大數(shù)據(jù)的特點是具有“4V”,或者說有四個層面:第一,數(shù)據(jù)體量巨大。從TB級別,躍升到PB級別;第二,數(shù)據(jù)類型繁多。如網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等。第三,價值密度低,商業(yè)價值高。以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒。第四,處理速度快。1秒定律。最后這一點也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。所以業(yè)界將其歸納為4個”V”——Volume,Variety,Value,Velocity。
物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是大數(shù)據(jù)來源或者承載的方式。
“大數(shù)據(jù)”之“大”,不僅僅是指容量之大,更在于通過對海量數(shù)據(jù)的交換、整合和分析,發(fā)現(xiàn)新的知識,創(chuàng)造新的價值,帶來“大知識”、“大科技”、“大利潤”和“大發(fā)展”。
大數(shù)據(jù)并不等于大集中。相反,大數(shù)據(jù)往往與云計算聯(lián)系在一起,因為實時的大型數(shù)據(jù)集分析需要分布式計算和并行計算模式(如MapReduce),把計算任務(wù)分配到分散的計算機上。如果說2012年是云計算應(yīng)用元年,那么2013年就是中國的大數(shù)據(jù)元年。大數(shù)據(jù)與云計算是問題的兩面:一個是問題,一個是解決問題的方法。云計算進行大數(shù)據(jù)分析、預(yù)測會使決策更為精準,釋放出數(shù)據(jù)的隱藏價值。
2 迎接大數(shù)據(jù)時代
計算機技術(shù)經(jīng)歷了大型主機、小型計算機、微型計算機、分布式計算幾個時代,目前已進入以云計算、大數(shù)據(jù)為代表的第五次浪潮。大數(shù)據(jù)浪潮的一個表現(xiàn)是信息技術(shù)(IT)市場從“以計算為中心”向“以數(shù)據(jù)為中心”轉(zhuǎn)變。隨著人類對數(shù)據(jù)的依賴程度不斷提高,數(shù)據(jù)的生命周期也在不斷延伸,而非結(jié)構(gòu)化數(shù)據(jù)的增長遠快于結(jié)構(gòu)化數(shù)據(jù)的增長。
全球數(shù)據(jù)總量每18個月翻一番。據(jù)麥肯錫調(diào)查報告,美國15個主要行業(yè)中每家公司過去一年所產(chǎn)生的數(shù)據(jù)量,就超過了同期美國國會圖書館所存儲的數(shù)據(jù)量。自從人類發(fā)明印刷術(shù)以來,以往一千多年來所有印刷材料相當于200PB(1PB=1015B),而2011年全球數(shù)據(jù)量就達到了1.8ZB(1ZB=1021B)。據(jù)IDC發(fā)布的2012年數(shù)字宇宙研究報告中預(yù)測,到2020年數(shù)字宇宙的規(guī)模為35ZB。
僅僅是從互聯(lián)網(wǎng),我們就可獲得信息內(nèi)容接觸信息(瀏覽/點擊的內(nèi)容、時長等)、搜索/需求信息(經(jīng)常搜索的詞、搜索行為的轉(zhuǎn)換、需求什么類型的信息等)、信息偏好(喜歡的信息、反感的信息等)、信息消費行為(消費時間、消費類別、消費金額、消費次數(shù)等)、人口統(tǒng)計信息(性別、年齡、職業(yè)、教育程度、婚姻狀況等)、收發(fā)信息的設(shè)備和區(qū)域等信息(智能設(shè)備種類、系統(tǒng)、所在城市、網(wǎng)絡(luò)接入情況等)。在大數(shù)據(jù)、移動互聯(lián)網(wǎng)的支撐下,BYOD(Bring Your Own Device,自帶設(shè)備辦公)正在迅速得到普及。
2010年7月,聯(lián)合國發(fā)布了《大數(shù)據(jù)促發(fā)展:挑戰(zhàn)與機遇》白皮書,指出大數(shù)據(jù)對于全世界是一個歷史性的機遇。2012年3月,美國總統(tǒng)奧巴馬宣布美國政府撥款兩億美元啟動“大數(shù)據(jù)研究和發(fā)展計劃”,把大數(shù)據(jù)提升到國家戰(zhàn)略位置。2012年10月,時任廣東省委書記汪洋向公眾推薦涂子沛先生所著《大數(shù)據(jù):正在到來的數(shù)據(jù)革命》一書,在我省掀起了一股大數(shù)據(jù)熱潮。
擁有處理大數(shù)據(jù)的能力和有效分析大數(shù)據(jù)的工具,正成為一種必需的競爭優(yōu)勢。大數(shù)據(jù)廠商早就注意到大數(shù)據(jù)市場的興起,IBM、HP、Oracle、微軟、SAP等IT巨頭都是大數(shù)據(jù)市場的積極推動者,各自推出了自己的Hadoop版本。IBM在迎接大數(shù)據(jù)挑戰(zhàn)的戰(zhàn)略中,制定了“3A5步”的路線圖,即掌控信息(Align)、獲取洞察(Anticipate)、采取行動(Act)、學(xué)習(Learn)和轉(zhuǎn)型(Transform)。其在2011年推出了Netezza數(shù)據(jù)倉庫一體機,隨后又推出了應(yīng)對非結(jié)構(gòu)化數(shù)據(jù)需求的InfoSphere Big Insights和實時分析需求的InfoSphere Streams產(chǎn)品。同時,Oracle公司推出了配有CDH(Cloudera Distribution Including Apache Hadoop)和OBDC(Oracle Big Data Connectors)的大數(shù)據(jù)機以及專門針對海量數(shù)據(jù)管理的分布式key-value數(shù)據(jù)庫Oracle NoSQL。微軟公司則推出了SQL Azure Hadoop產(chǎn)品。中國移動的“信令分析系統(tǒng)”項目和中國電信的“新一代數(shù)據(jù)庫”產(chǎn)品已經(jīng)采用大數(shù)據(jù)技術(shù)進行用戶行為分析,實現(xiàn)精準營銷。
大數(shù)據(jù)潛隱著巨大的價值,能夠降低社會管理成本和交易摩擦成本,能夠提高客戶滿意度。據(jù)麥肯錫測算,大數(shù)據(jù)技術(shù)的應(yīng)用將給歐洲公共部門創(chuàng)造1500-3300億歐元的潛在價值。
3 大數(shù)據(jù)解決方案
大數(shù)據(jù)處理需要新的數(shù)據(jù)庫技術(shù)。EMC數(shù)據(jù)計算事業(yè)部大中國區(qū)總經(jīng)理劉偉光指出“新型數(shù)據(jù)庫應(yīng)該具備如下特點:首先,應(yīng)該采用支持大規(guī)模并行處理的分布式架構(gòu);其次,應(yīng)該使用基于符合工業(yè)標準的開放硬件和系統(tǒng)平臺,保證成本可控;第三,隨著開源技術(shù)不斷成熟,創(chuàng)新速度快,新型數(shù)據(jù)庫平臺應(yīng)該易于與新的開源技術(shù)進行融合;第四,新的數(shù)據(jù)庫平臺應(yīng)該可以實現(xiàn)與Hadoop平臺的無縫集成,實現(xiàn)跨結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化海量數(shù)據(jù)的混合分析能力。”
大數(shù)據(jù)環(huán)境下,必須能對數(shù)據(jù)進行快速的捕獲、管理、存儲和分析。目前,大數(shù)據(jù)解決方案主要有Hadoop和NoSQL。
3.1 Hadoop
Hadoop是一個能夠大數(shù)據(jù)進行分布式處理的開源的軟件框架,具有高可靠性、高擴展性、高效性和高容錯性的特點。
Hadoop主要由兩部分組成:底部是HDFS(Hadoop Distributed File System),它存儲Hadoop集群中所有存儲節(jié)點上的文件;上部是MapReduce引擎,它負責對大數(shù)據(jù)集的并行處理。
HDFS支持以流的形式訪問寫入的大型文件,由NameNode和DataNode節(jié)點構(gòu)建。NameNode節(jié)點只有一個,在HDFS內(nèi)部提供元數(shù)據(jù)服務(wù);DataNode節(jié)點可有多個,為HDFS提供存儲塊。HDFS 內(nèi)部的所有通信都基于標準的 TCP/IP 協(xié)議。Hadoop的編程語言主要是Java,也可以是C++。
MapReduce是一種簡化的分布式編程模式,其設(shè)計思想是將要執(zhí)行的問題拆解成“映射”(Map)和“化簡”(Reduce)的方式,先通過Map程序?qū)?shù)據(jù)切割成不相關(guān)的區(qū)塊,分配給大量計算機處理達到分布運算的效果,再通過Reduce程序?qū)⒔Y(jié)果匯整,輸出開發(fā)者需要的結(jié)果。
3.2 NoSQL
NoSQL(Not Only SQL)是針對關(guān)系型數(shù)據(jù)庫的瓶頸而提出來的革命性理念,實際上是一個分布式數(shù)據(jù)管理系統(tǒng),具有大數(shù)據(jù)量、易擴展、數(shù)據(jù)模型靈活、高性能、高可用等特點。典型的NoSQL如key-value存儲、列存儲、文檔數(shù)據(jù)庫、圖數(shù)據(jù)庫、XML數(shù)據(jù)庫和全文檢索,最常用的當為key-value存儲,其以鍵值對存儲,每個元組可以根據(jù)需要增加鍵值對,減少了時間和空間的開銷。“簡化”(Simplifying)和“自動拆分”(Automating Sharding)可能是NoSQL數(shù)據(jù)庫面臨的最大挑戰(zhàn)。
NoSQL具備的三要素:一致性(Capsistency)、可用性(Availability)、分區(qū)容忍性(Partition tolerance)。三要素最多只能同時實現(xiàn)兩點,這就是NoSQL的CAP原理。分區(qū)容忍性是NoSQL的基本要求。
NoSQL的核心理論基礎(chǔ)是Google BigTable模型和Amazon Dynamo模型。BigTable是一個稀疏的、分布式的、持久化存儲的多維度排序Map,Map的索引是行關(guān)鍵字、列關(guān)鍵字以及時間戳,Map中的每個value都是一個未經(jīng)解析的byte數(shù)組。Dynamo采用P2P(peer to peer)架構(gòu),數(shù)據(jù)定位使用一致性哈希,允許數(shù)據(jù)的多個備份存在多個版本以提高寫操作的可用性,Gossip-based Membership Protocol通訊協(xié)議實現(xiàn)了節(jié)點間的直接通信。此外,市場上的NoSQL數(shù)據(jù)庫還有CouchDB、Redis、MongoDB、Riak、Membase、Neo4j、Apache Cassandra、Apache HBase、SimpleDB等。
雖然大數(shù)據(jù)是目前IT最熱的話題,但還存在一些有待進一步探討和解決的問題:一是數(shù)據(jù)的真實性,二是標準和法規(guī)遵從,三是應(yīng)用系統(tǒng)(平臺)之間的兼容和整合,四是從事數(shù)據(jù)挖掘的專業(yè)人才匱乏,五是數(shù)據(jù)應(yīng)用能力弱。
4 大數(shù)據(jù)提升科技平臺
大數(shù)據(jù)是計算機科學(xué)、統(tǒng)計學(xué)、管理學(xué)、社會學(xué)等學(xué)科交叉滲透的產(chǎn)物,涉及互聯(lián)網(wǎng)、經(jīng)濟、物力、天文、醫(yī)學(xué)等領(lǐng)域。中國工程院院士李國杰指出:“科技界應(yīng)高度關(guān)注大數(shù)據(jù)研究這一新的發(fā)展方向,從大數(shù)據(jù)應(yīng)用中發(fā)現(xiàn)挑戰(zhàn)性的科學(xué)問題,推動以大數(shù)據(jù)為基礎(chǔ)的第四科學(xué)范式,促進形成新型交叉學(xué)科:網(wǎng)絡(luò)數(shù)據(jù)科學(xué)。”
隨著科學(xué)技術(shù)日新月異的發(fā)展,科技平臺被賦予了新的內(nèi)涵:人力、物力、財力資源通過運用管理科學(xué)手段,最終以數(shù)據(jù)的形式得以存儲、整合、利用和分析,大數(shù)據(jù)在科技平臺建設(shè)中愈顯重要。
科技平臺建設(shè)中,除了存在大量的結(jié)構(gòu)化數(shù)據(jù)(標準數(shù)據(jù)庫)以外,還存在與之相關(guān)的信息量更龐大的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),流媒體、圖片如此,知識產(chǎn)權(quán)、科技文獻、空間信息也如此。
在科技平臺中,大數(shù)據(jù)從管理層次來看,可分為數(shù)據(jù)層、處理層和應(yīng)用層,其層次體系結(jié)構(gòu)如圖2所示。
存儲層:對資源進行數(shù)字化處理后得到相應(yīng)的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),存儲(分發(fā))在指定的載體中。
處理層:對存儲層的數(shù)據(jù)進行采集、融合、分發(fā)等處理,通常使用ETL(Extraction-Transformation-Loading)工具進行管理。
應(yīng)用層:對數(shù)據(jù)進行綜合利用和挖掘分析,提供決策支持智能服務(wù)。
在這個三層結(jié)構(gòu)中,數(shù)字化是基礎(chǔ),集成是手段,挖掘分析是目的。
例如,在科技文獻管理中,既要對科技文獻進行歸檔建庫形成結(jié)構(gòu)化數(shù)據(jù),還要對文獻進行掃描、文字識別、實物拍照等數(shù)字化處理形成非結(jié)構(gòu)化數(shù)據(jù),再對其進行全文檢索等綜合利用。這其中,非結(jié)構(gòu)化數(shù)據(jù)的存儲容量就占了總數(shù)據(jù)量的95%以上。
又如,在信息檢索中,除對站內(nèi)信息進行挖掘外,也要通過互聯(lián)網(wǎng)對網(wǎng)頁、微博、傳感器、多媒體等信息進行智能挖掘,所需處理的數(shù)據(jù)量浩如煙海。
再如,在大型儀器共享方面,我們可以通過物聯(lián)網(wǎng)實時捕捉儀器設(shè)備的運作情況,把儀器設(shè)備的空閑資源充分利用起來。
在科技決策中,從數(shù)據(jù)庫、網(wǎng)站、流媒體、短信、微博、社交論壇、移動終端等大數(shù)據(jù)中,我們可以進行準確地分析歷史、提供個性化服務(wù)和預(yù)測未來。
科技平臺是科技管理的重要內(nèi)容,包括重大科研基地、科技條件平臺和科技公共服務(wù)平臺等。利用SWOT方法(見圖3),我們可以探知大數(shù)據(jù)技術(shù)在科技平臺中的機遇與挑戰(zhàn)。
結(jié)語
在21世紀,數(shù)據(jù)已經(jīng)變成生產(chǎn)資料,站到與硬資產(chǎn)和人力資源同等重要的位置大數(shù)據(jù)能使我們更全面地認識世界,更準確地預(yù)測未來。大數(shù)據(jù)將引發(fā)全球范圍內(nèi)的社會和商業(yè)變革。知識時代,我們只相信數(shù)據(jù)。
參考文獻
[1]涂子沛. 大數(shù)據(jù):正在到來的數(shù)據(jù)革命 [M]. 廣西:廣西師范大學(xué)出版社, 2012.
[2]葉成輝. 云計算、大數(shù)據(jù)變革浪潮繼續(xù)高漲 [J]. 計算機世界, 2013(01):24.
[3]田溯寧. 2013,大數(shù)據(jù)元年的創(chuàng)新 [J]. 計算機世界, 2013(01):22.