999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

試論大數(shù)據(jù)時代的科技平臺構(gòu)建

2013-04-12 00:00:00羅亮徐迪威
中國新技術(shù)新產(chǎn)品 2013年18期

摘 要:傳統(tǒng)數(shù)據(jù)庫技術(shù)已無法滿足海量數(shù)據(jù)的充分利用,大數(shù)據(jù)的管理和使用成為突出問題。大數(shù)據(jù)處理使實現(xiàn)精準化和精細化管理成為現(xiàn)實。本文對大數(shù)據(jù)的概念進行了深入探討,并分析了大數(shù)據(jù)時代的解決方案與大數(shù)據(jù)科技平臺構(gòu)建的必要性及技術(shù)措施。

關(guān)鍵詞:數(shù)據(jù);科技;平臺

中圖分類號:TP30 文獻標識碼:A

1 大數(shù)據(jù)的概念

大數(shù)據(jù)是指在業(yè)務(wù)過程中產(chǎn)生的數(shù)據(jù)集合,尤指非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。關(guān)于大數(shù)據(jù),Gartner給出了這樣的定義:需要新的處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。

大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進行專業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實現(xiàn)盈利的關(guān)鍵,在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”。

大數(shù)據(jù)的特點是具有“4V”,或者說有四個層面:第一,數(shù)據(jù)體量巨大。從TB級別,躍升到PB級別;第二,數(shù)據(jù)類型繁多。如網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等。第三,價值密度低,商業(yè)價值高。以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒。第四,處理速度快。1秒定律。最后這一點也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。所以業(yè)界將其歸納為4個”V”——Volume,Variety,Value,Velocity。

物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是大數(shù)據(jù)來源或者承載的方式。

“大數(shù)據(jù)”之“大”,不僅僅是指容量之大,更在于通過對海量數(shù)據(jù)的交換、整合和分析,發(fā)現(xiàn)新的知識,創(chuàng)造新的價值,帶來“大知識”、“大科技”、“大利潤”和“大發(fā)展”。

大數(shù)據(jù)并不等于大集中。相反,大數(shù)據(jù)往往與云計算聯(lián)系在一起,因為實時的大型數(shù)據(jù)集分析需要分布式計算和并行計算模式(如MapReduce),把計算任務(wù)分配到分散的計算機上。如果說2012年是云計算應(yīng)用元年,那么2013年就是中國的大數(shù)據(jù)元年。大數(shù)據(jù)與云計算是問題的兩面:一個是問題,一個是解決問題的方法。云計算進行大數(shù)據(jù)分析、預(yù)測會使決策更為精準,釋放出數(shù)據(jù)的隱藏價值。

2 迎接大數(shù)據(jù)時代

計算機技術(shù)經(jīng)歷了大型主機、小型計算機、微型計算機、分布式計算幾個時代,目前已進入以云計算、大數(shù)據(jù)為代表的第五次浪潮。大數(shù)據(jù)浪潮的一個表現(xiàn)是信息技術(shù)(IT)市場從“以計算為中心”向“以數(shù)據(jù)為中心”轉(zhuǎn)變。隨著人類對數(shù)據(jù)的依賴程度不斷提高,數(shù)據(jù)的生命周期也在不斷延伸,而非結(jié)構(gòu)化數(shù)據(jù)的增長遠快于結(jié)構(gòu)化數(shù)據(jù)的增長。

全球數(shù)據(jù)總量每18個月翻一番。據(jù)麥肯錫調(diào)查報告,美國15個主要行業(yè)中每家公司過去一年所產(chǎn)生的數(shù)據(jù)量,就超過了同期美國國會圖書館所存儲的數(shù)據(jù)量。自從人類發(fā)明印刷術(shù)以來,以往一千多年來所有印刷材料相當于200PB(1PB=1015B),而2011年全球數(shù)據(jù)量就達到了1.8ZB(1ZB=1021B)。據(jù)IDC發(fā)布的2012年數(shù)字宇宙研究報告中預(yù)測,到2020年數(shù)字宇宙的規(guī)模為35ZB。

僅僅是從互聯(lián)網(wǎng),我們就可獲得信息內(nèi)容接觸信息(瀏覽/點擊的內(nèi)容、時長等)、搜索/需求信息(經(jīng)常搜索的詞、搜索行為的轉(zhuǎn)換、需求什么類型的信息等)、信息偏好(喜歡的信息、反感的信息等)、信息消費行為(消費時間、消費類別、消費金額、消費次數(shù)等)、人口統(tǒng)計信息(性別、年齡、職業(yè)、教育程度、婚姻狀況等)、收發(fā)信息的設(shè)備和區(qū)域等信息(智能設(shè)備種類、系統(tǒng)、所在城市、網(wǎng)絡(luò)接入情況等)。在大數(shù)據(jù)、移動互聯(lián)網(wǎng)的支撐下,BYOD(Bring Your Own Device,自帶設(shè)備辦公)正在迅速得到普及。

2010年7月,聯(lián)合國發(fā)布了《大數(shù)據(jù)促發(fā)展:挑戰(zhàn)與機遇》白皮書,指出大數(shù)據(jù)對于全世界是一個歷史性的機遇。2012年3月,美國總統(tǒng)奧巴馬宣布美國政府撥款兩億美元啟動“大數(shù)據(jù)研究和發(fā)展計劃”,把大數(shù)據(jù)提升到國家戰(zhàn)略位置。2012年10月,時任廣東省委書記汪洋向公眾推薦涂子沛先生所著《大數(shù)據(jù):正在到來的數(shù)據(jù)革命》一書,在我省掀起了一股大數(shù)據(jù)熱潮。

擁有處理大數(shù)據(jù)的能力和有效分析大數(shù)據(jù)的工具,正成為一種必需的競爭優(yōu)勢。大數(shù)據(jù)廠商早就注意到大數(shù)據(jù)市場的興起,IBM、HP、Oracle、微軟、SAP等IT巨頭都是大數(shù)據(jù)市場的積極推動者,各自推出了自己的Hadoop版本。IBM在迎接大數(shù)據(jù)挑戰(zhàn)的戰(zhàn)略中,制定了“3A5步”的路線圖,即掌控信息(Align)、獲取洞察(Anticipate)、采取行動(Act)、學(xué)習(Learn)和轉(zhuǎn)型(Transform)。其在2011年推出了Netezza數(shù)據(jù)倉庫一體機,隨后又推出了應(yīng)對非結(jié)構(gòu)化數(shù)據(jù)需求的InfoSphere Big Insights和實時分析需求的InfoSphere Streams產(chǎn)品。同時,Oracle公司推出了配有CDH(Cloudera Distribution Including Apache Hadoop)和OBDC(Oracle Big Data Connectors)的大數(shù)據(jù)機以及專門針對海量數(shù)據(jù)管理的分布式key-value數(shù)據(jù)庫Oracle NoSQL。微軟公司則推出了SQL Azure Hadoop產(chǎn)品。中國移動的“信令分析系統(tǒng)”項目和中國電信的“新一代數(shù)據(jù)庫”產(chǎn)品已經(jīng)采用大數(shù)據(jù)技術(shù)進行用戶行為分析,實現(xiàn)精準營銷。

大數(shù)據(jù)潛隱著巨大的價值,能夠降低社會管理成本和交易摩擦成本,能夠提高客戶滿意度。據(jù)麥肯錫測算,大數(shù)據(jù)技術(shù)的應(yīng)用將給歐洲公共部門創(chuàng)造1500-3300億歐元的潛在價值。

3 大數(shù)據(jù)解決方案

大數(shù)據(jù)處理需要新的數(shù)據(jù)庫技術(shù)。EMC數(shù)據(jù)計算事業(yè)部大中國區(qū)總經(jīng)理劉偉光指出“新型數(shù)據(jù)庫應(yīng)該具備如下特點:首先,應(yīng)該采用支持大規(guī)模并行處理的分布式架構(gòu);其次,應(yīng)該使用基于符合工業(yè)標準的開放硬件和系統(tǒng)平臺,保證成本可控;第三,隨著開源技術(shù)不斷成熟,創(chuàng)新速度快,新型數(shù)據(jù)庫平臺應(yīng)該易于與新的開源技術(shù)進行融合;第四,新的數(shù)據(jù)庫平臺應(yīng)該可以實現(xiàn)與Hadoop平臺的無縫集成,實現(xiàn)跨結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化海量數(shù)據(jù)的混合分析能力。”

大數(shù)據(jù)環(huán)境下,必須能對數(shù)據(jù)進行快速的捕獲、管理、存儲和分析。目前,大數(shù)據(jù)解決方案主要有Hadoop和NoSQL。

3.1 Hadoop

Hadoop是一個能夠大數(shù)據(jù)進行分布式處理的開源的軟件框架,具有高可靠性、高擴展性、高效性和高容錯性的特點。

Hadoop主要由兩部分組成:底部是HDFS(Hadoop Distributed File System),它存儲Hadoop集群中所有存儲節(jié)點上的文件;上部是MapReduce引擎,它負責對大數(shù)據(jù)集的并行處理。

HDFS支持以流的形式訪問寫入的大型文件,由NameNode和DataNode節(jié)點構(gòu)建。NameNode節(jié)點只有一個,在HDFS內(nèi)部提供元數(shù)據(jù)服務(wù);DataNode節(jié)點可有多個,為HDFS提供存儲塊。HDFS 內(nèi)部的所有通信都基于標準的 TCP/IP 協(xié)議。Hadoop的編程語言主要是Java,也可以是C++。

MapReduce是一種簡化的分布式編程模式,其設(shè)計思想是將要執(zhí)行的問題拆解成“映射”(Map)和“化簡”(Reduce)的方式,先通過Map程序?qū)?shù)據(jù)切割成不相關(guān)的區(qū)塊,分配給大量計算機處理達到分布運算的效果,再通過Reduce程序?qū)⒔Y(jié)果匯整,輸出開發(fā)者需要的結(jié)果。

3.2 NoSQL

NoSQL(Not Only SQL)是針對關(guān)系型數(shù)據(jù)庫的瓶頸而提出來的革命性理念,實際上是一個分布式數(shù)據(jù)管理系統(tǒng),具有大數(shù)據(jù)量、易擴展、數(shù)據(jù)模型靈活、高性能、高可用等特點。典型的NoSQL如key-value存儲、列存儲、文檔數(shù)據(jù)庫、圖數(shù)據(jù)庫、XML數(shù)據(jù)庫和全文檢索,最常用的當為key-value存儲,其以鍵值對存儲,每個元組可以根據(jù)需要增加鍵值對,減少了時間和空間的開銷。“簡化”(Simplifying)和“自動拆分”(Automating Sharding)可能是NoSQL數(shù)據(jù)庫面臨的最大挑戰(zhàn)。

NoSQL具備的三要素:一致性(Capsistency)、可用性(Availability)、分區(qū)容忍性(Partition tolerance)。三要素最多只能同時實現(xiàn)兩點,這就是NoSQL的CAP原理。分區(qū)容忍性是NoSQL的基本要求。

NoSQL的核心理論基礎(chǔ)是Google BigTable模型和Amazon Dynamo模型。BigTable是一個稀疏的、分布式的、持久化存儲的多維度排序Map,Map的索引是行關(guān)鍵字、列關(guān)鍵字以及時間戳,Map中的每個value都是一個未經(jīng)解析的byte數(shù)組。Dynamo采用P2P(peer to peer)架構(gòu),數(shù)據(jù)定位使用一致性哈希,允許數(shù)據(jù)的多個備份存在多個版本以提高寫操作的可用性,Gossip-based Membership Protocol通訊協(xié)議實現(xiàn)了節(jié)點間的直接通信。此外,市場上的NoSQL數(shù)據(jù)庫還有CouchDB、Redis、MongoDB、Riak、Membase、Neo4j、Apache Cassandra、Apache HBase、SimpleDB等。

雖然大數(shù)據(jù)是目前IT最熱的話題,但還存在一些有待進一步探討和解決的問題:一是數(shù)據(jù)的真實性,二是標準和法規(guī)遵從,三是應(yīng)用系統(tǒng)(平臺)之間的兼容和整合,四是從事數(shù)據(jù)挖掘的專業(yè)人才匱乏,五是數(shù)據(jù)應(yīng)用能力弱。

4 大數(shù)據(jù)提升科技平臺

大數(shù)據(jù)是計算機科學(xué)、統(tǒng)計學(xué)、管理學(xué)、社會學(xué)等學(xué)科交叉滲透的產(chǎn)物,涉及互聯(lián)網(wǎng)、經(jīng)濟、物力、天文、醫(yī)學(xué)等領(lǐng)域。中國工程院院士李國杰指出:“科技界應(yīng)高度關(guān)注大數(shù)據(jù)研究這一新的發(fā)展方向,從大數(shù)據(jù)應(yīng)用中發(fā)現(xiàn)挑戰(zhàn)性的科學(xué)問題,推動以大數(shù)據(jù)為基礎(chǔ)的第四科學(xué)范式,促進形成新型交叉學(xué)科:網(wǎng)絡(luò)數(shù)據(jù)科學(xué)。”

隨著科學(xué)技術(shù)日新月異的發(fā)展,科技平臺被賦予了新的內(nèi)涵:人力、物力、財力資源通過運用管理科學(xué)手段,最終以數(shù)據(jù)的形式得以存儲、整合、利用和分析,大數(shù)據(jù)在科技平臺建設(shè)中愈顯重要。

科技平臺建設(shè)中,除了存在大量的結(jié)構(gòu)化數(shù)據(jù)(標準數(shù)據(jù)庫)以外,還存在與之相關(guān)的信息量更龐大的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),流媒體、圖片如此,知識產(chǎn)權(quán)、科技文獻、空間信息也如此。

在科技平臺中,大數(shù)據(jù)從管理層次來看,可分為數(shù)據(jù)層、處理層和應(yīng)用層,其層次體系結(jié)構(gòu)如圖2所示。

存儲層:對資源進行數(shù)字化處理后得到相應(yīng)的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),存儲(分發(fā))在指定的載體中。

處理層:對存儲層的數(shù)據(jù)進行采集、融合、分發(fā)等處理,通常使用ETL(Extraction-Transformation-Loading)工具進行管理。

應(yīng)用層:對數(shù)據(jù)進行綜合利用和挖掘分析,提供決策支持智能服務(wù)。

在這個三層結(jié)構(gòu)中,數(shù)字化是基礎(chǔ),集成是手段,挖掘分析是目的。

例如,在科技文獻管理中,既要對科技文獻進行歸檔建庫形成結(jié)構(gòu)化數(shù)據(jù),還要對文獻進行掃描、文字識別、實物拍照等數(shù)字化處理形成非結(jié)構(gòu)化數(shù)據(jù),再對其進行全文檢索等綜合利用。這其中,非結(jié)構(gòu)化數(shù)據(jù)的存儲容量就占了總數(shù)據(jù)量的95%以上。

又如,在信息檢索中,除對站內(nèi)信息進行挖掘外,也要通過互聯(lián)網(wǎng)對網(wǎng)頁、微博、傳感器、多媒體等信息進行智能挖掘,所需處理的數(shù)據(jù)量浩如煙海。

再如,在大型儀器共享方面,我們可以通過物聯(lián)網(wǎng)實時捕捉儀器設(shè)備的運作情況,把儀器設(shè)備的空閑資源充分利用起來。

在科技決策中,從數(shù)據(jù)庫、網(wǎng)站、流媒體、短信、微博、社交論壇、移動終端等大數(shù)據(jù)中,我們可以進行準確地分析歷史、提供個性化服務(wù)和預(yù)測未來。

科技平臺是科技管理的重要內(nèi)容,包括重大科研基地、科技條件平臺和科技公共服務(wù)平臺等。利用SWOT方法(見圖3),我們可以探知大數(shù)據(jù)技術(shù)在科技平臺中的機遇與挑戰(zhàn)。

結(jié)語

在21世紀,數(shù)據(jù)已經(jīng)變成生產(chǎn)資料,站到與硬資產(chǎn)和人力資源同等重要的位置大數(shù)據(jù)能使我們更全面地認識世界,更準確地預(yù)測未來。大數(shù)據(jù)將引發(fā)全球范圍內(nèi)的社會和商業(yè)變革。知識時代,我們只相信數(shù)據(jù)。

參考文獻

[1]涂子沛. 大數(shù)據(jù):正在到來的數(shù)據(jù)革命 [M]. 廣西:廣西師范大學(xué)出版社, 2012.

[2]葉成輝. 云計算、大數(shù)據(jù)變革浪潮繼續(xù)高漲 [J]. 計算機世界, 2013(01):24.

[3]田溯寧. 2013,大數(shù)據(jù)元年的創(chuàng)新 [J]. 計算機世界, 2013(01):22.

主站蜘蛛池模板: 免费在线观看av| 四虎影视8848永久精品| 亚洲第一成年网| 国产玖玖视频| 精品欧美日韩国产日漫一区不卡| 国产成人精品18| 在线免费观看a视频| 日韩无码白| JIZZ亚洲国产| 97综合久久| 国产成人精品视频一区视频二区| 国产成人高清在线精品| 啊嗯不日本网站| 伊人91在线| 欧美日本中文| 一边摸一边做爽的视频17国产| 国产午夜无码片在线观看网站| 青青青伊人色综合久久| 97人人做人人爽香蕉精品| 国产传媒一区二区三区四区五区| 婷婷亚洲视频| 亚洲日韩日本中文在线| 午夜视频免费一区二区在线看| 亚洲av片在线免费观看| 欧美www在线观看| 成人一级黄色毛片| 亚洲欧美日韩成人在线| 男女猛烈无遮挡午夜视频| 亚洲国产中文综合专区在| 国内精品一区二区在线观看| 内射人妻无套中出无码| 在线观看无码av五月花| 久久免费成人| 91福利在线观看视频| 日韩专区欧美| 无码AV动漫| 无遮挡国产高潮视频免费观看| 久久99热这里只有精品免费看 | 国产91小视频| 日韩欧美国产另类| 国产免费精彩视频| 老司机精品一区在线视频| 国产成人精品午夜视频'| 国产精品九九视频| 中文无码毛片又爽又刺激| 三级毛片在线播放| 韩国v欧美v亚洲v日本v| 丁香六月综合网| 久久国产热| 日韩福利在线观看| 看看一级毛片| 久久精品国产电影| 日本精品中文字幕在线不卡| 亚洲熟妇AV日韩熟妇在线| 欧美视频免费一区二区三区| 亚洲香蕉久久| 久996视频精品免费观看| 色婷婷狠狠干| 国产视频一二三区| 久久国产高潮流白浆免费观看| 亚洲青涩在线| 亚洲第一天堂无码专区| 91亚洲精选| 精品亚洲国产成人AV| 亚洲成人高清无码| vvvv98国产成人综合青青| 欧美国产日韩在线播放| 色噜噜在线观看| 国产精品天干天干在线观看| 欧美日韩一区二区在线免费观看 | 亚洲天堂啪啪| 成人国产精品2021| 97综合久久| 99视频精品在线观看| 国产SUV精品一区二区| 国产亚洲成AⅤ人片在线观看| 四虎成人免费毛片| 日本爱爱精品一区二区| 欧美午夜视频| 99久久国产综合精品女同| 思思99热精品在线| 亚洲无线国产观看|