999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數(shù)據(jù)的特征、管理與挖掘

2015-05-30 19:05:47周健
中國市場 2015年45期
關鍵詞:數(shù)據(jù)采集大數(shù)據(jù)

周健

[摘 要]未來將是大數(shù)據(jù)的時代。大數(shù)據(jù)產(chǎn)業(yè)主要涉及數(shù)據(jù)生成、存儲、處理分析、應用四個環(huán)節(jié),具體來看,包含硬件設備、處理分析環(huán)節(jié)、綜合處理、語音識別、視頻識別、商業(yè)智能軟件、數(shù)據(jù)中心建設與維護、IT咨詢、方案實施、信息安全等領域。

[關鍵詞]大數(shù)據(jù);數(shù)據(jù)采集;數(shù)據(jù)管理

[DOI]10.13939/j.cnki.zgsc.2015.45.105

隨著計算機和信息技術的迅猛發(fā)展和普及應用,行業(yè)應用系統(tǒng)的規(guī)模迅速擴大,行業(yè)應用所產(chǎn)生的數(shù)據(jù)呈爆炸性增長。動輒達到數(shù)百TB甚至數(shù)十至數(shù)百PB規(guī)模的行業(yè)、企業(yè)大數(shù)據(jù)已遠遠超出了現(xiàn)有傳統(tǒng)的計算技術和信息系統(tǒng)的處理能力。因此,尋求有效的大數(shù)據(jù)處理技術、方法和手段已經(jīng)成為現(xiàn)實世界的迫切需求。世界權威IT信息咨詢分析公司IDC研究報告預測:全世界數(shù)據(jù)量未來10年將從2009年的0.8ZB增長到2020年的35ZB(1ZB=1000EB=1000000PB),10年將增長44倍,年均增長 40%。而且,大量新數(shù)據(jù)源的出現(xiàn)導致數(shù)據(jù)結構的多樣變化,非結構化、半結構化的數(shù)據(jù)呈爆發(fā)式增長。這些信息背后產(chǎn)生的大量數(shù)據(jù)遠遠超越了目前人力所能處理的范疇,大數(shù)據(jù)時代正在來臨。

1 大數(shù)據(jù)的特征

大數(shù)據(jù)(Big Data)是指“無法用現(xiàn)有的軟件工具提取、存儲、搜索、共享、分析和處理的海量的、復雜的數(shù)據(jù)集合。”業(yè)界通常用4個V(即Volume、Variety、Value、Velocity)來概括大數(shù)據(jù)的特征。

1.1 數(shù)據(jù)體量巨大(Volume)

截至目前,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB(1PB=210TB),而歷史上全人類說過的所有的話的數(shù)據(jù)量大約是5EB(1EB=210PB)。當前,典型個人計算機硬盤的容量為TB量級,而一些大企業(yè)的數(shù)據(jù)量已經(jīng)接近EB量級。

1.2 數(shù)據(jù)類型繁多(Variety)這種類型的多樣性也將數(shù)據(jù)分為結構化數(shù)據(jù)和非結構化數(shù)據(jù)。相對于以往便于存儲的以文本為主的結構化數(shù)據(jù),非結構化數(shù)據(jù)越來越多,包括網(wǎng)絡日志、音頻、視頻、圖片、地理位置信息等,這些多類型的數(shù)據(jù)對數(shù)據(jù)的處理能力提出了更高要求。

1.3 價值密度低(Value)價值密度的高低與數(shù)據(jù)總量的大小成反比。以視頻為例,一部1小時的視頻,在連續(xù)不間斷的監(jiān)控中,有用數(shù)據(jù)可能僅有一兩秒。如何通過強大的機器算法更迅速地完成數(shù)據(jù)的價值“提純”成為目前大數(shù)據(jù)背景下亟待解決的難題。

1.4 處理速度快(Velocity)這是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)挖掘的最顯著特征。根據(jù)IDC的“數(shù)字宇宙”的報告,預計到2020年,全球數(shù)據(jù)使用量將達到35.2ZB。在如此海量的數(shù)據(jù)面前,處理數(shù)據(jù)的效率就是企業(yè)的生命。

一個基本的大數(shù)據(jù)處理流程,可以概括為四步,分別是采集、導入和預處理、統(tǒng)計和分析,以及挖掘。

2 大數(shù)據(jù)的采集方法

2.1 系統(tǒng)日志采集方法

對于系統(tǒng)日志采集,很多互聯(lián)網(wǎng)企業(yè)都有自己的海量數(shù)據(jù)采集工具,如Hadoop的Chukwa,Cloudera的Flume,F(xiàn)acebook的Scribe等,它們均采用分布式架構,能滿足每秒數(shù)百MB的日志數(shù)據(jù)采集和傳輸需求。

2.2 網(wǎng)絡數(shù)據(jù)采集方法:對非結構化數(shù)據(jù)的采集

網(wǎng)絡數(shù)據(jù)采集可以將非結構化數(shù)據(jù)從網(wǎng)頁中抽取出來,將其存儲為統(tǒng)一的本地數(shù)據(jù)文件,并以結構化的方式存儲??梢酝ㄟ^網(wǎng)絡爬蟲或網(wǎng)站公開API等方式從網(wǎng)站上獲取數(shù)據(jù)信息。它支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以自動關聯(lián)。對于網(wǎng)絡流量的采集可以使用DPI或DFI等帶寬管理技術進行處理。

2.3 其他數(shù)據(jù)采集方法

對于企業(yè)生產(chǎn)經(jīng)營數(shù)據(jù)或學科研究數(shù)據(jù)等保密性要求較高的數(shù)據(jù),可以通過與企業(yè)或研究機構合作,使用特定系統(tǒng)接口等相關方式采集數(shù)據(jù)。

3 大數(shù)據(jù)存儲(導入)和管理

3.1 并行數(shù)據(jù)庫

并行數(shù)據(jù)庫系統(tǒng)大部分采用了關系數(shù)據(jù)模型并且支持SQL語句查詢,在無共享的體系結構中進行數(shù)據(jù)操作的數(shù)據(jù)庫系統(tǒng)。

3.2 NoSQL數(shù)據(jù)管理系統(tǒng)

NoSQL指的是“Not Only SQL”,即對關系型SQL數(shù)據(jù)系統(tǒng)的補充。NoSQL最普遍的解釋是“非關系型的”,強調(diào)鍵值存儲和文檔數(shù)據(jù)庫的優(yōu)點,而不是單純地反對關系型數(shù)據(jù)庫。它采用簡單數(shù)據(jù)模型、元數(shù)據(jù)和應用數(shù)據(jù)的分離、弱一致性技術,使NoSQL能夠很好地應對海量數(shù)據(jù)的挑戰(zhàn)。

3.3 云存儲與云計算

在云計算概念上延伸和發(fā)展出來的云存儲,是一種新興的網(wǎng)絡存儲技術,將網(wǎng)絡中大量各種不同類型的存儲設備通過應用軟件集合起來協(xié)同工作,共同對外提供數(shù)據(jù)存儲和業(yè)務訪問功能的一個系統(tǒng)。云存儲是一個以數(shù)據(jù)存儲和管理為核心的云計算系統(tǒng)。

3.4 實時流處理

所謂實時系統(tǒng),是指能在嚴格的時間限制內(nèi)響應請求的系統(tǒng)。流式處理就是指源源不斷的數(shù)據(jù)流過系統(tǒng)時,系統(tǒng)能夠不停地連續(xù)計算。所以,流式處理沒有嚴格的時間限制,數(shù)據(jù)從進入系統(tǒng)到出來結果可能是需要一段時間。然而,流式處理唯一的限制是系統(tǒng)長期來看的輸出速率應當快于或至少等于輸入速率。否則,數(shù)據(jù)會在系統(tǒng)中越積越多。

4 大數(shù)據(jù)的分析

數(shù)據(jù)分析主要利用分布式數(shù)據(jù)庫,或者分布式計算集群來對存儲于其內(nèi)的海量數(shù)據(jù)進行普通的分析和分類匯總等,以滿足大多數(shù)常見的分析需求。統(tǒng)計與分析這部分的主要特點和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對系統(tǒng)資源,特別是I/O會有極大的占用。如果是一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基MySQL的列式存儲Infobright等,而一些批處理,或者基于半結構化數(shù)據(jù)的需求可以使用Hadoop。

5 大數(shù)據(jù)的挖掘與展示

大數(shù)據(jù)技術不在于掌握龐大的數(shù)據(jù)信息,而是將這些含有意義的數(shù)據(jù)進行專業(yè)化處理,將海量的信息數(shù)據(jù)在經(jīng)過分布式數(shù)據(jù)挖掘處理后將結果可視化。數(shù)據(jù)可視化主要是借助于圖形化手段,清晰有效地傳達與溝通信息。依據(jù)數(shù)據(jù)及其內(nèi)在模式和關系,利用計算機生成的圖像來獲得深入認識和知識。這樣就對數(shù)據(jù)可視化軟件提出了更高的要求。數(shù)據(jù)可視化應用軟件的開發(fā)迫在眉睫,數(shù)據(jù)可視化軟件的開發(fā)既要保證實現(xiàn)其功能用途,同時又要兼顧美學形式。例如,標簽云、聚類圖、空間信息流、熱圖等。

大數(shù)據(jù)成為推動經(jīng)濟轉型發(fā)展的新動力。以數(shù)據(jù)流引領技術流、物質(zhì)流、資金流、人才流,將深刻影響社會分工協(xié)作的組織模式,促進生產(chǎn)組織方式的集約和創(chuàng)新。大數(shù)據(jù)成為重塑國家競爭優(yōu)勢的新機遇。在全球信息化快速發(fā)展的大背景下,大數(shù)據(jù)已成為國家重要的基礎性戰(zhàn)略資源,正引領新一輪科技創(chuàng)新。大數(shù)據(jù)還成為提升政府治理能力的新途徑。大數(shù)據(jù)應用能夠揭示傳統(tǒng)技術方式難以展現(xiàn)的關聯(lián)關系,推動政府數(shù)據(jù)開放共享,促進社會事業(yè)數(shù)據(jù)融合和資源整合,將極大提升政府整體數(shù)據(jù)分析能力,為有效處理復雜社會問題提供新的手段。

參考文獻:

孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術與挑戰(zhàn)[J].算機研究與發(fā)展,2014(1).

猜你喜歡
數(shù)據(jù)采集大數(shù)據(jù)
CS5463在植栽用電子鎮(zhèn)流器老化監(jiān)控系統(tǒng)中的應用
大數(shù)據(jù)時代高校數(shù)據(jù)管理的思考
科技視界(2016年18期)2016-11-03 22:51:40
鐵路客流時空分布研究綜述
基于廣播模式的數(shù)據(jù)實時采集與處理系統(tǒng)
軟件工程(2016年8期)2016-10-25 15:54:18
通用Web表單數(shù)據(jù)采集系統(tǒng)的設計與實現(xiàn)
軟件工程(2016年8期)2016-10-25 15:52:53
基于開源系統(tǒng)的綜合業(yè)務數(shù)據(jù)采集系統(tǒng)的開發(fā)研究
大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數(shù)據(jù)背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 成人亚洲视频| 久久久久久久久18禁秘| 91久久精品国产| 国产精品浪潮Av| 精品无码一区二区三区在线视频| 亚洲综合香蕉| 亚洲香蕉在线| 永久成人无码激情视频免费| 国产免费网址| 亚洲一区毛片| 亚洲精品卡2卡3卡4卡5卡区| 日本亚洲欧美在线| 99re经典视频在线| 国产91特黄特色A级毛片| 广东一级毛片| 欧美一级专区免费大片| 色综合天天综合| 在线视频亚洲欧美| 国产女人18水真多毛片18精品| 免费毛片视频| 伊人久久婷婷| 亚洲AV无码一区二区三区牲色| 精品三级网站| 超碰精品无码一区二区| 五月激情综合网| 国产特一级毛片| 欧美www在线观看| 亚洲福利片无码最新在线播放| 国产色婷婷视频在线观看| 久久久久久久久亚洲精品| 国产色婷婷视频在线观看| 国产免费怡红院视频| 久久福利片| 国产jizz| 国产在线小视频| 日本一本正道综合久久dvd| 国产中文一区a级毛片视频| 91在线丝袜| 精品偷拍一区二区| 影音先锋丝袜制服| 亚洲区视频在线观看| 99re经典视频在线| 99re热精品视频国产免费| 成人小视频网| 亚洲系列中文字幕一区二区| 国产成人一区| 亚洲IV视频免费在线光看| 国内精品免费| 99热这里只有精品在线播放| 在线观看国产黄色| 成人免费网站久久久| 亚洲综合一区国产精品| 亚洲AⅤ波多系列中文字幕 | 亚洲福利一区二区三区| 亚洲精品国产乱码不卡| 日本精品视频一区二区| 亚洲最大福利网站| 无码中文字幕乱码免费2| 这里只有精品在线| 一级毛片在线免费视频| 538国产在线| 国产成人精品综合| 91久久偷偷做嫩草影院电| 97免费在线观看视频| 91网在线| 久久综合亚洲色一区二区三区| 亚洲无码视频喷水| 亚洲国产精品VA在线看黑人| 日韩在线观看网站| 国产成人喷潮在线观看| 91精品情国产情侣高潮对白蜜| 色欲色欲久久综合网| 四虎成人在线视频| 乱人伦视频中文字幕在线| 成人一区专区在线观看| 尤物精品视频一区二区三区| 亚洲手机在线| 国产免费观看av大片的网站| 日本免费一级视频| 亚洲午夜18| 国产精品区视频中文字幕| 最近最新中文字幕在线第一页 |