999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數(shù)據(jù)研究綜述

2018-01-31 08:31:34鄭強(qiáng)高群
科技視界 2018年30期
關(guān)鍵詞:數(shù)據(jù)處理數(shù)據(jù)挖掘大數(shù)據(jù)

鄭強(qiáng) 高群

【摘 要】隨著移動(dòng)互聯(lián)網(wǎng)、無(wú)線傳感網(wǎng)等技術(shù)的的發(fā)展,新興應(yīng)用不斷涌現(xiàn),數(shù)據(jù)成爆炸式增長(zhǎng)。大數(shù)據(jù)成為重要的生產(chǎn)要素,蘊(yùn)含著巨大的知識(shí)價(jià)值。本文介紹了了大數(shù)據(jù)的定義和面臨的技術(shù)挑戰(zhàn),歸納了大數(shù)據(jù)集成與預(yù)處理技術(shù)、數(shù)據(jù)分析與挖掘技術(shù)、數(shù)據(jù)展現(xiàn)技術(shù),最后總結(jié)了大數(shù)據(jù)的發(fā)展趨勢(shì),為大數(shù)據(jù)的研究提供有益參考。

【關(guān)鍵詞】大數(shù)據(jù);數(shù)據(jù)處理;數(shù)據(jù)挖掘

中圖分類號(hào): TP311.13 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 2095-2457(2018)30-0179-002

DOI:10.19694/j.cnki.issn2095-2457.2018.30.078

0 引言

隨著無(wú)線傳感網(wǎng)、移動(dòng)互聯(lián)網(wǎng)的普及,21世紀(jì)以來(lái)數(shù)據(jù)量呈現(xiàn)出指數(shù)級(jí)增長(zhǎng),社會(huì)已經(jīng)步入大數(shù)據(jù)時(shí)代。《大數(shù)據(jù)時(shí)代》一書(shū)的作者英國(guó)牛津大學(xué)教授維克托指出,大數(shù)據(jù)正在改變?nèi)藗兊墓ぷ骱蜕罘绞剑⑶腋嗟母淖冋谇娜话l(fā)生。大數(shù)據(jù)已在網(wǎng)絡(luò)通信、金融市場(chǎng)、氣象預(yù)報(bào)等諸多領(lǐng)域得到廣泛應(yīng)用[1]。大數(shù)據(jù)背后蘊(yùn)含著巨大的價(jià)值,尤其是通過(guò)數(shù)據(jù)集成、分析與挖掘之后,其所表現(xiàn)出價(jià)值已經(jīng)遠(yuǎn)遠(yuǎn)超過(guò)傳統(tǒng)的數(shù)據(jù)。大數(shù)據(jù)研究成為經(jīng)濟(jì)和社會(huì)發(fā)展以及科技進(jìn)步的重要推動(dòng)力量。

本文歸納和總結(jié)了大數(shù)據(jù)的定義、發(fā)展現(xiàn)狀和面臨的挑戰(zhàn)及其關(guān)鍵技術(shù)。首先闡述了大數(shù)據(jù)概念及其發(fā)展現(xiàn)狀、數(shù)據(jù)處理面臨的問(wèn)題及挑戰(zhàn),然后分析了大數(shù)據(jù)技術(shù),最后是全文總結(jié)并對(duì)大數(shù)據(jù)研究進(jìn)行展望。

1 大數(shù)據(jù)的概念

著名咨詢公司麥肯錫給出的大數(shù)據(jù)定義:大數(shù)據(jù)指的是體量超出常規(guī)的數(shù)據(jù)庫(kù)工具獲取、存儲(chǔ)、管理和分析能力的數(shù)據(jù)集。并強(qiáng)調(diào),并非一定要超過(guò)TB級(jí)的數(shù)據(jù)才可以稱作大數(shù)據(jù)[2]。《Science》雜志在2008年出版的專刊中定義大數(shù)據(jù)為“代表著人類認(rèn)知過(guò)程的進(jìn)步,數(shù)據(jù)集的規(guī)模是無(wú)法在可容忍的時(shí)間內(nèi)用目前的技術(shù)、方法和理論去獲取、管理、處理的數(shù)據(jù)”。Gartner公司也給出了大數(shù)據(jù)的定義:大數(shù)據(jù)是高容量、高生成速率、種類繁多的信息價(jià)值,同時(shí)需要新的處理形式去確保判斷的作出、洞察力的發(fā)現(xiàn)和處理的優(yōu)化[3]。維基百科對(duì)大數(shù)據(jù)的定義則簡(jiǎn)單明了:大數(shù)據(jù)是指利用常用軟件工具捕獲、管理和處理數(shù)據(jù)所耗時(shí)間超過(guò)可容忍時(shí)間的數(shù)據(jù)集。

一般而言,大家比較認(rèn)可關(guān)于大數(shù)據(jù)從早期的3V,4V說(shuō)法到現(xiàn)在的5V。大數(shù)據(jù)的5V是指Volume,Velocity,Variety,Varacity,Value[4]。Volume:數(shù)據(jù)體量巨大;Velocity:數(shù)據(jù)生成速率高,時(shí)效要求高;Variety:數(shù)據(jù)類型繁多,既包括結(jié)構(gòu)化數(shù)據(jù),也包括半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù);Veracity:數(shù)據(jù)真實(shí)且準(zhǔn)確;Value:數(shù)據(jù)潛在價(jià)值密度低,但價(jià)值高。

2 大數(shù)據(jù)的現(xiàn)狀

隨著數(shù)據(jù)科學(xué)的深入發(fā)展,歐美等眾多發(fā)達(dá)國(guó)家都意識(shí)到作為國(guó)家戰(zhàn)略資產(chǎn)的數(shù)據(jù)的重要性,分別發(fā)布了大數(shù)據(jù)發(fā)展戰(zhàn)略。美國(guó)于2012年頒布了《大數(shù)據(jù)研究和發(fā)展計(jì)劃》,包括約150余個(gè)項(xiàng)目類別,計(jì)劃項(xiàng)目涵蓋國(guó)防、衛(wèi)生、能源等諸多領(lǐng)域。我國(guó)也把大數(shù)據(jù)技術(shù)也提到了國(guó)家的戰(zhàn)略發(fā)展日程。2013年,國(guó)內(nèi)多位院士聯(lián)合建議設(shè)立國(guó)家專項(xiàng),開(kāi)展大數(shù)據(jù)技術(shù)研究。事實(shí)上,大數(shù)據(jù)技術(shù)已經(jīng)應(yīng)用在互聯(lián)網(wǎng)、商業(yè)智能、金融業(yè)以及醫(yī)療、零售等行業(yè),并對(duì)社會(huì)、經(jīng)濟(jì)產(chǎn)生了巨大的影響[5]。

3 大數(shù)據(jù)面臨的挑戰(zhàn)

不同于與傳統(tǒng)數(shù)據(jù),大數(shù)據(jù)來(lái)源廣泛、種類繁多、動(dòng)態(tài)增長(zhǎng),以上特點(diǎn)使得大數(shù)據(jù)技術(shù)面臨新的挑戰(zhàn),以下幾個(gè)方面尤其值得關(guān)注:

3.1 數(shù)據(jù)異構(gòu)性和不完整性

據(jù)統(tǒng)計(jì),目前半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)占當(dāng)前社會(huì)數(shù)據(jù)總量的80%以上,已有的傳統(tǒng)的數(shù)據(jù)結(jié)構(gòu)已經(jīng)無(wú)法準(zhǔn)確的描述它們。因此,將數(shù)據(jù)組織成易于處理的結(jié)構(gòu),進(jìn)行數(shù)據(jù)集成是大數(shù)據(jù)處理面臨的一個(gè)重要難題。不完整性是指在大數(shù)據(jù)常常包含一些屬性值缺失的和錯(cuò)誤的數(shù)據(jù)。在進(jìn)行大數(shù)據(jù)分析處理之前,必須對(duì)數(shù)據(jù)的不完整性進(jìn)行有效處理才能分析出有價(jià)值的信息。

3.2 數(shù)據(jù)處理的實(shí)時(shí)性

大數(shù)據(jù)有著很強(qiáng)的時(shí)效性,隨著時(shí)間的推移,數(shù)據(jù)背后所隱藏的的知識(shí)價(jià)值也會(huì)很快地降低。因此,大數(shù)據(jù)需要以較高的速率進(jìn)行分析處理。

3.3 數(shù)據(jù)安全與隱私保護(hù)

大數(shù)據(jù)的隱私保護(hù)不僅僅涉及技術(shù)層面的問(wèn)題同時(shí)也涉及到社會(huì)學(xué)倫理問(wèn)題。相比于傳統(tǒng)的數(shù)據(jù)安全,大數(shù)據(jù)時(shí)代的數(shù)據(jù)安全變得尤為復(fù)雜,面臨著來(lái)自各方面的挑戰(zhàn)。因此在大數(shù)據(jù)環(huán)境下,如何保證數(shù)據(jù)共享的安全性以及怎樣為用戶提供精細(xì)可靠地的數(shù)據(jù)共享控制策略等問(wèn)題的研究顯得越發(fā)重要。

3.4 高能耗問(wèn)題

隨著大數(shù)據(jù)體量的爆炸式增長(zhǎng),數(shù)據(jù)中心規(guī)模的日漸擴(kuò)大,高能耗制約大數(shù)據(jù)發(fā)展的問(wèn)題已日益加重。針對(duì)降低能耗、提高數(shù)據(jù)中心可靠性問(wèn)題,常見(jiàn)措施包括:冗余配置、云計(jì)算技術(shù)和分布式計(jì)算技術(shù)。在存儲(chǔ)時(shí),首先要對(duì)數(shù)據(jù)進(jìn)行分類,然后進(jìn)行數(shù)據(jù)過(guò)濾和去重操作,來(lái)減少數(shù)據(jù)體量,同時(shí)建立多級(jí)索引以方便日后的查詢操作。

3.5 大數(shù)據(jù)易用性問(wèn)題

易用性的挑戰(zhàn)突出體現(xiàn)在兩個(gè)方面:首先大數(shù)據(jù)的體量巨大,價(jià)值密度低,這使得分析過(guò)程更加復(fù)雜,而且輸出結(jié)果形式更加多樣化;其次,大數(shù)據(jù)展現(xiàn)技術(shù)也是易用性的一個(gè)重要方面。

4 大數(shù)據(jù)技術(shù)

大數(shù)據(jù)技術(shù)包含數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲(chǔ)、大數(shù)據(jù)分析與挖掘、大數(shù)據(jù)展示技術(shù)及大數(shù)據(jù)安全等幾個(gè)方面。

4.1 大數(shù)據(jù)預(yù)處理

大數(shù)據(jù)最典型的特征是多源異構(gòu)。原始數(shù)據(jù)中會(huì)包含一些“臟數(shù)據(jù)”,比如離群點(diǎn),值缺失等狀況。因此首先需要進(jìn)行數(shù)據(jù)的預(yù)處理和集成,為將來(lái)的數(shù)據(jù)分析和挖掘提供方便處理的數(shù)據(jù)集。目前市面上常見(jiàn)的方法大體可分為4類:基于物化或ETL引擎方法、基于聯(lián)邦數(shù)據(jù)庫(kù)或中間件方法、基于數(shù)據(jù)流引擎方法以及基于搜索引擎方法。

4.2 大數(shù)據(jù)存儲(chǔ)與管理

數(shù)據(jù)壓縮技術(shù)雖然能減少數(shù)據(jù)量和提高存儲(chǔ)效率,但同時(shí)也加重了計(jì)算結(jié)點(diǎn)的數(shù)據(jù)處理負(fù)擔(dān)。考慮到存儲(chǔ)空間和數(shù)據(jù)的性質(zhì),針對(duì)不同的數(shù)據(jù)采取不同的存儲(chǔ)方式。核心業(yè)務(wù)數(shù)據(jù)依舊采用傳統(tǒng)的并行數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行存儲(chǔ);時(shí)效性要求高的數(shù)據(jù)則采用實(shí)時(shí)數(shù)據(jù)庫(kù)或內(nèi)存數(shù)據(jù)庫(kù);對(duì)大量的累積數(shù)據(jù)和無(wú)結(jié)構(gòu)數(shù)據(jù)則采用分布式文件系統(tǒng)。

4.3 大數(shù)據(jù)分析與挖掘

人們希望如何從海量的數(shù)據(jù)中迅速的提煉出關(guān)鍵信息,為社會(huì)和企業(yè)帶來(lái)價(jià)值。大數(shù)據(jù)分析的主要方法分為:統(tǒng)計(jì)數(shù)據(jù)分析方法、基于機(jī)器學(xué)習(xí)的分析方法、基于圖的分析方法和自然語(yǔ)言中的分析方法。大數(shù)據(jù)的挖掘包括關(guān)聯(lián)規(guī)則、分類分析、聚類分析等。常用的數(shù)據(jù)挖掘工具有:R語(yǔ)言、RapidMiner、免費(fèi)的Weka、KNIME以及Prange等。最典型的挖掘平臺(tái)包括基于Hadoop的平臺(tái)和基于Spark的平臺(tái)。

4.4 大數(shù)據(jù)展示技術(shù)

作為最重要的展示技術(shù),可視化技術(shù)可迅速有效地提煉數(shù)據(jù)流,幫助用戶迅速的從大量的數(shù)據(jù)中篩選出新的發(fā)現(xiàn)。大數(shù)據(jù)可視化技術(shù)包括:高維數(shù)據(jù)可視化、文本數(shù)據(jù)可視化、網(wǎng)絡(luò)數(shù)據(jù)可視化、時(shí)空數(shù)據(jù)可視化等。在大數(shù)據(jù)可視化分析領(lǐng)先的公司是Tableau Software公司,該公司致力于讓不懂可視化技術(shù)的特定行業(yè)領(lǐng)域知識(shí)專家也能方便地進(jìn)行實(shí)時(shí)數(shù)據(jù)分析展示。其他可視化工具包括:文本可視化工具Wordle、網(wǎng)絡(luò)可視化工具Gephi以及Data-Dirven Documents。

4.5 大數(shù)據(jù)隱私與安全

面對(duì)日益嚴(yán)峻的大數(shù)據(jù)安全形勢(shì),目前主流的安全解決方法包括:經(jīng)典的文件訪問(wèn)控制技術(shù)、設(shè)備加密技術(shù)、匿名保護(hù)技術(shù)、加密保護(hù)技術(shù)、數(shù)據(jù)水印技術(shù)等。同時(shí)提出利用大數(shù)據(jù)技術(shù)本身用作大數(shù)據(jù)安全防護(hù)的實(shí)現(xiàn)方法,增強(qiáng)大數(shù)據(jù)時(shí)代的信息安全防護(hù)性能。

5 大數(shù)據(jù)發(fā)展趨勢(shì)

隨著大數(shù)據(jù)應(yīng)用的日益廣泛,新的問(wèn)題也不斷涌現(xiàn)。大數(shù)據(jù)研究的方向大體如下[6]:

(1)傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)與日益壯大的非關(guān)系數(shù)據(jù)庫(kù)的集成

(2)采集的數(shù)據(jù)的不確定性與數(shù)據(jù)質(zhì)量

(3)跨領(lǐng)域數(shù)據(jù)集成方法的可移植性

(4)利用大數(shù)據(jù)進(jìn)行預(yù)測(cè)

6 結(jié)束語(yǔ)

大數(shù)據(jù)關(guān)系到到國(guó)防軍事、社會(huì)生活、經(jīng)濟(jì)金融和科學(xué)技術(shù)等多方面的問(wèn)題,大數(shù)據(jù)已經(jīng)成為推動(dòng)社會(huì)經(jīng)濟(jì)發(fā)展的強(qiáng)進(jìn)動(dòng)力。本文首先闡述了大數(shù)據(jù)的概念和大數(shù)據(jù)技術(shù)面臨的挑戰(zhàn),然后介紹了大數(shù)據(jù)集成技術(shù)、數(shù)據(jù)分析與挖掘技術(shù)、數(shù)據(jù)展現(xiàn)技術(shù),最后總結(jié)了大數(shù)據(jù)研究的重點(diǎn)方向。如何高效、合理地利用大數(shù)據(jù)為社會(huì)服務(wù),還需要進(jìn)一步地探索發(fā)現(xiàn)新技術(shù)。

【參考文獻(xiàn)】

[1]維克托·邁爾-舍恩伯格,肯尼思·庫(kù)克耶,ViktorMayer-Schonberger,等.大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革[M].浙江人民出版社,2013.

[2]孫勤紅,沈鳳仙.大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘及應(yīng)用[J].電子技術(shù)與軟件工程,2016(6):204-204.

[3]Ji C,Li Y,Qiu W,et al.Big Data Processing in Cloud Computing Environments[C].International Symposium on Pervasive Systems,Algorithms and Networks.IEEE,2013:17-23.

[4]方巍,鄭玉,徐江.大數(shù)據(jù):概念、技術(shù)及應(yīng)用研究綜述[J]. 南京信息工程大學(xué)學(xué)報(bào),2014(5):405-419.

[5]涂新莉,劉波,林偉偉.大數(shù)據(jù)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2014,31(6):1612-1616.

[6]中國(guó)計(jì)算機(jī)學(xué)會(huì)大數(shù)據(jù)專家委員會(huì).中國(guó)大數(shù)據(jù)技術(shù)與產(chǎn)業(yè)發(fā)展白皮書(shū)[R].2013.

猜你喜歡
數(shù)據(jù)處理數(shù)據(jù)挖掘大數(shù)據(jù)
認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補(bǔ)與極大似然估計(jì)法*
ILWT-EEMD數(shù)據(jù)處理的ELM滾動(dòng)軸承故障診斷
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
科技視界(2016年20期)2016-09-29 10:53:22
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
基于希爾伯特- 黃變換的去噪法在外測(cè)數(shù)據(jù)處理中的應(yīng)用
基于GPGPU的離散數(shù)據(jù)挖掘研究
基于POS AV610與PPP的車輛導(dǎo)航數(shù)據(jù)處理
主站蜘蛛池模板: 99热这里只有精品免费| 丁香婷婷激情网| aⅴ免费在线观看| 亚洲成人播放| 免费看的一级毛片| 91免费国产在线观看尤物| 国产在线拍偷自揄观看视频网站| 真实国产乱子伦视频 | 国产91高跟丝袜| 亚洲成人动漫在线观看| 国产aⅴ无码专区亚洲av综合网| 免费毛片a| 欧美一区福利| 在线视频97| 人人爱天天做夜夜爽| 99精品欧美一区| 一本久道久久综合多人| 日本精品视频一区二区| 国产91无码福利在线| 亚洲人成网站在线观看播放不卡| 成人精品视频一区二区在线| 日韩一区二区在线电影| 欧美精品v日韩精品v国产精品| 亚洲av片在线免费观看| 2020久久国产综合精品swag| 91av成人日本不卡三区| 成人av专区精品无码国产| 日韩欧美中文| 久久久久亚洲精品成人网| 久久国产乱子| 欧美日韩精品在线播放| 欧美日本在线播放| 国产综合欧美| 国产精品999在线| 国产精品亚洲五月天高清| 国产情侣一区二区三区| 日本三区视频| 成人精品在线观看| 91在线无码精品秘九色APP| 久久婷婷六月| 毛片视频网| 72种姿势欧美久久久大黄蕉| 91视频区| 国产国拍精品视频免费看| 欧美综合区自拍亚洲综合天堂| 成年人午夜免费视频| 欧美天天干| 中国一级特黄视频| 久久久久九九精品影院| 国产在线专区| 99资源在线| 在线视频97| 亚洲品质国产精品无码| 国产高清国内精品福利| 亚洲精品天堂在线观看| 免费一极毛片| 欧美精品二区| 国产免费人成视频网| 国产黄网永久免费| 日韩在线永久免费播放| 色偷偷综合网| 日本精品视频一区二区 | 国产国模一区二区三区四区| jizz国产视频| 国产成人午夜福利免费无码r| 久久激情影院| 欧美国产精品不卡在线观看| 日韩欧美中文| 亚洲精品不卡午夜精品| 亚洲中文精品人人永久免费| 国内精品视频| 亚洲日韩在线满18点击进入| 久久亚洲精少妇毛片午夜无码| 欧美视频在线不卡| 免费人成视频在线观看网站| 亚洲一级毛片在线播放| 欧美日韩午夜| 亚洲毛片网站| 精品国产电影久久九九| 五月六月伊人狠狠丁香网| 日韩经典精品无码一区二区| 久久青草精品一区二区三区|