999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數(shù)據(jù)概念及主要技術(shù)分析研究

2016-12-27 15:01:13李真春裴彥芳
科技傳播 2016年19期
關(guān)鍵詞:分析

李真春+裴彥芳

摘 要 本文全方位多角度分析了大數(shù)據(jù)概念的提出及發(fā)展歷程,闡述了大數(shù)據(jù)概念的內(nèi)涵和外延,特別對(duì)大數(shù)據(jù)的“4V”特征進(jìn)行了深入解讀,剖析了大數(shù)據(jù)技術(shù)快速發(fā)展的深層次原因,為大家正確認(rèn)識(shí)大數(shù)據(jù)提供了有益的探索。簡(jiǎn)要介紹了主要的大數(shù)據(jù)技術(shù),包括:大數(shù)據(jù)采集與預(yù)處理的技術(shù)、大數(shù)據(jù)存儲(chǔ)與管理技術(shù)、大數(shù)據(jù)計(jì)算技術(shù)、大數(shù)據(jù)分析技術(shù)和大數(shù)據(jù)呈現(xiàn)技術(shù),詳細(xì)介紹了在大數(shù)據(jù)研究領(lǐng)域影響最廣泛的大數(shù)據(jù)技術(shù)-Hadoop,在此基礎(chǔ)上,簡(jiǎn)要介紹了大數(shù)據(jù)技術(shù)的基本應(yīng)用。

關(guān)鍵詞 大數(shù)據(jù);4V特征;大數(shù)據(jù)技術(shù);hadoop

中圖分類(lèi)號(hào) TP3 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 1674-6708(2016)172-0105-002

1 大數(shù)據(jù)概念的內(nèi)涵和外延

大數(shù)據(jù)是一個(gè)很寬泛的概念,仁者見(jiàn)仁,智者見(jiàn)智。

亞馬遜(全球最大的電子商務(wù)公司)大數(shù)據(jù)科學(xué)家John Rauser認(rèn)為大數(shù)據(jù)是任何超過(guò)了一臺(tái)計(jì)算機(jī)處理能力的數(shù)據(jù)量。(Big data is ‘a(chǎn)ny amount of data thats too big to be handled by one computer)。

在《大數(shù)據(jù):下一個(gè)創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)率的前沿》當(dāng)中,麥肯錫對(duì)于大數(shù)據(jù)做出了一下定義,即:所謂的大數(shù)據(jù),主要就是指那些大小比常規(guī)數(shù)據(jù)庫(kù)工具的獲取、存儲(chǔ)等更大的數(shù)據(jù)集。一般來(lái)說(shuō),大數(shù)據(jù)概念的內(nèi)涵通常用4V特征來(lái)表述。

第一個(gè)V是Volume,就是數(shù)據(jù)體量大。大到運(yùn)用常用的數(shù)據(jù)庫(kù)軟件無(wú)法對(duì)其進(jìn)行管理。現(xiàn)在來(lái)看,基本上是指幾十TB到幾個(gè)PB的數(shù)量級(jí)。當(dāng)然,隨著技術(shù)的進(jìn)步,數(shù)據(jù)的積累,這個(gè)數(shù)值會(huì)變得更多,有人預(yù)測(cè)5年后,也許只有EB數(shù)量級(jí)的數(shù)據(jù)量才能夠稱(chēng)得上是大數(shù)據(jù)。

第二個(gè)V是Variety,是指數(shù)據(jù)類(lèi)型繁多,來(lái)源各異。有來(lái)自網(wǎng)絡(luò)的網(wǎng)頁(yè)、日志、圖片,有來(lái)自傳感器的監(jiān)測(cè)數(shù)據(jù)、視頻數(shù)據(jù)、音頻數(shù)據(jù)、位置信息,還有來(lái)自日常運(yùn)營(yíng)系統(tǒng)的各類(lèi)信息等。

第三個(gè)V是Velocity,速度快。它包含兩個(gè)含義,一是數(shù)據(jù)產(chǎn)生和更新的頻率快,數(shù)據(jù)量增長(zhǎng)速度快。如今,只需兩天就能產(chǎn)生出自人類(lèi)文明誕生以來(lái)到2003年所產(chǎn)生數(shù)據(jù)的總量。谷哥搜索引擎每個(gè)月處理的數(shù)據(jù)量超過(guò)400PB;百度每天大約要處理幾十PB字節(jié)數(shù)據(jù);淘寶在線(xiàn)商品10億多件,每天發(fā)生數(shù)千萬(wàn)筆交易,產(chǎn)生約20TB數(shù)據(jù)。各個(gè)城市的視頻監(jiān)控每時(shí)每刻都在采集巨量的流媒體數(shù)據(jù)。二是響應(yīng)快,要有很高的時(shí)效性。對(duì)大數(shù)據(jù)的處理要求也要遵循1秒定律,就是在1秒內(nèi)出結(jié)果。

第四個(gè)V是Value,價(jià)值性。包含3層含義。一是價(jià)值密度低,在數(shù)據(jù)總量中有用數(shù)據(jù)所占比例低。以視頻數(shù)據(jù)為例,在連續(xù)不間斷的監(jiān)控圖像中,可能有用的數(shù)據(jù)僅有一兩秒。二是整體價(jià)值高,設(shè)想一下,研究問(wèn)題領(lǐng)域相關(guān)的、全部的、真實(shí)的數(shù)據(jù)被匯集起來(lái)形成的大數(shù)據(jù)集,其價(jià)值是何等珍貴。三是潛在價(jià)值大。大量數(shù)據(jù)的價(jià)值尚未完全被挖掘利用,大數(shù)據(jù)挖掘就像沙里淘金。

2 大數(shù)據(jù)為什么能“火”

一是大數(shù)據(jù)的大眾化。事實(shí)上,大數(shù)據(jù)并不是一個(gè)新名詞,尤其是當(dāng)我們只從數(shù)據(jù)量的方向來(lái)對(duì)其進(jìn)行分析的話(huà),大數(shù)據(jù)早已存在。例如,飛機(jī)汽輪機(jī)壓縮器葉片的監(jiān)控?cái)?shù)據(jù)為每天588GB,生物技術(shù)領(lǐng)域中的基因組分析用的數(shù)據(jù)、氣象數(shù)據(jù)分析用的數(shù)據(jù)等,很早之前就已經(jīng)屬于大數(shù)據(jù)了,并且其已經(jīng)大到需要運(yùn)用一些相對(duì)昂貴的超級(jí)高端計(jì)算機(jī),進(jìn)行數(shù)據(jù)的處理與分析。

二是大數(shù)據(jù)的硬軟件條件具備了。計(jì)算基礎(chǔ)條件:IT的摩爾定律使得計(jì)算機(jī)處理速度更快卻更便宜。(1965年,Intel的主要?jiǎng)?chuàng)始人戈登?摩爾就曾經(jīng)提出一個(gè)非常有名的“摩爾定律”:在價(jià)格保持不變時(shí),在集成電路當(dāng)中,其所能夠容納的晶體管數(shù)目,通常都會(huì)在18個(gè)月之后增加一倍,并提升一倍的性能)。

存儲(chǔ)條件:其磁盤(pán)的價(jià)格出現(xiàn)了非常顯著的下降,其中,在2000年的時(shí)候,每GB硬盤(pán)的單價(jià)大約為19美元,但是到了2010年時(shí),其已經(jīng)降到了7美分,10年下降了近300倍;而且體積比以前更小。

分布并行計(jì)算條件:大規(guī)模數(shù)據(jù)分布式處理技術(shù)的發(fā)明與應(yīng)用,成為了現(xiàn)階段大數(shù)據(jù)浪潮的第一推動(dòng)力。

三是云計(jì)算的普及。云計(jì)算,就是一種利用大規(guī)模、低成本運(yùn)算單元,通過(guò)網(wǎng)絡(luò)連接,提供各種計(jì)算和存儲(chǔ)服務(wù)的信息平臺(tái)。云計(jì)算改變了數(shù)據(jù)的存儲(chǔ)、計(jì)算和訪(fǎng)問(wèn)方式。因?yàn)橛辛嗽朴?jì)算,大數(shù)據(jù)的硬軟件環(huán)境就不需要自行搭建了。

3 大數(shù)據(jù)技術(shù)及應(yīng)用

3.1 主要的大數(shù)據(jù)技術(shù)

通俗地講,所謂的大數(shù)據(jù)技術(shù),指的就是從各種數(shù)據(jù)當(dāng)中,來(lái)快速獲得有一定價(jià)值的信息的一種技術(shù)。

依據(jù)相應(yīng)的數(shù)據(jù)處理流程,大數(shù)據(jù)技術(shù)主要包括大數(shù)據(jù)采集與預(yù)處理技術(shù),大數(shù)據(jù)存儲(chǔ)與管理技術(shù)、大數(shù)據(jù)分析技術(shù)、大數(shù)據(jù)計(jì)算技術(shù)和大數(shù)據(jù)呈現(xiàn)技術(shù)等。

大數(shù)據(jù)采集與預(yù)處理技術(shù),用于解決數(shù)據(jù)來(lái)源和數(shù)據(jù)質(zhì)量等問(wèn)題,主要包括異構(gòu)數(shù)據(jù)庫(kù)集成、WEB信息實(shí)體識(shí)別、傳感器網(wǎng)絡(luò)數(shù)據(jù)融合、數(shù)據(jù)清洗和數(shù)據(jù)質(zhì)量控制等。

從某種意義上來(lái)說(shuō),大數(shù)據(jù)的存儲(chǔ)與管理技術(shù),能夠用來(lái)解決大數(shù)據(jù)的可靠存儲(chǔ)和快速檢索訪(fǎng)問(wèn)等問(wèn)題,主要包括分布式文件系統(tǒng)、分布式數(shù)據(jù)庫(kù)、大數(shù)據(jù)索引和查詢(xún)、實(shí)時(shí)/流式大數(shù)據(jù)存儲(chǔ)與處理等。

大數(shù)據(jù)計(jì)算技術(shù),用于解決分布式高速并行計(jì)算問(wèn)題,主要包括分布式查詢(xún)計(jì)算技術(shù)、批處理計(jì)算、流式計(jì)算、迭代計(jì)算、圖計(jì)算、內(nèi)存計(jì)算等。

大數(shù)據(jù)分析技術(shù),用于揭示規(guī)律、發(fā)現(xiàn)線(xiàn)索、探尋答案問(wèn)題,主要包括數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、模式識(shí)別、聚類(lèi)分析等技術(shù)。

大數(shù)據(jù)呈現(xiàn)技術(shù),用于將數(shù)據(jù)分析結(jié)果顯示給用戶(hù),使得用戶(hù)能夠更清晰、方便、深入理解數(shù)據(jù)分析結(jié)果。主要包括可視化技術(shù)、歷史流展示技術(shù)、空間流展示技術(shù)等。

3.2 大數(shù)據(jù)應(yīng)用

利用電子商務(wù)平臺(tái)所擁有的大數(shù)據(jù),對(duì)客戶(hù)的行為進(jìn)行大數(shù)據(jù)挖掘分析,提供了相似選購(gòu)行為分析-用于推薦相似產(chǎn)品-經(jīng)典臺(tái)詞是“看過(guò)本商品的顧客還看了”;提供了相似購(gòu)買(mǎi)行為分析-用于推薦組合產(chǎn)品-經(jīng)典臺(tái)詞是“購(gòu)買(mǎi)本商品的顧客還購(gòu)買(mǎi)了”;根據(jù)客戶(hù)的瀏覽歷史預(yù)測(cè)客戶(hù)喜好分析-用于推薦最適合的產(chǎn)品-經(jīng)典臺(tái)詞是“建議購(gòu)買(mǎi)以下產(chǎn)品”。

利用社區(qū)網(wǎng)站所擁有的大數(shù)據(jù),根據(jù)用戶(hù)上網(wǎng)行為向用戶(hù)推送定向廣告。如根據(jù)我在新浪微博中的“男士休閑服”的話(huà)題,為我推薦淘寶店中出售的休閑套裝;根據(jù)我的身份信息,為我推薦的產(chǎn)品基本符合我的年齡、身份和喜好;并根據(jù)我對(duì)套裝的關(guān)注,為我推薦黃金絨的牛仔褲;根據(jù)我的喜好和評(píng)介,將類(lèi)似的產(chǎn)品推薦給我的好友。

目前,大數(shù)據(jù)已在社會(huì)各領(lǐng)域進(jìn)行了應(yīng)用,從應(yīng)用方向上看,在實(shí)現(xiàn)了大數(shù)據(jù)的存儲(chǔ)、挖掘與分析之后,大數(shù)據(jù)被廣泛運(yùn)用在企業(yè)管理、數(shù)據(jù)標(biāo)準(zhǔn)化分析等領(lǐng)域中。而從應(yīng)用行業(yè)的角度來(lái)說(shuō),通過(guò)大數(shù)據(jù)的運(yùn)用,能夠在很大程度上改進(jìn)客戶(hù)的營(yíng)銷(xiāo)方式與服務(wù)水平,這樣能夠有效幫助行業(yè)降低成本,實(shí)現(xiàn)運(yùn)營(yíng)效益的提升。此外,其還可以幫助企業(yè)創(chuàng)新商業(yè)模式,并發(fā)現(xiàn)新的市場(chǎng)商機(jī)。從對(duì)整個(gè)社會(huì)的價(jià)值來(lái)看,大數(shù)據(jù)在智慧城市、智慧交通及災(zāi)難預(yù)警等方面都有巨大的潛在應(yīng)用價(jià)值。

參考文獻(xiàn)

[1]城田真琴.大數(shù)據(jù)的沖擊[M].北京:人民郵電出版社,2013,6.

[2]涂子沛.大數(shù)據(jù)[M].北京:廣西師范大學(xué)出版社,2012,7.

[3]維克托?邁爾?舍恩伯格.大數(shù)據(jù)時(shí)代[M].杭州:浙江人民出版社,2012,12.

[4]特金頓(Garry Turkington).Hadoop基礎(chǔ)教程[M].北京:人民郵電出版社,2014,1.

[5]劉蔚然,劉莉娜.大數(shù)據(jù)技術(shù)[J].冶金設(shè)備管理與維修,2014(4):33-36.

猜你喜歡
分析
禽大腸桿菌病的分析、診斷和防治
隱蔽失效適航要求符合性驗(yàn)證分析
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
經(jīng)濟(jì)危機(jī)下的均衡與非均衡分析
對(duì)計(jì)劃生育必要性以及其貫徹實(shí)施的分析
GB/T 7714-2015 與GB/T 7714-2005對(duì)比分析
出版與印刷(2016年3期)2016-02-02 01:20:11
中西醫(yī)結(jié)合治療抑郁癥100例分析
偽造有價(jià)證券罪立法比較分析
在線(xiàn)教育與MOOC的比較分析
主站蜘蛛池模板: 国产伦片中文免费观看| 久久中文字幕av不卡一区二区| 国产二级毛片| 亚洲天堂精品在线| 日韩美毛片| 九九久久99精品| 色婷婷狠狠干| 99re精彩视频| 成人午夜免费观看| 国产成人综合网| www.99精品视频在线播放| 蜜臀av性久久久久蜜臀aⅴ麻豆 | 九九这里只有精品视频| 理论片一区| 福利视频久久| 国产97公开成人免费视频| 青青草国产一区二区三区| 国产一区二区三区精品久久呦| 欧美日韩一区二区在线免费观看| 国产精品亚洲片在线va| 国产午夜精品鲁丝片| 不卡视频国产| 国产午夜看片| 91麻豆精品视频| 狠狠色丁香婷婷综合| 欧美成人A视频| 国产超薄肉色丝袜网站| 在线另类稀缺国产呦| 91偷拍一区| 色爽网免费视频| 在线国产欧美| 国产91无毒不卡在线观看| 一本一道波多野结衣一区二区| 国产麻豆精品在线观看| 亚洲综合片| 超级碰免费视频91| 天堂网亚洲综合在线| 国产亚洲精久久久久久久91| 亚洲国产精品美女| 2021无码专区人妻系列日韩| 国产国产人免费视频成18| 亚洲国产天堂久久九九九| 黄色免费在线网址| 99精品这里只有精品高清视频| 国产本道久久一区二区三区| 久久毛片网| 人妻无码AⅤ中文字| 思思热精品在线8| 老司机aⅴ在线精品导航| 亚洲人成网站日本片| 久草青青在线视频| 精品人妻系列无码专区久久| 国产在线高清一级毛片| 亚洲成人黄色网址| 久久久久久午夜精品| 亚洲人成高清| 亚洲精品国产综合99久久夜夜嗨| 国产情侣一区| 天堂va亚洲va欧美va国产| 蜜芽国产尤物av尤物在线看| 亚洲视频二| 91po国产在线精品免费观看| 国产人碰人摸人爱免费视频| 久久久国产精品无码专区| 国产成人免费视频精品一区二区 | 在线观看国产黄色| 国产三级成人| 无码国产伊人| 国产女主播一区| 一区二区午夜| 无码国产伊人| 一区二区三区毛片无码| 亚洲欧美国产五月天综合| 精品国产香蕉在线播出| 午夜精品福利影院| 麻豆国产在线观看一区二区| 少妇精品网站| 成人伊人色一区二区三区| 内射人妻无码色AV天堂| 黄色成年视频| 黄色污网站在线观看| 亚洲免费人成影院|