999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數(shù)據(jù)概念及主要技術分析研究

2016-12-27 15:01:13李真春裴彥芳
科技傳播 2016年19期
關鍵詞:分析

李真春+裴彥芳

摘 要 本文全方位多角度分析了大數(shù)據(jù)概念的提出及發(fā)展歷程,闡述了大數(shù)據(jù)概念的內涵和外延,特別對大數(shù)據(jù)的“4V”特征進行了深入解讀,剖析了大數(shù)據(jù)技術快速發(fā)展的深層次原因,為大家正確認識大數(shù)據(jù)提供了有益的探索。簡要介紹了主要的大數(shù)據(jù)技術,包括:大數(shù)據(jù)采集與預處理的技術、大數(shù)據(jù)存儲與管理技術、大數(shù)據(jù)計算技術、大數(shù)據(jù)分析技術和大數(shù)據(jù)呈現(xiàn)技術,詳細介紹了在大數(shù)據(jù)研究領域影響最廣泛的大數(shù)據(jù)技術-Hadoop,在此基礎上,簡要介紹了大數(shù)據(jù)技術的基本應用。

關鍵詞 大數(shù)據(jù);4V特征;大數(shù)據(jù)技術;hadoop

中圖分類號 TP3 文獻標識碼 A 文章編號 1674-6708(2016)172-0105-002

1 大數(shù)據(jù)概念的內涵和外延

大數(shù)據(jù)是一個很寬泛的概念,仁者見仁,智者見智。

亞馬遜(全球最大的電子商務公司)大數(shù)據(jù)科學家John Rauser認為大數(shù)據(jù)是任何超過了一臺計算機處理能力的數(shù)據(jù)量。(Big data is ‘a(chǎn)ny amount of data thats too big to be handled by one computer)。

在《大數(shù)據(jù):下一個創(chuàng)新、競爭和生產(chǎn)率的前沿》當中,麥肯錫對于大數(shù)據(jù)做出了一下定義,即:所謂的大數(shù)據(jù),主要就是指那些大小比常規(guī)數(shù)據(jù)庫工具的獲取、存儲等更大的數(shù)據(jù)集。一般來說,大數(shù)據(jù)概念的內涵通常用4V特征來表述。

第一個V是Volume,就是數(shù)據(jù)體量大。大到運用常用的數(shù)據(jù)庫軟件無法對其進行管理。現(xiàn)在來看,基本上是指幾十TB到幾個PB的數(shù)量級。當然,隨著技術的進步,數(shù)據(jù)的積累,這個數(shù)值會變得更多,有人預測5年后,也許只有EB數(shù)量級的數(shù)據(jù)量才能夠稱得上是大數(shù)據(jù)。

第二個V是Variety,是指數(shù)據(jù)類型繁多,來源各異。有來自網(wǎng)絡的網(wǎng)頁、日志、圖片,有來自傳感器的監(jiān)測數(shù)據(jù)、視頻數(shù)據(jù)、音頻數(shù)據(jù)、位置信息,還有來自日常運營系統(tǒng)的各類信息等。

第三個V是Velocity,速度快。它包含兩個含義,一是數(shù)據(jù)產(chǎn)生和更新的頻率快,數(shù)據(jù)量增長速度快。如今,只需兩天就能產(chǎn)生出自人類文明誕生以來到2003年所產(chǎn)生數(shù)據(jù)的總量。谷哥搜索引擎每個月處理的數(shù)據(jù)量超過400PB;百度每天大約要處理幾十PB字節(jié)數(shù)據(jù);淘寶在線商品10億多件,每天發(fā)生數(shù)千萬筆交易,產(chǎn)生約20TB數(shù)據(jù)。各個城市的視頻監(jiān)控每時每刻都在采集巨量的流媒體數(shù)據(jù)。二是響應快,要有很高的時效性。對大數(shù)據(jù)的處理要求也要遵循1秒定律,就是在1秒內出結果。

第四個V是Value,價值性。包含3層含義。一是價值密度低,在數(shù)據(jù)總量中有用數(shù)據(jù)所占比例低。以視頻數(shù)據(jù)為例,在連續(xù)不間斷的監(jiān)控圖像中,可能有用的數(shù)據(jù)僅有一兩秒。二是整體價值高,設想一下,研究問題領域相關的、全部的、真實的數(shù)據(jù)被匯集起來形成的大數(shù)據(jù)集,其價值是何等珍貴。三是潛在價值大。大量數(shù)據(jù)的價值尚未完全被挖掘利用,大數(shù)據(jù)挖掘就像沙里淘金。

2 大數(shù)據(jù)為什么能“火”

一是大數(shù)據(jù)的大眾化。事實上,大數(shù)據(jù)并不是一個新名詞,尤其是當我們只從數(shù)據(jù)量的方向來對其進行分析的話,大數(shù)據(jù)早已存在。例如,飛機汽輪機壓縮器葉片的監(jiān)控數(shù)據(jù)為每天588GB,生物技術領域中的基因組分析用的數(shù)據(jù)、氣象數(shù)據(jù)分析用的數(shù)據(jù)等,很早之前就已經(jīng)屬于大數(shù)據(jù)了,并且其已經(jīng)大到需要運用一些相對昂貴的超級高端計算機,進行數(shù)據(jù)的處理與分析。

二是大數(shù)據(jù)的硬軟件條件具備了。計算基礎條件:IT的摩爾定律使得計算機處理速度更快卻更便宜。(1965年,Intel的主要創(chuàng)始人戈登?摩爾就曾經(jīng)提出一個非常有名的“摩爾定律”:在價格保持不變時,在集成電路當中,其所能夠容納的晶體管數(shù)目,通常都會在18個月之后增加一倍,并提升一倍的性能)。

存儲條件:其磁盤的價格出現(xiàn)了非常顯著的下降,其中,在2000年的時候,每GB硬盤的單價大約為19美元,但是到了2010年時,其已經(jīng)降到了7美分,10年下降了近300倍;而且體積比以前更小。

分布并行計算條件:大規(guī)模數(shù)據(jù)分布式處理技術的發(fā)明與應用,成為了現(xiàn)階段大數(shù)據(jù)浪潮的第一推動力。

三是云計算的普及。云計算,就是一種利用大規(guī)模、低成本運算單元,通過網(wǎng)絡連接,提供各種計算和存儲服務的信息平臺。云計算改變了數(shù)據(jù)的存儲、計算和訪問方式。因為有了云計算,大數(shù)據(jù)的硬軟件環(huán)境就不需要自行搭建了。

3 大數(shù)據(jù)技術及應用

3.1 主要的大數(shù)據(jù)技術

通俗地講,所謂的大數(shù)據(jù)技術,指的就是從各種數(shù)據(jù)當中,來快速獲得有一定價值的信息的一種技術。

依據(jù)相應的數(shù)據(jù)處理流程,大數(shù)據(jù)技術主要包括大數(shù)據(jù)采集與預處理技術,大數(shù)據(jù)存儲與管理技術、大數(shù)據(jù)分析技術、大數(shù)據(jù)計算技術和大數(shù)據(jù)呈現(xiàn)技術等。

大數(shù)據(jù)采集與預處理技術,用于解決數(shù)據(jù)來源和數(shù)據(jù)質量等問題,主要包括異構數(shù)據(jù)庫集成、WEB信息實體識別、傳感器網(wǎng)絡數(shù)據(jù)融合、數(shù)據(jù)清洗和數(shù)據(jù)質量控制等。

從某種意義上來說,大數(shù)據(jù)的存儲與管理技術,能夠用來解決大數(shù)據(jù)的可靠存儲和快速檢索訪問等問題,主要包括分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、大數(shù)據(jù)索引和查詢、實時/流式大數(shù)據(jù)存儲與處理等。

大數(shù)據(jù)計算技術,用于解決分布式高速并行計算問題,主要包括分布式查詢計算技術、批處理計算、流式計算、迭代計算、圖計算、內存計算等。

大數(shù)據(jù)分析技術,用于揭示規(guī)律、發(fā)現(xiàn)線索、探尋答案問題,主要包括數(shù)據(jù)挖掘、機器學習、模式識別、聚類分析等技術。

大數(shù)據(jù)呈現(xiàn)技術,用于將數(shù)據(jù)分析結果顯示給用戶,使得用戶能夠更清晰、方便、深入理解數(shù)據(jù)分析結果。主要包括可視化技術、歷史流展示技術、空間流展示技術等。

3.2 大數(shù)據(jù)應用

利用電子商務平臺所擁有的大數(shù)據(jù),對客戶的行為進行大數(shù)據(jù)挖掘分析,提供了相似選購行為分析-用于推薦相似產(chǎn)品-經(jīng)典臺詞是“看過本商品的顧客還看了”;提供了相似購買行為分析-用于推薦組合產(chǎn)品-經(jīng)典臺詞是“購買本商品的顧客還購買了”;根據(jù)客戶的瀏覽歷史預測客戶喜好分析-用于推薦最適合的產(chǎn)品-經(jīng)典臺詞是“建議購買以下產(chǎn)品”。

利用社區(qū)網(wǎng)站所擁有的大數(shù)據(jù),根據(jù)用戶上網(wǎng)行為向用戶推送定向廣告。如根據(jù)我在新浪微博中的“男士休閑服”的話題,為我推薦淘寶店中出售的休閑套裝;根據(jù)我的身份信息,為我推薦的產(chǎn)品基本符合我的年齡、身份和喜好;并根據(jù)我對套裝的關注,為我推薦黃金絨的牛仔褲;根據(jù)我的喜好和評介,將類似的產(chǎn)品推薦給我的好友。

目前,大數(shù)據(jù)已在社會各領域進行了應用,從應用方向上看,在實現(xiàn)了大數(shù)據(jù)的存儲、挖掘與分析之后,大數(shù)據(jù)被廣泛運用在企業(yè)管理、數(shù)據(jù)標準化分析等領域中。而從應用行業(yè)的角度來說,通過大數(shù)據(jù)的運用,能夠在很大程度上改進客戶的營銷方式與服務水平,這樣能夠有效幫助行業(yè)降低成本,實現(xiàn)運營效益的提升。此外,其還可以幫助企業(yè)創(chuàng)新商業(yè)模式,并發(fā)現(xiàn)新的市場商機。從對整個社會的價值來看,大數(shù)據(jù)在智慧城市、智慧交通及災難預警等方面都有巨大的潛在應用價值。

參考文獻

[1]城田真琴.大數(shù)據(jù)的沖擊[M].北京:人民郵電出版社,2013,6.

[2]涂子沛.大數(shù)據(jù)[M].北京:廣西師范大學出版社,2012,7.

[3]維克托?邁爾?舍恩伯格.大數(shù)據(jù)時代[M].杭州:浙江人民出版社,2012,12.

[4]特金頓(Garry Turkington).Hadoop基礎教程[M].北京:人民郵電出版社,2014,1.

[5]劉蔚然,劉莉娜.大數(shù)據(jù)技術[J].冶金設備管理與維修,2014(4):33-36.

猜你喜歡
分析
禽大腸桿菌病的分析、診斷和防治
隱蔽失效適航要求符合性驗證分析
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統(tǒng)及其自動化發(fā)展趨勢分析
經(jīng)濟危機下的均衡與非均衡分析
對計劃生育必要性以及其貫徹實施的分析
GB/T 7714-2015 與GB/T 7714-2005對比分析
出版與印刷(2016年3期)2016-02-02 01:20:11
中西醫(yī)結合治療抑郁癥100例分析
偽造有價證券罪立法比較分析
在線教育與MOOC的比較分析
主站蜘蛛池模板: 国产成人久久综合777777麻豆| 亚洲综合在线网| 国产精品不卡永久免费| 国产午夜无码片在线观看网站| 天天综合色天天综合网| 亚洲最大福利网站| 国产丝袜第一页| 亚洲日韩AV无码一区二区三区人 | 亚洲国产精品不卡在线| 国产成人福利在线| 九一九色国产| a级毛片视频免费观看| 色婷婷视频在线| 2021国产乱人伦在线播放| 成人自拍视频在线观看| 尤物视频一区| 美女无遮挡被啪啪到高潮免费| 亚洲色图欧美激情| 国产成人一区在线播放| 欧美曰批视频免费播放免费| 亚洲色图欧美视频| 一本久道热中字伊人| 毛片视频网| 最新国产午夜精品视频成人| 亚洲日韩久久综合中文字幕| 国产成人综合在线视频| 2020最新国产精品视频| 香蕉蕉亚亚洲aav综合| 亚洲AⅤ波多系列中文字幕| 99视频免费观看| 91麻豆精品视频| 91精品视频网站| 亚洲成在人线av品善网好看| 国产精品熟女亚洲AV麻豆| 久久亚洲天堂| 欧美在线三级| 欧美国产三级| 免费高清自慰一区二区三区| 久久精品一品道久久精品| 亚洲天堂色色人体| 亚洲成人精品在线| 自拍偷拍欧美| 欧美成人综合视频| 2021国产精品自产拍在线| 伊人成人在线视频| A级毛片无码久久精品免费| 四虎永久在线| 国产成年女人特黄特色大片免费| 国产成人麻豆精品| 免费看av在线网站网址| 青青草原国产| 欧美日本在线| 国产精品尤物铁牛tv| 久久午夜夜伦鲁鲁片不卡| 又黄又湿又爽的视频| 色亚洲激情综合精品无码视频| 久久亚洲美女精品国产精品| 国产精品刺激对白在线| 日本国产精品| 欧美亚洲网| 国产亚洲精品资源在线26u| 国产对白刺激真实精品91| 欧美国产成人在线| 亚洲看片网| 91在线视频福利| 在线另类稀缺国产呦| 中文字幕在线一区二区在线| 全部免费毛片免费播放| 亚洲成人网在线观看| 欧美啪啪一区| 久久精品国产91久久综合麻豆自制| 亚洲欧美成人在线视频| av性天堂网| 久青草网站| 久久99国产综合精品1| 亚洲欧美另类专区| 一本大道香蕉高清久久| 亚洲日韩精品无码专区97| 亚洲成人在线网| 国产高清无码第一十页在线观看| 伊人久久久久久久| 黄色网页在线观看|