999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數(shù)據(jù)的概念、技術及應用

2013-12-31 00:00:00張心源李白楊
創(chuàng)新科技 2013年9期

[摘要]繼云計算、物聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)后,大數(shù)據(jù)成為信息和互聯(lián)網(wǎng)行業(yè)的研究熱點。本文通過文獻調研法對大數(shù)據(jù)的概念和技術做了闡釋,并對其在各個行業(yè)的應用進行了簡單評價,以期對大數(shù)據(jù)的研究做出有益補充。

[關鍵詞]大數(shù)據(jù);信息技術;數(shù)據(jù)處理

[中圖分類號]TP274[文獻標識碼]A

20世紀中葉計算機的誕生標志著電子時代正式開始,從此人類社會開始生產(chǎn)并存儲各類型的數(shù)據(jù)。經(jīng)過數(shù)次計算機技術革命,單位面積所能存儲的數(shù)據(jù)量大大提高。近年來,由于WEB2.0應用的全面爆發(fā),網(wǎng)絡參與者同時也成了網(wǎng)絡信息的制造者,由WEB2.0帶來的大規(guī)模非結構化數(shù)據(jù)開始呈現(xiàn)出幾何增長。因此,麥肯錫公司在2011年的報告《Big Data:the Next Frontier for Innovation》[1]中,對這種密集型數(shù)據(jù)爆炸的現(xiàn)象成為“大數(shù)據(jù)”時代的到來。

1大數(shù)據(jù)的概念

大數(shù)據(jù)的概念并不是憑空出現(xiàn)的,它的前身是海量數(shù)據(jù)。但兩者之間有所區(qū)別。海量數(shù)據(jù)強調了數(shù)據(jù)量的規(guī)模之大,并沒有對其特性進行定義。而大數(shù)據(jù)的概念包含了大數(shù)據(jù)的體積、傳播速率、特征等內容。雖然截至目前還沒有對大數(shù)據(jù)有統(tǒng)一的定義,但被廣泛接受的定義為:大數(shù)據(jù)是無法在一定時間內用通常的軟件工具進行收集、分析、管理的大量數(shù)據(jù)的集合[2]。大數(shù)據(jù)的特點一般歸納為四點:一是數(shù)據(jù)總量大,目前大數(shù)據(jù)的最小單位一般被認為是10~20TB的量級;二是數(shù)據(jù)類型多,包括了結構化、非結構化和半結構化數(shù)據(jù);三是數(shù)據(jù)的價值密度很低;四是數(shù)據(jù)產(chǎn)生和處理的速度非常快。這四個特點又被稱作大數(shù)據(jù)的4 V理念,即:Volume,Variety,Value,Velocity[3]。

2大數(shù)據(jù)的技術

依據(jù)大數(shù)據(jù)生命周期的不同階段,可以將與大數(shù)據(jù)處理相關的技術分為相應的三個方面:

2.1大數(shù)據(jù)存儲

從海量數(shù)據(jù)時代開始,大規(guī)模數(shù)據(jù)的長期保存、數(shù)據(jù)遷移一直都是研究的重點。從20世紀90年代末至今,數(shù)據(jù)存儲始終是依據(jù)數(shù)據(jù)量大小的不斷變化和不斷優(yōu)化向前發(fā)展的。其中主要有:DAS(Direct Attached Storage),直接外掛存儲;NAS(Network Attached Storage),網(wǎng)絡附加存儲;SAN(Storage Area Network),存儲域網(wǎng)絡和SAN IP等存儲方式[4]。這幾種存儲方式雖然是不同時代的產(chǎn)物,但各自的優(yōu)缺點都十分鮮明,數(shù)據(jù)中心往往是根據(jù)自身的服務器數(shù)量和要處理的數(shù)據(jù)對象進行選擇。

此外,這兩年數(shù)據(jù)存儲的虛擬化從研究走向現(xiàn)實。所謂虛擬化,就是將原有的服務器進行軟件虛擬化,將其劃分為若干個獨立的服務空間,如此可以在一臺服務器上提供多種存儲服務,大大提高了存儲效率,節(jié)約存儲成本,是異構數(shù)據(jù)平臺的最佳選擇。從技術角度來講,虛擬化可以分為存儲虛擬化和網(wǎng)絡虛擬化,網(wǎng)絡虛擬化是存儲虛擬化的輔助,能夠大幅度提升數(shù)據(jù)中心的網(wǎng)絡利用率和傳輸速率。目前IBM、浪潮、思科等公司紛紛發(fā)力虛擬化市場,可以預見虛擬化會成為未來大數(shù)據(jù)存儲的一個主流技術。

2.2大數(shù)據(jù)挖掘

在大數(shù)據(jù)的處理技術中,超大規(guī)模的數(shù)據(jù)挖掘一直是難點,也是重點。面對上百TB,甚至PB級別的異構數(shù)據(jù),常規(guī)的處理工具往往難以擔當重任。需要考慮到的是大數(shù)據(jù)是個不斷生長的有機體,因此在挖掘過程中還要考慮到未來數(shù)據(jù)繼續(xù)增長所帶來的影響。

因此,大數(shù)據(jù)的挖掘需要采用分布式挖掘和云計算技術。Google公司一直是分布式挖掘技術的領導者,它研發(fā)了MapReduce分布式挖掘工具[5],英特爾公司在此基礎上開發(fā)了Hadoop分布式挖掘工具。這兩個工具都具有高效、高擴展、高可靠性和高容錯率的特點,并提供免費版本,適用于各種類型的大數(shù)據(jù)挖掘。

2.3大數(shù)據(jù)分析

從內容來說,大數(shù)據(jù)的分析分為技術和方法兩種類型。從技術上講,主要是分布式的數(shù)據(jù)分析和非結構化數(shù)據(jù)處理等。從方法上講,主要是利用常用的數(shù)理統(tǒng)計方法來進行數(shù)據(jù)分析,例如使用可視化的數(shù)據(jù)分析工具。但兩者是一個有機的整體。大數(shù)據(jù)處理的最終目的是為了將數(shù)據(jù)之間的關系以可視化的方式呈現(xiàn)在用戶面前,包括了處理的全部過程和展現(xiàn)的過程。在數(shù)據(jù)分析過程中,不僅僅是需要計算機進行自動化的分析,更需要人工進行數(shù)據(jù)選擇和參數(shù)的設定,兩個是辯證的關系。

隨著大數(shù)據(jù)行業(yè)的興起,產(chǎn)生了一個新的職業(yè),被稱作數(shù)據(jù)科學,而從事該行業(yè)的人員被稱作數(shù)據(jù)科學家。這類科學家的一個特點就是能夠藝術性地將數(shù)據(jù)進行可視化分析,簡單明了而且能夠展現(xiàn)出數(shù)據(jù)之間的關聯(lián)關系。

3大數(shù)據(jù)的應用

麥肯錫在大數(shù)據(jù)的研究報告中指出,大數(shù)據(jù)的應用已經(jīng)滲透到每一個行業(yè)和業(yè)務職能領域,逐漸成為了重要的生產(chǎn)因素[6]。按照專業(yè)領域劃分,信息技術、互聯(lián)網(wǎng)行業(yè)、商業(yè)、遙感探測已經(jīng)開始應用大數(shù)據(jù)技術來進行研究和生產(chǎn)效益;生物信息技術、科研情報所、圖書情報領域已經(jīng)對大數(shù)據(jù)展開了研究,并進行了規(guī)劃;其他專業(yè)和行業(yè)對大數(shù)據(jù)可能仍處于了解階段,但大數(shù)據(jù)的浪潮很快就會波及大部分的行業(yè)領域。

從大數(shù)據(jù)的應用效果來看,總體趨勢與上述的三類專業(yè)呈現(xiàn)出一致性。百度、淘寶等公司作為信息技術、互聯(lián)網(wǎng)和商業(yè)領域的杰出代表,已經(jīng)對大數(shù)據(jù)開始了深度應用,馬云在卸任阿里巴巴CEO時更是闡述了大數(shù)據(jù)時代將改變互聯(lián)網(wǎng)商業(yè)的面貌,誰提前開始大數(shù)據(jù)的應用,就可以獲得未來行業(yè)發(fā)展的優(yōu)勢。大數(shù)據(jù)的普及需要一個過程,首先從重點應用行業(yè)開始,例如信息技術領域行業(yè),逐漸擴展到其他行業(yè)。美國已經(jīng)由白宮頒布了大數(shù)據(jù)開發(fā)與利用的國家級戰(zhàn)略,由美國國防部和國土安全局牽頭開展全面推廣大數(shù)據(jù)的應用。我國目前對大數(shù)據(jù)的研究并不多,應用更是缺乏。如果要推動大數(shù)據(jù)的應用,應當由國家層面進行大數(shù)據(jù)的平臺建設。在今年的國家自然科學基金和社會科學基金的課題指南中,已經(jīng)提出了很多設計大數(shù)據(jù)的課題,相信在未來幾年內國家會對大數(shù)據(jù)的研究、開發(fā)與利用提供政策和資金支持。

總而言之,大數(shù)據(jù)的技術與應用還是處于起步階段,其應用的前景不可估量。各個行業(yè)應當把握時代脈搏,充分認識到大數(shù)據(jù)所能帶來的革命性改變,只有這樣才能夠保持創(chuàng)新與進步,從而站在行業(yè)的最前沿。

參考文獻:

[1]Manyika J,McKinsey Global Insti? tute,Chui M,et al. Big data: The next fron? tier for innovation,competition,and produc? tivity[M]. McKinsey Global Institute,2011.

[2]盧勝軍,王忠軍,栗琳.賽博空間與大數(shù)據(jù)雙重視角下的錢學森情報思想[J].情報理論與實踐,2013,36(004): 1-5.

[3]Hirt C W,Nichols B D. Volume of fluid(VOF)method for the dynamics of free boundaries[J].Journalofcomputational physics,1981,39(1): 201-225.

[4]Chirillo J,Blaul S. Storage Security: Protecting,SANs,NAS and DAS[M].John Wiley Sons,Inc.,2002.

[5]Dean J,Ghemawat S. MapReduce: simplified data processing on large clusters[J]. Communications of the ACM,2008,51(1): 107-113.

[6]鄭玲微.大步跨入“大數(shù)據(jù)”時代[J].信息化建設,2013(1).

作者簡介:張心源(1992-),女,本科,信息管理與信息系統(tǒng)專業(yè),已發(fā)表論文7篇。

李白楊(1991-),男,碩士研究生,研究方向為數(shù)字圖書館與信息資源整理,已發(fā)表論文3篇。

主站蜘蛛池模板: 亚洲毛片一级带毛片基地| 呦女精品网站| 久久婷婷五月综合97色| 亚洲无线国产观看| 伊人国产无码高清视频| 国产青榴视频| 色综合a怡红院怡红院首页| 91人妻日韩人妻无码专区精品| 97精品伊人久久大香线蕉| 亚洲精品在线91| 欧美三級片黃色三級片黃色1| 美女被操黄色视频网站| 久精品色妇丰满人妻| 激情综合激情| 亚洲美女一区二区三区| 国产亚洲日韩av在线| 免费a在线观看播放| 香蕉伊思人视频| 天天激情综合| 巨熟乳波霸若妻中文观看免费| 99ri精品视频在线观看播放| 中文字幕无码制服中字| 国内精品久久久久久久久久影视| 久久人妻xunleige无码| 午夜国产精品视频| 久久久久久国产精品mv| 午夜毛片免费看| www亚洲精品| 国产精品视频a| 精品色综合| 久久久国产精品免费视频| 国产精品30p| 超清无码熟妇人妻AV在线绿巨人| 无码精油按摩潮喷在线播放| 亚洲国产精品一区二区第一页免| 国产自无码视频在线观看| 亚洲一级毛片在线观播放| 伊人久久精品无码麻豆精品| 国产欧美精品午夜在线播放| 国产激爽大片在线播放| 国产超薄肉色丝袜网站| 中文字幕在线看| 国产精品成人久久| 色偷偷一区二区三区| 亚洲成人在线网| 2021无码专区人妻系列日韩| av在线5g无码天天| 无码国产偷倩在线播放老年人 | 国产欧美在线观看一区| 日韩在线欧美在线| 无码网站免费观看| 久久久久亚洲精品成人网| 99草精品视频| 91网址在线播放| 香蕉eeww99国产在线观看| 日韩国产综合精选| 精品人妻系列无码专区久久| 国产成人亚洲欧美激情| 精品人妻无码区在线视频| www.99精品视频在线播放| 国产成人AV男人的天堂| 91精品伊人久久大香线蕉| 2021国产在线视频| 国产亚洲精品资源在线26u| 亚洲国产成人在线| 无码久看视频| 中文字幕丝袜一区二区| 超薄丝袜足j国产在线视频| 国产小视频a在线观看| 91成人免费观看| 曰AV在线无码| 欧美精品亚洲日韩a| 精品视频在线观看你懂的一区| 欧美啪啪网| 丰满人妻久久中文字幕| 18禁黄无遮挡网站| 亚洲一区二区在线无码| 日韩黄色精品| 久久久久人妻一区精品| 国产91熟女高潮一区二区| 亚洲精品动漫| 久久综合九九亚洲一区 |