999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據(1)

2013-04-29 00:00:00于艷華宋美娜
中興通訊技術 2013年1期

[編者按]數據是與自然資源一樣重要的戰略資源,大數據技術就是從數量巨大、結構復雜、類型眾多的數據中,快速獲得有價值信息的能力,它已成為學術界、企業界甚至各國政府關注的熱點。本講座將分3期對大數據進行討論:第1期介紹大數據的提出、含義、特點,大數據和云計算的關系以及大數據典型應用;第2期將介紹大數據獲取、存貯、搜索、分享、分析、可視化等方面的關鍵技術,并對當前熱點技術—可視化進行重點分析;第3期將探討數據流挖掘等實時數據分析技術,介紹大數據中非結構化數據處理和挖掘技術,并給出大數據發展面臨的挑戰與應用前景。

1大數據概念的提出

高度數字化使得數據充斥著整個地球,大數據也成為一種新的自然資源[1],并成為當前所有行業最熱門的話題之一。大數據概念的提出可以追溯到《自然》雜志2008年9月??邪l表的文章:《Big Data: Science in the Petabyte Era》 [2],此后大數據這個概念被廣泛應用和傳播。2011年,麥肯錫公司發布了關于大數據的調研報告《大數據:下一個前沿,競爭力、創新力和生產力》,指出了大數據研究的地位以及將給社會帶來的價值。2012年3月,美國奧巴馬政府宣布投資2億美元啟動“大數據研發計劃”,旨在提高和改進從海量和復雜數據中獲取知識的能力,加速美國在科學和工程領域發明的步伐,增強國家安全。這是繼1993年美國宣布“信息高速公路”計劃后的又一次重大科技發展部署,由美國國家科學基金會、能源部等6個聯邦部門共同投資。中國科學院計算技術研究所李國杰院士指出[3]:“美國政府認為大數據是未來的新石油,將大數據研究上升為國家意志,對未來的科技與經濟發展必將帶來深遠影響。一個國家擁有數據的規模和運用數據的能力將成為綜合國力的重要組成部分和企業間新的爭奪焦點。”

維基百科對大數據的定義是:“大數據是由于規模、復雜性、實時而導致的使之無法在一定時間內用常規軟件工具對其進行獲取、存貯、搜索、分享、分析、可視化的數據集合 ”?;ヂ摼W數據中心將大數據定義為:為更經濟地從高頻率的、大容量的、不同結構和類型的數據中獲取價值而設計的新一代架構和技術。

大數據和以往的海量數據、超大規模數據有什么區別呢?顯然這些術語都表示系統需要管理的數據規模很大。相對于當時的CPU和存儲技術水平而言,這些規模過大的數據在處理時需要特別對待。從歷史發展來看,超大規模在提出時表示的是GB級別的數據,海量數據提出時表示的是TB級別數據,而大數據則是指PB(1 015)及以上級別的數據。

PB甚至更高級別的大數據的出現是近年來移動通信、互聯網、傳感器、物聯網等技術發展和應用的結果。據IDC公司統計,2011年全球被創建和被復制的數據總量為1.8 ZB(1 021),其中75%來自于個人(主要是圖片、視頻和音樂),遠遠超過人類有史以來所有印刷材料的數據總量(200 PB)。谷歌公司通過大規模集群和MapReduce軟件,每個月處理的數據量超過400 PB;百度每天大約要處理幾十PB數據;Facebook注冊用戶超過10億,每月上傳的照片超過10億張,每天生成300 TB以上的日志數據;淘寶網會員超過3.7億,在線商品超過8.8億,每天交易數千萬筆,產生約10—20 TB數據;雅虎的總存儲容量超過100 PB[3]。圖靈獎獲得者吉姆.格雷和IDC公司預測,全球數據量每18個月翻一翻,未來10年全球大數據將增加50倍左右。

大數據對于企業來說意味著巨大的經濟效益。2009年,谷歌公司通過大數據業務對美國經濟的貢獻為540億美元;eBay通過數據挖掘精確計算出廣告中的每一個關鍵字,2007年以來eBay 產品銷售的廣告費降低了99%,而頂級賣家占總銷售額的百分比卻上升至32%。

另一方面,大數據對IT業也意味著對海量、分散、變化、異構特性數據進行分析和管理的技術挑戰。IBM、Oracle、微軟、谷歌、亞馬遜、Facebook等都是大數據處理技術的主要推動者。大數據帶來的技術挑戰涉及數據的收集、存儲、檢索、共享、分析以及可視化等各個方面。首先,存儲能力的增長已經遠遠趕不上數據的增長,設計更合理、高可擴展性的分層存儲架構是數據管理系統的首要任務。數據移動已是數據管理系統最大開銷,數據管理系統需要從數據圍著處理器轉改為處理能力圍著數據轉。除了數據的采集、數據存儲外,新的數據表示方法、非結構化數據的存儲和分析、數據的去冗余和高效存儲、海量動態數據的實時數據挖掘甚至大數據管理帶來的能源消耗都將成為大數據時代的亟待解決的技術挑戰。

2 大數據的特點

和很多新出現的概念或技術一樣,關于大數據的特點也有很多種不同說法。百度百科給出的大數據的特點是4個“V”,分別代表:數量巨大(Volume),類型繁多(Variety),價值高(Value),處理速度快(Velocity)。但作者更傾向于Forrester分析師布賴恩·霍普金斯和鮑里斯·埃韋爾松在《首席信息官,請用大數據擴展數字視野》報告中給出的大數據的4個特點,分別是:海量(Volume)、多樣性(Variety)、高速(Velocity)和易變性(Variability)。

(1)海量。IDC給出了一個估算:2011年全球數據總量大約為1.8 ZB,如果用9 GB的DVD盤來保存,那么疊加起來這些DVD的高度超過260 000 km,大約是地球到月球距離的2/3;如果用1 TB的2.5寸硬盤保存,那么疊加起來的高度將會超過17 000 km,接近地球周長的一半。據IDC最近的報告預測,到2020年,全球數據量將擴大50倍。大數據的規模尚是一個不斷變化的指標,單一數據集的規模范圍從幾十TB到數PB不等。此外,各種意想不到的來源都能產生數據。例如,從巴塞羅那至沙特首府利雅得的單程航行中,一架商用噴氣飛機上收集的傳感器數據量將超過1 PB,當用一次飛行的數據量乘以每天所有飛行的航班數,數據總量也將非常驚人。

(2)多樣性。數據多樣性的增加主要是由于新型多結構數據。以及包括網絡日志、社交媒體、互聯網搜索、手機通話記錄及傳感器網絡等數據類型造成。其中,部分傳感器安裝在火車、汽車和飛機上,每個傳感器都增加了數據的多樣性。

(3)高速。高速描述的是數據分析和處理的速度。在網絡時代,通過基于實現軟件性能優化的高速電腦處理器和服務器,創建實時數據流已成為流行趨勢。企業不僅需要了解如何快速創建數據,還必須知道如何快速處理、分析并返回給用戶,以滿足他們的實時需求。根據IMS Research研究機構關于數據創建速度的調查,通過跟蹤可聯網設備的激活量,發現聯網設備增長的第二波浪潮正在加速到來。本輪增長后,將涌現更多新型可聯網設備增長的浪潮。據預測,到2020年全球將擁有220億部互聯網連接設備。

(4)易變性。大數據具有多層結構,這意味著大數據會呈現出多變的形式和類型。相較傳統的業務數據,大數據存在不規則和模糊不清的特性,造成很難甚至無法使用傳統的應用軟件進行分析。傳統業務數據隨時間演變已擁有標準的格式,能夠被標準的商務智能軟件識別。目前,企業面臨的挑戰是處理并從各種形式呈現的復雜數據中挖掘價值。

3 大數據的應用

2012年被稱為大數據元年,因為在這一年大數據這個概念引起了人們的空前關注。首先是美國政府公布“大數據研發計劃”,緊接著世界各國以及各大商業公司也對大數據給予了極大的關注。中國的計算機學會、電子學會等學術機構以及淘寶、中興通訊等各企業也給予了積極響應。其實,對大數據相關的技術研究和應用一直在進行,2012年突然迸發,只是一個量變到質變的結果。下面將簡單地介紹全球重要的企業、機構有關大數據的研究、開發、應用的一些情況。

3.1 Google

眾所周知,Google所提出的GFS、BigTable、MapReduce技術奠定了云計算研究和應用的基礎。正如很多成功的技術一樣,Google提出這些技術是為了解決其業務提供中遇到的現實問題。這個問題用今天的眼光來看就是大數據問題。Google作為搜索領域先進技術的實踐者,其面對的現實一方面是海量的網頁數據,另一方面是海量的網頁數據分布在全世界200多個地方,總計超過100萬臺服務器上,而且這些數據和服務器的數量還在快速增長。GFS是Google提出的分布式文件系統,可以支持對分布在大量廉價硬件的數據進行有效可靠的訪問。BigTable是Google構建在GFS之上的一種壓縮高效的專屬數據庫系統。MapReduce是支持在大規模集群上的大數據進行并行計算的軟件框架。基于這3項針對大數據存儲訪問和計算的關鍵技術,Google可以進行海量數據的搜索和分析挖掘,保證了其在搜索領域的主導地位。

Google 在公布了GFS、BigTable和MapReduce技術后,Apache軟件基金會以其為基礎用Java開發了開源軟件框架Hadoop,該框架現在是云計算相關研究和應用的基礎。因為Hadoop是用來進行“批處理”的平臺,一個任務一般需要幾分鐘來完成。針對Hadoop時間延遲的問題,Google提出了可以實現在海量網頁文檔集或者數字圖書館進行快速查詢的Dremel技術[4],該技術既有傳統結構化查詢語言(SQL)的易用風格,又可以極快地處理比如查詢PB級別的數據?;贒remel技術,Google從 2011年底開始,向公眾發布了它的大數據服務“BigQuery”,其目的是為了銷售云端的數據存儲,以及分析軟件;BigQuery使用了UI和REST界面,該業務的應用意味著數據分析門檻的降低。

3.2 IBM

IBM在數據分析與挖掘領域的聚焦由來已久。從2005年開始,IBM投資160億美元進行了30次與大數據有關的收購,包括2005年收購擁有ETL數據集成工具DataStage的Ascential軟件公司,2007年收購商業智能(BI)領域重量級公司Cognos,2009年收購美國三大統計分析軟件之一的統計產品與服務解決方案(SPSS),2010年收購大規模并行處理數據倉庫廠商Netezza等。IBM現在是全球數學博士的最大雇主,數學家正在通過IBM的數據分析產品研發和解決方案將其數學分析的才能應用于石油勘探、醫療健康等各領域,提升各行業的智能水平和決策的科學性。

近來IBM在數據分析領域中的一個為人所稱道的成功案例,是其擁有學習能力的超級電腦沃森,它在2011年美國的智力競猜節目《危險邊緣》中擊敗人類。在IBM技術創新全球副總裁Bernard S. Meyerson看來,沃森代表著一個大數據時代的一種全新的計算模式。他說:“未來沃森可以自主學習,如果答案是錯的,它會改變思維方式,下次給出正確答案”,這顯然與我們現在應用的給定相同輸入就一定會給出相同輸出的電腦程序是不同的。

IBM大數據平臺的幾個核心能力包括基于Hadoop的云存儲、流計算、數據倉庫等。IBM在Hadoop系統領域的代表產品是InfoSphere BigInsights,IBM將其在數據管理上的豐富經驗與Hadoop開源平臺高效整合,成為最主要的靜態大數據分析工具和平臺。IBM在流計算領域的代表產品是InfoSphere Streams,它是流數據處理技術產品,不僅能夠在對諸如氣象信息、通信信息、金融交易數據的管理中動態捕捉信息并進行實時分析,還能夠對靜態數據的處理提供有效補充。IBM在數據倉庫領域的代表產品是在線交易型數據倉庫InfoSphere Warehouse和分析型數據倉庫Netezza。Netezza克服了傳統數據倉庫在面臨大數據挑戰時的瓶頸,充分發揮了對稱多處理能力,可以將大量數據整合到統一的平臺上,計算能力高達TB級。通過與Cognos和SPSS等業務分析工具相結合,IBM數據倉庫產品還能夠實現定制化的分析挖掘功能。

3.3 Microsoft

微軟在數據管理、商務智能、數據挖掘的研發和解決方案是以其結構化查詢語言(SQL) Server平臺為基礎的,對大數據的布局也是以 SQL Server平臺為主,并集成Windows Azure公有云與Hadoop系統,形成覆蓋整個產業鏈的完整解決方案。微軟已發布了SQL Server平臺的2012版本,其中加入了大數據處理和分析挖掘的功能。這些特性包括:能夠處理結構化數據以及非結構化數據;提出了數據商店的概念;將SQL Server的活動目錄與Hadoop集成。目前微軟已有的大數據實施成功的案例,包括目前正在成都投入運作的云計算中心。該中心利用大數據平臺、虛擬化、BI商業智能分析等一系列技術手段,實現了對肉類產品從喂養到售賣的實時監控。

3.4 淘寶

隨著電子商務的迅速發展,淘寶所積累的龐大數據、所面對的大量復雜用戶需求,客觀要求采用大數據技術進行分析和處理,這主要包括在線分析和離線分析兩種。在線分析對相應時間的要求比較高(通常不超過若干秒),通過構建在云計算平臺上的NoSQL系統(例如Hadoop上的HBase),實現了更好地開源、降低成本、易于擴展等效果,而且能夠實時處理數千萬甚至數億條請求記錄。離線數據分析基于開源的Hadoop的HDFS文件系統和MapReduce運算框架,用于較復雜和耗時的數據分析和處理。

采用傳統市場調查方式(電話、郵件、信函等)抽樣調查耗時耗力,且調查結果與客觀情況誤差較大,淘寶通過對實際訪問、交易的真實數據分析可以發現一些有趣結果,利用它們可以幫助商家調整營銷戰略,提升競爭力。讓我們來分析一個商品之間常常存在的內在關聯實例[5],比如買了奶粉的客戶,很可能會買奶嘴等嬰兒用品。過去人們更多依靠邏輯分析和抽樣統計來發現這些關聯關系,現在憑借大數據及其分析處理系統,可以更加清晰和準確地獲取商品之間的內在關聯。比如,購買了女裝的客戶,買女士內衣、箱包皮具和食品的比例最大;其次是買彩妝和女鞋;再次是服飾配件和飾品等,這是非常典型的女性消費者購物模式。這些信息可以有多種用途,例如商家在決定擴大或縮小經營范圍時,可以藉此來選擇擴大或縮小商品的類別;搞促銷活動時,商城運營人員可以藉此選擇促銷的范圍乃至不同商品的促銷力度等。

4 大數據與云計算的關系

大數據和云計算是關系緊密的兩個概念。大數據技術廣義來講涵蓋了從數據的海量存儲、處理到應用多方面的技術,包括海量分布式文件系統、并行計算框架、NoSQL數據庫、實時流數據處理以及智能分析技術如模式識別、自然語言理解、應用知識庫等。狹義來講則主要指從大量、多樣、分散和異構的數據集中提取有用信息的核心技術,包括實時流數據處理以及智能分析技術如模式識別、自然語言理解、應用知識庫等。

云計算之所以一經提出就得到廣泛關注,是因為它使得人類“將計算能力作為公共事業設施來提供”的夢想變為現實,而使得“夢想照進現實”的關鍵技術是GFS、BigTable和MapReduce。這3項技術是Google為了鞏固其搜索領域的核心地位而提出的。Google提出將文件和數據分割成塊,以便支持分布式存儲和并行處理,實現海量數據存儲并提升大數據量下的快速數據處理[6]。因此,云計算的核心是業務模式,本質是數據處理技術。

可以看出,云計算技術是廣義大數據技術的一部分,也是狹義大數據技術的基礎。可以說,大數據是資產,云為數據資產提供了保管、訪問的場所和渠道。如何盤活數據資產,使其為國家治理、企業決策乃至個人生活服務,是大數據研究的核心問題。一方面,大數據離不開云計算,正因為有了云計算的超強計算能力,大數據才顯示出了堪比黃金鉆石的價值。另一方面,大數據處理的興起也將改變云計算的發展方向,云計算正在進入以分析即服務AaaS)為主要標志的Cloud 2.0時代。 (待續)

參考文獻

[1] Big data: The new natural resource[EB/OL]. http://www.ibmbigdatahub.com/infographic/big-data-new-natural-resource

[2] Big data:Science in the petabyte era[J]. Nature, 2008, 455:1-136.

[3] 李國杰.大數據研究的科學價值[J].中國計算機學會通訊,2012, 8(9): 8-15.

[4] MELNIK S, GUBAREV A, LONG J J, et al. Dremel: Interactive Analysis of Web-Scale Datasets[C]// Proceedings of the 36th International Conference on Very Large Data Bases (VLDB’10), Sep 13-17, 2010, Singapore. 2010: 330-339.

[5] 陽振坤, 張清, 王勇, 等. 大數據的魔力[J].中國計算機學會通訊. 2012, 8(6): 17-21.

[6] 王柏, 徐六通. 云計算[J].中興通訊技術. 2010, 16(1): 57-60.

收稿日期:2012-12-03

作者簡介

于艷華,北京郵電大學計算機學院副教授;主要研究方向為網絡管理與優化、數據挖掘等;已發表論文10余篇,申請專利10余項。

宋美娜,北京郵電大學計算機學院教授;主要研究方向為分布式系統、服務計算、數據工程等;已發表論文50余篇,申請專利20余項。

主站蜘蛛池模板: 欧美一区精品| 成人福利一区二区视频在线| 亚洲中文无码av永久伊人| 久久青草精品一区二区三区| 夜夜爽免费视频| 日韩AV无码一区| 青青青国产视频手机| 性色一区| 国产极品粉嫩小泬免费看| 伊人久久婷婷五月综合97色| AV在线天堂进入| 欧美精品三级在线| 伊人色天堂| 国产极品粉嫩小泬免费看| 麻豆国产在线观看一区二区| 波多野结衣久久高清免费| 国产乱子伦视频三区| 色久综合在线| 亚洲综合色区在线播放2019| 日韩欧美中文字幕在线精品| 亚洲久悠悠色悠在线播放| 欧美亚洲香蕉| 国产成人综合久久精品尤物| 一本一本大道香蕉久在线播放| 国产精品第页| 欧美性久久久久| 亚洲综合香蕉| 久久亚洲日本不卡一区二区| 精品久久蜜桃| 欧美精品高清| 国产视频资源在线观看| 五月天婷婷网亚洲综合在线| 国产精品天干天干在线观看| 中文字幕在线日本| 亚洲天堂免费| 在线一级毛片| 久久免费视频6| 成人毛片免费在线观看| 看国产毛片| 亚洲欧美日韩成人高清在线一区| 欧美一区二区三区国产精品| 国产成人狂喷潮在线观看2345 | 一级成人a毛片免费播放| 亚洲成人黄色在线观看| 在线视频97| 亚洲综合狠狠| 久久天天躁夜夜躁狠狠| 国产91熟女高潮一区二区| 免费精品一区二区h| 欧美精品在线免费| 婷婷99视频精品全部在线观看| 伊人久久婷婷五月综合97色| 欧美亚洲欧美| 国产黄色片在线看| 国产免费久久精品99re丫丫一| 97精品国产高清久久久久蜜芽| 亚洲一级毛片在线观| av午夜福利一片免费看| 国产精品专区第一页在线观看| 国产91丝袜在线播放动漫| 精品乱码久久久久久久| 色妞永久免费视频| 国产不卡一级毛片视频| 亚国产欧美在线人成| 国产区福利小视频在线观看尤物| 99re热精品视频国产免费| 91九色视频网| 在线精品欧美日韩| 爆乳熟妇一区二区三区| 国产又粗又猛又爽| 亚洲女同一区二区| av天堂最新版在线| 91黄视频在线观看| 国产欧美日韩另类| 国产在线拍偷自揄拍精品| 国产午夜精品鲁丝片| 91丝袜美腿高跟国产极品老师| 国产精品女人呻吟在线观看| 狠狠五月天中文字幕| 伊人色综合久久天天| 亚洲品质国产精品无码| 扒开粉嫩的小缝隙喷白浆视频|