999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

主流大數據技術淺談

2015-04-04 13:42:35曾昱祺
數字通信世界 2015年7期
關鍵詞:分析

國 志,劉 暢,曾昱祺

(國家無線電監測中心,北京 100037)

主流大數據技術淺談

國 志,劉 暢,曾昱祺

(國家無線電監測中心,北京 100037)

在全球化、信息化和市場化的今天,數據可以帶給我們的價值不言而喻。隨著智能社會的到來,大數據的沖擊,我們這代人正迎接著嶄新的機遇。本文在總結大數據時代新變革的基礎上,對當今主流大數據技術進行了列舉和介紹。在這樣一個需要高瞻遠矚的大變革時代,只有掌握最新的技術,才能在這輪技術浪潮中站穩腳跟,脫穎而出。

大數據;Hadoop;Storm;Apache Drill

Keyords:Big Data; Hadoop; Storm; Apache Drill

1 引言

大數據是現代信息技術的重要發展方向之一,實現大數據的共享和分析將帶來不可估量的經濟價值,同時也對社會產生巨大的推動作用。美國互聯網數據中心指出,互聯網上的數據每年將增長50%,每兩年便將翻一番。IBM的研究稱,整個人類文明所獲得的全部數據中,有90%是過去兩年內產生的。而到了2020年,全世界所產生的數據規模將達到今天的44倍。大數據在現代社會和經濟活動中發揮著極其重要的作用,有效利用大數據會產生不可估量的價值。

2 大數據帶來的新變革

(1)全體數據替代隨機樣本。在過去很長的時間之內,由于數據儲存和分析能力的缺陷,人們無法準確地對大量數據進行處理,只能通過采樣的手段用最少的數據得到最多的信息,但這只是在不能收集和分析全部數據時的折中做法,本身存在很多缺陷。近些年,隨著云計算的產生和興起,大數據的處理迎來了一次巨大的飛躍。通過云計算可以處理的數據大大增加,用全體數據替代隨機樣本逐漸成為可能。

(2)混雜性替代精確性。過去,由于被采樣的數據樣本偏小,則對數據分析就要求精準,盡可能地減少錯誤,因為收集的有限性意味著微小的錯誤會被放大,甚至影響整個結果的準確性。而對于“大數據”,單個結果的精確就顯得不那么重要了。與其浪費計算在提高數據的精度上,不如用來處理更大量的數據。這樣,我們就不需要過于擔心某個數據對整套分析產生的不利影響,而是從這些紛繁復雜的數據中收益。相比小數據時代的精確,大數據更強調數據的完整性和混雜性。

(3)“是什么”代替“為什么”。我們網購時,每當買到一件心儀的物品以后,系統會向你推薦一些其他商品。事實證明,這個推薦比較準確。而為什么兩樣不相關的東西會產生關聯?誰也不知道,但事實就是這樣。對商家來說,是什么比為什么更實惠。當然,其中有些很可能只是巧合,但基于大量數據時就能篩選掉大多數巧合。而隨著計算能力和可用數據的增加,簡單的線性關系向著更復雜的非線性關系轉變,給人們帶來更加豐富的結論和新的認識。

3 當今主流的大數據技術

在大數據時代,對大數據進行統一表示,實現大數據處理、查詢、分析和可視化是亟需解決的關鍵問題。互聯網點擊數據、傳感數據、日志文件、具有豐富地理空間信息的移動數據和涉及網絡的各類評論,成為了海量信息的多種形式。海量的電子政務數據、移動終端數據、網站日志、社交媒體數據、來自物聯網傳感器的流式數據、企業長期積累的業務數據等也都是大數據的主要來源。現有面向大數據的研究主要針對存儲、處理、分析、可視化等某一方面的關鍵技術。本文搜羅了如下當今主流大的數據技術。

3.1 Hadoop

Hadoop是目前大數據平臺中應用率最高的技術,特別是針對諸如文本、社交媒體以及視頻等非結構化數據。Hadoop可以部署在價格低廉的服務器上,形成分布式系統,它提供高吞吐量來訪問應用程序的數據,適合那些有著超大數據集的應用程序。

Hadoop的核心是HDFS和MapReduce。HDFS具有高容錯性和高擴展性等優點。MapReduce分布式編程模型允許用戶在不了解分布式系統底層細節的情況下開發并行應用程序。因此,通過Hadoop可以輕松地組織計算機資源,搭建自己的分布式計算平臺,完成海量數據的處理。相對當前應用較多的SQL關系型數據庫,HDFS提供了一種通用的數據處理技術,它用大量低端服務器代替大型單機服務器,用鍵值對代替關系表,用函數式編程代替聲明式查詢,用離線批量處理代替在線處理,以高容錯的方式并行處理大量的數據集。

Hadoop目前已廣泛應用于Web搜索、廣告系統、數據分析和機器學習等領域。Hadoop作為網絡公司的重要工具,包括Yahoo,Facebook都利用它處理不斷增長的非結構化數據。

3.2 Storm

隨著大數據業務的快速增長,針對大規模數據處理的實時計算變成了一種業務上的需求,缺少“實時的Hadoop系統”已經成為整個大數據生態系統中的一個巨大缺失。Storm正是在這樣的需求背景下出現的,并很好地滿足了這一需求。

Storm是一個自由的開源、分布式的實時計算系統,它可以快速可靠地處理龐大的數據流。Storm很簡單,支持許多種編程語言,使用靈活,它為分布式實時計算提供了一組通用原語,可被用于“流處理”之中,實時處理消息并更新數據庫。Storm也可被用于“連續計算”,對數據流做連續查詢,在計算時就將結果以流的形式輸出給用戶,它可以方便地在一個計算機集群中編寫與擴展復雜的實時計算。Storm處理速度很快,在一個小集群中,每秒可以處理數以百萬計的消息。

許多知名的企業諸如淘寶、支付寶、阿里巴巴、Groupon、樂元素、Admaster等都基于它做開發。

3.3 Apache Drill

為了幫助企業用戶尋找更為有效、加快Hadoop數據查詢的方法,Apache軟件基金會發起了一項名為“Drill”的開源項目。Drill已經作為Apache孵化器項目來運作,將面向全球軟件工程師持續推廣。該項目將會創建出開源版本的谷歌Dremel Hadoop工具(谷歌使用該工具來為Hadoop數據分析工具的互聯網應用提速),而Drill將有助于Hadoop用戶實現更快查詢海量數據集的目的。

Drill項目其實也是從谷歌的Dremel項目中獲得靈感,該項目幫助谷歌實現海量數據集的分析處理,包括分析抓取Web文檔、跟蹤安裝在Android Market上的應用程序數據、分析垃圾郵件、分析谷歌分布式構建系統上的測試結果等。通過開發DrillApache開源項目,組織機構將有望建立Drill所屬的API接口和靈活強大的體系架構,從而幫助支持廣泛的數據源、數據格式和查詢語言。

3.4 IBM PureData System

IBM PureData System是PureSystems系列的成員,它將系統的靈活性、云的彈性和針對工作負載進行調優的設備的簡易性進行結合,從根本上改變了IT的體驗和經濟效益。IBM PureData System主要面向大數據應用,幫助企業更加高效地管理、分析海量數據,并從中獲取業務洞察。它以保證簡單性、速度和低成本為前提,向當今高要求的應用程序交付數據服務而進行了優化。

據IBM公布的數據顯示,目前已有60多家獨立軟件供應商表示將全力支持PureData。包括DynaFront系統和PCCW電訊盈科在內的多個合作伙伴,已經在其數據中心內部安裝了PureSystems。中國市場的合作伙伴方面,文思海輝技術有限公司已經推出了基于PureData System的金融行業解決方案。

3.5 GFS MapReduceBigTable

谷歌的GFS MapReduceBigTable平臺是以云服務為主打的新一代搜索引擎,專為BigTable設計的分布式存儲Colossus,也被稱為二代Google文件系統,它專為建立Caffeine搜索索引系統而用。基于Colossus,谷歌為用戶提供了可以計算、存儲以及應用的云服務。為了更好地支持大數據集的互動分析,Google推出了Dremel和PowerDrill。Dremel被設計用來管理海量的大數據集(指數據集的數量和每數據集的規模都大),而PowerDrill則設計用來分析少量的大數據集(指數據集的規模大,但數據集的數量不多)時提供更強大的分析性能。在谷歌新一代搜索引擎平臺上,每月40億小時的視頻,4.25億Gmail用戶,150,000,000GB Web索引,卻能實現0.25秒搜索出結果。

4 結束語

隨著移動互聯網、物聯網、社交網絡等技術和應用的興起,全球范圍內數據量迅猛增長,大數據時代已經來臨。如今,越來越多的應用涉及到大數據,于是不斷涌現的大數據新技術就顯得尤為重要。大數據正在影響著人們的生活方式、生產方式、國際競爭乃至整個時代。如能敏銳的發掘并利用好大數據新技術,搶占現機,必將從大數據時代的發展中獲益匪淺。人類正在從工業文明邁入信息文明,隨著大數據的沖擊,智能社會的到來,我們這代人迎接著嶄新的機遇。在大數據技術已經逐漸發展并趨于成熟的今天,如何整合資源,掌握先進技術,在全球競爭中發揮后發優勢,在這輪技術浪潮中站穩腳跟,脫穎而出,我們期待著中國的騰飛。

Brief Introduction ofModernBig Data Technology of Radio Monitoring Data

Guo Zhi, Liu Chang, Zeng Yuqi

(State Radio Monitoring Center, Beijing, 100037, China)

Today, the world is being globalization, informatization and marketization. Data can bring us great value.With the arrival of the intelligent society and the impact of the large data, our generation is to meet the new opportunities. This paper summarizes the new changes of the Big Data era and introduced some of the modern Big Data technology. In such an era of the great change, only grasp the latest technology can help us gain a foothold in this technology wave and stand out.

10.3969/J.ISSN.1672-7274.2015.07.017

TN919文獻標示碼:B

1672-7274(2015)07-0066-03

國 志,男,1987年生,碩士,國家無線電監測中心助理工程師,主要從事專利申請、科技獎申報、招投標等方面的工作。

劉 暢,女,1987年生,碩士,國家無線電監測中心助理工程師,主要研究方向為衛星頻率和軌道資源情況、衛星網絡間的國際協調。

曾昱祺,男,1987年生,碩士,國家無線電監測中心助理工程師,主要研究方向為衛星產業情況。

猜你喜歡
分析
禽大腸桿菌病的分析、診斷和防治
隱蔽失效適航要求符合性驗證分析
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統及其自動化發展趨勢分析
經濟危機下的均衡與非均衡分析
對計劃生育必要性以及其貫徹實施的分析
現代農業(2016年5期)2016-02-28 18:42:46
GB/T 7714-2015 與GB/T 7714-2005對比分析
出版與印刷(2016年3期)2016-02-02 01:20:11
中西醫結合治療抑郁癥100例分析
偽造有價證券罪立法比較分析
在線教育與MOOC的比較分析
主站蜘蛛池模板: 亚洲色图欧美在线| 韩日午夜在线资源一区二区| 国产亚洲欧美日韩在线一区二区三区| 九色综合伊人久久富二代| 亚洲成人福利网站| 99视频在线精品免费观看6| 亚洲国产中文欧美在线人成大黄瓜 | 亚洲资源站av无码网址| 中文字幕在线不卡视频| 日韩二区三区| 动漫精品中文字幕无码| 国产精品久久久久久久久久98| 在线中文字幕网| 亚洲成人动漫在线| 2020国产精品视频| 亚卅精品无码久久毛片乌克兰| 亚洲水蜜桃久久综合网站| 91久久国产综合精品| 亚洲综合第一页| 日韩大乳视频中文字幕| 久久综合五月婷婷| 国产在线98福利播放视频免费| 亚洲最新在线| 亚洲国产成人无码AV在线影院L| 亚洲成aⅴ人片在线影院八| 亚洲无线视频| 成年片色大黄全免费网站久久| 国产成人三级| 国产成人无码Av在线播放无广告| 操美女免费网站| 99视频精品全国免费品| 欧美亚洲国产一区| 亚洲乱码在线播放| 国产一级在线播放| 8090午夜无码专区| 久久精品嫩草研究院| 国产成人一区免费观看| 成人中文在线| 又污又黄又无遮挡网站| 一区二区三区四区日韩| 欧美精品H在线播放| 最新日本中文字幕| 国内a级毛片| 国产成人免费| 日本黄色a视频| 热热久久狠狠偷偷色男同| 特级aaaaaaaaa毛片免费视频| 国产一区二区三区视频| 狠狠干欧美| 日本免费福利视频| 亚洲欧洲国产成人综合不卡| 国产精品开放后亚洲| 国产欧美日韩va另类在线播放| 国内精自线i品一区202| 韩日无码在线不卡| aa级毛片毛片免费观看久| 国产91丝袜| 亚洲综合精品香蕉久久网| 自慰网址在线观看| 五月天久久综合| 日韩资源站| 人妻无码中文字幕第一区| 尤物亚洲最大AV无码网站| 日韩最新中文字幕| 波多野结衣一区二区三区四区视频| 99久久精品免费看国产免费软件| 操国产美女| 欧美在线网| 97久久精品人人| jijzzizz老师出水喷水喷出| 女人一级毛片| 又爽又黄又无遮挡网站| 超碰91免费人妻| 免费a在线观看播放| 一级做a爰片久久免费| 免费毛片全部不收费的| 99re经典视频在线| 凹凸精品免费精品视频| 国产一级一级毛片永久| 99热这里只有免费国产精品 | 国产特级毛片| 亚洲天堂免费|