許承亮
?
淺談大數據的發展現狀及應用
許承亮
69010部隊,新疆 烏魯木齊 830000
在大數據時代,重視自動化和智能化運用前景,應突出數據挖掘的在線分析處理(OLAP)和可視化編程的特點,創造性應用統計理論開展統計工作,才能提高信息化社會知識經濟時代的統計工作質量,才能推動大統計的發展,才能提高信息分析重要組成部分的統計分析質量。
大數據;云計算;虛擬化
大數據被稱為是下一個社會發展階段的“金礦”和“石油”,具有催生社會變革的力量。那么,大數據究竟如何促進行業的變革,創造巨大的發展機遇?大數據在現實世界應用的現狀又是怎樣?本文將就大數據的概念、大數據的技術基礎及在現實世界的應用等作簡要探析。
大數據不僅僅意味著大量的數據,還包含著更深層次的內涵。
1.1 對數據和信息的進一步分析利用
傳統的統計和分析方法已經不能滿足需求,需要利用復雜的模型和處理技術對大量的數據和信息進行深層次的挖掘和分析,從而提取出更具有價值的信息。
1.2 對信息資源的廣泛積累和規范管理
包括對現有內部資源的整合和利用,以及對外部資源的積累和挖掘。隨著互聯網的快速發展,全球數據量也飛速增長,給數據存儲技術帶來巨大的挑戰。存儲成本、存儲性能和非結構化數據的管理成為急需解決的問題。
對大數據集的分析處理技術。以往的分析多是使用計算機對單一數據的計算和統計,而大數據的分析不僅要實現對多元異構數據分析的自動化,還需要能夠根據數據的特點和用戶的需求建立精準有效的分析模型,實現分析過程可視化,并產生時效性強、準確性高的結果。
由此可見“大數據”時代不僅僅是數據的爆炸性增長,還會帶來一系列的技術革新和工作方式的轉變,甚至對某些行業帶來巨大的影響和變化。
2.1 存儲管理技術
2000年前后,互聯網網頁爆發式增長,每天新增約700萬個網頁,到2000年底全球網頁數達到40億。谷歌公司為提供精準的搜索服務,率先提出了一套以分布式為特征的全新技術體系,大大提高了并發訪問能力。[1]然而隨著應用范圍不斷擴展,該系統還存在例如隨機訪問性能較低、海量小文件頻繁寫入能力較弱等不足。整體看來,未來大數據的存儲管理技術將進一步把關系型數據庫的操作便捷性特點和非關系型數據庫靈活性的特點結合起來,研發新的融合型存儲管理技術。
2.2 大數據并行計算技術
大數據的計算是數據密集型計算,對計算單元和存儲單元間的數據吞吐率要求極高。傳統的大型機計算系統不僅成本高,數據吞吐量也難以滿足大數據要求。谷歌在2004年公開的MapReduce分布式并行計算技術,是新型分布式計算技術的代表。MapReduce 系統在成本和可擴展性上都有很大優勢。Yahoo在此基礎上進行改進提出的S4系統、Twitter的Storm系統在實時廣告、微博等系統中已經得到應用。
2.3 大數據分析技術
美國McKinsey Global Institute在2011年5月發布了研究報告《大數據:創新、競爭和生產力的下一個前沿領域》。在大數據分析技術的闡述中,列舉了26項適用于眾多行業的分析技術,包括A/B測試、關聯規則學習、分類、聚類分析、眾包(Crowdsourcing)、數據融合和數據集成、數據挖掘、集成學習、遺傳算法、機器學習、自然語言處理、神經網絡、網絡分析、優化、模式識別、預測建模、回歸、情感分析、信號處理、空間分析、統計、監督學習、模擬、時間薛烈分析、無監督學習和可視化。
大數據應用仍然處于初級發展階段。對大多數企業,特別是傳統領域的行業而言,還未找到有效的應用模式,大多數企業考慮的是投資和回報率的問題。隨著大數據技術不斷演進和引用持續深化,以數據為核心的大數據產業生態正在加速構建。
從實踐情況看,大數據產業生態中主要包括數據解決方案提供商、大數據處理服務提供商和數據資源提供商三個角色,分別向大數據的應用者提供大數據服務,解決方案和數據資源。數據成為重要的資源,大數據資源提供商業也應運而生。商業化的數據交易活動催生了多方參加的數據交易市場。如微軟的Azure Data Marketplace、BlueKai、DataMarket等,主要提供地理空間、營銷數據和社交數據的交易服務。
美國在推動大數據研發和應用上最為迅速和積極,強化頂層設計,力圖引領全球大數據發展。2012年美國政府推出“大數據行動計劃”,重點在基礎技術研究和公共部門應用上加大投入。英國將大數據列為戰略性技術,給予高度關注。2013年1月,英國政府為航天、醫藥等高新技術注資6億英鎊,其中1.89億用于大數據技術的研發。日本政府把大數據作為提升日本競爭力的關鍵,在新一輪IT振興計劃中把發展大數據作為國家戰略的重要內容。澳大利亞、新加坡等過也非常重視大數據的發展,出臺政策并提供資金知識大數據的研發和應用。我國于2014年在《政府工作報告》明確提出,“以創新支撐和引領經濟結構優化升級;設立新興產業創業創新平臺”,在新一代移動通信,集成電路、大數據等方面趕超先進,引領未來產業發展。
本文就大數據的概念、大數據的技術發展現狀、大數據應用發展以及大數據的政策環境進行了簡要闡述??偟膩碚f,大數據目前在國內外的發展仍然處于探索階段,多數行業仍是在原有技術的基礎上增強了對海量數據的處理能力,大數據技術的創新應用還不明顯,距離基于大數據的大規模應用還有很長的路要走。然而大數據的發展毫無疑問仍然是一個趨勢,對大數據挖掘利用能夠發揮巨大的價值,能夠引領一系列的技術創新和產業革新,大數據的大規模應用能給政府、企業帶來更大的競爭優勢,并且將給人們的生活帶來巨大的便利,各個國家和各個行業對大數據研究和探索將持續進行下去。
[1]錢志森.淺析大數據的應用及發展前景[J].信息通信,2014(5):168.
F49
A
1009-6434(2016)04-0052-01