隨著云計算、物聯網、互聯網的高速發展,大數據(Big Data)吸引了眾多眼球,成為近幾年社會發展的焦點。本文首先從大數據的概念入手,接著闡述了大數據的時代背景,然后對傳統數據庫與大數據進行了比較,進而剖析了大數據的代表技術及應用研究。旨在了解大數據當前發展狀況,為以后進行大數據分析與處理提供參考。
一、大數據概念
大數據的4個“V”:Volume,數據體量巨大,從TB級別,躍升到PB級別;Variety,數據類型繁多;Veracity,數據的準確性和真實性;Velocity處理速度快。
廣義上來說大數據已經不再局限于技術領域。如今,大數據除了為應對長期存在的業務挑戰提供解決方案之外,還為流程、組織、整個行業、甚至社會本身的轉型激發了許多新的方式。狹義上來說大數據泛指數據集的大小,產生的速度和數據類型超過了通常的數據庫,數據管理軟件在限定的時間范圍內所能獲取,存儲,管理和分析的范疇。
二、大數據的時代背景
2008年9月,《NATURE》雜志推出了名為“SPECIALS: Big Data”的專欄;12月,計算機社區聯盟發布《Big Data Computing: Creating Revolutionary Breakthroughs in Commerce, Science, and Society》這個報告,闡述了在數據驅動背景下解決大數據問題所需的技術以及面臨的一些挑戰。EMC 公司于2011年舉辦的EMC World大會上提出當年的主題是“云計算相遇大數據”;2012年5月,聯合國對外發布了《Big Data for Development: Challenges and Opportunities》白皮書,探討如何利用互聯網產生的大數據推動全球發展。
三、傳統數據庫與大數據的比較
傳統的數據庫存儲數據采用的都是結構化,在過去的很長一段時間中,關系型數據庫(RDMS)一直是最主流的數據庫解決方案,他運用真實世界中事物與關系來解釋數據庫中抽象的數據架構。使用的數據庫系統有Oracle、MySQL、DB2、SQL Server等。
然而,在信息技術爆炸式發展的今天,大數據已經成為了繼云計算、物聯網后新的技術革命,關系型數據庫在處理大數據量時已經開始吃力,開發者只能通過不斷地優化數據庫來解決數據量的問題,但優化畢竟不是一個長期方案,所以人們提出了一種新的數據庫解決方案來迎接大數據時代的到來——NoSQL。處理非關系型數據使用的數據庫管理系統最多的是MongoDB,MongoDB盡可能精簡數據庫,將盡可能多的操作交給客戶端。
四、大數據的代表技術
(一)Hadoop
Hadoop它來源于Google的一個編程模型包,目前,已經有很多公司開始提供基于Hadoop的培訓、服務,它有高可靠性、高擴展性、高效性、高容錯率、低成本等優點,所以用戶可以輕松在在Hadoop上編寫程序。
(二)NoSQL
隨著互聯網的發展,傳統的關系數據庫已經無法滿足非結構化大數據的存儲和處理,顯得力不從心,NoSQL數據庫就是為了解決非結構化大數據帶來的種種挑戰,是一項全新的數據庫革命。
(三)Streaming
Streaming是一種流動傳動數據技術,即客戶機接收的數據變成流,源源不斷,客戶機看到的圖片不受任何影響,完全可以在整個文件傳送完之前瀏覽屏幕上的文件。
五、大數據的應用研究
(一)大數據的采集
采集的結構化數據包括生產報表、經營報表等具有關系特征的數據;非結構化數據,主要包括網頁( HTML)、格式文檔(Word、PDF)、文本文件(Text)等文字性資料。這些數據目前可以通過關系數據庫和專用的數據挖掘軟件進行挖掘采集。特別是非結構化數據,如DSM相關的各種動態等信息對DSM分析研究十分重要,綜合運用定點采集等搜索技術。
(二)大數據的導入
將這些來自前端的數據導入到一個集中的大型分布式數據庫或者分布式存儲集群,并且做一些簡單的清洗和預處理工作,也可以使用Storm技術來對數據進行流式計算。導入和預處理過程的特點和挑戰主要是導入的數據量大,每秒鐘的導入量經常會達到百兆,甚至千兆級別。
(三)大數據的存儲與管理
隨著數字圖書館、電子商務、多媒體傳輸等不斷發展,數據從GB、TB到PB量級海量急速增長。存儲設備不僅僅局限于單一的控制界面,同時,也對數據的精簡提出了要求。根據這些衍生的問題,重復數據刪除和自動精簡配置這兩項技術呼之欲出。針對海量數據存儲,目前主要開展了虛擬存儲技術、高性能I/O、網格存儲系統等這些方面的研究。
(四)大數據的應用實例
最經典的大數據應用實例當屬名為 “Google流感趨勢” 的工具;比如廣東移動基于數據挖掘的數據業務精確營銷,增加了數據業務收入,有力地促進了業務收入KPI指標的完成,促進了彩信、手機等業務的用戶增長,降低了彩鈴客戶的流失率,為重點業務用戶數的KPI指標完成做出重要貢獻;洛杉磯警察局和加利福尼亞大學合作利用大數據預測犯罪的發生。
六、結語
大數據給人們帶來了便利,同時也給了人們一種發掘數據的挑戰。馬云在2017世界物聯網無錫峰會上發言中說:“大數據是重要的生產資料,涵蓋兩個關鍵:大計算和云數據,也就是強大的計算能力和從云端可取的大量數據。物聯網和云計算大數據,合在一起才是真正的未來?!?麥肯錫預測未來中國大數據產品的潛在市場規模有望達到1.57萬億元,給IT行業開拓了一個新的黃金時代。(作者單位為鄭州財經學院)