譚琳
摘 要:大數據是繼物聯網、云計算技術后世界又一熱議的信息技術,這種密集型數據爆炸現象的出現,標志著“大數據”時代的到來。文章介紹了大數據的概念,分析闡述了大數據相關技術。
關鍵詞:大數據 數據處理 相關技術
中圖分類號:TP334 文獻標識碼:A 文章編號:1674-098X(2014)02(a)-0048-01
“大數據”是從英語“Big Data”一詞翻譯而來的,是當前IT界熱議和追逐的對象,是繼物聯網、云計算技術后世界又一熱議的信息技術,發展迅速。截至2011年年底,全球互聯網總數據存儲量已達100億TB以上,并且以59%以上的年增長率遞增。麥肯錫公司在2011年的報告(Bigdata:the Next FrontierforInnovation)中,對這種密集型數據爆炸的現象稱為“大數據”時代的到來。大數據領域出現的許多新技術,是大數據采集、存儲、處理和呈現的有力武器。
1 大數據概念
大數據概念的前身是海量數據,但兩者有很大的區別。海量數據主要強調了數據量的規模,對其特性并沒有特別關注。而大數據對傳播速率、體積、特征等數據的各種特性進行了描述。目前對大數據最廣泛的定義是:大數據是無法在一定時間內用通常的軟件工具進行收集、分析、管理的大量數據的集合。大數據的特點一般用“4V”概括,即:Volume:數據量大,目前大數據的最小單位一般被認為是10~20TB的量級;Variety:數據類型多,包括了結構化、非結構化和半結構化數據;value:數據的價值密度很低;velocity:數據產生和處理的速度非常快。
2 大數據相關技術
2.1 大數據處理通用技術架構
大數據的基本處理流程與傳統數據處理流程的主要區別在于:由于大數據要處理大量、非結構化的數據,所以在各個處理環節中都可以采用并行處理。目前,MapReduce等分布式處理方式已經成為大數據處理各環節的通用處理方法。
MapReduce分布式方法最先由谷歌設計并實現,包括分布式文件系統GFS、MapReduce分布式編程環境以及分布式大規模數據庫管理系統Bigrable。MapReduce是一套軟件框架,包括Map和Reduce兩個階段,可以進行海量數據分割、任務分解與結果匯總,從而完成海量數據的并行處理。MapReduce的工作原理是先分后合的數據處理方式。Map即“分解”,把海量數據分割成若干部分,分給多臺處理器并行處理;Reduce即“合并”,把各臺處理器處理后的結果進行匯總操作,以得到最終結果。用戶只需要提供自己的Map函數以及Reduce函數就可以在集群上進行大規模的分布式數據處理。MapReduce將處理任務分配到不同的處理節點,因此具有更強的并行處理能力。
2.2 大數據采集
大數據的采集是指利用數據庫等方式接收發自客戶端(Web、App或者傳感器形式等)的數據。大數據采集的主要特點是并發訪問量大,因為同時有可能會有成千上萬的用戶來進行訪問和操作,比如火車票售票網站的并發訪問量在峰值時達到上百萬,這時傳統的數據采集工具很容易失效。大數據采集方法主要包括:系統日志采集、網絡數據采集、數據庫采集、其他數據采集等四種。
2.3 大數據分享
目前數據分享主要通過數據集市和開放數據平臺等方法實現。開放數據平臺可以提供涵蓋本地服務、娛樂、教育和醫療等方方面面的數據集合,用戶不但可以通過API訪問,還可以很方便地通過SDK集成到移動應用當中。在線數據集市除了提供下載數據的功能外,還為用戶提供上傳和交流數據的場所。數據平臺和數據集市不但吸引有數據需求用戶,還能夠吸引很多數據開發者在平臺上進行開發。
2.4 大數據預處理
數據預處理就是對采集的數據進行清洗、填補、平滑、合并、規格化以及檢查一致性等處理,并對數據的多種屬性進行初步組織,從而為數據的存儲、分析和挖掘做好準備。通常數據預處理包含三個部分:數據清理、數據集成和變換和數據規約。
2.5 大數據存儲及管理
大數據需要行之有效的存儲和管理,否則人們不能處理和利用數據,更不能從數據中得到有用的信息。目前,大數據的存儲和管理技術主要分三類:分布式文件系統、數據倉庫和非關系型數據庫(NoSOL)。
2.6 大數據分析及挖掘
大數據的分析和挖掘是一種決策支持過程,它主要基于人工智能、機器學習、模式識別、數據挖掘、統計學、數據庫等技術,高度自動化地分析大數據,做出歸納性的推理,從中挖掘出潛在的模式,從而在大數據中提取有用信息。大數據的分析和挖掘與傳統的數據挖掘比較有兩個特點:一是通常采用并行處理的方式;二是大數據分析對實時處理的要求很高,流處理等實時處理技術受到人們歡迎。常用的方法有:機器學習、數據挖掘、模式識別、統計分析、并行處理。
2.7 大數據檢索
①數據庫實時檢索:在數據倉庫或者NoSOL等大數據存儲平臺上,或者多個不同結構的數據存儲平臺之間快速、實時地查詢和檢索不同結構的數據。②實時搜索引擎:對互聯網上的大量數據和信息進行即時、快速搜索,實現即搜即得的效果。目前各大搜索引擎都在致力于實時搜索的實現。
2.8 大數據可視化
可以提供更為清晰直觀的數據感官,將錯綜復雜的數據和數據之間的關系,通過圖片、映射關系或表格,以簡單、友好、易用的圖形化、智能化的形式呈現給用戶供其分析使用,可通過數據訪問接口或商業智能門戶實現,通過直觀的方式表達出來。可視化與可視分析通過交互可視界面來進行分析、推理和決策;從海量、動態、不確定甚至相互沖突的數據中整合信息,獲取對復雜情景的更深層的理解;可供人們檢驗已有預測,探索未知信息,同時提供快速、可檢驗、易理解.的評估和更有效的交流手段。可視化是人們理解復雜現象,診釋復雜數據的重要手段和途徑。
2.9 大數據應用
①視頻搜索;②內容分析;③理賠分析;④社交網絡分析;⑤社會分析;⑥社交媒體監控。
2.10 大數據安全
大數據技術的發展,使得人們能夠從這些數據中觀察和分析社會動態、人群的動作和行為、人群活動規律以及企業的商業秘密。海量數據本身,以及數據中蘊藏的信息涉及到國家、社會、企業和人們的隱私,這對大數據時代的信息安全提出巨大挑戰。因此,大數據時代需要發展信息安全技術,確保關系到人們生活方方面面的數據和信息不會被泄漏。
目前除了傳統的信息安全方法外,大數據領域還有安全基礎設施、安全數據倉庫等。此外,一些數據庫安全管理軟件能夠對不同操作系統上運行的異構關系型數據庫進行實時監控,一些大型安全數據庫能夠對與商務數據結合在一起的數據進行預防性的分析,以便識別釣魚攻擊,防止詐騙和阻止黑客入侵。endprint