摘要:隨著“互聯網+”時代的發展,人們已經從各種信息數據的使用和接收方變為數據的發送方,基于大數據的應用日漸成熟,各種行業類型的數據時刻都在產生著,基于大數據的應用系統就是在如此龐大的數據量的基礎上建立的應用系統,系統應當具備強大的數據處理和分析能力,才能夠在海量的數據當中尋求出有價值的數據,為行業發展提供洞察力和優化行業流程,為決策層提供精準決策,從而使得用戶能夠掌握龐大的數據信息資產。基于大數據的應用技術核心優勢就是對有價值的數據進行處理和分析,本課題研究介紹了基于大數據應用技術的數據分析系統架構的實現過程。
關鍵詞:大數據;數據分析;系統架構
在信息時代的今天,各個行業領域都有大量的數據,善于分析利用這些數據,能夠為行業帶來巨大的發展空間,甚至能夠引起行業的變革,因此基于大數據的應用的關鍵技術就是數據分析的系統的架構。
基于大數據的應用的出現,給傳統的數據分析系統架構帶來了新的挑戰,數據分析是隱藏在應用系統的背后,對于應用分析結果有舉足輕重的作用,隨著數據挖掘、探索等技術的發展,基于大數據的數據分析系統架構應該側重解決傳統數據分析的三個瓶頸問題:第一,分布式計算,分布式計算的設計思路是多個節點并行計算,強調的是數據本地化,數據盡可能少傳輸。第二,分布式存儲,所謂分布式存儲就是將一個大文件拆分為多個小文件分別存儲到不同的主機,通過分片式管理技術對文件進行管理。第三,數據的檢索和存儲相結合,基于大數據的數據分析面臨著海量的數據和多種數據類型,在不規范的數據中進行數據檢索。
一、基于大數據的應用系統架構
在Hadoop體系的分布式應用中,基于大數據的數據分析應用架構已經和大數據信息架構互相結合,為各個行業領域在大數據的應用中帶來了許多經濟價值和數據信息資產,Hadoop體系采用云計算和分布式的應用技術,能夠對大數據進行處理和分析,對未來大數據的信息中更大價值的數據源進行進一步的數據挖掘,會獲得更大的數據潛在價值。
(一)Hadoop對日志數據處理
目前互聯網站點的數量在呈指數級別增長,Web服務器會因為業務量的劇增而生成龐大的數據日志文件數據,其中包括了網址訪問和業務數據流程處理的相關數據,這些日志文件數據會通過一系列的云計算算法處理后,上傳到云端,通過分析處理這些數據能夠反映給整個應用系統的實時運行狀態,同時也可以反饋遇到的一系列系統異常問題。
(二)Hadoop并行處理系統架構
在Hadoop體系的分布式大數據應用中,數據采集模塊會將采集到的各種類型的數據傳送到Hadoop的并行處理系統架構中,然后信息數據被保存到HDFS中,傳送的數據會被Hadoop體系中的MapReduce并行計算編程模型作為框架來進行系統化處理,MapReduce分布式的并行計算編程模型能夠有效地解決數據分布范圍大并且零散導致采集難的問題,這些信息數據會在分析前被分散到各個分節點,然后系統會利用就近原則讀取相鄰節點的數據,然后映射數據進行處理分析,經過處理分析后的數據會被再進行數據匯聚合并,所以基于Hadoop體系的大數據分析應用具備高速、可靠的特點,能夠滿足大數據的數據處理和分析的需求。
二、基于大數據的數據分析系統架構
(一)傳統的大數據數據分析架構
傳統的大數據數據分析架構,傳統的BI數據分析,由于數據量和系統性能不能滿足大數據,所以基于此類的數據分析技術上是使用了大數據的數據分析組件替換傳統的BI系統組件,保留了大數據的ETL操作,相對解決基于大數據的BI數據分析。整個架構相對簡單易懂,缺點就是缺乏對實時數據分析的支持。
(二)流式數據分析架構
數據在應用過程中全部以流的形式進行分析處理,直接去掉了數據批處理,用數據通道替換了ETL操作,經過流式數據分析處理加工后的數據,以信息推送的方式推送給用戶,相對于其他數據分析架構,流式架構由于取消ETL操作,所以數據的處理效率非常高,但是由于沒有了數據批處理,沒有很好的支撐數據統計和重播,不利于離線進行數據分析。
(三)Lambda數據分析結構
在大數據分析系統中Lambda架構是比較重要的一種數據分析架構方式,大多數的架構都是基于這種架構,Lambda架構的數據通道分為兩個:實時數據流分析和離線數據分析,實時數據流的分析架構是流式架構,多數采用增量式計算,保障了數據處理分析的實時性,離線數據分析就以全量運算的數據批處理為主,保證了數據的一致性。在Lambda架構的最外層是一個實時和離線的數據分析合并層,這個合并層是Lambda架構的關鍵,既集合了實時數據分析和離線數據分析的優點,對于數據分析的應用比較廣泛,適合于對實時數據分析和離線數據分析同時需求存在的場景。
(四)Kappa數據分析架構
Kappa數據分析架構是在Lambda架構的基礎進行優化,在數據通道上把實時數據分析和流式數據分析進行了合并,以消息隊列進行數據傳輸。在以Kappa架構的數據分析上來講,還是以數據流的分析形式為主,不同的是數據存儲是在數據湖層面上,當需要對離線數據分析或者執行重新的數據分析操作時候,只需要把數據從數據湖層以消息隊列的方式將數據重播一次就行了。Kappa數據分析架構去除了Lambda架構當中的冗余部分,將數據分析重播作為創新的形式加入到架構當中,Kappa結構整體相當簡潔,缺點就是雖然結構簡潔,但是由于數據分析重播部分實現難度較高,所以總體架構難度比較大。
(五)Unifield數據分析架構
以上的幾種數據分析架構都是以處理海量數據為主,Unifield數據分析架構是將數據處理分析與機器學習整合為一體,從架構的核心層面來看,Unifield數據分析架構還是基于Lambda架構,只是在數據流分析層加入了機器學習層,增加了數據模型訓練,數據在加載后從數據通道到數據湖后,進行數據模型訓練,然后提供給數據分析流層調用,同時數據分析流層會對數據進行持續的數據模型訓練Unifield數據分析架構套數據分析與機器學習的架構,很好的解決了數據分析平臺與人工智能領域相結合的問題,適合使用在基于大數據下的數據分析下的人工智能應用中,缺點就是由于整合了機器學習層,要求架構技術更高。
三、結束語
本課題分析了基于大數據的數據分析架構,并且提出了一些可行的數據分析架構方案,分別歸納出各種數據分析架構的性能、可靠性和優缺點,希望在未來的信息科技時代,我們能夠善用大數據,為社會各行業提供更多的有價值數據分析,使得我國在大數據分析的技術方面邁向新的發展。
參考文獻:
[1]陳琳,陳耀華.以信息化帶動教育現代化路徑探析[J].教育研究.2013(11).
[2]王勝,聶立武,韓古月.智慧教育內涵與教學體系研究[J].遼寧高職學報.2015(11):21-23.
[3]祝智庭,賀斌.智慧教育——教育信息化的新境界[J].電化教育研究.2012(12):5-7.
[4]樊娜,黃雪琴.大數據時代下的個性化學習探討[J].科技風,2015(7):23.
[5]楊現民.信息時代智慧教育的內涵與特征[J].中國電化教育,2014(1):29-34.
[6]陳律.大數據背景下學習分析技術對教學模式的變革[J].中國教育信息化,2015(24):15-17.
作者簡介:
李超宇(1982—),男,廣西梧州人,高校講師,網絡工程師,工學碩士,主要從事云計算、大數據與計算機網絡方面的研究。
基金項目:
2016年度廣西壯族自治區中青年基礎能力提升項目“基于大數據的教育技術信息平臺的應用研究”(KY2016YB899)