張磊+顧景民

【摘 要】隨著大數據的發展,大數據運用到企業各個領域,數據量成指數倍增長,運用現今大數據、云計算等技術,大數據平臺承載能力已經力不從心,在某種程度上陷入了停滯。企業大數據平臺建設的過程中面臨著很多的技術難題,因此要優化企業大數據平臺系統架構,并深入了解大數據的系統瓶頸,尋求解決之道,迎接大數據的新時代。
【關鍵詞】大數據;系統架構;瓶頸;采集處理;數據分析
0 引言
進入大數據時代,海量數據,成為一個企業的最大的資產這項資產非常龐大,數據的類型繁多復雜,由于數據存儲管理極為分散,造成了過量的數據冗余和數據的不一致性,使得數據資源難于查詢訪問,管理層無法從中輕易獲得有效的決策數據支持;一些信息集成度低、互聯性差、信息管理分散,數據的完整性、準確性、及時性等方面存在較大差距;數據中蘊藏著巨大信息資源,但是沒有通過有效工具充分挖掘利用,信息資源的增值作用還沒有在管理決策過程中充分發揮。如何從這些數據資產抽取發再其中巨大的價值,成為眾多企業需要解決的嚴峻問題。
1 大數據平臺
1.1 何為大數據
大數據指無法在可承受的時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。簡單的來講,大數據是一個非常龐大,非常復雜的數據集合,以至于傳統的數據庫管理員、數據處理程序對其束手無策。
1.2 大數據的平臺架構
大數據平臺是解決大數據計算的方案的綜合性平臺,是以存儲、運算、展現作為目的的。提供可靠的、可以支撐業務性能要求的數據存儲,對海量數據進行計算與分析,對分析結果綜合形象的展現。
大數據系統優化架構分為基礎架構層、中間層重量級綜合平臺和上層輕量級構件平臺三層架構。
基礎架構平臺。大數據基礎架構依賴于云計算技術,擴展了云,又融于云,包括存儲、網絡、計算等資源。云計算技術融合分布式計算、網絡存儲、虛擬化、負載均衡等計算機和網絡技術,為大數據平臺提供強有力的基礎架構。
中間層重量級綜合平臺。中間層融入系統數據集成系統、存儲系統、數據分析計算系統、綜合數據服務系統四大系統,完成從大數據源數據采集、存儲、挖掘分析、服務應用的數據綜合平臺。中間層由以技術主導大數據綜合平臺和以業務流程整合為先鋒的BPM綜合流程管理相輔相成,構建企業穩固的大數據綜合平臺。
上層輕量級構件平臺。基于構件化的綜合平臺可以復用已有的應用系統、應用框架,并有較強的用戶需求變化適應能力。用戶可以通過基本的系統配置,進行簡單的托拽,就可以實現不同風格的門戶系統與分析系統。基于構件的統一門戶平臺與BI分析系統,將是上層應用發展的趨勢。
建立統一的構件化的企業門戶系統。將各業務應用做構件化的portlet等,使門戶集成更方便快捷。BI分析系統是一個集數據整合、展現、分析挖掘及共享一體的大數據可視化數據平臺。BI分析系統中各個元素指標構件化,可以與系統門戶集成,也可以采用移動構件化模式,滿足快速移動開發。
2 企業實施大數據系統過程中應解決的技術難點
企業在實施大數據建設的過程中需要著重解決以下技術難點,主要包括數據采集處理、數據質量、數據分析等,解決了這些問題,借助于大數據平臺對企業海量數據的處理分析,就可以從中挖掘出通過傳統信息化手段所不能分析決策數據。
大數據平臺優化的系統架構中,中間重平臺層面,承載大數據平臺核心技術架構,大數據的快速存儲、安全性、準確性和實時性等都給大數據平臺提出了挑戰。
2.1 數據采集處理
大數據環境下,數據來源非常豐富且數據類型多樣,存儲和分析挖掘的數據量龐大,對數據展現的要求較高,并且很看重數據處理的高效性和可用性。
傳統的數據挖掘、分析處理方法和工具,在非結構化、高速化的大數據處理要求面前顯得過于乏力,需要創新開發適應新型大數據處理需求的數據挖掘和數據處理方法。
非結構化數據是指不方便用數據庫二維邏輯表來表現的數據,包括所有格式的文檔、圖片、XML、HTML、圖像和音頻/視頻信息等等。在處理非結構化信息、全文信息、多媒體信息和海量信息等領域的技術還未成熟,在非結構化數據的管理和全文檢索方面需要亟待解決的技術問題。
據IDC的一項調查報告中指出:企業中80%的數據都是非結構化數據,這些數據每年都按指數增長60%。非結構化數據,顧名思義,是存儲在文件系統的信息,而不是數據庫。
數據采集處理完整架構圖對ETL功能架構中的抽取、清洗、轉換、加載進行了詳盡的描述。
數據ETL工具,比較快速、高效、安全、穩定的當屬Informatica等系列產品,它具有靈活開發和部署、安全可靠的企業數據、無可比擬的性能和可擴展性等優點。當然也有開源Kettle等輕便、實用的產品。
2.2 數據質量
影響數據質量的因素主要來源于四個方面:數據、技術、流程和管理因素。技術因素是數據質量的基石,為數據質量鋪平道路。
技術因素主要是指由于具體數據處理的各技術環節的異常造成的數據質量問題。數據質量問題的產生環節主要包括數據創建、數據獲取、數據傳輸、數據裝載、數據使用、數據維護等方面的內容。
通過MTC-DQM 數據質量管理管理,數據質量管理系統來解決數據質量問題。數據質量管理系統的技術實現程度很大程度決定數據質量的高低。
2.3 數據分析
大數據發展的另一個大的瓶頸是數據分析技術。數據能發揮的潛力是無窮的。發掘數據,使其發出耀眼的光芒是數據分析重要任務。舉一個簡單的例子:視頻數據與考勤圖片分析。視頻分析本身就是一個非常困難的問題。我們有很多監控視頻,能分析出人物的少之又少,能高階分析出視頻中的規律性信息基本沒有。另一個是考勤信息分析,人臉考勤基本都是靠人工一個一個核對,基本沒有系統能自動識別出來,并且能分析出深度的考勤信息。另一個例子中國的語言復雜化這對于大數據發展也是一個瓶頸。我們的數據質量差、噪音多,所以造成了數據分析難度的加大。所以這個時候就需要算法和模型進行優化,來滿足我們大數據的需求。
并不是要有很完美的數據才能做分析,完美的數據永遠是等不來的,因此需要進行數據整合來進行數據分析,把碎片化的數據整合起來形成整體進行分析,做好數據的修正分析工作,這需要相當的技術模型支撐。
數據分析軟件面對當今的海量數據已顯得力不從心,當然隨著數據分析技術的發展,Apache的Hadoop、LexisNexis的HPCC系統等,逐步提升數據分析引擎分析能力,給復雜數據分析提供技術支撐。
大數據分析結果的解讀和應用。數據分析師不但能夠解讀大數據,同時還能發現各個業務要素之間的關聯,為數據分析的可靠性和準確性提供更好的保證。
3 發展前景
大數據數據分析能力成為企業核心競爭力。當“數據資產是企業核心資產”的概念深入人心之后,企業對于數據管理便有了更清晰的界定,持續發展,戰略性規劃與運用數據資產,成為企業數據管理的核心。
根據大數據發展分析趨勢報告,到2020年全球將總共擁有35ZB的數據量,預測未來大數據產品在三大行業的應用就將產生7千億美元的潛在市場,未來中國大數據產品的潛在市場規模有望達到1.57萬億元,給IT行業開拓了一個新的黃金時代。
隨著大數據的進一步發展,阻礙大數據的發展的系統瓶頸迎刃而解,這將掀起大數據二次革命,進入大數據的新時代。
【參考文獻】
[1]馮永強,張良,馮怡,朱尚杰.大數據應用的現狀與展望[J].信息化建設,2015(12).
[2]趙國棟.大數據時代的三大發展趨勢[J].高科技與產業化,2013(05).
[3]2016-2022年大數據市場現狀調研分析及發展前景報告[R].
[4]張常淳.基于MapReduce的大數據連接算法的設計與優化[D].中國科學技術大學,2014.
[責任編輯:李書培]